


Bagging (aggregazione bootstrap) nell'apprendimento automatico: riduzione della varianza e miglioramento della generalizzazione
Il bagging (Bootstrap Aggregating) è una tecnica utilizzata nell'apprendimento automatico per ridurre la varianza di un modello e migliorarne la capacità di generalizzazione. Implica la creazione di più istanze dello stesso modello, ciascuna con un sottoinsieme diverso di dati di addestramento, e la combinazione delle rispettive previsioni per ottenere la previsione finale.
Ecco come funziona:
1. Campionamento bootstrap: un sottoinsieme casuale dei dati di addestramento viene selezionato con sostituzione (ovvero, alcuni campioni possono essere selezionati più di una volta). Questo crea un nuovo set di dati che è una rappresentazione casuale di quello originale.
2. Addestramento del modello: ogni istanza del modello viene addestrata sul campione bootstrap.
3. Predizione: ciascuna istanza del modello effettua una previsione sui dati del test.
4. Combinazione di previsioni: le previsioni di tutte le istanze del modello vengono combinate utilizzando una tecnica come la media o il voto per effettuare la previsione finale.
L'idea alla base del bagging è che la casualità nella selezione dei dati di addestramento e dei diversi sottoinsiemi di funzionalità utilizzate da ogni istanza del modello ridurrà la varianza del modello e migliorerà la sua capacità di generalizzare a nuovi dati. Combinando le previsioni di più modelli, il bagging può anche aiutare a ridurre l'overfitting e migliorare la robustezza del modello.
Il bagging è comunemente utilizzato negli alberi decisionali, nelle foreste casuali e in altri metodi di apprendimento d'insieme. È particolarmente utile quando sono presenti molte funzionalità nel set di dati e la relazione tra le funzionalità e la variabile di destinazione è complessa.



