Bagging (Bootstrap Aggregating) i maskininlärning: minska variationen och förbättra generaliseringen

Bagging (Bootstrap Aggregating) är en teknik som används i maskininlärning för att minska variansen hos en modell och förbättra dess generaliseringsförmåga. Det innebär att skapa flera instanser av samma modell, var och en med olika delmängder av träningsdata, och kombinera sina förutsägelser för att göra den slutliga förutsägelsen.

Så här fungerar det:

1. Bootstrap-sampling: En slumpmässig delmängd av träningsdata väljs med ersättning (dvs vissa prover kan väljas mer än en gång). Detta skapar en ny datauppsättning som är en slumpmässig representation av den ursprungliga.
2. Modellträning: Varje instans av modellen tränas på bootstrap-provet.
3. Förutsägelse: Varje instans av modellen gör en förutsägelse på testdata.
4. Kombinera förutsägelser: Förutsägelserna från alla instanser av modellen kombineras med hjälp av en teknik som medelvärdesberäkning eller röstning för att göra den slutliga förutsägelsen.

Idén bakom bagging är att slumpmässigheten i valet av träningsdata och de olika delmängder av funktioner som används av varje instans av modellen kommer att minska modellens varians och förbättra dess förmåga att generalisera till nya data. Genom att kombinera förutsägelser från flera modeller kan påsar också bidra till att minska överanpassad utrustning och förbättra modellens robusthet. Det är särskilt användbart när det finns många funktioner i datamängden och relationen mellan funktionerna och målvariabeln är komplex.