Zsákolás (bootstrap aggregáció) a gépi tanulásban: a szórás csökkentése és az általánosítás javítása
A zsákolás (Bootstrap Aggregating) egy olyan technika, amelyet a gépi tanulásban használnak a modell varianciájának csökkentésére és általánosítási képességének javítására. Ez magában foglalja ugyanannak a modellnek több példányának létrehozását, amelyek mindegyike a betanítási adatok különböző részhalmazával rendelkezik, és ezek előrejelzéseit kombinálja a végső előrejelzéshez.
Íme, hogyan működik:
1. Bootstrap mintavétel: A betanítási adatok egy véletlenszerű részhalmaza kerül kiválasztásra cserével (azaz egyes minták többször is kiválaszthatók). Ez létrehoz egy új adatkészletet, amely az eredeti véletlenszerű reprezentációja.
2. Modell betanítás: A modell minden példánya a bootstrap mintán van betanítva.
3. Előrejelzés: A modell minden példánya előrejelzést készít a tesztadatokon.
4. Előrejelzések kombinálása: A modell összes példányából származó előrejelzéseket olyan technikák segítségével kombinálják, mint az átlagolás vagy a szavazás a végső előrejelzés elkészítéséhez.
A zsákolás mögött az a gondolat áll, hogy a képzési adatok és a jellemzők különböző részhalmazai által használt véletlenszerűség a modell minden egyes példánya csökkenti a modell varianciáját, és javítja az új adatokra való általánosítás képességét. Több modell előrejelzésének kombinálásával a zsákolás segíthet a túlillesztés csökkentésében és a modell robusztusságának javításában.
A zsákolást gyakran használják döntési fákban, véletlenszerű erdőkben és más együttes tanulási módszerekben. Különösen hasznos, ha az adatkészletben sok szolgáltatás található, és a szolgáltatások és a célváltozó közötti kapcsolat összetett.



