Pussittaminen (Bootstrap Aggregating) koneoppimisessa: Varianssin vähentäminen ja yleistämisen parantaminen
Bagging (Bootstrap Aggregating) on koneoppimisessa käytetty tekniikka mallin varianssin vähentämiseksi ja sen yleistämiskyvyn parantamiseksi. Se sisältää useiden esiintymien luomisen samasta mallista, joista jokaisessa on erilainen harjoitustietojen osajoukko, ja niiden ennusteiden yhdistämistä lopullisen ennusteen tekemiseksi.
Se toimii seuraavasti:
1. Bootstrap-näytteenotto: Harjoitustietojen satunnainen osajoukko valitaan korvaamalla (eli jotkin näytteet voidaan valita useammin kuin kerran). Tämä luo uuden tietojoukon, joka on satunnainen esitys alkuperäisestä.
2. Mallin koulutus: Jokainen mallin ilmentymä on koulutettu käynnistysnäytteen perusteella.
3. Ennustus: Mallin jokainen esiintymä tekee ennusteen testitiedoista.
4. Ennusteiden yhdistäminen: Mallin kaikkien esiintymien ennusteet yhdistetään käyttämällä tekniikkaa, kuten keskiarvoa tai äänestystä lopullisen ennusteen tekemiseksi.
Päkityksen taustalla on se, että harjoitustietojen ja ominaisuuksien eri osajoukkojen valinnassa esiintyy satunnaisuutta. jokainen mallin esiintymä vähentää mallin varianssia ja parantaa sen kykyä yleistää uuteen dataan. Yhdistämällä useiden mallien ennusteita pussittaminen voi myös auttaa vähentämään ylisovitusta ja parantamaan mallin kestävyyttä.
Säkitystä käytetään yleisesti päätöspuissa, satunnaisissa metsissä ja muissa kokonaisoppimismenetelmissä. Se on erityisen hyödyllinen, kun tietojoukossa on monia ominaisuuksia ja ominaisuuksien ja kohdemuuttujan välinen suhde on monimutkainen.



