Esikäsittelyn ymmärtäminen koneoppimisessa: kattava opas
Esikäsittely on koneoppimisen vaihe, jossa tiedot puhdistetaan ja valmistetaan ennen mallin harjoittelua. Se sisältää tehtäviä, kuten:
1. Puuttuvien arvojen käsittely: puuttuvien arvojen korvaaminen tai poistaminen tietojoukosta.
2. Tietojen normalisointi: Numeeristen ominaisuuksien skaalaus yhteiselle alueelle, jotta estetään vääristymä mihin tahansa tiettyyn ominaisuuteen.
3. Ominaisuuden valinta: Valitsee mallissa käytettävien ominaisuuksien osajoukon kaikkien käytettävissä olevien ominaisuuksien käyttämisen sijaan.
4. Tietojen muuntaminen: Kategoristen ominaisuuksien muuntaminen numeerisiksi ominaisuuksiksi käyttämällä tekniikoita, kuten one-hot-koodausta tai etikettikoodausta.
5. Outlier poistaminen: Poistaa tietopisteitä, jotka eroavat merkittävästi muusta tiedosta, mikä voi parantaa mallin suorituskykyä.
6. Epätasapainoisten tietojoukkojen käsittely: Tietojoukon luokkaepätasapainon käsittely, jossa yhdellä luokalla on huomattavasti suurempi määrä esiintymiä kuin muilla.
7. Meluisten tietojen käsittely: Tietojen puhdistaminen melun ja poikkeamien poistamiseksi, jotka voivat vaikuttaa mallin suorituskykyyn.
8. Ominaisuussuunnittelu: Uusien ominaisuuksien luominen olemassa olevista mallin suorituskyvyn parantamiseksi.
Esikäsittelyn tavoitteena on valmistella tiedot niin, että ne ovat koneoppimismallin koulutukseen sopivassa muodossa, ja vähentää harhan tai virheiden riskiä malli.



