Разумевање претпроцесирања у машинском учењу: свеобухватан водич
Претходна обрада је корак у машинском учењу који укључује чишћење и припрему података пре обуке модела. Укључује задатке као што су:ӕӕ1. Руковање недостајућим вредностима: Замена или уклањање вредности које недостају у скупу података.ӕ2. Нормализација података: Скалирање нумеричких карактеристика на заједнички опсег да би се спречила пристрасност према било којој одређеној особини.ӕ3. Избор карактеристика: Избор подскупа релевантних карактеристика које ће се користити у моделу, уместо да се користе све доступне карактеристике.ӕ4. Трансформација података: Трансформисање категоричких обележја у нумеричке карактеристике коришћењем техника као што су једнократно кодирање или кодирање ознака.ӕ5. Уклањање одступања: Уклањање тачака података које се значајно разликују од осталих података, што може побољшати перформансе модела.ӕ6. Руковање неуравнотеженим скуповима података: Рад са неравнотежом класа у скупу података, где једна класа има значајно већи број инстанци од других.ӕ7. Руковање бучним подацима: Чишћење података ради уклањања шума и одступања који могу утицати на перформансе модела.ӕ8. Инжењеринг карактеристика: Креирање нових функција од постојећих ради побољшања перформанси модела.ӕӕЦиљ предобраде је да припреми податке тако да буду у одговарајућем формату за обуку модела машинског учења и да се смањи ризик од пристрасности или грешака у модел.



