Pochopení rozptylu: klíčový koncept v analýze dat
Rozptyl je míra šíření nebo rozptylu souboru dat. Představuje, jak moc se jednotlivé datové body odchylují od střední hodnoty. Jinými slovy, měří, jak jsou data rozprostřena od průměrné hodnoty.
Pokud máte například soubor skóre zkoušek s průměrem 80 a standardní odchylkou 10, znamená to, že většina skóre je seskupena kolem 80 (průměr), ale existují určité odchylky ve skóre (reprezentované směrodatnou odchylkou). Pokud by směrodatná odchylka byla vyšší, řekněme 20, pak by byla skóre více rozprostřena a v datech by byla větší variabilita. Vyjadřuje se ve čtverečních jednotkách (např. čtverečních palcích, čtverečních metrech) a často se označuje symbolem „σ²“ (sigma na druhou). data. Ve financích bychom například mohli použít rozptyl k měření rizika investičního portfolia. Ve strojovém učení můžeme použít rozptyl, abychom pochopili, jak dobře se model zobecňuje na nová data.



