A variancia megértése: kulcsfogalom az adatelemzésben
A variancia egy adathalmaz terjedésének vagy szórásának mértéke. Azt jelzi, hogy az egyes adatpontok mennyivel térnek el az átlagértéktől. Más szóval azt méri, hogy az adatok mennyire oszlanak el az átlagos értéktől.
Ha például van egy vizsgapontszáma 80-as átlaggal és 10-es szórással, az azt jelenti, hogy a pontszámok többsége a következő köré csoportosul. 80 (átlag), de van némi eltérés a pontszámokban (ezt a szórás jelenti). Ha a szórás nagyobb lenne, mondjuk 20, akkor a pontszámok jobban eloszlanak, és nagyobb eltérések lennének az adatokban.
A variancia kiszámítása az egyes adatpontok és az átlag közötti különbségek négyzetes átlagaként történik. Négyzetegységekben (pl. négyzethüvelykben, négyzetméterben) fejezik ki, és gyakran a "σ²" (szigma négyzet) szimbólummal jelölik.
A variancia megértése azért fontos, mert segít megérteni, hogy mekkora bizonytalanság vagy kockázat társul egy halmazhoz adat. A pénzügyekben például használhatunk varianciát egy befektetési portfólió kockázatának mérésére. A gépi tanulás során a variancia segítségével megérthetjük, hogy egy modell mennyire általánosítható az új adatokra.



