Varianssin ymmärtäminen: Data-analyysin avainkäsite
Varianssi on tietojoukon leviämisen tai hajaantumisen mitta. Se edustaa kuinka paljon yksittäiset datapisteet poikkeavat keskiarvosta. Toisin sanoen se mittaa, kuinka jakautuvat tiedot keskiarvosta.
Jos sinulla on esimerkiksi joukko koepisteitä, joiden keskiarvo on 80 ja keskihajonnan 10, se tarkoittaa, että suurin osa pisteistä on ryhmitelty noin 80 (keskiarvo), mutta pisteissä on jonkin verran vaihtelua (jota edustaa keskihajonta). Jos keskihajonta olisi suurempi, esimerkiksi 20, pisteet jakautuisivat enemmän ja tiedoissa olisi enemmän vaihtelua.
Varianssi lasketaan kunkin datapisteen ja keskiarvon välisten neliöerojen keskiarvona. Se ilmaistaan neliöyksiköinä (esim. neliötuumina, neliömetrinä) ja sitä merkitään usein symbolilla "σ²" (sigman neliö).
Varianssin ymmärtäminen on tärkeää, koska se auttaa ymmärtämään, kuinka paljon epävarmuutta tai riskiä liittyy joukkoon tiedot. Esimerkiksi rahoituksessa voimme käyttää varianssia mittaamaan sijoitussalkun riskiä. Koneoppimisessa saatamme käyttää varianssia ymmärtääksemme, kuinka hyvin malli yleistyy uuteen dataan.



