


Zrozumienie danych podzielonych w analizie danych
W kontekście analizy danych „podział” odnosi się do sytuacji, w której zbiór danych lub zmienna została podzielona na mniejsze grupy lub przedziały, zwane „przedziałami”, w oparciu o pewne kryteria. Każdy przedział reprezentuje zakres wartości w zbiorze danych i zliczana jest liczba obserwacji mieszczących się w każdym przedziale.…
Na przykład, jeśli mamy zbiór danych zawierający wyniki egzaminów o wartościach od 0 do 100, możemy podzielić wyniki na trzy kategorie :
* Wyniki poniżej 50 (bin 1)
* Wyniki pomiędzy 50 a 75 (bin 2)
* Wyniki powyżej 75 (bin 3)
W tym przypadku każdy przedział reprezentuje zakres wyników i liczbę obserwacji mieszczących się w każdym kosz jest liczony. Może to być przydatne do podsumowywania i wizualizacji rozkładu danych, a także do wykonywania analiz statystycznych.
Binning jest często używany w analizie danych w celu:
* Zmniejszania złożoności danych poprzez grupowanie podobnych wartości
* Podsumowywania rozkładu dane przy użyciu statystyk podsumowujących, takich jak liczby lub wartości procentowe…* Wizualizuj rozkład danych za pomocą histogramów lub innych wykresów…* Wykonuj analizy statystyczne, takie jak testowanie hipotez lub analiza regresji na danych podzielonych.



