Pochopení dělení ve strojovém učení a dolování dat
Partitional je termín používaný ve strojovém učení a dolování dat k popisu metody pro rozdělení datové sady na menší podmnožiny nebo „části“ za účelem školení nebo analýzy dat. Cílem dělení je zlepšit výkon algoritmu snížením dopadu šumu a odlehlých hodnot nebo snížit výpočetní složitost problému jeho rozdělením na menší dílčí problémy.……Existuje několik typů technik dělení, včetně:
1. Náhodné rozdělení: Soubor dat je náhodně rozdělen na dvě nebo více částí. Toto je jednoduchá a rychlá metoda, ale nemusí být účinná při snižování dopadu hluku a odlehlých hodnot.
2. Rozdělení K-means: Soubor dat je rozdělen do k clusterů na základě algoritmu k-means a každý cluster je považován za samostatnou část. Tato metoda může být účinná při snižování dopadu hluku a odlehlých hodnot, ale nemusí dobře fungovat pro soubory dat se složitými strukturami.
3. Hierarchické dělení: Soubor dat je rozdělen do hierarchie menších oddílů založených na shlukovacím algoritmu, jako je aglomerativní nebo dělící shlukování. Tato metoda může být účinná při snižování výpočetní složitosti problému, ale nemusí být účinná při snižování dopadu hluku a odlehlých hodnot.
4. Dělení na základě domény: Soubor dat je rozdělen do domén na základě nějaké základní struktury nebo funkce, jako je geografická poloha nebo časové období. Tato metoda může být účinná při snižování dopadu hluku a odlehlých hodnot, ale nemusí dobře fungovat pro soubory dat se složitými strukturami.
5. Hybridní rozdělení: K rozdělení datové sady se používá kombinace dvou nebo více technik rozdělení. Například náhodný oddíl může být použit k rozdělení datové sady na přibližnou rovnováhu a poté může být použit oddíl k-means k upřesnění oddílů na základě podobnosti datových bodů. , jako například:
1. Tréninkové/testovací sady: Datový soubor je rozdělen na trénovací soubor a testovací sadu pro hodnocení výkonu modelu.
2. Křížová validace: Soubor dat je rozdělen do několika podmnožin a každá podmnožina se používá k trénování a testování modelu postupně.
3. Výběr funkcí: Soubor dat je rozdělen do podmnožin na základě různých vlastností nebo proměnných a výkon modelu je hodnocen na každé podmnožině.
4. Skládání modelů: Na různých oddílech datové sady je trénováno více modelů a jejich předpovědi jsou kombinovány za účelem vytvoření konečné predikce. základní strukturu dat a cíle analýzy.



