Data Tidak Berlabel: Memahami Kepentingan dan Cabarannya dalam Pembelajaran Mesin
Tidak berlabel merujuk kepada sesuatu yang tidak mempunyai label atau nama yang dilampirkan padanya. Dalam konteks pembelajaran mesin, data tidak berlabel ialah data yang belum diklasifikasikan atau ditag dengan kategori atau kelas tertentu. Jenis data ini juga dikenali sebagai data "tidak diawasi", kerana ia tidak mempunyai sebarang penyeliaan atau bimbingan daripada pengendali manusia.
Sebaliknya, data berlabel ialah data yang telah dikelaskan atau ditandakan secara manual dengan kategori atau kelas tertentu. Jenis data ini digunakan untuk melatih model pembelajaran mesin dan penting untuk pembelajaran diselia.
Contoh data tidak berlabel termasuk:
1. Imej tanpa sebarang teks atau label padanya.
2. Rakaman audio tanpa sebarang transkrip atau tag.
3. Bacaan penderia daripada peranti tanpa sebarang konteks atau tafsiran.
4. Siaran media sosial tanpa sebarang pengkategorian atau teg.
Data tidak berlabel mungkin mencabar untuk digunakan, kerana tiada panduan yang jelas tentang cara menganalisis atau mentafsirnya. Walau bagaimanapun, kemajuan terkini dalam pembelajaran mesin telah memungkinkan untuk mengekstrak cerapan dan makna daripada data tidak berlabel menggunakan teknik seperti pengelompokan, pengesanan anomali dan pengurangan dimensi.



