


Memahami Prapemrosesan dalam Pembelajaran Mesin: Panduan Komprehensif
Pra-pemrosesan adalah langkah dalam pembelajaran mesin yang melibatkan pembersihan dan penyiapan data sebelum melatih model. Ini mencakup tugas-tugas seperti:
1. Menangani nilai yang hilang: Mengganti atau menghapus nilai yang hilang dalam kumpulan data.
2. Normalisasi data: Menskalakan fitur numerik ke rentang umum untuk mencegah bias terhadap fitur tertentu.
3. Pemilihan fitur: Memilih subset fitur yang relevan untuk digunakan dalam model, daripada menggunakan semua fitur yang tersedia.
4. Transformasi data: Mengubah fitur kategorikal menjadi fitur numerik menggunakan teknik seperti pengkodean one-hot atau pengkodean label.
5. Penghapusan outlier: Menghapus titik data yang berbeda secara signifikan dari data lainnya, yang dapat meningkatkan kinerja model.
6. Menangani kumpulan data yang tidak seimbang: Mengatasi ketidakseimbangan kelas dalam kumpulan data, di mana satu kelas memiliki jumlah instance yang jauh lebih besar dibandingkan kelas lainnya.
7. Menangani data yang berisik: Membersihkan data untuk menghilangkan noise dan outlier yang dapat mempengaruhi performa model.
8. Rekayasa fitur: Membuat fitur baru dari yang sudah ada untuk meningkatkan performa model.
Tujuan prapemrosesan adalah menyiapkan data agar berada dalam format yang sesuai untuk melatih model pembelajaran mesin, dan untuk mengurangi risiko bias atau kesalahan dalam proses model.



