Dữ liệu chưa được gắn nhãn: Hiểu tầm quan trọng và những thách thức của nó trong Học máy
Không có nhãn đề cập đến một cái gì đó không có nhãn hoặc tên gắn liền với nó. Trong bối cảnh học máy, dữ liệu chưa được gắn nhãn là dữ liệu chưa được phân loại hoặc gắn thẻ với một danh mục hoặc lớp cụ thể. Loại dữ liệu này còn được gọi là dữ liệu "không được giám sát" vì nó không có bất kỳ sự giám sát hoặc hướng dẫn nào từ con người.
Ngược lại, dữ liệu được gắn nhãn là dữ liệu đã được phân loại hoặc gắn thẻ theo cách thủ công với một danh mục hoặc lớp cụ thể. Loại dữ liệu này được sử dụng để huấn luyện các mô hình học máy và rất cần thiết cho việc học có giám sát.
Ví dụ về dữ liệu không được gắn nhãn bao gồm:
1. Hình ảnh không có văn bản hoặc nhãn trên đó.
2. Bản ghi âm không có bất kỳ bản ghi hoặc thẻ nào.
3. Cảm biến đọc từ thiết bị mà không có bất kỳ ngữ cảnh hoặc diễn giải nào.
4. Các bài đăng trên mạng xã hội không có bất kỳ phân loại hoặc thẻ nào.
Dữ liệu không được gắn nhãn có thể khó xử lý vì không có hướng dẫn rõ ràng về cách phân tích hoặc diễn giải dữ liệu đó. Tuy nhiên, những tiến bộ gần đây trong học máy đã giúp có thể rút ra những hiểu biết sâu sắc và ý nghĩa từ dữ liệu chưa được gắn nhãn bằng cách sử dụng các kỹ thuật như phân cụm, phát hiện bất thường và giảm kích thước.



