


Немаркированные данные: понимание их значения и проблем в машинном обучении
«Безмаркированный» относится к чему-то, к чему нет ярлыка или имени. В контексте машинного обучения немаркированные данные — это данные, которые не были классифицированы или помечены определенной категорией или классом. Этот тип данных также известен как «неконтролируемые» данные, поскольку он не контролируется и не контролируется человеком-оператором.
Напротив, помеченные данные — это данные, которые были классифицированы вручную или помечены определенной категорией или классом. Этот тип данных используется для обучения моделей машинного обучения и необходим для контролируемого обучения.
Примеры немаркированных данных включают в себя:
1. Изображения без текста и надписей.
2. Аудиозаписи без каких-либо расшифровок и тегов.
3. Показания датчика с устройства без какого-либо контекста или интерпретации.
4. Публикации в социальных сетях без какой-либо классификации или тегов. С данными без разметки может быть сложно работать, поскольку нет четких указаний о том, как их анализировать или интерпретировать. Однако недавние достижения в области машинного обучения позволили извлекать информацию и смысл из немаркированных данных с помощью таких методов, как кластеризация, обнаружение аномалий и уменьшение размерности.



