Разметка данных — что это и зачем нужна

Что это

Разметка данных — это процесс добавления структурированных меток к сырым данным: тексту, изображениям, видео или аудио. Благодаря этим меткам алгоритм машинного обучения понимает, что именно он видит, и учится делать правильные предсказания на новых данных. Без разметки модель — это просто математика без контекста: она не знает, где на фото кошка, а где собака, и не понимает, позитивный отзыв или негативный.

Зачем это нужно

Большинство современных ML-моделей работают по принципу обучения с учителем: им показывают примеры с правильными ответами, и они учатся обобщать закономерности. Правильные ответы — это и есть разметка. Хотите научить модель распознавать опухоли на снимках МРТ? Нужны тысячи снимков, на которых врач-радиолог уже отметил, где опухоль, а где здоровая ткань. Хотите голосового ассистента, который понимает речь? Нужны часы аудио с точными текстовыми расшифровками. Качество разметки напрямую определяет качество модели — мусор на входе даёт мусор на выходе.

Как это работает

Процесс разметки обычно выглядит так: сырые данные загружают в специальный инструмент (Label Studio, Scale AI, Toloka от Яндекса, CVAT), разметчики получают задание с инструкцией и проставляют метки вручную или полуавтоматически. Для контроля качества часть данных размечают несколько человек независимо, а потом сравнивают результаты — это называется inter-annotator agreement. Если разметчики часто расходятся во мнениях, инструкцию уточняют. В крупных проектах применяют активное обучение: модель сама выбирает, какие примеры ей сложнее всего, и отправляет именно их на разметку — это экономит бюджет. Существует и автоматическая разметка с помощью уже обученных моделей, но её результаты обязательно проверяют люди.

Примеры

Компьютерное зрение: разметчики обводят объекты на фото (bounding box) или закрашивают их попиксельно (сегментация) — так обучают модели для беспилотных автомобилей и медицинской диагностики.
Обработка текста: каждому отзыву присваивают тональность (позитив / негатив / нейтраль), а в юридических документах выделяют именованные сущности — названия компаний, даты, суммы.
Распознавание речи: аудиозаписи расшифровывают в текст с точными временными метками — именно так обучали модели Whisper от OpenAI и аналогичные системы.
Медицина: рентгенологи и патологоанатомы размечают снимки, указывая локализацию и тип патологии; такие датасеты стоят дорого и требуют экспертизы.
Модерация контента: людям показывают посты и просят классифицировать их как безопасные, спам или нарушающие правила — на этом строится обучение фильтров в соцсетях.

Связанные понятия

Обучение с учителем (supervised learning) — тип ML, при котором модель учится на размеченных данных.
Датасет — набор данных, используемый для обучения или оценки модели.
Аннотация — синоним разметки, чаще используется в академическом контексте.
Активное обучение (active learning) — подход, при котором модель участвует в выборе данных для разметки.
Ground truth — эталонная разметка, считающаяся истинно правильной и используемая для оценки качества модели.
Краудсорсинг — привлечение большого числа людей к разметке через платформы вроде Amazon Mechanical Turk или Яндекс Толока.

Частые мифы

Миф первый: «чем больше данных, тем лучше — разметка не так важна». На практике 10 000 качественно размеченных примеров часто бьют 100 000 размеченных кое-как. Миф второй: «ИИ скоро сам себя разметит». Автоматическая разметка существует, но без человеческой проверки накапливает системные ошибки, которые потом сложно выявить. Миф третий: «разметка — это просто и дёшево». Разметка медицинских или юридических данных требует экспертов с профильным образованием, а стоимость качественного датасета для серьёзной задачи легко исчисляется миллионами рублей.