Обучение без учителя — что это такое

Что это

Обучение без учителя (unsupervised learning) — это направление машинного обучения, в котором алгоритм получает на вход данные без каких-либо меток или правильных ответов и самостоятельно обнаруживает в них скрытые структуры, группы или зависимости. В отличие от обучения с учителем, здесь нет «правильного» результата, с которым можно сверяться в процессе тренировки. Модель опирается только на статистические свойства самих данных — расстояния между точками, частоту совместного появления признаков, плотность распределения. Именно поэтому такой подход особенно ценен там, где разметка данных дорога, трудоёмка или вовсе невозможна.

Зачем это нужно

Размечать данные вручную — дорого и медленно. По оценкам исследователей, на подготовку качественного датасета уходит до 80% времени всего ML-проекта. Обучение без учителя позволяет работать с сырыми данными: миллионами транзакций, текстов, изображений или логов — без привлечения разметчиков. Исторически интерес к этому подходу резко вырос в 2010-х, когда объёмы неструктурированных данных стали расти быстрее, чем возможности их разметки. Сегодня unsupervised learning лежит в основе рекомендательных систем, детектирования аномалий, сжатия данных и предобучения больших языковых моделей — включая архитектуры типа GPT, которые на первом этапе обучаются именно без разметки.

Как это работает

Внутри unsupervised learning выделяют несколько классов задач и методов. Каждый решает свою проблему с данными.

Кластеризация — алгоритм разбивает объекты на группы по схожести. Классический пример — K-means: задаётся число кластеров K, алгоритм итеративно назначает каждую точку ближайшему центроиду и пересчитывает центры. DBSCAN работает иначе: ищет плотные области и не требует заранее указывать число кластеров.
Снижение размерности — преобразование данных из пространства с сотнями признаков в 2–3 измерения для визуализации или сжатия. PCA (метод главных компонент) выделяет направления максимальной дисперсии. t-SNE и UMAP лучше сохраняют локальную структуру и используются для визуализации эмбеддингов.
Поиск ассоциативных правил — выявление частых совместных появлений. Алгоритм Apriori находит, какие товары чаще покупают вместе: классический пример — «пиво и чипсы».
Генеративные модели — автоэнкодеры и вариационные автоэнкодеры (VAE) учатся сжимать данные в компактное представление и восстанавливать их обратно. GAN (генеративно-состязательные сети) тоже обучаются без разметки, генерируя новые примеры, неотличимые от реальных.

Примеры применения

Сегментация клиентов в банке: алгоритм кластеризации группирует пользователей по паттернам трат без ручной разметки — маркетинг получает готовые сегменты для таргетинга.
Детектирование мошенничества: модель учится на «нормальных» транзакциях и помечает аномальные выбросы — те, что статистически не похожи на обычное поведение.
Рекомендательные системы: коллаборативная фильтрация на основе матричной факторизации (используется в Netflix, Spotify) находит скрытые факторы предпочтений без явных меток «нравится/не нравится».
Предобучение языковых моделей: BERT в 2018 году обучался предсказывать замаскированные слова в тексте — задача без разметки, но давшая мощные текстовые представления.
Сжатие и индексирование изображений: автоэнкодеры уменьшают размер медицинских снимков или спутниковых фотографий, сохраняя ключевые признаки для последующего поиска.

Связанные понятия

Обучение с учителем (supervised learning) — противоположный подход: модель учится на размеченных парах «вход — правильный ответ».
Полуконтролируемое обучение (semi-supervised learning) — гибрид: небольшая часть данных размечена, остальное используется без меток.
Самообучение (self-supervised learning) — модель сама генерирует псевдометки из структуры данных; именно так устроено предобучение GPT и BERT.
Кластеризация — одна из ключевых задач unsupervised learning.
Снижение размерности — техника, часто используемая совместно с кластеризацией для визуализации.
Эмбеддинги — векторные представления объектов, которые нередко получают методами обучения без учителя.

Частые заблуждения

Главный миф — что обучение без учителя «само всё поймёт» и не требует экспертизы. На деле выбор числа кластеров, метрики расстояния, метода нормализации и интерпретация результатов требуют глубокого понимания данных и предметной области. Ещё одно заблуждение: раз нет меток, нет и способа оценить качество. Это не так — существуют метрики вроде силуэтного коэффициента для кластеризации или reconstruction error для автоэнкодеров. Просто оценка здесь косвенная, и финальный критерий часто остаётся за человеком.