Обучение с учителем
Обучение с учителем — подход в машинном обучении, при котором модель тренируется на размеченных данных: каждому входному примеру заранее сопоставлен правильный ответ.
Что это
Обучение с учителем (supervised learning) — это парадигма машинного обучения, в которой алгоритм обучается на наборе данных, где каждый пример уже снабжён правильным ответом (меткой). Модель ищет закономерности между входными данными и метками, чтобы потом предсказывать ответы для новых, ранее не виденных примеров. Слово «учитель» здесь метафорическое: роль учителя играет размеченный датасет, а не живой человек.
Зачем это нужно
Большинство прикладных задач бизнеса и науки сводятся именно к supervised learning: нужно предсказать цену, категорию, вероятность события. Подход оформился как самостоятельное направление в 1950–60-х годах вместе с первыми работами по перцептронам, а массовое применение получил в 1990-х с ростом вычислительных мощностей и доступностью данных. Сегодня обучение с учителем лежит в основе кредитного скоринга, медицинской диагностики, фильтрации спама и голосовых ассистентов.
Как это работает
Процесс состоит из нескольких последовательных шагов. Сначала собирают и размечают данные — это самая трудоёмкая часть: разметка тысяч изображений или текстов может занимать месяцы. Затем данные делят на обучающую, валидационную и тестовую выборки (типичное соотношение — 70/15/15). Модель итеративно обрабатывает обучающие примеры, сравнивает свои предсказания с правильными ответами и минимизирует функцию потерь — числовую меру ошибки. После обучения качество проверяют на тестовой выборке, которую модель не видела. Ключевая опасность — переобучение (overfitting): модель «заучивает» тренировочные данные и плохо обобщается на новые.
Примеры применения
- Классификация писем как спам/не спам — одна из первых массовых задач; Gmail использует подобные модели с 2004 года.
- Кредитный скоринг: банки предсказывают вероятность дефолта заёмщика по истории транзакций и анкетным данным.
- Медицинская диагностика: модели на основе свёрточных сетей определяют рак кожи по фотографиям с точностью, сопоставимой с дерматологами (исследование Stanford, 2017).
- Распознавание речи: голосовые ассистенты Siri, Alexa и Алиса обучены на миллионах пар «аудио — текстовая расшифровка».
- Прогноз оттока клиентов: компании предсказывают, кто из пользователей уйдёт в следующие 30 дней, и заранее предлагают удержание.
Связанные понятия
- Обучение без учителя (unsupervised learning) — модель ищет структуру в данных без меток.
- Обучение с подкреплением (reinforcement learning) — агент учится через награды и штрафы в среде.
- Классификация — задача предсказания категориальной метки (например, «кот» или «собака»).
- Регрессия — задача предсказания числового значения (например, цена квартиры).
- Переобучение (overfitting) — модель слишком точно подстраивается под обучающие данные и теряет обобщающую способность.
- Функция потерь (loss function) — метрика, которую модель минимизирует в процессе обучения.
Частые мифы
Миф первый: «чем больше данных, тем лучше модель» — это верно лишь частично. Качество разметки важнее объёма: 10 000 аккуратно размеченных примеров часто дают лучший результат, чем 100 000 с ошибками. Миф второй: «обучение с учителем требует нейросетей» — на практике линейная регрессия, решающие деревья и градиентный бустинг (XGBoost, LightGBM) решают большинство табличных задач эффективнее глубоких сетей и обучаются в разы быстрее.