Переобучение модели (overfitting)

Что это

Переобучение модели (overfitting) — это явление в машинном обучении, при котором модель слишком точно подстраивается под обучающую выборку: запоминает не закономерности, а конкретные примеры, включая шум и случайные отклонения. В результате на обучающих данных модель показывает высокую точность — например, 98%, — а на новых, ранее не виденных данных ошибается значительно чаще, скажем, в 60–70% случаев. Это одна из самых распространённых проблем при разработке ML-систем, с которой сталкиваются как новички, так и опытные инженеры.

Зачем это нужно знать

Понимание переобучения критично для всех, кто строит предсказательные модели: от рекомендательных систем до медицинской диагностики. Если модель переобучена, она бесполезна в реальных условиях — она хорошо «сдаёт экзамен» на знакомых данных, но проваливается при столкновении с реальностью. Именно поэтому в индустрии принято разделять данные на обучающую, валидационную и тестовую выборки: тестовая служит «контрольным срезом», который модель не видела ни разу в процессе обучения.

Как это работает

Переобучение возникает, когда модель слишком сложна относительно объёма и разнообразия данных. Представьте, что нужно провести линию через 5 точек на графике: простая прямая опишет общую тенденцию, а кривая пятой степени пройдёт точно через каждую точку — но предскажет шестую совершенно неверно. Признаки переобучения легко заметить: потери (loss) на обучающей выборке снижаются, а на валидационной — начинают расти. Это называют расхождением кривых обучения. Основные причины переобучения:

Слишком сложная архитектура модели — например, глубокая нейросеть с миллионами параметров на датасете из нескольких тысяч примеров.
Недостаточный объём обучающих данных — модели не хватает разнообразия, чтобы выучить обобщённые правила.
Слишком долгое обучение — модель продолжает подстраиваться под данные даже после того, как нашла оптимальное решение.
Отсутствие регуляризации — без ограничений модель свободно «запоминает» любые детали, включая шум.

Примеры

Классификатор спама обучили на письмах 2018 года. На обучающей выборке точность — 99%. На письмах 2023 года с новыми фразами спамеров — 55%. Модель запомнила конкретные слова, а не паттерны поведения.
Нейросеть для распознавания опухолей на МРТ показала 97% точности на обучающем датасете из одной клиники, но упала до 71% на снимках другой клиники с другим оборудованием — модель выучила артефакты конкретного аппарата.
Студент, решающий задачи по учебнику, зазубрил все примеры с ответами. На экзамене с новыми условиями задач — провал. Это бытовая аналогия overfitting.
Модель прогнозирования цен на акции, обученная на данных 2010–2019 годов, идеально описывала прошлое, но не предсказала волатильность 2020 года во время пандемии.

Как бороться с переобучением

Регуляризация (L1, L2) — штрафует модель за слишком большие веса, вынуждая находить более простые решения.
Dropout — случайно «отключает» часть нейронов во время обучения, не давая сети запоминать конкретные примеры.
Ранняя остановка (early stopping) — обучение прекращается, когда метрика на валидационной выборке перестаёт улучшаться.
Аугментация данных — искусственное расширение датасета: повороты, обрезки, добавление шума для изображений.
Упрощение архитектуры — уменьшение числа слоёв или параметров модели.

Связанные понятия

Недообучение (underfitting) — противоположная проблема: модель слишком проста и не улавливает даже базовые закономерности.
Дисперсия и смещение (bias-variance tradeoff) — фундаментальный компромисс между простотой модели и её гибкостью.
Кросс-валидация — техника оценки модели, при которой данные делятся на несколько частей для более надёжной проверки.
Регуляризация — семейство методов, ограничивающих сложность модели во время обучения.
Обобщающая способность (generalization) — ключевое свойство хорошей модели: работать корректно на новых данных.

Частые заблуждения

Распространённый миф: «чем выше точность на обучающей выборке, тем лучше модель». Это неверно — высокая точность на train при низкой на test как раз сигнализирует о переобучении. Ещё одно заблуждение: «больше данных всегда решает проблему». Данные помогают, но если архитектура модели избыточно сложна, даже большой датасет не спасёт без регуляризации и правильной валидации. Наконец, переобучение — это не всегда катастрофа: в некоторых задачах, где тестовые данные очень похожи на обучающие (например, предсказание в строго контролируемой среде), небольшой overfitting допустим.