Предобученная модель — что это такое

Что это

Предобученная модель (pretrained model) — это нейронная сеть, которую уже обучили на большом объёме данных для решения общей задачи: понимания текста, распознавания изображений, генерации речи. Такую модель можно взять готовой и либо использовать сразу, либо дообучить на своих данных — это займёт в разы меньше времени и ресурсов, чем обучение с нуля. Предобученные модели стали стандартом в современном машинном обучении: именно так устроены GPT, BERT, CLIP, Stable Diffusion и большинство других популярных систем.

Зачем это нужно

Обучение большой нейросети с нуля требует миллионов примеров, месяцев вычислений и сотен тысяч долларов на GPU. Большинство компаний и разработчиков не могут себе этого позволить. Предобученные модели решают эту проблему: исследовательские лаборатории — OpenAI, Google, Meta, Hugging Face — тратят ресурсы на базовое обучение один раз, а потом публикуют веса модели. Остальные берут эти веса и адаптируют модель под свою задачу за часы или дни. Такой подход называется transfer learning — перенос знаний.

Как это работает

Предобучение происходит в два этапа. Сначала модель учится на огромном корпусе данных без разметки — например, на всём тексте интернета или миллиардах изображений. На этом этапе она усваивает общие закономерности: грамматику, семантику, визуальные паттерны. Затем, если нужно, проводят дообучение (fine-tuning): модель дополнительно тренируют на небольшом размеченном датасете под конкретную задачу — классификацию отзывов, медицинскую диагностику, юридический анализ. Веса модели при этом корректируются незначительно — большинство «знаний» уже встроено. Именно поэтому для fine-tuning иногда достаточно нескольких сотен примеров вместо миллионов.

Примеры

BERT (2018, Google) — предобученная модель для понимания текста. Дообучается под анализ тональности, вопросно-ответные системы, NER за несколько часов на обычном GPU.
GPT-4 (OpenAI) — языковая модель, предобученная на триллионах токенов. Используется напрямую через API или дообучается под корпоративные задачи.
ResNet и EfficientNet — предобученные на ImageNet сети для компьютерного зрения. Берутся как основа для распознавания медицинских снимков, дефектов на производстве, лиц.
Whisper (OpenAI, 2022) — предобученная модель распознавания речи на 680 000 часах аудио. Работает на 99 языках без дообучения.
Stable Diffusion — предобученная диффузионная модель для генерации изображений. Дообучается под конкретный стиль или персонажа с помощью техники LoRA буквально за 20–30 минут.

Связанные понятия

Fine-tuning (дообучение) — адаптация предобученной модели под конкретную задачу на небольшом датасете.
Transfer learning (перенос обучения) — общий подход, при котором знания из одной задачи применяются в другой.
Foundation model — крупная предобученная модель широкого назначения, на основе которой строят специализированные решения.
Zero-shot и few-shot learning — использование предобученной модели без дообучения или с минимальным количеством примеров.
Hugging Face Hub — крупнейший публичный репозиторий предобученных моделей, где размещено более 500 000 весов по состоянию на 2024 год.

Частые заблуждения

Предобученную модель часто путают с готовым продуктом — это не одно и то же. Предобученная модель — это набор весов, а не сервис: чтобы она работала в приложении, нужна инфраструктура, промпт-инжиниринг или дообучение. Ещё одно заблуждение: «предобученная модель знает всё». На самом деле она знает только то, что было в обучающих данных, и может уверенно ошибаться за пределами своей области. Наконец, не все предобученные модели одинаково применимы: модель, обученная на английском тексте, будет работать хуже на русском — и это нормально, а не баг.