Предобученная модель
Предобученная модель — нейросеть, которую уже обучили на большом наборе данных, и теперь её можно использовать напрямую или дообучить под конкретную задачу.
Что это
Предобученная модель (pretrained model) — это нейронная сеть, которую уже обучили на большом объёме данных для решения общей задачи: понимания текста, распознавания изображений, генерации речи. Такую модель можно взять готовой и либо использовать сразу, либо дообучить на своих данных — это займёт в разы меньше времени и ресурсов, чем обучение с нуля. Предобученные модели стали стандартом в современном машинном обучении: именно так устроены GPT, BERT, CLIP, Stable Diffusion и большинство других популярных систем.
Зачем это нужно
Обучение большой нейросети с нуля требует миллионов примеров, месяцев вычислений и сотен тысяч долларов на GPU. Большинство компаний и разработчиков не могут себе этого позволить. Предобученные модели решают эту проблему: исследовательские лаборатории — OpenAI, Google, Meta, Hugging Face — тратят ресурсы на базовое обучение один раз, а потом публикуют веса модели. Остальные берут эти веса и адаптируют модель под свою задачу за часы или дни. Такой подход называется transfer learning — перенос знаний.
Как это работает
Предобучение происходит в два этапа. Сначала модель учится на огромном корпусе данных без разметки — например, на всём тексте интернета или миллиардах изображений. На этом этапе она усваивает общие закономерности: грамматику, семантику, визуальные паттерны. Затем, если нужно, проводят дообучение (fine-tuning): модель дополнительно тренируют на небольшом размеченном датасете под конкретную задачу — классификацию отзывов, медицинскую диагностику, юридический анализ. Веса модели при этом корректируются незначительно — большинство «знаний» уже встроено. Именно поэтому для fine-tuning иногда достаточно нескольких сотен примеров вместо миллионов.
Примеры
- BERT (2018, Google) — предобученная модель для понимания текста. Дообучается под анализ тональности, вопросно-ответные системы, NER за несколько часов на обычном GPU.
- GPT-4 (OpenAI) — языковая модель, предобученная на триллионах токенов. Используется напрямую через API или дообучается под корпоративные задачи.
- ResNet и EfficientNet — предобученные на ImageNet сети для компьютерного зрения. Берутся как основа для распознавания медицинских снимков, дефектов на производстве, лиц.
- Whisper (OpenAI, 2022) — предобученная модель распознавания речи на 680 000 часах аудио. Работает на 99 языках без дообучения.
- Stable Diffusion — предобученная диффузионная модель для генерации изображений. Дообучается под конкретный стиль или персонажа с помощью техники LoRA буквально за 20–30 минут.
Связанные понятия
- Fine-tuning (дообучение) — адаптация предобученной модели под конкретную задачу на небольшом датасете.
- Transfer learning (перенос обучения) — общий подход, при котором знания из одной задачи применяются в другой.
- Foundation model — крупная предобученная модель широкого назначения, на основе которой строят специализированные решения.
- Zero-shot и few-shot learning — использование предобученной модели без дообучения или с минимальным количеством примеров.
- Hugging Face Hub — крупнейший публичный репозиторий предобученных моделей, где размещено более 500 000 весов по состоянию на 2024 год.
Частые заблуждения
Предобученную модель часто путают с готовым продуктом — это не одно и то же. Предобученная модель — это набор весов, а не сервис: чтобы она работала в приложении, нужна инфраструктура, промпт-инжиниринг или дообучение. Ещё одно заблуждение: «предобученная модель знает всё». На самом деле она знает только то, что было в обучающих данных, и может уверенно ошибаться за пределами своей области. Наконец, не все предобученные модели одинаково применимы: модель, обученная на английском тексте, будет работать хуже на русском — и это нормально, а не баг.