Инференс — что это такое в машинном обучении

Что это

Инференс (от англ. inference — «вывод», «умозаключение») — это этап, на котором уже обученная модель машинного обучения получает новые входные данные и выдаёт результат: классификацию, текст, изображение, число или любой другой вывод. Если обучение модели — это многочасовой или многодневный процесс подбора весов на огромных датасетах, то инференс — это её повседневная «работа», которая может занимать миллисекунды. Именно инференс происходит каждый раз, когда вы спрашиваете что-то у ChatGPT, разблокируете телефон лицом или получаете рекомендацию в стриминговом сервисе.

Зачем это нужно

Разделение на обучение и инференс — не просто терминология, а принципиально разные инженерные задачи. Обучение GPT-4 стоило, по оценкам, десятки миллионов долларов и заняло месяцы на тысячах GPU. Инференс же должен быть дешёвым, быстрым и масштабируемым — отвечать миллионам пользователей одновременно. Поэтому компании вкладывают огромные ресурсы в оптимизацию именно инференса: квантизацию моделей, специализированные чипы (например, Google TPU или чипы Apple Neural Engine), батчинг запросов и кэширование промежуточных вычислений.

Как это работает

Во время инференса модель уже не обновляет свои веса — она использует зафиксированные параметры, полученные в ходе обучения. Входные данные проходят через слои нейросети в одном направлении (forward pass), и на выходе формируется предсказание. Для ускорения этого процесса применяют несколько подходов:

Квантизация — снижение точности весов с float32 до int8 или даже int4, что уменьшает размер модели и ускоряет вычисления с минимальной потерей качества.
Прунинг (pruning) — удаление незначимых связей в сети, чтобы сократить количество операций.
Батчинг — объединение нескольких запросов в один пакет для параллельной обработки на GPU.
Дистилляция — обучение маленькой «ученической» модели повторять поведение большой, чтобы инференс был быстрее и дешевле.
Специализированное железо — NVIDIA A100/H100, Google TPU v4, AWS Inferentia — чипы, заточенные именно под инференс-нагрузки.

Примеры

Голосовой ассистент на смартфоне распознаёт речь — модель получает аудиосигнал и за ~200 мс возвращает текст.
Антиспам в почте: каждое входящее письмо прогоняется через классификатор, который за доли секунды решает — спам или нет.
Генерация изображений в Midjourney или Stable Diffusion: текстовый промпт поступает на вход диффузионной модели, и та итеративно строит картинку.
Рекомендательная система Netflix: при каждом открытии приложения модель делает инференс по истории просмотров и выдаёт персональную подборку.
Медицинская диагностика: модель анализирует снимок МРТ и выделяет потенциальные патологии — врач получает результат за секунды вместо часов ручного анализа.

Связанные понятия

Обучение модели (training) — предшествующий инференсу этап подбора весов на обучающей выборке.
Forward pass — однонаправленный проход данных через слои сети, из которого и состоит инференс.
Латентность (latency) — время от подачи запроса до получения ответа; ключевая метрика качества инференса.
Throughput — количество запросов, которые система может обработать в единицу времени.
Квантизация — техника сжатия модели для ускорения инференса.
Edge inference — запуск инференса прямо на устройстве пользователя (смартфон, камера, IoT-датчик) без отправки данных в облако.
MLOps — практики и инструменты для развёртывания, мониторинга и поддержки моделей на инференс-стадии в продакшене.

Частые заблуждения

Распространённое заблуждение — считать, что самое дорогое в ML это инференс, а обучение — разовая трата. На самом деле для крупных сервисов суммарные затраты на инференс за год легко превышают стоимость обучения: миллиарды запросов в день умножаются на стоимость GPU-времени. Именно поэтому оптимизация инференса — отдельная инженерная дисциплина, а не просто «запустить модель на сервере». Ещё одно заблуждение: будто инференс всегда требует мощного облака. Современные квантизированные модели (например, LLaMA 3 в формате GGUF) спокойно работают на обычном ноутбуке без интернета.