Алгоритм классификации

Что это

Алгоритм классификации — это метод обучения с учителем, который на основе набора признаков объекта относит его к одному из заранее известных классов. Например, письмо — спам или не спам, опухоль — злокачественная или доброкачественная, клиент — уйдёт или останется. В отличие от регрессии, которая предсказывает числовое значение, классификация всегда выдаёт дискретный ответ — метку класса. Модель обучается на размеченных данных: она видит примеры с правильными ответами и учится находить закономерности, чтобы потом применять их к новым объектам.

Зачем это нужно

Задача классификации — одна из самых распространённых в прикладном машинном обучении. Бизнесу нужно автоматически сортировать заявки, выявлять мошенников среди транзакций, определять тональность отзывов. В медицине алгоритмы классификации помогают ставить диагнозы по снимкам МРТ — например, модели на основе свёрточных нейросетей в 2017 году показали точность выявления рака кожи на уровне дерматологов. Без классификации невозможно представить современные рекомендательные системы, голосовых ассистентов и системы контроля качества на производстве.

Как это работает

Процесс построения классификатора состоит из нескольких этапов. Сначала собирают и размечают данные — каждому объекту присваивают правильную метку класса. Затем выбирают алгоритм и обучают модель: она ищет границы между классами в пространстве признаков. После обучения модель проверяют на отложенной выборке и оценивают качество с помощью метрик. Основные алгоритмы классификации различаются по принципу работы:

Логистическая регрессия — строит линейную границу между классами, возвращает вероятность принадлежности к классу. Простая, быстрая, хорошо интерпретируется.
Дерево решений — делит пространство признаков на области с помощью последовательных условий вида «если X > 5, то...». Легко объяснить бизнесу.
Метод опорных векторов (SVM) — ищет гиперплоскость, которая максимально разделяет классы. Эффективен при небольших выборках и высокой размерности.
Случайный лес и градиентный бустинг (XGBoost, LightGBM) — ансамблевые методы, объединяющие множество деревьев. Показывают высокое качество на табличных данных.
Нейронные сети — универсальный инструмент для сложных задач: распознавание изображений, текстов, аудио. Требуют больших данных и вычислительных ресурсов.

Примеры применения

Фильтрация спама — Gmail использует классификаторы, чтобы отделять нежелательные письма от обычных, анализируя текст, отправителя и поведение пользователя.
Кредитный скоринг — банки классифицируют заявителей на «надёжных» и «рискованных» заёмщиков по десяткам признаков: доход, история платежей, возраст.
Модерация контента — соцсети автоматически помечают изображения и тексты как нарушающие правила или безопасные.
Медицинская диагностика — классификаторы на основе анализов крови помогают выявлять диабет, сепсис и другие заболевания на ранних стадиях.
Распознавание рукописных цифр — классическая учебная задача на датасете MNIST: модель определяет, какая из 10 цифр изображена на картинке.

Связанные понятия

Обучение с учителем — класс задач машинного обучения, к которому относится классификация
Регрессия — похожая задача, но с предсказанием числового значения вместо метки класса
Метрики качества — accuracy, precision, recall, F1-score, ROC-AUC — показатели, по которым оценивают классификатор
Переобучение — ситуация, когда модель хорошо работает на обучающих данных, но плохо на новых
Многоклассовая классификация — задача с тремя и более классами, в отличие от бинарной (два класса)
Разметка данных — процесс присвоения меток объектам для обучения классификатора

Частые ошибки и мифы

Главный миф: чем сложнее алгоритм, тем лучше результат. На практике логистическая регрессия часто обходит нейросеть на небольших табличных данных. Другая распространённая ошибка — оценивать модель только по accuracy. Если в выборке 95% объектов одного класса, классификатор, который всегда отвечает «класс A», покажет 95% точности — но будет абсолютно бесполезен. Для несбалансированных классов смотрят на precision, recall и F1. Наконец, нельзя обучать и тестировать модель на одних и тех же данных — это приводит к завышенным оценкам и провалу на реальных данных.