Векторное представление слов

Что это

Векторное представление слов (word embeddings) — это техника в обработке естественного языка (NLP), при которой каждое слово кодируется как вектор из вещественных чисел в многомерном пространстве. Ключевая идея: слова со схожим смыслом или контекстом получают похожие векторы — то есть расстояние между ними в этом пространстве оказывается маленьким. Это позволяет компьютеру «понимать» семантику языка в математических терминах, а не просто работать с символами.

Зачем это нужно

До появления word embeddings слова кодировали методом one-hot encoding: каждое слово — вектор из нулей с одной единицей на своей позиции. При словаре в 100 000 слов каждый вектор занимал 100 000 измерений, и никакой связи между словами «кошка» и «котёнок» не было — они были просто разными позициями. Word embeddings решили эту проблему: слово кодируется плотным вектором из 50–300 чисел, и семантика сохраняется. Именно это стало фундаментом для современных языковых моделей — от BERT до GPT.

Как это работает

Модель обучается на большом корпусе текста и учится предсказывать слово по его контексту (или контекст по слову). В процессе обучения веса нейронной сети становятся теми самыми векторами. Самые известные алгоритмы — Word2Vec (Google, 2013) и GloVe (Stanford, 2014). Word2Vec работает в двух режимах: CBOW (предсказывает слово по окружению) и Skip-gram (предсказывает окружение по слову). После обучения векторы обладают арифметическими свойствами: классический пример — вектор(«король») − вектор(«мужчина») + вектор(«женщина») ≈ вектор(«королева»). Современные модели, такие как FastText, учитывают морфологию и строят векторы даже для незнакомых слов через подсловные единицы.

Примеры применения

Поисковые системы: Яндекс и Google используют embeddings, чтобы находить документы, близкие по смыслу запросу, даже если точных слов нет.
Рекомендательные системы: товары или статьи кодируются векторами, и система находит похожие по близости в пространстве.
Анализ тональности: модель понимает, что «отличный» и «превосходный» — синонимы, и правильно классифицирует отзывы.
Машинный перевод: multilingual embeddings позволяют сопоставлять слова из разных языков в едином пространстве.
Чат-боты и NLP-пайплайны: embeddings служат входным слоем для классификаторов, NER-моделей и других задач обработки текста.

Связанные понятия

Word2Vec — алгоритм построения word embeddings от Google (2013).
GloVe — метод от Stanford, строящий векторы через глобальную матрицу совстречаемости слов.
FastText — расширение Word2Vec от Meta, работающее на уровне символьных н-грамм.
Контекстные embeddings — векторы, зависящие от контекста (ELMo, BERT), в отличие от статичных Word2Vec.
Трансформер — архитектура, в которой embeddings являются первым слоем и дообучаются вместе со всей моделью.
Косинусное сходство — основная метрика для сравнения векторов слов.

Частые заблуждения

Главный миф: word embeddings «понимают» язык так же, как человек. На самом деле они улавливают статистические закономерности совстречаемости слов в тексте — и не более. Из-за этого модели наследуют предвзятости корпуса: если в обучающих текстах «программист» чаще встречается рядом с мужскими местоимениями, вектор слова будет ближе к «мужчина», чем к «женщина». Второе заблуждение — что Word2Vec устарел и не нужен. Статичные embeddings по-прежнему применяются в лёгких продакшн-моделях, где BERT слишком тяжёл по вычислительным ресурсам.