Трансформерная архитектура

Что это

Трансформерная архитектура (transformer) — это архитектура глубокого обучения, в основе которой лежит механизм самовнимания (self-attention). В отличие от рекуррентных сетей (RNN, LSTM), трансформер обрабатывает все элементы последовательности одновременно, а не по одному, что делает его значительно быстрее при обучении на современном железе. Именно эта архитектура лежит в основе GPT, BERT, T5 и большинства современных больших языковых моделей.

Зачем это нужно

До 2017 года задачи обработки текста решались преимущественно с помощью рекуррентных сетей. Их главная проблема — последовательная обработка: чтобы обработать 100-е слово, нужно сначала пройти через первые 99. Это медленно и плохо масштабируется. В 2017 году исследователи Google опубликовали статью «Attention Is All You Need», в которой предложили архитектуру, целиком построенную на механизме внимания — без рекуррентности и свёрток. Это позволило параллелизировать обучение, увеличить контекстное окно и добиться качества, которое рекуррентные сети не могли обеспечить даже теоретически.

Как это работает

Трансформер состоит из энкодера и декодера, каждый из которых включает несколько одинаковых слоёв. Ключевой элемент каждого слоя — механизм многоголового внимания (multi-head attention). Он вычисляет для каждого токена, насколько важны все остальные токены в последовательности при его обработке. Это позволяет модели понимать, что в предложении «Банк выдал кредит» слово «банк» связано с финансами, а не с берегом реки. Помимо внимания, каждый слой содержит полносвязную нейросеть (feed-forward network) и нормализацию. Позиционное кодирование (positional encoding) добавляется к входным эмбеддингам, чтобы модель знала порядок токенов — ведь без рекуррентности порядок иначе теряется.

Примеры применения

Языковые модели: GPT-4, Claude, Llama — генерация текста, ответы на вопросы, написание кода.
Понимание текста: BERT и его производные используются для классификации, извлечения информации, поиска.
Машинный перевод: Google Translate с 2020 года использует трансформерные модели вместо RNN.
Компьютерное зрение: Vision Transformer (ViT, 2020) применяет ту же архитектуру к изображениям, разбивая их на патчи.
Биоинформатика: AlphaFold 2 от DeepMind использует трансформеры для предсказания структуры белков.

Связанные понятия

Механизм внимания (attention mechanism) — базовый принцип, на котором строится трансформер.
Эмбеддинги (embeddings) — векторные представления токенов, которые подаются на вход модели.
Токенизация — разбивка текста на токены перед подачей в модель.
Большие языковые модели (LLM) — класс моделей, построенных на трансформерной архитектуре.
Fine-tuning — дообучение предобученного трансформера на конкретной задаче.
Контекстное окно — максимальное количество токенов, которое модель может обработать за один раз.

Частые заблуждения

Трансформер — не синоним GPT или ChatGPT. GPT — это конкретная серия моделей от OpenAI, построенных на трансформерной архитектуре, но трансформеры применяются в сотнях других моделей и задачах. Ещё одно заблуждение: трансформеры «понимают» текст так же, как человек. На самом деле они статистически моделируют вероятности токенов — это мощный инструмент, но не аналог человеческого мышления. Наконец, трансформеры не всегда лучший выбор: для небольших датасетов или задач с жёсткими ограничениями по памяти более простые архитектуры могут работать эффективнее.