Т

Трансформерная архитектура

Трансформерная архитектура — тип нейросетевой архитектуры, основанный на механизме внимания (attention), который позволяет модели обрабатывать последовательности данных параллельно и улавливать дальние зависимости между элементами.

Что это

Трансформерная архитектура (transformer) — это архитектура глубокого обучения, в основе которой лежит механизм самовнимания (self-attention). В отличие от рекуррентных сетей (RNN, LSTM), трансформер обрабатывает все элементы последовательности одновременно, а не по одному, что делает его значительно быстрее при обучении на современном железе. Именно эта архитектура лежит в основе GPT, BERT, T5 и большинства современных больших языковых моделей.

Зачем это нужно

До 2017 года задачи обработки текста решались преимущественно с помощью рекуррентных сетей. Их главная проблема — последовательная обработка: чтобы обработать 100-е слово, нужно сначала пройти через первые 99. Это медленно и плохо масштабируется. В 2017 году исследователи Google опубликовали статью «Attention Is All You Need», в которой предложили архитектуру, целиком построенную на механизме внимания — без рекуррентности и свёрток. Это позволило параллелизировать обучение, увеличить контекстное окно и добиться качества, которое рекуррентные сети не могли обеспечить даже теоретически.

Как это работает

Трансформер состоит из энкодера и декодера, каждый из которых включает несколько одинаковых слоёв. Ключевой элемент каждого слоя — механизм многоголового внимания (multi-head attention). Он вычисляет для каждого токена, насколько важны все остальные токены в последовательности при его обработке. Это позволяет модели понимать, что в предложении «Банк выдал кредит» слово «банк» связано с финансами, а не с берегом реки. Помимо внимания, каждый слой содержит полносвязную нейросеть (feed-forward network) и нормализацию. Позиционное кодирование (positional encoding) добавляется к входным эмбеддингам, чтобы модель знала порядок токенов — ведь без рекуррентности порядок иначе теряется.

Примеры применения

  • Языковые модели: GPT-4, Claude, Llama — генерация текста, ответы на вопросы, написание кода.
  • Понимание текста: BERT и его производные используются для классификации, извлечения информации, поиска.
  • Машинный перевод: Google Translate с 2020 года использует трансформерные модели вместо RNN.
  • Компьютерное зрение: Vision Transformer (ViT, 2020) применяет ту же архитектуру к изображениям, разбивая их на патчи.
  • Биоинформатика: AlphaFold 2 от DeepMind использует трансформеры для предсказания структуры белков.

Связанные понятия

  • Механизм внимания (attention mechanism) — базовый принцип, на котором строится трансформер.
  • Эмбеддинги (embeddings) — векторные представления токенов, которые подаются на вход модели.
  • Токенизация — разбивка текста на токены перед подачей в модель.
  • Большие языковые модели (LLM) — класс моделей, построенных на трансформерной архитектуре.
  • Fine-tuning — дообучение предобученного трансформера на конкретной задаче.
  • Контекстное окно — максимальное количество токенов, которое модель может обработать за один раз.

Частые заблуждения

Трансформер — не синоним GPT или ChatGPT. GPT — это конкретная серия моделей от OpenAI, построенных на трансформерной архитектуре, но трансформеры применяются в сотнях других моделей и задачах. Ещё одно заблуждение: трансформеры «понимают» текст так же, как человек. На самом деле они статистически моделируют вероятности токенов — это мощный инструмент, но не аналог человеческого мышления. Наконец, трансформеры не всегда лучший выбор: для небольших датасетов или задач с жёсткими ограничениями по памяти более простые архитектуры могут работать эффективнее.

Другие термины на букву «Т»

Технический план
Технический план — документ, содержащий сведения о здании, сооружении или помещении, необходимый для...
Топографическая карта
Топографическая карта — подробное картографическое изображение местности с точными координатами, рел...
Точность модели
Точность модели (accuracy) — доля правильных предсказаний среди всех предсказаний, сделанных моделью...
Территориальная единичная расценка (ТЕР)
Территориальная единичная расценка (ТЕР) — региональный норматив стоимости строительных работ, учиты...
Технический заказчик
Технический заказчик — компания или специалист, который берёт на себя управление строительным или IT...
Технический регламент в строительстве
Технический регламент в строительстве — обязательный нормативный документ, устанавливающий требовани...
Трубопроводный транспорт нефти и газа
Трубопроводный транспорт нефти и газа — система магистральных трубопроводов для перекачки углеводоро...
Техническое обслуживание автомобиля
Техническое обслуживание автомобиля — это комплекс регламентных работ по проверке, замене и регулиро...