Какие ключевые архитектурные изменения произошли в LLM за 7 лет?

Основные изменения: переход от полного внимания к групповому (GQA) и многозапросному, внедрение RoPE для позиционного кодирования, замена GeLU на SwiGLU для активации, увеличение контекстного окна до сотен тысяч токенов.

Чем отличается DeepSeek V3.2 от Llama 4.2 в архитектуре?

DeepSeek V3.2 использует MLA (Multi-head Latent Attention) и RoPE с линейным масштабированием, а Llama 4.2 — Dynamic GQA и YaRN для позиционного кодирования. DeepSeek фокусируется на экономии памяти, Llama — на динамической адаптации.

Что такое SwiGLU и почему его критикуют?

SwiGLU — это функция активации, комбинирующая Swish и GLU. В теории дает небольшой прирост качества, но на практике сложна в реализации и часто не дает преимуществ на реальном железе из-за квантования.

Эволюция архитектур LLM: от GPT к DeepSeek V3 и Llama 4 в 2026 году

Трансформеры сбежали из лаборатории

В 2018 году внимание было прорывом. В 2026-м — головной болью инженеров. Архитектура, которая породила GPT, BERT и T5, теперь обрастает такими костылями, что оригинальную статью Васуани не узнать.

За семь лет мы прошли путь от "давайте скормим модели весь интернет" до "как бы уменьшить эту пасть, чтобы она не сожрала все видеокарты на планете". И если в 2019-м все обсуждали количество параметров, то в марте 2026 года разговор идет о квантовании внимания, динамических ротациях и экспертах, которые вечно заняты.

Данные актуальны на 18 марта 2026 года. Если вы читаете это в 2027-м, знайте: половина описанных техник уже устарела. В мире LLM полгода — это новая эпоха.

От слона к муравью: как сжимали внимание

Помните оригинальный механизм внимания? Квадратичная сложность, матрицы размером с небольшой город. Это работало для контекста в 512 токенов. Сегодня DeepSeek V3.2 жует 128 тысяч токенов, а Llama 4.2 (вышедшая неделю назад) обещает 256к без потерь в скорости.

Как? Все началось с Multi-Query Attention в Falcon. Потом пришло Grouped-Query Attention (GQA) — золотая середина между качеством и памятью. В Llama 4.1 GQA стало динамическим: модель сама решает, сколько групп внимания ей нужно в разных слоях. Умно? Да. Сложно для отладки? Еще бы.

💡

RoPE (Rotary Positional Embeddings) — один из немногих элегантных патчей. Вместо того чтобы учить позиции с нуля, мы вращаем эмбеддинги. Просто, как дверная ручка. И работает. Qwen 4.6 добавил адаптивное масштабирование RoPE — теперь модель понимает, когда контекст длинный, а когда короткий.

SwiGLU: активация, которая всех бесит

GeLU был хорош. Потом пришел SwiGLU — комбинация Swish и GLU. В теории дает прирост на 0.3% на бенчмарках. На практике — добавляет головную боль при реализации. Google в Gemma 2.3 (релиз 10 марта 2026) вернулась к GeGLU, заявив о 12% экономии памяти на TPU. Но попробуйте запустить Gemma на потребительской видеокарте — она все равно не влезет.

Правда в том, что большинство архитектурных "улучшений" дают прирост только в идеальных условиях. На реальном железе разница между SwiGLU и GeLU часто съедается погрешностью квантования.

DeepSeek V3.2 против Llama 4.2: битва архитектур

Архитектурная фича	DeepSeek V3.2 (март 2026)	Llama 4.2 (март 2026)
Внимание	MLA (Multi-head Latent Attention) с 8 головами	Dynamic GQA (4-16 групп)
Позиционные эмбеддинги	RoPE с линейным масштабированием	YaRN (до 1М токенов в теории)
Активация	SwiGLU с кастомным β-параметром	Резидуальный SwiGLU
Нормализация	RMSNorm с learnable scale	LayerNorm (старая добрая)
Контекстное окно	128к (реально 64к без потерь)	256к (пока только в документации)

DeepSeek делает ставку на собственную разработку — MLA. Китайская команда утверждает, что это экономит 40% памяти при инференсе. Но попробуйте найти вменяемую реализацию MLA вне их репозитория. Не получится.

Meta играет в безопасность: Llama 4.2 — это эволюция, а не революция. Dynamic GQA работает, YaRN продлевает контекст, но все это уже видели в других моделях весны 2026.

Параметры? Какие параметры?

Гонка мегапараметров закончилась в 2025-м. Сегодня все говорят о эффективности. Mixtral 2.1 с ее 16 экспертами (из которых активны 4) потребляет меньше энергии, чем плотная модель тех же размеров. Но только если вы правильно настроили маршрутизатор.

Проблема в том, что большинство архитектурных фич созданы для идеального мира. В реальности, когда вы запускаете модель на двух RTX 4090 (партнерская ссылка на магазин), разница между GQA и MLA сводится к температуре видеокарт.

Что дальше? Архитектура как сервис

К концу 2026 года, я предсказываю, мы увидим первый фреймворк, где архитектура модели будет подбираться автоматически под задачу. Не нужно выбирать между Llama и DeepSeek — система сама скомпилирует гибрид из нужных компонентов.

Уже сейчас GLM 5.1 экспериментирует с блоками внимания, которые меняют форму в зависимости от типа текста. Для кода — один паттерн, для поэзии — другой.

Мой совет? Не зацикливайтесь на архитектуре. Лучше потратьте время на понимание основ машинного обучения (партнерская ссылка на курс). Потому что через год сегодняшние инновации станут Legacy кодом, а фундаментальные знания останутся.

И да, если вы все еще используете dense attention — вы в каменном веке. Переходите на sparse, grouped или whatever. Главное — чтобы модель отвечала быстро и по делу. А архитектура... Архитектура всего лишь средство.

Подписаться на канал

Сравнение архитектур LLM: от GPT до DeepSeek V3 и Llama 4 — эволюция за 7 лет