Трансформеры больше не короли?
Долгие годы архитектура transformer была синонимом генеративного AI. GPT-4, Claude, Llama-3 — все они построены на механизме внимания, который «смотрит» на весь контекст сразу. Но у этого подхода есть цена: квадратичная сложность от длины последовательности. Чем длиннее текст, тем больше модель тупит на редких токенах и дальних зависимостях.
В 2025–2026 годах на сцену вышли гибридные модели — помесь трансформеров и state-space слоёв (например, Mamba). Самый яркий пример — Olmo Hybrid от AI2. Он сочетает трансформерные блоки для локального внимания и рекуррентные SSM-блоки для глобального контекста. Но означает ли это, что гибриды везде бьют чистые трансформеры? Ответ не так однозначен, как хотелось бы маркетологам.
Что говорят цифры: токен за токеном
Недавний бенчмарк сравнивал Olmo 3 (чистый трансформер, 8B параметров) и Olmo Hybrid (7B, 50% трансформер + 50% SSM). Тесты гнали на трёх типах токенов:
| Категория токенов | Olmo 3 (transformer) | Olmo Hybrid | Разница в точности Top-1 |
|---|---|---|---|
| Редкие слова (частотность < 0.001%) | 58.3% | 63.1% | +4.8% в пользу гибрида |
| Математические символы и уравнения | 71.5% | 68.2% | -3.3% в пользу трансформера |
| Токены с длинным контекстом (>1024) | 44.7% | 52.9% | +8.2% в пользу гибрида |
Гибрид выигрывает на редких токенах и длинных зависимостях, но проигрывает на точной математике и коротких локальных паттернах. Почему?
Почему гибриды подводят на математике
Трансформеры с полным вниманием видят каждый токен в контексте и могут выстраивать точные причинно-следственные связи между удалёнными символами в формуле. SSM-слои, хоть и умеют сжимать историю в скрытое состояние, теряют “адресную точность” — они запоминают смысл, но не точное положение символов. Поэтому для уравнений вроде ∫ x² dx чистая attention-архитектура всё ещё незаменима. Это подтверждают и мета-трансформеры, которые пытаются переизобрести внимание под новые задачи.
Но для генерации длинных текстов, кода с вызовами функций на десятках тысяч токенов, или диалогов, где нить теряется после 10 реплик, гибриды дают +5–10% к качеству. Это не просто цифры — это разница между “модель забыла о чём речь” и “модель помнит детали из начала промпта”. В GFN v2.5.0 похожий эффект: архитектура “забывает” о локальной памяти, но выигрывает на сверхдлинных контекстах.
Кому что выбирать: гибрид или трансформер?
Если ваша задача — точный математический вывод, структурированный JSON или короткие ответы с высокой точностью — берите классический трансформер. Он будет быстрее и надёжнее на локальных паттернах. Но если вы работаете с текстами, где важна консистентность на большом расстоянии (суммаризация статей, агенты, аналитика логов), гибрид даст ощутимый прирост.
На рынке уже появляются компактные гибриды, которые обходят большие трансформеры в конкретных нишах. Конец эпохи гигантов не за горами — бизнесу не нужны 400B, если 7B-гибрид справляется с задачей лучше. Пример — Genesis-152M-Instruct, которая на 150M параметров выдаёт результаты, сопоставимые с 1B-трансформерами, именно за счёт гибридности.
Дилемма выбора: архитектура или данные?
Сторонники трансформеров утверждают, что любую проблему можно решить просто набросав больше данных и выучив внимание. И отчасти они правы. Но ограничения next-token prediction остаются: модель учится угадывать статистику, а не понимать. Гибриды, благодаря рекуррентному пропуску информации, меньше склонны переобучаться на частотных паттернах — они вынуждены обобщать.
С другой стороны, adversarial-атаки показывают, что трансформеры уязвимее перед промпт-инъекциями. Гибриды за счёт разрыва сплошного внимания сложнее “отравить” одной фразой. В статье про промпт-инъекции как раз разбирается, почему полное внимание — это ахиллесова пята.
А что дальше?
Olmo Hybrid — только первый звоночек. Уже сейчас Ouro-2.6B-Thinking показывает, что рекуррентные модели можно дообучать поверх трансформеров, получая гибрид с лучшим качеством. И детерминированные AI без обучения — вообще другая философия.
Через год-два мы, вероятно, увидим не “трансформер vs гибрид”, а единую архитектуру, где attention и SSM работают как взаимозаменяемые блоки, переключаясь в зависимости от типа токена. Или, как вариант, модели будут учиться сами выбирать — какой слой активировать для каждого токена. Звучит дорого, но устойчивость к атакам и качество на редких токенах стоят того.
Пока же мой совет: не идите слепо за хайпом. Если ваша задача — чат-бот с короткими ответами или код-генерация с формулами — оставайтесь на трансформерах. Если вам нужно анализировать гигантские документы, где важна каждая деталь из начала — гибрид ваш выбор. А лучше — протестируйте обе модели на своих данных. Olmo Hybrid доступен open-source, и два дня инференса скажут больше, чем любое исследование.