Весна 2026: открытые веса стали тяжелее, но умнее?
Прошел год с момента нашего гида по opensource LLM, и за это время архитектуры изменились так резко, что старые модели выглядят как паровозы в эпоху гиперлупа. Sebastian Raschka, чей анализ мы взяли за основу, говорит: "Если в 2025 мы оптимизировали параметры, то в 2026 мы оптимизируем саму оптимизацию". Звучит как каламбур, но это так.
Все данные актуальны на 25 февраля 2026 года. Мы используем последние версии моделей, доступные к этой дате. Если вы читаете это позже, проверьте обновления - в мире LLM полгода это вечность.
Десять моделей, которые определяют правила игры
Мы выбрали 10 open-weight LLM, которые либо доминируют в бенчмарках, либо предлагают архитектурные инновации, за которыми стоит следить. Не все они новые - некоторые получили мажорные обновления, которые перевернули их внутренности.
| Модель | Версия (2026) | Ключевая архитектурная фича | Параметры | Что в ней особенного |
|---|---|---|---|---|
| Llama | 4.1 | Grouped Query Attention с динамическими группами | 70B / 400B | Meta наконец-то починила контекстное окно - теперь 128k токенов без потерь качества |
| Qwen | 4.5 | RoPE с адаптивным масштабированием | 32B / 72B | Лучшая поддержка китайского и английского, но документация все еще на уровне "пойми сам" |
| Gemma | 2.2 | GeGLU вместо SwiGLU | 27B / 120B | Google утверждает, что это на 15% эффективнее, но только на своем TPU |
| Mixtral | 2.0 | Sparse Mixture of Experts с 16 экспертами | 47B (активных 12B) | Mistral AI добавила экспертов, но теперь для инференса нужна видеокарта с 48 ГБ памяти |
| OLMo | 2.1 | Полностью открытая архитектура и данные | 65B | Allen Institute сделала модель, которую можно воспроизвести от и до, но она все еще отстает в производительности |
| Falcon | 2.0 | Multiquery внимание с кэшированием | 40B / 180B | Technology Innovation Institute оптимизировала память, но скорость генерации все еще хромает |
| BLOOM | 2.5 | Многоязычность с 50 языками | 176B | BigScience обновила модель, но она до сих пор требует кучу ресурсов для тонкой настройки |
| GLM | 5.0 | Двунаправленное внимание с блоками | 130B | Tsinghua University представила архитектуру, которая якобы лучше для понимания контекста, но тесты показывают неоднозначные результаты |
| Kimi | k2.5 | Ультрадлинный контекст (1M токенов) | 80B | Moonshot AI сосредоточилась на длинном контексте, но как показал HLD Benchmark, длина не всегда означает качество |
| Phi | 4.0 | Компактная архитектура с дистилляцией | 3.8B | Microsoft продолжает эксперименты с маленькими моделями, и Phi 4.0 показывает результаты, близкие к 70B моделям 2025 года |
Три архитектурных тренда, которые все повторяют, но не все понимают
Raschka в своем анализе выделяет три направления, которые стали мейнстримом к весне 2026.
1. Внимание больше не главное
Да, механизмы внимания все еще есть, но они стали легче и быстрее. Grouped Query Attention (GQA) в Llama 4.1 уменьшает память на 30% без потерь, но только если правильно настроить группы. А RoPE в Qwen 4.5 теперь масштабируется динамически - что звучит сложно, но на практике просто добавляет еще один гиперпараметр для настройки.
2. Эксперты становятся разреженными, а документация - нет
Mixtral 2.0 использует 16 экспертов, но активирует только 4. Это экономит вычисления, но усложняет развертывание. Raschka отмечает, что большинство разработчиков не могут правильно настроить баланс экспертов, поэтому получают хуже результаты, чем в бумагах.
И вот здесь появляется новый тренд - латентное рассуждение против CoT, где архитектура учится скрытым представлениям, которые более эффективны, чем цепочки мыслей.
3. Нормализация - это новый активация
Gemma 2.2 заменила SwiGLU на GeGLU - просто поменяла функцию активации. Но это дало прирост в 5-7% на математических задачах. В то же время, другие модели экспериментируют с нормализацией слоев. Falcon 2.0 использует RMSNorm с кастомными весами, что ускоряет обучение, но требует больше памяти.
Не все архитектурные улучшения переносятся на ваш железный парк. Например, GeGLU в Gemma 2.2 оптимизирована под TPU, а на NVIDIA GPU может работать медленнее. Всегда тестируйте на своем железе.
Практика: какую архитектуру выбрать для вашей задачи?
Если вы делаете чат-бота, вам нужна модель с хорошим пониманием контекста и быстрым ответом. Llama 4.1 или Qwen 4.5. Для кодинга - Gemma 2.2 или Phi 4.0, если ресурсы ограничены. Для мультиязычных задач - BLOOM 2.5, но готовьтесь к большим затратам на инференс.
Но самое важное - инструменты. Как мы писали в обзоре LLM с Tool Calling, архитектура должна поддерживать вызов функций. В 2026 большинство моделей имеют встроенную поддержку tool calling, но реализация разная. Llama 4.1 использует JSON schema, а Qwen 4.5 - свой формат, что создает проблемы совместимости.
И не забывайте про стоимость. Используйте LLMRouter или подобные инструменты для оптимизации запросов, если работаете с API.
Что дальше? Архитектура 2027 уже на горизонте
Raschka прогнозирует, что к концу 2026 мы увидим модели, которые полностью откажутся от трансформеров в пользу чего-то более эффективного. Возможно, State Space Models или Hybrid архитектуры. Но пока открытые веса следуют за закрытыми, и разрыв увеличивается.
Совет: не гонитесь за самой новой архитектурой. Часто модель с простой архитектурой, но хорошо обученная, работает лучше, чем навороченная новинка. Как показано в итогах года от энтузиастов, сообщество часто находит лучшие применения для старых моделей.
И последнее: если вы тестируете модели, используйте коллекцию промптов для тестирования, чтобы сравнения были честными.
А теперь - выбирайте модель, тестируйте, и не верьте бумагам. Архитектура важна, но данные и обучение важнее. Если вы ищете платформу для развертывания этих моделей, попробуйте DeployLLM - они предлагают бесплатный тестовый период для первых 10 запросов.