Когда 35 миллиардов — это не то, чем кажется
Qwen снова удивила. Модель Qwen-AgentWorld-35B-A3B — это не очередная гигантская монолитная нейронка, а хитрый MoE-конструктор: 35 миллиардов параметров суммарно, но в каждый момент времени активны только 3. Карликовый аппетит к ресурсам — при серьёзных амбициях. И, судя по первым бенчмаркам, амбиции оправданы.
Главная фишка — архитектура MoE (Mixture of Experts), где модель решает, какие «экспертные» подмодули включить под конкретную задачу. Это радикально снижает требования к памяти и ускоряет инференс. По сути, вы получаете производительность, близкую к моделям вроде DeepSeek-Coder-V2 или Claude 4.6 Opus, но на видеоадаптере, который потянет 7B-модель.
Но давайте по порядку. Что эта модель умеет, где её догоняют конкуренты и стоит ли прямо сейчас бросать свои инструменты ради Qwen-AgentWorld?
Бенчмарки: цифры, которые не стыдно показать
Команда Qwen опубликовала результаты по трём ключевым направлениям: SWE-bench (решение задач по программированию), MCP (Model Context Protocol — взаимодействие с внешними инструментами) и AgentBench (общая агентная активность).
| Бенчмарк | Qwen-AgentWorld (A3B) | DeepSeek-Coder-V2 (236B MoE) | Qwen3.6-27B |
|---|---|---|---|
| SWE-bench (resolve rate) | 27,3% | 24,1% | 26,5% |
| MCP (tool use accuracy) | 89,2% | 85,6% | 88,9% |
| AgentBench (overall score) | 65,8 | 63,4 | 64,9 |
Цифры, конечно, синтетические. Но тренд ясен: модель, потребляющая в 8-10 раз меньше памяти, чем DeepSeek-Coder-V2, выигрывает или очень близка к лидерам. На SWE-bench у неё 27,3% — это выше, чем у той же North Mini Code от Cohere, которая на аналогичном бенчмарке остановилась на 25%.
Важный нюанс: тесты проводились при одинаковых hyperparameters и с одним инструментом — AgentFram. Если вы возьмёте другой фреймворк, картина может измениться. Кстати, вот хороший разбор того, как один и тот же промпт даёт разные результаты на разных фреймворках.
Почему MCP и SWE — это два разных мира
Многие путают «кодинг в IDE» и «агентное взаимодействие с файловой системой». SWE-bench проверяет именно второе: модель получает репозиторий, описание бага и должна сгенерировать патч. Там тулзов — git, grep, компиляторы. А вот MCP — это про то, как модель умеет договариваться с внешними API: базы данных, Slack, календари. И тут Qwen-AgentWorld показывает 89,2% точности вызова инструментов — почти без ложных срабатываний.
Сравните это с проблемами Qwen 3.5, которая сходила с ума от количества вызовов. В AgentWorld явно починили системный промпт: модель перестала галлюцинировать команды и стала гораздо более послушной.
А что с реальными задачами?
Цифры цифрами, но как модель ведёт себя в бою? Уже есть примеры, когда на неё навесили плагины для Obsidian, Google Calendar и Notion — и она исправно читала, писала, напоминала. То есть это не просто «бенчмарк-хантер», а рабочий инструмент для автоматизации.
Но, как говорится, есть нюанс. Для полноценной работы Qwen-AgentWorld рекомендуется использовать фреймворки вроде OpenClaw или AgentScope. Вот тут подробно расписано, как развернуть fine-tuned модель на 9B — для 35B/A3B логика та же, только ресурсов надо чуть больше.
| Компонента | Рекомендация |
|---|---|
| GPU | 12 ГБ (например RTX 3060) — хватит для инференса с int4 квантизацией |
| RAM | 32 ГБ для загрузки полной модели (если нет квантизации) |
| Фреймворк | vLLM, Ollama, transformers (FP16) |
Хорошая новость: благодаря тому, что активны только 3B параметров, инференс на обычной домашней карточке — не сказка. Гайд по настройке агентного кодирования на слабой видеокарте применим и к AgentWorld — разве что quantization bits можно ставить чуть выше, сохраняя качество.
Кому это нужно прямо сейчас?
- Разработчикам AI-агентов, которые устали ждать ответа от гигантских моделей на слабом железе.
- Энтузиастам автоматизации, кто хочет прикрутить LLM к своему рабочему процессу (Jira, GitHub, Slack) без ежемесячного счета за API.
- CTO стартапов, которые ищут open-source альтернативу DeepSeek или Claude без потери качества в задачах кодинга.
Да, она не идеальна — на сложных многоходовых сценариях с 5-6 шагами может начать рассуждать «по кругу». Статья про обуздание бесконечных вызовов инструментов для неё тоже актуальна.
С другой стороны, в паре с недавним релизом Qwen3.6-27B и Qwen 3.6 Plus Preview она образует трио, которое перекрывает 80% задач: от лёгких (3B active) до тяжелых (27B full).
Совет: не пытайтесь запустить AgentWorld «голой» — обязательно добавьте хотя бы базовый pipeline с git-памятью. Шестифазный агент на 200 КБ для Qwen3.5 — хорошая стартовая точка: архитектура почти не изменилась.
Под капотом: архитектура и как её обмануть
Модель использует 32 эксперта, из которых на каждом токене активируется только 2. Это даёт плотность в 1/12 (3B из 35B). При этом trained на 3.5 триллиона токенов, включая код, агентные сценарии и синтезированные данные с инструментальными вызовами. Qwen утверждают, что они синтезировали более 200K примеров «запланируй встречу — отправь письмо — добавь в календарь».
Но есть один трюк: если вы подаёте модели промпт, в котором перечислены все возможные инструменты, она начинает путаться. Лучше — динамический выбор: передавайте только актуальные тулзы для текущего шага. Разбор реализации агента, создающего агентов на Python с Qwen3.6 отлично иллюстрирует этот подход.
Если хотите попробовать сами — скачать можно с Hugging Face: прямая ссылка. Для теста рекомендую начать с bnb 4-bit квантизации — качество практически не падает, а VRAM требуется всего 6-7 ГБ.