Qwen-AgentWorld-35B-A3B: обзор бенчмарков и сравнение с аналогами | AiManual
AiManual Logo Ai / Manual.
24 Июн 2026 Инструмент

Qwen-AgentWorld-35B-A3B: новая модель для агентов и кодинга – обзор бенчмарков

Разбираем свежую MoE-модель от Qwen: 35B параметров, но активны только 3B. Результаты на SWE-bench, MCP, AgentBench и сравнение с DeepSeek.

Реклама
partv2

Когда 35 миллиардов — это не то, чем кажется

Qwen снова удивила. Модель Qwen-AgentWorld-35B-A3B — это не очередная гигантская монолитная нейронка, а хитрый MoE-конструктор: 35 миллиардов параметров суммарно, но в каждый момент времени активны только 3. Карликовый аппетит к ресурсам — при серьёзных амбициях. И, судя по первым бенчмаркам, амбиции оправданы.

Главная фишка — архитектура MoE (Mixture of Experts), где модель решает, какие «экспертные» подмодули включить под конкретную задачу. Это радикально снижает требования к памяти и ускоряет инференс. По сути, вы получаете производительность, близкую к моделям вроде DeepSeek-Coder-V2 или Claude 4.6 Opus, но на видеоадаптере, который потянет 7B-модель.

💡
Аббревиатура A3B (3 активных миллиарда) — это не «урезанная версия», а осознанная инженерная стратегия. Как в процессорах с гетерогенными ядрами — включаются только нужные.

Но давайте по порядку. Что эта модель умеет, где её догоняют конкуренты и стоит ли прямо сейчас бросать свои инструменты ради Qwen-AgentWorld?

Бенчмарки: цифры, которые не стыдно показать

Команда Qwen опубликовала результаты по трём ключевым направлениям: SWE-bench (решение задач по программированию), MCP (Model Context Protocol — взаимодействие с внешними инструментами) и AgentBench (общая агентная активность).

БенчмаркQwen-AgentWorld (A3B)DeepSeek-Coder-V2 (236B MoE)Qwen3.6-27B
SWE-bench (resolve rate)27,3%24,1%26,5%
MCP (tool use accuracy)89,2%85,6%88,9%
AgentBench (overall score)65,863,464,9

Цифры, конечно, синтетические. Но тренд ясен: модель, потребляющая в 8-10 раз меньше памяти, чем DeepSeek-Coder-V2, выигрывает или очень близка к лидерам. На SWE-bench у неё 27,3% — это выше, чем у той же North Mini Code от Cohere, которая на аналогичном бенчмарке остановилась на 25%.

Важный нюанс: тесты проводились при одинаковых hyperparameters и с одним инструментом — AgentFram. Если вы возьмёте другой фреймворк, картина может измениться. Кстати, вот хороший разбор того, как один и тот же промпт даёт разные результаты на разных фреймворках.

Почему MCP и SWE — это два разных мира

Многие путают «кодинг в IDE» и «агентное взаимодействие с файловой системой». SWE-bench проверяет именно второе: модель получает репозиторий, описание бага и должна сгенерировать патч. Там тулзов — git, grep, компиляторы. А вот MCP — это про то, как модель умеет договариваться с внешними API: базы данных, Slack, календари. И тут Qwen-AgentWorld показывает 89,2% точности вызова инструментов — почти без ложных срабатываний.

Сравните это с проблемами Qwen 3.5, которая сходила с ума от количества вызовов. В AgentWorld явно починили системный промпт: модель перестала галлюцинировать команды и стала гораздо более послушной.

А что с реальными задачами?

Цифры цифрами, но как модель ведёт себя в бою? Уже есть примеры, когда на неё навесили плагины для Obsidian, Google Calendar и Notion — и она исправно читала, писала, напоминала. То есть это не просто «бенчмарк-хантер», а рабочий инструмент для автоматизации.

Но, как говорится, есть нюанс. Для полноценной работы Qwen-AgentWorld рекомендуется использовать фреймворки вроде OpenClaw или AgentScope. Вот тут подробно расписано, как развернуть fine-tuned модель на 9B — для 35B/A3B логика та же, только ресурсов надо чуть больше.

КомпонентаРекомендация
GPU12 ГБ (например RTX 3060) — хватит для инференса с int4 квантизацией
RAM32 ГБ для загрузки полной модели (если нет квантизации)
ФреймворкvLLM, Ollama, transformers (FP16)

Хорошая новость: благодаря тому, что активны только 3B параметров, инференс на обычной домашней карточке — не сказка. Гайд по настройке агентного кодирования на слабой видеокарте применим и к AgentWorld — разве что quantization bits можно ставить чуть выше, сохраняя качество.

Кому это нужно прямо сейчас?

  • Разработчикам AI-агентов, которые устали ждать ответа от гигантских моделей на слабом железе.
  • Энтузиастам автоматизации, кто хочет прикрутить LLM к своему рабочему процессу (Jira, GitHub, Slack) без ежемесячного счета за API.
  • CTO стартапов, которые ищут open-source альтернативу DeepSeek или Claude без потери качества в задачах кодинга.

Да, она не идеальна — на сложных многоходовых сценариях с 5-6 шагами может начать рассуждать «по кругу». Статья про обуздание бесконечных вызовов инструментов для неё тоже актуальна.

С другой стороны, в паре с недавним релизом Qwen3.6-27B и Qwen 3.6 Plus Preview она образует трио, которое перекрывает 80% задач: от лёгких (3B active) до тяжелых (27B full).

Совет: не пытайтесь запустить AgentWorld «голой» — обязательно добавьте хотя бы базовый pipeline с git-памятью. Шестифазный агент на 200 КБ для Qwen3.5 — хорошая стартовая точка: архитектура почти не изменилась.

Под капотом: архитектура и как её обмануть

Модель использует 32 эксперта, из которых на каждом токене активируется только 2. Это даёт плотность в 1/12 (3B из 35B). При этом trained на 3.5 триллиона токенов, включая код, агентные сценарии и синтезированные данные с инструментальными вызовами. Qwen утверждают, что они синтезировали более 200K примеров «запланируй встречу — отправь письмо — добавь в календарь».

Но есть один трюк: если вы подаёте модели промпт, в котором перечислены все возможные инструменты, она начинает путаться. Лучше — динамический выбор: передавайте только актуальные тулзы для текущего шага. Разбор реализации агента, создающего агентов на Python с Qwen3.6 отлично иллюстрирует этот подход.

Если хотите попробовать сами — скачать можно с Hugging Face: прямая ссылка. Для теста рекомендую начать с bnb 4-bit квантизации — качество практически не падает, а VRAM требуется всего 6-7 ГБ.

Подписаться на канал