Дорогие симуляторы и нищета агентов
Каждый, кто пробовал обучить ИИ-агента, сталкивался с проклятием симуляции. Хочешь проверить, как модель справится с терминалом? Разворачивай Docker контейнеры, настраивай SSH, бойся, что агент случайно запустит rm -rf /. Хочешь протестировать MCP-сервер для CAD? Покупай лицензию КОМПАС-3D и молись, чтобы агент не сломал сборку. А SWE-бенчмарки вообще требуют целых инфраструктурных зоопарков.
В июне 2026 команда Qwen выкатила странный, на первый взгляд, релиз — Qwen-AgentWorld-35B-A3B. Не очередной chat-модель, а World Model. Модель, которая не отвечает на вопросы, а предсказывает, что произойдет со средой после действия агента. Проще говоря — она симулирует мир, в котором живет агент, не запуская реальные процессы.
World Model — это нейросеть, которая заменяет настоящую среду (терминал, браузер, CAD) на вычислительный граф. Агент отправляет действие, модель возвращает следующее состояние и награду. Никаких Docker, никаких рисков.
35B — это много. 3B активно — это мало. В чём фокус?
Архитектура — Mixture of Experts (MoE). Полный размер — 35 миллиардов параметров, но для каждого forward pass активируется только 3 миллиарда. Это позволяет модели удерживать знания по 7 доменам, не сжигая GPU-часы.
Список доменов, на которых обучалась модель:
- MCP — Model Context Protocol. Симуляция диалогов с MCP-серверами (например, файловая система, базы данных, CAD-системы).
- Терминал — эмуляция bash-сессии: выполнение команд, парсинг вывода, коды возврата.
- SWE — Software Engineering: редактирование кода, запуск тестов, сборка.
- Браузер — навигация по страницам, клики, заполнение форм.
- Код — выполнение Python/Jupyter ячеек, генерация и проверка сниппетов.
- Игры — простые 2D-среды (аналог Gridworld, но сложнее).
- Робототехника — симуляция движений манипулятора (MuJoCo-подобные сценарии).
Обучение велось на огромном корпусе траекторий — Qwen собрали логи взаимодействия реальных агентов (в том числе Qwen3.5-35B успешно справлялся с multi-agent задачами) и использовали их как ground truth. Модель училась предсказывать следующий шаг среды с точностью 96.7% на удержанных данных.
Как это выглядит в коде
Установка через Hugging Face Transformers (поддерживается начиная с версии 4.52.0). Модель загружается как обычный AutoModel, но с флагом trust_remote_code.
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "Qwen/AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype=torch.bfloat16,
trust_remote_code=True
)Теперь создадим симуляцию терминала. Допустим, агент выполнил команду ls -la в пустой директории. Модель должна вернуть наблюдение вроде total 8
drwxr-xr-x 2 user user 4096 ....
# Формируем промпт в формате Qwen AgentWorld
state = {
"domain": "terminal",
"history": [
{"role": "user", "content": "ls -la"}
],
"environment": {
"cwd": "/home/user/project",
"files": []
}
}
prompt = tokenizer.apply_state_template(state)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=256)
observation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(observation)Результат: модель возвращает структурированный JSON с полями observation, reward, done. Это и есть симулированное состояние среды.
Важно: модель не выполняет реальную команду. Она генерирует правдоподобный вывод на основе обучающих данных. Если вы попросите sudo rm -rf /, модель, скорее всего, вернёт ошибку прав доступа, а не уничтожит вашу файловую систему. Но не надейтесь на 100% безопасность — тестируйте в изолированной среде.
Сравнение с альтернативами: от Gym до промышленных симуляторов
| Инструмент | Тип | Поддержка MCP/SWE | Скорость | Риск для реальной системы |
|---|---|---|---|---|
| Qwen-AgentWorld-35B-A3B | World Model | Да (MCP, терминал, SWE) | ~50 шагов/с на RTX 5080 | Низкий |
| Gymnasium / Farama | Фреймворк | Только игровые среды | Высокая | Низкий (изолировано) |
| Docker + реальный софт | Инфраструктура | Любая (но надо настраивать) | Низкая (реальное IO) | Средний/Высокий |
| UniSim (Google DeepMind) | World Model | Только 3D/роботы | ~10 шагов/с | Низкий |
| DreamerV3 | World Model (RL) | Ограниченный (Atari, DM Lab) | ~100 шагов/с (оптимизировано) | Низкий |
Главное преимущество Qwen-AgentWorld — широта доменов из коробки. Вам не нужно писать эмулятор терминала или mock для MCP-сервера. Модель уже умеет предсказывать поведение типовых MCP-инструментов — тех самых, что мы настраивали для работы с КОМПАС-3D. Достаточно передать контекст протокола.
С другой стороны, для узкоспециализированных сред (например, ваш проприетарный софт) модель будет ошибаться. В таких случаях лучше использовать гибрид: Qwen-AgentWorld для быстрого прототипирования, а реальную среду — для финального тестирования. Именно такой подход описан в отчёте Thousand Token Wood v2.
Где эта модель реально нужна (и где — нет)
Идеальный случай: вы разрабатываете агента для автоматизации SWE-задач. Вместо того чтобы каждую итерацию обучения запускать сотни Docker-контейнеров, вы используете Qwen-AgentWorld для быстрой обратной связи. Точность достаточна, чтобы отловить грубые ошибки агента (выполнение несуществующей команды, неправильный синтаксис).
Хороший случай: тестирование MCP-серверов. Если вы пишете сервер для работы с файловой системой, можно заменить реальные вызовы на симуляцию и проверить, как агент реагирует на разные ответы (ошибка доступа, неверный путь и т.д.).
Сомнительный случай: обучение с подкреплением для игр. Для Atari или простых 2D-игр есть более быстрые симуляторы (Gymnasium). Qwen-AgentWorld выигрывает только если игра сложная и требует понимания естественного языка.
А вот для локального кодинга на одной видеокарте может быть слишком тяжеловата. Как показывают тесты, RTX 5080 16GB тянет 35B-A3B MTP, но AgentWorld версия потребляет больше памяти из-за дополнительных эмбеддингов доменов. Рекомендую квантизацию до 8-bit.
Бенчмарки и неожиданные результаты
Qwen опубликовали сравнение с альтернативными подходами на наборе из 5000 траекторий (SWE-Bench, MCP-Bench, Terminal-Bench). Модель показывает 94.2% точность предсказания наблюдения против 89.1% у Fine-tuned GPT-4o-mini (тот же размер активных параметров). При этом скорость инференса в 3 раза выше, чем у GPT-4o-mini на том же оборудовании.
Кстати, в процессе тестирования выяснилось, что модель можно дистиллировать в более компактную версию. Когда дистилляция вкуснее оригинала — этот принцип работает и для World Model: Qwen обещают выпустить AgentWorld-9B на основе дистилляции 35B версии. Ждём.
Как НЕ надо использовать Qwen-AgentWorld
Самая частая ошибка новичков — пытаться скормить модели реальные данные среды и ожидать, что она их идеально повторит. Нет. World Model — это вероятностная машина. Если вы передадите сложный лог из 1000 строк, модель сожмёт его до 256 токенов и потеряет детали. Она пригодна для проверки логики, а не для точного воспроизведения.
Вторая ошибка — использовать одну и ту же модель для обучения и финальной оценки. Агент переобучится под особенности симуляции и провалится в реальном мире. Всегда оставляйте «реальный» бенчмарк.
И третья — забыть про ограничения контекста. Максимальная длина истории — 8192 токена. Если симуляция длится дольше, придётся сбрасывать состояние или использовать технику скользящего окна. Подробнее про управление контекстом агента рассказано в гайде по развёртыванию готового агента на Qwen3.5-9B.
Кому бежать ставить
Если вы пишете агента для автоматизации рутины (SWE, CLI, MCP) — берите Qwen-AgentWorld-35B-A3B как песочницу. Это сэкономит вам часы на отладке и спасёт прод от случайных команд. Если вам нужна точная симуляция физики или вы используете редкие софтверные инструменты — лучше подождите специализированного релиза или соберите свой датасет.
Qwen снова показали, что умеют упаковывать сложные концепции (World Model) в доступный инструмент. Следующий шаг — интеграция с Qwen3.6-27B на разных фреймворках для кросс-агентной симуляции. Представьте: один агент работает в симулированном терминале, другой — в симулированном CAD, и они общаются через MCP. Qwen-AgentWorld станет тем клеем, который соединит эти миры без единого запущенного процесса. Звучит как научная фантастика, но бенчмарки уже не врут.