Дорогие симуляторы и нищета агентов

Каждый, кто пробовал обучить ИИ-агента, сталкивался с проклятием симуляции. Хочешь проверить, как модель справится с терминалом? Разворачивай Docker контейнеры, настраивай SSH, бойся, что агент случайно запустит rm -rf /. Хочешь протестировать MCP-сервер для CAD? Покупай лицензию КОМПАС-3D и молись, чтобы агент не сломал сборку. А SWE-бенчмарки вообще требуют целых инфраструктурных зоопарков.

В июне 2026 команда Qwen выкатила странный, на первый взгляд, релиз — Qwen-AgentWorld-35B-A3B. Не очередной chat-модель, а World Model. Модель, которая не отвечает на вопросы, а предсказывает, что произойдет со средой после действия агента. Проще говоря — она симулирует мир, в котором живет агент, не запуская реальные процессы.

World Model — это нейросеть, которая заменяет настоящую среду (терминал, браузер, CAD) на вычислительный граф. Агент отправляет действие, модель возвращает следующее состояние и награду. Никаких Docker, никаких рисков.

35B — это много. 3B активно — это мало. В чём фокус?

Архитектура — Mixture of Experts (MoE). Полный размер — 35 миллиардов параметров, но для каждого forward pass активируется только 3 миллиарда. Это позволяет модели удерживать знания по 7 доменам, не сжигая GPU-часы.

Список доменов, на которых обучалась модель:

MCP — Model Context Protocol. Симуляция диалогов с MCP-серверами (например, файловая система, базы данных, CAD-системы).
Терминал — эмуляция bash-сессии: выполнение команд, парсинг вывода, коды возврата.
SWE — Software Engineering: редактирование кода, запуск тестов, сборка.
Браузер — навигация по страницам, клики, заполнение форм.
Код — выполнение Python/Jupyter ячеек, генерация и проверка сниппетов.
Игры — простые 2D-среды (аналог Gridworld, но сложнее).
Робототехника — симуляция движений манипулятора (MuJoCo-подобные сценарии).

Обучение велось на огромном корпусе траекторий — Qwen собрали логи взаимодействия реальных агентов (в том числе Qwen3.5-35B успешно справлялся с multi-agent задачами) и использовали их как ground truth. Модель училась предсказывать следующий шаг среды с точностью 96.7% на удержанных данных.

Как это выглядит в коде

Установка через Hugging Face Transformers (поддерживается начиная с версии 4.52.0). Модель загружается как обычный AutoModel, но с флагом trust_remote_code.

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "Qwen/AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
)

Теперь создадим симуляцию терминала. Допустим, агент выполнил команду ls -la в пустой директории. Модель должна вернуть наблюдение вроде total 8 drwxr-xr-x 2 user user 4096 ....

# Формируем промпт в формате Qwen AgentWorld
state = {
    "domain": "terminal",
    "history": [
        {"role": "user", "content": "ls -la"}
    ],
    "environment": {
        "cwd": "/home/user/project",
        "files": []
    }
}

prompt = tokenizer.apply_state_template(state)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=256)

observation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(observation)

Результат: модель возвращает структурированный JSON с полями observation, reward, done. Это и есть симулированное состояние среды.

Важно: модель не выполняет реальную команду. Она генерирует правдоподобный вывод на основе обучающих данных. Если вы попросите sudo rm -rf /, модель, скорее всего, вернёт ошибку прав доступа, а не уничтожит вашу файловую систему. Но не надейтесь на 100% безопасность — тестируйте в изолированной среде.

Сравнение с альтернативами: от Gym до промышленных симуляторов

Инструмент	Тип	Поддержка MCP/SWE	Скорость	Риск для реальной системы
Qwen-AgentWorld-35B-A3B	World Model	Да (MCP, терминал, SWE)	~50 шагов/с на RTX 5080	Низкий
Gymnasium / Farama	Фреймворк	Только игровые среды	Высокая	Низкий (изолировано)
Docker + реальный софт	Инфраструктура	Любая (но надо настраивать)	Низкая (реальное IO)	Средний/Высокий
UniSim (Google DeepMind)	World Model	Только 3D/роботы	~10 шагов/с	Низкий
DreamerV3	World Model (RL)	Ограниченный (Atari, DM Lab)	~100 шагов/с (оптимизировано)	Низкий

Главное преимущество Qwen-AgentWorld — широта доменов из коробки. Вам не нужно писать эмулятор терминала или mock для MCP-сервера. Модель уже умеет предсказывать поведение типовых MCP-инструментов — тех самых, что мы настраивали для работы с КОМПАС-3D. Достаточно передать контекст протокола.

С другой стороны, для узкоспециализированных сред (например, ваш проприетарный софт) модель будет ошибаться. В таких случаях лучше использовать гибрид: Qwen-AgentWorld для быстрого прототипирования, а реальную среду — для финального тестирования. Именно такой подход описан в отчёте Thousand Token Wood v2.

Где эта модель реально нужна (и где — нет)

Идеальный случай: вы разрабатываете агента для автоматизации SWE-задач. Вместо того чтобы каждую итерацию обучения запускать сотни Docker-контейнеров, вы используете Qwen-AgentWorld для быстрой обратной связи. Точность достаточна, чтобы отловить грубые ошибки агента (выполнение несуществующей команды, неправильный синтаксис).

Хороший случай: тестирование MCP-серверов. Если вы пишете сервер для работы с файловой системой, можно заменить реальные вызовы на симуляцию и проверить, как агент реагирует на разные ответы (ошибка доступа, неверный путь и т.д.).

Сомнительный случай: обучение с подкреплением для игр. Для Atari или простых 2D-игр есть более быстрые симуляторы (Gymnasium). Qwen-AgentWorld выигрывает только если игра сложная и требует понимания естественного языка.

А вот для локального кодинга на одной видеокарте может быть слишком тяжеловата. Как показывают тесты, RTX 5080 16GB тянет 35B-A3B MTP, но AgentWorld версия потребляет больше памяти из-за дополнительных эмбеддингов доменов. Рекомендую квантизацию до 8-bit.

Бенчмарки и неожиданные результаты

Qwen опубликовали сравнение с альтернативными подходами на наборе из 5000 траекторий (SWE-Bench, MCP-Bench, Terminal-Bench). Модель показывает 94.2% точность предсказания наблюдения против 89.1% у Fine-tuned GPT-4o-mini (тот же размер активных параметров). При этом скорость инференса в 3 раза выше, чем у GPT-4o-mini на том же оборудовании.

💡

Интересный факт: модель лучше всего предсказывает MCP-среды (97.1% точности), а хуже всего — робототехнику (89.4%). Вероятно, из-за нехватки данных о физике взаимодействия. Для роботов Qwen советуют использовать реальные симуляторы вроде MuJoCo, а Qwen-AgentWorld — только для высокоуровневого планирования.

Кстати, в процессе тестирования выяснилось, что модель можно дистиллировать в более компактную версию. Когда дистилляция вкуснее оригинала — этот принцип работает и для World Model: Qwen обещают выпустить AgentWorld-9B на основе дистилляции 35B версии. Ждём.

Как НЕ надо использовать Qwen-AgentWorld

Самая частая ошибка новичков — пытаться скормить модели реальные данные среды и ожидать, что она их идеально повторит. Нет. World Model — это вероятностная машина. Если вы передадите сложный лог из 1000 строк, модель сожмёт его до 256 токенов и потеряет детали. Она пригодна для проверки логики, а не для точного воспроизведения.

Вторая ошибка — использовать одну и ту же модель для обучения и финальной оценки. Агент переобучится под особенности симуляции и провалится в реальном мире. Всегда оставляйте «реальный» бенчмарк.

И третья — забыть про ограничения контекста. Максимальная длина истории — 8192 токена. Если симуляция длится дольше, придётся сбрасывать состояние или использовать технику скользящего окна. Подробнее про управление контекстом агента рассказано в гайде по развёртыванию готового агента на Qwen3.5-9B.

Кому бежать ставить

Если вы пишете агента для автоматизации рутины (SWE, CLI, MCP) — берите Qwen-AgentWorld-35B-A3B как песочницу. Это сэкономит вам часы на отладке и спасёт прод от случайных команд. Если вам нужна точная симуляция физики или вы используете редкие софтверные инструменты — лучше подождите специализированного релиза или соберите свой датасет.

Qwen снова показали, что умеют упаковывать сложные концепции (World Model) в доступный инструмент. Следующий шаг — интеграция с Qwen3.6-27B на разных фреймворках для кросс-агентной симуляции. Представьте: один агент работает в симулированном терминале, другой — в симулированном CAD, и они общаются через MCP. Qwen-AgentWorld станет тем клеем, который соединит эти миры без единого запущенного процесса. Звучит как научная фантастика, но бенчмарки уже не врут.

Подписаться на канал

Qwen-AgentWorld-35B-A3B: Мир в 35 миллиардов, где активны только 3