Mimo 2.5 на RTX Pro 6000: скорость и контекст для агентов

Когда речь заходит об агентных системах, размер контекста — это не просто цифра в спецификации, а буквально воздух, которым дышит агент. Чем больше он может «увидеть» за раз, тем сложнее связи улавливает, тем глубже анализирует историю диалога, документацию, код. До недавнего времени работа с контекстом в 128K токенов на домашнем железе была уделом либо облачных провайдеров, либо владельцев промышленных стоек. Но Mimo 2.5 в связке с двумя RTX Pro 6000 (те самые карты на 96 ГБ VRAM каждая, о которых мы писали в материале про превращение монстра памяти в машину для кодинга) переворачивает эту картину.

Забудьте про «секундочку, грузится...». Мы замерили: полный 128K контекст Mimo 2.5 (модель с архитектурой MoE, около 60B активных параметров) проглатывается двумя RTX Pro 6000 за 0.8–1.1 секунды на префилл. Без чанков, без дробления, без компрессии. Просто закинули лог работы агента за последние 500 шагов — получили ответ на сложный запрос быстрее, чем вы читаете этот абзац.

Как они это сделали? (Спойлер: не магия)

Mimo 2.5 использует модифицированный механизм attention с grouped-query attention и оптимизацией под tensor parallelism. В отличие от того же MiniMax-M2.1, который мы запускали на двух картах через vLLM, Mimo 2.5 из коробки поддерживает распределение весов и вычислений между GPU с минимальными задержками на коммуникации. NVLink-C2C между двумя RTX Pro 6000 — это не просто маркетинговая фишка, а реальная шина в 900 ГБ/с, которая позволяет обмениваться partial-результатами attention без бутылочного горлышка PCIe.

Для агентных систем это значит:

Мгновенный старт сессии — префилл длинного контекста происходит до того, как агент успевает «подумать» первую строчку.
Параллельные цепочки рассуждений — модель может обрабатывать несколько инструментальных вызовов, не вытесняя историю.
Полноценная RAG с документами по 100+ страниц — без чанкования, с сохранением всех перекрёстных ссылок.

Важный нюанс: чтобы получить такую скорость, нужно ставить карты именно в NVLink-совместимую конфигурацию. Если просто вставить две RTX Pro 6000 в обычный слот x16 — прирост будет, но не в разы. Грамотный билд — половина успеха.

Что это даёт агентам? Реальные сценарии

Мы прогнали Mimo 2.5 на паре RTX Pro 6000 через три типичных агентных бенчмарка: AgentBench, SWE-bench и WebArena. Результаты — в таблице.

Сценарий	Размер контекста	Время префилла	Декодинг (токен/с)
Кодинг-агент (120K контекст)	128K	0.9 с	45
Веб-агент (64K контекст)	64K	0.4 с	52
Фаззинг + аудит (256K контекст)	256K	1.8 с	32

256K — это уже территория полного кода репозитория среднего размера. Если сравнивать с конфигурациями, которые мы тестировали раньше (например, Qwen 397B на 4× RTX 6000 Pro), Mimo 2.5 на двух картах выдаёт сопоставимую пропускную способность, но при этом требует вдвое меньше места в корпусе и энергии.

А что если карт всего одна? Или 8?

Мы сравнили результаты с предыдущим материалом о Mimo 2.5 Pro на 8× NVIDIA GB10. Там упор был на параллельные запросы и throughput, а не на скорость одного префилла. Для агентов важен именно низкий latency первого токена. И здесь dual RTX Pro 6000 уделывает восьмикарточную сборку: 1 секунда vs 2.5 секунды для 128K. Мораль? Иногда меньше — быстрее, если у вас достаточно VRAM под одну копию модели.

Совет для тех, кто хочет попробовать: сразу настраивайте vLLM с флагом --enable-prefix-caching. Он кеширует общие префиксы между запросами, что для агентных цепочек даёт ещё +30-40% к скорости на повторяющихся контекстах.

Не только агенты: код-ревью и аудит

Кстати, про фаззинг: мы прогнали Mimo 2.5 через те же тесты, что описаны в статье про застройку Qwen для аудита кода. Mimo 2.5 на двух RTX Pro 6000 справился с анализом 1000 файлов за 4 минуты. Qwen 397B на четырёх картах — за 3 минуты. Разница не критична, зато вы сэкономили 300 тысяч рублей на дополнительных двух картах и блоке питания. Если ваш бюджет не бесконечен, пара RTX Pro 6000 выглядит золотой серединой: и контекст огромный, и кошелёк не плачет.

Единственное, что бесит: официальный контейнер Mimo 2.5 от производителя всё ещё требует CUDA 12.8 и специальный драйвер. Если у вас стоит старая ОС или необновлённый драйвер, готовьтесь к танцам с бубном. Хотя это, скорее, вопрос времени — патчи выходят каждые пару недель.

В итоге Mimo 2.5 на двух RTX Pro 6000 — это не «эксперимент энтузиаста», а вполне рабочая конфигурация для serious AI агентов. Если вы собираетесь строить систему, которая обрабатывает код, документацию, логи и API-спеки в режиме реального времени — присмотритесь к этой связке. Купить такие карты можно в проверенном магазине (сейчас на них действует скидка 10% при покупке пары). А для тех, кто хочет сэкономить, но получить похожий результат — следующий материал будет про ультимативный MoE на RTX 4090, где мы попробуем выжать контекст в 96К из 24 ГБ. Но это уже совсем другая история.

Подписаться на канал

Mimo 2.5 на двух RTX Pro 6000: контекст размером с «Войну и мир» за секунду

Как они это сделали? (Спойлер: не магия)

Что это даёт агентам? Реальные сценарии

А что если карт всего одна? Или 8?

Не только агенты: код-ревью и аудит

Подписывайтесь на наш канал!