Когда 9 моделей спорят на вашем железе: кого выбрать для реальных multi-agent задач?
Представьте ситуацию: вы запускаете AIfred Intelligence в Tribunal mode. Три агента спорят о решении сложной задачи. Контекст набухает до 16К токенов. Температура GPU поднимается. А ваш кошелек (или терпение, если работаете локально) медленно испаряется.
Именно так я провел последнюю неделю марта 2026 года. Тестировал 9 разных LLM в AIfred Intelligence - от 80-миллиардных гигантов до более скромных моделей. Цель была простая: найти баланс между качеством ответов и скоростью работы на реальном железе (Tesla P40 24GB и RTX 8000 48GB).
Сразу расставим точки: эта статья не про абстрактные «оценки качества». Это про реальные цифры - токены в секунду, потребление VRAM, время до первого токена. И про то, как эти цифры влияют на работу multi-agent системы в боевых условиях.
Зачем вообще тестировать LLM в multi-agent сценариях?
Потому что одиночный запрос к модели - это одно. А серия связанных запросов, где каждый следующий агент анализирует ответы предыдущих - совсем другое. Если в статье про стабилизацию multi-agent циклов я рассказывал про архитектурные решения, то здесь смотрю на фундамент - сами модели.
Tribunal mode в AIfred Intelligence - идеальный полигон. Три агента генерируют решения, затем судья (четвертая модель) анализирует их дебаты и выносит вердикт. Задержки накапливаются. Если одна модель медленная - вся цепочка тормозит.
Методология: железо, метрики и условия пыточной камеры
Стенд был максимально приближен к реальности:
- Железо 1: Tesla P40 24GB (старый, но еще бодрый кард)
- Железо 2: RTX 8000 48GB (для самых тяжелых моделей)
- Квантование: Q4_K_M везде, где возможно (баланс качества и скорости)
- Контекст: 16К токенов, типичный для сложных задач
- Температура: 0.7 для генерации, 0.1 для судьи
- Задача: Реализация сложного алгоритма с последующим code review
| Модель | Размер | T/s (P40) | T/s (RTX 8000) | VRAM (P40) | Качество дебатов |
|---|---|---|---|---|---|
| Llama 3.3 90B | 90B | 14.2 | 28.7 | 21.5GB | Отлично |
| Command R+ 104B | 104B | 12.8 | 25.3 | 23.8GB | Хорошо |
| GLM 4.7 Ultra | 235B | - | 18.4 | 45.2GB | Отлично |
| Qwen 2.5 72B | 72B | 18.9 | 36.1 | 17.2GB | Хорошо |
| DeepSeek Coder 67B | 67B | 21.4 | 41.8 | 16.1GB | Отлично (код) |
| Mixtral 8x22B | 176B (MoE) | 26.3 | 52.7 | 19.8GB | Хорошо |
| Gemma 2 27B | 27B | 32.7 | 64.5 | 8.4GB | Удовлетворительно |
| Llama 3.1 8B | 8B | 48.2 | 95.8 | 3.9GB | Слабо |
| Devstral Small 12B | 12B | 42.6 | 84.3 | 5.1GB | Удовлетворительно |
Сюрприз №1: MoE модели обходят плотные по скорости
Mixtral 8x22B показал 26.3 токена в секунду на Tesla P40. Это почти в два раза быстрее, чем Llama 3.3 90B. И при этом качество дебатов всего на 15-20% хуже по моей субъективной шкале.
Почему это важно? Потому что в multi-agent системах скорость иногда важнее перфекционизма. Если агент генерирует ответ за 2 секунды вместо 4 - цепочка из трех агентов и судьи выполняется за 8 секунд вместо 16. Пользователь не уйдет пить кофе в ожидании.
Внимание на VRAM: GLM 4.7 Ultra требует 45.2GB даже в квантованом виде. На RTX 8000 48GB - это игра в русскую рулетку. Один неудачный аллокатор - и получаем OOM. Для таких моделей лучше брать карты с запасом памяти.
Сюрприз №2: Q4_K_M почти не бьет по качеству в дебатах
Я ожидал, что квантование до 4 бит сделает модели заметно глупее. Особенно в сложных рассуждениях, которые требуются в Tribunal mode. Реальность оказалась иной.
Сравнивал Llama 3.3 90B в Q4_K_M и Q6_K. Разница в качестве ответов - 5-7% по моей оценке. Разница в скорости - 35%. Разница в потреблении памяти - 40%.
Вывод простой: для multi-agent систем Q4_K_M - оптимальный выбор. Если только вы не делаете научное исследование, где важна каждая капля точности.
Сюрприз №3: Tesla P40 еще жив (но дышит тяжело)
Карта 2016 года. Нет tensor cores. Потребляет 250W. Но все еще тянет модели до 90B в Q4_K_M.
Секрет в llama-swap - технологии динамической подгрузки слоев. Когда модель не помещается в VRAM целиком, llama-swap подгружает слои по мере необходимости. Да, это добавляет задержку. Но позволяет запускать на 24GB то, что официально требует 40GB.
На практике: Llama 3.3 90B на P40 с llama-swap работает в 1.8 раза медленнее, чем на RTX 8000. Но работает. И это главное.
Качество дебатов: субъективные наблюдения
Здесь цифры отступают, начинается экспертиза. Каждая модель вела себя по-разному в Tribunal mode:
- GLM 4.7 Ultra: Самые глубокие аргументы, но иногда уходил в философию вместо решения
- DeepSeek Coder 67B: Лучший для технических споров, но слаб в гуманитарных темах
- Mixtral 8x22B: Хороший баланс, но иногда «перескакивал» между темами
- Llama 3.3 90B: Наиболее стабильный, предсказуемый, но без wow-эффекта
Интересный момент: в статье про Opus 4.6 я писал про роевой интеллект. Здесь вижу похожую динамику - когда три разных модели спорят, результат часто лучше, чем у любой из них в одиночку.
Что делать с этой информацией? Практические рекомендации
Ситуация первая: у вас Tesla P40 или аналогичная карта 24GB.
Берите Qwen 2.5 72B или DeepSeek Coder 67B (если задачи технические). Обе модели помещаются в память с запасом, дают хорошее качество и адекватную скорость. Забудьте про 90B+ модели - мучиться с llama-swap ради 10% прироста качества не стоит.
Ситуация вторая: у вас RTX 8000 48GB или аналоги.
Тут уже можно играть в лигу тяжеловесов. GLM 4.7 Ultra покажет лучший результат, но будьте готовы к случайным OOM. Llama 3.3 90B - безопасный выбор. Command R+ 104B - если нужна многоязычность.
Ситуация третья: вы хотите максимальную скорость, а качество вторично.
Mixtral 8x22B. Точно Mixtral. 26+ токенов в секунду на P40 - это очень быстро для модели такого уровня.
Частые ошибки при выборе модели для multi-agent систем
Ошибка №1: брать самую большую модель, которая влезает в память.
Проблема в том, что AIfred Intelligence запускает несколько инстансов модели одновременно (в Tribunal mode - четыре). Если модель занимает 90% VRAM, второй инстанс уже не запустится. Нужен запас.
Ошибка №2: игнорировать time to first token (TTFT).
Некоторые модели (особенно большие с llama-swap) долго «думают» перед первым токеном. В дебатах это критично - пользователь ждет ответа здесь и сейчас.
Ошибка №3: использовать одинаковые модели для всех агентов.
Если в статье про сбои multi-agent систем я писал про архитектурные проблемы, то здесь добавлю: разнообразие моделей снижает вероятность системной ошибки. Если все три агента - один и тот же LLM, они могут «застрять» в одном и том же ошибочном рассуждении.
Что будет дальше? Прогноз на 2026-2027
Судя по тенденциям, мы увидим:
- Еще больше MoE-архитектур - они выигрывают по speed/quality балансу
- Специализированные модели для agent-to-agent коммуникации (уже есть намеки в исследовательских работах)
- Аппаратное ускорение для квантованных моделей - сейчас это слабое место даже у современных GPU
Мой личный выбор на март 2026: для продакшена - Mixtral 8x22B на RTX 8000. Для экспериментов - GLM 4.7 Ultra, когда есть время и ресурсы. Для обучения - Qwen 2.5 72B, потому что он стабилен и предсказуем.
А какой LLM выбрали вы для своих multi-agent систем? Пишите в комментарии - обсудим конкретные кейсы и проблемы.