Управление 100 AI-агентами на Codex: реальные затраты и экономия GPU

Миллион долларов за токены: арифметика безумия

Представьте: вы просыпаетесь, а на счету AI-провайдера — минус 1,3 миллиона долларов. Не за месяц. Не за квартал. За один эксперимент. 603 миллиарда токенов прожжено. 7,6 миллионов запросов отправлено. Это не сценарий апокалипсиса и не фейк из техночата. Это реальный счет за запуск 100 AI-агентов на Codex — платформе, которая в 2026 году стала стандартом для мультиагентной оркестровки.

Один разработчик, имя которого пока остаётся в тени индустрии, решил проверить границу: что будет, если не просто нанять армию клонов, а построить над ними умный диспетчерский центр? Результат — архитектура OpenClaw, которая не просто удерживает 100 голов от хаоса, но и сокращает потребление GPU-часов в 4 раза по сравнению с классическим запуском 100 независимых монолитов.

Цифры для скептиков: 7.6 млн запросов — это примерно 0,5% от дневного трафика ChatGPT на пике. Но в отличие от чат-бота, каждый запрос здесь — это полноценное действие AI-агента: написание кода, проверка зависимостей, деплой микросервиса. 603 млрд токенов — эквивалент 1,5 миллиона книг среднего размера. И всё это переработано за 72 часа.

Архитектура OpenClaw: почему 100 маленьких моделей выигрывают у одной гигантской

Главный трюк — не в количестве. Вы можете запустить 100 копий Claude Opus 4.8 или GPT-5.5 Turbo, и они просто сожрут друг друга в бесконечных циклах рекурсии. OpenClaw решает проблему на уровне топологии: это иерархическая сеть с тремя уровнями.

Супервайзер — один агент, который не пишет код. Он разбивает задачу на подзадачи и распределяет их между специалистами. У него контекст не захламлён деталями реализации.
Эксперты — 20-30 агентов, каждый заточен под конкретный стек (Python, Rust, Go, базы данных, инфраструктура). Они получают чистый промпт и не видят всей картины — только свою часть.
Воркеры — 70-80 агентов-исполнителей. Они берут мелкие подзадачи от экспертов, генерируют код, запускают тесты, возвращают результат. Воркеры могут переключаться между задачами и, если один залипает, супервайзер на лету перенаправляет его.

Это не просто клонирование одного агента, как в эксперименте Anthropic с 16 клонами. Там клоны общались через центральный координатор, но каждый был полноценной копией Claude. В OpenClaw — жёсткое разделение ролей и, что важнее, разделение размера моделей.

💡

Супервайзер работает на GPT-5.5 Turbo (heavy). Эксперты — на средних моделях: Qwen3 32B или Claude Opus 4.8 с ограниченным контекстом. Воркеры — на лёгких open-source моделях: Qwen3 7B или DeepSeek-Coder V3. Это и есть главный секрет экономии GPU-часов.

Экономия GPU-часов: 4x без потери качества

Почему 100 агентов не выносят GPU-ферму? Потому что 80% работы выполняется маленькими моделями, которые дешевы и быстры. По расчётам разработчика, каждый воркер тратит в среднем 0,02 GPU-часа на задачу (против 0,15 у полноценного GPT-5.5 Turbo). Эксперты — 0,08 часа. Супервайзер — 0,12 часа. В сумме на 100 агентов выходит около 2,4 GPU-часа на типовой цикл (10 задач). Если бы все 100 агентов были гигантами, вы бы потратили 15 GPU-часов. Разница — в 6,25 раза.

Тип агента	Модель	GPU-часов/задача	Процент от общего времени
Супервайзер	GPT-5.5 Turbo	0,12	5%
Эксперт	Qwen3 32B / Claude Opus 4.8	0,08	20%
Воркер	Qwen3 7B / DeepSeek-Coder V3	0,02	75%

Эти цифры — не теоретические выкладки, а замеры на реальных задачах из кейса (доработка бэкенда на Go + деплой в Kubernetes + стресс-тестирование). И что самое безумное — качество кода, проверенное через unit-тесты и code review, не упало ни на процент. Даже наоборот: благодаря специализации воркеры делают меньше ошибок в синтаксисе и импортах, чем гигантские модели, которые пытаются удержать в голове весь проект.

Предупреждение: OpenClaw — не серебряная пуля. Если ваша задача уникальна (написать с нуля компилятор сложнее C), лучше вернуться к одному мощному агенту или запустить мульти-агентную архитектуру с меньшим числом сильных агентов, как в экспериментах Anthropic. Сотня воркеров полезна только на stream-задачах — где много простых, однотипных действий.

Что пошло не так: ошибки OpenClaw на ранних прототипах

Первый запуск 100 агентов на Codex закончился коллапсом: супервайзер перегрузил экспертов так, что те ушли в рекурсию на 6 часов. Счет за токены взлетел до $40 000 за час. Разработчик внёс три критических изменения.

Лимит рекурсии: каждый агент не может вызывать другого более 3 раз за задачу. После — принудительный возврат результата супервайзеру.
Тайм-ауты: если воркер не выдал ответ за 30 секунд, супервайзер отменяет его задачу и отправляет другому.
Контекстный сброс: после каждых 10 задач контекст эксперта очищается от мусора. Воркер живёт только на одной задаче и умирает после её завершения (создаётся свежий экземпляр на следующую).

После этих правок экономия GPU-часов выросла с 3x до 6x, а процент успешных завершений задач — с 72% до 97%.

Стоимость управления: 1,3 миллиона — это много или норма?

Давайте приземлим цифры. $1,3 млн за 72 часа работы 100 агентов — это $18 000 в час или $180 на один активный агент в час. Дорого? Для стартапа — смертельно. Но для крупной корпорации, которая раньше платила $500 за час аренды H100 для пайплайна обучения, — выгодно. Потому что 100 агентов заменили целый отдел из 40 человек. Если считать зарплаты senior-инженеров по $200 000 в год, то за 72 часа компания сэкономила $1,2 млн на ФОТе.

К тому же, архитектура легко масштабируется: хочешь 200 агентов — платишь в 2 раза больше. Но без потери эффективности, потому что OpenClaw линейно экстенсируется (супервайзер просто распределяет на большее число экспертов).

Неочевидный совет: не пытайтесь повторить это на 100 одинаковых моделях

Главная ошибка новичков — взять одну модель (например, Qwen3 72B) и запустить 100 её копий. Без иерархии они начнут дублировать работу, переписывать друг другу код и плодить конфликты. OpenClaw экономит не только GPU-часы, но и нервы разработчика: супервайзер — единственная точка входа, а воркеры — расходный материал. Если один сбойнул, его задача просто перекидывается. И да, я серьёзно советую сначала протестировать связку из 3 агентов — супервайзера, эксперта и воркера — на маленькой задаче. AI-фабрика из 9 агентов на одной видеокарте — хорошая отправная точка, чтобы понять механику, не разоряясь на счёт в $1,3M.

Подписаться на канал

Один против ста: как разработчик управляет 100 AI-агентами на Codex и экономит миллионы GPU-часов