Когда ИИ не может продать хот-дог: зачем бизнес-симуляция убивает ChatGPT
Вы думаете, что ваша любимая LLM умна? Она может писать код, сочинять стихи и отвечать на каверзные вопросы. А теперь представьте, что она управляет фудтраком. Через 30 дней у нее 100% шанс разориться, если это не одна из четырех моделей-выживших. Новый бенчмарк Food Truck наглядно показал: абстрактные тесты на логику — это одно, а реальное планирование в условиях неопределенности — совершенно другое. Из 12 протестированных моделей, включая последние версии GPT, Claude, Gemini и открытые альтернативы, восемь привели бизнес к банкротству. Даже те, что блестяще сдают экзамены, не могут справиться с прогнозом спроса на кофе.
Контекст: Food Truck Benchmark — это не очередной академический тест на знание фактов. Это 30-дневная симуляция, где ИИ-агент должен принимать решения о закупках, ценах и маркетинге, реагируя на погоду, события в городе и колебания спроса. Банкротство наступает при отрицательном балансе. Просто? Да. Но для большинства LLM — невыполнимо.
Кровавая баня на стоянке для фудтраков: кто выжил?
Исследователи запустили 12 независимых агентов, каждый на своей модели. Симулятор выдавал им ежедневный отчет: баланс, погода, остаток ингредиентов, историю продаж. Задача — отправить JSON с решением на завтра: сколько закупить, какую цену установить, потратиться ли на рекламу. Никаких подсказок, только холодный расчет.
| Модель (версия на 17.02.2026) | Итоговый баланс ($) | Статус | Ключевая ошибка |
|---|---|---|---|
| Claude 3.7 Sonnet | +4,820 | Выжил | Минимальная. Адаптивная ценовая политика. |
| GPT-4.5 Turbo | +3,150 | Выжил | Перестраховка, недозаработал в пиковые дни. |
| DeepSeek-R1 | +1,980 | Выжил | Агрессивный маркетинг в дождь, но выкарабкался. |
| Llama 4 70B (инструктивная) | +890 | Выжил | Консервативная стратегия, еле-еле. |
| Gemini 2.0 Flash | -1,250 | Банкрот (день 18) | Закупала как для фестиваля в будний день. Всегда. |
| Mixtral 2 56B | -980 | Банкрот (день 23) | Игнорировала прогноз дождя. Испортился весь инвентарь. |
| Command R+ 2025 | -2,100 | Банкрот (день 15) | Установила цену $20 за хот-дог "премиум-класса". Продаж ноль. |
| GPT-4o Mini | -550 | Банкрот (день 27) | Панически снижала цены при малейшем падении спроса. |
Почему ИИ-модели — плохие бизнесмены? Три фатальные ошибки
Основная проблема не в математике. Все модели отлично складывают и вычитают. Проблема в контекстуальном здравом смысле и планировании с учетом рисков. Вот что ломает большинство агентов:
- Они не понимают "слишком много" или "слишком мало". Gemini 2.0 Flash, увидев, что в субботу продали 100 хот-догов, в следующую субботу закупала 150, даже если в отчете ясно сказано: "В городе фестиваль". Без фестиваля спрос падал до 40, но модель продолжала закупать по максимуму. Она запомнила паттерн, но не поняла причину.
- Они не умеют работать с неопределенностью. Когда в прогнозе стоит "возможен дождь", успешные модели берут среднее значение спроса за прошлые дождливые дни. Провальные — либо игнорируют прогноз (Mixtral 2), либо впадают в крайности (GPT-4o Mini снижала закупки до 10%).
- Они оптимизируют не ту метрику. Многие модели стремятся максимизировать продажи, а не прибыль. Command R+ 2025 решила, что хот-дог за $20 — это "премиум-продукт", и удивлялась отсутствию спроса. Она не связала цену с покупательной способностью в условном районе.
Этот бенчмарк перекликается с проблемой JSON-дрейфа, где модели начинают врать в структуре данных под нагрузкой. Здесь — то же самое, но с бизнес-логикой. Под давлением симуляции модели отбрасывают осторожность и начинают генерировать абсурдные решения.
Как выбрать модель для автономного агента в 2026? Неочевидные критерии
После этого теста список моделей для production-агентов резко сузился. Но дело не только в том, чтобы взять модель из топа. Нужно смотреть глубже.
1 Ищите консервативную адаптивность, а не креативность
Claude 3.7 Sonnet выиграл не потому, что делал гениальные ходы. Он выиграл потому, что никогда не рисковал больше 20% капитала в одной закупке, но при этом гибко менял цену в зависимости от дня недели. Вам не нужен агент-гений. Нужен агент, который не наделает глупостей. Для сложных тестов на рассуждение есть другие подходы, как в Humanity's Last Exam, но для бизнеса важна стабильность.
2 Тестируйте на своих данных, а не на общих бенчмарках
Food Truck Benchmark — это всего один сценарий. Ваш бизнес — другой. Создайте свою минимальную симуляцию, как советуют в статье про промпты для сравнения LLM. Запустите кандидатов на исторических данных или синтетических сценариях. Смотрите не на итоговый счет, а на процесс принятия решений. Часто модель, которая банкротится в Food Truck, может быть полезна в другой области.
3 Примите парадокс: большие модели не всегда лучше
Llama 4 70B выжила, в то время как более крупные и дорогие модели провалились. Это подтверждает парадокс 32B-моделей: после определенного порога размер не гарантирует лучшего здравого смысла в прикладных задачах. Иногда хорошо настроенная модель среднего размера оказывается надежнее.
Предупреждение: Не используйте результаты этого бенчмарка как единственный критерий выбора. Как и в случае с коммерческими бенчмарками, условия могут быть смещены. Food Truck проверяет конкретный тип планирования. Для чат-бота или генерации кода победители могут быть другими.
Вопросы, которые вы хотели задать (но боялись)
Почему именно фудтрак? Это несерьезно.
Фудтрак — идеальная микромодель бизнеса: есть переменные затраты, зависимость от внешних факторов, необходимость краткосрочного планирования. Если модель не справляется здесь, в реальном бизнесе с большим количеством переменных она точно утонет. Это как шахматы для ИИ — простая правила, глубокая стратегия.
Можно ли улучшить результаты промптингом?
В этом бенчмарке промпты были минимальными, чтобы оценить "сырые" способности. Да, с тщательным промптингом, цепочками рассуждений (Chain-of-Thought) и примерами few-shot результаты можно улучшить. Но это уже будет оценка не модели, а вашего навыка инженерии промптов. Бенчмарк же показывает базовый потенциал для автономной работы.
Что насчет мультиагентных симуляций?
Food Truck — симуляция одного агента. Когда на одну стоянку приезжают несколько фудтраков (конкуренция), провальных моделей становится еще больше. Это следующий этап, и он еще более беспощаден. Следите за обновлениями на Community Evals, где такие эксперименты часто появляются раньше, чем в академических статьях.
Итог: бизнесу нужны не умники, а устойчивые солдаты
Гонка за качеством в стандартных бенчмарках, как отмечалось в статье "Бенчмарки LLM: гонка за качеством закончилась", сменилась гонкой за эффективность и надежность. Food Truck Benchmark — это тревожный звонок для тех, кто планирует внедрять автономных ИИ-агентов в процессы, где есть финансы и риск.
На 2026 год безопасный выбор для таких задач сужается до моделей, доказавших способность к осторожному, контекстно-зависимому планированию. А если ваша задача — анализ текстов или генерация контента, можете смело брать любую из топ-12. Но если вы доверяете агенту управлять чем-то ценным, сначала запустите его на своей версии фудтрака. Иначе рискуете проснуться на восемнадцатый день с долгами и тонной пропавших хот-догов.
Совет на последок: никогда не используйте ИИ-агента для управления бизнесом без человеческого надзора. Даже Claude 3.7 Sonnet в 5% симуляций допускал критические ошибки. ИИ — это инструмент, а не партнер. По крайней мере, до следующего прорыва.