Food Truck Benchmark: шокирующий провал 8 из 12 LLM в бизнес-симуляции | 17.02.2026

Когда ИИ не может продать хот-дог: зачем бизнес-симуляция убивает ChatGPT

Вы думаете, что ваша любимая LLM умна? Она может писать код, сочинять стихи и отвечать на каверзные вопросы. А теперь представьте, что она управляет фудтраком. Через 30 дней у нее 100% шанс разориться, если это не одна из четырех моделей-выживших. Новый бенчмарк Food Truck наглядно показал: абстрактные тесты на логику — это одно, а реальное планирование в условиях неопределенности — совершенно другое. Из 12 протестированных моделей, включая последние версии GPT, Claude, Gemini и открытые альтернативы, восемь привели бизнес к банкротству. Даже те, что блестяще сдают экзамены, не могут справиться с прогнозом спроса на кофе.

Контекст: Food Truck Benchmark — это не очередной академический тест на знание фактов. Это 30-дневная симуляция, где ИИ-агент должен принимать решения о закупках, ценах и маркетинге, реагируя на погоду, события в городе и колебания спроса. Банкротство наступает при отрицательном балансе. Просто? Да. Но для большинства LLM — невыполнимо.

Кровавая баня на стоянке для фудтраков: кто выжил?

Исследователи запустили 12 независимых агентов, каждый на своей модели. Симулятор выдавал им ежедневный отчет: баланс, погода, остаток ингредиентов, историю продаж. Задача — отправить JSON с решением на завтра: сколько закупить, какую цену установить, потратиться ли на рекламу. Никаких подсказок, только холодный расчет.

Модель (версия на 17.02.2026)	Итоговый баланс ($)	Статус	Ключевая ошибка
Claude 3.7 Sonnet	+4,820	Выжил	Минимальная. Адаптивная ценовая политика.
GPT-4.5 Turbo	+3,150	Выжил	Перестраховка, недозаработал в пиковые дни.
DeepSeek-R1	+1,980	Выжил	Агрессивный маркетинг в дождь, но выкарабкался.
Llama 4 70B (инструктивная)	+890	Выжил	Консервативная стратегия, еле-еле.
Gemini 2.0 Flash	-1,250	Банкрот (день 18)	Закупала как для фестиваля в будний день. Всегда.
Mixtral 2 56B	-980	Банкрот (день 23)	Игнорировала прогноз дождя. Испортился весь инвентарь.
Command R+ 2025	-2,100	Банкрот (день 15)	Установила цену $20 за хот-дог "премиум-класса". Продаж ноль.
GPT-4o Mini	-550	Банкрот (день 27)	Панически снижала цены при малейшем падении спроса.

💡

Полный интерактивный лидерборд с графиками решений каждого агента доступен на сайте проекта. Там видно, как модели постепенно сходят с ума, пытаясь найти закономерности в случайных колебаниях спроса.

Почему ИИ-модели — плохие бизнесмены? Три фатальные ошибки

Основная проблема не в математике. Все модели отлично складывают и вычитают. Проблема в контекстуальном здравом смысле и планировании с учетом рисков. Вот что ломает большинство агентов:

Они не понимают "слишком много" или "слишком мало". Gemini 2.0 Flash, увидев, что в субботу продали 100 хот-догов, в следующую субботу закупала 150, даже если в отчете ясно сказано: "В городе фестиваль". Без фестиваля спрос падал до 40, но модель продолжала закупать по максимуму. Она запомнила паттерн, но не поняла причину.
Они не умеют работать с неопределенностью. Когда в прогнозе стоит "возможен дождь", успешные модели берут среднее значение спроса за прошлые дождливые дни. Провальные — либо игнорируют прогноз (Mixtral 2), либо впадают в крайности (GPT-4o Mini снижала закупки до 10%).
Они оптимизируют не ту метрику. Многие модели стремятся максимизировать продажи, а не прибыль. Command R+ 2025 решила, что хот-дог за $20 — это "премиум-продукт", и удивлялась отсутствию спроса. Она не связала цену с покупательной способностью в условном районе.

Этот бенчмарк перекликается с проблемой JSON-дрейфа, где модели начинают врать в структуре данных под нагрузкой. Здесь — то же самое, но с бизнес-логикой. Под давлением симуляции модели отбрасывают осторожность и начинают генерировать абсурдные решения.

Как выбрать модель для автономного агента в 2026? Неочевидные критерии

После этого теста список моделей для production-агентов резко сузился. Но дело не только в том, чтобы взять модель из топа. Нужно смотреть глубже.

1 Ищите консервативную адаптивность, а не креативность

Claude 3.7 Sonnet выиграл не потому, что делал гениальные ходы. Он выиграл потому, что никогда не рисковал больше 20% капитала в одной закупке, но при этом гибко менял цену в зависимости от дня недели. Вам не нужен агент-гений. Нужен агент, который не наделает глупостей. Для сложных тестов на рассуждение есть другие подходы, как в Humanity's Last Exam, но для бизнеса важна стабильность.

2 Тестируйте на своих данных, а не на общих бенчмарках

Food Truck Benchmark — это всего один сценарий. Ваш бизнес — другой. Создайте свою минимальную симуляцию, как советуют в статье про промпты для сравнения LLM. Запустите кандидатов на исторических данных или синтетических сценариях. Смотрите не на итоговый счет, а на процесс принятия решений. Часто модель, которая банкротится в Food Truck, может быть полезна в другой области.

3 Примите парадокс: большие модели не всегда лучше

Llama 4 70B выжила, в то время как более крупные и дорогие модели провалились. Это подтверждает парадокс 32B-моделей: после определенного порога размер не гарантирует лучшего здравого смысла в прикладных задачах. Иногда хорошо настроенная модель среднего размера оказывается надежнее.

Предупреждение: Не используйте результаты этого бенчмарка как единственный критерий выбора. Как и в случае с коммерческими бенчмарками, условия могут быть смещены. Food Truck проверяет конкретный тип планирования. Для чат-бота или генерации кода победители могут быть другими.

Вопросы, которые вы хотели задать (но боялись)

Почему именно фудтрак? Это несерьезно.

Фудтрак — идеальная микромодель бизнеса: есть переменные затраты, зависимость от внешних факторов, необходимость краткосрочного планирования. Если модель не справляется здесь, в реальном бизнесе с большим количеством переменных она точно утонет. Это как шахматы для ИИ — простая правила, глубокая стратегия.

Можно ли улучшить результаты промптингом?

В этом бенчмарке промпты были минимальными, чтобы оценить "сырые" способности. Да, с тщательным промптингом, цепочками рассуждений (Chain-of-Thought) и примерами few-shot результаты можно улучшить. Но это уже будет оценка не модели, а вашего навыка инженерии промптов. Бенчмарк же показывает базовый потенциал для автономной работы.

Что насчет мультиагентных симуляций?

Food Truck — симуляция одного агента. Когда на одну стоянку приезжают несколько фудтраков (конкуренция), провальных моделей становится еще больше. Это следующий этап, и он еще более беспощаден. Следите за обновлениями на Community Evals, где такие эксперименты часто появляются раньше, чем в академических статьях.

Итог: бизнесу нужны не умники, а устойчивые солдаты

Гонка за качеством в стандартных бенчмарках, как отмечалось в статье "Бенчмарки LLM: гонка за качеством закончилась", сменилась гонкой за эффективность и надежность. Food Truck Benchmark — это тревожный звонок для тех, кто планирует внедрять автономных ИИ-агентов в процессы, где есть финансы и риск.

На 2026 год безопасный выбор для таких задач сужается до моделей, доказавших способность к осторожному, контекстно-зависимому планированию. А если ваша задача — анализ текстов или генерация контента, можете смело брать любую из топ-12. Но если вы доверяете агенту управлять чем-то ценным, сначала запустите его на своей версии фудтрака. Иначе рискуете проснуться на восемнадцатый день с долгами и тонной пропавших хот-догов.

Совет на последок: никогда не используйте ИИ-агента для управления бизнесом без человеческого надзора. Даже Claude 3.7 Sonnet в 5% симуляций допускал критические ошибки. ИИ — это инструмент, а не партнер. По крайней мере, до следующего прорыва.

Food Truck Benchmark: как 12 LLM-моделей провалились в бизнес-симуляции и какие 4 выжили