Gemma 4 31B побеждает в FoodTruck Benchmark: практичные AI-модели

Тихий переполох в мире бенчмарков

Новые результаты FoodTruck Benchmark, опубликованные вчера, устроили небольшой скандал. Gemma 4 31B, модель среднего размера от Google, не просто хорошо справилась с бизнес-симуляцией. Она вынесла всех. А это значит, что гонка за триллионами параметров, возможно, была ошибкой.

FoodTruck — это не очередной академический тест на здравый смысл. Он симулирует управление реальным фудтраком: закупки, ценообразование, маркетинг, реакцию на погоду. Как показала наша прошлая статья, из 12 моделей его проходят только 4. Теперь Gemma 4 31B не просто проходит — она ставит рекорд.

Цифры, которые заставляют задуматься

Посмотрите на сводную таблицу по итогам тестирования на 04.04.2026. Мы включили только актуальные на сегодня модели, которые реально запускаются локально или через API.

Модель	Размер (параметры)	Итоговый счет FoodTruck	Ключевая сила
Gemma 4 31B	31 миллиард	89.5	Последовательное планирование, адаптивность
Qwen3.5 32B (актуальная версия 1.8)	32 миллиарда	87.2	Математические расчеты
Gemini 3 Pro (через API)	Смешанный экспертный	85.8	Понимание контекста
Llama 3.2 70B	70 миллиардов	84.3	Общие знания

Разрыв в 2.3 пункта между Gemma 4 и Qwen3.5 в этом контексте — это пропасть. На практике это означает, что модель Google реже делала катастрофические ошибки вроде закупки тонны скоропортящихся продуктов перед ураганом. (Да, другие так и делали).

Почему 31B оказалось достаточно?

Здесь кроется главный парадокс. На классических бенчмарках вроде MMLU или HellaSwag Gemma 4 31B проигрывает монстрам в 70B+. Но когда дело доходит до многошаговой, нечеткой бизнес-логики, ее архитектура и обучение дают фору. Кажется, Google наконец-то правильно расставил приоритеты в данных для дообучения.

💡

Это подтверждает нашу старую гипотезу: академические тесты все хуже предсказывают реальную производительность. FoodTruck, как и text-to-SQL бенчмарки, бьет по больному — по умению модели думать, а не угадывать.

А теперь плохие новости для фанатов больших моделей. Запустить Llama 3.2 70B локально — это квест на выживание для вашей видеокарты и блока питания. Gemma 4 31B, как мы уже писали, умещается даже в ограничениях бесплатного Kaggle. Разница в производительности? Мизерная. Разница в требуемых ресурсах — колоссальная.

Сравнение не по зубам, а по уму

Давайте посмотрим на конкретный кейс из бенчмарка. Задача: в субботу forecast предсказывает дождь, но у вас запланирован фестиваль у озера. Конкуренты снижают цены. Что делают модели?

Qwen3.5 32B: Предлагает агрессивно снизить цены на 40% и активизировать соцсети. Математически верно, но убивает маржу.
Gemini 3 Pro: Рекомендует перенести локацию под навес и сделать тематическую "дождливую" скидку. Креативно, но сложно исполнять.
Gemma 4 31B: Анализирует прошлые продажи в дождь, предлагает создать "пакет для дождливого дня" (горячий кофе + выпечка) с умеренной наценкой 15% и запустить таргетированную рекламу за 2 часа до начала. Работает.

В этом и есть суть. Gemma 4 не генерирует самый яркий или самый дешевый план. Она генерирует самый исполнимый и сбалансированный. Для бизнеса это часто важнее.

Что это значит для вас прямо сейчас?

Если вы выбираете модель для автоматизации процессов, прототипирования или аналитики, теперь у вас есть веский аргумент не раскошеливаться на гигантов. В нашем полном сравнении Gemma 4 и Qwen3.5 картина была неоднозначной. FoodTruck ставит жирную точку в споре о практической полезности.

Прогноз? К концу 2026 года мы увидим волну "оптимизированных" моделей в диапазоне 20-40B параметров. Всех научили говорить. Теперь их будут учить делать. А те, кто продолжит наращивать параметры ради красивых цифр в таблицах, останутся без реальных пользователей.

Совет, который вы не ожидали здесь увидеть: не гонитесь за лидером общего зачета. Скачайте топ-3 модели из нашего homelab-теста и прогоните их на 2-3 своих, реальных рабочих задачах. Тот, кто лучше справится с вашей спецификой, и есть ваш чемпион. Даже если это будет скромная Gemma 3 270M.

Подписаться на канал

Gemma 4 31B лидирует в бенчмарке FoodTruck: разбор результатов и сравнение с другими моделями

Тихий переполох в мире бенчмарков

Цифры, которые заставляют задуматься

Почему 31B оказалось достаточно?

Сравнение не по зубам, а по уму

Что это значит для вас прямо сейчас?

Подписывайтесь на наш канал!