Тихий переполох в мире бенчмарков
Новые результаты FoodTruck Benchmark, опубликованные вчера, устроили небольшой скандал. Gemma 4 31B, модель среднего размера от Google, не просто хорошо справилась с бизнес-симуляцией. Она вынесла всех. А это значит, что гонка за триллионами параметров, возможно, была ошибкой.
FoodTruck — это не очередной академический тест на здравый смысл. Он симулирует управление реальным фудтраком: закупки, ценообразование, маркетинг, реакцию на погоду. Как показала наша прошлая статья, из 12 моделей его проходят только 4. Теперь Gemma 4 31B не просто проходит — она ставит рекорд.
Цифры, которые заставляют задуматься
Посмотрите на сводную таблицу по итогам тестирования на 04.04.2026. Мы включили только актуальные на сегодня модели, которые реально запускаются локально или через API.
| Модель | Размер (параметры) | Итоговый счет FoodTruck | Ключевая сила |
|---|---|---|---|
| Gemma 4 31B | 31 миллиард | 89.5 | Последовательное планирование, адаптивность |
| Qwen3.5 32B (актуальная версия 1.8) | 32 миллиарда | 87.2 | Математические расчеты |
| Gemini 3 Pro (через API) | Смешанный экспертный | 85.8 | Понимание контекста |
| Llama 3.2 70B | 70 миллиардов | 84.3 | Общие знания |
Разрыв в 2.3 пункта между Gemma 4 и Qwen3.5 в этом контексте — это пропасть. На практике это означает, что модель Google реже делала катастрофические ошибки вроде закупки тонны скоропортящихся продуктов перед ураганом. (Да, другие так и делали).
Почему 31B оказалось достаточно?
Здесь кроется главный парадокс. На классических бенчмарках вроде MMLU или HellaSwag Gemma 4 31B проигрывает монстрам в 70B+. Но когда дело доходит до многошаговой, нечеткой бизнес-логики, ее архитектура и обучение дают фору. Кажется, Google наконец-то правильно расставил приоритеты в данных для дообучения.
А теперь плохие новости для фанатов больших моделей. Запустить Llama 3.2 70B локально — это квест на выживание для вашей видеокарты и блока питания. Gemma 4 31B, как мы уже писали, умещается даже в ограничениях бесплатного Kaggle. Разница в производительности? Мизерная. Разница в требуемых ресурсах — колоссальная.
Сравнение не по зубам, а по уму
Давайте посмотрим на конкретный кейс из бенчмарка. Задача: в субботу forecast предсказывает дождь, но у вас запланирован фестиваль у озера. Конкуренты снижают цены. Что делают модели?
- Qwen3.5 32B: Предлагает агрессивно снизить цены на 40% и активизировать соцсети. Математически верно, но убивает маржу.
- Gemini 3 Pro: Рекомендует перенести локацию под навес и сделать тематическую "дождливую" скидку. Креативно, но сложно исполнять.
- Gemma 4 31B: Анализирует прошлые продажи в дождь, предлагает создать "пакет для дождливого дня" (горячий кофе + выпечка) с умеренной наценкой 15% и запустить таргетированную рекламу за 2 часа до начала. Работает.
В этом и есть суть. Gemma 4 не генерирует самый яркий или самый дешевый план. Она генерирует самый исполнимый и сбалансированный. Для бизнеса это часто важнее.
Что это значит для вас прямо сейчас?
Если вы выбираете модель для автоматизации процессов, прототипирования или аналитики, теперь у вас есть веский аргумент не раскошеливаться на гигантов. В нашем полном сравнении Gemma 4 и Qwen3.5 картина была неоднозначной. FoodTruck ставит жирную точку в споре о практической полезности.
Прогноз? К концу 2026 года мы увидим волну "оптимизированных" моделей в диапазоне 20-40B параметров. Всех научили говорить. Теперь их будут учить делать. А те, кто продолжит наращивать параметры ради красивых цифр в таблицах, останутся без реальных пользователей.
Совет, который вы не ожидали здесь увидеть: не гонитесь за лидером общего зачета. Скачайте топ-3 модели из нашего homelab-теста и прогоните их на 2-3 своих, реальных рабочих задачах. Тот, кто лучше справится с вашей спецификой, и есть ваш чемпион. Даже если это будет скромная Gemma 3 270M.