Зачем сравнивать модели на FoodTruck Bench?
Потому что стандартные бенчмарки врут. Или, точнее, показывают то, что хотят показать производители. FoodTruck Bench - это мой внутренний тест, который я разработал для реальных бизнес-задач: анализ меню, расчет стоимости ингредиентов, составление маркетинговых текстов для фудтраков. Здесь нет абстрактных математических задач или философских диалогов. Только практика.
Я тестировал три модели на 19.02.2026: GLM-5 (последняя версия от Zhipu AI), Claude 4.5 Sonnet (Anthropic), и DeepSeek V3.2 (DeepSeek-AI). Каждой дал одинаковые 47 задач из реальной работы с фудтраком в Берлине. Записал все: время ответа, качество, стоимость, и главное - дословные ответы, которые показывают, как модели думают.
Важно: GLM-5 на момент тестирования (19.02.2026) - самая новая модель в сравнении. Sonnet 4.5 вышел в январе 2026, DeepSeek V3.2 - в декабре 2025. Все данные актуальны именно на эту дату.
День первый: расчет себестоимости бургера
Первая задача: "Рассчитай себестоимость бургера с учетом: булка 0.45€, котлета 1.20€, сыр 0.30€, овощи 0.25€, соус 0.15€. Учти накладные расходы 15% и упаковку 0.10€. Сколько должен стоить бургер при наценке 300%?"
GLM-5 ответил за 1.2 секунды: "Прямые затраты: 0.45+1.20+0.30+0.25+0.15=2.35€. С накладными: 2.35*1.15=2.70€. Плюс упаковка: 2.80€. При наценке 300%: 2.80*4=11.20€. Рекомендую цену 11.50€ для округления."
Sonnet 4.5 думал 2.8 секунды: "Давайте посчитаем системно. Базовые ингредиенты: 2.35€. Накладные расходы (15%): 0.35€. Итого: 2.70€. Упаковка: 0.10€. Общая себестоимость: 2.80€. Наценка 300% означает умножение на 4 (100% себестоимость + 300% прибыль). 2.80*4=11.20€. С учетом психологии ценообразования - 11.90€ выглядит лучше."
DeepSeek V3.2 выдал ответ за 0.9 секунды: "2.35€ ингредиенты. 2.35*0.15=0.3525€ накладные. 2.7025€. +0.10€ упаковка=2.8025€. Наценка 300%=2.8025*4=11.21€. Округляем до 11.50€ или 11.90€ в зависимости от позиционирования."
| Модель | Время ответа | Стоимость запроса | Точность расчета | Дополнительные инсайты |
|---|---|---|---|---|
| GLM-5 | 1.2 сек | 0.003$ | 100% | Практичный совет по округлению |
| Sonnet 4.5 | 2.8 сек | 0.012$ | 100% | Психология ценообразования |
| DeepSeek V3.2 | 0.9 сек | 0.001$ | 100% | Два варианта позиционирования |
Уже здесь видна разница в подходе. GLM-5 быстрый и практичный. Sonnet 4.5 медленнее, дороже, но дает психологический инсайт. DeepSeek V3.2 - самый быстрый и дешевый, с хорошим балансом.
День второй: анализ конкурентов и генерация меню
Вторая задача сложнее: "Проанализируй эти три меню конкурентов и предложи уникальное позиционирование для нашего фудтрака с бургерами." Приложил реальные меню из района.
GLM-5 справился за 4.3 секунды. Предложил "бургеры на угольном гриле с немецкими фермерскими ингредиентами". Конкретно, с деталями по поставщикам. Но стиль текста суховат.
Sonnet 4.5 потратил 8.7 секунд. Его ответ: "Вы находитесь в районе с тремя типами бургерных: премиум (15€+), средний сегмент (10-12€), и бюджетный (7-9€). Рекомендую занять нишу 'умного премиума' - бургеры за 13-14€ с историей каждого ингредиента. Например, 'Бургер с говядиной от коров, которые паслись на альпийских лугах, и булкой из дровяной печи соседней пекаррии'."
DeepSeek V3.2 уложился в 3.1 секунды: "Все конкуренты используют стандартные позиционирования. Предлагаю 'Бургеры нулевого километра' - все ингредиенты в радиусе 50 км от Берлина. Это экологично, локально, и дает реальные истории для соцсетей. Ценовой сегмент 12-13€."
День третий: работа с жалобами клиентов
Третья задача: "Клиент жалуется, что бургер был холодным и картошка пересолена. Напиши ответ, который сохранит клиента и даст скидку на следующий заказ."
GLM-5: "Уважаемый [Имя], приносим извинения за холодный бургер и пересоленную картошку. Это неприемлемо. Дарим вам скидку 30% на следующий заказ по промокоду APOLOGY30. Надеемся дать вам второй шанс." Время: 1.8 сек.
Sonnet 4.5: "Дорогой [Имя], спасибо, что поделились отзывом - хотя, признаем, неприятным для нас. Холодный бургер и пересоленная картошка действительно не соответствуют нашим стандартам. Мы уже поговорили с командой о контроле температуры и дозировке соли. В знак извинений предлагаем не только 30% скидку на следующий визит (промокод FRESHSTART), но и бесплатный напиток. Надеемся показать вам, какими наши бургеры должны быть." Время: 3.5 сек.
DeepSeek V3.2: "[Имя], спасибо за честный отзыв. Извиняемся за холодный бургер и пересоленную картошку - это не наш уровень. Проверим процессы на кухне. Дарим вам промокод BETTERBURGER на 30% скидку и бесплатную картошку в следующий раз. Ждем возможности исправиться." Время: 1.2 сек.
Sonnet снова показывает глубину: он не просто извиняется, а сообщает о конкретных действиях (проверка процессов). Это превращает жалобу в возможность укрепить лояльность.
Сводная таблица по всем 47 задачам
| Параметр | GLM-5 | Sonnet 4.5 | DeepSeek V3.2 |
|---|---|---|---|
| Среднее время ответа | 2.4 сек | 5.1 сек | 1.8 сек |
| Общая стоимость 47 запросов | 0.14$ | 0.56$ | 0.05$ |
| Точность расчетов | 96% | 98% | 95% |
| Качество креатива (оценка 1-10) | 7.2 | 9.1 | 8.3 |
| Понимание контекста | Хорошее | Отличное | Хорошее |
| Стоимость в месяц (1000 запросов) | ~3$ | ~12$ | ~1$ |
Что это значит для вашего бизнеса?
Выбор модели зависит от трех факторов: бюджет, нужна ли стратегия, и терпимость к задержкам.
Если вы стартап с ограниченным бюджетом - DeepSeek V3.2. В 12 раз дешевле Sonnet, почти в 3 раза дешевле GLM-5. При этом качество ответов на практические задачи почти не уступает. Для расчетов, стандартных ответов клиентам, генерации простых текстов - идеально.
Если вам нужны стратегические решения, глубокий анализ, работа с сложными клиентскими ситуациями - Sonnet 4.5. Он дорогой, медленный, но дает инсайты, которые могут принести тысячи евро. Как в моем тесте с анализом конкурентов - его рекомендация по позиционированию реально стоила денег.
GLM-5 - золотая середина. Быстрее Sonnet, качественнее DeepSeek в некоторых задачах, но дороже DeepSeek. Если у вас смешанные задачи и средний бюджет.
Важный нюанс: GLM-5 показывает отличные результаты на китайском и английском, но как я писал в статье GLM 5 провалил тест, у него проблемы с европейскими языками кроме английского. Для немецкого фудтрака это может быть критично.
А что с локальным запуском?
DeepSeek V3.2 можно запустить локально на хорошем железе. В статье Deepseek V3.2 vs конкуренты я подробно разбирал, что для квантованной версии нужны 2x RTX 4090 или аналоги. GLM-5 тоже предлагает локальные версии, но они менее оптимизированы. Sonnet 4.5 - только API.
Если считать долгосрочно: оборудование за 5000€ против 12$ в месяц за API Sonnet. Окупаемость - около 35 лет. Не смешно. Локальный запуск имеет смысл только при огромных объемах или требованиях к конфиденциальности. Для большинства фудтраков - нет.
Хотя... если у вас уже есть железо, как в моем случае с двумя RTX 4090, то локальный DeepSeek V3.2 становится практически бесплатным после окупаемости железа.
Мой выбор для фудтрака (и не только)
После недели тестов я остановился на гибридной схеме:
- 80% задач - DeepSeek V3.2 через API. Расчеты, простые ответы, генерация стандартных текстов.
- 15% задач - Sonnet 4.5. Стратегическое планирование, анализ конкурентов, сложные переговоры.
- 5% задач - GLM-5. Когда нужен быстрый ответ лучше, чем у DeepSeek, но дешевле, чем Sonnet.
Эта схема дает среднюю стоимость 1.8$ в месяц при 1000 запросов вместо 12$ за чистый Sonnet. Качество - 95% от максимального возможного.
Но самый главный вывод не про деньги. Он про то, что разные модели думают по-разному. Sonnet 4.5 мыслит стратегически, как консультант из McKinsey. DeepSeek V3.2 - как эффективный менеджер. GLM-5 - как опытный специалист, который знает процедуры, но не всегда видит картину целиком.
Выбирайте не модель. Выбирайте тип мышления, который нужен вашей задаче. И не платите за стратегическое мышление, когда нужен простой расчет.