Ценник, который всех взорвал
Google выпустила Gemma 4 31B в марте 2026 года, и первое, что все заметили — ценник. Инференс стоит двадцать центов. Не за токен, не за минуту. Двадцать центов за тысячу промптов средней длины. На фоне счетов за GPT-5.2, которые легко съедают сотни долларов в месяц, это звучит как шутка. Но это не шутка.
За эти деньги вы получаете модель с 31 миллиардом параметров, которая в бенчмарках 2026 года стабильно занимает место сразу после флагманов OpenAI и Anthropic. Она не догоняет Claude Opus 4.6 в рассуждениях о философии Канта, но для 99% практических задач — от генерации кода до анализа документов — разницы вы не заметите. А вот разницу в счете — сразу.
Важный нюанс: стоимость в $0.20 указана для инференса через Google Cloud Vertex AI в регионе us-central1 на стандартном инстансе. Если запускать самостоятельно на своем железе, цена упадет до стоимости электричества. Но тут нужно считать железо и охлаждение.
Что внутри у этой штуки?
Технически Gemma 4 — это доработанная архитектура Transformer с несколькими ключевыми фишками, которых не было в Gemma 3.
- Dynamic Sparse Attention — модель учится игнорировать ненужные связи в реальном времени, что дает прирост скорости на 15-20% без потерь в качестве.
- Мультимодальность из коробки — базовые версии понимают и текст, и изображения. Для локального запуска есть специальные квантования под llama.cpp.
- Контекстное окно 128к токенов — стандарт 2026 года, но реализовано без тормозов, которые были у ранних длинных контекстов.
- Встроенный калькулятор и детокс-фильтр — Google наконец-то научился делать встроенные инструменты, которые не ломают логику ответа.
Самое интересное — обучение. Google использовала смесь из синтетических данных, сгенерированных их же моделями (Gemini 3.5 Ultra), и отфильтрованного веба. Это снизило стоимость предобучения примерно в 4 раза по сравнению с Gemma 3. Экономию передали пользователям.
Сравнение: против кого она выходит на ринг?
Таблицы бенчмарков 2026 года забиты цифрами, но смысл в одном: Gemma 4 31B занимает нишу между дорогими флагманами и дешевыми, но слабыми моделями.
| Модель | Параметры | FoodTruck Score (2026) | Стоимость 1к промптов (approx) | Контекст |
|---|---|---|---|---|
| GPT-5.2 | ~1.8T (оценка) | 94.2 | $4.50 - $7.00 | 256к |
| Claude Opus 4.6 | Не раскрывается | 92.8 | $5.80+ | 200к |
| Gemma 4 31B | 31B | 89.7 | $0.20 - $0.35 | 128к |
| Qwen 3.5 72B | 72B | 86.1 | $0.80 - $1.20 | 128к |
| Llama 4 13B | 13B | 82.5 | $0.10 - $0.15 | 64к |
Цифры по бенчмарку FoodTruck взяты из открытых тестов на начало апреля 2026. Полный разбор результатов и методологии есть в отдельной статье про FoodTruck.
Но есть и странности. На старом бенчмарке Winogrande (тест на здравый смысл) Gemma 4 показывает результаты ниже среднего. Разработчики из Google в своем блоге честно пишут, что не оптимизировали модель под этот специфический датасет, потому что в реальных сценариях такой провал не наблюдается. Детальный разбор этого парадокса мы разбирали отдельно.
Кому она спасет бюджет (а кому — нет)?
Представьте, что вы запускаете SaaS с AI-фичей. Вместо того чтобы отдавать OpenAI $500 в месяц, вы платите $25. Разница в качестве? Минимальная. Для пользователя интерфейс и скорость ответа будут такими же.
Gemma 4 31B идеально подходит:
- Стартапам с ограниченным бюджетом — можно запустить MVP, не разорившись на AI-запросах.
- Исследователям данных — для быстрой очистки текстов, классификации, суммаризации больших объемов данных.
- Homelab энтузиастам — модель отлично квантуется до Q4_0 и запускается на относительно слабом железе. Если у вас есть Strix Halo или аналоги, посмотрите полный тест 19 моделей.
- Разработчикам, которым нужен AI для рутинного кода — Gemma 4 отлично справляется с Python, JavaScript, Go. Не пишет шедевры, но генерирует рабочий boilerplate и ищет баги.
Не берите Gemma 4, если вам нужно:
- Абсолютно безошибочное юридическое или медицинское заключение — тут пока только флагманы с человеческой проверкой.
- Генерация креативных текстов уровня топового копирайтера — слог у модели всё еще технический, «души» маловато.
- Работа в режиме 24/7 с пиковыми нагрузками в тысячи RPS — масштабирование Vertex AI может оказаться дороже расчётного. Лучше считать свой инстанс.
Если решите запускать локально, не копируйте старые гайды по Gemma 3. Архитектура изменилась, и старые методы квантования могут привести к падению производительности. Используйте актуальные инструменты вроде llama.cpp версии 2026.03+. И не забудьте про TurboQuant для слабого железа.
Что будет дальше? (Спойлер: война цен)
Реакция конкурентов уже началась. DeepSeek анонсировал новую модель с похожей ценовой политикой. В OpenAI, по слухам, готовят специальный тариф «для разработчиков», который должен снизить стоимость инференса GPT-5.2 Mini.
Но Google здесь выиграла время. Gemma 4 31B — это первый массовый продукт, который доказывает: качественный AI не должен стоить как ипотека. Это меняет правила игры для индустрии. Стартапы, которые в 2025-м не могли позволить себе AI-фичи, в 2026-м запускают их за неделю.
Мой прогноз: к концу 2026 года стоимость инференса для моделей уровня 30-40B параметров упадет ниже $0.10 за тысячу запросов. А открытые веса Gemma 4 приведут к взрывному росту специфичных fine-tune версий — от моделей для бухгалтерии до AI для гейм-мастеров в D&D.
Пока же — если у вас есть задача, где AI мог бы помочь, но вы считали это дорогим, попробуйте Gemma 4. Двадцать центов это не риск, а скорее чашка кофе. Только кофе не напишет за вас SQL-запрос.