Gemma 4 31B: обзор модели Google с низкой стоимостью инференса

Ценник, который всех взорвал

Google выпустила Gemma 4 31B в марте 2026 года, и первое, что все заметили — ценник. Инференс стоит двадцать центов. Не за токен, не за минуту. Двадцать центов за тысячу промптов средней длины. На фоне счетов за GPT-5.2, которые легко съедают сотни долларов в месяц, это звучит как шутка. Но это не шутка.

За эти деньги вы получаете модель с 31 миллиардом параметров, которая в бенчмарках 2026 года стабильно занимает место сразу после флагманов OpenAI и Anthropic. Она не догоняет Claude Opus 4.6 в рассуждениях о философии Канта, но для 99% практических задач — от генерации кода до анализа документов — разницы вы не заметите. А вот разницу в счете — сразу.

Важный нюанс: стоимость в $0.20 указана для инференса через Google Cloud Vertex AI в регионе us-central1 на стандартном инстансе. Если запускать самостоятельно на своем железе, цена упадет до стоимости электричества. Но тут нужно считать железо и охлаждение.

Что внутри у этой штуки?

Технически Gemma 4 — это доработанная архитектура Transformer с несколькими ключевыми фишками, которых не было в Gemma 3.

Dynamic Sparse Attention — модель учится игнорировать ненужные связи в реальном времени, что дает прирост скорости на 15-20% без потерь в качестве.
Мультимодальность из коробки — базовые версии понимают и текст, и изображения. Для локального запуска есть специальные квантования под llama.cpp.
Контекстное окно 128к токенов — стандарт 2026 года, но реализовано без тормозов, которые были у ранних длинных контекстов.
Встроенный калькулятор и детокс-фильтр — Google наконец-то научился делать встроенные инструменты, которые не ломают логику ответа.

Самое интересное — обучение. Google использовала смесь из синтетических данных, сгенерированных их же моделями (Gemini 3.5 Ultra), и отфильтрованного веба. Это снизило стоимость предобучения примерно в 4 раза по сравнению с Gemma 3. Экономию передали пользователям.

Сравнение: против кого она выходит на ринг?

Таблицы бенчмарков 2026 года забиты цифрами, но смысл в одном: Gemma 4 31B занимает нишу между дорогими флагманами и дешевыми, но слабыми моделями.

Модель	Параметры	FoodTruck Score (2026)	Стоимость 1к промптов (approx)	Контекст
GPT-5.2	~1.8T (оценка)	94.2	$4.50 - $7.00	256к
Claude Opus 4.6	Не раскрывается	92.8	$5.80+	200к
Gemma 4 31B	31B	89.7	$0.20 - $0.35	128к
Qwen 3.5 72B	72B	86.1	$0.80 - $1.20	128к
Llama 4 13B	13B	82.5	$0.10 - $0.15	64к

Цифры по бенчмарку FoodTruck взяты из открытых тестов на начало апреля 2026. Полный разбор результатов и методологии есть в отдельной статье про FoodTruck.

💡

FoodTruck — новый комбинированный бенчмарк 2025-2026 годов, который тестирует модели на реалистичных задачах: анализ чеков, планирование поездок, ответы на вопросы из документов со скриншотами. Считается более практичным, чем старые академические тесты.

Но есть и странности. На старом бенчмарке Winogrande (тест на здравый смысл) Gemma 4 показывает результаты ниже среднего. Разработчики из Google в своем блоге честно пишут, что не оптимизировали модель под этот специфический датасет, потому что в реальных сценариях такой провал не наблюдается. Детальный разбор этого парадокса мы разбирали отдельно.

Кому она спасет бюджет (а кому — нет)?

Представьте, что вы запускаете SaaS с AI-фичей. Вместо того чтобы отдавать OpenAI $500 в месяц, вы платите $25. Разница в качестве? Минимальная. Для пользователя интерфейс и скорость ответа будут такими же.

Gemma 4 31B идеально подходит:

Стартапам с ограниченным бюджетом — можно запустить MVP, не разорившись на AI-запросах.
Исследователям данных — для быстрой очистки текстов, классификации, суммаризации больших объемов данных.
Homelab энтузиастам — модель отлично квантуется до Q4_0 и запускается на относительно слабом железе. Если у вас есть Strix Halo или аналоги, посмотрите полный тест 19 моделей.
Разработчикам, которым нужен AI для рутинного кода — Gemma 4 отлично справляется с Python, JavaScript, Go. Не пишет шедевры, но генерирует рабочий boilerplate и ищет баги.

Не берите Gemma 4, если вам нужно:

Абсолютно безошибочное юридическое или медицинское заключение — тут пока только флагманы с человеческой проверкой.
Генерация креативных текстов уровня топового копирайтера — слог у модели всё еще технический, «души» маловато.
Работа в режиме 24/7 с пиковыми нагрузками в тысячи RPS — масштабирование Vertex AI может оказаться дороже расчётного. Лучше считать свой инстанс.

Если решите запускать локально, не копируйте старые гайды по Gemma 3. Архитектура изменилась, и старые методы квантования могут привести к падению производительности. Используйте актуальные инструменты вроде llama.cpp версии 2026.03+. И не забудьте про TurboQuant для слабого железа.

Что будет дальше? (Спойлер: война цен)

Реакция конкурентов уже началась. DeepSeek анонсировал новую модель с похожей ценовой политикой. В OpenAI, по слухам, готовят специальный тариф «для разработчиков», который должен снизить стоимость инференса GPT-5.2 Mini.

Но Google здесь выиграла время. Gemma 4 31B — это первый массовый продукт, который доказывает: качественный AI не должен стоить как ипотека. Это меняет правила игры для индустрии. Стартапы, которые в 2025-м не могли позволить себе AI-фичи, в 2026-м запускают их за неделю.

Мой прогноз: к концу 2026 года стоимость инференса для моделей уровня 30-40B параметров упадет ниже $0.10 за тысячу запросов. А открытые веса Gemma 4 приведут к взрывному росту специфичных fine-tune версий — от моделей для бухгалтерии до AI для гейм-мастеров в D&D.

Пока же — если у вас есть задача, где AI мог бы помочь, но вы считали это дорогим, попробуйте Gemma 4. Двадцать центов это не риск, а скорее чашка кофе. Только кофе не напишет за вас SQL-запрос.

Подписаться на канал

Gemma 4: разбор прорывной 31B модели, которая обошла конкурентов за $0.20

Ценник, который всех взорвал

Что внутри у этой штуки?

Сравнение: против кого она выходит на ринг?

Кому она спасет бюджет (а кому — нет)?

Что будет дальше? (Спойлер: война цен)

Подписывайтесь на наш канал!