Публикация AiManual

Gemma 4 31B FP8 vs Sonnet 4.6 Medium: могут ли открытые модели конкурировать с проприетарными?

Сравнение производительности открытой модели Gemma 4 31B в FP8 с проприетарной Sonnet 4.6 Medium. Цена, скорость, бенчмарки - кто выигрывает в 2026 году?

3 мин чтения 08.06.2026

Коротко

Что будет в материале

01
Хайп, который не утихает
02
Бенчмарки: не всё так однозначно
03
Скорость и задержка — козырь локального запуска
04
Практический тест: carwash и нестандартные сценарии

Хайп, который не утихает

Разговоры о том, что open-source модели вот-вот догонят проприетарных гигантов, идут с 2024 года. Но в середине 2026 ситуация накалилась до предела. Google выкатила Gemma 4 31B в FP8-квантовании, а Anthropic обновила Sonnet до версии 4.6 Medium. Вопрос, который мучает всех: стоит ли платить за API или можно запустить локальную модель и получить тот же результат?

На бумаге Gemma 4 31B FP8 выглядит как убийца: 31 миллиард параметров, упакованных в 8-битное квантование, что позволяет запускать её даже на consumer GPU с 24 ГБ VRAM. Цена инференса — копейки по сравнению с API. Но хватит ли у неё мозгов, чтобы конкурировать с Sonnet 4.6 Medium, который стоит $3 за миллион токенов? Сравнение с Opus 4.6 показало, что Sonnet 4.6 Medium — это золотая середина, но не дешёвка.

Бенчмарки: не всё так однозначно

Давайте посмотрим на свежие результаты, опубликованные в мае 2026. Я собрал данные по ключевым тестам: MMLU, HumanEval и GSM8K.

Модель	MMLU (5-shot)	HumanEval (pass@1)	GSM8K (8-shot)
Gemma 4 31B FP8	87.2%	72.1%	91.4%
Sonnet 4.6 Medium	89.5%	75.8%	93.2%

Отрыв в 2-3% — не катастрофа, но он есть. Однако в сравнении с Qwen 3.5 Gemma 4 неожиданно вырвалась вперёд. Выходит, что топ-модели уже не так далеки друг от друга, а квантование почти не съедает точность.

Скорость и задержка — козырь локального запуска

Скорость инференса — вот где FP8-версия Gemma 4 даёт сто очков вперёд. Запустив её через llama.cpp или MLX, вы получаете 30-50 токенов в секунду на RTX 4090. Гайд по установке есть в нашей базе — всё делается за 10 минут. Sonnet 4.6 Medium через API выдает примерно те же цифры, но задержка сети добавляет 200-500 мс. Для чат-ботов и интерактивных задач это критично. Для пакетной обработки — неважно.

На практике: если вам нужен быстрый отклик без лагов — локальная Gemma 4 побеждает. Если гоняете тонны данных через API — разница в цене станет решающей.

Практический тест: carwash и нестандартные сценарии

В недавнем carwash-тесте (когда модель должна объяснить, как мыть машину, учитывая скрытые ограничения) Gemma 4 31B UD неожиданно обошла даже Opus 4.6. Подробности здесь. Sonnet 4.6 Medium показала себя стабильно, но без сюрпризов. Это намекает, что иногда open-source модели могут находить более креативные решения — возможно, из-за менее зарегулированного обучения.

Конечно, Sonnet 4.6 Medium остаётся королём code generation: её HumanEval на 75.8% — результат, который Gemma 4 пока не может повторить (72.1%). Но если Anthropic не понизит цены, многие разработчики перейдут на локальные решения. Обновление Sonnet 4.5 до 4.6 дало прирост в точности, но не изменило правила игры.

Что в итоге? Игра стоит свеч

Выбор сводится к простому вопросу: вы готовы возиться с настройкой и железом ради экономии, или вам нужно «включил и забыл»? Gemma 4 31B FP8 — это мощнейшая open-source модель, которая почти не уступает Sonnet 4.6 Medium в общих задачах, а по скорости и цене — выигрывает. Sonnet 4.6 Medium берёт гарантированным качеством и простотой, но стоит денег.

Мой прогноз: к концу 2026 года open-source модели полностью догонят Sonnet по качеству, но Anthropic готовит ответ — возможно, Sonnet 5.0 или тотальное снижение цен. А пока — берите Gemma 4, если у вас есть RTX 4090 или лучше. Не пожалеете.

Подписаться на канал