Gemma 4 на Amazon Bedrock: запуск, возможности, производительность

15 июня 2026 года. Google DeepMind официально объявила о доступности семейства моделей Gemma 4 в Amazon Bedrock. Не прошло и полугода с момента первого релиза, а open-weight модели с лицензией Apache 2.0 уже добрались до managed-сервиса AWS. Шутка ли: теперь любой, у кого есть аккаунт в AWS, может запустить Gemma 4 2B, 12B и 27B с архитектурой Mixture-of-Experts, не заморачиваясь с арендой GPU и сборкой llama.cpp. Звучит как сказка? Давайте разбираться.

Что нам принёс Google DeepMind на этот раз?

Gemma 4 — это не просто очередная открытая модель. Это целое семейство, где младшая версия на 2 миллиарда параметров использует Cаstus Hybrid Router, позволяя ей тягаться с Gemini 3.1 Flash Lite по соотношению цена/качество (мы уже разбирали этот трюк). Старшие модели — 12B и 27B — получили мультимодальность: зрение, аудио, вызов инструментов. В теории. На практике с tool calling у Gemma 4 12B есть проблемы — как показало наше ручное тестирование, Qwen 3.5 в этом аспекте утирает нос гугловской модели. Но Bedrock — это управляемая среда, и возможно, Amazon что-то допилил на своей стороне.

Ключевая фишка Gemma 4 — лицензия Apache 2.0. Это значит, что вы можете использовать модель для коммерческих продуктов, модифицировать, дистиллировать, квантовать. Bedrock лишь добавляет managed-инфраструктуру: автоматическое масштабирование, безопасность из коробки, интеграцию с сервисами AWS вроде S3, Lambda и CloudWatch.

Почему Bedrock, а не DIY?

Да, Gemma 4 можно запустить локально — мы подробно описали процесс в отдельном гайде. Но для этого нужно железо с 24 ГБ VRAM хотя бы для 12B модели, а 27B требует уже двух карт. Bedrock снимает этот головняк: вы платите за токены, а инфраструктурой занимается AWS. Плюс — не нужно думать о безопасности выходных данных, поскольку модель работает в вашем аккаунте, а не на стороннем API.

Особенно это актуально для корпоративных сценариев, где важны compliance и контроль над данными. Bedrock поддерживает приватные эндпоинты и шифрование на стороне клиента. Для многих организаций это единственный легальный способ использовать открытые LLM без риска утечки промптов.

Как начать — буквально несколько кликов

Запустить Gemma 4 на Bedrock можно двумя способами.

Через AWS Console

Зайдите в раздел Bedrock, выберите "Foundation models", найдите Google DeepMind Gemma 4. Доступны модели: gemma4-2b, gemma4-12b, gemma4-27b. Нажмите "Access model" и создайте эндпоинт. После одобрения (обычно несколько минут) получите endpoint ARN.

Через AWS CLI / SDK

Если вы дружите с командной строкой, можно написать скрипт на Python или использовать boto3. В документации Bedrock есть примеры вызова моделей через InvokeModel. Для быстрого тестирования подойдёт и AI Chat Playground прямо в консоли — там можно сразу отправить текст или изображение (для мультимодальных версий).

💡

Обратите внимание: для моделей 27B требуется регион us-east-1 или eu-west-1. Перед стартом проверьте список доступных регионов в документации AWS. Ценообразование — per-token: для 2B примерно $0.0001 за токен, для 27B — $0.002 за токен. Ниже цифры — для 12B — золотая середина.

Производительность: цифры и реальность

На прошлой неделе Intel опубликовала бенчмарки Gemma 4 на своих Gaudi 3. В их тестах 27B модель показала на 30% более высокую пропускную способность, чем LLaMA 4 70B при схожем качестве. Однако есть нюанс: бенчмарки обычно замеряют стандартные задачи — summarization, classification, Q&A. В реальных сценариях, вроде агентных цепочек, результат может отличаться. Мы проводили сравнение Mac Studio, и там Qwen 3.5 вырвался вперёд за счёт лучшего tool calling. На Bedrock разница может сгладиться благодаря оптимизациям Amazon — они активно дорабатывают инференс движок.

Что касается мультимодальности — локальный запуск показал, что Gemma 4 12B неплохо справляется с распознаванием изображений и аудио. На Bedrock это работает через единый API: можно передать base64-encoded картинку в поле image_url и получить описание. Лаг минимальный, но для реального time-sensitive production лучше использовать специализированные модели вроде Nougat для OCR.

Warning: если вы планируете использовать Gemma 4 для генерации изображений — стоп. DiffusionGemma, хоть и вышла под тем же брендом, на Bedrock пока недоступна. И вообще, как мы выяснили, её бенчмарки обманчивы — реальные результаты сильно зависят от seed и промпта.

Подводные камни и как их обойти

Tool calling глючит. В 12B версии вызов функций работает нестабильно — иногда модель игнорирует схему JSON. На Bedrock это можно частично компенсировать через Prompt Engineering, но не надейтесь на чудо.
Потребление контекста. 27B модель при контексте 128К съедает кучу токенов. Следите за budget.
Защита от джейлбрейка. У Gemma 4 встроенные safety guardrails, но их можно обойти. Комьюнити активно экспериментирует с методом ARA (туториал по Heretic). Если вам это нужно — RTFM, но помните об ответственности.

Сколько это стоит?

Цены на Bedrock для Gemma 4:

Модель	Input токен	Output токен
gemma4-2b	$0.0001	$0.0002
gemma4-12b	$0.0006	$0.0009
gemma4-27b	$0.0015	$0.0025

Цены актуальны на 15.06.2026. Для long-running задач (например, агентная архитектура) рекомендуем 2B модель с роутером — она может обслуживать до 90% запросов по качеству, сравнимому с Flash-Lite, как показано в эксперименте с Cactus Hybrid Router.

Неочевидный совет напоследок

Не смотрите только на цифры бенчмарков. Gemma 4 12B на Bedrock — отличная модель для мультимодальных RAG-систем, где нужно извлекать данные из PDF с рисунками. Но если вам нужен стабильный tool calling — берите Qwen 3.5 72B или ждите исправлений от Google. А для простых чатов — Gemma 4 2B с роутером будет дешевле и быстрее, чем любая managed модель конкурентов. AWS продумал managed-экосистему, но помните: no silver bullet. Тестируйте на своих данных.

И да, если вы фанат локального железа — Gemma 4 прекрасно работает на смартфоне без интернета. Мы проверили в этом гайде. Но это уже совсем другая история.

Подписаться на канал

Gemma 4 на Amazon Bedrock: как Google отдала open-weight модель под крыло AWS и что из этого вышло