15 июня 2026 года. Google DeepMind официально объявила о доступности семейства моделей Gemma 4 в Amazon Bedrock. Не прошло и полугода с момента первого релиза, а open-weight модели с лицензией Apache 2.0 уже добрались до managed-сервиса AWS. Шутка ли: теперь любой, у кого есть аккаунт в AWS, может запустить Gemma 4 2B, 12B и 27B с архитектурой Mixture-of-Experts, не заморачиваясь с арендой GPU и сборкой llama.cpp. Звучит как сказка? Давайте разбираться.
Что нам принёс Google DeepMind на этот раз?
Gemma 4 — это не просто очередная открытая модель. Это целое семейство, где младшая версия на 2 миллиарда параметров использует Cаstus Hybrid Router, позволяя ей тягаться с Gemini 3.1 Flash Lite по соотношению цена/качество (мы уже разбирали этот трюк). Старшие модели — 12B и 27B — получили мультимодальность: зрение, аудио, вызов инструментов. В теории. На практике с tool calling у Gemma 4 12B есть проблемы — как показало наше ручное тестирование, Qwen 3.5 в этом аспекте утирает нос гугловской модели. Но Bedrock — это управляемая среда, и возможно, Amazon что-то допилил на своей стороне.
Ключевая фишка Gemma 4 — лицензия Apache 2.0. Это значит, что вы можете использовать модель для коммерческих продуктов, модифицировать, дистиллировать, квантовать. Bedrock лишь добавляет managed-инфраструктуру: автоматическое масштабирование, безопасность из коробки, интеграцию с сервисами AWS вроде S3, Lambda и CloudWatch.
Почему Bedrock, а не DIY?
Да, Gemma 4 можно запустить локально — мы подробно описали процесс в отдельном гайде. Но для этого нужно железо с 24 ГБ VRAM хотя бы для 12B модели, а 27B требует уже двух карт. Bedrock снимает этот головняк: вы платите за токены, а инфраструктурой занимается AWS. Плюс — не нужно думать о безопасности выходных данных, поскольку модель работает в вашем аккаунте, а не на стороннем API.
Особенно это актуально для корпоративных сценариев, где важны compliance и контроль над данными. Bedrock поддерживает приватные эндпоинты и шифрование на стороне клиента. Для многих организаций это единственный легальный способ использовать открытые LLM без риска утечки промптов.
Как начать — буквально несколько кликов
Запустить Gemma 4 на Bedrock можно двумя способами.
Через AWS Console
Зайдите в раздел Bedrock, выберите "Foundation models", найдите Google DeepMind Gemma 4. Доступны модели: gemma4-2b, gemma4-12b, gemma4-27b. Нажмите "Access model" и создайте эндпоинт. После одобрения (обычно несколько минут) получите endpoint ARN.
Через AWS CLI / SDK
Если вы дружите с командной строкой, можно написать скрипт на Python или использовать boto3. В документации Bedrock есть примеры вызова моделей через InvokeModel. Для быстрого тестирования подойдёт и AI Chat Playground прямо в консоли — там можно сразу отправить текст или изображение (для мультимодальных версий).
Производительность: цифры и реальность
На прошлой неделе Intel опубликовала бенчмарки Gemma 4 на своих Gaudi 3. В их тестах 27B модель показала на 30% более высокую пропускную способность, чем LLaMA 4 70B при схожем качестве. Однако есть нюанс: бенчмарки обычно замеряют стандартные задачи — summarization, classification, Q&A. В реальных сценариях, вроде агентных цепочек, результат может отличаться. Мы проводили сравнение Mac Studio, и там Qwen 3.5 вырвался вперёд за счёт лучшего tool calling. На Bedrock разница может сгладиться благодаря оптимизациям Amazon — они активно дорабатывают инференс движок.
Что касается мультимодальности — локальный запуск показал, что Gemma 4 12B неплохо справляется с распознаванием изображений и аудио. На Bedrock это работает через единый API: можно передать base64-encoded картинку в поле image_url и получить описание. Лаг минимальный, но для реального time-sensitive production лучше использовать специализированные модели вроде Nougat для OCR.
Warning: если вы планируете использовать Gemma 4 для генерации изображений — стоп. DiffusionGemma, хоть и вышла под тем же брендом, на Bedrock пока недоступна. И вообще, как мы выяснили, её бенчмарки обманчивы — реальные результаты сильно зависят от seed и промпта.
Подводные камни и как их обойти
- Tool calling глючит. В 12B версии вызов функций работает нестабильно — иногда модель игнорирует схему JSON. На Bedrock это можно частично компенсировать через Prompt Engineering, но не надейтесь на чудо.
- Потребление контекста. 27B модель при контексте 128К съедает кучу токенов. Следите за budget.
- Защита от джейлбрейка. У Gemma 4 встроенные safety guardrails, но их можно обойти. Комьюнити активно экспериментирует с методом ARA (туториал по Heretic). Если вам это нужно — RTFM, но помните об ответственности.
Сколько это стоит?
Цены на Bedrock для Gemma 4:
| Модель | Input токен | Output токен |
|---|---|---|
| gemma4-2b | $0.0001 | $0.0002 |
| gemma4-12b | $0.0006 | $0.0009 |
| gemma4-27b | $0.0015 | $0.0025 |
Цены актуальны на 15.06.2026. Для long-running задач (например, агентная архитектура) рекомендуем 2B модель с роутером — она может обслуживать до 90% запросов по качеству, сравнимому с Flash-Lite, как показано в эксперименте с Cactus Hybrid Router.
Неочевидный совет напоследок
Не смотрите только на цифры бенчмарков. Gemma 4 12B на Bedrock — отличная модель для мультимодальных RAG-систем, где нужно извлекать данные из PDF с рисунками. Но если вам нужен стабильный tool calling — берите Qwen 3.5 72B или ждите исправлений от Google. А для простых чатов — Gemma 4 2B с роутером будет дешевле и быстрее, чем любая managed модель конкурентов. AWS продумал managed-экосистему, но помните: no silver bullet. Тестируйте на своих данных.
И да, если вы фанат локального железа — Gemma 4 прекрасно работает на смартфоне без интернета. Мы проверили в этом гайде. Но это уже совсем другая история.