Gemma 4 и TPU 8: главные анонсы Google Cloud Next ’26 для разработчиков AI

Не очередная конференция, а момент истины

Каждый май Google Cloud Next превращается в карнавал маркетинга: новые сервисы, красивые цифры, обещания изменить мир. Но 10 мая 2026 года на сцену вышли не просто новые фичи — вышла полноценная перезагрузка стратегии Google в AI. Три удара: открытая модель Gemma 4, TPU восьмого поколения и платформа для агентов. Если вы думали, что Google сдаётся в гонке открытых весов — вы ошиблись. Они просто ждали правильного момента.

Gemma 4: самая мощная открытая модель байт-за-байт

Помните, когда Google выпустил первую Gemma 4 и она обходила конкурентов при смешной цене инференса? Теперь они пошли дальше. Новый релиз — не просто апдейт весов, а полноценная открытая модель с мультимодальностью, которая раньше была прерогативой только Gemini Pro. Gemma 4 теперь понимает аудио, изображения и текст, причём архитектура Mixture-of-Experts (MoE) позволяет активировать всего 9 миллиардов параметров из общего пула в 72 миллиарда. Это значит, что модель можно запускать на одном TPU v5e или даже на мощном потребительском GPU — A100 80 GB хватит.

Ключевое отличие от предыдущих версий — байт-за-байт эффективность. Google заявляет, что при одинаковом бюджете токенов Gemma 4 8B outperforms Llama 4 17B на бенчмарках MMLU, HumanEval и GSM8K. Для разработчиков это означает, что можно развернуть модель на собственной инфраструктуре и не просесть по качеству. А если нужен ещё более длинный контекст — версия 26B A4B держит стабильность при 94% заполнении контекстного окна.

Практический момент: Gemma 4 распространяется под лицензией Apache 2.0, что снимает все вопросы по коммерческому использованию. Если вы собирали приватный RAG для медицинских данных — это ваш шанс без ежемесячной подписки на API.

TPU 8-го поколения: не просто цифры, а агентная инфраструктура

В апреле 2026 года Google показала TPU 8i и 8t — чипы для инференса агентов и обучения. На Next ’26 они представили, как эти чипы превращаются в готовую платформу. TPU 8-го поколения теперь доступны в составе нового сервиса Cloud TPU v8 Pod, который объединяет до 1024 чипов в единую сеть с пропускной способностью 1.2 Tbps на одну связку. Это не просто железо — это масштабируемая фабрика для agentic workflows.

Что это даёт разработчику? Если раньше вы мучались с динамическим батчингом и задержками при вызове инструментов (когда агент решает, какой API дернуть), TPU 8i режет latency в 3 раза по сравнению с TPU v5e. Google закопалась в микроархитектуру: добавила аппаратную поддержку sparse attention и динамического ветвления — именно то, что нужно для агентов, которые постоянно переключаются между задачами.

💡

Совет: Если вы планируете развёртывать агентов с тысячами вызовов в секунду — смотрите в сторону TPU 8i. А для обучения гигантских MoE-моделей берите 8t. Но не забывайте, что привязанность к одному облаку — это vendor lock-in. Держите запасной план на рынке GPU.

Gemini Enterprise Agent Platform: агенты, которым не всё равно

Третий анонс — платформа для корпоративных AI-агентов, которая была представлена ещё в 2025 году, но теперь получила полноценную интеграцию с TPU 8 и Gemma 4. Самое интересное — платформа перестала быть завязана только на модели Google. Теперь вы можете подключать Claude, Llama 4 и даже собственные fine-tuned модели через единый API. Google понимает: в enterprise никто не хочет сидеть на одной модели. Нужна гибкость.

Платформа включает в себя встроенный оркестратор, который автоматически выбирает, какую модель запустить на каком чипе, чтобы уложиться в бюджет и latency. Если задача простая — использует маленькую модель на TPU 8i, если сложный reasoning — переключается на Gemini 3 Pro или Gemma 4 через Router. Это как Kubernetes для моделей, только без боли настройки.

Что это значит для индустрии?

Google явно делает ставку на частное развёртывание и агентов. Выход открытой Gemma 4 — прямой ответ на давление Meta с Llama 4 и Mistral. Но отличие в том, что Google замыкает цепочку: модель, оптимизированное железо и платформа для управления. Захочет ли кто-то покупать суперкомпьютер Nvidia, если на TPU 8 под можно запустить 4-кратное сжатие памяти через quantization без потери качества? Вопрос риторический.

Из минусов — монополизация. Если вы используете TPU, то вы в экосистеме Google Cloud. Перенос модели на GPU потребует адаптации (хотя бы из-за XLA и Pallas). Но для стартапов, которые хотят быстро запустить продукт, это not a big deal.

Лично меня радует, что Google наконец-то выпускает открытые веса, а не только API. Теперь можно ставить Gemma 4 на свой сервер, дообучать на медицинских историях болезни, переписывать летающие тостеры — что угодно. В конце концов, контроль над данными — это не роскошь, а необходимость.

Следите за бенчмарками: через пару недель мы узнаем, насколько реальные цифры совпадают с маркетинговыми. А пока — готовьте бюджеты на TPU 8i, если ваши агенты всё ещё тормозят.

Подписаться на канал

Gemma 4 и TPU 8-го поколения: Google Cloud Next '26 сорвал покровы

Не очередная конференция, а момент истины

Gemma 4: самая мощная открытая модель байт-за-байт

TPU 8-го поколения: не просто цифры, а агентная инфраструктура

Gemini Enterprise Agent Platform: агенты, которым не всё равно

Что это значит для индустрии?

Подписывайтесь на наш канал!