Gemma 4 с аудиовходом: обзор новой мультимодальной модели от Google | 2026

Тишина закончилась. Встречайте модель, которая слышит

До сих пор разговоры о мультимодальности крутились вокруг текста и картинок. Голос оставался уделом узкоспециализированных моделей вроде Whisper. Но всё поменялось 30 марта 2026 года, когда в репозитории transformers.js появился пул-реквест с тремя словами, перевернувшими всё: "Add Gemma 4 support". Внутри обнаружился настоящий фейерверк — нативная поддержка аудиовхода. Не конвейер из двух моделей (распознавание → LLM), а единый трансформер, жующий raw аудио и выплевывающий осмысленный текст.

На момент публикации (02.04.2026) официальный релиз Gemma 4 ещё не состоялся. Вся информация основана на анализе открытого кода в PR #847 к библиотеке transformers.js и сопутствующих коммитов в репозиториях Google.

Что под капотом? Не просто ещё один кодек

Главный сюрприз — архитектура. Gemma 4 использует не стандартный подход с отдельным аудиоэнкодером. Вместо этого, сырые аудиоволны (или их мел-спектрограммы) проецируются в пространство эмбеддингов через легковесный слой и подаются прямо в основной трансформер вместе с текстовыми токенами. Модель учится самостоятельно выстраивать связи между звуковыми паттернами и семантикой. Это ближе к тому, как работает человеческий мозг, а не конвейер софта для распознавания речи.

💡

Технически, это означает конец эры "стеков" из ASR + LLM для многих задач. Задержка снижается в разы, а контекст понимается целостнее — модель видит (точнее, слышит) не только расшифрованный текст, но и интонации, паузы, фоновые шумы, которые могут нести смысл.

Зачем это вообще нужно? Сценарии, которые теперь реальны

Аудиовход — это не фича для галочки. Это ключ к приложениям, которые раньше были слишком громоздкими или неточными.

Живой, контекстный перевод с сохранением эмоций. Помните бета-тест живого перевода от Gemini? Gemma 4 может сделать это офлайн, в устройстве, и без потери интонации говорящего.
Умные заметки и резюме встреч. Модель не просто транскрибирует, а сразу выделяет action items, спорные моменты и ключевые решения, анализируя голоса участников.
Следующий шаг в ассистивных технологиях. Проекты вроде Gemma Vision для незрячих получат мощный аудиоканал. Ассистент сможет не только описывать мир через камеру, но и анализировать звуковое окружение: «Слева приближается автомобиль», «Ребёнок плачет в соседней комнате».
Глубокая аналитика подкастов и интервью. Автоматическое выявление эмоциональной окраски речи, сарказма, неуверенности — всё это теперь в одной модели.

Как это запустить? transformers.js всё меняет

PR в transformers.js — главная улика. Это означает, что Google с самого начала готовит Gemma 4 к работе в браузере и на краю (edge). Больше никаких гигантских серверных кластеров для обработки аудио. После мержа кода (ожидается в ближайшие недели) запустить модель с аудиовходом будет так же просто, как и любую другую.

Что изменилось	Gemma 3/3n (2025)	Gemma 4 (2026)
Входные модальности	Текст, изображения	Текст, изображения, аудио
Архитектура обработки аудио	Требовалась внешняя ASR	Нативная, энд-ту-энд
Целевая платформа	Сервер, мощные ПК	Браузер, edge-устройства (через transformers.js)
Типичное применение	Чат, анализ документов, описание изображений	Живой диалог, аудиоаналитика, офлайн-ассистенты

Это прямой удар по облачным API. Зачем платить за транскрипцию и последующий анализ, если можно один раз скачать 8-битную квантованную версию Gemma 4 и запустить её на ноутбуке или даже телефоне? Победители того самого Kaggle Challenge на Gemma 3n получат в руки инструмент на порядок мощнее.

И это не только про аудио. Остальные апгрейды

Фокус на звуке отвлёк внимание от других улучшений. Код в PR намекает на серьёзную работу с контекстным окном — его расширили до 128K токенов в базовой версии. Для сравнения, Gemma 3n довольствовалась 32K. Это целая книга в контексте. Точность следования инструкциям (instruction following), судя по тестам, также подросла на 15-20% по внутренним метрикам Google.

Важный нюанс: поддержка аудио в Gemma 4, скорее всего, будет представлена в нескольких вариантах моделей — от лёгких (2B), способных работать в реальном времени на телефоне, до гигантских (27B+) для исследовательских задач. В transformers.js, очевидно, попадут именно квантованные, edge-оптимизированные версии.

Что теперь? Ждём, но готовимся

Официальный анонс, по слухам, намечен на конец апреля 2026 года. Но сообществу не нужно ждать. Уже сейчас можно:

Изучить пул-реквест в transformers.js — это кладезь технических деталей.
Поиграть с коллекцией моделей Gemma на Hugging Face — там уже появляются первые артефакты.
Пересмотреть свои проекты. Если вы строили конвейер с использованием, например, Amazon Polly для синтеза и отдельной модели для анализа, возможно, скоро весь этот пазл заменит один файл модели.

Гонка мультимодальностей входит в новую фазу. После того как Gemini появился в роботакси Waymo и заговорил в Google Maps, логично было ожидать, что следующее поколение моделей с открытыми весами подхватит эстафету. Gemma 4 не просто подхватывает — она задаёт новый темп, делая сложные аудио-задачи доступными каждому разработчику с браузером. Ждать осталось недолго.

Подписаться на канал

Gemma 4 ловит звук: как Google научил свою модель слушать и понимать