Тишина закончилась. Встречайте модель, которая слышит
До сих пор разговоры о мультимодальности крутились вокруг текста и картинок. Голос оставался уделом узкоспециализированных моделей вроде Whisper. Но всё поменялось 30 марта 2026 года, когда в репозитории transformers.js появился пул-реквест с тремя словами, перевернувшими всё: "Add Gemma 4 support". Внутри обнаружился настоящий фейерверк — нативная поддержка аудиовхода. Не конвейер из двух моделей (распознавание → LLM), а единый трансформер, жующий raw аудио и выплевывающий осмысленный текст.
На момент публикации (02.04.2026) официальный релиз Gemma 4 ещё не состоялся. Вся информация основана на анализе открытого кода в PR #847 к библиотеке transformers.js и сопутствующих коммитов в репозиториях Google.
Что под капотом? Не просто ещё один кодек
Главный сюрприз — архитектура. Gemma 4 использует не стандартный подход с отдельным аудиоэнкодером. Вместо этого, сырые аудиоволны (или их мел-спектрограммы) проецируются в пространство эмбеддингов через легковесный слой и подаются прямо в основной трансформер вместе с текстовыми токенами. Модель учится самостоятельно выстраивать связи между звуковыми паттернами и семантикой. Это ближе к тому, как работает человеческий мозг, а не конвейер софта для распознавания речи.
Зачем это вообще нужно? Сценарии, которые теперь реальны
Аудиовход — это не фича для галочки. Это ключ к приложениям, которые раньше были слишком громоздкими или неточными.
- Живой, контекстный перевод с сохранением эмоций. Помните бета-тест живого перевода от Gemini? Gemma 4 может сделать это офлайн, в устройстве, и без потери интонации говорящего.
- Умные заметки и резюме встреч. Модель не просто транскрибирует, а сразу выделяет action items, спорные моменты и ключевые решения, анализируя голоса участников.
- Следующий шаг в ассистивных технологиях. Проекты вроде Gemma Vision для незрячих получат мощный аудиоканал. Ассистент сможет не только описывать мир через камеру, но и анализировать звуковое окружение: «Слева приближается автомобиль», «Ребёнок плачет в соседней комнате».
- Глубокая аналитика подкастов и интервью. Автоматическое выявление эмоциональной окраски речи, сарказма, неуверенности — всё это теперь в одной модели.
Как это запустить? transformers.js всё меняет
PR в transformers.js — главная улика. Это означает, что Google с самого начала готовит Gemma 4 к работе в браузере и на краю (edge). Больше никаких гигантских серверных кластеров для обработки аудио. После мержа кода (ожидается в ближайшие недели) запустить модель с аудиовходом будет так же просто, как и любую другую.
| Что изменилось | Gemma 3/3n (2025) | Gemma 4 (2026) |
|---|---|---|
| Входные модальности | Текст, изображения | Текст, изображения, аудио |
| Архитектура обработки аудио | Требовалась внешняя ASR | Нативная, энд-ту-энд |
| Целевая платформа | Сервер, мощные ПК | Браузер, edge-устройства (через transformers.js) |
| Типичное применение | Чат, анализ документов, описание изображений | Живой диалог, аудиоаналитика, офлайн-ассистенты |
Это прямой удар по облачным API. Зачем платить за транскрипцию и последующий анализ, если можно один раз скачать 8-битную квантованную версию Gemma 4 и запустить её на ноутбуке или даже телефоне? Победители того самого Kaggle Challenge на Gemma 3n получат в руки инструмент на порядок мощнее.
И это не только про аудио. Остальные апгрейды
Фокус на звуке отвлёк внимание от других улучшений. Код в PR намекает на серьёзную работу с контекстным окном — его расширили до 128K токенов в базовой версии. Для сравнения, Gemma 3n довольствовалась 32K. Это целая книга в контексте. Точность следования инструкциям (instruction following), судя по тестам, также подросла на 15-20% по внутренним метрикам Google.
Важный нюанс: поддержка аудио в Gemma 4, скорее всего, будет представлена в нескольких вариантах моделей — от лёгких (2B), способных работать в реальном времени на телефоне, до гигантских (27B+) для исследовательских задач. В transformers.js, очевидно, попадут именно квантованные, edge-оптимизированные версии.
Что теперь? Ждём, но готовимся
Официальный анонс, по слухам, намечен на конец апреля 2026 года. Но сообществу не нужно ждать. Уже сейчас можно:
- Изучить пул-реквест в transformers.js — это кладезь технических деталей.
- Поиграть с коллекцией моделей Gemma на Hugging Face — там уже появляются первые артефакты.
- Пересмотреть свои проекты. Если вы строили конвейер с использованием, например, Amazon Polly для синтеза и отдельной модели для анализа, возможно, скоро весь этот пазл заменит один файл модели.
Гонка мультимодальностей входит в новую фазу. После того как Gemini появился в роботакси Waymo и заговорил в Google Maps, логично было ожидать, что следующее поколение моделей с открытыми весами подхватит эстафету. Gemma 4 не просто подхватывает — она задаёт новый темп, делая сложные аудио-задачи доступными каждому разработчику с браузером. Ждать осталось недолго.