Забудьте про облака: голосовой ассистент в 500 МБ
Представьте: голосовой помощник, который не отправляет ваши данные в Google, не требует подписки за $20 в месяц и работает даже когда интернет отвалился. Звучит как фантастика? В 2025 году это реальность.
Pocket-TTS и VibeVoice-ASR - два open-source проекта, которые поменяли правила игры. Первый - синтезатор речи размером с mp3-файл. Второй - система распознавания, которая запускается на Raspberry Pi. Вместе они дают то, что раньше было только в мечтах: полностью локальный голосовой пайплайн.
Что за звери такие: Pocket-TTS 2.1 и VibeVoice-ASR 3.0
Начнем с технических деталей, потому что без них непонятно, почему это вообще работает.
Pocket-TTS 2.1 (январь 2025)
Обновление, которое вышло буквально на прошлой неделе. Разработчики не стали гнаться за гигантскими моделями - вместо этого оптимизировали то, что уже работало.
| Характеристика | Значение | Что это значит |
|---|---|---|
| Размер модели | 380 МБ | Поместится на флешке 2005 года |
| Параметры | 98 млн | В 10 раз меньше, чем Coqui XTTS |
| Задержка на CPU | 2.8 сек на 10 сек аудио | Почти реальное время |
| Поддержка языков | 7 языков + русский (эксперимент) | Да, они добавили русский через адаптацию |
Новое в версии 2.1:
- Поддержка SSML для управления интонацией (раньше было только plain text)
- Пакетная обработка до 16 текстов одновременно
- Экспорт сразу в MP3 без конвертации через FFmpeg
- API на FastAPI вместо Flask (в 3 раза быстрее)
VibeVoice-ASR 3.0 (декабрь 2024)
Если Pocket-TTS - про синтез, то VibeVoice - про распознавание. И это не очередной клон Whisper. Совсем.
Пока все бегали за Whisper Large, команда VibeVoice сделала модель, которая:
- Занимает 120 МБ вместо 1.5 ГБ у Whisper Small
- Работает в 8 раз быстрее на CPU
- Точность для английского: 95.2% против 96.1% у Whisper Base
- Но главное - задержка 120 мс вместо 450 мс
Русский язык в VibeVoice пока экспериментальный. Точность около 88% против 94% у Whisper. Но для простых команд типа "включи свет" или "какая погода" - хватает. Если нужен русский для сложных задач - смотрите Whisper или другие модели из нашего обзора.
Собираем пазл: ассистент из трех компонентов
Голосовой ассистент - это не просто TTS + ASR. Между ними должен быть мозг. И вот тут начинается магия (или костыли, смотря как собрать).
Архитектура за 5 минут
Представьте конвейер:
- Микрофон → VibeVoice-ASR → текст
- Текст → языковая модель → ответ
- Ответ → Pocket-TTS → голос
- Голос → динамик → вы довольны
Проблема в пункте 2. LLM-модели обычно требуют GPU. Но есть выход.
Вариант для слабого железа: TinyLlama 1.1B
TinyLlama - это как ChatGPT, но в кармане. 1.1 миллиарда параметров, работает на CPU с приемлемой скоростью (2-3 секунды на ответ).
Почему именно она:
- Quantized версия занимает 650 МБ
- Поддерживает инструкции (как ChatGPT)
- Генерирует ответ за 5-10 токенов в секунду на Core i5
- Есть версия с русской дообучкой
Итого весь стек:
| Компонент | Модель | Размер | Задержка |
|---|---|---|---|
| ASR | VibeVoice-ASR 3.0 | 120 МБ | 120 мс |
| LLM | TinyLlama 1.1B Q4 | 650 МБ | 2-3 сек |
| TTS | Pocket-TTS 2.1 | 380 МБ | 2.8 сек |
| Итого | — | ~1.15 ГБ | 5-6 сек |
1.15 ГБ. Это меньше, чем весит одна фотография в RAW с современного телефона. И это весь голосовой ассистент.
Альтернативы: что еще есть на рынке
Pocket-TTS и VibeVoice - не единственные игроки. Просто они самые легкие.
Для TTS
- Coqui XTTS v2 - качество выше, но 2.5 ГБ и требует GPU. Русский язык официально поддерживается.
- Sonya TTS - быстрая и выразительная, но 850 МБ. Мы писали про нее отдельно.
- Piper TTS - легче (200 МБ), но качество хуже. Зато работает даже на Raspberry Pi Zero.
Для ASR
- Whisper.cpp - порт Whisper на C++, работает на CPU. Точность выше, но тяжелее (от 500 МБ).
- Silero V3 - русская разработка, отлично работает с русским языком. 300 МБ, но только русский/английский.
- NVIDIA Parakeet - если есть GPU. 2-3 ГБ VRAM, но качество студийное.
Не путайте локальные TTS для ассистентов и для аудиокниг. Во втором случае нужна долгая речь без артефактов. Для этого лучше подходят модели из нашего сравнения open-source TTS для аудиокниг.
Кому подойдет этот стек
Не всем. И это нормально.
Берите Pocket-TTS + VibeVoice, если:
- Нужен ассистент для умного дома на Raspberry Pi
- Делаете проект с ограниченным бюджетом (железо или облако)
- Требуется полная приватность - данные никуда не уходят
- Работаете в местах без стабильного интернета
- Хотите быстро прототипировать голосовые интерфейсы
Ищите другие варианты, если:
- Нужен идеальный русский язык (берите Whisper + Coqui)
- Есть мощная видеокарта и можно позволить себе большие модели
- Делаете коммерческий продукт и качество критично
- Нужно клонирование голоса (Pocket-TTS этого не умеет)
О чем молчат документации
Технические характеристики - это одно. Реальная работа - другое.
Проблема №1: Pocket-TTS иногда "глотает" окончания в русском тексте. Особенно если предложение длинное. Фикс: разбивать текст на chunks по 15-20 слов.
Проблема №2: VibeVoice плохо распознает речь с фоновым шумом. Whisper здесь явно лучше. Фикс: использовать внешний микрофон с шумоподавлением или программный noise gate.
Проблема №3: TinyLlama может генерировать странные ответы на русском, даже если была дообучена. Английский стабильнее. Фикс: использовать prompt engineering или взять русскоязычную модель типа Saiga 3B.
Что будет дальше
Тренд 2025 года - модели становятся меньше, а не больше. Потому что edge-устройства (телефоны, IoT, автомобили) не потянут 100B параметров.
Уже анонсированы:
- Pocket-TTS 3.0 с поддержкой эмоций (ожидается в марте 2025)
- VibeVoice-ASR 4.0 с мультиязычным режимом без переключения
- TinyLlama 2B с той же архитектурой, но вдвое больше параметров
Но главное не это. Главное - появляются frameworks, которые упрощают сборку таких пайплайнов. Взгляните на LangChain для голосовых ассистентов или n8n для автоматизации.
Через год собирать локального ассистента будет как устанавливать приложение из магазина. Пока же - придется повозиться с кодом. Но результат того стоит: ваш собственный голосовой помощник, который работает всегда, никуда не отправляет ваши данные и не просит денег за подписку.
А если надоест возиться с кодом - всегда можно вернуться к облачным решениям. Но зачем, если есть open-source?