Забудьте про облака: голосовой ассистент в 500 МБ

Представьте: голосовой помощник, который не отправляет ваши данные в Google, не требует подписки за $20 в месяц и работает даже когда интернет отвалился. Звучит как фантастика? В 2025 году это реальность.

Pocket-TTS и VibeVoice-ASR - два open-source проекта, которые поменяли правила игры. Первый - синтезатор речи размером с mp3-файл. Второй - система распознавания, которая запускается на Raspberry Pi. Вместе они дают то, что раньше было только в мечтах: полностью локальный голосовой пайплайн.

💡

Если вы читали нашу статью про Pocket TTS, то знаете главное: эта модель работает на чем угодно. Но тогда мы не рассказывали, как соединить ее с распознаванием речи. Теперь - рассказываем.

Что за звери такие: Pocket-TTS 2.1 и VibeVoice-ASR 3.0

Начнем с технических деталей, потому что без них непонятно, почему это вообще работает.

Pocket-TTS 2.1 (январь 2025)

Обновление, которое вышло буквально на прошлой неделе. Разработчики не стали гнаться за гигантскими моделями - вместо этого оптимизировали то, что уже работало.

Характеристика	Значение	Что это значит
Размер модели	380 МБ	Поместится на флешке 2005 года
Параметры	98 млн	В 10 раз меньше, чем Coqui XTTS
Задержка на CPU	2.8 сек на 10 сек аудио	Почти реальное время
Поддержка языков	7 языков + русский (эксперимент)	Да, они добавили русский через адаптацию

Новое в версии 2.1:

Поддержка SSML для управления интонацией (раньше было только plain text)
Пакетная обработка до 16 текстов одновременно
Экспорт сразу в MP3 без конвертации через FFmpeg
API на FastAPI вместо Flask (в 3 раза быстрее)

VibeVoice-ASR 3.0 (декабрь 2024)

Если Pocket-TTS - про синтез, то VibeVoice - про распознавание. И это не очередной клон Whisper. Совсем.

Пока все бегали за Whisper Large, команда VibeVoice сделала модель, которая:

Занимает 120 МБ вместо 1.5 ГБ у Whisper Small
Работает в 8 раз быстрее на CPU
Точность для английского: 95.2% против 96.1% у Whisper Base
Но главное - задержка 120 мс вместо 450 мс

Русский язык в VibeVoice пока экспериментальный. Точность около 88% против 94% у Whisper. Но для простых команд типа "включи свет" или "какая погода" - хватает. Если нужен русский для сложных задач - смотрите Whisper или другие модели из нашего обзора.

Собираем пазл: ассистент из трех компонентов

Голосовой ассистент - это не просто TTS + ASR. Между ними должен быть мозг. И вот тут начинается магия (или костыли, смотря как собрать).

Архитектура за 5 минут

Представьте конвейер:

Микрофон → VibeVoice-ASR → текст
Текст → языковая модель → ответ
Ответ → Pocket-TTS → голос
Голос → динамик → вы довольны

Проблема в пункте 2. LLM-модели обычно требуют GPU. Но есть выход.

💡

В статье "Как собрать голосового ассистента на одной видеокарте" мы использовали мощные модели. Здесь подход другой: все должно работать на CPU. Поэтому вместо 7B-параметров берем 1B или даже меньше.

Вариант для слабого железа: TinyLlama 1.1B

TinyLlama - это как ChatGPT, но в кармане. 1.1 миллиарда параметров, работает на CPU с приемлемой скоростью (2-3 секунды на ответ).

Почему именно она:

Quantized версия занимает 650 МБ
Поддерживает инструкции (как ChatGPT)
Генерирует ответ за 5-10 токенов в секунду на Core i5
Есть версия с русской дообучкой

Итого весь стек:

Компонент	Модель	Размер	Задержка
ASR	VibeVoice-ASR 3.0	120 МБ	120 мс
LLM	TinyLlama 1.1B Q4	650 МБ	2-3 сек
TTS	Pocket-TTS 2.1	380 МБ	2.8 сек
Итого	—	~1.15 ГБ	5-6 сек

1.15 ГБ. Это меньше, чем весит одна фотография в RAW с современного телефона. И это весь голосовой ассистент.

Альтернативы: что еще есть на рынке

Pocket-TTS и VibeVoice - не единственные игроки. Просто они самые легкие.

Для TTS

Coqui XTTS v2 - качество выше, но 2.5 ГБ и требует GPU. Русский язык официально поддерживается.
Sonya TTS - быстрая и выразительная, но 850 МБ. Мы писали про нее отдельно.
Piper TTS - легче (200 МБ), но качество хуже. Зато работает даже на Raspberry Pi Zero.

Для ASR

Whisper.cpp - порт Whisper на C++, работает на CPU. Точность выше, но тяжелее (от 500 МБ).
Silero V3 - русская разработка, отлично работает с русским языком. 300 МБ, но только русский/английский.
NVIDIA Parakeet - если есть GPU. 2-3 ГБ VRAM, но качество студийное.

Не путайте локальные TTS для ассистентов и для аудиокниг. Во втором случае нужна долгая речь без артефактов. Для этого лучше подходят модели из нашего сравнения open-source TTS для аудиокниг.

Кому подойдет этот стек

Не всем. И это нормально.

Берите Pocket-TTS + VibeVoice, если:

Нужен ассистент для умного дома на Raspberry Pi
Делаете проект с ограниченным бюджетом (железо или облако)
Требуется полная приватность - данные никуда не уходят
Работаете в местах без стабильного интернета
Хотите быстро прототипировать голосовые интерфейсы

Ищите другие варианты, если:

Нужен идеальный русский язык (берите Whisper + Coqui)
Есть мощная видеокарта и можно позволить себе большие модели
Делаете коммерческий продукт и качество критично
Нужно клонирование голоса (Pocket-TTS этого не умеет)

О чем молчат документации

Технические характеристики - это одно. Реальная работа - другое.

Проблема №1: Pocket-TTS иногда "глотает" окончания в русском тексте. Особенно если предложение длинное. Фикс: разбивать текст на chunks по 15-20 слов.

Проблема №2: VibeVoice плохо распознает речь с фоновым шумом. Whisper здесь явно лучше. Фикс: использовать внешний микрофон с шумоподавлением или программный noise gate.

Проблема №3: TinyLlama может генерировать странные ответы на русском, даже если была дообучена. Английский стабильнее. Фикс: использовать prompt engineering или взять русскоязычную модель типа Saiga 3B.

💡

Самый неочевидный совет: не пытайтесь сделать универсального ассистента. Лучше узкоспециализированного. Например, только для управления умным домом или только для ответов на вопросы по документации. Так вы сможете fine-tune модель под конкретные задачи и получить качество выше.

Что будет дальше

Тренд 2025 года - модели становятся меньше, а не больше. Потому что edge-устройства (телефоны, IoT, автомобили) не потянут 100B параметров.

Уже анонсированы:

Pocket-TTS 3.0 с поддержкой эмоций (ожидается в марте 2025)
VibeVoice-ASR 4.0 с мультиязычным режимом без переключения
TinyLlama 2B с той же архитектурой, но вдвое больше параметров

Но главное не это. Главное - появляются frameworks, которые упрощают сборку таких пайплайнов. Взгляните на LangChain для голосовых ассистентов или n8n для автоматизации.

Через год собирать локального ассистента будет как устанавливать приложение из магазина. Пока же - придется повозиться с кодом. Но результат того стоит: ваш собственный голосовой помощник, который работает всегда, никуда не отправляет ваши данные и не просит денег за подписку.

А если надоест возиться с кодом - всегда можно вернуться к облачным решениям. Но зачем, если есть open-source?

Pocket-TTS и VibeVoice-ASR: ваш локальный голосовой ассистент на минималках