Сборка локального голосового ассистента с Pocket-TTS и VibeVoice-ASR 2025 | AiManual
AiManual Logo Ai / Manual.
22 Янв 2026 Инструмент

Pocket-TTS и VibeVoice-ASR: ваш локальный голосовой ассистент на минималках

Пошаговый гайд по созданию полностью локального голосового ассистента на базе Pocket-TTS и VibeVoice-ASR. Работает без интернета и видеокарты.

Забудьте про облака: голосовой ассистент в 500 МБ

Представьте: голосовой помощник, который не отправляет ваши данные в Google, не требует подписки за $20 в месяц и работает даже когда интернет отвалился. Звучит как фантастика? В 2025 году это реальность.

Pocket-TTS и VibeVoice-ASR - два open-source проекта, которые поменяли правила игры. Первый - синтезатор речи размером с mp3-файл. Второй - система распознавания, которая запускается на Raspberry Pi. Вместе они дают то, что раньше было только в мечтах: полностью локальный голосовой пайплайн.

💡
Если вы читали нашу статью про Pocket TTS, то знаете главное: эта модель работает на чем угодно. Но тогда мы не рассказывали, как соединить ее с распознаванием речи. Теперь - рассказываем.

Что за звери такие: Pocket-TTS 2.1 и VibeVoice-ASR 3.0

Начнем с технических деталей, потому что без них непонятно, почему это вообще работает.

Pocket-TTS 2.1 (январь 2025)

Обновление, которое вышло буквально на прошлой неделе. Разработчики не стали гнаться за гигантскими моделями - вместо этого оптимизировали то, что уже работало.

Характеристика Значение Что это значит
Размер модели 380 МБ Поместится на флешке 2005 года
Параметры 98 млн В 10 раз меньше, чем Coqui XTTS
Задержка на CPU 2.8 сек на 10 сек аудио Почти реальное время
Поддержка языков 7 языков + русский (эксперимент) Да, они добавили русский через адаптацию

Новое в версии 2.1:

  • Поддержка SSML для управления интонацией (раньше было только plain text)
  • Пакетная обработка до 16 текстов одновременно
  • Экспорт сразу в MP3 без конвертации через FFmpeg
  • API на FastAPI вместо Flask (в 3 раза быстрее)

VibeVoice-ASR 3.0 (декабрь 2024)

Если Pocket-TTS - про синтез, то VibeVoice - про распознавание. И это не очередной клон Whisper. Совсем.

Пока все бегали за Whisper Large, команда VibeVoice сделала модель, которая:

  • Занимает 120 МБ вместо 1.5 ГБ у Whisper Small
  • Работает в 8 раз быстрее на CPU
  • Точность для английского: 95.2% против 96.1% у Whisper Base
  • Но главное - задержка 120 мс вместо 450 мс

Русский язык в VibeVoice пока экспериментальный. Точность около 88% против 94% у Whisper. Но для простых команд типа "включи свет" или "какая погода" - хватает. Если нужен русский для сложных задач - смотрите Whisper или другие модели из нашего обзора.

Собираем пазл: ассистент из трех компонентов

Голосовой ассистент - это не просто TTS + ASR. Между ними должен быть мозг. И вот тут начинается магия (или костыли, смотря как собрать).

Архитектура за 5 минут

Представьте конвейер:

  1. Микрофон → VibeVoice-ASR → текст
  2. Текст → языковая модель → ответ
  3. Ответ → Pocket-TTS → голос
  4. Голос → динамик → вы довольны

Проблема в пункте 2. LLM-модели обычно требуют GPU. Но есть выход.

💡
В статье "Как собрать голосового ассистента на одной видеокарте" мы использовали мощные модели. Здесь подход другой: все должно работать на CPU. Поэтому вместо 7B-параметров берем 1B или даже меньше.

Вариант для слабого железа: TinyLlama 1.1B

TinyLlama - это как ChatGPT, но в кармане. 1.1 миллиарда параметров, работает на CPU с приемлемой скоростью (2-3 секунды на ответ).

Почему именно она:

  • Quantized версия занимает 650 МБ
  • Поддерживает инструкции (как ChatGPT)
  • Генерирует ответ за 5-10 токенов в секунду на Core i5
  • Есть версия с русской дообучкой

Итого весь стек:

Компонент Модель Размер Задержка
ASR VibeVoice-ASR 3.0 120 МБ 120 мс
LLM TinyLlama 1.1B Q4 650 МБ 2-3 сек
TTS Pocket-TTS 2.1 380 МБ 2.8 сек
Итого ~1.15 ГБ 5-6 сек

1.15 ГБ. Это меньше, чем весит одна фотография в RAW с современного телефона. И это весь голосовой ассистент.

Альтернативы: что еще есть на рынке

Pocket-TTS и VibeVoice - не единственные игроки. Просто они самые легкие.

Для TTS

  • Coqui XTTS v2 - качество выше, но 2.5 ГБ и требует GPU. Русский язык официально поддерживается.
  • Sonya TTS - быстрая и выразительная, но 850 МБ. Мы писали про нее отдельно.
  • Piper TTS - легче (200 МБ), но качество хуже. Зато работает даже на Raspberry Pi Zero.

Для ASR

  • Whisper.cpp - порт Whisper на C++, работает на CPU. Точность выше, но тяжелее (от 500 МБ).
  • Silero V3 - русская разработка, отлично работает с русским языком. 300 МБ, но только русский/английский.
  • NVIDIA Parakeet - если есть GPU. 2-3 ГБ VRAM, но качество студийное.

Не путайте локальные TTS для ассистентов и для аудиокниг. Во втором случае нужна долгая речь без артефактов. Для этого лучше подходят модели из нашего сравнения open-source TTS для аудиокниг.

Кому подойдет этот стек

Не всем. И это нормально.

Берите Pocket-TTS + VibeVoice, если:

  • Нужен ассистент для умного дома на Raspberry Pi
  • Делаете проект с ограниченным бюджетом (железо или облако)
  • Требуется полная приватность - данные никуда не уходят
  • Работаете в местах без стабильного интернета
  • Хотите быстро прототипировать голосовые интерфейсы

Ищите другие варианты, если:

  • Нужен идеальный русский язык (берите Whisper + Coqui)
  • Есть мощная видеокарта и можно позволить себе большие модели
  • Делаете коммерческий продукт и качество критично
  • Нужно клонирование голоса (Pocket-TTS этого не умеет)

О чем молчат документации

Технические характеристики - это одно. Реальная работа - другое.

Проблема №1: Pocket-TTS иногда "глотает" окончания в русском тексте. Особенно если предложение длинное. Фикс: разбивать текст на chunks по 15-20 слов.

Проблема №2: VibeVoice плохо распознает речь с фоновым шумом. Whisper здесь явно лучше. Фикс: использовать внешний микрофон с шумоподавлением или программный noise gate.

Проблема №3: TinyLlama может генерировать странные ответы на русском, даже если была дообучена. Английский стабильнее. Фикс: использовать prompt engineering или взять русскоязычную модель типа Saiga 3B.

💡
Самый неочевидный совет: не пытайтесь сделать универсального ассистента. Лучше узкоспециализированного. Например, только для управления умным домом или только для ответов на вопросы по документации. Так вы сможете fine-tune модель под конкретные задачи и получить качество выше.

Что будет дальше

Тренд 2025 года - модели становятся меньше, а не больше. Потому что edge-устройства (телефоны, IoT, автомобили) не потянут 100B параметров.

Уже анонсированы:

  • Pocket-TTS 3.0 с поддержкой эмоций (ожидается в марте 2025)
  • VibeVoice-ASR 4.0 с мультиязычным режимом без переключения
  • TinyLlama 2B с той же архитектурой, но вдвое больше параметров

Но главное не это. Главное - появляются frameworks, которые упрощают сборку таких пайплайнов. Взгляните на LangChain для голосовых ассистентов или n8n для автоматизации.

Через год собирать локального ассистента будет как устанавливать приложение из магазина. Пока же - придется повозиться с кодом. Но результат того стоит: ваш собственный голосовой помощник, который работает всегда, никуда не отправляет ваши данные и не просит денег за подписку.

А если надоест возиться с кодом - всегда можно вернуться к облачным решениям. Но зачем, если есть open-source?