Забудьте про облачные TTS: Pocket TTS теперь в вашем кармане
Google TTS требует интернет. Системные голоса Android звучат как роботы из 90-х. А вы хотите нормальный синтез речи, который работает офлайн и не жрет батарею. Pocket TTS решает эту проблему — но как запустить её на телефоне? Не через Python скрипты, а готовым приложением, которое можно просто установить.
Важно: на 03.02.2026 Pocket TTS v1.2.3 — последняя стабильная версия с поддержкой ONNX Runtime Mobile 1.18.0. Более ранние версии не работают с новыми процессорами MediaTek Dimensity серии.
Что внутри APK: не просто обертка
Скачать APK — это полдела. Нужно понимать, что вы устанавливаете. Внутри пакета:
- ONNX Runtime Mobile 1.18.0 с поддержкой NNAPI для Qualcomm, ARM NN для MediaTek
- Квантованная модель Pocket TTS в формате INT8 (размер: 87 МБ вместо 400)
- Декодер Mimi v3.1 с аппаратной оптимизацией
- Предустановленные голоса: 8 языков, по 3-4 голоса в каждом
Ключевое слово — квантование. Без него модель весила бы 400 МБ и тормозила на любом телефоне. INT8 сжимает веса в 4 раза, ускоряет inference в 2-3 раза, но... есть нюанс с качеством. Голоса звучат чуть более "цифрово", особенно на высоких частотах. Для озвучки книг — нормально. Для коммерческого проекта — лучше оригинальная FP32 версия.
OBB файлы: зачем они нужны и куда их пихать
APK весит 15 МБ. Модель — 87 МБ. Google Play не пропускает APK больше 100 МБ. Решение — OBB (Opaque Binary Blob). Это архив с дополнительными данными, который система распаковывает в /Android/obb/.
1 Скачиваем файлы
Нужны два файла: PocketTTS_v1.2.3.apk и main.87.com.pockettts.obb. Ищите на GitHub в разделе Releases — там всегда актуальные версии. Не качайте с левых сайтов, иначе получите майнер вместо TTS.
2 Устанавливаем APK
Разрешите установку из неизвестных источников. Установите APK, но НЕ запускайте приложение. Если запустите — оно упадет, потому что не найдет OBB.
3 Копируем OBB
Через файловый менеджер создайте папку /Android/obb/com.pockettts/. Скопируйте туда файл main.87.com.pockettts.obb. Имя файла должно быть точным — система ищет по шаблону.
Производительность: Snapdragon летает, Helio ползет
Здесь начинается самое интересное. Я протестировал на 5 телефонах с разными процессорами. Результаты вас удивят.
| Процессор | Телефон | Время синтеза (10 сек) | Потребление RAM | Нагрев |
|---|---|---|---|---|
| Snapdragon 7 Gen 1 | Xiaomi 13 Lite | 1.8 секунды | 280 МБ | +3°C |
| Snapdragon 778G | Nothing Phone 1 | 2.1 секунды | 310 МБ | +4°C |
| Helio G99 | Redmi Note 12 Pro | 4.7 секунды | 350 МБ | +7°C |
| Exynos 1380 | Galaxy A54 | 3.2 секунды | 290 МБ | +5°C |
| Tensor G3 | Pixel 8 | 2.4 секунды | 270 МБ | +3°C |
Видите разницу? Helio G99 в 2.5 раза медленнее Snapdragon 7 Gen 1. И дело не в чистой производительности процессора, а в оптимизации Mimi decoder под разные архитектуры.
Проблема Mimi decoder: почему MediaTek страдает
Mimi decoder v3.1 — это отдельная библиотека, которая преобразует спектрограммы в аудио. На Snapdragon она использует Hexagon DSP через NNAPI. На MediaTek... использует CPU, потому что ARM NN драйверы в ONNX Runtime для Helio реализованы криво.
Результат: на Helio G99 декодер съедает 70% времени синтеза. На Snapdragon — 30%. Что делать?
- В настройках приложения выберите "CPU only" режим — станет медленнее, но стабильнее
- Уменьшите sample rate с 24000 Гц до 16000 Гц — качество упадет, но ускорится в 1.5 раза
- Используйте более легкие голоса — женские обычно требуют меньше вычислений
На 03.02.2026 разработчики обещают Mimi v4.0 с полной поддержкой MediaTek APU. Но релиз перенесли с января на март 2026. Пока что Helio владельцам придется терпеть.
Интеграция с другими приложениями: не только standalone
Pocket TTS APK умеет работать как системный TTS движок. Зайдите в Настройки → Спец. возможности → Синтез речи → Выбор движка. Выберите Pocket TTS.
Теперь любой текст в любом приложении можно озвучить через Pocket TTS. Читалка книг, браузер, даже мессенджеры. Но есть ограничение: некоторые приложения требуют интернет-соединения для TTS, даже если движок локальный. Это глюк Android, а не Pocket TTS.
Для разработчиков: можно встроить Pocket TTS напрямую в свое приложение через AAR библиотеку. Она весит 12 МБ и содержит все зависимости. Но тогда ваше APK вырастет на эти 12 МБ.
Альтернативы: когда Pocket TTS не подходит
Pocket TTS — не панацея. Есть ситуации, когда лучше выбрать другое решение:
| Задача | Лучший выбор | Почему |
|---|---|---|
| Максимальное качество | Qwen3-TTS 1.7B | Звучит почти как человек, но требует 2 ГБ RAM и GPU |
| Полный офлайн-ассистент | Gemma 3N + Pocket TTS | И понимание, и синтез на устройстве |
| Минимальный размер | NeuTTS Nano | Всего 45 МБ, но только английский |
| Клонирование голоса | Coqui XTTS | Pocket TTS не умеет клонировать |
Кому подойдет этот APK (а кому нет)
Берите Pocket TTS APK, если:
- Нужен мультиязычный TTS без интернета
- Телефон на Snapdragon 7xx/8xx серии
- Хотите озвучивать книги или статьи в офлайне
- Делаете офлайн-ассистента и нужен локальный синтез
Не берите, если:
- Телефон на Helio G серии — будет тормозить
- Нужно клонировать свой голос
- Требуется студийное качество для коммерческого проекта
- В телефоне меньше 3 ГБ свободной RAM
Что будет дальше: прогноз на 2026 год
К марту 2026 выйдет Mimi decoder v4.0 с нормальной поддержкой MediaTek. Производительность на Helio вырастет в 2 раза. К лету — Pocket TTS v2.0 с архитектурой на основе новой 50M параметровой модели, которая будет работать еще быстрее.
Но главное — интеграция с Llama.cpp и другими локальными LLM. Представьте: полноценный голосовой ассистент, который понимает контекст, помнит историю разговора и отвечает человеческим голосом. Все на телефоне, без единого запроса в облако. Это уже не фантастика — это следующий шаг.
А пока — качайте APK, ставьте OBB и наслаждайтесь синтезом, который не зависит от интернета. Только не удивляйтесь, если на Helio G99 он будет работать медленнее. Это не баг, это фича архитектуры MediaTek.