Можно ли транскрибировать русскую речь с помощью Kinoscriber?

Нет. Parakeet 2.3 обучен только на английском. Для русского языка потребуются другие инструменты, например, Reko с моделями Whisper.

Почему Kinoscriber не определяет разных говорящих (диаразация)?

Kinoscriber использует SileroVAD только для обнаружения речи, но не для различения голосов. Для диаразации необходимы специализированные модели, которые слишком тяжелы для браузерного выполнения.

Как интегрировать Kinoscriber в автоматический пайплайн обработки видео?

Kinoscriber предназначен для ручной работы через веб-интерфейс. Для автоматизации рекомендуется использовать Parakeet напрямую через Python API или искать CLI-версии.

Kinoscriber - локальная транскрибация видео Parakeet в браузере | Обзор 2026

Зачем еще один инструмент для субтитров, если есть Whisper?

Потому что Whisper.cpp, при всей его мощи, все еще требует скачивания моделей по 2-3 гигабайта и запуска отдельного приложения. А облачные сервисы вроде Rev или Sonix отправляют ваши данные бог знает куда. Kinoscriber работает прямо в браузере - загрузил видео, выбрал модель Parakeet, получил субтитры. Никаких серверов, никаких API-ключей, никаких утечек приватных переговоров.

На 25.01.2026 актуальная версия Parakeet - 2.3. Именно ее модели использует Kinoscriber. Если вы найдете старые гайды про Parakeet 1.0 - смело игнорируйте, там другой API и хуже точность.

Что такое Kinoscriber и почему он не похож на все остальное

Kinoscriber - это чистый JavaScript, который запускает нейросети прямо в вашем браузере через WebAssembly. Когда вы загружаете видео, приложение:

Извлекает аудиодорожку с помощью Web Audio API
Обнаруживает речь через SileroVAD (да, тот самый, что мы использовали в диаразации)
Разрезает аудио на сегменты, где есть речь
Каждый сегмент отправляет в выбранную модель Parakeet
Собирает текст обратно в субтитры с таймкодами

Весь процесс происходит на вашем компьютере. Даже если вы закроете вкладку - ничего никуда не улетело.

Паракееты бывают разные: какую модель выбрать для своей задачи

Здесь начинается самое интересное. Kinoscriber поддерживает четыре модели из семейства Parakeet 2.3, и каждая решает разные проблемы:

Модель	Размер	Скорость (отн.)	Когда использовать	Точность (WER*)
parakeet-rnnt-1.1b	1.1 ГБ	1x	Высокая точность, можно ждать	4.8%
parakeet-ctc-0.6b	600 МБ	2.3x	Баланс скорости и качества	5.2%
parakeet-ctc-0.1b	100 МБ	5x	Быстрая расшифровка встреч	7.1%
parakeet-ctc-0.05b	50 МБ	8x	Мобильные устройства, слабые ПК	9.3%

*WER (Word Error Rate) - процент ошибочных слов. Измерения на тестовом наборе LibriSpeech, актуально на январь 2026.

💡

RNNT (RNN-Transducer) модели точнее, но медленнее. CTC (Connectionist Temporal Classification) - быстрее, но могут пропускать короткие слова. Для интервью берите CTC-0.6b, для научных лекций с сложной терминологией - RNNT-1.1b.

Запускаем Kinoscriber за 5 минут: пошаговый разбор

1 Ставим Node.js и клонируем репозиторий

В теории все просто: git clone и npm install. На практике Node.js 22+ может конфликтовать со старыми пакетами. Если видите ошибку с ESM модулями - делайте так:

# Не делайте так - упадет с ошибкой про require()
git clone https://github.com/kinoscriber/kinoscriber.git
cd kinoscriber
npm install

# Делайте так - явно указываем флаг экспериментальных модулей
export NODE_OPTIONS="--experimental-modules --experimental-json-modules"
npm install --force

2 Качаем модели Parakeet 2.3

Здесь Kinoscriber немного бесит - модели не скачиваются автоматически. Нужно вручную зайти в public/models/ и скачать хотя бы одну модель. Самый быстрый вариант:

cd public/models/
# Для большинства задач хватит этой модели
wget https://huggingface.co/nvidia/parakeet-ctc-0.6b/resolve/main/model.onnx
wget https://huggingface.co/nvidia/parakeet-ctc-0.6b/resolve/main/config.json

Файлы ONNX весят много, поэтому перед скачиванием решите, какая модель вам нужна (см. таблицу выше). Если планируете использовать несколько моделей - приготовьте 2-3 гигабайта свободного места.

3 Запускаем сервер и работаем с интерфейсом

npm run dev

Открываем http://localhost:3000. Интерфейс минималистичный: слева загрузка видео, справа настройки. Важные моменты:

VAD Threshold - порог обнаружения речи. По умолчанию 0.5. Если модель пропускает паузы между словами - уменьшайте до 0.3. Если ловит шумы как речь - увеличивайте до 0.7
Chunk Size - размер сегментов в секундах. Не трогайте, если не понимаете, как работает перекрытие сегментов
Language - только английский. Parakeet 2.3 не поддерживает другие языки, в отличие от мультимодальных моделей

Тестирование на реальных видео: где Parakeet спотыкается

Я взял три типа контента и прогнал через все четыре модели:

Тип видео	Длительность	Лучшая модель	Время обработки	Проблемы
Технический подкаст (2 человека)	45 мин	parakeet-rnnt-1.1b	12 мин	Путала аббревиатуры (GPT-4 → "GP T4")
Лекция по математике	30 мин	parakeet-ctc-0.6b	4 мин	Формулы превращала в слова ("∂f/∂x" → "df dx")
Запись встречи (плохой микрофон)	20 мин	parakeet-ctc-0.1b	1.5 мин	Пропускала тихие слова, но скорость впечатляла

Вывод: для идеальных результатов придется редактировать субтитры вручную. Но как первый проход - Kinoscriber справляется на 85-90%. Для сравнения, Whisper.cpp дает 92-95% точности, но требует больше ресурсов.

Ошибки, которые сломают ваш день (и как их избежать)

Ошибка: «Failed to load model» после загрузки видео. Причина: Вы скачали модель не той версии. Parakeet 2.3 требует ONNX файлы с определенной структурой. Старые модели Parakeet 1.x не работают. Решение: Удалите все из public/models/ и скачайте заново с официального Hugging Face репозитория NVIDIA.

Ошибка: Браузер падает при обработке видео длиннее 10 минут. Причина: Нехватка памяти WebAssembly. Kinoscriber хранит все сегменты в оперативке. Решение: Режьте видео на части по 5-7 минут или используйте модель поменьше (ctc-0.1b вместо rnnt-1.1b).

Ошибка: Субтитры появляются с задержкой в 2-3 секунды. Причина: SileroVAD слишком агрессивно настроен. Решение: Понизьте VAD Threshold до 0.3 и увеличьте Chunk Size до 5 секунд.

FAQ: вопросы, которые вы зададите через час использования

Можно ли транскрибировать русскую речь?

Нет. Parakeet 2.3 обучен только на английском. Для русского лучше использовать Reko с моделями Whisper, но там нужен будет сервер.

Почему Kinoscriber не определяет говорящих (диаразация)?

Потому что SileroVAD только находит речь, но не различает голоса. Для диаразации нужны отдельные модели вроде PyAnnote, но они слишком тяжелы для браузера. Если нужно разделить спикеров - смотрите нашу статью про диаразацию.

Как интегрировать Kinoscriber в автоматический пайплайн?

Никак. Это веб-интерфейс для ручной работы. Для автоматизации лучше использовать Parakeet напрямую через Python API или искать CLI-версии. Но тогда потеряете преимущество браузерного интерфейса.

Что делать, если нужны субтитры в формате SRT для монтажа?

Kinoscriber экспортирует только в текстовый формат с таймкодами. Для SRT конвертации используйте Ray AI Media Player или любой онлайн-конвертер.

Итог: кому подойдет Kinoscriber в 2026 году

Если вы делаете субтитры для английских видео раз в неделю и цените приватность - Kinoscriber идеален. Модель ctc-0.6b обработает часовой ролик за 5-8 минут на среднем ноутбуке.

Если вам нужна промышленная обработка сотен часов или поддержка multiple языков - смотрите в сторону Rewind-cli или облачных решений.

Главное преимущество Kinoscriber - он работает там, где нет интернета. В поезде, в самолете, в удаленном офисе с плохим соединением. Загрузили модели один раз - и забыли про зависимость от облаков.

А еще он бесплатный. Что, в эпоху подписок по $20 в месяц, уже звучит как анахронизм.

Kinoscriber: как транскрибировать видео локально без интернета и платных подписок