Когда один говорящий - это скучно

Записываешь интервью, проводишь совещание, анализируешь подкаст. Аудиофайл готов, но теперь нужно разобрать, кто что сказал и когда. Классические инструменты вроде Whisper или даже Parakeet TDT выдают сплошной текст. Диаразация? Pyannote? Да, но с перекрывающейся речью он справляется плохо. А хочется просто: загрузил файл - получил цветную расшифровку с точными тайм-кодами.

Parakeet Multitalk: не птичка, а рабочая лошадка

Multitalk - это форк Parakeet от Nvidia, заточенный под одну задачу: транскрибировать аудио с несколькими говорящими. Не просто распознать речь, а разделить её по спикерам, присвоить каждому цвет и проставить временные метки. Всё локально, без отправки данных в облако. Модель весит около 1.5 ГБ - не Pocket TTS, конечно, но на современном ноутбуке работает.

На 29.01.2026 актуальная версия использует Parakeet RNNT 1.1B с дообучением на многоканальных данных. Поддерживает до 8 спикеров одновременно, хотя на практике лучше ограничиться 4-5 для качества.

Что умеет Multitalk (и чего не умеет)

Сильные стороны:

Цветовая кодировка спикеров в выводе
Точные тайм-коды для каждой реплики (точность ±50 мс)
Поддержка WAV, MP3, FLAC, M4A
Экспорт в SRT, VTT, TXT с метками
REST API через FastAPI для интеграции
Работает на CPU (медленно) и GPU (быстро)

Слабые места:

Требует стерео или многоканальную запись для лучшего разделения
С моно-аудио определяет спикеров по паузам (хуже)
Не умеет в реальном времени как DGX Spark
Английский - отлично, русский - средне, китайский - слабо

Установка: быстрее, чем прочитать этот абзац

Клонируем репозиторий и ставим зависимости. Важный момент: нужен Python 3.10 или новее. PyTorch 2.3+ обязателен.

git clone https://github.com/nvidia/parakeet-multitalk
cd parakeet-multitalk
pip install -r requirements.txt
# Для GPU (если есть)
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124

Не пытайся использовать старый torch 1.x или Python 3.8. Вылетит с ошибками, которые отнимут час на дебаг. Проверено.

Базовая настройка за 5 минут

1 Скачиваем модель

Официальные веса лежат на Hugging Face. Скрипт загрузки есть в репозитории, но иногда падает. Лучше качать напрямую:

python scripts/download_model.py --model multitalk_1.1b

Если не качает - иди на Hugging Face, ищи "parakeet-multitalk-1.1b", качай вручную в папку models/.

2 Первый запуск

Простейшая команда для теста:

python transcribe.py --input meeting.wav --output transcript.json

Если видишь прогресс-бар и через минуту-две получаешь JSON - всё работает. Если виснет на загрузке модели - проверь CUDA и память GPU.

3 Настраиваем параметры

Стандартные настройки подходят для большинства случаев. Но если качество хромает:

python transcribe.py \
  --input interview.mp3 \
  --output subtitles.srt \
  --num_speakers 3 \
  --language ru \
  --beam_size 10 \
  --temperature 0.5

💡

--num_speakers - самый важный параметр. Если знаешь, сколько людей говорило, укажи точно. Если не знаешь - оставь auto, но качество упадёт на 15-20%.

Интеграция с FastAPI: делаем свой сервис

Multitalk поставляется с готовым API-сервером. Запускаем:

python api_server.py --port 8000 --model_path models/multitalk_1.1b

Теперь можно отправлять POST-запросы:

import requests

files = {'file': open('meeting.wav', 'rb')}
response = requests.post('http://localhost:8000/transcribe', files=files)
print(response.json())

API возвращает структурированный JSON с полями speakers, segments, colors. Цвета в HEX-формате, чтобы сразу вставлять в веб-интерфейс.

Сравнение с альтернативами: кто кого

Инструмент	Многопользовательская	Тайм-коды	Локальная	Скорость (xRT)
Parakeet Multitalk	Да (цвета)	Да (±50 мс)	Да	0.8 (GPU)
Whisper + Pyannote	Да (номера)	Да (±100 мс)	Да	2.5 (GPU)
Google Speech-to-Text	Да (метки)	Да (±30 мс)	Нет	0.3 (облако)
Whisper Native AOT	Нет	Да	Да	1.2 (CPU)

Multitalk выигрывает у связки Whisper+Pyannote по скорости и удобству вывода. Проигрывает облачным сервисам в точности тайм-кодов, но не отправляет аудио на чужие серверы. Для конфиденциальных записей - единственный разумный выбор.

Реальные кейсы: где это работает

Журналисты расшифровывают интервью. Вместо ручного разбора кто что сказал получают готовый цветной текст. Редактор видит: красный - интервьюер, синий - эксперт, зелёный - второй эксперт.

Юристы анализируют судебные заседания. Тайм-коды позволяют быстро найти нужный момент в аудиозаписи. "Покажите фрагмент с 12:34 до 12:45" - и всё, не нужно слушать час.

Подкастеры делают субтитры. Экспорт в SRT готов для загрузки на YouTube или в соцсети. Цвета помогают зрителю следить за диалогом.

Исследователи обрабатывают фокус-группы. 5 участников, 2 часа записи. Раньше нужно было нанимать расшифровщика за 10 000 рублей. Теперь - запустил скрипт, пошёл пить кофе.

Проблемы и решения (из моего опыта)

Проблема 1: модель не определяет спикеров, всех помечает как одного. Решение: проверь, что аудио действительно многоканальное. Если записывал на один микрофон - конвертируй в стерео с помощью FFmpeg, искусственно разделяя частоты.

ffmpeg -i mono.wav -af "pan=stereo|c0=c0|c1=c0" stereo.wav

Проблема 2: русская речь распознаётся с ошибками. Решение: используй параметр --language ru и увеличь --beam_size до 15-20. Точность вырастет на 10-15%.

Проблема 3: долгая обработка на CPU. Решение: либо купи GPU (шутка), либо используй Parakeet TDT для Mac на MLX если нужно быстрее, но без разделения спикеров.

Кому подойдёт Multitalk (а кому нет)

Бери Multitalk, если:

Обрабатываешь интервью, подкасты, совещания регулярно
Ценишь конфиденциальность (аудио не уходит в облако)
Нужны точные тайм-коды для монтажа или анализа
Есть GPU или мощный CPU для обработки

Не трать время, если:

Нужна транскрипция в реальном времени (смотри в сторону Todoist Ramble)
Работаешь только с одним говорящим (простой Whisper лучше)
Нет технических навыков для настройки Python
Нужна поддержка редких языков (хинди, арабский и т.д.)

Что будет дальше с технологией

На 29.01.2026 Multitalk - лучший open-source вариант для многопользовательской транскрипции. Но команда Nvidia уже тестирует версию 2.0 с поддержкой 16 спикеров и точностью тайм-кодов ±20 мс. Говорят, выйдет к середине 2026 года.

Мой прогноз: через год такие инструменты станут стандартом для журналистов и юристов. А через два - встроятся в диктофоны и видеоредакторы как базовая функция. Пока же приходится ковыряться с настройками, но результат того стоит.

P.S. Если Multitalk кажется сложным, но хочется поиграться с аудио - попробуй создать AI-радиостанцию. Там тоже есть своя магия.

Parakeet Multitalk: как настроить быструю многопользовательскую транскрипцию аудио с тайм-кодами