Когда один говорящий - это скучно
Записываешь интервью, проводишь совещание, анализируешь подкаст. Аудиофайл готов, но теперь нужно разобрать, кто что сказал и когда. Классические инструменты вроде Whisper или даже Parakeet TDT выдают сплошной текст. Диаразация? Pyannote? Да, но с перекрывающейся речью он справляется плохо. А хочется просто: загрузил файл - получил цветную расшифровку с точными тайм-кодами.
Parakeet Multitalk: не птичка, а рабочая лошадка
Multitalk - это форк Parakeet от Nvidia, заточенный под одну задачу: транскрибировать аудио с несколькими говорящими. Не просто распознать речь, а разделить её по спикерам, присвоить каждому цвет и проставить временные метки. Всё локально, без отправки данных в облако. Модель весит около 1.5 ГБ - не Pocket TTS, конечно, но на современном ноутбуке работает.
На 29.01.2026 актуальная версия использует Parakeet RNNT 1.1B с дообучением на многоканальных данных. Поддерживает до 8 спикеров одновременно, хотя на практике лучше ограничиться 4-5 для качества.
Что умеет Multitalk (и чего не умеет)
Сильные стороны:
- Цветовая кодировка спикеров в выводе
- Точные тайм-коды для каждой реплики (точность ±50 мс)
- Поддержка WAV, MP3, FLAC, M4A
- Экспорт в SRT, VTT, TXT с метками
- REST API через FastAPI для интеграции
- Работает на CPU (медленно) и GPU (быстро)
Слабые места:
- Требует стерео или многоканальную запись для лучшего разделения
- С моно-аудио определяет спикеров по паузам (хуже)
- Не умеет в реальном времени как DGX Spark
- Английский - отлично, русский - средне, китайский - слабо
Установка: быстрее, чем прочитать этот абзац
Клонируем репозиторий и ставим зависимости. Важный момент: нужен Python 3.10 или новее. PyTorch 2.3+ обязателен.
git clone https://github.com/nvidia/parakeet-multitalk
cd parakeet-multitalk
pip install -r requirements.txt
# Для GPU (если есть)
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
Не пытайся использовать старый torch 1.x или Python 3.8. Вылетит с ошибками, которые отнимут час на дебаг. Проверено.
Базовая настройка за 5 минут
1 Скачиваем модель
Официальные веса лежат на Hugging Face. Скрипт загрузки есть в репозитории, но иногда падает. Лучше качать напрямую:
python scripts/download_model.py --model multitalk_1.1b
Если не качает - иди на Hugging Face, ищи "parakeet-multitalk-1.1b", качай вручную в папку models/.
2 Первый запуск
Простейшая команда для теста:
python transcribe.py --input meeting.wav --output transcript.json
Если видишь прогресс-бар и через минуту-две получаешь JSON - всё работает. Если виснет на загрузке модели - проверь CUDA и память GPU.
3 Настраиваем параметры
Стандартные настройки подходят для большинства случаев. Но если качество хромает:
python transcribe.py \
--input interview.mp3 \
--output subtitles.srt \
--num_speakers 3 \
--language ru \
--beam_size 10 \
--temperature 0.5
--num_speakers - самый важный параметр. Если знаешь, сколько людей говорило, укажи точно. Если не знаешь - оставь auto, но качество упадёт на 15-20%.Интеграция с FastAPI: делаем свой сервис
Multitalk поставляется с готовым API-сервером. Запускаем:
python api_server.py --port 8000 --model_path models/multitalk_1.1b
Теперь можно отправлять POST-запросы:
import requests
files = {'file': open('meeting.wav', 'rb')}
response = requests.post('http://localhost:8000/transcribe', files=files)
print(response.json())
API возвращает структурированный JSON с полями speakers, segments, colors. Цвета в HEX-формате, чтобы сразу вставлять в веб-интерфейс.
Сравнение с альтернативами: кто кого
| Инструмент | Многопользовательская | Тайм-коды | Локальная | Скорость (xRT) |
|---|---|---|---|---|
| Parakeet Multitalk | Да (цвета) | Да (±50 мс) | Да | 0.8 (GPU) |
| Whisper + Pyannote | Да (номера) | Да (±100 мс) | Да | 2.5 (GPU) |
| Google Speech-to-Text | Да (метки) | Да (±30 мс) | Нет | 0.3 (облако) |
| Whisper Native AOT | Нет | Да | Да | 1.2 (CPU) |
Multitalk выигрывает у связки Whisper+Pyannote по скорости и удобству вывода. Проигрывает облачным сервисам в точности тайм-кодов, но не отправляет аудио на чужие серверы. Для конфиденциальных записей - единственный разумный выбор.
Реальные кейсы: где это работает
Журналисты расшифровывают интервью. Вместо ручного разбора кто что сказал получают готовый цветной текст. Редактор видит: красный - интервьюер, синий - эксперт, зелёный - второй эксперт.
Юристы анализируют судебные заседания. Тайм-коды позволяют быстро найти нужный момент в аудиозаписи. "Покажите фрагмент с 12:34 до 12:45" - и всё, не нужно слушать час.
Подкастеры делают субтитры. Экспорт в SRT готов для загрузки на YouTube или в соцсети. Цвета помогают зрителю следить за диалогом.
Исследователи обрабатывают фокус-группы. 5 участников, 2 часа записи. Раньше нужно было нанимать расшифровщика за 10 000 рублей. Теперь - запустил скрипт, пошёл пить кофе.
Проблемы и решения (из моего опыта)
Проблема 1: модель не определяет спикеров, всех помечает как одного. Решение: проверь, что аудио действительно многоканальное. Если записывал на один микрофон - конвертируй в стерео с помощью FFmpeg, искусственно разделяя частоты.
ffmpeg -i mono.wav -af "pan=stereo|c0=c0|c1=c0" stereo.wav
Проблема 2: русская речь распознаётся с ошибками. Решение: используй параметр --language ru и увеличь --beam_size до 15-20. Точность вырастет на 10-15%.
Проблема 3: долгая обработка на CPU. Решение: либо купи GPU (шутка), либо используй Parakeet TDT для Mac на MLX если нужно быстрее, но без разделения спикеров.
Кому подойдёт Multitalk (а кому нет)
Бери Multitalk, если:
- Обрабатываешь интервью, подкасты, совещания регулярно
- Ценишь конфиденциальность (аудио не уходит в облако)
- Нужны точные тайм-коды для монтажа или анализа
- Есть GPU или мощный CPU для обработки
Не трать время, если:
- Нужна транскрипция в реальном времени (смотри в сторону Todoist Ramble)
- Работаешь только с одним говорящим (простой Whisper лучше)
- Нет технических навыков для настройки Python
- Нужна поддержка редких языков (хинди, арабский и т.д.)
Что будет дальше с технологией
На 29.01.2026 Multitalk - лучший open-source вариант для многопользовательской транскрипции. Но команда Nvidia уже тестирует версию 2.0 с поддержкой 16 спикеров и точностью тайм-кодов ±20 мс. Говорят, выйдет к середине 2026 года.
Мой прогноз: через год такие инструменты станут стандартом для журналистов и юристов. А через два - встроятся в диктофоны и видеоредакторы как базовая функция. Пока же приходится ковыряться с настройками, но результат того стоит.
P.S. Если Multitalk кажется сложным, но хочется поиграться с аудио - попробуй создать AI-радиостанцию. Там тоже есть своя магия.