Зачем еще один транскриптор? Потому что он помнит, кто что сказал

Представьте: у вас еженедельный стендап. Вы транскрибируете его, получаете текст. Но через месяц уже не вспомните, кто из разработчиков предложил ту сумасшедшую фичу. Обычные транскрипторы оставляют вам лишь безликий поток слов. NoobScribe решает это кардинально — он запоминает голоса спикеров и при следующей встрече автоматически подписывает реплики.

💡

На 24.03.2026 актуальная версия использует модель транскрипции Canary-1b-v2 — последнюю на данный момент разработку от NVIDIA, которая справляется с шумным аудио и техническим жаргоном лучше, чем старый добрый Whisper-large-v3. Для диаризации — Pyannote 3.1 с обновленными алгоритмами кластеризации.

Что умеет эта штука на самом деле

NoobScribe — это не просто обертка вокруг Whisper. Это конвейер, который из сырого аудио делает структурированный протокол с именами.

Транскрипция через Canary-1b-v2: Модель от NVIDIA, обученная на разнообразных аудиоданных. Поддерживает несколько языков, но особенно хороша для английского с техническим уклоном.
Диаризация через Pyannote 3.1: Определяет, кто когда говорит. Не идеально, но для встреч с 3-5 участниками работает сносно. Если кто-то постоянно перебивает, могут быть накладки.
Память спикеров на Chroma DB: Вот где магия. Система создает эмбеддинг голоса каждого спикера и сохраняет в векторную базу Chroma. При обработке нового аудио сравнивает эмбеддинги и подписывает реплики сохраненными именами (например, "Иван_разработчик").
Web-интерфейс и Whisper-совместимый API: Загрузил файл — получил результат в браузере. Или можешь стучаться по API, как к обычному Whisper, но получать обогащенные данные.
Docker-развертывание: Запустил один контейнер — и все зависимости сами подтянулись. Главное, чтобы видеокарта была с достаточным объемом памяти.

Требует ресурсов. Для комфортной работы с моделью Canary-1b-v2 желательно иметь GPU с минимум 8 ГБ VRAM. На CPU будет мучительно долго. Если у вас слабое железо, лучше посмотреть на TranscriptionSuite, который оптимизирован для разных конфигураций.

А чем он лучше других локальных решений?

Сравним с тем, что уже есть на рынке open-source инструментов для транскрипции.

Инструмент	Диаризация	Память спикеров	Модель (актуально на 24.03.2026)	Сложность развертывания
NoobScribe	Pyannote 3.1	Да, Chroma DB	Canary-1b-v2	Средняя (Docker)
TranscriptionSuite	Встроенная	Нет	Whisper-large-v3 / другие	Низкая (GUI)
Whisper.cpp + скрипты	Нет или самописная	Нет	Whisper	Высокая

Ключевое отличие NoobScribe — именно в долговременной памяти спикеров. После первой встречи вы вручную подписываете голоса (или он сам предлагает варианты), а дальше система узнает их автоматически. Это похоже на принципы, описанные в статье про агентов с памятью, но примененные к голосовым данным.

Как это запустить, если не терпится попробовать

Разработчики упаковали всё в Docker, что с одной стороны упрощает, а с другой — скрывает подводные камни с производительностью.

1Установите Docker и NVIDIA Container Toolkit

Без поддержки GPU транскрипция будет длиться вечно. Проверьте, что у вас стоит последняя версия драйверов и Docker с поддержкой GPU.

# Проверяем, что Docker видит GPU
docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

2Запустите контейнер NoobScribe

Клонируйте репозиторий и запустите docker-compose. Модели скачаются автоматически при первом запуске (приготовьтесь к 5-10 ГБ загрузки).

git clone https://github.com/username/noobscribe.git
cd noobscribe
docker-compose up -d

Через пару минут WebUI будет доступен на порту 5000. Загрузите аудиофайл (поддерживаются WAV, MP3, даже видео с аудиодорожкой).

3Настройте память спикеров

После первой транскрипции вы попадете в интерфейс, где нужно ассоциировать сегменты с именами. Система сохранит эмбеддинги голосов. При следующей загрузке аудио она предложит использовать известных спикеров.

Эмбеддинги создаются с помощью модели, отличной от транскрипционной. NoobScribe использует ECAPA-TDNN — архитектуру, специально обученную для распознавания говорящего. Это не просто анализ тембра, а более продвинутая техника.

API для интеграции: просто как Whisper, но с дополнениями

Если WebUI вам не нужен, можно работать напрямую через API, совместимый с OpenAI Whisper. Просто замените базовый URL и получите расширенный ответ.

curl -X POST \
  "http://localhost:5000/v1/audio/transcriptions" \
  -H "Authorization: Bearer fake" \
  -F "file=@meeting.wav" \
  -F "model=canary-1b-v2" \
  -F "response_format=verbose_json"

В ответе, помимо текста и временных меток, появится поле speakers с идентификаторами спикеров и их вероятными именами из памяти.

Это позволяет интегрировать NoobScribe в свои пайплайны, например, автоматически обрабатывать записи звонков и складывать расшифровки в базу знаний.

Кому этот инструмент подойдет идеально, а кому — нет

Берите NoobScribe, если:

У вас регулярные встречи с одним и тем же кругом лиц и нужно вести протоколы.
Конфиденциальность данных критична — всё работает локально. Никаких облаков.
У вас есть сервер с приличной GPU (например, RTX 4070 или лучше).
Вы готовы потратить час на первоначальную настройку и обучение системы голосам.

Обойдите стороной, если:

У вас нет GPU или слабый GPU (менее 8 ГБ VRAM). Будет очень медленно.
Вам нужна транскрипция на лету (real-time). NoobScribe пока работает только с записанными файлами.
Вы обрабатываете аудио с десятками спикеров (например, подкасты с гостями). Память может запутаться.
Вы хотите что-то сверхпростое, вроде легковесного диктофона.

Проблемы, с которыми столкнетесь (спойлер: их хватит)

Идея с памятью спикеров — отличная, но реализация в марте 2026 года еще сыровата.

Голос человека может меняться в зависимости от простуды, усталости или эмоций. Эмбеддинги не всегда устойчивы к таким изменениям. Иногда система путает двух спикеров с похожими голосами. Придется корректировать вручную.

Потребление памяти. Chroma DB хранит эмбеддинги для каждого спикера, но если у вас сотни встреч, база может разрастись. Очистка старых данных — пока ручная операция.

И самое главное — NoobScribe не решает проблему коллапса контекста в последующих обработках текста. Вы получите расшифровку с именами, но если вы захотите передать это LLM для суммаризации, вам придется думать о контекстном окне. Тут могут помочь техники из статей про расширение памяти LLM или борьбу с коллапсом контекста.

Что дальше? Прогноз от 24.03.2026

Интеграция NoobScribe с системами памяти для LLM — очевидный следующий шаг. Представьте: транскрипция автоматически попадает в векторное хранилище, как в Mengram, а затем агент на основе Qwen 2.5 или другой модели может отвечать на вопросы о прошедших встречах, помня, кто что предлагал.

Пока же NoobScribe — это мощный, но нишевый инструмент для тех, кто устал вручную подписывать реплики в расшифровках. Он экономит время, если у вас есть железо и терпение. Если нет — возможно, стоит подождать еще пару версий, когда разработчики оптимизируют потребление ресурсов.

А самый неочевидный совет? Используйте NoobScribe для транскрипции не только встреч, но и своих голосовых заметок. Через полгода вы с удивлением обнаружите, как менялись ваши идеи со временем — потому что система помнит, что это были именно ваши записи.

Подписаться на канал

NoobScribe: локальная транскрипция встреч с памятью спикеров на стероидах