FFASR Leaderboard: бенчмарк far-field ASR для разработчиков

В мире автоматического распознавания речи (ASR) давно сложилась забавная ситуация: модели показывают нечеловечески низкий WER на чистых записях из LibriSpeech, но стоит запустить их в конференц-зале с гулом кондиционера и эхом от стеклянных стен — и точность падает в разы. FFASR Leaderboard (Far-Field ASR) появился как раз чтобы закрыть этот разрыв между лабораторными успехами и суровой реальностью. Запущенный на платформе Hugging Face совместно с Treble Technologies, этот бенчмарк обещает дать разработчикам не просто цифры, а индикатор того, как модель поведёт себя в дикой природе.

Зачем плодить ещё один лидерборд? Мало нам Open ASR?

Open ASR Leaderboard, про который мы уже писали в контексте борьбы с бенчмаксингом, оценивает модели на синтетических и clean-данных. FFASR же ставит во главу угла far-field условия: расстояние от микрофона, реверберацию, фоновые шумы, множественные источники звука. «Мы устали видеть модели, которые шикарно работают на диктофонной записи, но глохнут в умной колонке», — комментируют создатели.

В основе FFASR лежит эмуляция акустики помещений от Treble Technologies: они моделируют комнаты разного размера, материалы стен, положение микрофонов. Датасет включает 5000+ часов синтезированной речи с наложением realistic reverberation. Никаких чистых семплов — только «грязные» записи, максимально приближенные к тому, что вы получите с USB-микрофона на другом конце стола.

Ключевое отличие: FFASR тестирует модель на задаче far-field speaker-independent — дикторы разные, расстояние от 50 см до 5 метров, уровень реверберации от умеренного (T60=0,3 с) до «подвал» (T60=1,2 с).

Кто лидирует? Сенсаций не ждали, но они случились

На момент 28 июня 2026 года в лидерборде 14 моделей, от гигантов до компактных решений. Первое место неожиданно заняла Apriel v1.6 — та самая «тёмная лошадка» с 15B параметров, которая на чистых бенчмарках была лишь середнячком. На far-field данных её продвинутая обработка реверберации дала WER 8.2%, что на 1.5% ниже, чем у Whisper large-v4 (специализированный far-field чекпойнт).

Второе место у Parakeet-CTC-1.1B от Nvidia — они добавили аугментацию с имитацией микрофонных решёток. Третье — у Whisper large-v4-farfield (OpenAI), но отрыв от лидера почти 2% по WER. В сегменте компактных моделей (под 500M) сюрприз преподнёс Whisper small.en-turbo-v2 — он обошёл medium-v4 за счёт агрессивной компрессии спектрограммы.

Модель	Параметры	WER (FFASR)
Apriel v1.6	15B	8.2%
Parakeet-CTC-1.1B	1.1B	9.1%
Whisper large-v4-farfield	~3B	10.0%
Whisper small.en-turbo-v2	~244M	13.4%

Показательно, что модели, которые доминировали в Open ASR Leaderboard (например, Nemo Canary), в FFASR откатились на 5-6 места — «читерство» на синтетических чистых данных не работает, когда микрофон залипает от громкого разговора рядом.

Методология: как не дать моделям мухлевать

Создатели FFASR пошли дальше простого теста на реверберацию. Они внедрили несколько механизмов, чтобы бенчмарк нельзя было «натренировать»:

Динамическая акустика: для каждого тестового семпла конфигурация комнаты генерируется случайно — модель не может запомнить «отпечаток» реверберации.
Перекрёстное расстояние: диктор говорит с трёх разных позиций, и в расчёт WER идёт среднее по всем трём.
Живой шум: фоновая дорожка не зафиксирована, а выбирается из пула реальных записей офисов, кафе и улиц (лицензия Creative Commons).
Анти-оверфиттинг: публичные веса моделей тестируются анонимно — по аналогии с приватными датасетами Open ASR Leaderboard.

«Мы в Treble специально сделали так, чтобы нельзя было подсунуть аудио, на котором модель обучалась, — это база для любого честного бенчмарка», — объясняет ведущий инженер компании.

Что это значит для разработчика, который собирает голосового ассистента

Если вы встраиваете ASR в умную колонку, конференц-систему или автомобильный интерфейс, FFASR даёт три практических вывода.

Первый: не ведитесь на чистый WER. Модель с 2% ошибок на LibriSpeech может легко давать 25% на расстоянии 2 метра с фан-койлом. Используйте far-field чекпойнты — например, Whisper large-v4-farfield или Apriel v1.6, которые специально дообучались на реверберации. А если хотите разобраться в тонкостях выбора, наша сравнительная статья по Whisper, Parakeet и другим вам в помощь.

Второй: компактные модели могут быть разумным выбором для endpoint-решений. Whisper small.en-turbo-v2 даёт 13.4% WER — для многих сценариев это приемлемо, а задержка в 200 мс на GPU Jetson выигрывает у гигантов. Если вас волнует задержка end-to-end, посмотрите гайд по сборке автосекретаря с субсекундной задержкой.

Третий: готовьтесь к пост-процессингу. Даже лучшим far-field моделям нужен voice activity detection (VAD), адаптивная фильтрация и иногда дополнительный ресемплинг. FFASR не оценивает пайплайн целиком, но показывает «потолок» качества акустики — дальше ваша архитектура.

💡

Совет: если ваша целевая аудитория говорит на русском или китайском, убедитесь, что модель в FFASR тестировалась на этих языках — на данный момент все 14 моделей заточены на английский. Мультиязычные тесты ожидаются в Q3 2026.

Откуда взялся этот бенчмарк и куда движется

FFASR — не первый опыт Treble Technologies в акустической эмуляции. Ранее они предоставляли синтетические датасеты для обучения audio-spatial моделей. Сейчас они объединили усилия с командой Hugging Face, которая отвечает за инфраструктуру лидерборда и валидацию сабмитов. «Мы хотим, чтобы far-field оценка стала стандартом, как когда-то GLUE для NLP», — заявляют на странице проекта.

Уже анонсированы планы на FFASR-v2 (конец 2026): добавят движущиеся источники звука, тесты с beamforming и оценку word-level latency. Если вас бесит, что модель расшифровывает слова с опозданием в секунду — следите за обновлениями. А пока можно почитать, как Open ASR Leaderboard решал проблему data contamination — FFASR перенял многие их практики.

Разработчикам стоит уже сейчас закладывать far-field тесты в свой CI/CD. «Сделать demo на чистом микрофоне — обмануть себя», — резюмирует один из участников лидерборда. FFASR даёт объективный ориентир; дело за малым — выбрать модель и не забыть про акустику помещения.

Подписаться на канал

FFASR Leaderboard: как измеряют реальные способности ASR-моделей в шумных комнатах

Зачем плодить ещё один лидерборд? Мало нам Open ASR?

Кто лидирует? Сенсаций не ждали, но они случились

Методология: как не дать моделям мухлевать

Что это значит для разработчика, который собирает голосового ассистента

Откуда взялся этот бенчмарк и куда движется

Подписывайтесь на наш канал!