В мире автоматического распознавания речи (ASR) давно сложилась забавная ситуация: модели показывают нечеловечески низкий WER на чистых записях из LibriSpeech, но стоит запустить их в конференц-зале с гулом кондиционера и эхом от стеклянных стен — и точность падает в разы. FFASR Leaderboard (Far-Field ASR) появился как раз чтобы закрыть этот разрыв между лабораторными успехами и суровой реальностью. Запущенный на платформе Hugging Face совместно с Treble Technologies, этот бенчмарк обещает дать разработчикам не просто цифры, а индикатор того, как модель поведёт себя в дикой природе.
Зачем плодить ещё один лидерборд? Мало нам Open ASR?
Open ASR Leaderboard, про который мы уже писали в контексте борьбы с бенчмаксингом, оценивает модели на синтетических и clean-данных. FFASR же ставит во главу угла far-field условия: расстояние от микрофона, реверберацию, фоновые шумы, множественные источники звука. «Мы устали видеть модели, которые шикарно работают на диктофонной записи, но глохнут в умной колонке», — комментируют создатели.
В основе FFASR лежит эмуляция акустики помещений от Treble Technologies: они моделируют комнаты разного размера, материалы стен, положение микрофонов. Датасет включает 5000+ часов синтезированной речи с наложением realistic reverberation. Никаких чистых семплов — только «грязные» записи, максимально приближенные к тому, что вы получите с USB-микрофона на другом конце стола.
Ключевое отличие: FFASR тестирует модель на задаче far-field speaker-independent — дикторы разные, расстояние от 50 см до 5 метров, уровень реверберации от умеренного (T60=0,3 с) до «подвал» (T60=1,2 с).
Кто лидирует? Сенсаций не ждали, но они случились
На момент 28 июня 2026 года в лидерборде 14 моделей, от гигантов до компактных решений. Первое место неожиданно заняла Apriel v1.6 — та самая «тёмная лошадка» с 15B параметров, которая на чистых бенчмарках была лишь середнячком. На far-field данных её продвинутая обработка реверберации дала WER 8.2%, что на 1.5% ниже, чем у Whisper large-v4 (специализированный far-field чекпойнт).
Второе место у Parakeet-CTC-1.1B от Nvidia — они добавили аугментацию с имитацией микрофонных решёток. Третье — у Whisper large-v4-farfield (OpenAI), но отрыв от лидера почти 2% по WER. В сегменте компактных моделей (под 500M) сюрприз преподнёс Whisper small.en-turbo-v2 — он обошёл medium-v4 за счёт агрессивной компрессии спектрограммы.
| Модель | Параметры | WER (FFASR) |
|---|---|---|
| Apriel v1.6 | 15B | 8.2% |
| Parakeet-CTC-1.1B | 1.1B | 9.1% |
| Whisper large-v4-farfield | ~3B | 10.0% |
| Whisper small.en-turbo-v2 | ~244M | 13.4% |
Показательно, что модели, которые доминировали в Open ASR Leaderboard (например, Nemo Canary), в FFASR откатились на 5-6 места — «читерство» на синтетических чистых данных не работает, когда микрофон залипает от громкого разговора рядом.
Методология: как не дать моделям мухлевать
Создатели FFASR пошли дальше простого теста на реверберацию. Они внедрили несколько механизмов, чтобы бенчмарк нельзя было «натренировать»:
- Динамическая акустика: для каждого тестового семпла конфигурация комнаты генерируется случайно — модель не может запомнить «отпечаток» реверберации.
- Перекрёстное расстояние: диктор говорит с трёх разных позиций, и в расчёт WER идёт среднее по всем трём.
- Живой шум: фоновая дорожка не зафиксирована, а выбирается из пула реальных записей офисов, кафе и улиц (лицензия Creative Commons).
- Анти-оверфиттинг: публичные веса моделей тестируются анонимно — по аналогии с приватными датасетами Open ASR Leaderboard.
«Мы в Treble специально сделали так, чтобы нельзя было подсунуть аудио, на котором модель обучалась, — это база для любого честного бенчмарка», — объясняет ведущий инженер компании.
Что это значит для разработчика, который собирает голосового ассистента
Если вы встраиваете ASR в умную колонку, конференц-систему или автомобильный интерфейс, FFASR даёт три практических вывода.
Первый: не ведитесь на чистый WER. Модель с 2% ошибок на LibriSpeech может легко давать 25% на расстоянии 2 метра с фан-койлом. Используйте far-field чекпойнты — например, Whisper large-v4-farfield или Apriel v1.6, которые специально дообучались на реверберации. А если хотите разобраться в тонкостях выбора, наша сравнительная статья по Whisper, Parakeet и другим вам в помощь.
Второй: компактные модели могут быть разумным выбором для endpoint-решений. Whisper small.en-turbo-v2 даёт 13.4% WER — для многих сценариев это приемлемо, а задержка в 200 мс на GPU Jetson выигрывает у гигантов. Если вас волнует задержка end-to-end, посмотрите гайд по сборке автосекретаря с субсекундной задержкой.
Третий: готовьтесь к пост-процессингу. Даже лучшим far-field моделям нужен voice activity detection (VAD), адаптивная фильтрация и иногда дополнительный ресемплинг. FFASR не оценивает пайплайн целиком, но показывает «потолок» качества акустики — дальше ваша архитектура.
Откуда взялся этот бенчмарк и куда движется
FFASR — не первый опыт Treble Technologies в акустической эмуляции. Ранее они предоставляли синтетические датасеты для обучения audio-spatial моделей. Сейчас они объединили усилия с командой Hugging Face, которая отвечает за инфраструктуру лидерборда и валидацию сабмитов. «Мы хотим, чтобы far-field оценка стала стандартом, как когда-то GLUE для NLP», — заявляют на странице проекта.
Уже анонсированы планы на FFASR-v2 (конец 2026): добавят движущиеся источники звука, тесты с beamforming и оценку word-level latency. Если вас бесит, что модель расшифровывает слова с опозданием в секунду — следите за обновлениями. А пока можно почитать, как Open ASR Leaderboard решал проблему data contamination — FFASR перенял многие их практики.
Разработчикам стоит уже сейчас закладывать far-field тесты в свой CI/CD. «Сделать demo на чистом микрофоне — обмануть себя», — резюмирует один из участников лидерборда. FFASR даёт объективный ориентир; дело за малым — выбрать модель и не забыть про акустику помещения.