Open ASR Leaderboard: приватные данные против бенчмаксинга

Лидерборды по распознаванию речи давно превратились в арену, где побеждает не самая умная модель, а самая натасканная на публичные тесты. Феномен benchmaxxing — когда разработчики подгоняют свои ASR-системы под конкретные датасеты — дошел до абсурда. Некоторые результаты Word Error Rate (WER) на открытых бенчмарках опускались до десятых долей процента, но в реальных условиях модели сыпались. Потому что учились распознавать сигнал, а не шум жизни.

Суть трюка: собрать побольше данных из того же домена, что и тестовый набор, дообучить модель — и вуаля, ты в топе. Никакой реальной способности обобщать.

Appen и DataoceanAI, два гиганта в сфере аудио-разметки, решили эту ситуацию взломать. Иначе. Вместо бесконечных споров о честности метрик они сделали ход конем — добавили в Open ASR Leaderboard приватные наборы данных. Теперь часть тестовых аудиофайлов заменена на те, что не публиковались никогда и нигде. Ни модель не могла их увидеть на обучении, ни человек не мог под них подкрутить параметры. Об этом мы писали ранее в статье ASR-гонка вооружений: как Appen и DataoceanAI зачищают лидерборды от читеров — там детали по конкретным цифрам.

Как это работает на практике

Раньше разработчики знали: вот LibriSpeech test-clean, вот Common Voice — можно на них выкручивать гиперпараметры до бесконечности. Теперь в лидерборде есть скрытая часть, которая не афишируется. Только когда участник загружает свою модель, она проходит через приватные аудио — и WER выдается уже по совокупности.

Похожая история недавно произошла с LMSys Arena, где топовые модели Opus, Gemini и ChatGPT пропали после пересмотра метрик из-за подозрений в накрутке. Тот же симптом — когда публичные бенчмарки превращаются в полигон для жульничества. Разбор того скандала показывает, что проблема системная: любая публичная метрика убивается соревнованием.

Что теперь? Стало честнее — или появились новые риски

Приватные данные — не панацея. Кто и как собирал эти аудио? Какие акценты, шумы, качество записи? Если один датасет окажется слишком простым или слишком узким, лидерборд снова выродится. Но пока это работает как детектор жульничества: модели, которые просто угадали публичные паттерны, резко теряют позиции.

С другой стороны, для маленьких команд без доступа к коммерческим данным путь на верх закрывается — ведь приватные датасеты Appen и DataoceanAI можно получить только через услуги компаний. Получается новый барьер: плати — и получишь честный результат. Бесплатный cheese умер.

⚡

Бенчмаксинг — это когда модель тренируется не решать задачу, а выигрывать тест. Приватные данные вынуждают вернуться к сути: распознавать настоящий человеческий голос, а не хитрые паттерны.

Еще один нюанс: нормализация текста. Ранее многие команды использовали агрессивные постпроцессинги для снижения WER — удаление хезитаций, сглаживание чисел. На приватных данных такие трюки работают хуже, потому что не знаешь, какие именно нормализации ожидаются. Приходится полагаться на базовый ASR-движок.

В итоге Open ASR Leaderboard стал первым общедоступным бенчмарком, который реально давит читеров. Не через этические кодексы, как это пытается делать Google с Пентагоном (читайте наш разбор этических дилемм), а через инженерное решение: скрыть карты.

Вопрос, насколько долго это останется честным. Если приватные данные протекут — всё вернется на круги своя. Но пока Appen и DataoceanAI держат ключи, индустрия speech recognition получает глоток свежего воздуху. Или свежего шума — смотря как слушать.

Подписаться на канал

Open ASR Leaderboard: как Appen и DataoceanAI объявили войну бенчмаксингу

Как это работает на практике

Что теперь? Стало честнее — или появились новые риски

Подписывайтесь на наш канал!