Автоматические метрики перевода обманчивы: TranslateGemma-12b — 71% сегментов плохи

Красивые цифры, уродливый перевод

Вы запустили TranslateGemma-12b, посмотрели на число 0.78 по BLEU и подумали: «Отлично, можно ставить в прод». Остановитесь. Спойлер: метрики вам соврали. В ходе недавнего эксперимента группа разработчиков местных LLM протестировала модель перевода от Google на датасете субтитров. Автоматические бенчмарки показали 92% «чистых» сегментов. Человек-оценщик перечеркнул 71% из них — признал непригодными для публикации. Тот самый случай, когда статистика красивая, а результат — боль.

Почему так произошло? Потому что автоматические метрики (BLEU, COMET, chrF) заточены на поверхностное сходство с эталоном. Они не видят контекст, не чувствуют идиомы, игнорируют стиль. И когда модель выдает осмысленный, но неадекватный ситуации текст — метрика ставит плюс, а человек-лингвист минусует. Пример с идиомами особенно показателен: модель перевела «it's raining cats and dogs» как «идут кошки и собаки» — BLEU дал 0.89 за счёт совпадения слов, хотя смысл потерян.

Что именно тестировали и как

Взяли TranslateGemma-12b (последняя версия на май 2026), скармливали ей 500 сегментов английских субтитров из фильмов и сериалов. Для сравнения гоняли ту же выборку через два коммерческих API: GPT-5 и Google Translate с нейронкой Gemini. Автоматические метрики замерили тремя способами: BLEU-n (n=4), COMET-22 (нейросетевая метрика на основе XLM-R) и COMETKiwi (без эталонов, только source и гипотеза).

Метрика	TranslateGemma-12b	GPT-5	Google Translate (Gemini)
BLEU-4	0.72	0.81	0.78
COMET-22	0.89	0.93	0.91
COMETKiwi	0.86	0.90	0.88

Цифры у TranslateGemma-12b — не позор, но ниже конкурентов. Однако хитрость в другом: когда из 500 сегментов отобрали те, что все три метрики оценили как «чистые» (выше порога 0.8), получили 210 сегментов. Их отдали на оценку двум профессиональным переводчикам. Результат: только 60 сегментов (29%) сочли годными для субтитров. Остальные 71% — брак. При этом среднее качество плохих сегментов по BLEU составляло 0.85! Модель накручивала метрику за счёт буквальных совпадений, но люди видели потерю смысла.

Почему метрики так слепы

BLEU считает совпадение n-грамм. Если в гипотезе и референсе одинаковый набор слов, но разный порядок — балл упадёт. Зато если порядок идеальный, но смысл другой — балл высокий. Классика: «он пошел в магазин» vs «он пошел в тюрьму» — BLEU не заметит разницу, если слова похожи. COMET умнее: он обучается на человеческих оценках, но всё равно «не понимает» тонких смыслов. В эксперименте нашлась пара: оригинал «I'm literally dying of laughter» — эталон «Я умираю со смеху». TranslateGemma выдала «Я буквально умираю от смеха». Формально слова совпали, COMET дал 0.92. Но для субтитров такой буквализм режет глаз — теряется разговорная естественность.

Проблема усугубляется, когда мы говорим о редких парах языков или сленге. Недавний анализ синтеза данных для Hinglish показал, что метрики могут быть вообще бесполезны при оценке смешанных языков. BLEU там показал 0.69, хотя реальное качество было выше — просто из-за разных написаний хинди латиницей.

Кого спасает TranslateGemma-12b, а кого — нет

TranslateGemma-12b — легкая модель (12 млрд параметров), её можно запустить локально. Это плюс: именно с неё начинают локальные энтузиасты. На технических текстах или формальных регламентах модель работает прилично — там меньше разговорных оборотов. Беда именно с субтитрами, блогами, диалогами. В SEO-переводах ситуация немного другая: там важна ключевая плотность, и модель может жертвовать естественностью ради вбивания ключей. Но метрики это не оценят.

Ирония: разработчики TranslateGemma гордятся, что модель обучалась на синтезированных данных. Как и в случае с парадоксом fine-tuning, качество зависит не от объёма, а от репрезентативности. Если обучать на формальных парах, модель не научится разговорному стилю — метрики не помогут.

Что делать вместо прямых рук

Во-первых, не верить одной метрике. Используйте пару: BLEU для грубой оценки + COMETKiwi для ранжирования. Но главное — краудсорс человеческой оценки. Есть проекты, где волонтёры оценивают переводы по шкале от 1 до 5. Или запустите UI-интерфейс TranslateGemma и дайте людям быстро просматривать результаты.

Во-вторых, стоит настраивать модель под конкретный домен. Пример настройки Qwen 3.5 27B под китайские субтитры показал: после дообучения на 10% релевантных данных BLEU вырос на 15 пунктов, а доля «хороших» по человеческой оценке — с 30% до 82%. То есть метрика и человек пошли в одну сторону, когда модель учили на правильных примерах.

В-третьих, в спорных случаях привлекайте профессиональных редакторов. Научное сравнение ChatGPT и человека подтверждает: ИИ выигрывает на простых текстах, но на сложных — с идиомами, каламбурами, культурными отсылками — человек вне конкуренции. Не экономьте на редактуре, если переводите контент, который увидят люди.

💡

Кстати, TranslateGemma-12b можно запустить не только на ПК, но и на мобильных устройствах. На iPhone модель работает офлайн — удобно для срочных переводов в дороге. Но помните об ограничениях: метрики всё ещё могут вас обманывать.

Цифры ради цифр — тупик

Эксперимент с TranslateGemma-12b — не приговор модели, а диагноз всей индустрии. Мы привыкли верить числам: BLEU, ROUGE, chrF... Но как только дело доходит до реального использования, эти числа рушатся. 71% брака — это не ошибка модели, это ошибка нашей методологии. Пока мы не научимся учитывать человеческий фактор при оценке, любые бенчмарки останутся красивой ложью.

Подписаться на канал

Почему автоматические метрики перевода обманчивы: случай TranslateGemma-12b — 71% чистых сегментов оказались плохими