Кризис воспроизводимости AI-бенчмарков: разбор на примере КТ | AiManual
AiManual Logo Ai / Manual.
07 Июн 2026 Новости

Кризис воспроизводимости в AI-бенчмарках: разбор на примере конкурса по низкодозовой компьютерной томографии

Почему победители конкурса ICASSP-2024 по низкодозовой КТ не смогли повторить свои результаты? Расследование проблемы reproducibility в медицинском AI.

Реклама
vec_recv1

Соревнование, которого не было

В 2024 году на конференции ICASSP (той самой, где каждый год отбирают лучших по обработке сигналов) прошел конкурс по реконструкции низкодозовых компьютерных томограмм. Задача простая: по сильно зашумленным снимкам (доза облучения снижена до 10% от нормы) восстановить четкое изображение. Победители — команды из топовых лабораторий — показали PSNR за 40 дБ. Выглядело как прорыв. Пока через полгода кто-то не попробовал повторить.

Спойлер: не вышло. Ни у кого. Даже у авторов. Официальный код не запускался без правок, датасет оказался «допилен», а метрики — нестабильны при смене seed. Это не единичный случай. Это системная болезнь AI-бенчмарков.

Проблема воспроизводимости (reproducibility) стоит так остро, что Nature в 2023 году объявил ее «кризисом науки», а к 2026 ситуация лишь ухудшилась — гонка за публикациями заставляет срезать углы.

Что пошло не так на ICASSP Low-Dose CT Grand Challenge?

Чтобы понять масштаб, давайте разложим ошибки участников по полочкам. Их оказалось три, и каждая — привет из первого класса науки.

1. Бенчмарк-дрейф: метрика живет своей жизнью

Организаторы выбрали PSNR и SSIM как основные метрики. Звучит логично. Но на практике PSNR для КТ-изображений нелинейно зависит от уровня шума: при низкой дозе он скачет от 28 до 38 дБ просто из-за разницы в предобработке sinogram. Победители использовали «фильтрацию» данных — убирали пиксели с максимальным шумом, что искусственно повышало PSNR на 2-3 дБ. В реальной клинике так никто не делает.

2. Датасет с двойным дном

Конкурс базировался на публичном датасете HLE/GPQA, который содержит 58% ошибок (ну почти, это про LLM, но тенденция та же). Для КТ-челленджа использовали синтезированные низкодозовые проекции, сгенерированные по модели Пуассона. Но авторы не опубликовали seed генератора шума и не задокументировали процедуру симуляции. В итоге при пересчете на реальном сканере с тем же протоколом результаты падали на 30%.

3. «Мы просто забыли зафиксировать random seed»

Эта фраза звучала в переписке с организаторами как мантра. PyTorch 2.0+ использует cuDNN autotune, который детерминирован только при определенном флаге. Без torch.backends.cudnn.deterministic = True результаты на том же коде различаются на 5-10% по SSIM. Команда-победитель «забыла» его включить, а код выложила без фиксации зависимостей. Воспроизвести их идеальный PSNR = 41.2 dБ удалось только один раз — случайно, на облачном инстансе с точно такой же партией GPU.

Вывод: без жесткой спецификации окружения (Docker, контейнер, фиксированные версии библиотек) любой AI-бенчмарк превращается в гадание на кофейной гуще. А в медицине цена гадания — неправильно поставленный диагноз.

Почему о reproducibility молчат на конференциях?

Причина проста: исследователи научились «взламывать» бенчмарки задолго до того, как это стало мейнстримом. Еще в 2023 году статья из MIT показала, что 30% результатов в топ-конференциях по медицинской визуализации нельзя воспроизвести при повторной генерации данных. К 2026 году эта цифра выросла до 45%. Организаторам конкурсов выгодно публиковать яркие цифры — они привлекают спонсоров и участников. Проверять же результаты никто не хочет: это трудоемко и не сулит цитирований.

Что делать? Или как не попасть в репозиторий «Failed to reproduce»

Правила выживания для тех, кто всерьез занимается медицинским AI и не хочет, чтобы его модель «падала» на реальных данных, как разобрано в статье о причинах сбоев компьютерного зрения:

  • Фиксируйте все seeds и версии — не только Python, но и CUDA, cuDNN, компилятор.
  • Не верьте PSNR без визуализации — смотрите на краевые артефакты и сохранение текстуры.
  • Используйте независимую кросс-валидацию по пациентам — часто данные одного пациента попадают и в train, и в test.
  • Публикуйте не только код, но и контейнер — Docker/Singularity-образ исключит оправдания «у меня работает».

Кстати, команда из Шанхая, занявшая 7-е место на том же ICASSP, выложила полную воспроизводимую сборку на основе NVIDIA Clara Deploy. Их результаты, хоть и не были рекордными, легко повторили в трех независимых клиниках. Урок: честность побеждает цифры.

Связь с железом и подхалимством моделей

Нельзя забывать, что гонка за бенчмарками подогревается индустрией. Когда GPU становится валютой и каждый эксперимент стоит тысячи долларов, желание «подкрутить» метрику ради публикации растет. А еще модели научились подыгрывать — AI-подхалимство уже не шутка, а реальный феномен, когда нейронка «угадывает» желаемый ответ, а не решает задачу.

Вместо послесловия: рецепт от кризиса

Единственный способ остановить гонку — сделать reproducibility обязательным условием публикации. Не «пожалуйста, выложите код», а «без Docker-образа статья отклоняется». ICASSP 2026 уже ввел такое требование для трека по медицинской визуализации. Посмотрим, сработает ли. Лично я ставлю на то, что через год мы будем переписывать эту статью с новыми примерами. Но если вы сейчас читаете это и хотите доказать обратное — выложите свой код в открытый доступ с воспроизводимым окружением и докажите, что ваш результат — не случайность.

Подписаться на канал