Типичная картина: вы берете датасет УЗИ, накладываете маску области интереса (ROI), вырезаете лишнее — и macro-F1 падает. Знакомо? Команда MMOTU провела масштабный эксперимент на 64 архитектурах и выяснила: маски — не серебряная пуля. Более того, иногда они откровенно мешают.
Маска, я тебя знаю?
В медицинском компьютерном зрении десятилетиями господствовала мантра: «Убери всё лишнее, модель не отвлекается». Звучит логично? Только вот УЗИ — это не фото кота на фоне дивана. Артефакты, тени, соседние ткани — это не шум, а ценные диагностические признаки. Когда вы грубо вырезаете ROI, вы вместе с «мусором» выбрасываете контекст, который может быть критичен для диагноза.
Например, рак щитовидной железы часто метастазирует в лимфоузлы, которые не влезают в стандартную маску органа. Модели, обученные на полных изображениях, получают эту информацию «бесплатно» и ставят правильный диагноз чаще. В эксперименте MMOTU macro-F1 на датасете узлов щитовидки был 82.3% с маской против 84.7% без неё. Разница в 2.4 процентных пункта — в медицине это вопрос жизней.
Осторожно: Повторять «скинь маску» на всех датасетах нельзя. В некоторых задачах (например, сегментация сосудов) ROI-маска всё ещё необходима. Но для классификации патологий — проверяйте ablation study.
64 модели — и что?
Исследователи прогнали 64 архитектуры: от легких MobileNet до тяжелых Vision Transformer (ViT-L/16, 2026 года). И тут вылезла забавная закономерность: маска сильнее всего вредила именно современным трансформерам. Они от природы умеют выцепить контекст из полного изображения, а обрезка лишает их этого супернавыка. Сверточные сети (ResNeXt, EfficientNetV3) оказались менее чувствительными — у них macro-F1 с маской и без отличался в пределах 0.5%.
Почему так? У трансформеров механизм внимания работает глобально: он смотрит на пиксели вокруг подозрительного участка и находит взаимосвязи. Уберите фон — и модель ослепнет на один глаз. Это перекликается с проблемами, описанными в разборе причин падения CV-моделей.
Из практики: При построении multi-label классификации УЗИ (одновременно несколько патологий) использование ROI-масок тоже давало неоднозначные результаты. Подробнее — в руководстве по multi-label классификации.
ROI — не панацея. Что делать?
Первое и главное — не ставьте ROI-маску в пайплайн по умолчанию. Проверьте на своём датасете ablation: обучите модель на полных изображениях, потом на обрезке, сравните. Если разница в пользу маски меньше 1% — смело отказывайтесь от неё: вы сэкономите время на разметку и потенциально улучшите обобщающую способность.
Второе — ансамблируйте. Например, возьмите две модели: одну на полном изображении, вторую на ROI, и усредните предсказания. В эксперименте MMOTU такой ансамбль дал macro-F1 86.3% — на 2% выше, чем лучшая одиночная модель. Это как раз тот случай, когда «и нашим, и вашим» работает.
Третий совет — используйте контекст через attention masking, а не жесткую обрезку. Некоторые архитектуры поддерживают маски внимания, которые «выключают» фоновые регионы, но не удаляют их физически. Модель видит всё, но фокусируется только на ROI. Правда, этот метод требует доработок, знакомых по хакатону с YOLO для промышленного CV — там тоже боролись с лишними объектами.
И последнее: не забывайте, что разметка ROI — это дорого. Врачи тратят часы на обводку контуров. Если можно обойтись без неё и получить такой же или лучший результат — значит, методика разметки устарела. Заставлять врачей рисовать маски «на всякий случай» — преступление против common sense.
Так что в следующий раз, когда захотите обрезать УЗИ-снимок по контуру органа — остановитесь. Сначала проверьте ablation. А лучше — сделайте ансамбль моделей. И да пребудет с вами контекст.