NV-Raw2Insights-US: AI улучшает УЗИ через сырые сигналы | AiManual
AiManual Logo Ai / Manual.
28 Апр 2026 Инструмент

NV-Raw2Insights-US: как голая физика сигнала меняет УЗИ

NVIDIA и Siemens выпустили модель NV-Raw2Insights-US, которая анализирует необработанные ультразвуковые сигналы. Физически-информированное машинное обучение пов

Представьте: вы смотрите на снимок УЗИ, но видите не то, что мог бы увидеть прибор. Каждый пиксель уже прошел через фильтры, сглаживание и постобработку. Часть информации потеряна навсегда. Врач ставит диагноз по этой урезанной картинке. А что если нейросеть возьмет сырой radio-frequency (RF) сигнал — тот самый, который возвращается от тканей, — и вытащит из него максимум?

Именно это сделали NVIDIA и Siemens Healthineers. Их новая модель NV-Raw2Insights-US — это фундаментальная модель (foundation model) для ультразвука, обученная на сотнях тысяч необработанных RF-сигналов. Она не просто улучшает картинку, она переосмысливает сам подход к ультразвуковой диагностике. И да, модель открыта на Hugging Face.

Ключевая идея: вместо того чтобы учить нейросеть распознавать артефакты на готовом изображении, модель учится понимать физику распространения звуковой волны в тканях. Это позволяет реконструировать сцену с гораздо большей точностью.

Почему традиционное УЗИ — это компромисс

Любой ультразвуковой сканер работает в два этапа. Сначала пьезоэлемент посылает импульс, принимает отражения (RF-сигнал). Потум DSP-чип превращает этот сигнал в картинку с помощью лучевого формирования, фильтрации и логарифмического сжатия. Каждый шаг — потеря динамического диапазона, разрешения и информации о фазе сигнала.

AI-модели, которые сегодня используются в УЗИ (например, для сегментации или классификации), работают уже с готовыми B-mode изображениями. Они видят только то, что решил показать производитель сканера. NV-Raw2Insights-US берет RF-сигнал напрямую. Это как дать нейросети сырую фотографию в формате RAW вместо JPEG.

⚠️
Внимание: для работы с RF-сигналами нужен доступ к аппаратному обеспечению, которое выдает эти данные. Не все УЗИ-сканеры предоставляют такую возможность. Пока модель протестирована на оборудовании Siemens Acuson и ряде открытых датасетов.

Архитектура: физически-информированное машинное обучение

Название NV-Raw2Insights-US расшифровывается как NVIDIA Raw to Insights - Ultrasound. Модель построена на основе transformer-архитектуры с весами 340M (около 340 миллионов параметров). Этого достаточно, чтобы улавливать сложные нелинейные зависимости в сигнале, но не слишком много для развертывания на GPU среднего класса.

1 Входные данные: RAW RF-сигнал

Каждый фрагмент — это временная последовательность амплитуд после вычитания Доплеровского сдвига (IQ-данные). Модель принимает 256 сэмплов за раз, что соответствует примерно 40 микросекундам реального времени.

2 Физически-информированный кодировщик

В отличие от обычных трансформеров, которые учатся любым паттернам, NV-Raw2Insights-US использует Physics-Informed Neural Network (PINN) в качестве дополнительного слоя. Этот слой принуждает сеть учитывать уравнение волнового распространения. Звучит как магия? На практике это значит, что модель не выдумывает артефакты, а опирается на законы физики — как будто она знает, как звук должен вести себя в однородной среде.

3 Декодер: реконструкция изображения и сегментация

Выход модели — сразу три вещи: чистое B-mode изображение (с улучшенным соотношением сигнал-шум), карта вероятности наличия патологий (например, опухолей) и маска анатомических структур. Всё за один проход. Никаких отдельных сеток для каждой задачи.

Характеристика Традиционный B-mode NV-Raw2Insights-US
Входные данные Обработанное изображение (8 бит) Сырой RF-сигнал (16+ бит)
Потери информации Высокие (этапы DSP) Минимальные
Физическая согласованность Отсутствует Встроена через PINN
Мультизадачность Нужны отдельные модели Одна модель — три выхода
Размер модели 340M параметров

Сравнение с альтернативами

На рынке уже есть несколько foundation model для медицинской визуализации. Например, USFM (Ultrasound Foundation Model) от Google Health обучен на 2 миллионах B-mode изображений. Но он не видит сырой сигнал. Другой конкурент — EchoNet-Dynamic от Стэнфорда — специализируется на эхокардиографии, но тоже требует готового видео.

NV-Raw2Insights-US выигрывает за счет доступа к физической сути процесса. По данным статьи NVIDIA, на датасете Breast Ultrasound Dataset (BUS) модель показала улучшение PSNR на 3.2 дБ и SSIM на 0.12 по сравнению с best-in-class методами реконструкции из RF (DL-based). Это не просто приятное улучшение — это клинически значимая разница: тени, реверберации и аберрации подавляются без потери мелких структур.

💡 Инсайт: Физически-информированное обучение снижает риск переобучения на артефакты конкретного сканера. Обычные модели компьютерного зрения страдают от этого — мы рассказывали в статье "Почему падают модели компьютерного зрения". NV-Raw2Insights-US менее подвержена таким сбоям.

Где это применить прямо сейчас

Модель доступна в открытом доступе, и вы уже можете попробовать её на своих данных. Потребуется конвертировать RF-сигнал в формат .h5 с фиксированным числом сэмплов. Процесс описан в репозитории Hugging Face.

1 Улучшенная визуализация без замены сканера

Клиники могут подключить модель к существующему УЗИ-оборудованию с RF-выходом (например, Siemens Acuson, Philips Epiq) и получать картинку лучшего качества без апгрейда железа. Это особенно актуально в развивающихся странах, где доступ к новым сканерам ограничен — вспомните, как Бразилия платит за GPU в три раза больше, но УЗИ-аппараты там старые.

2 Автоматическая сегментация в реальном времени

Благодаря встроенному декодеру модель может выделять границы органов, сосудов или новообразований на лету. Это облегчает работу врача и сокращает время обследования. В перспективе такие модели интегрируются в клинические рабочие станции — NVIDIA уже активно работает над этим вместе с партнерами вроде AWS в облачной инфраструктуре.

3 Дообучение под конкретные клинические задачи

На основе предобученной модели можно дообучить классификатор на малый датасет (например, 50-100 размеченных случаев). Это намного быстрее и дешевле, чем обучение с нуля. Исследователи из Стэнфорда уже провели эксперименты: дообучение заняло 4 часа на одной A100.

Подводные камни

Не всё так радужно. Во-первых, модель требует RF-данных, которые не все сканеры выдают. Во-вторых, она обучена на ограниченном наборе органов (грудь, щитовидная железа, печень). Для других областей нужна адаптация. В-третьих, хотя модель открыта, для её инференса нужен GPU — не каждый ноутбук потянет 340M-параметровую сеть.

⚠️
Важно: NV-Raw2Insights-US — это исследовательская модель, а не сертифицированное медицинское устройство. Для клинического использования нужна валидация и регистрация. Пока её можно применять только для научных и исследовательских целей.

Кому нужна эта модель

  • Ультразвуковым исследователям, которые хотят выжать максимум из данных, а не пересказывать банальные B-mode картинки.
  • Разработчикам AI в медицине, ищущим опору в физике, а не в бесконечной аугментации данных (привет, DeepMind).
  • Клиникам-новаторам, которые готовы интегрировать софт в свои процессы (особенно при поддержке IT-инфраструктуры).
  • Производителям УЗИ-сканеров, которые хотят добавить AI-ускорение без полного редизайна аппаратов.

Если вы всё ещё считаете, что AI в медицине — это только красивые картинки для презентаций, взгляните на этот проект. NV-Raw2Insights-US — пример того, как союз физики и глубокого обучения способен поднять планку качества там, где традиционные методы уперлись в потолок. И при этом модель открыта — бери и пробуй.

Подписаться на канал