OpenAI o1-preview превзошла врачей в диагностике: исследование Science

Доктор, а вы уверены в диагнозе?

Представьте: вы заходите в приёмный покой с болью в груди, а вместо врача вас встречает нейросеть. И она ставит диагноз точнее, чем интерн с пятилетним стажем. Звучит как сценарий из «Чёрного зеркала»? А вот и нет. Журнал Science опубликовал исследование, которое взорвало медицинское сообщество: OpenAI o1-preview — модель, которая умеет «думать» перед ответом, — переиграла команду профессиональных клиницистов в диагностике отделений неотложной помощи. И разрыв оказался нешуточным.

💡

Речь идёт о когорте из 150 реальных клинических случаев, которые прошли через приёмный покой крупной больницы. Каждый случай включал анамнез, результаты анализов и визуализации — полный набор для постановки первичного диагноза.

Как это работает: цепочка рассуждений вместо угадайки

В отличие от «сырых» GPT-4, которые просто генерируют текст, o1-preview использует chain-of-thought — разбивает задачу на шаги, проверяет гипотезы, возвращается назад при противоречиях. Исследователи подали на вход модели типичные сценарии отделения неотложной помощи: «пациент 55 лет, острая боль в эпигастрии, иррадиирует в спину, АД 100/60». o1-preview не просто выдала «панкреатит» — она расписала цепочку: «исключить инфаркт миокарда, проверить амилазу, оценить риск расслаивающей аневризмы аорты». И это, чёрт возьми, сработало.

«Модель в 89% случаев указала правильный первичный диагноз. Врачи — только в 74%. И это при том, что доктора имели доступ к тем же данным и могли задавать уточняющие вопросы», — пишут авторы в Science.

Конечно, мазохисты сразу скажут: «Но цепочка рассуждений — это же просто статистика!» Да, но на практике это значит, что o1-preview не срезала углы. Она перебирала дифференциальную диагностику так, как учили в ординатуре — только быстрее и без недосыпа.

⚠️ Важный нюанс: исследование проводили на синтетических, но реалистичных историях. В реальной больнице пациент может соврать, анализы — запаздывать, а кардиограмма — быть стёртой. Тем не менее, зазор в 15% — это серьёзно.

Кембридж, Google, Anthropic — гонка вооружений в медицине

Это исследование — не единичный выстрел. Похожие результаты в 2025 году показала модель Claude for Health от Anthropic, которая на некоторых тестах по дерматологии обгоняла даже врачей-специалистов. А Google Health AI с помощью Med-PaLM 2 уже внедряет диагностические помощники в больницах США. Казалось бы — победа машин? Но не спешите списывать человечество.

Исследование выявило и ахиллесову пяту o1-preview: модель плохо справлялась с неявными симптомами и редкими коморбидностями. Например, случай с симулированным пациентом, у которого скрытая ВИЧ-инфекция маскировалась под лёгочную симптоматику, поставил ИИ в тупик — диагноз «саркоидоз» дали лишь 30% нейросетей, тогда как врачи заподозрили что-то неладное в 55% случаев. Контекст решает всё.

А что на практике? Живые больные — не датасет

Пока что ChatGPT Health и o1-preview — это красивые демки. В реальном здравоохранении, как верно подметил наш материал «ChatGPT Health: эксперимент с вашим здоровьем на живом пациенте», любая ошибка модели может стоить жизни. Пока регуляторы (FDA, CE) не утвердят хотя бы один клинический LLM для самостоятельной диагностики, врачи будут смотреть на эти цифры скептически.

Кстати, открытые решения тоже не дремлют. Например, OncoAgent — мультиагентная система для онкологии на LangGraph — показывает, что open-source может конкурировать с проприетарными гигантами. Но до внедрения в приёмные покои — годы тестов.

Кто кого заменит? Никто. Но изменится всё

Лично я считаю, что сценарий «ИИ вместо врача» — это кликбейт. Реальность будет другой: ИИ станет суперассистентом, который страхует от глупых пропусков. Когда интерн устал и забыл проверить уровень тропонина — модель ткнёт носом. И это спасёт жизни. Но! — с одним условием: данные должны быть полными и чистыми. А вот с этим в медицине беда, как мы писали в материале про универсальные модели и редкие болезни — там проблема нехватки размеченных данных стоит острее.

И да, уже существуют алгоритмы, которые на основе анализа клеток крови ставят диагноз точнее лаборантов — кембриджская модель подтвердила это ещё в начале 2025-го. Так что o1-preview — не первый, но самый громкий звонок врачебному сообществу.

Что дальше? Ставки на 2027 год

Уже сейчас Anthropic и OpenAI скупают медицинские стартапы — разбор покупок и рисков мы делали отдельно. К концу 2026-го мы увидим первую версию клинического AI-ассистента, сертифицированного для использования под наблюдением врача. Но до финала «доктор — ИИ — пациент» остаётся как минимум три узких места: юридическая ответственность (кто виноват, если модель ошиблась?), недоверие врачей (они будут игнорировать подсказки) и — самое смешное — защита от взлома. Представьте, что хакер «убедил» модель назначить пациенту адреналин вместо но-шпы.

Пока же запомним главное: o1-preview показала, что LLM могут думать как врачи. А значит — очень скоро каждый пациент получит второго мнения от машины, которая не устаёт, не хамит и не пропускает редкие синдромы. Страх перед этим вполне естественен. Но бояться стоит не роботов, а того, как мы встроим их в человеческую систему здравоохранения так, чтобы не развалить её окончательно.

Подписаться на канал

OpenAI o1-preview унизила врачей: диагнозы ИИ оказались точнее человеческих