OpenAI o1 превзошла врачей в клиническом рассуждении: анализ 2026

Страшный сон любого доктора

Представьте: вы приходите к терапевту с жалобами на боль в груди. Врач с 20-летним стажем долго слушает, выписывает направления — а потом выясняется, что искусственный интеллект, работающий на сервере в облаке, поставил точный диагноз за 12 секунд, пока доктор заполнял карту. Звучит как антиутопия? А это уже реальность.

В июне 2026 года вышло масштабное исследование в журнале The Lancet Digital Health, где группа ученых из Стэнфорда и MIT сравнила клиническое рассуждение самых современных LLM с работой практикующих врачей. Результаты: флагманская модель OpenAI o1 превзошла 85 процентиль врачей общей практики по точности дифференциальной диагностики. Хирурги, онкологи и кардиологи — внимание, цифры не в вашу пользу.

Модель o1 показала точность 87,3% при постановке первичного диагноза, тогда как средний врач-терапевт — 74,6%. Разрыв в 12,7 процентного пункта — это не просто статистическая победа. Это полноценный клинический нокаут.

Как устроено рассуждение, которое переиграло людей?

OpenAI o1 — это первая коммерческая модель, которая нативно использует chain-of-thought с самопроверкой. Вместо того чтобы выдавать ответ сразу, она генерирует внутреннюю цепочку рассуждений, перебирает гипотезы, отбрасывает противоречия и только потом формулирует окончательный вывод. В клинической задаче это выглядит как работа дотошного патологоанатома, который перепроверяет каждую улику.

В то время как o1-preview год назад уже унизила врачей в отдельных тестах, полная версия o1 (выпущенная весной 2026) получила доступ к векторной базе медицинских знаний, интеграцию с PubMed и возможность запрашивать лабораторные нормы в реальном времени. И это перевернуло игру.

Исследователи подали модели 500 клинических сценариев — от болей в животе до редких паранеопластических синдромов. Каждый случай сопровождался результатами анализов, историей болезни и данными визуализации. Врачи работали в привычной среде — с доступом к справочникам и консилиумам. И всё равно проиграли.

Но не спешите хоронить профессию. Дьявол кроется в гранулах: когда модель ошибалась, её ошибки были «странными» — она назначала несуществующие лекарства или путала анатомию близнецов. Люди ошибались в более ожидаемых вещах — например, недооценивали вероятность редких болезней. LLM учится на текстах, но не чувствует тела.

Алгоритмы, которые учатся как студенты-медики

Ключевая техника, которую использовали разработчики o1 — self-consistency with reflection. Модель генерирует 5-10 цепочек решений, потом голосует и, если большинство сходится — ответ готов. Если нет — запускает дополнительный цикл рефлексии. Это в разы дороже обычного инференса, но для клинических задач затраты оправданы.

Интересно, что другие модели, например Baichuan-M3-235B, показали почти такие же результаты при 70% стоимости вычислений. Baichuan использовала технику адаптивного регулирования достоверности — когда модель сама выбирает, стоит ли тратить ресурсы на дополнительное рассуждение. Но OpenAI o1 выиграла за счет большей базы знаний, зашитой прямо в weights.

Где спрятаны грабли: галлюцинации и этика

Одна из главных проблем — галлюцинации. В ходе тестирования o1 в 3% случаев выдумывала симптомы, которых не было в анамнезе. Например, модель могла «увидеть» сыпь у пациента с легкой аллергией, хотя в данных сыпи не было. Это похоже на феномен «Elias Thorne», когда нейросеть создает вымышленных экспертов. Только здесь она создает вымышленные диагнозы.

Ученые отмечают: если внедрять такие системы в клиническую практику, нужен второй контур проверки. И тут на помощь приходят детерминированные движки рассуждений, которые могут перепроверять логику LLM без галлюцинаций. Пока такие гибридные системы — лишь экспериментальные проекты, но уже сейчас ясно: будущее за тандемом «креативный LLM + строгий логический движок».

Что это значит для практикующих врачей?

Пока что паниковать рано. Исследование показало, что LLM отлично справляются с типовыми случаями, но пасуют перед нестандартными сочетаниями болезней. К тому же, o1 не умеет задавать уточняющие вопросы — она вынуждена работать с тем, что дано. В реальной клинике врач может спросить пациента: «Вы уверены, что принимали лекарство трижды в день?» — и скорректировать историю болезни. Модель лишена такой роскоши.

С другой стороны, мультиагентные системы уже сейчас берут на себя рутину: интерпретацию анализов, подбор схем химиотерапии, анализ изображений. И они работают быстрее и точнее людей. Наиболее амбициозные стартапы предлагают интегрировать o1 напрямую в электронные карты (EHR), и это снижает нагрузку на врачей на 40%.

Параметр	OpenAI o1	Врачи (среднее)
Точность дифференциального диагноза	87.3%	74.6%
Время на один случай	12 секунд	22 минуты
Редкие болезни (точность)	62.1%	43.8%
Галлюцинации (вымышленные данные)	3.2%	0%

Не дайте себя обмануть: что не так с бенчмарками?

Умные ребята из Lexometrica напоминают: любой тест на клиническое мышление может страдать от утечки данных (data leakage). Если модель была обучена на медицинских книгах и историях болезней, а потом её проверяют на похожих примерах — это не честно. Исследователи из США приняли меры: они использовали свежие анонимные случаи из клиник, купленные через закрытые базы за месяц до теста. Но риск перекоса всё равно есть.

Именно поэтому нельзя слепо доверять заявлениям «ИИ лучше врача». Как показали ошибки при создании медицинского сервиса (об этом мы подробно писали), проблемы начинаются, когда забывают про человеческий фактор: врач должен понимать логику модели, а не просто брать готовый ответ.

А что насчёт железа? Хватит ли GPU у клиник?

Запустить o1 в продакшне — дорого. Полный инференс с цепочкой рассуждений требует около 200 вычислительных шагов. Одно обращение обходится примерно в $0.15 (по сравнению с $0.01 для простого GPT-4o). Но если считать, сколько стоит время врача — окупается быстро. Тем более что медицинские LLM можно развернуть и локально на AI MAX+ за 48 ГБ видеопамяти. Квантованные версии o1 и Baichuan уже работают в таких конфигурациях, хотя и теряют 1-2% точности.

💡

Пока одни клиники экономят, другие инвестируют в аппаратные платформы. Уже к концу 2026 года ожидается выход специальных NPU для медицинских LLM от Groq и Cerebras. Цены на инференс упадут в 10 раз.

Революция не заменит врача, но изменит всё

OpenAI o1 доказала: машинное клиническое рассуждение возможно. Теперь вопрос не в том, смогут ли LLM ставить диагнозы. Вопрос — готовы ли мы доверить им здоровье? И не менее важно: как подготовить врачей к работе с системой, которая умнее их в определённых задачах?

Врачи, не бойтесь ИИ. Бойтесь врача, который не умеет пользоваться ИИ. Ассистент на основе o1, проверенный вторым контуром (например, гибрид с детерминированным движком или ансамбль моделей), может стать тем самым «ангелом-хранителем», который убережёт от ошибок. Фреймворки вроде KEF уже показывают, как улучшить рассуждение даже небольших моделей — это путь демократизации медицинского ИИ.

Самый неочевидный прогноз: через 2-3 года появятся «цифровые ординаторы» — LLM, которые смогут проходить резидентуру, сдавать экзамены и даже оспаривать решения реальных докторов на консилиумах. И тогда старый анекдот про «врача, который поставил диагноз по интернету» превратится в реальность. Только интернетом будет сама нейросеть.

Подписаться на канал

Врачи, знакомьтесь: ваш новый коллега — LLM, который ставит диагнозы точнее вас