Аудит AI scribes в Онтарио: 20 из 20 вендоров допустили ошибки | AiManual
AiManual Logo Ai / Manual.
07 Июн 2026 Новости

Идеальный шторм: как 20 из 20 AI-медицинских скрайбов провалили аудит в Онтарио и что это значит для пациентов

Правительство Онтарио проверило 20 AI-медицинских скрайбов. Результат: 100% вендоров галлюцинировали, придумывали диагнозы и дозировки. Разбираем опасные ошибки

Реклама
vec_recv1

Канадская провинция Онтарио решила проверить, насколько можно доверять AI-помощникам, которые записывают за врачами приемы и автоматически заполняют истории болезни. Результат — не просто тревожный звонок, а сирена экстренной эвакуации. Из двадцати протестированных вендоров каждый провалил хотя бы один тест. Все двадцать галлюцинировали. Придумывали несуществующие жалобы, путали лекарства, ставили диагнозы, которые пациент никогда не слышал. И всё это — в официальном медицинском документе.

Давайте без экивоков: если AI scribe ошибётся в написании «парацетамол» вместо «парацетамол» — это полбеды. Но когда он вносит в карту анафилактическую реакцию, которой не было, или пишет дозу инсулина 100 единиц вместо 10 — это уже прямая угроза жизни. Аудит, проведённый Ontario Health и опубликованный в июне 2026 года, не оставил камня на камне от маркетинговых обещаний «идеальной точности».

Сжечь мосты: 100% вендоров — 100% багов

В исследовании участвовали стартапы и зрелые платформы — от калифорнийских единорогов до локальных канадских разработок. Условия были приближены к реальным: врачи записывали диалоги с симулированными пациентами, используя стандартные протоколы приёма. Затем AI скрайбы генерировали заметки, которые независимые эксперты сравнивали с эталонными записями.

Итог: 20 из 20 систем содержали как минимум одну клинически значимую галлюцинацию — false positive диагноз, выдуманный симптом или неверную дозировку. Это не «мелкие огрехи» вроде опечаток. Это фабрикация данных.

Внимание: Предыдущие независимые тесты AI-медицинских сервисов уже показывали тревожную картину. Об этом мы писали в статье «Опасные галлюцинации AI-медицинских scribes: результаты аудита правительства Онтарио». Тогда речь шла о 14 вендорах. Теперь их 20 — и ситуация не улучшилась.

Какие ошибки нашли? Кошмар патологоанатома

Список «подвигов» AI скрайбов заслуживает отдельного чёрного списка. Вот топ самых опасных:

  • Диагнозы из воздуха. Пациент пожаловался на головную боль — AI написал «мигрень с аурой», хотя ни ауры, ни мигрени в диалоге не было. Или вообще: «хроническая почечная недостаточность» на основании разговора о жажде.
  • Лекарства, которых не назначали. Скрайб «вспомнил», что врач рекомендовал метформин, когда речь шла только о диете. Доза — 2000 мг/сут, хотя реальная начальная доза обычно 500 мг.
  • Аллергии и непереносимости. AI «услышал» аллергию на пенициллин, хотя пациент говорил, что нормально переносит антибиотики. Если этот ярлык попадёт в электронную карту — врач будет избегать пенициллинов, даже когда они нужны.
  • Вымышленные симптомы. В заметке появилась «боль в правом подреберье», хотя пациент жаловался на левый бок. Или «одышка при ходьбе», которой не было.

Примечательно, что ошибки не были случайными — они систематически возникали в определённых сценариях. Например, при быстром темпе речи врача или при наличии сложных медицинских терминов, произнесённых с акцентом. Это наталкивает на мысль: Speech-to-Text компонент — слабое звено. Не случайно недавние бенчмарки 26 моделей распознавания речи показали, что даже лучшие из них дают погрешность в медицинских терминах на уровне 5-8% Word Error Rate. А если модель «не расслышала» слово, она не пишет «неизвестно» — она галлюцинирует.

Почему это не единичный случай?

Проблема глубже, чем кажется. AI scribe — это не просто диктофон с GPT-4o на стероидах. Это конвейер: речь → текст (ASR) → извлечение сущностей (NER) → генерация narrative (LLM). Каждый этап — источник шума. И если на входе неверно распознано слово «диабет» вместо «диета», вся последующая цепочка порождает клинически опасный бред.

Исследования, подобные онтарийскому аудиту, показывают: проблема не в одном вендоре, а в самой парадигме использования LLM без человеческого контроля. Как мы уже обсуждали в статье «ИИ не умеет думать: как ошибки в логике нейросетей угрожают вашей жизни и свободе», нейросети не понимают контекст — они предсказывают наиболее вероятное следующее слово. Если в обучающих данных дозировка инсулина часто упоминалась как «10 единиц», а в конкретном разговоре пауза была чуть длиннее, модель может выдать «100».

Что делать врачу? Перепроверять. Всегда.

Очевидный вывод из аудита — AI скрайбы нельзя использовать как финальный инструмент. Они могут служить черновиком, но не более. Врач обязан читать каждую сгенерированную запись, сверять с диалогом, исправлять галлюцинации. Проблема в том, что на это уходит время — то самое время, которое AI должен был экономить. Получается замкнутый круг.

Но есть и обнадёживающий момент: аудит выявил конкретные слабые места. Если вендоры сосредоточатся на улучшении ASR для медицинских терминов (а не на накручивании «креативности» LLM), точность можно поднять. Уже есть первые успехи — бенчмарк 42 STT-моделей показал, что специализированные медицинские модели (например, Whisper Large V3 tuned on clinical data) дают Medical WER ниже 3%. Но это в идеальных условиях, а не в шумном кабинете.

Пока же рекомендация проста: если вы врач — не верьте AI scribe на слово. Смотрите запись разговора (если она велась) или хотя бы прослушивайте ключевые моменты. Если вы пациент — просите врача показать, что написано в вашей карте, и указывайте на ошибки. Канадский опыт — предупреждение для всех систем здравоохранения, которые спешат внедрить «цифровых ассистентов» без клинической валидации.

Прогноз: Через год — два мы, скорее всего, увидим обязательные требования к вендорам: не менее 99% точности по метрике Medical Fact Hallucination Rate. Иначе страховые компании откажутся покрывать врачей, использующих непроверенные AI scribes. Бизнес, который не встроит «человека в цикле» (human-in-the-loop), просто вымрет. И это хорошо.

Подписаться на канал