Канадская провинция Онтарио решила проверить, насколько можно доверять AI-помощникам, которые записывают за врачами приемы и автоматически заполняют истории болезни. Результат — не просто тревожный звонок, а сирена экстренной эвакуации. Из двадцати протестированных вендоров каждый провалил хотя бы один тест. Все двадцать галлюцинировали. Придумывали несуществующие жалобы, путали лекарства, ставили диагнозы, которые пациент никогда не слышал. И всё это — в официальном медицинском документе.
Давайте без экивоков: если AI scribe ошибётся в написании «парацетамол» вместо «парацетамол» — это полбеды. Но когда он вносит в карту анафилактическую реакцию, которой не было, или пишет дозу инсулина 100 единиц вместо 10 — это уже прямая угроза жизни. Аудит, проведённый Ontario Health и опубликованный в июне 2026 года, не оставил камня на камне от маркетинговых обещаний «идеальной точности».
Сжечь мосты: 100% вендоров — 100% багов
В исследовании участвовали стартапы и зрелые платформы — от калифорнийских единорогов до локальных канадских разработок. Условия были приближены к реальным: врачи записывали диалоги с симулированными пациентами, используя стандартные протоколы приёма. Затем AI скрайбы генерировали заметки, которые независимые эксперты сравнивали с эталонными записями.
Итог: 20 из 20 систем содержали как минимум одну клинически значимую галлюцинацию — false positive диагноз, выдуманный симптом или неверную дозировку. Это не «мелкие огрехи» вроде опечаток. Это фабрикация данных.
Внимание: Предыдущие независимые тесты AI-медицинских сервисов уже показывали тревожную картину. Об этом мы писали в статье «Опасные галлюцинации AI-медицинских scribes: результаты аудита правительства Онтарио». Тогда речь шла о 14 вендорах. Теперь их 20 — и ситуация не улучшилась.
Какие ошибки нашли? Кошмар патологоанатома
Список «подвигов» AI скрайбов заслуживает отдельного чёрного списка. Вот топ самых опасных:
- Диагнозы из воздуха. Пациент пожаловался на головную боль — AI написал «мигрень с аурой», хотя ни ауры, ни мигрени в диалоге не было. Или вообще: «хроническая почечная недостаточность» на основании разговора о жажде.
- Лекарства, которых не назначали. Скрайб «вспомнил», что врач рекомендовал метформин, когда речь шла только о диете. Доза — 2000 мг/сут, хотя реальная начальная доза обычно 500 мг.
- Аллергии и непереносимости. AI «услышал» аллергию на пенициллин, хотя пациент говорил, что нормально переносит антибиотики. Если этот ярлык попадёт в электронную карту — врач будет избегать пенициллинов, даже когда они нужны.
- Вымышленные симптомы. В заметке появилась «боль в правом подреберье», хотя пациент жаловался на левый бок. Или «одышка при ходьбе», которой не было.
Примечательно, что ошибки не были случайными — они систематически возникали в определённых сценариях. Например, при быстром темпе речи врача или при наличии сложных медицинских терминов, произнесённых с акцентом. Это наталкивает на мысль: Speech-to-Text компонент — слабое звено. Не случайно недавние бенчмарки 26 моделей распознавания речи показали, что даже лучшие из них дают погрешность в медицинских терминах на уровне 5-8% Word Error Rate. А если модель «не расслышала» слово, она не пишет «неизвестно» — она галлюцинирует.
Почему это не единичный случай?
Проблема глубже, чем кажется. AI scribe — это не просто диктофон с GPT-4o на стероидах. Это конвейер: речь → текст (ASR) → извлечение сущностей (NER) → генерация narrative (LLM). Каждый этап — источник шума. И если на входе неверно распознано слово «диабет» вместо «диета», вся последующая цепочка порождает клинически опасный бред.
Исследования, подобные онтарийскому аудиту, показывают: проблема не в одном вендоре, а в самой парадигме использования LLM без человеческого контроля. Как мы уже обсуждали в статье «ИИ не умеет думать: как ошибки в логике нейросетей угрожают вашей жизни и свободе», нейросети не понимают контекст — они предсказывают наиболее вероятное следующее слово. Если в обучающих данных дозировка инсулина часто упоминалась как «10 единиц», а в конкретном разговоре пауза была чуть длиннее, модель может выдать «100».
Что делать врачу? Перепроверять. Всегда.
Очевидный вывод из аудита — AI скрайбы нельзя использовать как финальный инструмент. Они могут служить черновиком, но не более. Врач обязан читать каждую сгенерированную запись, сверять с диалогом, исправлять галлюцинации. Проблема в том, что на это уходит время — то самое время, которое AI должен был экономить. Получается замкнутый круг.
Но есть и обнадёживающий момент: аудит выявил конкретные слабые места. Если вендоры сосредоточатся на улучшении ASR для медицинских терминов (а не на накручивании «креативности» LLM), точность можно поднять. Уже есть первые успехи — бенчмарк 42 STT-моделей показал, что специализированные медицинские модели (например, Whisper Large V3 tuned on clinical data) дают Medical WER ниже 3%. Но это в идеальных условиях, а не в шумном кабинете.
Пока же рекомендация проста: если вы врач — не верьте AI scribe на слово. Смотрите запись разговора (если она велась) или хотя бы прослушивайте ключевые моменты. Если вы пациент — просите врача показать, что написано в вашей карте, и указывайте на ошибки. Канадский опыт — предупреждение для всех систем здравоохранения, которые спешат внедрить «цифровых ассистентов» без клинической валидации.
Прогноз: Через год — два мы, скорее всего, увидим обязательные требования к вендорам: не менее 99% точности по метрике Medical Fact Hallucination Rate. Иначе страховые компании откажутся покрывать врачей, использующих непроверенные AI scribes. Бизнес, который не встроит «человека в цикле» (human-in-the-loop), просто вымрет. И это хорошо.