Тринадцать процентов записей содержали клинически значимые ошибки. Каждая третья ошибка — галлюцинация. AI сам придумывал симптомы, дозировки и диагнозы. В канадской провинции Онтарио только что опубликовали результаты масштабного аудита AI-медицинских scribes — систем, которые автоматически расшифровывают разговор врача и пациента и формируют электронную медицинскую карту. Цифры заставляют вспомнить недавний провал Google AI, когда модель советовала есть клей и пить урину — только здесь цена ошибки не испорченный желудок, а жизнь.
Аудит провели в феврале-марте 2026 года. Проверяли пять коммерческих AI-сервисов, которые уже используются в больницах Торонто и Оттавы. Результаты направили министру здравоохранения провинции.
Галлюцинации оказались не просто случайными сбоями. В 8% случаев AI приписывал пациенту симптомы, которых тот никогда не упоминал. В 6% — «забывал» указать аллергию на лекарства. И самое страшное: в 4% записей нейросеть корректировала дозировки препаратов, увеличивая или уменьшая их на 30-50% без каких-либо оснований. Врачи, доверившись записи, могли назначить лечение, основанное на вымышленных данных.
У нас уже есть подробный разбор проблемы опасностей AI-ноуттейкеров — там разобраны конкретные кейсы. Но аудит правительства Онтарио дал статистику, от которой волосы встают дыбом. Проверялось 12 000 историй болезни, созданных AI-scribe. Независимые эксперты сравнили их с оригинальными аудиозаписями приёмов.
И что выяснилось? Около 34% всех галлюцинаций приходились на раздел «Анамнез жизни» — AI придумывал курение, алкоголь или наследственные заболевания. «Пациент выкуривает пачку в день на протяжении 20 лет» — хотя человек никогда не курил. «У матери диагностирован рак молочной железы» — хотя мать здорова. Такие ошибки могут кардинально изменить диагностический путь: врачи начнут искать несуществующие болезни, назначать лишние обследования.
Особую тревогу вызывает то, что AI-scribes обучались на реальных медицинских записях, включая данные пациентов. Это создаёт двойную угрозу: с одной стороны — ошибки, с другой — утечка конфиденциальной информации. Проблема утечек в медицинских AI-продуктах обсуждается в отдельном материале «Золотая лихорадка ИИ в медицине».
Интересно, что аудит проводили не только по текстовым записям, но и по качеству распознавания речи. Встроенные Speech-to-Text модели ошибались в среднем в 22% медицинских терминов. Недавнее тестирование 26 моделей STT на медицинских диалогах показало, что даже лидеры — Whisper и новейшая сборка от AssemblyAI — дают до 15% ошибок на специфической лексике. Врачи часто используют аббревиатуры, сленг, неполные фразы — AI воспринимает это как шум и додумывает.
Но самое обидное: многие врачи даже не замечали подлога. Система подсвечивала галлюцинации зелёным как «подтверждённые данные». Только 37% медперсонала сверяли записи с аудио. Остальные подписывали сфабрикованные истории болезни, даже не слушая оригинал. А зря — провал Google AI в медицине уже показал, что доверять нейросетям на слово нельзя.
Правительство Онтарио уже приостановило использование AI-scribes в трёх клиниках и обязало разработчиков предоставить полный отчёт о методиках верификации. В ответ представители компаний заявили, что «галлюцинации — известная проблема всех LLM, и они работают над её решением». Знакомые отговорки? ChatGPT Health тоже обещал безопасность, но закончилось трагическими случаями.
Что делать? Независимые тесты — единственный способ выявить опасные ошибки до того, как они попадут в медицинскую карту. Почему независимые тесты — вопрос жизни и смерти — мы уже разбирали на примере чат-ботов. Теперь очередь scribes.
И ещё один момент, который тихо вынесли из отчёта: все протестированные AI-системы были построены на базе GPT-4o и Claude 4 Sonnet (релизы 2025 года). Ни одна не использовала специализированные медицинские модели вроде Med-PaLM 3. Экономия на лицензиях привела к тому, что обычный чат-бот просто пересказывал диалог своими словами, приукрашивая и додумывая детали. Удивительно, что это вообще сочли приемлемым для клинического применения.
Готовы ли мы доверять свою жизнь AI, который галлюцинирует в каждом третьем случае? Онтарио ответил «нет». Остальным провинциям и странам стоит присмотреться к этому прецеденту, пока ИИ не начал лечить нас вымышленными болезнями.