Публикация AiManual

Meddies PII: снимаем маску с пациентов, не нарушая закон

Обзор Meddies PII — открытой мультиязычной модели для удаления PII из медицинских записей. Возможности, сравнение с альтернативами, примеры использования и реко

7 мин чтения 08.06.2026

Коротко

Что будет в материале

01
Что под капотом?
02
Кому это нужно? Трём категориям людей
03
Как это выглядит на практике? (спойлер: без кода, но с понятными примерами)
04
Сравнение с альтернативами: кто кого?

Медицинские данные — это золотая жила для исследований. Выписки из больниц, истории болезней, результаты анализов. Но каждый такой документ — бомба замедленного действия с точки зрения приватности. HIPAA, GDPR, 152-ФЗ — кому как повезло. Деидентификация (удаление персонально идентифицируемой информации, PII) превращается в обязательный ритуал перед тем, как отдать данные на обучение модели или опубликовать исследование.

Проблема в том, что медицинские тексты — это не структурированные формы. Там врачи пишут «пациент Иван Петрович, 45 лет, проживает в г. Москва». Или «женщина, 1978 г.р., контактный телефон 8-916-...». Вытащить все сущности руками? Можно, но тошно. Купить дорогой API от AWS Comprehend Medical? Можно, но данные улетят в облако, а юристы начнут дергаться. И вот на сцене появляется Meddies PII — открытая мультиязычная модель, которая обещает решить проблему локально и бесплатно.

Что под капотом?

Meddies PII — это fine-tuned вариант XLM-RoBERTa (по состоянию на июнь 2026 года — версия на базе XLM-RoBERTa-large). Модель обучена на мультиязычном корпусе клинических текстов, включая русский, английский, испанский, французский, немецкий и китайский. Разработчики собирали данные из открытых источников (MIMIC-III, i2b2, собственные размеченные наборы) и дообучали модель распознавать 18 типов PII: от банального ФИО до номера медицинской карты и страхового полиса.

Главная фишка — модель не просто находит сущности, а классифицирует их по категориям (PATIENT_NAME, DOCTOR_NAME, HOSPITAL, DATE, PHONE, EMAIL, ID_NUMBER,...). И да, всё это работает без интернета. Загрузил веса на сервер — и поехали.

Не путайте с простым NER. Meddies PII специально заточена под клинические контексты. Обычный распознаватель имён (например, spaCy) может принять «Красная площадь» за локацию, а Meddies поймет, что это название лекарства? Шучу, но на самом деле модель знает медицинский сленг. Например, «Сидоров С.С.» — это врач, а не пациент, если написано в подписи. Такие нюансы есть.

Кому это нужно? Трём категориям людей

Во-первых, исследователи и data scientists, которые хотят публиковать датасеты, не рискуя раскрыть пациентов. Запустил Meddies PII, выкинул размеченные PII — и можно выкладывать данные на Kaggle. Во-вторых, разработчики медицинских AI-ассистентов. Если вы пишете чат-бота, который анализирует историю болезни, — на входе нужно чистить текст. Иначе ассистент случайно расскажет пациенту про другого Петрова. В-третьих, стартапы, которым дорого платить за API. Локальное развертывание экономит деньги и нервы юристов.

Как это выглядит на практике? (спойлер: без кода, но с понятными примерами)

Допустим, у вас есть строка: «Пациентка Абрамова Е.А., 32 года, поступила с жалобами на головную боль. Телефон: +7(495)123-45-67». Запускаете Meddies PII — модель на выходе выдаёт список сущностей с позициями и категориями.

Результат: PATIENT_NAME → «Абрамова Е.А.», AGE → «32», PHONE → «+7(495)123-45-67». Дальше вы можете заменить эти куски на заглушки (например, «[PATIENT]», «[AGE]», «[PHONE]») или сгенерировать псевдонимы. Модель не делает замену — она только находит. А уж что делать с найденным — решаете вы.

Типичная ошибка новичков: пытаться использовать обычный NER типа spaCy для медицинских текстов. Он найдет «Абрамова» как PERSON, но может пропустить «+7(495)123-45-67», потому что телефон не является сущностью в стандартной модели. Meddies PII обучена на клинических записях, поэтому она ищет именно те сущности, которые нужны для деидентификации. Сравните с OpenAI Privacy Filter — тот работает через LLM и хорош для английского, но на русском иногда тупит. Meddies PII стабильнее на кириллице.

Сравнение с альтернативами: кто кого?

На рынке есть несколько подходов к деидентификации. Разложим по полочкам.

Инструмент	Тип	Мультиязычность	Локально	Цена
Meddies PII	NER (XLM-RoBERTa)	6 языков (русский в топе)	Да	Бесплатно (Apache 2.0)
Presidio (Microsoft)	NER + правила	Ограниченно (основной английский)	Да	Бесплатно
AWS Comprehend Medical	API	Английский + немного других	Нет	Платно (по токенам)
LLM-промпты (GPT-4o, etc.)	Генеративный	Много языков, но нестабильно	Условно (через API)	Зависит от токенов

Meddies PII выигрывает в балансе «цена-качество-локальность». Presidio хорош, но его стандартные детекторы плохо работают с русскими номерами полисов ОМС. Придется писать кастомные правила. LLM (вроде той, что тестировали в статье Как удалить личные данные из текста локально) — медленные и дорогие, если нужно обработать миллионы записей. Meddies PII на CPU делает инференс за миллисекунды.

Тонкие места: где модель может споткнуться

Не будет холивара без ложки дегтя. Meddies PII — не серебряная пуля. Во-первых, она заточена под клинические тексты. Если вы попытаетесь скормить ей художественную литературу или судебные протоколы, точность упадет. Во-вторых, мультиязычность означает, что модель видит все языки, но качество по каждому может различаться. На русском — приемлемо (F1 > 0.93 на бенчмарке), на китайском — около 0.88. Если вам нужна идеальная точность для одного языка, лучше взять моноязычную модель (например, RuBERT для русского).

В-третьих, модель может ошибаться в контекстной деидентификации. Например, если в тексте написано «25.12.2023 — дата выписки», а рядом «25 декабря пациент жаловался на боль» — оба содержат дату, но первое это PII (дата события), второе — нет. Стандартный NER не отличает. Meddies PII частично решает это за счёт обучения на клинических аннотациях, но ошибки бывают. Рекомендуется пост-обработка правилами.

💡

Комбинируйте Meddies PII с легковесным SLM (Small Language Model) для проверки контекста. Например, после нахождения сущности отправляйте её в мини-модель с вопросом «это PII или нет?». Пример такого подхода описан в кейсе Как анонимизация данных влияет на качество LLM-агентов.

Как встроить Meddies PII в пайплайн обработки медицинских данных

Допустим, у вас есть поток сырых выписок из больницы (например, извлечённых через STT, как в бенчмарке 42 STT-моделей). Вы скормили аудио в Whisper или другую модель, получили текст. Дальше — запускаете Meddies PII, получаете список смещений, заменяете реальные данные на псевдонимы (например, «Иванов И.И.» → «Псевдоним_0123»). Потом уже чистый текст можно передавать в LLM для анализа или в RAG-систему.

Важный момент: если вы планируете использовать обезличенные данные для обучения собственной LLM, посмотрите техническое руководство по 152-ФЗ — там разбирается, как именно нужно заменять сущности, чтобы не нарушить закон.

Итог: брать или не брать?

Meddies PII — зрелая, рабочая модель, которая закрывает 80% задач по деидентификации клинических текстов. Она бесплатна, работает на CPU, поддерживает несколько языков (включая русский) и выложена под открытой лицензией. Для стартапов и исследователей — мастхэв. Для enterprise, где нужна абсолютная гарантия, — придётся докручивать правилами и валидацией.

Но вот о чем молчат: ни одна NER-модель не заменит человеческий контроль на 100%. Особенно когда речь о сложных врачебных записях, где PII может быть закодирована в метафорах («наш знаменитый хирург из 3-й палаты»). Тут уж либо LLM с контекстом, либо разметчик. Советую не слепо доверять модели, а использовать её как фильтр первого уровня. Вторым уровнем поставьте проверку на фактор-центричную модель данных — там вы сможете разложить текст на атомарные факты и вычистить остатки.

А ещё — не забывайте: если данные будут использоваться для LLM-агентов, деидентификация может повлиять на качество ответов (модель потеряет контекст личности). Как именно — рассказано в эксперименте «Как анонимизация данных влияет на качество LLM-агентов». Там показано, что простая замена на заглушки портит инференс, а псевдонимы — почти нет. Учитывайте это при проектировании.

Подписаться на канал