Китайская модель, которая переиграла GPT-5.2 в медицинских тестах
Baichuan-M3 вышел в январе 2026 года и сразу же устроил небольшой скандал. Разработчики заявили, что их 235-миллиардная модель обгоняет GPT-5.2 в медицинских бенчмарках. Не просто на пару процентов, а на 8-12% в тестах типа MedQA и PubMedQA. Звучит как маркетинг, но веса открыты под Apache 2.0 - можно проверить самому.
Важный нюанс: когда говорят о превосходстве над GPT-5.2, имеют в виду специализированные медицинские тесты. В общих задачах модель всё ещё отстаёт. Но для сбора анамнеза это именно то, что нужно.
Главная фишка Baichuan-M3 - не просто отвечать на вопросы, а вести клинический диалог. Модель обучена на миллионах реальных врачебных бесед и умеет задавать уточняющие вопросы, как живой терапевт. Это не Q&A система, а именно диалоговый агент.
Чем Baichuan-M3 отличается от других медицинских моделей
Сравнивать её с MedGemma или старыми версиями медицинских LLM - всё равно что сравнивать ChatGPT с экспертной системой 90-х. Вот ключевые отличия:
| Модель | Лицензия | Размер | Специализация |
|---|---|---|---|
| Baichuan-M3 | Apache 2.0 | 235B | Клинический диалог, анамнез |
| MedGemma 2 | Apache 2.0 | 27B | Медицинские Q&A |
| GPT-5.2 Medical | Проприетарная | Неизвестно | Общая медицина |
| BioMistral 40B | Apache 2.0 | 40B | Биомедицинские исследования |
Самое важное - диалоговая архитектура. Baichuan-M3 запоминает контекст на 32К токенов и может вести многораундовую беседу, постепенно уточняя симптомы. Типичный сценарий:
- Пациент: "Болит голова"
- Модель: "С какой стороны болит? Какой характер боли - пульсирующая, давящая, режущая?"
- Пациент: "Справа, пульсирующая"
- Модель: "Боль появилась внезапно или постепенно? Сопровождается ли тошнотой или светобоязнью?"
И так далее. Модель не просто генерирует текст - она строит диагностическое дерево.
Железные требования: что нужно для запуска
235 миллиардов параметров - это не шутки. Но есть варианты:
- Полная версия (FP16): 470 ГБ VRAM. Нужны минимум 8×H100 или эквивалент. Реалистично только для больших клиник.
- Квантованная версия (GPTQ/INT4): ~120 ГБ VRAM. Уже лучше - помещается на 2-3 карты с 48 ГБ каждая.
- GGUF версия (Q4_K_M): ~100 ГБ RAM. Запускается на CPU, но медленно. Требует сервер с 128+ ГБ оперативки.
Для домашнего использования есть уменьшенная версия Baichuan-M3-14B - она требует 28 ГБ VRAM в FP16 и работает на одной карте типа RTX 4090. Но качество страдает.
Квантование в INT4 снижает точность на 3-5% в медицинских тестах. Для исследовательских задач это приемлемо, для клинического использования - спорно.
Практика: запускаем модель за 20 минут
Всё просто, если у вас есть подходящее железо. Вот минимальный рабочий конфиг:
1Устанавливаем зависимости
pip install transformers torch accelerate vllm
# Для GPU с Ampere или новее
pip install flash-attn --no-build-isolation2Скачиваем модель
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="baichuan-inc/Baichuan-M3-235B",
local_dir="./baichuan-m3",
ignore_patterns=["*.safetensors", "*.bin"], # Скачиваем только конфиги
)Веса модели весят 440 ГБ. Если у вас медленный интернет, лучше использовать зеркала или предзагруженные образы.
3Запускаем через vLLM
from vllm import LLM, SamplingParams
llm = LLM(
model="./baichuan-m3",
tensor_parallel_size=4, # Для 4 GPU
gpu_memory_utilization=0.9,
max_model_len=32768
)
sampling_params = SamplingParams(
temperature=0.7,
top_p=0.95,
max_tokens=1024
)
# Пример диалога
messages = [
{"role": "system", "content": "Ты - опытный терапевт. Собери анамнез у пациента."},
{"role": "user", "content": "У меня болит живот уже два дня."}
]
outputs = llm.generate([messages], sampling_params)
print(outputs[0].outputs[0].text)vLLM даёт максимальную скорость инференса. Если нужна совместимость с OpenAI API, используйте llama.cpp или Text Generation Inference.
Работает ли это на потребительском железе?
Технически - да, но с оговорками. На RTX 4090 (24 ГБ) можно запустить квантованную версию Q4_K_M через llama.cpp. Скорость - 1-2 токена в секунду. Для тестов сойдёт, для продакшена - нет.
Лучший вариант для небольших клиник - арендовать инстанс с 2×A100 80GB. Стоит около $8-12 в час. Запускаете модель, собираете анамнез у 10-20 пациентов параллельно, выключаете.
Где использовать Baichuan-M3 в реальной жизни
Не в диагностике. Никогда не используйте ИИ для постановки диагноза без врача. А вот для сбора анамнеза - идеально:
- Триаж в приёмном отделении: модель опрашивает пациента, пока врач занят с другим
- Предварительная консультация в телемедицине: собирает симптомы до видеозвонка с врачом
- Медицинские исследования: структурирование неформализованных жалоб пациентов
- Обучение студентов-медиков: симуляция диалога с пациентом
Пример из практики: в одной московской клинике Baichuan-M3 уменьшил время первичного приёма на 40%. Врач получает уже структурированный анамнез вместо "что-то болит где-то".
Подводные камни и ограничения
Модель обучена преимущественно на китайских и англоязычных данных. Русский медицинский контекст знает хуже. Нужен дополнительный финетюн.
Лицензия Apache 2.0 разрешает коммерческое использование, но с оговоркой: "Не используйте для медицинской диагностики без надзора врача". Это не просто рекомендация - это требование.
Токенизатор оптимизирован под китайский и английский. Русские медицинские термины иногда разбивает на странные subwords. Решение - добавить русские токены в словарь.
Что делать, если нет 500 ГБ VRAM
Три рабочих варианта:
- API-доступ: Baichuan предлагает облачный API за $0.08/1K токенов. Дорого для массового использования.
- Меньшая версия: Baichuan-M3-14B даёт 85% качества за 5% требований к памяти.
- Гибридный подход: Запускаете маленькую модель локально, сложные случаи отправляете в облако к большой.
Для большинства задач хватит 14B версии. Разницу заметит только эксперт в слепом тесте.
Будущее медицинских LLM
Baichuan-M3 - не конечная точка. Уже анонсирована версия M4 с мультимодальностью (анализ снимков + диалог). Но текущая модель показывает главный тренд: специализированные ИИ выигрывают у универсальных в узких областях.
Через год мы увидим модели размером 50B с качеством сегодняшних 235B. А через два - на смартфонах. Технология сбора анамнеза станет такой же обычной, как электронная очередь в поликлинике.
Пока что совет простой: если у вас есть сервер с 200+ ГБ VRAM - пробуйте Baichuan-M3. Если нет - берите 14B версию или ждите, пока кто-то запустит публичный API. Медицинский ИИ перестал быть экзотикой. Он стал инструментом. Инструментом, который экономит время врачей и улучшает качество сбора данных.
Главное - помнить, что это всё ещё инструмент, а не врач. Последнее слово должно оставаться за человеком в белом халате. Даже если ИИ задаёт вопросы лучше.