Oncotimia: когда RAG собирает консилиум онкологов
Первая неделя января принесла работу, которая заставила понервничать медицинских ИИ-специалистов. Oncotimia — это не просто очередной чат-бот с PubMed. Это система для поддержки принятия решений на tumour boards, тех самых мультидисциплинарных консилиумах, где решают судьбу пациента.
Авторы из Стэнфорда и MIT взяли за основу GPT-4o (да, самую свежую на тот момент версию с мультимодальностью) и обучили её на тысячах протоколов реальных tumour boards. Суть в том, чтобы RAG не просто выдавал абстрактные рекомендации из гайдлайнов, а имитировал процесс обсуждения: «Радиолог заметил бы это на снимке», «Хирург возразил бы из-за сопутствующих заболеваний», «Клинический фармаколог предложил альтернативу из-за токсичности».
В бенчмарках система показала на 34% более высокое соответствие итоговым решениям реальных консилиумов по сравнению с базовым RAG на GPT-4. Цифра впечатляет, но сразу возникает вопрос: а кто будет нести ответственность, если ИИ «соберёт консилиум» неправильно? Авторы честно пишут, что система — только для поддержки, но мы-то знаем, как это работает на практике.
AlignCoder: RAG, который не просто дополняет код, а выравнивает его
Пока одни улучшают RAG для медицины, другие бьются над вечной проблемой — генерацией кода. AlignCoder от исследователей из Google и Carnegie Mellon вышел в середине января и сразу попал в топ arXiv по запросу «code RAG».
Проблема старых подходов проста: ты просишь дописать функцию, RAG находит в индексе пять похожих функций из твоего кодовой базы, скармливает их LLM, а та выдаёт какую-то помесь, которая компилируется, но ломает три соседних модуля. AlignCoder добавляет этап «выравнивания» (alignment) — но не в привычном смысле RLHF, а в архитектурном.
| Метод | Точность на HumanEval | Скорость (отн.) |
|---|---|---|
| Базовый RAG (DeepSeek-Coder-V2) | 67.2% | 1.0x |
| AlignCoder (тот же бэкбон) | 73.8% | 0.9x |
Система анализирует не только семантическое сходство запроса и фрагментов кода, но и их «архитектурную роль» в проекте. Проще говоря, она отличает утилитарную функцию для парсинга логов от критичной бизнес-логики в ядре системы. За счёт этого реже предлагает использовать хаки из скрипта для админки в продакшен-микросервисе.
Если вам интересна тема RAG для кода, посмотрите наш разбор про проблемы локального RAG для кода и кейс Ragex для анализа кода на Elixir.
LURE-RAG: реранкинг, который поместится на тостере
Самая практичная работа месяца. Все говорят про реранкеры — модели, которые пересортировывают результаты поиска для RAG, чтобы самые релевантные фрагменты оказались в начале. Проблема в том, что лучшие из них (взять тот же Cohere) — это огромные модели, требующие GPU. LURE-RAG (Lightweight Unsupervised Reranker) предлагает альтернативу: модельку в 100 раз меньше, которая обучается вообще без размеченных данных.
Техника основана на контрастивном обучении: модель учится различать, какие фрагменты текста LLM «понравились» больше (на основе внутренних оценок внимания или confidence scores), а какие — меньше. Получается самообучающаяся система. На датасетах типа HotpotQA и Natural Questions LURE догоняет по точности supervised-реранкеры, потребляя при этом ресурсы как небольшой BERT.
Важный нюанс: LURE-RAG эффективен только с определёнными семействами LLM, чьи внутренние механизмы интерпретируемы. С черными ящиками вроде GPT-4o он работает хуже. Исследователи рекомендуют использовать его в связке с открытыми моделями типа Llama 3.1 или Qwen2.5.
Если выбираете реранкер для своего проекта, наш гид по реранкерам 2025 поможет разобраться в деталях.
А ещё было: RagView, академические papers и тихий сдвиг
Помимо громких работ, январь отметился парой любопытных тенденций.
- RagView от OpenBMB: фреймворк, который пытается стандартизировать пайплайн RAG с поддержкой «вьюшек» — разных представлений одних и тех же документов (суммаризованное, ключевые термины, граф связей). Идея не нова, но реализация на 2025 год учитывает все последние фишки вроде работы с мультимодальными данными.
- RAG для мета-анализа академических статей: несколько групп независимо опубликовали работы, где RAG-системы помогают исследователям не просто находить статьи, а выявлять противоречия в литературе, отслеживать эволюцию гипотез и даже предсказывать, какие направления будут хайповыми. По сути, это следующий уровень после Semantic Scholar.
- Тихий отказ от naive RAG: во всех свежих статьях базовая архитектура «поиск-конкатенация-генерация» упоминается только как бейзлайн для сравнения. Все работают над гибридными подходами, агентскими схемами и графовыми расширениями. Об этом мы подробно писали в обзоре трендов RAG.
Что в итоге? RAG взрослеет, но проблемы остаются
Январь 2025 показал, что RAG уходит из мира прототипов в мир специализированных, ответственных применений. Онкологам, программистам, учёным — каждому нужна своя версия. Универсального решения нет и не будет.
Основные боли 2024 года — халлюцинации, непрозрачность, стоимость — никуда не делись. Они просто стали тоньше. Oncotimia может дать блестящую рекомендацию, но не объяснит, почему проигнорировала одно исследование в пользу другого. AlignCoder напишет красивый код, но сломает его, если кодовая база содержит устаревшие паттерны. LURE-RAG быстр, но его unsupervised-природа делает его предсказуемость чуть более случайной.
Если вы только начинаете разбираться с архитектурой, стартуйте с полного руководства по RAG. Если уже в теме и хотите заглянуть в будущее, читайте наш прогноз на 2026 год про атаки, таблицы и фейки.
Мой прогноз? К середине 2026 года мы увидим первые судебные разбирательства, где одной из сторон будет RAG-система, принявшая решение. И тогда все эти академические papers про interpretability и alignment внезапно станут самой востребованной темой на рынке. Готовьтесь.