Свежие исследования RAG: Oncotimia, AlignCoder, LURE-RAG за январь 2025

Oncotimia: когда RAG собирает консилиум онкологов

Первая неделя января принесла работу, которая заставила понервничать медицинских ИИ-специалистов. Oncotimia — это не просто очередной чат-бот с PubMed. Это система для поддержки принятия решений на tumour boards, тех самых мультидисциплинарных консилиумах, где решают судьбу пациента.

Авторы из Стэнфорда и MIT взяли за основу GPT-4o (да, самую свежую на тот момент версию с мультимодальностью) и обучили её на тысячах протоколов реальных tumour boards. Суть в том, чтобы RAG не просто выдавал абстрактные рекомендации из гайдлайнов, а имитировал процесс обсуждения: «Радиолог заметил бы это на снимке», «Хирург возразил бы из-за сопутствующих заболеваний», «Клинический фармаколог предложил альтернативу из-за токсичности».

💡

Ключевое отличие Oncotimia от предыдущих медицинских RAG — контекстуализация рекомендаций под конкретного врача в конкретной роли. Система понимает, что нейрохирургу и онкологу-химиотерапевту нужны разные срезы информации из одних и тех же клинических исследований.

В бенчмарках система показала на 34% более высокое соответствие итоговым решениям реальных консилиумов по сравнению с базовым RAG на GPT-4. Цифра впечатляет, но сразу возникает вопрос: а кто будет нести ответственность, если ИИ «соберёт консилиум» неправильно? Авторы честно пишут, что система — только для поддержки, но мы-то знаем, как это работает на практике.

AlignCoder: RAG, который не просто дополняет код, а выравнивает его

Пока одни улучшают RAG для медицины, другие бьются над вечной проблемой — генерацией кода. AlignCoder от исследователей из Google и Carnegie Mellon вышел в середине января и сразу попал в топ arXiv по запросу «code RAG».

Проблема старых подходов проста: ты просишь дописать функцию, RAG находит в индексе пять похожих функций из твоего кодовой базы, скармливает их LLM, а та выдаёт какую-то помесь, которая компилируется, но ломает три соседних модуля. AlignCoder добавляет этап «выравнивания» (alignment) — но не в привычном смысле RLHF, а в архитектурном.

Метод	Точность на HumanEval	Скорость (отн.)
Базовый RAG (DeepSeek-Coder-V2)	67.2%	1.0x
AlignCoder (тот же бэкбон)	73.8%	0.9x

Система анализирует не только семантическое сходство запроса и фрагментов кода, но и их «архитектурную роль» в проекте. Проще говоря, она отличает утилитарную функцию для парсинга логов от критичной бизнес-логики в ядре системы. За счёт этого реже предлагает использовать хаки из скрипта для админки в продакшен-микросервисе.

Если вам интересна тема RAG для кода, посмотрите наш разбор про проблемы локального RAG для кода и кейс Ragex для анализа кода на Elixir.

LURE-RAG: реранкинг, который поместится на тостере

Самая практичная работа месяца. Все говорят про реранкеры — модели, которые пересортировывают результаты поиска для RAG, чтобы самые релевантные фрагменты оказались в начале. Проблема в том, что лучшие из них (взять тот же Cohere) — это огромные модели, требующие GPU. LURE-RAG (Lightweight Unsupervised Reranker) предлагает альтернативу: модельку в 100 раз меньше, которая обучается вообще без размеченных данных.

Техника основана на контрастивном обучении: модель учится различать, какие фрагменты текста LLM «понравились» больше (на основе внутренних оценок внимания или confidence scores), а какие — меньше. Получается самообучающаяся система. На датасетах типа HotpotQA и Natural Questions LURE догоняет по точности supervised-реранкеры, потребляя при этом ресурсы как небольшой BERT.

Важный нюанс: LURE-RAG эффективен только с определёнными семействами LLM, чьи внутренние механизмы интерпретируемы. С черными ящиками вроде GPT-4o он работает хуже. Исследователи рекомендуют использовать его в связке с открытыми моделями типа Llama 3.1 или Qwen2.5.

Если выбираете реранкер для своего проекта, наш гид по реранкерам 2025 поможет разобраться в деталях.

А ещё было: RagView, академические papers и тихий сдвиг

Помимо громких работ, январь отметился парой любопытных тенденций.

RagView от OpenBMB: фреймворк, который пытается стандартизировать пайплайн RAG с поддержкой «вьюшек» — разных представлений одних и тех же документов (суммаризованное, ключевые термины, граф связей). Идея не нова, но реализация на 2025 год учитывает все последние фишки вроде работы с мультимодальными данными.
RAG для мета-анализа академических статей: несколько групп независимо опубликовали работы, где RAG-системы помогают исследователям не просто находить статьи, а выявлять противоречия в литературе, отслеживать эволюцию гипотез и даже предсказывать, какие направления будут хайповыми. По сути, это следующий уровень после Semantic Scholar.
Тихий отказ от naive RAG: во всех свежих статьях базовая архитектура «поиск-конкатенация-генерация» упоминается только как бейзлайн для сравнения. Все работают над гибридными подходами, агентскими схемами и графовыми расширениями. Об этом мы подробно писали в обзоре трендов RAG.

Что в итоге? RAG взрослеет, но проблемы остаются

Январь 2025 показал, что RAG уходит из мира прототипов в мир специализированных, ответственных применений. Онкологам, программистам, учёным — каждому нужна своя версия. Универсального решения нет и не будет.

Основные боли 2024 года — халлюцинации, непрозрачность, стоимость — никуда не делись. Они просто стали тоньше. Oncotimia может дать блестящую рекомендацию, но не объяснит, почему проигнорировала одно исследование в пользу другого. AlignCoder напишет красивый код, но сломает его, если кодовая база содержит устаревшие паттерны. LURE-RAG быстр, но его unsupervised-природа делает его предсказуемость чуть более случайной.

Если вы только начинаете разбираться с архитектурой, стартуйте с полного руководства по RAG. Если уже в теме и хотите заглянуть в будущее, читайте наш прогноз на 2026 год про атаки, таблицы и фейки.

Мой прогноз? К середине 2026 года мы увидим первые судебные разбирательства, где одной из сторон будет RAG-система, принявшая решение. И тогда все эти академические papers про interpretability и alignment внезапно станут самой востребованной темой на рынке. Готовьтесь.

Январь 2025: RAG лечит рак, пишет код и учится не врать

Oncotimia: когда RAG собирает консилиум онкологов

AlignCoder: RAG, который не просто дополняет код, а выравнивает его

LURE-RAG: реранкинг, который поместится на тостере

А ещё было: RagView, академические papers и тихий сдвиг

Что в итоге? RAG взрослеет, но проблемы остаются

Подписывайтесь на наш канал!