Ваш RAG выдает мусор? Реранкер — последний шанс исправить ситуацию

Представьте: вы построили идеальную RAG систему. Подобрали лучшие эмбеддинги из нашего обзора RTEB, настроили гибридный поиск по roadmap на 2026. Но ответы все равно кривые. Почему? Потому что поиск возвращает 20 релевантных документов, а LLM читает только первые 5. И среди этих пяти может не оказаться того единственного, что содержит ответ.

Реранкер — это модель, которая переупорядочивает результаты поиска. Берет ваши 20 чанков и говорит: «Вот этот — самый важный, этот — второй, а эти три вообще можно выкинуть». Разница в качестве ответов — до 40%. Не шутка.

💡

Реранкер работает после поиска, но до LLM. Он оценивает не семантическую близость (как эмбеддинги), а релевантность конкретному запросу. Это дороже, но точнее.

Кто в лидерах? Открываем свежие бенчмарки MTEB-Reranking

На 20 января 2026 года ситуация с реранкерами напоминает выбор LLM в 2025: есть явные фавориты, но появляются неожиданные конкуренты. MTEB (Massive Text Embedding Benchmark) обновил рейтинг реранкеров в декабре 2025. Вот что там происходит:

Модель	Разработчик	Размер	Точность (nDCG@10)	Особенность
Cohere Rerank-v4.0	Cohere	Неизвестно	68.4	API, платный
BGE-Reranker-v3.5	BAAI	335M	67.9	Open-source
Voyage Rerank-2	Voyage AI	Неизвестно	67.1	API, дешевле Cohere
Jina Reranker-v2	Jina AI	137M	66.8	Мультиязычный
FlashRank v1.5	Prithivi Da	до 4.8B	66.5	Локальный, CPU оптимизация

Cohere все еще держит первое место, но разрыв сократился. BGE-Reranker-v3.5 от китайского института BAAI дышит в спину — и это open-source. Voyage и Jina предлагают более дешевые API альтернативы. Но главный сюрприз — FlashRank.

FlashRank: когда нужно все запустить на своем железе

Вы читали про локальные LLM 2025 и хотите такую же историю с реранкерами? FlashRank — ваш выбор. Это не одна модель, а фреймворк с кучей предобученных моделей, от миниатюрных (33M параметров) до монстров (4.8B).

Что в нем крутого:

Работает на CPU — специальные оптимизации для Intel и ARM. Не нужна GPU.
Кэширование — если одинаковые запросы приходят часто, считает один раз.
Поддержка длинных контекстов — до 8192 токенов в последней версии 1.5.
Интеграция с RAG фреймворками — LangChain, LlamaIndex, Haystack.

FlashRank медленнее API решений. На CPU обработка 20 документов занимает 100-500 мс в зависимости от модели. Но если у вас 1000 RPS, считайте сами.

BGE-Reranker-v3.5: открытый код и почти паритет с Cohere

BAAI (Beijing Academy of Artificial Intelligence) в 2025 году выпустила третью крупную версию своих реранкеров. BGE-Reranker-v3.5 на 335M параметров показывает 67.9 против 68.4 у Cohere. Разница — в пределах статистической погрешности.

Почему разработчики любят BGE:

Можно дообучить на своих данных
Есть версии для разных языков (китайский, японский, арабский)
Поддерживается в Hugging Face Transformers
Лицензия MIT — можно использовать в коммерческих продуктах

Если ищете open-source альтернативу, загляните в Models Explorer — там собраны все подобные модели.

API реранкеры: когда время важнее денег

Cohere Rerank-v4.0 — золотой стандарт. Но в 2025 у него появились конкуренты:

Сервис	Цена за 1K запросов	Латентность (p95)	Контекст	Для кого
Cohere	$1.00	120 мс	4096 токенов	Production, когда качество критично
Voyage AI	$0.50	150 мс	8000 токенов	Длинные документы, бюджетные проекты
Jina AI	$0.75	180 мс	8192 токенов	Мультиязычные проекты

Voyage в два раза дешевле Cohere при сравнимом качестве. Jina специализируется на неанглийских языках — если ваш RAG работает с русским, немецким или китайским, стоит попробовать.

Локальные варианты: от миниатюрных до мощных

Тренд 2025 — эффективные маленькие модели. Как LFM2.5 1.2B среди LLM, так и среди реранкеров появились компактные варианты:

FlashRank-Mini (33M) — для мобильных устройств, IoT. Точность 58.3, но работает на Raspberry Pi.
BGE-Reranker-Small (110M) — компромисс между размером и качеством (63.1).
ColBERTv2 (110M) — не совсем реранкер, а late-interaction модель. Медленнее, но точнее для сложных запросов.

Эти модели вписываются в тренд, описанный в статье про бенчмарки LLM: теперь считают не только точность, но и стоимость инференса.

Как выбрать? Шпаргалка на 2025 год

Забудьте про универсальные рекомендации. Выбор зависит от вашего контекста:

1 Если делаете прототип или стартап

Берите Voyage API. Дешево, качественно, не нужно разворачивать инфраструктуру. Когда масштабируетесь — посмотрите на Cohere или переход на локальный вариант.

2 Если работаете с sensitive данными

FlashRank или BGE локально. Данные не уходят в облако. Для медицинских, финансовых, юридических приложений — только так.

3 Если высокие нагрузки (тысячи RPS)

Считайте TCO (Total Cost of Ownership). API кажется дешевле, но при 10K RPS счет будет $300/день. Локальный сервер с FlashRank окупится за месяц.

4 Если неанглийские языки

Jina AI или дообученный BGE. Cohere и Voyage лучше всего работают с английским.

Что будет в 2026? Прогноз от инсайдеров

Разговаривал с ребятами из нескольких компаний, которые делают реранкеры. Вот что ждет нас:

Мультимодальные реранкеры — будут ранжировать не только текст, но и изображения, таблицы, код.
Специализированные модели — отдельно для юридических документов, отдельно для медицинских, отдельно для кода.
Кросс-энкодеры с вниманием к структуре — будут учитывать не только содержание, но и расположение информации в документе.
Квантованные версии — как у MiniMax M2, но для реранкеров.

Мой совет: не закупайтесь надолго. Технология меняется каждые 6 месяцев. Выбирайте решение, которое можно заменить без переписывания половины кода.

И последнее: реранкер — не панацея. Если ваши эмбеддинги плохие или чанкинг кривой, даже лучший реранкер не спасет. Сначала настройте базовые компоненты, потом добавляйте реранкер как финальный штрих.

Реранкеры для RAG: что выбрать в 2025? От Cohere до локальных вариантов на CPU