Почему cosine similarity не может быть единственным основанием для ретривала?

Cosine similarity страдает от анизотропии эмбеддингов (эмбеддинги не равномерно распределены) и не всегда коррелирует с истинной релевантностью. Два семантически разных текста могут иметь высокий косинус, а релевантный — низкий. Косинус — лишь один сигнал, его нужно комбинировать с фильтрацией по метаданным и точным ключевым словам.

Как заменить cosine similarity на фильтрацию?

Вместо того чтобы искать 'самый похожий чанк', нужно сначала применить фильтры по структурированным полям: дата, автор, категория, заголовок раздела. Такая фильтрация может выполняться на уровне SQL-запроса в постгрес или встроенных фильтрах векторных БД. Затем уже внутри отфильтрованного набора можно посчитать косинус или сразу использовать LLM-арбитра.

Что такое LLM-арбитр в контексте ретривала?

LLM-арбитр — это модель (например, GPT-4o, Claude 4), которая получает на вход набор кандидатов, отфильтрованных по метаданным, и определяет, какие из них действительно релевантны запросу. Это заменяет или дополняет cosine similarity, особенно для сложных запросов, где семантическая близость не гарантирует полезности.

Как структурированный чанкинг (TOC reasoning) улучшает ретривал?

Вместо нарезки на чанки фиксированной длины TOC reasoning сохраняет иерархию документа (оглавление, заголовки разделов). Ретривал сначала ищет по заголовкам, затем внутри выбранных секций. Это резко повышает точность, так как контекст раздела релевантен, а не просто ближайший кусок текста.

Зачем нужен keyword search, если есть эмбеддинги?

Эмбеддинги плохо находят точные совпадения (например, номера патентов, коды ошибок, имена). BM25 или SPLADE гарантированно вытащат документ с точным совпадением строки. Гибридный поиск (keyword + semantic) с последующей фильтрацией даёт лучший recall.

Какая версия embedding-модели актуальна на 2026 год?

На июль 2026 года доминируют text-embedding-4 от OpenAI, Cohere Embed v3.2, Voyage-3 и BGE-M3 от BAAI. Эти модели имеют длину эмбеддингов до 1024 и поддерживают мультиязычность. Для production рекомендую комбинировать их с разреженными эмбеддингами SPLADE-v3.

6 уроков RAG-ретривала: отказ от cosine similarity в пользу фильтрации

Проблема, о которой молчат туториалы

Стандартный пайплайн RAG выглядит как мантра: нарезать текст на чанки, скормить в embedding model, забить в векторную БД и на каждый запрос гонять cosine similarity, выдёргивая top-k. Дешёво и сердито. Только вот в production это рассыпается. Почему? Cosine similarity — не более чем один из сигналов. Игнорировать структуру документа, метаданные, семантический сдвиг и точные совпадения — верный способ получить ответы, которые смешат пользователя или, хуже, вводят в заблуждение.

К середине 2026 года, когда GPT-5, Claude 4 и Gemini 2.5 Ultra стали повседневностью, а embedding-модели (вроде text-embedding-4 от OpenAI, Cohere Embed v3.2, Voyage-3 или BGE-M3) достигли впечатляющего качества, проблема осталась: ретривал по-прежнему — бутылочное горлышко. Потому что мы привыкли думать, что ретривал — это поиск. На самом деле ретривал — это фильтрация. И в этой статье я покажу вам 6 нетривиальных уроков, которые превратят вашу поисковую систему из «чёрного ящика» в детерминированный конвейер.

По пути сошлёмся на статьи, которые углубляют каждую мысль: Борьба с анизотропией эмбеддингов, RAG 2026: от гибридного поиска до production, Шесть нерассказанных уроков RAG и Гибридный поиск и реранжирование.

Подписаться на канал

6 нетривиальных уроков RAG-ретривала: почему cosine similarity не основание, а фильтрация

Проблема, о которой молчат туториалы

Подписывайтесь на наш канал!