Проблема, о которой молчат туториалы
Стандартный пайплайн RAG выглядит как мантра: нарезать текст на чанки, скормить в embedding model, забить в векторную БД и на каждый запрос гонять cosine similarity, выдёргивая top-k. Дешёво и сердито. Только вот в production это рассыпается. Почему? Cosine similarity — не более чем один из сигналов. Игнорировать структуру документа, метаданные, семантический сдвиг и точные совпадения — верный способ получить ответы, которые смешат пользователя или, хуже, вводят в заблуждение.
К середине 2026 года, когда GPT-5, Claude 4 и Gemini 2.5 Ultra стали повседневностью, а embedding-модели (вроде text-embedding-4 от OpenAI, Cohere Embed v3.2, Voyage-3 или BGE-M3) достигли впечатляющего качества, проблема осталась: ретривал по-прежнему — бутылочное горлышко. Потому что мы привыкли думать, что ретривал — это поиск. На самом деле ретривал — это фильтрация. И в этой статье я покажу вам 6 нетривиальных уроков, которые превратят вашу поисковую систему из «чёрного ящика» в детерминированный конвейер.
По пути сошлёмся на статьи, которые углубляют каждую мысль: Борьба с анизотропией эмбеддингов, RAG 2026: от гибридного поиска до production, Шесть нерассказанных уроков RAG и Гибридный поиск и реранжирование.