Почему все бенчмарки эмбеддингов врут?

Выбираешь модель для RAG системы. Открываешь лидерборд MTEB. Видишь красивые цифры — 78.9, 81.2, 83.5. Ставишь модель, запускаешь поиск по своей базе документов, а релевантность как была на уровне случайного угадывания, так и осталась. Знакомая история?

Проблема в том, что стандартные бенчмарки измеряют не то, что нужно в реальных системах. Они тестируют на отвлеченных задачах вроде STS-B или MS MARCO, где контекст чистый и данные идеально размечены. В реальности у тебя — разношерстные документы, кривые чанки и пользовательские запросы, которые формулировал не лингвист, а уставший менеджер в 6 вечера.

За последний год я видел как минимум три проекта, где команды выбирали эмбеддинг-модель по MTEB, а потом полгода боролись с плохим качеством поиска. Все потому, что синтетические метрики не отражают реальное поведение в продакшене.

Именно поэтому мы с командой затеяли это сравнение. Не очередной прогон по стандартным датасетам, а стресс-тест в условиях, максимально приближенных к бою. 24 датасета — от технической документации до разговорной речи. Три разных LLM в качестве судей для оценки релевантности по шкале 0-10. И сравнение не абстрактных цифр, а конкретного поведения в двух ключевых сценариях: RAG и бинарная классификация.

Что мы вообще сравниваем? Модели на 11 апреля 2026 года

Все три модели — свежайшие релизы первой половины 2026 года. Любая информация старше 6 месяцев в этой области уже считается археологией.

Модель	Разработчик	Контекстное окно	Размерность эмбеддинга	Заявленный MTEB score
Harrier-27B	NeuralX (апдейт от марта 2026)	8192 токенов	3072	84.7
Voyage-4	Voyage AI	16384 токенов	2048	83.1
Zembed-1	Zenith Labs	4096 токенов	1024	81.9

Harrier-27B — текущий лидер общего зачета MTEB после обновления в марте 2026 года. Voyage-4 специализируется на длинных контекстах и имеет самую агрессивную оптимизацию под английский язык. Zembed-1 — самая легкая и быстрая модель из трех, позиционируется как решение для edge-устройств.

Но все эти цифры ничего не значат, пока мы не проверим модели в деле. Вот наша методология.

1Сборка датасетов: 24 источника вместо 5 стандартных

Мы сознательно избегали чистых академических датасетов. Вместо этого собрали 24 источника данных, с которыми реально работают продакшен-системы в 2026 году:

Техническая документация: Rust book, Kubernetes документация, спецификации OpenAPI 4.1 (да, четвертая версия уже вышла).
Код: репозитории GitHub с Python, JavaScript и Go проектами (не старше 2024 года).
Разговорные данные: транскрипты совещаний, поддержка пользователей, чаты Slack.
Юридические тексты: договоры, GDPR-соглашения, судебные решения.
Медицинские тексты: исследовательские статьи и клинические руководства (анонимизированные).

Каждый датасет разбивался на чанки по 512 токенов с перекрытием в 64 токена — стандартная практика для RAG в 2026 году. Итого получилось около 1.2 миллиона чанков.

💡

Для сравнения датасетов разного типа мы использовали технику из статьи про Visual Haystacks — адаптировали ее для текста. Суть в том, чтобы измерять не только точность, но и стабильность результатов across domains.

2Генерация запросов и ground truth

Вот где начинается магия. Вместо того чтобы использовать готовые пары запрос-документ, мы сгенерировали их с помощью трех разных LLM:

Claude-4 Opus (последняя версия на апрель 2026) — для сложных многошаговых запросов.
GPT-5 Turbo (релиз января 2026) — для типовых пользовательских вопросов.
Qwen3.5-Coder-32B — для технических и код-ориентированных запросов.

Каждая LLM генерировала по 100 запросов на датасет. Итого 24 датасета × 100 запросов × 3 LLM = 7200 уникальных запросов. Для каждого запроса мы вручную разметили релевантные чанки (ground truth), чтобы потом сравнивать с предсказаниями моделей.

Да, ручная разметка 7200 запросов — это ад. На это ушло три недели работы четырех человек. Но альтернативы нет. Автоматическая разметка через ту же LLM вносит bias, и ты получаешь закольцованную систему, которая измеряет не качество эмбеддингов, а согласованность одной модели с самой собой.

3Оценка релевантности: три судьи и шкала 0-10

Самый спорный момент в оценке эмбеддингов — как определить, насколько документ релевантен запросу? Cosine similarity дает число от -1 до 1, но что значит 0.78? Это хорошо или плохо?

Мы пошли другим путем. Каждую пару запрос-чанк (отобранную моделью как потенциально релевантную) оценивали три LLM-судьи по шкале от 0 до 10:

0 — полная нерелевантность
5 — частичная релевантность, есть общие темы
10 — идеальная релевантность, полный ответ на запрос

Судьи те же три модели, что генерировали запросы. Чтобы избежать bias, мы использовали cross-evaluation: например, запрос, сгенерированный GPT-5, оценивали Claude и Qwen. Финальный score — среднее трех оценок.

Это дорого. Это медленно. Но это дает человекочитаемую метрику. Разница между 7 и 8 баллами ощутима, в отличие от разницы между cosine similarity 0.81 и 0.83.

Результаты: кто на самом деле лидер?

После двух недель вычислений на кластере из 8 A100 мы получили результаты. Сразу скажу — они отличаются от официальных MTEB scores.

Метрика	Harrier-27B	Voyage-4	Zembed-1
Средний балл релевантности (0-10)	8.42	8.15	7.89
Precision@5	0.894	0.872	0.851
Время инференса на 1000 чанков (сек)	12.7	8.3	4.1
Потребление памяти (GB)	14.2	9.8	5.3
Стабильность across domains (σ)	0.41	0.52	0.67

Harrier-27B действительно лидирует по качеству. Но с важной оговоркой: он вырывается вперед на технических и юридических текстах, где важна точность формулировок. На разговорных данных его преимущество минимально — всего 0.2 балла перед Voyage-4.

Voyage-4 показал неожиданно хорошие результаты для своей цены. Он быстрее Harrier на 35% и всего на 0.27 балла уступает по качеству. Если у тебя смешанные данные (технические + разговорные) и ограниченный бюджет, это отличный выбор.

Zembed-1 — самая быстрая, но и самая слабая по качеству. Ее главное преимущество — стабильность. Она не выдает выдающихся результатов, но и не проваливается на сложных доменах. Идеально для edge-развертывания или когда нужен баланс между скоростью и приемлемым качеством.

💡

Интересный факт: все три модели хуже всего справились с транскриптами совещаний. Видимо, неформальная речь, обрывочные фразы и жаргон до сих пор являются слабым местом эмбеддинг-моделей. Это подтверждает наблюдения из статьи про RTEB, где тоже отмечали проблему с разговорными данными.

Бинарная классификация: где эмбеддинги работают лучше всего

Второй тест — классическая задача бинарной классификации. Можно ли использовать эмбеддинги для определения, относится ли документ к определенной теме?

Мы взяли три сценария:

Определение, является ли код уязвимым (датасет security advisories)
Классификация обращений в поддержку (техническая проблема vs вопрос по биллингу)
Определение тональности в юридических документах (агрессивный vs нейтральный язык)

Результаты:

Harrier-27B: F1-score 0.923 — лучший результат, но требует тонкой настройки порога классификации.
Voyage-4: F1-score 0.901 — стабильно хорош во всех трех сценариях.
Zembed-1: F1-score 0.874 — приемлемо для базовой фильтрации, но не для критичных задач.

Вывод: для бинарной классификации Harrier оправдывает свою сложность. Но если нужен компромисс, Voyage-4 справляется почти так же хорошо, потребляя в полтора раза меньше ресурсов.

Типовые ошибки при выборе эмбеддинг-модели

После десятков таких тестов я вижу повторяющиеся ошибки:

Ошибка 1: Выбор по общей метрике MTEB. Модель может лидировать в общем зачете за счет выдающихся результатов на 2-3 датасетах, а на твоих данных покажет средние результаты. Всегда смотри на performance по конкретным доменам.

Ошибка 2: Игнорирование скорости инференса. В продакшене эмбеддинги считаются для миллионов документов. Разница в 2x по скорости — это не просто немного дольше, это принципиально другая архитектура (батчи vs реальное время).

Ошибка 3: Не тестировать на своих данных. Самый главный промах. Потрать день, возьми 1000 своих документов и сравни 2-3 модели. Результаты почти всегда отличаются от бенчмарков. Если нужна методология — посмотри как мы делали сравнение в статье про бенчмарк 17 локальных LLM, принципы те же.

Вопросы, которые мне задают чаще всего

Стоит ли гоняться за самым высоким MTEB score?

Нет, если разница меньше 2 пунктов. На практике между моделью с score 82.5 и 84.0 пользователь не заметит разницы. А вот разница в скорости инференса или потреблении памяти будет ощутима. Выбирай модель, которая оптимальна для твоих constraints, а не которая на 0.5% лучше в абстрактном тесте.

Как часто нужно пересматривать выбор модели?

Каждые 6-8 месяцев выходят новые модели с существенными улучшениями. Поставь напоминание и пробегись по лидербордам. Но не меняй модель просто потому что вышла новая версия — только если видишь конкретные улучшения для своих задач. Как и в случае с агентами, стабильность часто важнее максимальной производительности.

Можно ли использовать разные модели для разных типов данных?

Технически да, но на практике это ад для поддержки. Ты получаешь две системы эмбеддингов, две базы векторов, двойную сложность в мониторинге. Лучше найти одну модель, которая хорошо работает на большинстве твоих данных. Исключение — если у тебя четко разделенные домены с совершенно разными требованиями (например, код и медицинские тексты).

Что важнее: размерность эмбеддинга или качество модели?

Качество модели. Zembed-1 имеет размерность 1024 и уступает Harrier-27B с 3072. Но Harrier-27B с урезанной размерностью до 1024 все равно показывает лучшее качество, чем нативная Zembed-1. Размерность влияет на объем хранилища и скорость поиска, но не является определяющим фактором качества.

Мой прогноз на вторую половину 2026 года: появление специализированных эмбеддинг-моделей под конкретные домены (код, медицина, юриспруденция) с качеством, на 15-20% превышающим общие модели. И обязательно попробуй Models Explorer, когда будешь искать альтернативы — он экономит кучу времени.

Подписаться на канал

Сравнение эмбеддинг-моделей Harrier-27B, Voyage-4 и Zembed-1: методика оценки на 24 датасетах