Память, которая никогда не была надежной
Все началось с простого вопроса: почему одна и та же модель в разных статьях показывает дико различающиеся результаты по долгосрочной памяти? Ответ оказался проще и неприятнее, чем можно было предположить. Бенчмарк LoCoMo (Long-Context Memory Benchmark), который последние полтора года считался золотым стандартом для тестирования памяти у моделей вроде GPT-4 Turbo, Claude 3 Opus или свежего Mistral Small 3, оказался с фундаментальными трещинами.
Цифры аудита шокируют: 6.4% эталонных ответов в датасете — неверны. Еще хуже — система валидации принимает 63% заведомо ложных ответов моделей как правильные. Это не мелкие погрешности, а системный коллапс метрики.
Представьте, что вы сдаете экзамен, где в учебнике ошибки, а преподаватель засчитывает любую чушь, которую вы написали. Именно в такой ситуации оказались сотни исследований, сравнивающих последние LLM. Их выводы о том, какая модель лучше запоминает длинные контексты, теперь висят в воздухе.
Что сломалось и как это заметили
LoCoMo строился на идее проверки фактов, разбросанных по длинному документу (иногда в 100k+ токенов). Модель должна была найти и точно процитировать ответ. Звучит логично. Но логика разбилась о реализацию.
- Ошибки в "золотых" ответах: В 6.4% случаев правильный ответ, указанный в бенчмарке, был либо неточным, либо вообще не соответствовал контексту. Модель, давшая фактически верную информацию, получала штраф.
- Сломанный валидатор: Алгоритм проверки ответов (тот самый, что ставит баллы) был настроен так щедро, что принимал ответы, лишь отдаленно похожие на эталон. Если в тексте говорилось о "высоком уровне продаж в 2024", а модель отвечала "продажи были хорошие в прошлом году", это часто засчитывалось как верный ответ. Контекст на 2026 год делает такие ошибки еще абсурднее.
- Утечка данных через шаблоны: Некоторые вопросы были сформулированы так, что по самой формулировке можно было угадать ответ, даже не читая многотысячный контекст. Типичная утечка данных в обучении, но здесь она попала в эталонный тест.
Кто оказался в выигрыше, а кто проиграл из-за ошибок
Искажения в LoCoMo не были нейтральными. Они систематически завышали оценки определенным типам моделей.
Модели, которые были склонны давать расплывчатые, общие ответы (часто более дешевые или меньшие по размеру), получали незаслуженно высокие баллы за память. В то время как модели, пытавшиеся быть точными и цитировать дословно, наказывались за малейшее отклонение от ошибочного "золотого" эталона.
Получается, что сравнение 14B модели с 30B конкурентами на основе LoCoMo могло дать абсолютно ложное представление об их реальных возможностях. Модель могла казаться "гениальной" в памяти, просто потому что хорошо угадывала по шаблонам или была склонна к обобщениям, которые лояльно принимал валидатор.
Что делать, если ваше исследование под угрозой
Паника — плохой советчик. Но и игнорировать проблему нельзя. Вот что можно сделать прямо сейчас.
- Перепроверьте ключевые выводы. Если ваша статья или отчет сильно опирались на результаты LoCoMo, нужно перетестировать модели на альтернативных бенчмарках — например, на тщательно проверенных собственных наборах данных.
- Требуйте прозрачности. При использовании любого бенчмарка, включая новые для оценки эмбеддингов вроде RTEB, изучайте код валидации и выборочно проверяйте "золотые" данные. Да, это скучно. Но иначе вы рискуете своей репутацией.
- Доверяйте, но проверяйте. Децентрализованные системы оценок, такие как Community Evals на Hugging Face, могут помочь выявить такие аномалии раньше, потому что в них больше глаз смотрят на одни и те же данные.
Главный урок: бенчмарк — это не истина в последней инстанции, а всего лишь инструмент. И как любой инструмент, он может быть кривым. Слепая вера в метрики убивает качественную оценку.
Что дальше? Будущее оценки LLM после скандала
История с LoCoMo — это симптом более глубокой болезни. Гонка за публикациями и красивыми цифрами в таблицах приводит к тому, что фундаментальная работа по проверке данных отходит на второй план. Как мы уже отмечали, гонка за качеством закончилась, но это не значит, что нужно мириться с халтурой.
Вероятно, мы увидим волну ретракций или, как минимум, исправлений в статьях 2024-2025 годов. А главное — рост спроса на методики практической оценки LLM-продуктов, которые меньше зависят от сырых академических бенчмарков и больше — от реальных сценариев использования.
Совет напоследок? Перестаньте слепо смотреть на сводные таблицы с результатами LoCoMo, MMLU или других бенчмарков. Лучше потратьте время на создание своего, небольшого, но тщательно выверенного набора тестовых кейсов. Ваша собственная, возможно, скучная валидация даст вам больше правды, чем все разрекламированные бенчмарки вместе взятые. Проверка данных — это новая суперсила в эпоху AI.