Что такое WMB-100K?

WMB-100K - это open-source бенчмарк для тестирования памяти искусственного интеллекта на экстремально длинных диалогах до 100 000 шагов, включающий тесты на точное воспоминание и ложную память.

Чем WMB-100K отличается от других бенчмарков длинного контекста?

WMB-100K фокусируется именно на памяти модели на сверхдлинных диалогах (100K шагов), включает специальные тесты на ложную память (false memory) и имеет низкую стоимость запуска по сравнению с аналогами.

Кому полезно использовать WMB-100K?

Бенчмарк полезен исследователям, разрабатывающим архитектуры памяти для LLM, инженерам, выбирающим модели для production-систем с длинными диалогами, и энтузиастам, тестирующим пределы локальных моделей.

WMB-100K: бенчмарк памяти LLM на 100к шагов | Обзор инструмента

Память LLM: когда 100 000 шагов - не предел

Все хвастаются контекстом в 128K, 1M, а то и бесконечным. Но что происходит с памятью модели после 50-й страницы диалога? Она помнит деталь из второго сообщения или уже галлюцинирует? WMB-100K - это open-source бенчмарк, который за копейки показывает, где у вашей LLM начинается слабоумие.

На 23.03.2026 большинство бенчмарков для длинного контекста вроде LongBench или L-Eval останавливаются на 10-20 тысячах токенов. WMB-100K бьет рекорд - 100 тысяч шагов диалога с контролем на false memory.

WMB-100K под микроскопом: что внутри?

Бенчмарк - это не просто датасет. Это система оценки с тремя ключевыми компонентами:

Синтетический датасет на 100K шагов: диалоги между пользователем и ассистентом на бытовые и технические темы. Каждый шаг - факт, имя, число или действие.
Две категории тестов: точное вспоминание (что было на шаге 42?) и обнаружение ложной памяти (было ли упоминание X?).
Метрики, которые имеют значение: accuracy для фактов, precision/recall для false memory, и самое главное - график деградации памяти по мере роста контекста.

💡

Ложные пробы (false memory probes) - это специально сгенерированные вопросы о чем-то, чего не было в диалоге. Если модель отвечает "да", это галлюцинация. WMB-100K измеряет, насколько модель склонна к таким ошибкам на длинной дистанции.

Сравниваем с аналогами: кто еще тестирует длинный контекст?

LongBench, L-Eval, InfiniteBench - все они хороши, но не дотягивают до масштаба WMB-100K. Вот таблица на 23.03.2026:

Бенчмарк	Макс. длина	False memory тесты	Стоимость запуска
WMB-100K	100 000 шагов	Да	~$5 на облачном инстансе
LongBench	до 32K токенов	Нет	~$10-15
InfiniteBench	до 1M токенов	Частично	$50+

Главное преимущество WMB-100K - его дешевизна. Датасет весит около 2GB, а скрипт оценки работает на любой машине с Python. Не нужно арендовать A100 на неделю, как для некоторых монструозных бенчмарков.

Запускаем за 5 минут: как это работает

Клонируешь репозиторий, ставишь зависимости и запускаешь eval скрипт для своей модели. Вот сокращенный пример (полный код в репозитории):

git clone https://github.com/author/wmb-100k.git
cd wmb-100k
pip install -r requirements.txt
python evaluate.py --model your-model --quantization q4_k_m --context-length 100000

Бенчмарк сам загрузит датасет, пропустит диалоги через модель и выдаст JSON с результатами. Если вы тестируете локальную модель через llama.cpp или похожий инференс-движок, нужно просто указать путь к GGUF файлу. Для облачных API - поменять провайдера в конфиге.

Для запуска тяжелых моделей вроде Qwen3.5-122B на полном контексте может потребоваться серьезное железо. Если у вас нет своей фермы, стоит присмотреться к облачным инстансам с большим объемом VRAM, например, на специализированных платформах. Цена часа начинается от $3-4, а для одного прогона WMB-100K хватит.

Кому пригодится этот бенчмарк?

Трем категориям людей:

Исследователям, которые разрабатывают новые архитектуры внимания или механизмы памяти для LLM. WMB-100K покажет, работает ли ваша инновация на 100K шагах или сдувается после 10K.
Инженерам, выбирающим модель для production-системы с длинными диалогами (поддержка, анализ документов). Посмотрите нашу статью про выбор LLM для инженерных задач - WMB-100K отлично дополняет такие тесты.
Энтузиастам, которые хотят понять пределы своей локальной модели. Запустили Qwen3.5-122B на 262K контекста? Проверьте, сколько из этого она реально помнит.

Если вы просто гоняете бенчмарки для галочки, WMB-100K вам не нужен. Он для тех, кому важна реальная работа с длинным контекстом, а не цифры в таблице.

Что в итоге?

WMB-100K - это специализированный инструмент для нишевой, но критической задачи. Он не заменит общие бенчмарки вроде MMLU или GSM8K, но покажет то, что они не видят: как модель ведет себя на марафонской дистанции.

Пока все гоняются за скоростью и стоимостью инференса, память остается слепым пятном. WMB-100K его подсвечивает. Бесплатно и без рекламы.

Скачивайте, тестируйте, и если ваша модель провалит тест на false memory после 80 тысяч шагов - не удивляйтесь. Она просто человек.

Подписаться на канал

WMB-100K: обзор open-source бенчмарка для тестирования памяти ИИ на 100 000 шагов