Память LLM: когда 100 000 шагов - не предел
Все хвастаются контекстом в 128K, 1M, а то и бесконечным. Но что происходит с памятью модели после 50-й страницы диалога? Она помнит деталь из второго сообщения или уже галлюцинирует? WMB-100K - это open-source бенчмарк, который за копейки показывает, где у вашей LLM начинается слабоумие.
На 23.03.2026 большинство бенчмарков для длинного контекста вроде LongBench или L-Eval останавливаются на 10-20 тысячах токенов. WMB-100K бьет рекорд - 100 тысяч шагов диалога с контролем на false memory.
WMB-100K под микроскопом: что внутри?
Бенчмарк - это не просто датасет. Это система оценки с тремя ключевыми компонентами:
- Синтетический датасет на 100K шагов: диалоги между пользователем и ассистентом на бытовые и технические темы. Каждый шаг - факт, имя, число или действие.
- Две категории тестов: точное вспоминание (что было на шаге 42?) и обнаружение ложной памяти (было ли упоминание X?).
- Метрики, которые имеют значение: accuracy для фактов, precision/recall для false memory, и самое главное - график деградации памяти по мере роста контекста.
Сравниваем с аналогами: кто еще тестирует длинный контекст?
LongBench, L-Eval, InfiniteBench - все они хороши, но не дотягивают до масштаба WMB-100K. Вот таблица на 23.03.2026:
| Бенчмарк | Макс. длина | False memory тесты | Стоимость запуска |
|---|---|---|---|
| WMB-100K | 100 000 шагов | Да | ~$5 на облачном инстансе |
| LongBench | до 32K токенов | Нет | ~$10-15 |
| InfiniteBench | до 1M токенов | Частично | $50+ |
Главное преимущество WMB-100K - его дешевизна. Датасет весит около 2GB, а скрипт оценки работает на любой машине с Python. Не нужно арендовать A100 на неделю, как для некоторых монструозных бенчмарков.
Запускаем за 5 минут: как это работает
Клонируешь репозиторий, ставишь зависимости и запускаешь eval скрипт для своей модели. Вот сокращенный пример (полный код в репозитории):
git clone https://github.com/author/wmb-100k.git
cd wmb-100k
pip install -r requirements.txt
python evaluate.py --model your-model --quantization q4_k_m --context-length 100000Бенчмарк сам загрузит датасет, пропустит диалоги через модель и выдаст JSON с результатами. Если вы тестируете локальную модель через llama.cpp или похожий инференс-движок, нужно просто указать путь к GGUF файлу. Для облачных API - поменять провайдера в конфиге.
Для запуска тяжелых моделей вроде Qwen3.5-122B на полном контексте может потребоваться серьезное железо. Если у вас нет своей фермы, стоит присмотреться к облачным инстансам с большим объемом VRAM, например, на специализированных платформах. Цена часа начинается от $3-4, а для одного прогона WMB-100K хватит.
Кому пригодится этот бенчмарк?
Трем категориям людей:
- Исследователям, которые разрабатывают новые архитектуры внимания или механизмы памяти для LLM. WMB-100K покажет, работает ли ваша инновация на 100K шагах или сдувается после 10K.
- Инженерам, выбирающим модель для production-системы с длинными диалогами (поддержка, анализ документов). Посмотрите нашу статью про выбор LLM для инженерных задач - WMB-100K отлично дополняет такие тесты.
- Энтузиастам, которые хотят понять пределы своей локальной модели. Запустили Qwen3.5-122B на 262K контекста? Проверьте, сколько из этого она реально помнит.
Если вы просто гоняете бенчмарки для галочки, WMB-100K вам не нужен. Он для тех, кому важна реальная работа с длинным контекстом, а не цифры в таблице.
Что в итоге?
WMB-100K - это специализированный инструмент для нишевой, но критической задачи. Он не заменит общие бенчмарки вроде MMLU или GSM8K, но покажет то, что они не видят: как модель ведет себя на марафонской дистанции.
Пока все гоняются за скоростью и стоимостью инференса, память остается слепым пятном. WMB-100K его подсвечивает. Бесплатно и без рекламы.
Скачивайте, тестируйте, и если ваша модель провалит тест на false memory после 80 тысяч шагов - не удивляйтесь. Она просто человек.