Локальная память AI-агента vs Zep: результаты бенчмарка

Память — узкое горло автономных агентов

Любой, кто пытался построить агента, способного поддерживать осмысленный диалог дольше пяти минут, знает: память — это проклятие. Облачные решения вроде Zep обещали решить проблему, подгружая историю из внешней базы, но платить за каждый запрос и тянуть данные по сети — удовольствие сомнительное. И вот вышел бенчмарк, который ставит жирный крест на монополии облачных сервисов.

Неизвестная команда (пока не раскрыли ни код, ни архитектуру) представила локальную память AI-агента, которая на тестах LoCoMo (Long Context Memory) выжала 59% точности — против жалких 28% у Zep. На HotpotQA (multi-hop вопросы, требующие склейки фактов из разных кусков диалога) результат — 71.5%. Для сравнения: человеческий baseline на HotpotQA около 80%.

Ключевые цифры: LoCoMo: локальная память — 59%, Zep — 28%. HotpotQA: локальная память — 71.5%, Zep — 43% (по открытым данным).

Цифры выглядят сокрушительно. Но главный сюрприз не в метриках, а в том, что это локальное решение не требует GPU-фермы и работает на обычном CPU — по крайней мере, так утверждает анонс. Если это правда, то мы наблюдаем сдвиг парадигмы: агентам больше не нужен интернет, чтобы помнить, о чём они говорили час назад.

Почему локальная память выигрывает — теория и практика

Zep использует гибридную архитектуру: векторная база + граф знаний + реранжинг. Всё это живёт на серверах, а клиент получает только API. Проблема: latency. Даже при 50 мс на запрос, в многошаговом рассуждении каждый лишний вызов копит задержку. Локальная память, скорее всего, использует компактные эмбеддинги и кэширование прямо в RAM — отсюда и скорость, и точность.

Впрочем, без кода и деталей архитектуры остаётся только гадать. Команда обещает открыть реализацию «в ближайшие недели». Но уже сейчас можно разобрать, какие компоненты могли бы дать такой скачок.

Во-первых, сегментация контекста. Вместо того чтобы пихать всю историю в промпт (что дорого и неэффективно), агент разбивает диалог на эпизоды и хранит только релевантные. Во-вторых, динамическое сжатие — старые, но важные факты переупаковываются в краткие резюме, как это делают системы вроде MemGPT. И в-третьих — возможно, специализированная модель ранжирования, обученная именно на multi-hop запросах.

Но есть нюанс: открытые данные бенчмарка неполны. Неизвестно, на каких LLM тестировали (Gemma 4? Qwen3.5? GPT-4o-mini?) и сколько токенов умещается в локальную память. Без этой информации результаты — просто красивые цифры.

Тем не менее, даже с оговорками, это серьёзная заявка. Особенно на фоне тренда последних месяцев: всё больше разработчиков переходят на локальный AI против облака, экономя и деньги, и время. Помните историю про две RTX 4090, которые сэкономили $15,000 за год? Здесь та же логика — только теперь речь не об инференсе, а о памяти.

LoCoMo и HotpotQA — что это за звери

LoCoMo — свежий бенчмарк (март 2026), созданный для оценки долгосрочной памяти в диалогах. Он содержит 1000+ сессий по 50-100 реплик, где агент должен вспомнить факт, сказанный в начале разговора, чтобы ответить на вопрос в конце. Zep на нём традиционно показывал 20-30%, лучшие облачные RAG-системы — до 40%. 59% — новый рекорд.

HotpotQA — классика multi-hop QA, но в адаптации для агентов (нужно не просто найти два факта, а связать их через логику). 71.5% — это уровень продвинутых моделей с external memory, но те работают на кластерах, а не на локальной машине.

Показательно, что оба бенчмарка наказывают за «забывчивость». И локальное решение справляется с ней лучше, чем Zep — хотя Zep позиционируется как «память для агентов с нулевым промптом». Видимо, нулевой промпт не равен хорошей памяти.

Что это значит для разработчиков агентов

Если локальная память подтвердит свою эффективность в открытом доступе, рынок решений для agent memory ждёт перетряска. Zep и его аналоги (Mem0, LangMem) построены на подписке: платишь за количество хранимых сессий и запросов. Локальная альтернатива — разовое развёртывание на своём сервере или даже на Raspberry Pi (шутка, но не совсем).

Уже сейчас, не дожидаясь релиза, можно собрать черновик такой системы. В статье «Когда память кончается: как заставить локальный AI помнить больше 8К токенов» разбираются техники сжатия и эпизодической памяти — они вполне могли лечь в основу нового бенчмарка. А если добавить туда граф знаний, как в MCP memory server на Rust, получится ещё мощнее.

Кстати, о цифрах. В свежем обзоре бенчмарков LLM отмечают, что гонка за качеством уступает место гонке за эффективностью. Локальная память — идеальный пример: она не просто точнее, она ещё и дешевле (никаких API-звонков).

Единственный минус — отсутствие кода. Без него мы не можем проверить, насколько результат воспроизводим. Может, авторы использовали супер-специфичную модель или подогнали тесты. Но даже если это «натягивание совы на глобус», сам факт, что кто-то смог обогнать Zep на 30+ процентных пунктов, заставляет задуматься.

Мой прогноз: в течение полугода появится open-source реализация, которая станет стандартом де-факто для локальных агентов. Zep либо придётся резко удешевляться, либо внедрять локальные инстансы. А пока — следим за репозиториями и готовим свои сборки. Потому что агент, который не забывает, стоит дороже любого API.

Подписаться на канал

Локальная память AI-агента превосходит Zep: результаты бенчмарка на LoCoMo и HotpotQA

Память — узкое горло автономных агентов

Почему локальная память выигрывает — теория и практика

LoCoMo и HotpotQA — что это за звери

Что это значит для разработчиков агентов

Подписывайтесь на наш канал!