Коротко: почему старые подходы к памяти уже не тянут

Мультиагентные системы — штука капризная. Один агент помнит, второй забыл, третий вообще выдумывает факты. Классические решения — векторный RAG и сырой лог диалогов — дают или высокую точность, но сожрут кучу токенов, или экономят токены, но теряют факты. И тут на сцену выходит Context Graph Memory — подход, построенный на графе фактов, который ухитряется выдавать 88.9% точности при смешных 26.9 токенах на запрос. Давайте разберем, как это работает и стоит ли переписывать свою архитектуру.

💡

Если вы уже знакомы с проблемами долговременной памяти для LLM, рекомендую освежить в памяти обзор паттернов долговременной памяти — там хорошо показана эволюция подходов от простых логов до графовых структур.

Как устроена Context Graph Memory: никакой магии, только графы

Вместо того чтобы хранить диалоги в виде текста или эмбеддингов (как в RAG), Context Graph Memory строит направленный граф сущностей и отношений. Каждый факт — это узел, каждое отношение — ребро. Когда агенты общаются, система выцепляет сущности (люди, даты, кодовые переменные, API-вызовы) и связывает их в граф. Поиск — не семантический, а детерминированный: ты запрашиваешь «версия библиотеки X», и граф за O(1) отдает тебе последний известный факт.

Ключевая фишка — entity matching. Векторный RAG часто путает похожие сущности (например, «LangGraph» и «LangChain»). Граф хранит точные идентификаторы, а не размытые вектора, поэтому точность взлетает до 88.9% против 74.2% у лучшей векторной БД. При этом на запрос уходит всего 26.9 токенов — граф возвращает только нужный факт, а не три страницы контекста.

Важный нюанс: граф не хранит «настроение» агента или общие рассуждения — только факты. Если вам нужно помнить тональность диалога, придется комбинировать с другим механизмом. Но для большинства продуктовых сценариев (работа с кодом, базами знаний, тикетами) чисто фактологическая память — то, что доктор прописал.

Сравнение с альтернативами: цифры не врут

В бенчмарке на наборе из 2000 запросов с пятью мультиагентными системами (код-ревью, поддержка, исследование, планирование, генерация отчетов) Context Graph Memory показала результаты, от которых у фанатов векторных БД дергается глаз:

Метод памяти	Точность (F1)	Токенов на запрос	Скорость (ms)
Сырой лог (сырой контекст)	58.3%	2048+	1200
Векторный RAG (FAISS + OpenAI)	74.2%	685	340
Контекстный рот (скользящее окно)	61.5%	512	95
Context Graph Memory	88.9%	26.9	18

Как видите, графовый подход не просто точнее — он на порядок легче. Для сравнения: в статье про графовую когнитивную память на SQLite авторы тоже добились неплохих результатов, но их гибридный поиск потреблял в 3-4 раза больше токенов. Context Graph Memory выигрывает за счет полного отказа от векторной близости.

Примеры из жизни: как это выглядит на деле

1 Мультиагентное код-ревью

Представьте: три агента (архитектор, тестировщик, линтер) ревьювят пулл-реквест. Обычно каждый тянет весь контекст — файлы, коммиты, историю — итого 10-15 тысяч токенов. С Context Graph Memory агенты хранят только последние версии функций и их зависимости. Запрос «какая сигнатура у функции validate()?» возвращает один факт за 26.9 токенов. Агенты не тратят время на перечитывание всего кода, а просто сверяются с графом. Результат: скорость ревью вырастает в 5 раз, точность замечаний — на 20%.

2 Поддержка клиентов с ротацией агентов

В системах поддержки часто один агент начинает диалог, а другой заканчивает. Если не синхронизировать память, то второй агент не знает, что клиент уже подтвердил свою почту. Граф хранит статус каждого шага. Новый агент запрашивает «статус подтверждения email для user_123» и получает точный ответ — «подтвержден 2026-06-27». Никакого перечитывания лога. Именно об этом мы говорили в материале про локальную память за пределами 8K токенов — но там решали ограничения локальных моделей, а здесь вся фишка в структуре хранения.

3 Исследовательские ассистенты

Агенты, которые ищут информацию по API и собирают дашборды, часто сталкиваются с устаревшими фактами (stale fact retrieval). Граф помечает каждый факт меткой времени. Если факт устарел, агент автоматически триггерит перезапрос. Векторный RAG так не умеет — он вернет старую статью с высоким сходством, даже если вышла новая версия. Context Graph Memory решает эту проблему детерминированно: «версия API 2.3» — «устарела 2026-06-01, актуальная 3.0».

Кому это реально нужно?

Разработчикам мультиагентных систем на LangGraph или других фреймворках. Если вы уже строили архитектуру по гайду по LangGraph, то добавить графовую память вместо контекстного окна — вопрос пары дней. Экономия токенов окупит интеграцию за неделю продакшена.
Командам, которые считают каждый токен. Если ваш бюджет на LLM уже перевалил за тысячу долларов в месяц, снижение расхода в 20-40 раз — это не шутки.
Тем, кто работает с высоконагруженными системами. Время ответа 18 мс против 340 мс у RAG — критично для real-time сервисов. Особенно если у вас ротация агентов, как описано в статье про контекстный рот.

Совет: Не пытайтесь внедрить Context Graph Memory как полную замену всей памяти. Для хранения «настроения» агента, стиля общения или долгих рассуждений всё ещё нужен легкий текстовый буфер. Граф должен управлять фактами, а эмоции оставьте векторным или сырым подходам. Идеальное сочетание — граф + скользящее окно на 2-3 последних сообщения.

А что насчет ограничений?

Графовая память не всемогуща. Во-первых, она требует четкого выделения сущностей — нужен хороший NER-пайплайн или LLM-экстрактор. Это добавляет latency при вставке (около 150-200 мс на факт). Во-вторых, граф плохо масштабируется на миллионы сущностей без шардирования (но для большинства продакшен-сценариев до 100K узлов — отлично). В-третьих, если агенты постоянно меняют факты (например, каждую минуту), граф может «зашумляться» — нужна политика архивации устаревших узлов.

Но в сравнении с вечными проблемами векторного RAG (конфабуляции, высокий расход токенов, чувствительность к эмбеддингам) эти ограничения выглядят приемлемыми ценами за детерминизм и предсказуемость.

Что дальше: прогноз на 2027

Я ставлю на то, что к середине 2027 года Context Graph Memory станет стандартным компонентом мультиагентных фреймворков — так же, как два года назад RAG стал стандартом для LLM. Уже сейчас видно, как паттерны из статей про архитектуру AI-агентов для кода и сравнение мультиагентных архитектур сходятся к единому выводу: память должна быть структурированной, а не кучей текста. Если ваша система всё ещё волочет за собой сырой лог или пачку эмбеддингов — самое время заглянуть в репозиторий с бенчмарком и попробовать граф. Потому что 26.9 токенов на запрос при 88.9% точности — это не случайность, это сигнал.

Подписаться на канал

Context Graph Memory для мультиагентов: 88.9% точности при 26.9 токенах на запрос — новый стандарт памяти?