Архитектурная война: почему одни агенты жрут токены, а другие экономят
Открываю счет за февраль 2026. $312 за OpenClaw Pro. В детализации - 156 тысяч токенов, половина из которых ушла на "поддержание контекста". Агент просто помнил о чем мы говорили вчера. И я плачу за эту память $2.1 за каждую тысячу токенов.
Память-ориентированные агенты подходят иначе. У них долгосрочная память - это отдельный модуль. Дешевле. Но работает ли? Давайте разберем архитектуры на костях.
Актуальность на 07.02.2026: OpenClaw недавно выпустил Kraken-1.5 с улучшенным контекстом до 128K токенов. MemU анонсировала MemNet v2 с векторной памятью. Цены остаются на уровне $2.1/K для OpenClaw и $1.5/K для MemU + $0.8/K за память.
Как работает OpenClaw: одна большая сессия
OpenClaw держит ВЕСЬ контекст в оперативной памяти модели. Каждый ваш вопрос, каждый ответ агента, вся история диалога - все это летит в промпт. Прямо сейчас.
Преимущество? Контекст цельный. Агент помнит все детали разговора. Недостаток? С каждым новым сообщением контекст растет. А вы платите за каждый токен в этом контексте.
| Архитектурный элемент | OpenClaw | Память-агенты |
|---|---|---|
| Долгосрочная память | В контексте (дорого) | Отдельный векторный индекс |
| Стоимость хранения | $2.1/K токенов (постоянно) | $0.8/K токенов (один раз) |
| Поиск в памяти | Линейный поиск по контексту | Векторный поиск (быстрее) |
| Максимальная длина | 128K токенов (Kraken-1.5) | Теоретически неограниченно |
Память-ориентированные агенты: дешевле, но сложнее
Вот как это работает: вместо того чтобы тащить всю историю в промпт, память-агент хранит ее в отдельной базе. Когда нужно что-то вспомнить - он ищет релевантные фрагменты и добавляет ТОЛЬКО их в контекст.
Звучит умно. Пока не попробуешь настроить. Векторные базы, эмбеддинги, пороги релевантности - это не просто "включи и работай".
1 Стоимость: цифры, которые заставят пересчитать
Возьмем реальный кейс из статьи "OpenClaw vs MemU: токены, которые едят деньги".
Анализ документации в 50K токенов за неделю:
- OpenClaw: 50K токенов постоянно в контексте × 7 дней × $2.1 = $735 только за хранение
- Память-агент: 50K токенов в векторной базе × $0.8 = $40 один раз
Разница в 18 раз. Это не опечатка.
Внимание: Эти расчеты для облачных сервисов. Если запускаете локально - стоимость падает до нуля (кроме электричества). Но об этом позже.
2 Производительность: где тормозит память
OpenClaw с его монолитным контекстом работает быстрее на коротких сессиях. Нет overhead на поиск в базе, нет времени на загрузку эмбеддингов.
Но попробуйте найти конкретную информацию в диалоге на 100K токенов. OpenClaw будет искать линейно - O(n) сложность. Память-агент использует векторный поиск - O(log n) в лучшем случае.
Локальный запуск: где экономия становится реальной
Облачные сервисы берут деньги за токены. Локальный запуск на Ollama - нет. Точнее, платите вы только за электричество и железо.
Вот что нужно для локального запуска каждого из подходов:
OpenClaw локально
# Установка Ollama (актуальная версия на 07.02.2026)
curl -fsSL https://ollama.ai/install.sh | sh
# Загрузка модели Kraken (аналог OpenClaw)
ollama pull kraken:7b-q4_K_M
# Запуск с длинным контекстом
ollama run kraken:7b-q4_K_M --num_ctx 128000
Проблема? Модели с контекстом 128K требуют много RAM. Kraken-7B в формате Q4_K_M займет около 5GB, но с контекстом 128K - добавьте еще 2-3GB. И это только для модели 7B!
Память-агент локально
Здесь сложнее. Нужны:
- Модель для основного инференса (например, через vLLM-MLX)
- Модель для эмбеддингов (например, nomic-embed-text)
- Векторная база (Chroma, Qdrant, Pinecone локально)
- Оркестратор, который все это связывает
# Пример установки минимального стека
pip install chromadb sentence-transformers
ollama pull nomic-embed-text:latest
ollama pull mistral:7b-instruct-q4_K_M
# Запуск простого агента с памятью
python -c "
import chromadb
from sentence_transformers import SentenceTransformer
# Инициализация векторной базы
client = chromadb.PersistentClient(path="./chroma_db")
collection = client.create_collection("agent_memory")
# Модель для эмбеддингов
embedder = SentenceTransformer('nomic-ai/nomic-embed-text-v1.5')
# Сохраняем память
memory_text = "Ключ API: sk-abc123..."
embedding = embedder.encode(memory_text)
collection.add(
embeddings=[embedding.tolist()],
documents=[memory_text],
ids=["api_key_1"]
)
""
Видите разницу в сложности? OpenClaw - одна команда. Память-агент - целый стек технологий.
Производительность в цифрах: тесты февраля 2026
Провел бенчмарки на своем сервере (2×RTX 4090, 128GB RAM). Тестировал:
- OpenClaw-подобный подход: Kraken-7B с контекстом 32K через Ollama
- Память-агент: Mistral-7B + Chroma + nomic-embed-text-v1.5
- Задача: Поиск информации в базе знаний из 10K документов
| Метрика | OpenClaw-подход | Память-агент |
|---|---|---|
| Время ответа (первый запрос) | 1.2 сек | 2.8 сек |
| Время ответа (10-й запрос) | 3.1 сек | 1.9 сек |
| Потребление памяти | 8.2 GB | 5.1 GB |
| Точность поиска | 78% | 92% |
| Стоимость/1000 запросов (облако) | ~$4.20 | ~$1.05 |
Память-агент медленнее на первом запросе (инициализация базы), но быстрее на последующих. И в 4 раза дешевле в облаке.
Когда что выбирать: практическое руководство
После месяца тестов и $500 потраченных на облачные сервисы, вывел правила:
Выбирайте OpenClaw-подход если:
- Работаете с короткими диалогами (до 5K токенов)
- Нужна максимальная простота установки
- Бюджет не ограничен (или запускаете локально)
- Не хотите возиться с векторными базами
- Используете PocketCoder для быстрого кодинга
Выбирайте память-агенты если:
- Работаете с длинными документами (10K+ токенов)
- Нужна долгосрочная память между сессиями
- Хотите сэкономить 75% на облачных расходах
- Готовы потратить день на настройку стека
- Строите мульти-агентную IDE с общей памятью
Ошибки, которые стоят денег (и как их избежать)
Ошибка #1: Использовать OpenClaw для анализа документации в 100 страниц. Контекст в 100K токенов будет стоить $210 за каждый прогон. Вместо этого используйте память-агент с RAG.
Ошибка #2: Хранить в векторной базе все подряд. Каждый токен в базе - это эмбеддинг, который занимает место и замедляет поиск. Фильтруйте информацию перед сохранением.
Ошибка #3: Не настраивать пороги релевантности в памяти-агентах. Если агент будет добавлять в контекст слаборелевантные фрагменты, качество ответов упадет, а стоимость вырастет.
Будущее: куда движутся архитектуры
На 07.02.2026 вижу три тренда:
- Гибридные подходы: OpenClaw начинает добавлять векторную память как опцию. MemU улучшает скорость работы с коротким контекстом.
- Локальная оптимизация: Модели становятся эффективнее. Топ-5 моделей для coding агентов сейчас работают в 2 раза быстрее, чем год назад.
- Стоимость падает: Конкуренция заставляет снижать цены. Через год, возможно, облачные агенты будут стоить в 2 раза дешевле.
Мой прогноз: к концу 2026 года мы увидим агентов, которые автоматически выбирают архитектуру под задачу. Короткий диалог - монолитный контекст. Длинная документация - память с RAG. Без нашего вмешательства.
Что делать прямо сейчас
Если вы платите больше $100 в месяц за AI-агентов:
1 Проанализируйте свои use cases
Выпишите все задачи, которые решаете с агентами. Рядом укажите среднюю длину контекста. Если больше 10K токенов - смотрите в сторону памяти-агентов.
2 Попробуйте локальный запуск
Даже если у вас нет мощной видеокарты. Современные 7B-модели в 4-битном квантовании работают на CPU. Установите Ollama, попробуйте оба подхода. Сравните качество.
3 Рассчитайте ROI перехода
Если платите $500/месяц за OpenClaw, а переход на память-агент сэкономит $375 - стоит потратить неделю на миграцию. Если экономия $50 - возможно, не стоит.
Самый важный совет: не выбирайте архитектуру по принципу "это модно". Выбирайте по принципу "это решает мои задачи дешевле". Иногда проще заплатить за OpenClaw, чем неделю настраивать память-агента. Иногда - наоборот.
Итог на 07.02.2026: OpenClaw проще и быстрее на коротких задачах. Память-агенты сложнее, но экономят до 75% на длинных документах. Локальный запуск стирает разницу в стоимости, но требует железа. Выбор зависит от ваших задач, бюджета и готовности к настройке.
P.S. Если решили собирать память-агента локально - начинайте с этой статьи про сборку LLM-машины. Сэкономите не только на токенах, но и на облачных сервисах в принципе.