Ваш агент впал в бесконечный цикл в три часа ночи. Что дальше?
Вы запустили своего AI-агента в production. Первые два дня все было прекрасно. А потом началось: странные ответы, внезапные паузы, рост стоимости токенов на 300%. Вы смотрите в логи и видите только "ответ отправлен". Куда смотреть? Где искать причину?
Типичный сценарий. Агент для обработки поддержки начал отправлять клиентам цитаты из Ницше вместо инструкций по возврату товара. Агент-аналитик делает 47 запросов к базе данных на простой вопрос "сколько пользователей зарегистрировалось вчера". И самый страшный кошмар - агент для финансовых прогнозов молча перестает работать в пятницу вечером, а вы узнаете об этом только в понедельник утром.
Почему это происходит? AI-агенты - это не микросервисы. У них нет четких входных и выходных данных. Их пространство состояний бесконечно. Один и тот же промпт может породить миллионы разных путей выполнения. И стандартный мониторинг с метриками типа CPU и memory usage здесь бесполезен.
Классический мониторинг отвечает на вопрос "система работает?". Мониторинг AI-агентов должен отвечать на вопрос "система работает ПРАВИЛЬНО?". И это две огромные разницы.
LangSmith в 2026: не просто трассировка, а полная наблюдаемость
Если в 2024 LangSmith был удобным инструментом для отладки, то к 2026 году он превратился в полноценную платформу мониторинга production-агентов. Команда LangChain услышала главную боль разработчиков: "Мне нужно видеть, что делает мой агент, когда я не смотрю".
Новые фичи LangSmith 2.8 (актуально на март 2026):
- Real-time трассировка с фильтрацией - видите цепочки вызовов в реальном времени, фильтруете по стоимости, длительности, ошибкам
- Автоматическое обнаружение аномалий - система учится на нормальном поведении агента и алертит при отклонениях
- Интеграция с промпт-менеджментом - отслеживаете, какие версии промптов работают в production и как они влияют на качество
- Cost monitoring с прогнозированием - предсказываете расходы на токены на основе паттернов использования
Но инструмент - это только половина дела. Нужна стратегия. Давайте разбираться, как построить систему мониторинга, которая не даст агенту сойти с ума.
1 Настраиваем LangSmith: от тестовой среды к production
Первая ошибка - начать использовать LangSmith только когда что-то сломалось. Настройка должна быть частью процесса разработки с самого начала.
Установите последнюю версию LangChain (на март 2026 это 0.2.9):
pip install langchain==0.2.9 langsmith==0.1.12
Создайте проект в LangSmith (если еще нет аккаунта, придется зарегистрироваться - да, это платно, но дешевле, чем потерянные клиенты).
Настройте окружение:
import os
from langsmith import Client
os.environ["LANGSMITH_API_KEY"] = "ваш_ключ"
os.environ["LANGSMITH_PROJECT"] = "production-agent-monitoring"
os.environ["LANGSMITH_TRACING"] = "true"
client = Client()
Теперь самый важный шаг - настройка кастомизированных метрик. Стандартные метрики LangSmith хороши, но недостаточны.
2 Инструментируем агента: что отслеживать, кроме токенов
Токены и стоимость - это базовый уровень. Настоящий мониторинг начинается, когда вы отслеживаете семантику работы агента.
Добавьте кастомные трейсы в ключевые точки вашего агента:
from langchain.callbacks.tracers import LangChainTracer
from langchain.callbacks.manager import CallbackManager
class AgentMonitor:
def __init__(self):
self.tracer = LangChainTracer()
self.callback_manager = CallbackManager([self.tracer])
def log_decision_point(self, agent_name, decision, context):
# Логируем ключевые решения агента
with self.tracer.trace(f"decision_{agent_name}") as span:
span.set_tag("decision", decision)
span.set_tag("context", str(context)[:500]) # Ограничиваем длину
span.log_kv({
"timestamp": datetime.now().isoformat(),
"agent_version": "2.1.0"
})
Что обязательно отслеживать:
- Цепочки вызовов инструментов - какие инструменты вызываются, в каком порядке, сколько раз
- Время выполнения каждого шага - где агент тормозит
- Изменения контекста - как меняется состояние агента в процессе работы
- Ошибки и recovery attempts - как агент пытается восстановиться после сбоев
- Пользовательские feedback-метрики - если есть возможность собрать обратную связь
Если вы читали нашу статью про агентную инженерию, то помните принцип наблюдаемости. Вот его практическая реализация.
3 Настраиваем алертинг: когда бить тревогу
Золотое правило: алертов должно быть мало, но все они должны быть actionable. Если вы получаете 100 алертов в день, вы начнете их игнорировать.
Настройте в LangSmith мониторы для:
- Аномальный рост стоимости - если токены за запрос выросли на 50% за час
- Увеличение времени выполнения - медленные ответы раздражают пользователей
- Частые ошибки в цепочках - если агент постоянно падает на определенном шаге
- Изменение паттернов использования инструментов - вдруг агент начал использовать не те инструменты
Пример настройки алерта через LangSmith API:
# Создаем монитор для отслеживания аномальной стоимости
monitor_config = {
"name": "cost_anomaly_detector",
"metric": "total_tokens",
"threshold_type": "percentage_change",
"threshold_value": 50, # 50% изменение
"time_window": "1h",
"action": {
"type": "webhook",
"url": "https://your-slack-webhook.com/alerts",
"message_template": "🚨 Агент {project_name}: стоимость выросла на {value}%"
}
}
client.create_monitor(monitor_config)
Важный нюанс: настройте разные каналы для разных уровней критичности. Критические алерты - в Slack/Telegram сразу. Предупреждения - раз в день отчетом на почту.
4 Анализируем и улучшаем: мониторинг как источник insights
Мониторинг - не только про обнаружение проблем. Это источник данных для улучшения агента.
Раз в неделю проводите анализ трасс LangSmith:
- Самые дорогие цепочки - можно ли их оптимизировать?
- Частые ошибки пользователей - может, промпт нужно переписать?
- Неиспользуемые инструменты - зачем они вообще нужны?
- Успешные сценарии - что работает хорошо и можно ли это применить в других местах?
Используйте LangSmith для A/B тестирования промптов. Запустите две версии агента с разными промптами и сравните метрики:
# Создаем эксперимент в LangSmith
experiment = client.create_experiment(
name="prompt_ab_test",
variants=[
{"name": "v1_prompt_concise", "prompt_id": "prompt_123"},
{"name": "v2_prompt_detailed", "prompt_id": "prompt_456"}
],
primary_metric="user_satisfaction_score",
secondary_metrics=["total_tokens", "execution_time"]
)
Типичные ошибки и как их избежать
За 2 года работы с production-агентами я наступил на все грабли. Вот топ-5 ошибок мониторинга:
| Ошибка | Последствие | Решение |
|---|---|---|
| Отслеживать только технические метрики | Агент технически работает, но отвечает ерунду | Добавить семантические проверки: качество ответов, релевантность, точность |
| Игнорировать стоимость токенов | Счет от OpenAI на тысячи долларов | Настроить лимиты и алерты на аномальный рост |
| Нет плана на откат | При проблемах останавливаете весь сервис | Реализовать circuit breakers и fallback-режимы |
| Мониторинг только в продокшене | Проблемы обнаруживаются только у пользователей | Настроить мониторинг в staging и даже в тестах |
| Слишком много алертов | Алерты игнорируются, пропускается важное | Настроить агрегацию и приоритизацию алертов |
А если не хочу платить за LangSmith?
Понимаю. LangSmith - платный сервис, и не всем он по карману. Есть альтернативы:
- OpenTelemetry + Grafana - можно настроить трассировку через OpenTelemetry и визуализировать в Grafana. Сложнее, но бесплатно
- Самописное решение - пишите трейсы в базу и делаете дашборд. Требует времени на разработку и поддержку
- Комбинированный подход - LangSmith для разработки и отладки, кастомный мониторинг для production
Если вы рассматриваете альтернативы LangChain, посмотрите нашу статью про Cogitator - минималистичный фреймворк с встроенной трассировкой.
Важный момент на 2026 год: многие облачные провайдеры начали предлагать встроенный мониторинг для AI-агентов. AWS Bedrock, Google Vertex AI, Azure AI Studio - у всех есть свои инструменты наблюдаемости. Но они заточены под свои сервисы и менее гибкие, чем LangSmith.
Собираем все вместе: чеклист production+мониторинга
- Перед запуском в production: настроили LangSmith с кастомными метриками
- Определили 3-5 ключевых бизнес-метрик для отслеживания (не только технических)
- Настроили алертинг с разными уровнями критичности
- Реализовали механизм сбора обратной связи от пользователей
- Создали дашборд с основными метриками (в LangSmith или в вашей системе)
- Написали runbook на случай основных типов инцидентов
- Настроили регулярный (еженедельный) анализ трасс для улучшения агента
- Подготовили план отката на случай серьезных проблем
Что будет дальше? Прогноз на 2027
Мониторинг AI-агентов движется в сторону предиктивной аналитики. Уже сейчас LangSmith учится обнаруживать аномалии. В 2027 году, я уверен, появятся системы, которые:
- Предсказывают деградацию качества агента за дни до того, как это заметят пользователи
- Автоматически предлагают оптимизации промптов на основе анализа трасс
- Интегрируются с CI/CD для автоматического тестирования изменений в агентах
- Предлагают авто-ремедиацию - самостоятельно исправляют некоторые типы проблем
Но даже с самыми продвинутыми системами, одна вещь останется неизменной: вам все равно нужно понимать, как работает ваш агент. Никакой AI не заменит человеческое понимание бизнес-логики.
Поэтому мой главный совет: начните с простого. Настройте базовый мониторинг сегодня. Добавьте одну кастомную метрику. Проанализируйте одну цепочку вызовов. Завтра - еще одну. Через месяц у вас будет система, которая действительно защищает ваш production.
Потому что единственное, что хуже агента, который сломался - это агент, который сломался, а вы об этом не знаете.