Ваш агент впал в бесконечный цикл в три часа ночи. Что дальше?

Вы запустили своего AI-агента в production. Первые два дня все было прекрасно. А потом началось: странные ответы, внезапные паузы, рост стоимости токенов на 300%. Вы смотрите в логи и видите только "ответ отправлен". Куда смотреть? Где искать причину?

Типичный сценарий. Агент для обработки поддержки начал отправлять клиентам цитаты из Ницше вместо инструкций по возврату товара. Агент-аналитик делает 47 запросов к базе данных на простой вопрос "сколько пользователей зарегистрировалось вчера". И самый страшный кошмар - агент для финансовых прогнозов молча перестает работать в пятницу вечером, а вы узнаете об этом только в понедельник утром.

Почему это происходит? AI-агенты - это не микросервисы. У них нет четких входных и выходных данных. Их пространство состояний бесконечно. Один и тот же промпт может породить миллионы разных путей выполнения. И стандартный мониторинг с метриками типа CPU и memory usage здесь бесполезен.

Классический мониторинг отвечает на вопрос "система работает?". Мониторинг AI-агентов должен отвечать на вопрос "система работает ПРАВИЛЬНО?". И это две огромные разницы.

LangSmith в 2026: не просто трассировка, а полная наблюдаемость

Если в 2024 LangSmith был удобным инструментом для отладки, то к 2026 году он превратился в полноценную платформу мониторинга production-агентов. Команда LangChain услышала главную боль разработчиков: "Мне нужно видеть, что делает мой агент, когда я не смотрю".

Новые фичи LangSmith 2.8 (актуально на март 2026):

Real-time трассировка с фильтрацией - видите цепочки вызовов в реальном времени, фильтруете по стоимости, длительности, ошибкам
Автоматическое обнаружение аномалий - система учится на нормальном поведении агента и алертит при отклонениях
Интеграция с промпт-менеджментом - отслеживаете, какие версии промптов работают в production и как они влияют на качество
Cost monitoring с прогнозированием - предсказываете расходы на токены на основе паттернов использования

Но инструмент - это только половина дела. Нужна стратегия. Давайте разбираться, как построить систему мониторинга, которая не даст агенту сойти с ума.

1 Настраиваем LangSmith: от тестовой среды к production

Первая ошибка - начать использовать LangSmith только когда что-то сломалось. Настройка должна быть частью процесса разработки с самого начала.

Установите последнюю версию LangChain (на март 2026 это 0.2.9):

pip install langchain==0.2.9 langsmith==0.1.12

Создайте проект в LangSmith (если еще нет аккаунта, придется зарегистрироваться - да, это платно, но дешевле, чем потерянные клиенты).

Настройте окружение:

import os
from langsmith import Client

os.environ["LANGSMITH_API_KEY"] = "ваш_ключ"
os.environ["LANGSMITH_PROJECT"] = "production-agent-monitoring"
os.environ["LANGSMITH_TRACING"] = "true"

client = Client()

Теперь самый важный шаг - настройка кастомизированных метрик. Стандартные метрики LangSmith хороши, но недостаточны.

💡

Не делайте так: включаете LangSmith и думаете, что мониторинг готов. Делайте так: определите 5-7 ключевых метрик, которые действительно важны для вашего бизнеса. Для агента поддержки - время ответа и удовлетворенность. Для аналитического агента - точность данных и количество проверяемых источников.

2 Инструментируем агента: что отслеживать, кроме токенов

Токены и стоимость - это базовый уровень. Настоящий мониторинг начинается, когда вы отслеживаете семантику работы агента.

Добавьте кастомные трейсы в ключевые точки вашего агента:

from langchain.callbacks.tracers import LangChainTracer
from langchain.callbacks.manager import CallbackManager

class AgentMonitor:
    def __init__(self):
        self.tracer = LangChainTracer()
        self.callback_manager = CallbackManager([self.tracer])
    
    def log_decision_point(self, agent_name, decision, context):
        # Логируем ключевые решения агента
        with self.tracer.trace(f"decision_{agent_name}") as span:
            span.set_tag("decision", decision)
            span.set_tag("context", str(context)[:500])  # Ограничиваем длину
            span.log_kv({
                "timestamp": datetime.now().isoformat(),
                "agent_version": "2.1.0"
            })

Что обязательно отслеживать:

Цепочки вызовов инструментов - какие инструменты вызываются, в каком порядке, сколько раз
Время выполнения каждого шага - где агент тормозит
Изменения контекста - как меняется состояние агента в процессе работы
Ошибки и recovery attempts - как агент пытается восстановиться после сбоев
Пользовательские feedback-метрики - если есть возможность собрать обратную связь

Если вы читали нашу статью про агентную инженерию, то помните принцип наблюдаемости. Вот его практическая реализация.

3 Настраиваем алертинг: когда бить тревогу

Золотое правило: алертов должно быть мало, но все они должны быть actionable. Если вы получаете 100 алертов в день, вы начнете их игнорировать.

Настройте в LangSmith мониторы для:

Аномальный рост стоимости - если токены за запрос выросли на 50% за час
Увеличение времени выполнения - медленные ответы раздражают пользователей
Частые ошибки в цепочках - если агент постоянно падает на определенном шаге
Изменение паттернов использования инструментов - вдруг агент начал использовать не те инструменты

Пример настройки алерта через LangSmith API:

# Создаем монитор для отслеживания аномальной стоимости
monitor_config = {
    "name": "cost_anomaly_detector",
    "metric": "total_tokens",
    "threshold_type": "percentage_change",
    "threshold_value": 50,  # 50% изменение
    "time_window": "1h",
    "action": {
        "type": "webhook",
        "url": "https://your-slack-webhook.com/alerts",
        "message_template": "🚨 Агент {project_name}: стоимость выросла на {value}%"
    }
}

client.create_monitor(monitor_config)

Важный нюанс: настройте разные каналы для разных уровней критичности. Критические алерты - в Slack/Telegram сразу. Предупреждения - раз в день отчетом на почту.

4 Анализируем и улучшаем: мониторинг как источник insights

Мониторинг - не только про обнаружение проблем. Это источник данных для улучшения агента.

Раз в неделю проводите анализ трасс LangSmith:

Самые дорогие цепочки - можно ли их оптимизировать?
Частые ошибки пользователей - может, промпт нужно переписать?
Неиспользуемые инструменты - зачем они вообще нужны?
Успешные сценарии - что работает хорошо и можно ли это применить в других местах?

Используйте LangSmith для A/B тестирования промптов. Запустите две версии агента с разными промптами и сравните метрики:

# Создаем эксперимент в LangSmith
experiment = client.create_experiment(
    name="prompt_ab_test",
    variants=[
        {"name": "v1_prompt_concise", "prompt_id": "prompt_123"},
        {"name": "v2_prompt_detailed", "prompt_id": "prompt_456"}
    ],
    primary_metric="user_satisfaction_score",
    secondary_metrics=["total_tokens", "execution_time"]
)

Типичные ошибки и как их избежать

За 2 года работы с production-агентами я наступил на все грабли. Вот топ-5 ошибок мониторинга:

Ошибка	Последствие	Решение
Отслеживать только технические метрики	Агент технически работает, но отвечает ерунду	Добавить семантические проверки: качество ответов, релевантность, точность
Игнорировать стоимость токенов	Счет от OpenAI на тысячи долларов	Настроить лимиты и алерты на аномальный рост
Нет плана на откат	При проблемах останавливаете весь сервис	Реализовать circuit breakers и fallback-режимы
Мониторинг только в продокшене	Проблемы обнаруживаются только у пользователей	Настроить мониторинг в staging и даже в тестах
Слишком много алертов	Алерты игнорируются, пропускается важное	Настроить агрегацию и приоритизацию алертов

А если не хочу платить за LangSmith?

Понимаю. LangSmith - платный сервис, и не всем он по карману. Есть альтернативы:

OpenTelemetry + Grafana - можно настроить трассировку через OpenTelemetry и визуализировать в Grafana. Сложнее, но бесплатно
Самописное решение - пишите трейсы в базу и делаете дашборд. Требует времени на разработку и поддержку
Комбинированный подход - LangSmith для разработки и отладки, кастомный мониторинг для production

Если вы рассматриваете альтернативы LangChain, посмотрите нашу статью про Cogitator - минималистичный фреймворк с встроенной трассировкой.

Важный момент на 2026 год: многие облачные провайдеры начали предлагать встроенный мониторинг для AI-агентов. AWS Bedrock, Google Vertex AI, Azure AI Studio - у всех есть свои инструменты наблюдаемости. Но они заточены под свои сервисы и менее гибкие, чем LangSmith.

Собираем все вместе: чеклист production+мониторинга

Перед запуском в production: настроили LangSmith с кастомными метриками
Определили 3-5 ключевых бизнес-метрик для отслеживания (не только технических)
Настроили алертинг с разными уровнями критичности
Реализовали механизм сбора обратной связи от пользователей
Создали дашборд с основными метриками (в LangSmith или в вашей системе)
Написали runbook на случай основных типов инцидентов
Настроили регулярный (еженедельный) анализ трасс для улучшения агента
Подготовили план отката на случай серьезных проблем

Что будет дальше? Прогноз на 2027

Мониторинг AI-агентов движется в сторону предиктивной аналитики. Уже сейчас LangSmith учится обнаруживать аномалии. В 2027 году, я уверен, появятся системы, которые:

Предсказывают деградацию качества агента за дни до того, как это заметят пользователи
Автоматически предлагают оптимизации промптов на основе анализа трасс
Интегрируются с CI/CD для автоматического тестирования изменений в агентах
Предлагают авто-ремедиацию - самостоятельно исправляют некоторые типы проблем

Но даже с самыми продвинутыми системами, одна вещь останется неизменной: вам все равно нужно понимать, как работает ваш агент. Никакой AI не заменит человеческое понимание бизнес-логики.

Поэтому мой главный совет: начните с простого. Настройте базовый мониторинг сегодня. Добавьте одну кастомную метрику. Проанализируйте одну цепочку вызовов. Завтра - еще одну. Через месяц у вас будет система, которая действительно защищает ваш production.

Потому что единственное, что хуже агента, который сломался - это агент, который сломался, а вы об этом не знаете.

Подписаться на канал

LangChain: практическое руководство по мониторингу AI-агентов в production