Как оценивать качество работы ИИ-агента?

Используйте три метрики: Accuracy (процент правильных ответов), Latency (время от запроса до ответа, цель < 5 секунд) и User satisfaction (оценка пользователей по 5-балльной шкале).

Что делать с устаревшими данными в корпоративной базе знаний?

Внедрите систему version-aware поиска. Каждый документ должен иметь метку актуальности. Агент должен проверять дату и предупреждать пользователя, если информация может быть устаревшей.

Архитектура DeepResearch от Яндекса: от RAG к агентам в 2026

Проблема: почему корпоративные ИИ-ассистенты все еще тупят

Представьте: 2025 год, ваша компания купила лицензию на GPT-5 Enterprise, развернула векторную базу, настроила RAG-пайплайн. Инженеры месяц пилили интеграцию. Итог? Система отвечает на вопросы о внутренних процессах с точностью чуть лучше случайного поиска по Confluence.

Знакомо? Я тоже через это проходил. В Яндексе мы столкнулись с той же проблемой в 2024-м. Наш первый корпоративный ассистент на базе RAG (Retrieval-Augmented Generation) работал по принципу "спросил-получил ответ". Результаты были... предсказуемо плохими.

Главная ошибка: мы думали, что достаточно закинуть документы в векторное хранилище и подключить LLM. Реальность оказалась сложнее. Внутренние данные компании — это не структурированные статьи из Википедии, а хаос из Slack-переписок, устаревших инструкций, противоречивых требований и полузабытых решений.

Типичный сценарий: разработчик спрашивает "Как настроить деплой для микросервиса Х?". RAG находил 5 разных инструкций от разных команд, каждая со своими нюансами. LLM пыталась их усреднить. Получалась каша из общих фраз без конкретики.

Решение: от статичного RAG к динамичному агенту

Вот где мы поняли: нужен не просто поисковик с языковой моделью, а полноценный исследовательский агент. Тот, который умеет не только искать, но и думать, планировать, проверять гипотезы.

Так родился DeepResearch — наш внутренний ИИ-агент для работы с корпоративными знаниями. Не публичный продукт, а внутренний инструмент, который сейчас используют тысячи яндексовцев ежедневно.

💡

Ключевое отличие DeepResearch от обычного RAG: агент не просто ищет по запросу пользователя. Он сначала анализирует, что на самом деле нужно человеку, какие подвопросы существуют, какие источники стоит проверить, а затем проводит многоэтапное исследование с перекрестной проверкой данных.

Архитектура DeepResearch: как мы разбили монолит

Первая версия была монолитом: один большой сервис, который делал все — от планирования до ответа. Масштабировалось это ужасно.

Текущая архитектура (на начало 2026 года) выглядит так:

Компонент	Роль	Технологии (2026)
Оркестратор	Принимает запрос, управляет потоком работы агентов	YandexGPT 4.0 + кастомная логика на Go
Планировщик	Разбивает сложные вопросы на подзадачи	Mixtral 8x22B (fine-tuned)
Специализированные агенты	Выполняют конкретные задачи (поиск, анализ, проверка)	Разные модели под задачи
Векторный поиск	Быстрый поиск по embeddings	Qdrant + собственные доработки
Кэш-слой	Хранит результаты частых запросов	Redis с semantic caching

1 Планировщик: как заставить ИИ думать, а не гадать

Самый критичный компонент. Плохой планировщик = бесполезный агент.

Ранние версии использовали простой prompt engineering: "Разбей вопрос Х на подвопросы". Результаты были случайными. Планировщик либо слишком детализировал (20+ подзадач для простого вопроса), либо слишком упрощал.

Решение: fine-tuned модель специально для декомпозиции корпоративных задач. Мы собрали датасет из 50 тысяч реальных вопросов сотрудников Яндекса и их оптимальных декомпозиций, размеченных экспертами.

Теперь планировщик учитывает:

Контекст команды (разработка, маркетинг, аналитика)
Сложность вопроса (базовый vs. экспертный)
Временные рамки (срочно vs. можно подождать)
Источники данных (документация, код, переписки)

2 Специализированные агенты: почему одна модель на все — плохая идея

Изначально мы использовали одну большую модель для всего. YandexGPT 4.0 обрабатывала и планирование, и поиск, и синтез ответов. Дорого и неэффективно.

Сейчас у нас 5 типов специализированных агентов:

Поисковый агент — ищет информацию в разных источниках. Использует оптимизированную для поиска версию модели.
Аналитический агент — сравнивает найденные данные, ищет противоречия.
Проверочный агент — валидирует информацию, сверяет с авторитетными источниками.
Синтезирующий агент — объединяет результаты в связный ответ.
Формулировочный агент — адаптирует ответ под конкретного пользователя (технарь vs. менеджер).

Каждый агент использует модель, оптимальную для его задачи. Для поиска — модель с улучшенным пониманием контекста. Для анализа — модель с сильными логическими способностями. Это дешевле и дает качество на 30-40% выше.

Важный нюанс: агенты общаются между собой через структурированные сообщения (JSON schema). Это позволяет избежать "испорченного телефона", когда информация искажается при передаче между этапами.

3 Векторный поиск: почему Qdrant — не панацея

Мы начали с Qdrant — популярное решение, хорошая документация. Но для корпоративных данных оказалось недостаточно.

Проблемы, с которыми столкнулись:

Медленный поиск при больших объемах (миллионы документов)
Плохая работа с составными запросами
Нет встроенной поддержки гибридного поиска (векторы + ключевые слова)

Решение: доработанный Qdrant с кастомными индексами и кэшированием промежуточных результатов. Плюс добавили слой BM25 для keyword поиска — иногда старый добрый TF-IDF работает лучше embeddings.

Если хотите глубже погрузиться в тему поиска для ИИ-агентов, рекомендую нашу статью про оптимизацию поиска для агентов, где мы разбираем, как снизили латентность с 3500 мс до 700 мс.

Пошаговый план: как построить свой DeepResearch

Хотите повторить наш путь? Вот практические шаги, основанные на нашем опыте.

Шаг 1: Начните с малого, но думайте о масштабе

Не пытайтесь сразу охватить все данные компании. Выберите одну конкретную область:

Документация одной команды
База знаний отдела поддержки
Технические спецификации проектов

Соберите 100-200 вопросов, которые реально задают сотрудники в этой области. Это будет ваш тестовый датасет.

Шаг 2: Постройте базовый RAG (но правильно)

Возьмите открытые инструменты:

LangChain или LlamaIndex для оркестрации
OpenAI GPT-4o или Anthropic Claude 3.5 Sonnet как основную модель
Chroma или Qdrant для векторного хранилища

Но сразу проектируйте с учетом будущего расширения. Каждый компонент должен быть replaceable.

Шаг 3: Добавьте планирование

Вместо простого prompt engineering используйте специализированные модели для планирования. На 2026 год лучшие варианты:

Claude 3.5 Sonnet для сложной декомпозиции
GPT-4o для более простых задач
Open-source: Mixtral 8x22B или DeepSeek-V2 (если нужна экономия)

Настройте планировщик на ваши конкретные данные. Fine-tuning обязателен для корпоративного использования.

Шаг 4: Внедрите специализированных агентов

Начните с двух агентов:

Поисковый (самый важный)
Синтезирующий

По мере роста добавляйте аналитического и проверочного агентов.

Шаг 5: Добавьте семантический кэш

30-40% вопросов повторяются. Кэшируйте не по точному тексту запроса, а по семантическому смыслу.

Используйте embeddings для определения схожести вопросов. Redis с поддержкой векторного поиска отлично подходит.

Главные ошибки, которые мы совершили (чтобы вы их не повторили)

Ошибка 1: Доверять LLM без проверки

Ранние версии DeepResearch иногда генерировали убедительно звучащую, но полностью выдуманную информацию о внутренних процессах. Сотрудники верили. Были проблемы.

Решение: Добавили проверочного агента, который сверяет все утверждения с авторитетными источниками. Плюс система confidence scoring — если уверенность ниже порога, агент говорит "Не уверен, проверьте в документации".

Ошибка 2: Игнорировать временные метки

В корпоративных данных актуальность критична. Инструкция по деплою годичной давности может быть полностью нерелевантной.

Решение: Внедрили временные фильтры в поиске и систему приоритизации по дате обновления. Новые документы получают больший вес.

Ошибка 3: Одна модель на все задачи

Как я уже упоминал — это было дорого и неэффективно. Точность специализированных агентов на 40% выше при меньшей стоимости.

💡

Если вы только начинаете путь внедрения ИИ в компании, рекомендую наш гайд "Как внедрить нейросети в IT-компанию". Там разбираем основы, которые помогут избежать типичных ошибок на старте.

Что работает в 2026 году: наши текущие настройки

Архитектура постоянно эволюционирует. Вот что используем сейчас:

Компонент	Текущее решение	Почему именно оно
Оркестратор	Кастомный на Go	Производительность и контроль
Планировщик	Fine-tuned Mixtral 8x22B	Баланс качества и стоимости
Основная LLM	YandexGPT 4.0	Интеграция с экосистемой
Векторная БД	Qdrant с кастомными индексами	Производительность на больших объемах
Кэш	Redis с векторным поиском	Семантическое кэширование

FAQ: частые вопросы от других компаний

Стоит ли использовать open-source модели?

Зависит от бюджета и экспертизы. Если у вас есть сильная ML-команда — да, можно сэкономить. Если нет — начинайте с коммерческих API (OpenAI, Anthropic, Yandex Cloud). Переход на open-source потом будет проще.

Как оценивать качество?

Мы используем три метрики:

Accuracy — процент правильных ответов на тестовом датасете
Latency — время от запроса до ответа (цель < 5 секунд)
User satisfaction — оценка пользователей по 5-балльной шкале

Что делать с устаревшими данными?

Мы внедрили систему version-aware поиска. Каждый документ имеет метку "актуально до". Агент проверяет дату и предупреждает пользователя, если информация может быть устаревшей.

Что дальше? Будущее корпоративных ИИ-агентов

Тренд 2026 года — агенты становятся проактивными. Вместо ответов на вопросы они начинают предлагать информацию до того, как ее спросили.

Наша дорожная карта:

Контекстная память — агент запоминает предыдущие взаимодействия с пользователем
Мультимодальность — работа не только с текстом, но и с диаграммами, скриншотами, видео
Автономные действия — агент может не только искать информацию, но и выполнять простые действия (создать тикет, назначить встречу)

Если интересна тема автономных агентов, смотрите наше подробное руководство по ИИ-агентам для бизнеса с реальными кейсами внедрения.

Важный прогноз: через 2-3 года корпоративные ИИ-агенты станут таким же стандартом, как CRM или ERP системы. Компании, которые не успеют адаптироваться, окажутся в проигрышном положении. Начинать нужно уже сейчас — даже с простых пилотов.

P.S. Если ваша компания только начинает digital-трансформацию, возможно, стоит сначала разобраться с основами — например, пройти курс на контекстную рекламу или SEO-продвижение. Без понимания digital-маркетинга сложно строить сложные ИИ-системы.

Корпоративный ИИ-агент: как Яндекс построил DeepResearch и почему ваш RAG уже устарел