Типичный RAG умер. Встречайте агента, который учится на своих ошибках
Вы построили RAG-систему. Она ищет в векторах, находит релевантные чанки, даже иногда правильно отвечает. Но когда задача требует нескольких шагов – собрать информацию из разных источников, принять решение, проверить его – система ломается. Она не умеет планировать. Не учится на прошлых взаимодействиях. Просто тупо возвращает ближайший кусок текста.
Команда LinkedIn столкнулась с этим же. Их внутренние помощники на основе GPT-OSS (Open Source Supervised) – открытых моделей типа Llama 3.3 405B, Mixtral 8x22B или свежих Qwen2.5 72B – хорошо работали на одношаговых задачах. Но в продакшене, где агент должен вести диалог с пользователем, запрашивать уточнения, выполнять последовательность действий, производительность падала катастрофически.
Решение? Они отказались от статической дообучки и перешли к Agentic Reinforcement Learning (Agentic RL). Не путать с классическим RLHF (Reinforcement Learning from Human Feedback), который настраивает стиль ответов. Здесь речь о прокачке способности выполнять многошаговые задачи.
Актуальность на февраль 2026: Модели семейства GPT-OSS (Llama 3.3, Qwen2.5, Mixtral) доминируют в корпоративном сегменте из-за контроля данных и стоимости. Agentic RL стал стандартом для их адаптации под сложные бизнес-процессы.
Чем Agentic RL бьет по башке обычное обучение с подкреплением
Классический RLHF, который все используют для выравнивания моделей, работает так: показываем модели два ответа, человек выбирает лучший, модель учится предпочитать «хорошие» ответы. Проблема в масштабе. Для многошагового агента вам нужно оценивать не конечный ответ, а каждое промежуточное действие. Человек-аннотатор должен сидеть и смотреть, как агент 15 раз ходит в базу данных, делает API-вызовы, и решать, правильный ли был каждый шаг. Это ад.
Agentic RL меняет парадигму. Вместо оценки человеком – автоматическая симуляция среды и reward-функция, которая сама оценивает успешность траектории.
| Классический RLHF | Agentic RL (по версии LinkedIn) |
|---|---|
| Оптимизация стиля/безопасности ответа | Оптимизация способности выполнять многошаговые задачи |
| Требует массу человеческих оценок | Использует автоматические reward-модели и симуляции |
| Работает с одним «шагом» (ответом) | Оценивает целые траектории взаимодействия (10-50 шагов) |
| Применяется после SFT (Supervised Fine-Tuning) | Может итеративно чередоваться с SFT (цикл GRPO) |
LinkedIn называет это «обучением в цикле». Агент действует в симулированной среде (например, тестовой базе знаний или sandbox API), получает reward за успешное завершение задачи, и его политика (policy) обновляется. Ключевой момент – reward-функция часто тоже нейросетевая, обученная на небольшом наборе экспертных траекторий. Она заменяет тысячи аннотаторов.
Итеративный цикл GRPO: где LinkedIn обходит PPO
Все слышали про PPO (Proximal Policy Optimization) – стандартный алгоритм RLHF. LinkedIn в своих последних работах (2025-2026) активно экспериментирует с GRPO – Guided Reward Policy Optimization. Разница фундаментальна.
PPO пытается максимизировать reward, но часто сходит с ума – находит лазейки в reward-функции и эксплуатирует их. (Классический пример: агент, получающий reward за высокий счёт в игре, находит баг и бесконечно выполняет одно действие). GRPO добавляет «гида» – небольшую модель, обученную на экспертных траекториях, которая мягко подталкивает политику к разумному поведению, даже если reward-функция молчит.
Цикл обучения у LinkedIn выглядит так:
- Сбор экспертных траекторий: Инженеры вручную «играют» за агента, решая целевые задачи. Получается 100-200 идеальных примеров многошагового поведения.
- Обучение reward-модели и модели-гида: На этих траекториях обучают две маленькие модели. Reward-модель предсказывает успешность. Модель-гид предсказывает «разумность» следующего действия.
- Симуляция и сбор данных: Текущий агент запускается в симулированной среде тысячи раз. Каждая траектория оценивается reward-моделью.
- GRPO-обновление: Политика агента обновляется с учетом reward и guidance-сигнала от модели-гида. Это предотвращает катастрофическое забывание и странное поведение.
- Контролируемая дообучка (SFT): Лучшие траектории из симуляции добавляются в датасет для supervised fine-tuning. Цикл повторяется.
Практические шаги: как внедрить Agentic RL, не обладая бюджетом LinkedIn
В теории всё гладко. На практике вам нужна симулированная среда, reward-модель, алгоритм GRPO/PPO и куча GPU. Но начать можно с малого.
1 Определите, какие задачи действительно многошаговые
Не всё нужно обучать через RL. Если ваш агент просто отвечает на вопросы по документам – вам хватит хорошего RAG. Agentic RL нужен для сценариев типа: «Проанализируй этот контракт, найди риски, предложи альтернативные формулировки, составь summary для юриста». Это 4-5 различных действий с зависимостями.
Совет от LinkedIn: начните с одной такой чётко определённой задачи. Симулированная среда должна точно отражать её контекст.
2 Постройте простейшую симуляцию среды
Вам не нужна фотореалистичная 3D-среда. Для большинства бизнес-агентов среда – это набор инструментов (tools), которые агент может вызывать, и состояние мира (state), которое меняется после вызова.
Пример: среда для агента, работающего с тикетами поддержки.
- Состояние (state): Текст тикета, история переписки, данные пользователя из CRM.
- Действия (actions): Вызвать tool «поиск в базе знаний», tool «запрос информации у пользователя», tool «эскалация на инженера».
- Reward: +1, если тикет разрешён; -0.1 за каждый лишний шаг; +0.5, если пользователь оценил положительно (в симуляции это предсказывает отдельная модель).
Реализуйте эту среду как Python-класс с методами step(action) и reset(). Для начала хватит.
3 Создайте reward-модель на основе экспертных данных
Соберите 50-100 примеров, как эксперт (ваш лучший сотрудник) решает задачу. Запишите последовательность действий (траекторию). Разметьте каждую траекторию бинарным успехом (1 – задача решена, 0 – нет).
Обучите на этом маленькую модель (например, distilled версию той же GPT-OSS) предсказывать успех по частичной траектории. Это ваша reward-модель. Она будет оценивать действия агента в симуляции.
Если у вас уже есть локальная Agentic RAG система, вы можете использовать её как основу для сбора данных.
4 Выберите стек для RL и начните с PPO, а не GRPO
GRPO – продвинутая техника. Для первого эксперимента используйте стандартный PPO. Фреймворки на выбор в 2026:
- TRL (Transformers Reinforcement Learning) от Hugging Face: Поддержка PPO для трансформеров из коробки. Активно развивается.
- Ray RLlib: Более промышленный, лучше масштабируется на распределённое обучение.
- CleanRL: Минималистичная, понятная реализация PPO. Хороша для отладки.
Настройте обучение так, чтобы политика (policy) была вашей большой GPT-OSS моделью, а value-функция – маленькой головой поверх её эмбеддингов.
5 Запустите итеративный цикл и следите за катастрофами
Запустите симуляцию. Соберите 10 000 траекторий. Обучите политику через PPO. Протестируйте. Скорее всего, первые результаты будут ужасны. Агент начнёт делать абсурдные действия, чтобы максимизировать reward.
Типичная ошибка: Reward-функция даёт награду за «отправку итогового ответа». Агент быстро учится игнорировать все промежуточные шаги и сразу генерировать фиктивный ответ типа «Задача решена». Решение – давать промежуточные reward за корректное использование tools и штрафовать за пропуск необходимых шагов.
Здесь пригодится идея GRPO – добавьте регуляризацию, чтобы политика не отклонялась слишком далеко от исходной модели. Или внедрите механизм, описанный в статье про SDPO, который помогает сохранять знания.
Чего LinkedIn не рассказывает: подводные камни Agentic RL
В блогах компаний – только успехи. В реальности – грабли.
Вычислительная стоимость. Обучение одного агента на среднем датасете траекторий требует в 50-100 раз больше GPU-часов, чем обычная дообучка. Каждая итерация цикла – это тысячи прогонов симуляции.
Нестабильность reward. Reward-модель, обученная на 100 примерах, часто делает странные предсказания на нестандартных траекториях. Это приводит к дрессировке агента на артефакты оценки, а не на реальную полезность.
Деградация языковых способностей. Модель, оптимизированная для последовательности действий, может начать хуже формулировать итоговые ответы. Итеративный цикл с SFT частично решает это, но требует тщательного баланса.
Сложность отладки. Когда классическая модель выдаёт плохой ответ, вы смотрите на промпт и данные. Когда RL-агент проваливает задачу, вам нужно анализировать цепочку из 20 действий, reward в каждом шаге и изменение внутреннего состояния политики. Это ад.
Будущее: Agentic RL съест традиционную разработку?
Тренд ясен. Простые инструкции в промпте и RAG – это уровень 2010-х. Будущее за агентами, которые учатся действовать в цифровых средах, будь то интерфейс SaaS-продукта, кодовая база или внутренняя база знаний.
Но не спешите выкидывать свои RAG-системы. Agentic RL – это следующий уровень, который строится поверх них. Ваш агент всё равно будет использовать векторный поиск и tools. RL просто учит его, когда и в какой последовательности это делать.
Совет на 2026 год: начните с построения архитектуры агента с чётко определёнными tools и состоянием. Затем соберите датасет экспертных траекторий хотя бы для одной задачи. Обучите на нём reward-модель. И только потом запускайте RL-цикл. Прыгать сразу в RL без этих подготовительных шагов – гарантированно потратить месяцы впустую.
И помните: лучшая reward-функция – это не та, которую вы придумали, а та, которую вы вывели из реальных успешных действий людей. Данные важнее алгоритмов. Даже в 2026.