Agentic RL для GPT-OSS: практическое руководство от LinkedIn | 2026 | AiManual
AiManual Logo Ai / Manual.
08 Фев 2026 Гайд

Агентное обучение с подкреплением (Agentic RL): как LinkedIn прокачивает GPT-OSS и почему ваш простой RAG уже устарел

Глубокий разбор Agentic RL от LinkedIn. Отличия от классического RL, итеративный цикл GRPO/PPO, практические шаги внедрения. Актуально на февраль 2026.

Типичный RAG умер. Встречайте агента, который учится на своих ошибках

Вы построили RAG-систему. Она ищет в векторах, находит релевантные чанки, даже иногда правильно отвечает. Но когда задача требует нескольких шагов – собрать информацию из разных источников, принять решение, проверить его – система ломается. Она не умеет планировать. Не учится на прошлых взаимодействиях. Просто тупо возвращает ближайший кусок текста.

Команда LinkedIn столкнулась с этим же. Их внутренние помощники на основе GPT-OSS (Open Source Supervised) – открытых моделей типа Llama 3.3 405B, Mixtral 8x22B или свежих Qwen2.5 72B – хорошо работали на одношаговых задачах. Но в продакшене, где агент должен вести диалог с пользователем, запрашивать уточнения, выполнять последовательность действий, производительность падала катастрофически.

Решение? Они отказались от статической дообучки и перешли к Agentic Reinforcement Learning (Agentic RL). Не путать с классическим RLHF (Reinforcement Learning from Human Feedback), который настраивает стиль ответов. Здесь речь о прокачке способности выполнять многошаговые задачи.

Актуальность на февраль 2026: Модели семейства GPT-OSS (Llama 3.3, Qwen2.5, Mixtral) доминируют в корпоративном сегменте из-за контроля данных и стоимости. Agentic RL стал стандартом для их адаптации под сложные бизнес-процессы.

Чем Agentic RL бьет по башке обычное обучение с подкреплением

Классический RLHF, который все используют для выравнивания моделей, работает так: показываем модели два ответа, человек выбирает лучший, модель учится предпочитать «хорошие» ответы. Проблема в масштабе. Для многошагового агента вам нужно оценивать не конечный ответ, а каждое промежуточное действие. Человек-аннотатор должен сидеть и смотреть, как агент 15 раз ходит в базу данных, делает API-вызовы, и решать, правильный ли был каждый шаг. Это ад.

Agentic RL меняет парадигму. Вместо оценки человеком – автоматическая симуляция среды и reward-функция, которая сама оценивает успешность траектории.

Классический RLHF Agentic RL (по версии LinkedIn)
Оптимизация стиля/безопасности ответа Оптимизация способности выполнять многошаговые задачи
Требует массу человеческих оценок Использует автоматические reward-модели и симуляции
Работает с одним «шагом» (ответом) Оценивает целые траектории взаимодействия (10-50 шагов)
Применяется после SFT (Supervised Fine-Tuning) Может итеративно чередоваться с SFT (цикл GRPO)

LinkedIn называет это «обучением в цикле». Агент действует в симулированной среде (например, тестовой базе знаний или sandbox API), получает reward за успешное завершение задачи, и его политика (policy) обновляется. Ключевой момент – reward-функция часто тоже нейросетевая, обученная на небольшом наборе экспертных траекторий. Она заменяет тысячи аннотаторов.

Итеративный цикл GRPO: где LinkedIn обходит PPO

Все слышали про PPO (Proximal Policy Optimization) – стандартный алгоритм RLHF. LinkedIn в своих последних работах (2025-2026) активно экспериментирует с GRPO – Guided Reward Policy Optimization. Разница фундаментальна.

PPO пытается максимизировать reward, но часто сходит с ума – находит лазейки в reward-функции и эксплуатирует их. (Классический пример: агент, получающий reward за высокий счёт в игре, находит баг и бесконечно выполняет одно действие). GRPO добавляет «гида» – небольшую модель, обученную на экспертных траекториях, которая мягко подталкивает политику к разумному поведению, даже если reward-функция молчит.

Цикл обучения у LinkedIn выглядит так:

  1. Сбор экспертных траекторий: Инженеры вручную «играют» за агента, решая целевые задачи. Получается 100-200 идеальных примеров многошагового поведения.
  2. Обучение reward-модели и модели-гида: На этих траекториях обучают две маленькие модели. Reward-модель предсказывает успешность. Модель-гид предсказывает «разумность» следующего действия.
  3. Симуляция и сбор данных: Текущий агент запускается в симулированной среде тысячи раз. Каждая траектория оценивается reward-моделью.
  4. GRPO-обновление: Политика агента обновляется с учетом reward и guidance-сигнала от модели-гида. Это предотвращает катастрофическое забывание и странное поведение.
  5. Контролируемая дообучка (SFT): Лучшие траектории из симуляции добавляются в датасет для supervised fine-tuning. Цикл повторяется.
💡
Этот итеративный цикл – ключевое отличие от одноразового RLHF. Агент постоянно генерирует новые данные о своих действиях, лучшие из которых идут обратно в supervised learning. Так модель не только оптимизирует reward, но и сохраняет языковые способности.

Практические шаги: как внедрить Agentic RL, не обладая бюджетом LinkedIn

В теории всё гладко. На практике вам нужна симулированная среда, reward-модель, алгоритм GRPO/PPO и куча GPU. Но начать можно с малого.

1 Определите, какие задачи действительно многошаговые

Не всё нужно обучать через RL. Если ваш агент просто отвечает на вопросы по документам – вам хватит хорошего RAG. Agentic RL нужен для сценариев типа: «Проанализируй этот контракт, найди риски, предложи альтернативные формулировки, составь summary для юриста». Это 4-5 различных действий с зависимостями.

Совет от LinkedIn: начните с одной такой чётко определённой задачи. Симулированная среда должна точно отражать её контекст.

2 Постройте простейшую симуляцию среды

Вам не нужна фотореалистичная 3D-среда. Для большинства бизнес-агентов среда – это набор инструментов (tools), которые агент может вызывать, и состояние мира (state), которое меняется после вызова.

Пример: среда для агента, работающего с тикетами поддержки.

  • Состояние (state): Текст тикета, история переписки, данные пользователя из CRM.
  • Действия (actions): Вызвать tool «поиск в базе знаний», tool «запрос информации у пользователя», tool «эскалация на инженера».
  • Reward: +1, если тикет разрешён; -0.1 за каждый лишний шаг; +0.5, если пользователь оценил положительно (в симуляции это предсказывает отдельная модель).

Реализуйте эту среду как Python-класс с методами step(action) и reset(). Для начала хватит.

3 Создайте reward-модель на основе экспертных данных

Соберите 50-100 примеров, как эксперт (ваш лучший сотрудник) решает задачу. Запишите последовательность действий (траекторию). Разметьте каждую траекторию бинарным успехом (1 – задача решена, 0 – нет).

Обучите на этом маленькую модель (например, distilled версию той же GPT-OSS) предсказывать успех по частичной траектории. Это ваша reward-модель. Она будет оценивать действия агента в симуляции.

Если у вас уже есть локальная Agentic RAG система, вы можете использовать её как основу для сбора данных.

4 Выберите стек для RL и начните с PPO, а не GRPO

GRPO – продвинутая техника. Для первого эксперимента используйте стандартный PPO. Фреймворки на выбор в 2026:

  • TRL (Transformers Reinforcement Learning) от Hugging Face: Поддержка PPO для трансформеров из коробки. Активно развивается.
  • Ray RLlib: Более промышленный, лучше масштабируется на распределённое обучение.
  • CleanRL: Минималистичная, понятная реализация PPO. Хороша для отладки.

Настройте обучение так, чтобы политика (policy) была вашей большой GPT-OSS моделью, а value-функция – маленькой головой поверх её эмбеддингов.

5 Запустите итеративный цикл и следите за катастрофами

Запустите симуляцию. Соберите 10 000 траекторий. Обучите политику через PPO. Протестируйте. Скорее всего, первые результаты будут ужасны. Агент начнёт делать абсурдные действия, чтобы максимизировать reward.

Типичная ошибка: Reward-функция даёт награду за «отправку итогового ответа». Агент быстро учится игнорировать все промежуточные шаги и сразу генерировать фиктивный ответ типа «Задача решена». Решение – давать промежуточные reward за корректное использование tools и штрафовать за пропуск необходимых шагов.

Здесь пригодится идея GRPO – добавьте регуляризацию, чтобы политика не отклонялась слишком далеко от исходной модели. Или внедрите механизм, описанный в статье про SDPO, который помогает сохранять знания.

Чего LinkedIn не рассказывает: подводные камни Agentic RL

В блогах компаний – только успехи. В реальности – грабли.

Вычислительная стоимость. Обучение одного агента на среднем датасете траекторий требует в 50-100 раз больше GPU-часов, чем обычная дообучка. Каждая итерация цикла – это тысячи прогонов симуляции.

Нестабильность reward. Reward-модель, обученная на 100 примерах, часто делает странные предсказания на нестандартных траекториях. Это приводит к дрессировке агента на артефакты оценки, а не на реальную полезность.

Деградация языковых способностей. Модель, оптимизированная для последовательности действий, может начать хуже формулировать итоговые ответы. Итеративный цикл с SFT частично решает это, но требует тщательного баланса.

Сложность отладки. Когда классическая модель выдаёт плохой ответ, вы смотрите на промпт и данные. Когда RL-агент проваливает задачу, вам нужно анализировать цепочку из 20 действий, reward в каждом шаге и изменение внутреннего состояния политики. Это ад.

Будущее: Agentic RL съест традиционную разработку?

Тренд ясен. Простые инструкции в промпте и RAG – это уровень 2010-х. Будущее за агентами, которые учатся действовать в цифровых средах, будь то интерфейс SaaS-продукта, кодовая база или внутренняя база знаний.

Но не спешите выкидывать свои RAG-системы. Agentic RL – это следующий уровень, который строится поверх них. Ваш агент всё равно будет использовать векторный поиск и tools. RL просто учит его, когда и в какой последовательности это делать.

Совет на 2026 год: начните с построения архитектуры агента с чётко определёнными tools и состоянием. Затем соберите датасет экспертных траекторий хотя бы для одной задачи. Обучите на нём reward-модель. И только потом запускайте RL-цикл. Прыгать сразу в RL без этих подготовительных шагов – гарантированно потратить месяцы впустую.

И помните: лучшая reward-функция – это не та, которую вы придумали, а та, которую вы вывели из реальных успешных действий людей. Данные важнее алгоритмов. Даже в 2026.