Когда PPO превращает жизнь в ад

Вы когда-нибудь пытались настроить PPO для языковой модели? Если да — вы знаете, что это ад на земле. Три сети, расходящиеся лоссы, танцы с бубном вокруг гиперпараметров. Если нет — поверьте, вам лучше не знать. К апрелю 2026 года Hugging Face решила, что с этим пора заканчивать раз и навсегда. Вышел TRL v1.0 — не просто обновление, а похороны зоопарка разрозненных скриптов.

Раньше, чтобы применить новый алгоритм выравнивания, приходилось собирать пайплайн из кусков: то DeepSpeed с его зоопарком конфигов, то самостоятельная имплементация DPO из arXiv. TRL v1.0 засовывает под капот 75+ методов — от классического PPO до экзотических KTO и SimPO. И всё это с единым API.

Архитектура без компромиссов

Разработчики переписали ядро на C++ — привет, 1.5–2× ускорение. В отличие от старого TRL, v1.0 нативно поддерживает последние open-source модели: Llama 3.2, Mistral-Nemo, Qwen2.5 и их квантованные версии через bitsandbytes. API унифицирован: почти любой алгоритм теперь вызывается через три класса — DPOTrainer, PPOTrainer и CPOTrainer (для контрастивных методов). Всё остальное — конфиги.

Внимание: если вы раньше писали кастомные скрипты с акселераторами — забудьте. TRL v1.0 использует Accelerate из коробки, а управление распределённым обучением сводится к одному флажку --num_processes.

Как мы уже писали в статье TRL v1.0: полный обзор обновления, DPO стал центром вселенной. Но теперь в той же парадигме работают ORPO, KTO и даже SimPO, не требующий разметки предпочтений.

Что под капотом и зачем это вам

DPO/IPO/KTO/SimPO — семейство прямых методов, где не нужен критик.
PPO v2 — обновлённая реализация с адаптивным KL-штрафом и поддержкой референсных моделей в половину памяти.
ORPO — объединяет SFT и выравнивание за один проход.
CPO — контрастивный метод для моделей, обученных на парах.
RewardBench — встроенные бенчмарки для оценки моделей вознаграждения.

Звучит как шведский стол? Именно. Но есть подвох: не все методы одинаково полезны. Например, SimPO хорош, когда у вас нет размеченных пар, но он требует больше данных для симуляции. DPO остаётся золотым стандартом для большинства задач.

Альтернативы: что предлагают конкуренты

До TRL v1.0 выбор был небогатым. DeepSpeed — мощно, но низкоуровнево. Axolotl — удобен для SFT, но методы выравнивания там в зачаточном состоянии. OpenAssistant — проект мёртв. TRL v1.0 выигрывает за счёт широты покрытия и единого бэкенда. Единственный реальный конкурент — unsloth, который мы разобрали в гайде как бесплатно дообучить LLM с Unsloth, но unsloth заточен на скорость и не даёт такого выбора алгоритмов.

Быстрый старт: DPO в три строки

Установка — pip install trl. Теперь код:

from trl import DPOTrainer, DPOConfig, create_reference_model
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-1.5B")
ref_model = create_reference_model(model)

config = DPOConfig(
    output_dir="./qwen-dpo",
    beta=0.1,
    learning_rate=5e-6,
    per_device_train_batch_size=4,
    num_train_epochs=3
)

trainer = DPOTrainer(
    model=model,
    ref_model=ref_model,
    train_dataset=dataset,
    tokenizer=tokenizer,
    config=config
)
trainer.train()

Это всё. Без циклов, без ручного расчёта лосса. DPOTrainer сам смешивает батчи, применяет маски и логирует метрики. Если хотите переключиться на ORPO — меняете имя трейнера на ORPOTrainer и подставляете датасет с reject/accept парами.

💡

Подробнее о том, как Hugging Face упаковала 75 методов в одну библиотеку, читайте в нашем материале TRL v1.0: как Hugging Face запихнула 75 методов тонкой настройки в одну библиотеку и не сошла с ума.

Кому это реально нужно

Исследователям, которым надо быстро протестировать десяток алгоритмов на одной базе — просто меняйте название трейнера.
ML-инженерам, уставшим от DeepSpeed-шаманства. TRL v1.0 с Accelerate работает из коробки на одной карте, двух или кластере.
Студентам и энтузиастам, у которых одна RTX 3060. Квантованные модели + PPO в половине памяти помещаются без проблем.

Единственное, что бесит — документация. Она хорошая, но 75 методов — это 75 страниц. Придётся читать. Но это лучше, чем собирать пайплайн из трёх репозиториев и молиться.

Не советую использовать TRL v1.0, если вам нужен production-ready сервинг с пакетной обработкой — библиотека занимается исключительно тренировкой. Для инференса берите TGI или vLLM. Но для экспериментов это новый стандарт.

P.S. В следующем релизе обещают поддержку GRPO (Group Relative Policy Optimization) — той самой штуки из DeepSeek-R1. Ждём.

Подписаться на канал

TRL v1.0: 75 методов пост-тренинга в одной библиотеке — как Hugging Face сломала старые шаблоны