Проблема, которую все игнорируют

Ты запускаешь RL-агента в симуляторе. Первые 1000 итераций - стабильный рост. К 10 000 - плато. К 100 000 - он забывает, чему научился. Знакомо?

TD-обучение работает, пока горизонт короткий, а среда дешёвая. В реальном мире, где один шаг робота стоит денег, а задача растягивается на тысячи действий, классические методы дают сбой.

Представь робота-складского работника. Его цель - найти коробку в лабиринте стеллажей. Каждый шаг - риск столкновения. Каждая неудача - повреждение оборудования. Ты не можешь позволить ему 100 000 раз удариться о стену, пока он "научится".

Почему TD-обучение ломается на длинных горизонтах

Всё дело в bias-variance tradeoff. TD-обучение пытается балансировать между:

Низким bias (точная оценка на каждом шаге)
Низкой variance (стабильность обучения)

На коротких горизонтах это работает. На длинных - накапливается ошибка. Представь цепочку из 1000 действий. Ошибка на каждом шаге умножается. К концу траектории ты получаешь оценку, которая не имеет ничего общего с реальностью.

💡

Это как пытаться предсказать погоду на год вперёд, основываясь на сегодняшней температуре. Каждый день добавляет новую ошибку. Через месяц твой прогноз становится случайным шумом.

Новый подход: разделяй и властвуй

Вместо того чтобы учиться оценивать каждое действие, новый метод разбивает задачу на подзадачи. Не "какое действие лучше сейчас", а "какую подцель достичь дальше".

Работает так:

Разбиваешь длинную траекторию на отрезки
Учишь агента достигать промежуточных состояний
Соединяешь отрезки в полный путь

Это похоже на то, как человек планирует маршрут. Сначала решаешь дойти до метро. Потом - до нужной станции. Потом - до здания. Не пытаешься сразу продумать каждый шаг.

Практическая реализация: как это выглядит в коде

Забудь про Q-learning и его производные. Новый подход использует другую архитектуру:

# Вместо классического TD-обучения
# Старый подход:
# Q(s, a) = r + γ * max_a' Q(s', a')

# Новый подход:
def learn_segment(start_state, goal_state):
    # Учим политику для достижения goal_state из start_state
    # Это проще, чем учить полную value function
    policy = train_subpolicy(start_state, goal_state)
    return policy

def compose_policies(segments):
    # Собираем полную политику из сегментов
    full_policy = SequentialPolicy(segments)
    return full_policy

Ключевое отличие: ты учишь не ценность состояний, а навыки перехода между ними. Каждый навык - это мини-политика для достижения конкретной подцели.

Сравнение с классическими методами

Параметр	TD-обучение	Новый подход
Масштабируемость	Плохая для длинных горизонтов	Хорошая, линейная сложность
Sample efficiency	Низкая	Высокая (переиспользование навыков)
Off-policy обучение	Проблемы с stability	Естественная поддержка
Интерпретируемость	Чёрный ящик	Понятная структура навыков

Где это уже работает

Метод показал результаты в задачах, где классический RL проваливался:

Роботизированные манипуляции (сборка, сортировка)
Автономное вождение в сложных средах
Планирование в графах с тысячами вершин

Интересно, что подход хорошо сочетается с распределённым Q-обучением для маршрутизации. Разбиваешь граф на подграфы, учишь маршрутизацию внутри каждого, потом соединяешь.

Основные ошибки при внедрении

Самая частая ошибка - пытаться разбить задачу на слишком мелкие сегменты. Получается обратный эффект: вместо упрощения создаёшь overhead на переключение между политиками.

Другие типичные проблемы:

Неправильный выбор подцелей. Если подцели плохо согласованы, агент застревает между ними.
Игнорирование контекста. Навык, выученный в одном контексте, может не работать в другом.
Переобучение на сегментах. Мини-политика идеально работает на тренировочных данных, но не обобщается.

Звучит знакомо? Такие же проблемы возникают при катастрофическом забывании в LLM. Агент прекрасно решает каждую подзадачу по отдельности, но не может собрать их вместе.

Как избежать провала: практические советы

1 Начинай с ручного разбиения

Не пытайся сразу автоматически находить оптимальные сегменты. Возьми несколько успешных траекторий (если есть) и вручную отметь естественные точки разбиения. Потом используй их как шаблон для автоматического алгоритма.

2 Тестируй сегменты по отдельности

Перед сборкой полной политики убедись, что каждый навык работает изолированно. Запускай агента из случайных состояний внутри сегмента и смотри, достигает ли он подцели.

3 Добавляй перекрытие

Сегменты не должны быть строго разделены. Пусть они перекрываются на 10-20%. Это даёт агенту буферную зону для переключения между политиками.

4 Мониторь consistency

Следи за тем, чтобы политики соседних сегментов не конфликтовали. Если агент в состоянии X, политика сегмента A говорит "иди налево", а политика сегмента B - "иди направо", у тебя проблема.

Связь с другими прорывными подходами

Интересно, что философия "разделяй и властвуй" появляется в разных областях ML. В Tuneable Attention тоже идёт речь о декомпозиции сложных механизмов на управляемые части.

А проблемы transfer learning между сегментами напоминают то, что решает Zero-Shot Transferable Adapter. Навык, выученный для одного сегмента, должен адаптироваться к похожим сегментам без полного переобучения.

Будущее подхода

К 2026 году метод эволюционирует в нескольких направлениях:

Автоматическое обнаружение сегментов. Сейчас это слабое место - требует ручной настройки или хороших эвристик.
Иерархическая декомпозиция. Не один уровень сегментов, а несколько вложенных уровней.
Мета-обучение навыков. Агент учится не только навыкам, но и тому, как разбивать новые задачи на навыки.

Самое интересное - комбинация с LLM. Представь агента, который получает текстовое описание задачи, разбивает её на подзадачи с помощью LLM, потом учит навыки для каждой подзадачи. Это следующий логический шаг.

Важный момент: метод не заменяет TD-обучение полностью. Для коротких задач с дешёвыми симуляциями классические подходы остаются эффективнее. Но для реальных роботов, дорогих сред и длинных горизонтов - это пока лучшее, что у нас есть.

Что делать прямо сейчас

Если ты работаешь над RL-задачей с длинным горизонтом:

Попробуй вручную разбить траекторию на 3-5 осмысленных сегментов
Обучи простую политику для каждого сегмента (даже линейную)
Посмотри, работает ли составная политика лучше end-to-end обучения

Не жди идеальной реализации. Даже грубая декомпозиция часто даёт выигрыш в sample efficiency. Особенно если ты сталкивался с проблемами, описанными в истории про 6 месяцев провальных экспериментов с RL.

И помни главное: RL без TD-обучения - это не просто ещё один алгоритм. Это признание того, что некоторые проблемы слишком сложны для end-to-end обучения. Иногда нужно остановиться и подумать о структуре. Даже если ты - нейросеть.

RL без TD-обучения: когда классический подход ломается о реальность