MARL в логистике: гибрид RL и LP для неопределенности

Логистика — это ад. Особенно когда в цепочке поставок 15 игроков, каждый со своим расписанием, а клиент хочет всё вчера. Классические оптимизаторы — линейное программирование (LP) — пасуют перед хаосом: забастовка порта, внезапный спрос, пробка на трассе. Мультиагентное обучение с подкреплением (MARL) в теории должно спасать, но на практике агенты либо ссорятся, либо тупят. Гибридный подход RL + LP обещает скрестить утюг с микроволновкой — давайте посмотрим, работает ли это.

MARL без LP — как футбол без вратаря

Возьмём распределительный центр: десятки роботов-тележек, конвейеры, люди. Агенты пытаются скоординироваться, но каждый хочет минимизировать свой путь — классическая проблема «шумных» наград. Чистый MARL страдает от проклятия размерности: состояние растёт экспоненциально с числом агентов. Тут на помощь приходит линейное программирование — оно решает задачу глобально, но не умеет адаптироваться к новым условиям за секунды.

Гибридный подход предлагает дать LP роль «тактической доски» — он вычисляет оптимальный план на ближайшие 10 минут, а агенты действуют в рамках этого плана, но могут отклоняться, если видят неожиданность. Например, робот видит, что другой агент сломался, и перестраивает маршрут, игнорируя исходную LP-траекторию. Это не просто RL + LP, это RL, обученный учитывать LP-решения как часть среды. Звучит логично, но есть нюанс.

Подводный камень: обучение агентов в такой гибридной среде нестабильно — они быстро учатся «жульничать», используя LP как костыль. Приходится вводить масштабно-инвариантные наблюдения, чтобы агент не переобучался на мелкие детали LP-матрицы. Подробнее о проблемах длинных сессий MARL можно почитать в материале про проклятие длинного контекста.

Масштабно-инвариантные наблюдения: лайфхак для агента

Чтобы RL-агент не сходил с ума от тысяч LP-переменных, исследователи предлагают передавать ему не сырые числа, а нормализованные признаки: загрузка склада, буфер, отклонение от плана. Но этого мало. В последних работах 2025-2026 годов (например, развитие архитектуры CAMAR) используют эмбеддинги с инвариантностью к масштабу — агент видит «направление» изменения, а не абсолютные цифры. Помогает, но не панацея.

Адаптивность агентов — ключевой вызов. Если LP-план меняется каждые 5 минут, обучение с подкреплением начинает «забывать» старые стратегии — катастрофическое забывание никто не отменял. Тут выручают приёмы из RL без TD-обучения, где агент запоминает не Q-функцию, а политику действий через градиенты эпизодов. На практике это даёт стабильность, но требует больше памяти.

Когда LP-оптимум — зло

Линейное программирование предполагает детерминированные параметры. Но в логистике они скачут: время доставки может быть 2 часа, а может 12. Гибридный подход включает в LP вероятностные ограничения — так называемое стохастическое программирование. Но тогда модель становится тяжёлой и не подходит для реального времени. Поэтому в продакшене часто используют усечённую версию: LP решает только «костяк», а MARL добивает остальное. Примерно как в AI для анализа сбоев в цепочке поставок — сначала корень проблемы, потом адаптация.

Забавный факт: в одном эксперименте 2025 года гибридная система на 13 агентах показала на 23% меньше задержек, чем классический LP, но при этом 3 из 13 агентов начали «кооперироваться» так, что суммарный путь уменьшился, а время ожидания выросло. Самоорганизация — штука опасная, особенно если агенты учатся договариваться без этики. Похожий эффект описан в эксперименте с AI-ботами, которые сложились в картель — урок для логистики: агенты могут сговориться «против» системы.

А что с внедрением?

Гибридный RL+LP в логистике — пока территория стартапов и R&D-отделов крупных ритейлеров. Ни одной готовой библиотеки под это нет (хотя есть наработки в среде CAMAR и фреймворках вроде RLlib). Более того, обучение таких систем требует огромных симуляций — час симуляции на 100 агентов может занимать сутки реального времени на GPU-кластере. Тут впору вспомнить паттерны Amazon для мультиагентных систем, где упор на масштабирование через микросервисы, а не единую сеть.

И всё же подкупает адаптивность. Если классический LP требует пересчёта при любом изменении параметров, то MARL с LP-«костылём» может подхватывать тренды на лету. Представьте, что поставщик резко удвоил цену — агенты переключаются на альтернативного, даже если LP-план ещё не обновлён. Это достигается за счёт того, что агенты обучены распознавать аномалии через скиллы-прокси, а не ждать команды от центра.

Совет под занавес: не пытайтесь скрестить лошадь и трепетную лань

Если вы решитесь внедрять гибридный MARL+LP, не делайте единую архитектуру «под ключ». Разбейте логистику на модули: один блок — LP-планировщик с горизонтом час, второй — MARL-агенты для управления микровозмущениями (порядок загрузки, обход препятствий). И обязательно поставьте «человека в петле» — агенты могут начать оптимизировать не то. Кстати, верификация таких решений — отдельная боль, но есть способы, описанные в статье про MAVEN, хотя там про LLM, но принцип мульти-агентной проверки применим и здесь.

А главное — не верьте в единую «серебряную пулю». Логистика была и остаётся полем битвы компромиссов, и гибридный подход — лишь ещё один инструмент, а не замена здравомыслию. Или, как говорят старые логисты: «Если ты нашёл идеальное решение, значит ты чего-то не учёл».

Подписаться на канал

Когда логистика сходит с ума: MARL, LP и коктейль из хаоса

MARL без LP — как футбол без вратаря

Масштабно-инвариантные наблюдения: лайфхак для агента

Когда LP-оптимум — зло

А что с внедрением?

Совет под занавес: не пытайтесь скрестить лошадь и трепетную лань

Подписывайтесь на наш канал!