Recursive Latent Forcing для Mamba2: решение memory decay | Обзор 2026

Память Mamba2 течет. Пора ставить заплатку

State Space Models вроде Mamba2 хвалили за линейную сложность. За то, что они не жрут память как трансформеры. Но к 2026 году вылезла подлянка: memory decay. Модель в 130M параметров начинает "забывать" контекст через 2-3 шага рассуждения. Она не тупая - у нее просто архитектура фон Неймана в миниатюре, но без механизма рекурсии. В итоге, multi-hop reasoning превращается в лотерею.

Проблема не в Mamba2 самой по себе. Архитектура SSM по умолчанию оптимизирована для потоковой обработки, а не для циклических размышлений. Это как пытаться вести диалог с человеком, у которого антероградная амнезия.

Recursive Latent Forcing (RLF) - это не очередной костыль. Это хирургическое вмешательство в латентное пространство модели. Метод заставляет скрытые состояния циклически пересчитываться, имитируя работу рабочей памяти. Вместо того чтобы просто пропускать токены через прямую связь, RLF внедряет в процесс рекурсивную петлю обратной связи. Звучит просто. Но реализация - это черная магия дифференцируемого программирования.

Как это работает? Принуждение к глубине

Представьте, что латентное пространство Mamba2 - это черный ящик. Обычная инференция - это односторонний поток. RLF ломает эту парадигму. Алгоритм на лету выделяет ключевые скрытые состояния (те, что отвечают за логические связи) и заставляет их проходить через дополнительный рекурсивный блок. Этот блок - мини-сеть, обученная не генерировать текст, а "думать".

💡

Биологическая аналогия тут не случайна. Авторы RLF открыто говорят о моделировании базальных ганглиев мозга - системы, отвечающей за формирование и выполнение сложных поведенческих программ. В отличии от Oro, где рекурсия глобальна, здесь она точечная и управляемая.

Технически, метод вводит два новых гиперпараметра: глубина рекурсии (R) и коэффициент принуждения (λ). Первый определяет, сколько раз состояние будет пересчитано. Второй - насколько агрессивно мы корректируем исходный латентный вектор. Важный нюанс: весь процесс дифференцируем. Это значит, что RLF можно встроить в fine-tuning, и модель сама научится, когда и как сильно "зацикливаться".

Что умеет RLF на практике? Цифры на 2026 год

Убивает memory decay в зародыше. На тестах multi-hop reasoning (HotpotQA, 2WikiMultihop) Mamba2 130M с RLF догоняет трансформеров на 3B параметров. Разрыв в точности сокращается с 40% до 7-10%.
Жрет всего 0.5 ГБ VRAM. Дополнительные вычисления идут в латентном пространстве, которое на порядки меньше пространства токенов. Развернуть модель можно на RTX 3090, при этом параллельно гнать 4-5 потоков рассуждений.
Работает в реальном времени. Задержка на инференс увеличивается всего на 15-20% при глубине рекурсии R=3. Для сравнения, полноценная рекурсивная Mamba дает прирост в 2-3 раза.
Совместима с существующими чекпоинтами. Не нужно обучать модель с нуля. Достаточно дообучить легковесный рекурсивный блок и провести несколько итераций fine-tuning с RLF.

Сравнение: RLF против альтернатив 2026 года

Метод	Прирост в reasoning	Накладные расходы VRAM	Сложность внедрения
Recursive Latent Forcing	+25-35% (на малых моделях)	~0.5 ГБ	Средняя. Требует изменения графа вычислений.
Oro	+40-50%	2-3 ГБ	Высокая. Нужно пересобирать архитектуру.
Multiplex Thinking	+10-15%	~1.5 ГБ (за счет множественного семплирования)	Низкая. Меняется только декодирование.
Классические Chain-of-Thought	+5-10% (для Mamba2)	Нулевые	Тривиальная. Только промпт-инжиниринг.

RLF не пытается быть универсальным решением. Это специализированный инструмент для случаев, когда нужна глубина, а не широта рассуждения. Если ваша задача - перебирать тысячи возможных ответов, смотрите в сторону Multiplex Thinking. Если нужна максимальная точность без оглядки на ресурсы - Oro. Но если у вас одна RTX 3090 и нужно выжать из Mamba2 максимум для логических задач - RLF ваш выбор.

Где это уже работает? Реальные кейсы

В исследовательских лабораториях RLF уже перешел из категории "интересная идея" в "рабочий инструмент". Вот где он показывает себя лучше всего:

Медицинская диагностика по протоколам. Цепочка рассуждений: симптомы -> дифференциальный диагноз -> подтверждающие тесты -> заключение. Раньше Mamba2 сбивалась после второго шага. С RLF проходит все 4-5 шагов без потери связности.
Поиск багов в коде. Модель должна понять код, выделить возможные точки сбоя, проверить условия, предложить фикс. Multi-hop reasoning в чистом виде. RLF уменьшает количество ложных срабатываний на 30%.
Планирование в робототехнике. Генерация последовательности действий с учетом ограничений и обратной связи. Латентное пространство становится рабочей памятью для хранения промежуточных состояний плана.

Важный момент: RLF не магическим образом улучшает все задачи. На простых classification или generation задачах он дает нулевой или даже отрицательный эффект (из-за лишних вычислений). Метод создан для сложных, многошаговых рассуждений - там, где и проявляется memory decay.

Кому стоит заморачиваться с RLF?

Метод не для всех. Если вы качаете экспериментальные LLM на RTX 3090 и упираетесь в ceiling качества - RLF ваш следующий шаг. Если вы исследователь, который хочет понять, как далеко можно зайти с малыми SSM - обязательно попробуйте. Если же вы продакт-менеджер, которому нужно просто запустить чат-бота на основе Mamba2 - даже не смотрите в эту сторону. Слишком много боли за скромный прирост в нишевых сценариях.

Главное преимущество RLF в 2026 году - это его эффективность. Он не требует дорогущего обучения с подкреплением или миллионов примеров. Достаточно небольшого датасета с цепочками рассуждений и 2-3 дней fine-tuning на одной карте.

Стоит ли ждать, что RLF станет стандартом?

Вряд ли. Архитектура Mamba2 и ее наследники эволюционируют слишком быстро. К концу 2026 года, по слухам, выйдет Mamba3, где проблема memory decay будет решена на аппаратном уровне (читай - в ядре SSM). Recursive Latent Forcing - это временное, но элегантное решение. Оно показывает, что даже в линейных моделях можно имитировать рекурсию, не ломая всю математику. И это, возможно, главный урок: иногда чтобы заставить модель "думать", не нужно менять ее архитектуру. Достаточно грамотно вмешаться в процесс инференса.

Пока же, если вы хотите попробовать RLF - ищите реализацию на GitHub (ключевые слова: "recursive-latent-forcing-mamba2"). Начинайте с малого: глубины рекурсии R=2 и легкого коэффициента λ=0.1. И не забудьте, что fine-tuning под RLF - это отдельная история, про которую мы, возможно, напишем в следующий раз.

Подписаться на канал

Recursive Latent Forcing: как заставить Mamba2 'думать' в латентном пространстве и решать многопоточные задачи