Когда 128K токенов — это смешно

Еще вчера все восхищались моделями с контекстом в 200 тысяч токенов. Сегодня, в феврале 2026, это выглядит как детская игрушка. Настоящие задачи — это анализ кодовых баз в гигабайтах, юридических договоров на сотнях страниц или полная история чата за год. Тут и появляются рекурсивные языковые модели (RLM).

Идея проста до гениальности: не загружать весь контекст в память модели сразу, а дать ей инструменты для навигации по нему. Модель сама решает, какой кусок информации ей сейчас нужен, «вызывает» его, обрабатывает и двигается дальше. Контекстная память становится практически бесконечной.

💡

На февраль 2026 года рекурсивный подход — один из немногих рабочих способов заставить LLM оперировать контекстами в миллионы токенов без переобучения или сверхдорогих архитектурных изменений.

Fast-rlm: минимализм против сложности

Пока крупные фреймворки обрастают панелями управления и облачными интеграциями, fast-rlm занимает противоположную нишу. Это минималистичный репозиторий, созданный для одного — быстрых экспериментов с архитектурой рекурсивных агентов.

Установка элементарна: pip install fast-rlm. Никаких docker-compose, пятиэтажных конфигов и обязательных Grafana. Просто Python и идея.

1 Что внутри коробки

TUI-логгер: Вся цепочка рекурсивных вызовов отображается в реальном времени прямо в терминале. Видишь, как модель «думает», какие инструменты вызывает и куда движется. Без этого RLM — черный ящик в квадрате.
Управление KV Cache: Самая технически важная часть. fast-rlm умеет сериализовать и загружать кэш ключ-значение (KV Cache) модели между вызовами. Это не просто экономия вычислений — это возможность приостановить агента, сохранить его состояние на диск и запустить через неделю с того же места.
Архитектура суб-агентов: Основной агент может порождать дочерних агентов для параллельной работы или делегирования задач. В последней версии 0.1.4 доработали механизм наследования контекста — теперь дочерние агенты получают только релевантную родительскую память, а не всю свалку.
Встроенный Python REPL: Агент может выполнять код. Не как игрушку, а как полноценный инструмент для анализа данных, преобразования текста или даже исправления собственных ошибок в следующих итерациях.

Главная боль fast-rlm — документация. Она написана так, будто автор ненавидит всех, кто будет это читать. Примеры есть, но чтобы понять, как связать суб-агентов с сохранением KV Cache, придется рыться в issues на GitHub. Типичная история для инструментов, созданных исследователями для себя.

С чем вообще конкурировать?

Прямых аналогов с такой же философией «минимализма для экспериментов» почти нет. Но есть соседи по полке.

Инструмент	Фокус	Почему не то же самое
RLM-Toolkit	Продакшен-системы с безопасностью и мониторингом	Это тяжелый фреймворк для развертывания. `fast-rlm` — для прототипирования идей за час.
vLLM, Ollama	Эффективный инференс LLM	Они ускоряют генерацию одного ответа. `fast-rlm` управляет многократными, рекурсивными вызовами в рамках одной сессии.
AutoGPT-подобные агенты	Автономное выполнение задач в интернете	Их цель — действие во внешнем мире. `fast-rlm` сфокусирован на глубоком анализе одного гигантского контекста, не выходя из него.

Если нужен готовый продукт — смотрите в сторону семантического роутинга и продакшен-фреймворков. Если хотите понять, как вообще устроена рекурсивная обработка текста, и собрать что-то свое — fast-rlm ваш выбор.

Как это выглядит на практике

Представьте задачу: найти все упоминания о конкретной уязвимости в исходном коде ядра Linux за последние пять лет. Это терабайты текста.

Вы инициализируете агента fast-rlm с мощной моделью вроде Claude 3.7 Sonnet (актуально на начало 2026) или локальной Qwen2.5-110B.
Даете ему корневую директорию с исходниками и инструкцию.
Агент начинает рекурсивный обход. Сначала читает README, чтобы понять структуру проекта. Потом создает суб-агента для анализа директории `security/`. Тот, в свою очередь, может запускать Python-скрипты для поиска по регулярным выражениям.
Каждый шаг, каждый вызов инструмента логируется в TUI. Вы видите, как агент «ныряет» в одни файлы и игнорирует другие, основываясь на своем понимании задачи.
В конце вы получаете не просто список файлов, а структурированный отчет с выводами, который сам агент составил, сводя вместе результаты работы своих «клонов».

Это не магия. Это просто модель, у которой есть время и инструменты для тщательного изучения данных. Без рекурсивного подхода она бы просто утонула, пытаясь проглотить все сразу.

Кому стоит копать в эту сторону

Не стоит, если ваши задачи — это классический RAG с парой сотен документов. Там хватит и хорошего реранкера, и расширенного контекста новой Llama 4.

Стоит бежать смотреть, если вы:

Аналитик кода или безопасности: Ваше рабочее пространство — это целые репозитории, и вам нужно делать выводы на основе связи между десятками тысяч строк, разбросанных по разным файлам.
Исследователь в области LLM: Хотите экспериментировать с архитектурой агентов, механизмами внимания в длинных контекстах или способами компрессии памяти. fast-rlm — идеальный полигон.
Разработчик, уставший от иллюзий: После прочтения статей про «контекст в 1 млн токенов» вы поняли, что реальная работа с длинными текстами — это сложнее, и хотите инструмент, который не скрывает эту сложность, а дает над ней контроль.

Fast-rlm не сделает всю работу за вас. Он даст конструктор, с помощью которого можно заставить самую современную LLM на февраль 2026 года работать с данными, которые в миллион раз больше ее формального контекстного окна. И это, пожалуй, самый честный подход на сегодня.

Прогноз: к концу 2026 года рекурсивная архитектура станет стандартом для любого серьезного корпоративного LLM-приложения, работающего с внутренними данными. А такие инструменты, как fast-rlm, либо эволюционируют в полноценные фреймворки, либо останутся в нише исследовательских прототипов, на которых эти фреймворки будут построены.

Подписаться на канал

Рекурсивные языковые модели (RLM): как обрабатывать миллионы токенов с помощью fast-rlm