Когда 128K токенов — это смешно
Еще вчера все восхищались моделями с контекстом в 200 тысяч токенов. Сегодня, в феврале 2026, это выглядит как детская игрушка. Настоящие задачи — это анализ кодовых баз в гигабайтах, юридических договоров на сотнях страниц или полная история чата за год. Тут и появляются рекурсивные языковые модели (RLM).
Идея проста до гениальности: не загружать весь контекст в память модели сразу, а дать ей инструменты для навигации по нему. Модель сама решает, какой кусок информации ей сейчас нужен, «вызывает» его, обрабатывает и двигается дальше. Контекстная память становится практически бесконечной.
Fast-rlm: минимализм против сложности
Пока крупные фреймворки обрастают панелями управления и облачными интеграциями, fast-rlm занимает противоположную нишу. Это минималистичный репозиторий, созданный для одного — быстрых экспериментов с архитектурой рекурсивных агентов.
Установка элементарна: pip install fast-rlm. Никаких docker-compose, пятиэтажных конфигов и обязательных Grafana. Просто Python и идея.
1 Что внутри коробки
- TUI-логгер: Вся цепочка рекурсивных вызовов отображается в реальном времени прямо в терминале. Видишь, как модель «думает», какие инструменты вызывает и куда движется. Без этого RLM — черный ящик в квадрате.
- Управление KV Cache: Самая технически важная часть.
fast-rlmумеет сериализовать и загружать кэш ключ-значение (KV Cache) модели между вызовами. Это не просто экономия вычислений — это возможность приостановить агента, сохранить его состояние на диск и запустить через неделю с того же места. - Архитектура суб-агентов: Основной агент может порождать дочерних агентов для параллельной работы или делегирования задач. В последней версии 0.1.4 доработали механизм наследования контекста — теперь дочерние агенты получают только релевантную родительскую память, а не всю свалку.
- Встроенный Python REPL: Агент может выполнять код. Не как игрушку, а как полноценный инструмент для анализа данных, преобразования текста или даже исправления собственных ошибок в следующих итерациях.
Главная боль fast-rlm — документация. Она написана так, будто автор ненавидит всех, кто будет это читать. Примеры есть, но чтобы понять, как связать суб-агентов с сохранением KV Cache, придется рыться в issues на GitHub. Типичная история для инструментов, созданных исследователями для себя.
С чем вообще конкурировать?
Прямых аналогов с такой же философией «минимализма для экспериментов» почти нет. Но есть соседи по полке.
| Инструмент | Фокус | Почему не то же самое |
|---|---|---|
| RLM-Toolkit | Продакшен-системы с безопасностью и мониторингом | Это тяжелый фреймворк для развертывания. fast-rlm — для прототипирования идей за час. |
| vLLM, Ollama | Эффективный инференс LLM | Они ускоряют генерацию одного ответа. fast-rlm управляет многократными, рекурсивными вызовами в рамках одной сессии. |
| AutoGPT-подобные агенты | Автономное выполнение задач в интернете | Их цель — действие во внешнем мире. fast-rlm сфокусирован на глубоком анализе одного гигантского контекста, не выходя из него. |
Если нужен готовый продукт — смотрите в сторону семантического роутинга и продакшен-фреймворков. Если хотите понять, как вообще устроена рекурсивная обработка текста, и собрать что-то свое — fast-rlm ваш выбор.
Как это выглядит на практике
Представьте задачу: найти все упоминания о конкретной уязвимости в исходном коде ядра Linux за последние пять лет. Это терабайты текста.
- Вы инициализируете агента
fast-rlmс мощной моделью вроде Claude 3.7 Sonnet (актуально на начало 2026) или локальной Qwen2.5-110B. - Даете ему корневую директорию с исходниками и инструкцию.
- Агент начинает рекурсивный обход. Сначала читает README, чтобы понять структуру проекта. Потом создает суб-агента для анализа директории `security/`. Тот, в свою очередь, может запускать Python-скрипты для поиска по регулярным выражениям.
- Каждый шаг, каждый вызов инструмента логируется в TUI. Вы видите, как агент «ныряет» в одни файлы и игнорирует другие, основываясь на своем понимании задачи.
- В конце вы получаете не просто список файлов, а структурированный отчет с выводами, который сам агент составил, сводя вместе результаты работы своих «клонов».
Это не магия. Это просто модель, у которой есть время и инструменты для тщательного изучения данных. Без рекурсивного подхода она бы просто утонула, пытаясь проглотить все сразу.
Кому стоит копать в эту сторону
Не стоит, если ваши задачи — это классический RAG с парой сотен документов. Там хватит и хорошего реранкера, и расширенного контекста новой Llama 4.
Стоит бежать смотреть, если вы:
- Аналитик кода или безопасности: Ваше рабочее пространство — это целые репозитории, и вам нужно делать выводы на основе связи между десятками тысяч строк, разбросанных по разным файлам.
- Исследователь в области LLM: Хотите экспериментировать с архитектурой агентов, механизмами внимания в длинных контекстах или способами компрессии памяти.
fast-rlm— идеальный полигон. - Разработчик, уставший от иллюзий: После прочтения статей про «контекст в 1 млн токенов» вы поняли, что реальная работа с длинными текстами — это сложнее, и хотите инструмент, который не скрывает эту сложность, а дает над ней контроль.
Fast-rlm не сделает всю работу за вас. Он даст конструктор, с помощью которого можно заставить самую современную LLM на февраль 2026 года работать с данными, которые в миллион раз больше ее формального контекстного окна. И это, пожалуй, самый честный подход на сегодня.
Прогноз: к концу 2026 года рекурсивная архитектура станет стандартом для любого серьезного корпоративного LLM-приложения, работающего с внутренними данными. А такие инструменты, как fast-rlm, либо эволюционируют в полноценные фреймворки, либо останутся в нише исследовательских прототипов, на которых эти фреймворки будут построены.