Что такое архитектура Oro?

Oro (Looped Language Models) — это архитектура языковых моделей, которая использует рекурсивные циклы обработки в латентном (сжатом) пространстве представлений для глубокого "обдумывания" задачи без увеличения количества параметров модели.

Какой практический выигрыш даёт Oro?

Модели на архитектуре Oro с в 3 раза меньшим количеством параметров показывают результаты, сопоставимые с гигантскими классическими Transformer'ами, на задачах, требующих сложного логического вывода и манипуляции знаниями. Это критически важно для локального запуска.

Что такое exit gate и как он работает?

Exit gate — это небольшой классификатор (обычно однослойная сеть с сигмоидальной активацией), который на каждом шаге рекурсивного цикла оценивает "уверенность" модели в завершённости reasoning'а. Когда уверенность превышает порог, цикл прерывается для генерации ответа.

В чём главная сложность обучения Oro?

Основная сложность — обучение exit gate принимать правильные решения об остановке. Для этого используют гибридные методы: предобучение на задачах с известной сложностью и тонкую настройку с подкреплением, где reward учитывает и точность, и вычислительные затраты.

Looped Language Models (Oro): Революция в архитектуре LLM | 2026

Проблема: мы уперлись в стену. И эта стена состоит из триллионов параметров

Все гонятся за размером. Больше параметров – лучше reasoning, больше знаний, выше качество. Этот нарратив доминировал последние пять лет. Но в 2026 году он трещит по швам. Запустить модель на 500 миллиардов параметров локально? Забудьте. Fine-tune её под свою задачу? Требует бюджета небольшой страны.

И вот появляется Oro. Не очередная вариация на тему Transformer с парой новых слоёв, а фундаментально другой подход. Его авторы не стали наращивать параметры. Вместо этого они заставили существующие параметры работать в 3 раза эффективнее через рекурсивные циклы в латентном пространстве. Звучит как магия? Отчасти да. Но магия, у которой есть строгое математическое обоснование.

Контекст: если вы пропустили предыдущие волны, почитайте про тренды роста моделей и про работу с латентным пространством. Oro стоит на плечах этих гигантов.

Решение: Не больше нейронов, а больше итераций. Введение в Scaling Latent Reasoning

Представьте, что ваша LLM – это не статичный чёрный ящик, который один раз «проглотил» промпт и выдал ответ. Представьте, что это динамическая система, которая может «обдумывать» проблему в своём внутреннем, сжатом (латентном) представлении. Не порождая новые токены. Не тратя вычислительные ресурсы на декодирование. Просто крутясь в цикле, уточняя своё понимание.

Вот что делает Oro. Ядро архитектуры – рекурсивный блок латентного reasoning'а. После того как модель создала начальное латентное представление контекста (этот вектор с высокой семантической плотностью), она не сразу идёт к выходу. Она передаёт это представление в специальный цикл.

💡

Латентное пространство – это сжатое, плотное представление смысла. Один вектор в латентном пространстве может содержать информацию, для выражения которой в токенах потребовались бы сотни слов. Работать с такими векторами быстрее и эффективнее.

В этом цикле происходит «шлифовка» знания. Модель задаёт себе внутренние вопросы, проверяет противоречия, строит цепочки логических выводов – и всё это в рамках одного и того же компактного вектора. После каждой итерации обновлённый латентный вектор снова подаётся на вход тому же блоку. И так до тех пор, пока не сработает exit gate.

Сердце системы: Exit Gate и сигмоидальная активация

Бесконечный цикл – путь в катастрофу. Oro нужен механизм, который решает: «Достаточно. Мы всё обдумали, можно выдавать ответ». Это и есть exit gate – небольшой классификатор (обычно однослойная сеть), который на каждом шаге цикла оценивает «уверенность» модели в текущем латентном состоянии.

Он использует сигмоидальную активацию не просто так. Сигмоида выдаёт число от 0 до 1. Это интерпретируется как вероятность того, что reasoning завершён. Исследователи экспериментировали с другими функциями (step function, tanh), но сигмоида показала наилучшую сходимость при обучении и плавность принятия решений.

Когда накопленная «уверенность» (читай: выход сигмоиды) превышает пороговое значение (например, 0.95), цикл прерывается. Обогащённое латентное представление отправляется в финальный декодер для генерации токенов. Вуаля. Вы получили ответ, над которым модель «подумала» N итераций, но потратила ресурсы лишь на одну генерацию.

Архитектура	Подход к Reasoning	Вычислительная нагрузка	Эффективность (Knowledge Manipulation)
Классический Transformer (GPT-4, Claude 3.7)	Неявный, через глубину сети	Высокая (все параметры задействуются один раз за токен)	Базовый уровень (1x)
Oro (Scaling Latent Reasoning)	Явный, рекурсивный цикл в латентном пространстве	Умеренная (малый блок циклически, основные параметры – один раз)	До 3x (по данным исследований на февраль 2026)
Методы типа Chain-of-Thought	Явный, но в пространстве токенов	Очень высокая (генерация множества промежуточных токенов)	~1.5-2x, но медленно и дорого

Пошаговый план: Как Oro обрабатывает запрос (и почему это гениально просто)

1 Фаза кодирования и создания начального латентного вектора

Всё начинается стандартно. Промпт токенизируется и проходит через эмбеддинг-слой и стопку Transformer-энкодеров (или через основную часть модели-основы, например, LLaMA). Но вместо того чтобы сразу идти в декодер, скрытые состояния последнего слоя агрегируются (чаще всего через pooling) в единый вектор фиксированной размерности – тот самый начальный латентный вектор Z₀. Это сжатая суть запроса и контекста.

2 Вход в рекурсивный цикл Reasoning'а

Z₀ поступает в специальный модуль – Latent Reasoning Unit (LRU). Это компактная нейросеть (часто просто несколько полносвязных слоёв с residual connections). LRU обрабатывает вектор, «обдумывая» его. На выходе LRU получаем обновлённый латентный вектор Z₁ и скаляр confidence₁ от exit gate.

Если confidence₁ < порога, Z₁ снова подаётся на вход того же самого LRU. Параметры LRU не меняются от итерации к итерации. Они используются повторно. Это ключевой момент экономии.

3 Итеративное обогащение и решение о выходе

Цикл продолжается: Z_t → LRU → (Z_t+1, confidence_t+1). С каждым шагом латентный вектор, теоретически, становится более «осмысленным» и «продуманным». Exit gate обучается предсказывать готовность на основе этого вектора. Обучение exit gate – самая хитрая часть, требующая специальных техник (например, обучения с подкреплением или взвешенных лоссов), чтобы модель не «сдавалась» слишком рано и не «зацикливалась» вечно.

4 Финальная декодирование

Как только confidence_t > порога, цикл останавливается. Финальный латентный вектор Z_final передаётся в декодер (опять же, часть исходной модели-основы), который развёртывает его в последовательность ответных токенов. Важно: декодер работает всего один раз.

Нюансы и подводные камни: Почему Oro ещё не в каждом телефоне

Архитектура блестящая на бумаге. Но в железе и в реальных задачах всё сложнее.

Проблема обучения exit gate

Как вы учите сеть решать, когда остановиться? Нет готового датасета с пометками «здесь модель подумала 3 раза, а здесь – 7». Исследователи используют гибридные подходы: предобучение на задачах с известной сложностью, где число итераций косвенно задаётся, и последующую тонкую настройку с подкреплением, где reward учитывает и точность, и «цену» итераций. Если настройка провалена, модель либо делает 1-2 итерации (вырождается в обычную архитектуру), либо уходит в бесконечный цикл. Такое случалось в ранних экспериментах.

Это напоминает проблемы обучения раннего выхода (early exiting) в каскадных сетях, но на стероидах. Если интересны хаки для управления «внутренним состоянием» модели, посмотрите статью про RLM.

Стабильность рекурсивных циклов

Подавать выход сети на её же вход – рискованно. Система может стать численно нестабильной, векторы могут «взрываться» (значения уходят в бесконечность) или «затухать» (превращаться в ноль). Oro использует техники нормализации (LayerNorm внутри LRU) и residual connections, чтобы поддерживать стабильность. Но на очень длинных циклах (20+ итераций) шум может накапливаться. На практике, большинство задач решается за 3-8 итераций.

Зависимость от качества латентного пространства

Мусор на входе – мусор на выходе. Если базовая модель создала плохое начальное латентное представление Z₀, цикл не сможет совершить чудо. Он может лишь немного улучшить то, что есть. Поэтому Oro – это не замена хорошей базовой модели, а её усилитель. Лучшие результаты получаются при совместном предобучении всей системы с нуля, а не при «прикручивании» LRU к готовой LLaMA.

Oro против мира: Практические выводы на 2026 год

Итак, что Oro даёт прямо сейчас? Исследования (актуальные на февраль 2026) показывают, что модель с архитектурой Oro, имеющая в 3 раза меньше параметров, чем классический Transformer, показывает сопоставимые результаты на задачах, требующих сложного манипулирования знаниями: логический вывод, многошаговое решение задач, работа с противоречивой информацией.

Для исследователей: Oro открывает путь к созданию более способных моделей без экстремального роста вычислительных затрат. Это направление – Scaling Latent Reasoning – сейчас одно из самых горячих.
Для инженеров: Ждите появления моделей на базе Oro в репозиториях типа Hugging Face. Их fine-tune будет иметь свою специфику (особенно осторожно с learning rate для exit gate). Интеграция в фреймворки для локального запуска потребует поддержки условного выполнения.
Для всех остальных: Это сигнал. Эра слепого наращивания параметров подходит к концу. Будущее за умными архитектурами, которые заставляют имеющиеся вычисления работать интенсивнее. Следующий логичный шаг – комбинация подходов вроде DroPE (для эффективного чтения контекста) и Oro (для его глубокой обработки).

Главный вопрос: убьёт ли Oro гигантские модели? Нет. Но он создаёт жизнеспособную, эффективную альтернативу для 99% практических применений, где нельзя развернуть кластер из 10 000 H100. Oro – это оружие для тех, кто хочет мощности, но считает мегаватты и гигабайты.

Прогноз на 2026-2027: Первые open-source реализации Oro появятся в течение года. Мы увидим, как эта архитектура будет скрещиваться с другими прорывными идеями, например, с подходом KEF для прокачки reasoning. А кто-то обязательно попробует применить циклы Oro к LoRA-адаптерам, что приведёт к новым неожиданным открытиям (или катастрофам).

Итоговая мысль: Oro – не панацея. Это инструмент. Очень острый, очень специфический. Но он чётко указывает направление: будущее LLM лежит не в бесконечном расширении, а в умной, итеративной обработке информации внутри модели. И это, пожалуй, самое важное знание 2026 года.

Oro: Как рекурсивные циклы в латентном пространстве заменяют миллиарды параметров (и почему это не просто очередная модная архитектура)