Проблема: мы уперлись в стену. И эта стена состоит из триллионов параметров
Все гонятся за размером. Больше параметров – лучше reasoning, больше знаний, выше качество. Этот нарратив доминировал последние пять лет. Но в 2026 году он трещит по швам. Запустить модель на 500 миллиардов параметров локально? Забудьте. Fine-tune её под свою задачу? Требует бюджета небольшой страны.
И вот появляется Oro. Не очередная вариация на тему Transformer с парой новых слоёв, а фундаментально другой подход. Его авторы не стали наращивать параметры. Вместо этого они заставили существующие параметры работать в 3 раза эффективнее через рекурсивные циклы в латентном пространстве. Звучит как магия? Отчасти да. Но магия, у которой есть строгое математическое обоснование.
Контекст: если вы пропустили предыдущие волны, почитайте про тренды роста моделей и про работу с латентным пространством. Oro стоит на плечах этих гигантов.
Решение: Не больше нейронов, а больше итераций. Введение в Scaling Latent Reasoning
Представьте, что ваша LLM – это не статичный чёрный ящик, который один раз «проглотил» промпт и выдал ответ. Представьте, что это динамическая система, которая может «обдумывать» проблему в своём внутреннем, сжатом (латентном) представлении. Не порождая новые токены. Не тратя вычислительные ресурсы на декодирование. Просто крутясь в цикле, уточняя своё понимание.
Вот что делает Oro. Ядро архитектуры – рекурсивный блок латентного reasoning'а. После того как модель создала начальное латентное представление контекста (этот вектор с высокой семантической плотностью), она не сразу идёт к выходу. Она передаёт это представление в специальный цикл.
В этом цикле происходит «шлифовка» знания. Модель задаёт себе внутренние вопросы, проверяет противоречия, строит цепочки логических выводов – и всё это в рамках одного и того же компактного вектора. После каждой итерации обновлённый латентный вектор снова подаётся на вход тому же блоку. И так до тех пор, пока не сработает exit gate.
Сердце системы: Exit Gate и сигмоидальная активация
Бесконечный цикл – путь в катастрофу. Oro нужен механизм, который решает: «Достаточно. Мы всё обдумали, можно выдавать ответ». Это и есть exit gate – небольшой классификатор (обычно однослойная сеть), который на каждом шаге цикла оценивает «уверенность» модели в текущем латентном состоянии.
Он использует сигмоидальную активацию не просто так. Сигмоида выдаёт число от 0 до 1. Это интерпретируется как вероятность того, что reasoning завершён. Исследователи экспериментировали с другими функциями (step function, tanh), но сигмоида показала наилучшую сходимость при обучении и плавность принятия решений.
Когда накопленная «уверенность» (читай: выход сигмоиды) превышает пороговое значение (например, 0.95), цикл прерывается. Обогащённое латентное представление отправляется в финальный декодер для генерации токенов. Вуаля. Вы получили ответ, над которым модель «подумала» N итераций, но потратила ресурсы лишь на одну генерацию.
| Архитектура | Подход к Reasoning | Вычислительная нагрузка | Эффективность (Knowledge Manipulation) |
|---|---|---|---|
| Классический Transformer (GPT-4, Claude 3.7) | Неявный, через глубину сети | Высокая (все параметры задействуются один раз за токен) | Базовый уровень (1x) |
| Oro (Scaling Latent Reasoning) | Явный, рекурсивный цикл в латентном пространстве | Умеренная (малый блок циклически, основные параметры – один раз) | До 3x (по данным исследований на февраль 2026) |
| Методы типа Chain-of-Thought | Явный, но в пространстве токенов | Очень высокая (генерация множества промежуточных токенов) | ~1.5-2x, но медленно и дорого |
Пошаговый план: Как Oro обрабатывает запрос (и почему это гениально просто)
1 Фаза кодирования и создания начального латентного вектора
Всё начинается стандартно. Промпт токенизируется и проходит через эмбеддинг-слой и стопку Transformer-энкодеров (или через основную часть модели-основы, например, LLaMA). Но вместо того чтобы сразу идти в декодер, скрытые состояния последнего слоя агрегируются (чаще всего через pooling) в единый вектор фиксированной размерности – тот самый начальный латентный вектор Z0. Это сжатая суть запроса и контекста.
2 Вход в рекурсивный цикл Reasoning'а
Z0 поступает в специальный модуль – Latent Reasoning Unit (LRU). Это компактная нейросеть (часто просто несколько полносвязных слоёв с residual connections). LRU обрабатывает вектор, «обдумывая» его. На выходе LRU получаем обновлённый латентный вектор Z1 и скаляр confidence1 от exit gate.
Если confidence1 < порога, Z1 снова подаётся на вход того же самого LRU. Параметры LRU не меняются от итерации к итерации. Они используются повторно. Это ключевой момент экономии.
3 Итеративное обогащение и решение о выходе
Цикл продолжается: Zt → LRU → (Zt+1, confidencet+1). С каждым шагом латентный вектор, теоретически, становится более «осмысленным» и «продуманным». Exit gate обучается предсказывать готовность на основе этого вектора. Обучение exit gate – самая хитрая часть, требующая специальных техник (например, обучения с подкреплением или взвешенных лоссов), чтобы модель не «сдавалась» слишком рано и не «зацикливалась» вечно.
4 Финальная декодирование
Как только confidencet > порога, цикл останавливается. Финальный латентный вектор Zfinal передаётся в декодер (опять же, часть исходной модели-основы), который развёртывает его в последовательность ответных токенов. Важно: декодер работает всего один раз.
Нюансы и подводные камни: Почему Oro ещё не в каждом телефоне
Архитектура блестящая на бумаге. Но в железе и в реальных задачах всё сложнее.
Проблема обучения exit gate
Как вы учите сеть решать, когда остановиться? Нет готового датасета с пометками «здесь модель подумала 3 раза, а здесь – 7». Исследователи используют гибридные подходы: предобучение на задачах с известной сложностью, где число итераций косвенно задаётся, и последующую тонкую настройку с подкреплением, где reward учитывает и точность, и «цену» итераций. Если настройка провалена, модель либо делает 1-2 итерации (вырождается в обычную архитектуру), либо уходит в бесконечный цикл. Такое случалось в ранних экспериментах.
Это напоминает проблемы обучения раннего выхода (early exiting) в каскадных сетях, но на стероидах. Если интересны хаки для управления «внутренним состоянием» модели, посмотрите статью про RLM.
Стабильность рекурсивных циклов
Подавать выход сети на её же вход – рискованно. Система может стать численно нестабильной, векторы могут «взрываться» (значения уходят в бесконечность) или «затухать» (превращаться в ноль). Oro использует техники нормализации (LayerNorm внутри LRU) и residual connections, чтобы поддерживать стабильность. Но на очень длинных циклах (20+ итераций) шум может накапливаться. На практике, большинство задач решается за 3-8 итераций.
Зависимость от качества латентного пространства
Мусор на входе – мусор на выходе. Если базовая модель создала плохое начальное латентное представление Z0, цикл не сможет совершить чудо. Он может лишь немного улучшить то, что есть. Поэтому Oro – это не замена хорошей базовой модели, а её усилитель. Лучшие результаты получаются при совместном предобучении всей системы с нуля, а не при «прикручивании» LRU к готовой LLaMA.
Oro против мира: Практические выводы на 2026 год
Итак, что Oro даёт прямо сейчас? Исследования (актуальные на февраль 2026) показывают, что модель с архитектурой Oro, имеющая в 3 раза меньше параметров, чем классический Transformer, показывает сопоставимые результаты на задачах, требующих сложного манипулирования знаниями: логический вывод, многошаговое решение задач, работа с противоречивой информацией.
- Для исследователей: Oro открывает путь к созданию более способных моделей без экстремального роста вычислительных затрат. Это направление – Scaling Latent Reasoning – сейчас одно из самых горячих.
- Для инженеров: Ждите появления моделей на базе Oro в репозиториях типа Hugging Face. Их fine-tune будет иметь свою специфику (особенно осторожно с learning rate для exit gate). Интеграция в фреймворки для локального запуска потребует поддержки условного выполнения.
- Для всех остальных: Это сигнал. Эра слепого наращивания параметров подходит к концу. Будущее за умными архитектурами, которые заставляют имеющиеся вычисления работать интенсивнее. Следующий логичный шаг – комбинация подходов вроде DroPE (для эффективного чтения контекста) и Oro (для его глубокой обработки).
Главный вопрос: убьёт ли Oro гигантские модели? Нет. Но он создаёт жизнеспособную, эффективную альтернативу для 99% практических применений, где нельзя развернуть кластер из 10 000 H100. Oro – это оружие для тех, кто хочет мощности, но считает мегаватты и гигабайты.
Прогноз на 2026-2027: Первые open-source реализации Oro появятся в течение года. Мы увидим, как эта архитектура будет скрещиваться с другими прорывными идеями, например, с подходом KEF для прокачки reasoning. А кто-то обязательно попробует применить циклы Oro к LoRA-адаптерам, что приведёт к новым неожиданным открытиям (или катастрофам).
Итоговая мысль: Oro – не панацея. Это инструмент. Очень острый, очень специфический. Но он чётко указывает направление: будущее LLM лежит не в бесконечном расширении, а в умной, итеративной обработке информации внутри модели. И это, пожалуй, самое важное знание 2026 года.