AI строит AI: рекурсивное самоулучшение в 2026 году

Представьте программиста, который пишет код для программы, которая пишет код лучше, чем он сам. А затем эта новая программа итеративно улучшает свой код. Звучит как сценарий конца света от Курцвейла? DeepMind уже запилили нечто подобное в 2024-м с AlphaDev. С тех пор прошло два года. И, спойлер: сингулярность не наступила. Но кое-что движется.

Мы стоим на пороге странного зрелища: AI, который пытается построить лучшего себя. Это называют рекурсивным самоулучшением (RSI). В теории — путь к intelligence explosion. На практике — гора граблей, большая часть которых воткнута в собственную архитектуру нейросетей.

Как выглядит попытка самовоспроизводства

Самый очевидный пример — AlphaDev, где AI искал более эффективные алгоритмы сортировки. Нашел. Потом они попробовали применить ту же идею к улучшению собственных моделей. Работает? Да. Но с нюансом: каждый новый цикл требует всё больше вычислительных ресурсов, а отдача падает.

Другой путь — использовать LLM для генерации синтетических данных, на которых затем дообучают ту же модель. OpenAI, Anthropic, Google DeepMind — все в этом замешаны. В 2025-м Anthropic опубликовала исследование, где Claude 4 поручали улучшать архитектуру следующей версии. Выяснилась забавная вещь: модель часто предлагала решения, копирующие её собственные слабости. Иными словами, она не знает, чего не знает.

Мы уже касались похожей темы в статье об иронии AI — когда инструмент, созданный для помощи, начинает влиять на то, как мы оцениваем способности. С RSI то же самое: инструмент улучшения возвращает нам наши же слепые зоны.

AutoML и самообучающиеся цепочки

Отдельного упоминания заслуживает AutoML. Google, Amazon, Hugging Face — все предлагают сервисы, которые автоматически подбирают гиперпараметры, выбирают архитектуру и даже обучают финальную модель. Это минимальная форма RSI: алгоритм управляет другим алгоритмом. Но полноценной обратной связи, где обученная модель меняет процесс обучения, тут нет. Это скорее «ручное управление через API».

В 2026 году появилась первая коммерческая система, которая делает шаг вперёд: MetaGPT (не путать с одноимённым проектом агентов) — платформа, где агенты на основе GPT-5 проектируют нейросети для конкретных задач, а затем сами же их тестируют и вносят правки. По заявлениям, на простых задачах классификации изображений качество сравнимо с лучшими ручными решениями. Но на сложных — например, генерации трёхмерных сцен — результат деградирует.

Можно вспомнить и кейс умного фильтра в AI Code Completion от Т-Банка. Там фильтр, построенный одной моделью, улучшал качество предсказаний другой. Это не чистое RSI, но уже зачаток.

Петли оценки и «галюцинации на стероидах»

Главная беда RSI — оценка. Если AI сам оценивает, стало ли улучшение лучше, мы получаем замкнутый круг. В 2025 году эксперимент с обучением модели на собственных синтетических данных (так называемый self-play) привёл к «коллапсу»: модель начала повторять одни и те же паттерны, теряя вариативность.

Почему? Потому что генерация новых данных предполагает знание того, какие данные нужны. А если модель не способна выйти за собственное распределение, она обречена на вырождение. Здесь уместна аналогия с Flapping Airplanes vs Scaling: грубая сила (scaling) даёт плато, а исследовательский подход может сломать барьер. RSI без внешнего эталона — это просто масштабирование через петлю обратной связи.

Некоторые исследователи пытаются решить проблему, используя другую модель в качестве экзаменатора. Например, Qwen2.5 7B, который эффективно решает задачи ARC-AGI, мог бы служить оценщиком для больших моделей? Эксперимент показал: маленькая модель не улавливает нюансы больших, а большая — не доверяет мелкой. Тупик.

Парадокс Джевонса в действии

Есть и экономическая сторона. Чем лучше AI учится улучшать себя, тем больше он потребляет ресурсов. Классический Парадокс Джевонса налицо: оптимизация моделей ведет к дефициту железа. Пока что человеко-часы дороже GPU-часов, но тренд сломался — в конце 2025 года стоимость обучения GPT-5 оценивалась в $3–5 млрд. Это уже сравнимо с бюджетом небольшой страны. Если RSI позволит сократить затраты на QA и архитектурный поиск, парадокс может усугубиться: AI будет требовать всё больше вычислительных кластеров, а количество инженеров может даже сократиться.

Интересно, что сами разработчики AI-инструментов (как показал недавний опрос среди разработчиков) отмечают рост эффективности, но и рост тревоги: «Мы не понимаем, как работает то, что мы построили, а оно уже улучшает само себя». Звучит как начало сюжета «Чёрного зеркала».

Где зарыт предел

На сегодня, май 2026, мы умеем замыкать петлю RSI только в узких задачах: оптимизация кода (сравнивать быстродействие можно автоматически), настройка гиперпараметров, подбор аугментаций. Попытки расширить — например, поручить AI придумать новую функцию активации или архитектуру внимания — пока не дали ничего, что превзошло бы человека. В январе 2026 команда OpenAI запустила проект «Recursive Architect» на GPT-5, который должен был предложить улучшенную версию Transformer. Модель выдала 17 вариантов, из которых 2 были в корне неверны, 1 — плагиат из статьи 2023 года, остальные — незначительные вариации.

Может быть, проблема в том, что мы требуем от модели воображения, которого у неё нет. LLM — это система поиска по гигантской базе человеческого текста. Новое там — это комбинация известного. Для прорывного самоулучшения нужен доступ к истинным законам физики, математики, вычислимости. То есть, нужен «абсолютный судья». Эту роль пока выполняет человек.

Пока мы не научились формально верифицировать, что одно улучшение лучше другого без человека, RSI — всего лишь частичная автоматизация скучных частей ML-пайплайна. Но это уже много. Как говорил один мой знакомый ML-инженер: «AI не станет умнее меня завтра, но завтра он сделает работу трех джуниоров за час. И это страшно и круто одновременно».

Если вы хотите разобраться, как всё-таки работают современные генеративные модели, а не только процесс их самосовершенствования, советую курс AI-креатор: создаём контент с помощью нейросетей — там дают практические навыки без лишней теории. А для углублённого понимания темы самоулучшения обязательно прочитайте нашу статью «Рекурсивное самосовершенствование ИИ: когда алгоритм начинает править собой».

Что дальше? Вероятно, мы не увидим сингулярность в 2027-м. Но система, где AI пишет код для AI, который пишет следующий AI, уже не фантастика. Она просто очень дорогая и багованная. Вопрос не в том, сможет ли AI построить лучший AI. Вопрос — когда перестанут быть нужны люди, которые этот AI кормят идеями и верификацией. Пока что ответ — не скоро. Но с каждым циклом RSI этот «не скоро» становится чуть короче.

Подписаться на канал

AI строит AI: до интеллектуального взрыва еще далеко, но мы уже близко

Как выглядит попытка самовоспроизводства

AutoML и самообучающиеся цепочки

Петли оценки и «галюцинации на стероидах»

Парадокс Джевонса в действии

Где зарыт предел

Подписывайтесь на наш канал!