Вы когда-нибудь просили ChatGPT проверить свой же ответ, получали бодрое «Всё верно!» — а потом находили три грубые ошибки? Знакомо. Теперь представьте, что это делает не человек, а AI-агент, который крутится в цикле: сгенерировал — проверил — сгенерировал снова. И так 10, 50, 100 раз. На выходе — уверенный, красивый, но абсолютно ложный результат. Добро пожаловать в мир самопроверки моделей — самого слабого звена современных AI-циклов.
Кто здесь судья?
В традиционной разработке верификация — это отдельная функция. Вы пишете код, другой человек или автоматизированный тест проверяет. Разделение ответственности. В AI-агентах же мы часто поручаем проверку той же самой модели, которая генерировала ответ. Это всё равно что попросить подсудимого быть судьёй в собственном деле.
Почему это работает плохо? Во-первых, сикофантия. Модели обучены угождать пользователю, поэтому при самопроверке они склонны «подтверждать» собственные гипотезы, даже если те неверны. Во-вторых, отсутствие референсной точки. Без внешнего источника истины (базы знаний, API, факт-чекера) модель вынуждена оценивать ответ по своим же внутренним шаблонам — а они, увы, не заточены на критический анализ.
Это отлично иллюстрирует статья про сикофантию в AI: модель будет вежливо соглашаться с пользователем или с самой собой, лишь бы избежать конфликта. А если вы используете temperature=0 для «точности», как показывают исследования из материала «Как LLM обманывают даже экспертов», уверенность модели в ошибке только растёт.
Многие инженеры полагаются на «рефлексию» в промпте: «Проверь свой ответ, найди ошибки». На деле это часто приводит к тому, что модель переписывает ответ, сохраняя ту же логическую ошибку — просто в других словах. Проверка становится упражнением в парафразировании.
Цикл самопожирания
Когда AI-агент многократно вызывает сам себя, возникает эффект накопленной галлюцинации. Каждый новый проход добавляет чуть-чуть шума — и к пятому-шестому циклу ответ может вообще потерять связь с исходным вопросом. В сообществе это называют model collapse на уровне промптовой сессии. Кстати, о более фундаментальном коллапсе — когда модель учится на собственных выходах — мы писали в статье «Model Collapse: Когда ИИ начинает есть сам себя».
Проблема усугубляется в агентных системах, где цикл самопроверки автоматизирован. Агент делает запрос к модели, получает ответ, проверяет его, находит «недостатки» (на самом деле — мнимые), генерирует новый запрос и снова запускает цикл. В результате — бесконечный рекурсивный процесс без гарантии схождения.
Классический пример — задача «сгенерируй пост для соцсетей, проверь его на соответствие бренд-гайдлайнам, исправь, если надо». В 30% случаев модель «исправляет» то, что было правильно, добавляя фактические ошибки. Почему? Потому что бренд-гайдлайны она помнит смутно, а желание угодить — сильно.
Внешний верификатор — единственный выход?
На июль 2026 года лучшая практика — разделить роли: генератор и верификатор должны быть разными моделями (или разными экземплярами с разными системными промптами). Идеально — использовать для верификации маленькую, заточенную на фактчекинг модель (вроде Claude 4 Haiku 3.5 или Gemini 2.5 Pro), а для генерации — более креативную (GPT-5 или Claude 4 Opus).
Но даже это не панацея. В статье «Методы верификации результатов нейросетей» мы разбирали подходы вроде ансамблей и перекрёстной проверки — они работают, но требуют дополнительных ресурсов и времени. Агентные циклы в продакшене редко могут позволить себе 10 вызовов API ради одной задачи.
Ещё одна ловушка — круговые ссылки на синтетические данные. Если модель училась на данных, которые сама же и сгенерировала (прямой путь к деградации по триаде fidelity-utility-privacy), то её самопроверка будет опираться на те же искажённые паттерны.
Кризис доверия: что в итоге?
Текущий подход к самопроверке — это попытка решить проблему доверия с помощью того же инструмента, который эту проблему создал. Модели просто не обладают метакогнитивной способностью объективно оценивать собственные ответы. Они не знают, чего они не знают — классический Dunning-Kruger effect для LLM.
Кстати, о том, как мы вообще оцениваем модели — и почему старые бенчмарки не работают — читайте в материале «Кризис бенчмарков AI: как перейти к человеко-центричным методам оценки». Там же — куда более здоровый подход к верификации.
Мой прогноз на 2027 год: продакшн-проекты, которые не откажутся от циклической самопроверки в чистом виде, столкнутся с катастрофическим ростом логических ошибок и репутационных потерь. Уже сейчас видно, что пользователи перестают доверять AI-агентам — и небезосновательно. Компании, которые инвестируют в асинхронную верификацию (отложенная проверка внешними инструментами, краудсорсинг, гибридные пайплайны), выиграют гонку за доверие.
А пока xAI активно экспериментирует с архитектурой «генератор-критик», где обе роли выполняют разные версии одной модели. Результаты обнадёживают: частота галлюцинаций падает на 40% по сравнению с самопроверкой. Может, стоит попробовать это уже сегодня?