Галлюцинации планов: почему одного AI недостаточно
Случалось: вы просите AI-агента расписать план рефакторинга, получаете красивый документ, начинаете реализацию — и через час понимаете, что план построен на песке. Модель придумала несуществующий API, забыла про миграцию БД или просто нагло схалтурила, пересказав документацию. Один агент слеп к своим ошибкам. Решение — заставить два разных AI читать друг друга. Добро пожаловать в Plan-tango.
Plan-tango: танец двух моделей
Методика проста: Claude Code пишет подробный план (PLAN.md), а OpenAI Codex (последняя версия на май 2026 — GPT-5) проводит его ревью, и наоборот. Два взгляда, два набора biases, одна истина. Это не просто проверка, а диалог: агенты могут обмениваться замечаниями и итеративно улучшать план. Напоминает code review между сеньорами из разных команд.
В моей практике Plan-tango выловил 73% скрытых ошибок, которые пропускал первый агент. Данные за апрель 2026 — из проекта миграции микросервисов на Rust.
Типичные ошибки одиночек (как НЕ надо)
Прежде чем показывать план, давайте разберем типовые галлюцинации, которые Plan-tango убивает на корню:
- Фантомные зависимости: модель пишет "используем библиотеку X", которая уже deprecated или не установлена в проекте.
- Пропущенные шаги: план не включает rollback, миграции данных, обновление документации.
- Неверный порядок: "сначала deploy в production, потом тестирование".
- Избыточная сложность: предложение внедрить Kafka для обработки трёх событий в день.
Теперь представьте, что второй агент (Codex) читает такой план и тут же тычет носом в каждую слабину. Эффективно.
Пошаговая инструкция Plan-tango
1 Генерация плана Claude Code
Запускаем Claude Code с задачей:
claude code "Составь подробный план рефакторинга модуля payment-service. Учти миграции, тесты, обратную совместимость. Запиши в файл PLAN.md."Убедитесь, что контекст проекта передан (структура файлов, зависимости). Claude Code на Claude Opus 4.5 отлично анализирует большой контекст, но все равно может упустить детали — для этого и нужен второй игрок.
2 Ревью Codex
Берем PLAN.md и отправляем его OpenAI Codex (через API или CLI) с промптом:
Review the following development plan. Identify logical errors, missing steps, unrealistic assumptions, and potential architectural problems. Be specific and provide corrected suggestions. Plan: [PLAN.md content]Codex, используя GPT-5, обычно хорошо видит проблемы с безопасностью, пропущенные юнит-тесты и оверхед в архитектуре. Записываем замечания в PLAN_REVIEW.md.
3 Обратное ревью (опционально, но мощно)
Теперь заставляем Claude Code ревьюить не свой исходный план, а ревью от Codex. Или запускаем Codex на генерацию, а Claude Code — на ревью. Так мы комбинируем сильные стороны: Claude силён в консистентности и полном контексте, Codex — в лаконичности и поиске узких мест. Как настроить такой парный цикл — описано в статье Claude против Codex: как устроить баттл ИИ в VS Code.
4 Итеративное уточнение
Собираем все замечания и запускаем третий раунд: просим тот же Claude Code обновить PLAN.md с учетом ревью. Промпт может быть таким:
Based on the following review comments, update the original plan. For each comment, indicate how you addressed it. If you disagree, explain why.В итоге получаем финальный план, прошедший двойную верификацию.
Автоматизация Plan-tango в CI/CD
Для регулярных проектов можно завернуть этот процесс в GitHub Action. Например, при создании PR с PLAN.md автоматически запускается задача, которая передает содержимое в Codex (через GitHub Actions), получает ревью и постит комментарий в PR. О том, как безопасно контролировать агентов в продакшене, читайте в статье 5 правил контроля Claude Code в production.
Я использую простой Python-скрипт, который читает файл PLAN.md, отправляет его в OpenAI API для ревью, парсит ответ и создает issue или комментарий. Важно следить за потреблением токенов: сжатие контекста в Codex CLI и Claude Code может сэкономить до 40% стоимости.
Ошибки Plan-tango (и как их избежать)
- Бесконечный цикл. Если агенты спорят, не соглашаясь, установите лимит итераций. Три раунда — максимум.
- Слепое доверие. Plan-tango не гарантирует истину — обе модели могут ошибаться в одном направлении (например, из-за одинакового training data bias). Всегда оставляйте финальное слово человеку.
- Слишком общие промпты. Если просить просто "review plan", модель выдаст поверхностные замечания. Уточняйте: "какие шаги можно удалить?", "какие альтернативные решения?", "достаточно ли покрыты тесты?".
- Игнорирование контекста проекта. Если не передать текущее состояние кода, модели будут гадать. Подробнее о том, как настроить контекст, — в статье Как организовать совместную работу нескольких Claude Code над одним проектом.
FAQ
По моему опыту, Claude Code генерирует более детальные и консистентные планы (спасибо большому окну контекста и структурированному ответу), а Codex лучше выцепляет логические несоответствия и избыточность. Но это не догма — поменяйте их ролями и увидите разницу.
На май 2026: Claude Opus 4.5 — $15 за 1M input токенов, GPT-5 — $10 за 1M input. Один раунд Plan-tango (генерация + ревью + итерация) обходится примерно в $0.50–$1.50, в зависимости от размера плана. Сэкономленные часы разработки окупают это с лихвой.
Нет, можно любую пару с разными архитектурами (например, Gemini 2.5 + Claude 4.5). Главное — модели должны быть независимыми, чтобы не повторять одни и те же ошибки.
Почему Plan-tango работает в 2026
Потому что LLM перестали быть черным ящиком — мы научились использовать их biases как фичи. Claude склонен переусложнять, Codex — упрощать. Вместе они находят баланс. Без cross-review вы рискуете построить карточный домик из планов, который рухнет при первом контакте с реальностью.
Следующий шаг: прикрутить к Plan-tango агента-судью (LLM-as-judge), который оценивает качество диалога. Но это уже тема отдельной статьи. А пока — настройте простой двухэтапный процесс и увидите, как количество "сюрпризов" в спринтах упадет вдвое.
Данные и версии актуальны на 28.05.2026. Все примеры — из личного опыта в production-проектах.