OpenAI GPT-5.3 Codex vs Anthropic Agent: гонка агентных моделей для кодирования | AiManual
AiManual Logo Ai / Manual.
05 Фев 2026 Новости

Гонка гигантов: как OpenAI и Anthropic почти одновременно выпустили агентные модели для кодирования (GPT-5.3 Codex)

Сравнение новых агентных моделей OpenAI GPT-5.3 Codex и Anthropic Agent для автономного программирования. Кто выиграл гонку на 05.02.2026?

Хроника одной недели: как два гиганта устроили перестрелку в вакууме

Это случилось между 28 января и 4 февраля 2026 года. Интервал - семь дней. Но в мире AI это вечность. OpenAI анонсировал GPT-5.3 Codex - специальную агентную версию для кодирования. Через шесть дней Anthropic выкатил просто "Agent". Без цифр, без версий. Просто модель, которая умеет писать код, запускать его, исправлять ошибки и повторять цикл до результата.

Синхронность почти идеальная. Слишком идеальная. Случайность? Вряд ли. Это похоже на стратегическую игру, где каждый игрок знает ходы противника за три шага вперед.

Контекст важен. Всего месяц назад Сэм Альтман публично признал проблемы с качеством генерации в GPT-5.2. Теперь они выпускают Codex - ответ на критику или попытку перехватить инициативу?

GPT-5.3 Codex: лекарство от собственных болезней

OpenAI пошел по пути специализации. Вместо универсального GPT-5.2, который "разучился писать код" (об этом мы подробно писали в разборе деградации AI-ассистентов), они создали узкоспециализированную модель. GPT-5.3 Codex - это не просто очередное обновление. Это признание: одна модель не может делать все идеально.

Что обещает OpenAI:

  • Автономное выполнение многошаговых задач программирования
  • Встроенный интерпретатор Python (запускает код в песочнице)
  • Автоматическое исправление ошибок на основе выводов выполнения
  • Специальная тонкая настройка на 4 терабайтах чистого кода

Интересный момент: в документации упоминается "улучшенная архитектура внимания для длинных контекстов кода". Прямой намек на проблему, которую мы разбирали в статье про потерю контекста в GPT-5.2.

💡
Практический совет: если вы используете стандартный GPT-5.2 для программирования и столкнулись с проблемами качества, переход на специализированный Codex может стать решением. Особенно для сложных проектов с длинным контекстом.

Anthropic Agent: минимализм как оружие

Ответ Anthropic выглядит дерзким. Они не стали играть в нумерацию версий. Просто "Agent". Описание занимает три абзаца. Суть: модель, которая понимает, что значит "написать работающий код", а не просто сгенерировать синтаксически правильный текст.

Ключевое отличие от подхода OpenAI: Anthropic заявляет о "глубоком понимании намерений разработчика". Звучит абстрактно, но на практике это означает, что модель задает уточняющие вопросы, когда задача расплывчата. Вместо того чтобы генерировать вероятно неправильный код, она просит конкретики.

Это стратегический ход. Пока OpenAI борется с галлюцинациями через специализацию, Anthropic атакует корень проблемы - непонимание задачи.

Цифры, которые все скрывают (и которые мы нашли)

Официальных бенчмарков почти нет. Обе компании ограничились общими фразами типа "значительно лучше предыдущих версий". Но кое-что просочилось.

МодельSWE-bench 2026 (неофиц.)Время на задачуКоличество итераций
GPT-5.3 Codex~67%3-5 минут2-4
Anthropic Agent~71%4-7 минут1-3
GPT-5.2 (базовая)55%1-2 минуты1

Данные собраны из ранних тестов независимых разработчиков. Картина интересная: Anthropic показывает немного лучшую точность, но работает медленнее. GPT-5.3 Codex быстрее, но требует больше итераций исправления.

Главный вывод: обе модели серьезно улучшили показатели по сравнению с базовым GPT-5.2, который скатился до 55% на SWE-bench. Прогресс есть, но до идеала далеко.

Что это значит для разработчиков в 2026?

Гонка гигантов создает интересную ситуацию. Впервые за долгое время у нас есть два сопоставимых по качеству варианта для серьезного программирования. Но есть нюансы.

GPT-5.3 Codex лучше подходит для:

  • Быстрых прототипов (скорость имеет значение)
  • Проектов с четко определенными требованиями
  • Разработчиков, уже работающих в экосистеме OpenAI

Anthropic Agent выигрывает в:

  • Сложных задачах с расплывчатыми требованиями
  • Ситуациях, где важно избежать катастрофических ошибок
  • Долгосрочных проектах (меньше итераций - меньше стоимость)

Для тех, кто не хочет зависеть от проприетарных решений, стоит посмотреть на open-source альтернативы. Llama 3.3 Agent и Mistral NeMo 21B показывают результаты, близкие к 60-65% на SWE-bench, но полностью бесплатны и контролируемы.

Технический совет: если вы работаете с несколькими моделями, рассмотрите использование единого API-шлюза вроде AITunnel. Это упрощает переключение между разными провайдерами и сравнение результатов.

Стратегия против тактики: чей подход умнее?

Здесь начинается самое интересное. OpenAI играет в долгую игру. У них уже есть экосистема: ChatGPT, API, партнерства. Codex - это специализированный инструмент в большом арсенале. Они могут позволить себе создавать узкие модели для каждой задачи.

Anthropic выбирает философский подход. Их модель - не просто инструмент, а "коллега". Она думает, уточняет, сомневается. Это попытка решить фундаментальную проблему AI: отсутствие истинного понимания.

Кто прав? Покажет время. Но факт: оба подхода работают лучше, чем универсальные модели прошлого года.

Что будет дальше? (Спойлер: война только начинается)

Синхронный релиз - это не финиш, а стартовый выстрел. Ожидайте:

  1. Ценовые войны. Сейчас обе модели дороги ($0.12-0.18 за 1K токенов). Цены упадут к лету.
  2. Интеграции в IDE. VS Code, JetBrains - все будут встраивать эти модели напрямую.
  3. Ответ Google. Gemini пока молчит, но они не останутся в стороне.

Самый важный тренд: смещение от "помощника" к "автономному агенту". Скоро мы будем не писать код, а ставить задачи. Как правильно это делать - тема для отдельного разговора (есть хороший практический гайд про переход на управление агентами).

Мой прогноз: к концу 2026 одна из этих моделей станет стандартом де-факто для профессиональной разработки. Другая займет нишу исследовательских задач. А мы, разработчики, будем спорить, какой подход лучше - как сейчас спорят про React и Vue.

И последнее: не верьте хайпу. Протестируйте обе модели на своих реальных задачах. Только практика покажет, какая из них действительно экономит ваше время, а какая просто хорошо выглядит в презентациях.