Два подхода к одному кошмару
Когда в декабре 2025-го OpenAI выкатила GPT-5.2, все думали - ну вот, пауза на год. Ан нет. Уже через два месяца, 8 февраля 2026, у нас две новые модели для кодинга: GPT-5.3 Codex от OpenAI и обновленная линейка от Anthropic. Они почти одновременно, но совершенно по-разному.
OpenAI пошла по пути специализации. GPT-5.3 Codex - это не просто очередной апдейт, это узконаправленный монстр для программирования. Anthropic, как всегда, играет в свою игру - улучшает общую модель, но добавляет специальные режимы для кодинга.
Важный нюанс: обе компании избегают слова "агентная" в официальных описаниях. Слишком много хайпа вокруг автономных AI-агентов. Но по факту это именно они - модели, которые могут планировать, выполнять и отлаживать код самостоятельно.
Что умеет GPT-5.3 Codex (кроме хвастовства)
Цифры от OpenAI впечатляют: +25% скорости выполнения кодовых задач против GPT-5.2. Но скорость - не главное. Главное - что она делает с этой скоростью.
- Создание игр с нуля: Дает промпт "создай Flappy Bird на PyGame" - через 3 минуты получаешь работающую игру. Не идеальную, но работающую. Без промежуточных вопросов.
- Полные веб-приложения: Frontend на React, backend на FastAPI, база данных. Все в одном потоке. Раньше для этого нужны были три разных промпта и ручная стыковка.
- Самоотладка уровня senior-разработчика: Находит ошибку, анализирует стектрейс, предлагает fix, тестирует его мысленно, применяет. Цикл повторяется до успеха.
- Понимание legacy-кода: Читает спагетти-код на COBOL 1980-х и переписывает его на современный Python с сохранением логики.
Но есть и раздражающие моменты. Модель иногда слишком самоуверенна. Вместо того чтобы спросить уточнения по бизнес-логике, делает предположения. И эти предположения бывают катастрофически неверными.
Anthropic: тихий переворот без громких заявлений
У Anthropic нет отдельной "Codex" модели. Вместо этого они доработали свою основную модель, добавив режимы "Coding Assistant", "Code Reviewer" и "System Architect".
Их подход менее эффектный, но более системный:
- Коллаборативный режим: Модель не пишет код вместо вас, она пишет с вами. Задает уточняющие вопросы, предлагает альтернативы, объясняет trade-offs.
- Безопасность как фича: Каждая строка кода проверяется на уязвимости. SQL-инъекции, XSS, buffer overflows - модель ловит их на лету.
- Документация как first-class citizen: Код без комментариев для Anthropic - неполноценный код. Она настаивает на документации, даже если вы торопитесь.
Проблема в том, что этот подход требует другого mindset. Вы не можете просто бросить промпт и уйти пить кофе. Нужно взаимодействовать. Для одних это плюс, для других - смертельный минус.
Бенчмарки: сухая математика против живого опыта
| Тест | GPT-5.3 Codex | Anthropic (Coding режим) | Что это значит |
|---|---|---|---|
| HumanEval (Python) | 94.2% | 91.8% | Разница в 2.4% - статистически значимо, но на практике почти незаметно |
| SWE-bench (реальные issues) | 78.5% | 82.1% | Anthropic лучше справляется с реальными багами из GitHub |
| Время до первого работающего кода | 25% быстрее GPT-5.2 | Сравнимо с GPT-5.2 | GPT-5.3 Codex действительно быстрее выдает результат |
| Качество документации | 6.8/10 | 8.9/10 | Anthropic уделяет документации в 3 раза больше внимания |
Цифры - цифрами, но есть нюанс. GPT-5.3 Codex оптимизирована под бенчмарки. Она знает, как набрать максимум баллов в HumanEval. Anthropic оптимизирована под реальную работу. Разница заметна, когда выходишь за рамки синтетических тестов.
Кому что подойдет (без сладких обещаний)
Берите GPT-5.3 Codex, если:
- Нужен быстрый прототип "вчера". Модель выдает результат, потом разбирайтесь.
- Работаете в одиночку и не хотите диалога с ИИ. Бросил промпт - получил код.
- Делаете pet-проекты или хакатоны, где качество кода не критично.
- Любите экспериментировать с экстремальными возможностями моделей вроде 24-часового непрерывного кодинга.
Выбирайте Anthropic, если:
- Пишете production-код, который будут читать другие люди.
- Цените безопасность выше скорости. Каждая уязвимость - потенциальный инцидент.
- Работаете в команде и хотите, чтобы ИИ был как junior-разработчик, а не как волшебная палочка.
- Уже разочаровались в гонке гигантов за цифрами и хотите практической пользы.
А что насчет открытых альтернатив?
Пока гиганты меряются синтетическими бенчмарками, open-source сообщество не спит. IQuest-Coder-V1 40B все еще остается монстром для локального развертывания. И да, он обгоняет GPT-5.1, хотя до 5.3 пока не дотягивает.
Китайские модели вроде Qwen3-Max тоже не сдаются. Как мы писали в сравнении китайских LLM, они особенно сильны в математике и алгоритмах, что напрямую влияет на качество кода.
Парадокс 2026 года: закрытые модели становятся все специализированнее, открытые - все универсальнее. GPT-5.3 Codex заточена только под кодинг, а открытые 120B-модели вроде GPT OSS:120b (про которую мы писали в прогнозе) пытаются быть хорошими во всем.
Что будет дальше? (Спойлер: война за контекст)
Обе модели сейчас упираются в один лимит - контекстное окно. GPT-5.3 Codex работает с 128K токенов, Anthropic - со 100K. Этого много для отдельного файла, но мало для целого проекта.
Следующий шаг очевиден: модели научатся работать с репозиториями. Не просто читать один файл, а анализировать всю кодобазу, понимать архитектуру, находить зависимости.
А еще будет война за специализацию. Уже сейчас есть Car-GPT для автопилото. Скоро появятся Medical-Codex, Legal-Codex, Finance-Codex. Каждая со своим доменом знаний.
Мой прогноз: к концу 2026 мы забудем про универсальные модели для программирования. Будем выбирать не между GPT и Anthropic, а между Frontend-Specialist 7B и Backend-Architect 40B. И это будет напоминать выбор между JavaScript и Python - разные инструменты для разных задач.
А пока - тестируйте обе. Бесплатные квоты еще никто не отменял. Только не забудьте про правильные промпты. С плохим промптом даже GPT-5.3 Codex выдаст ерунду.