Помните, как в прошлом году мы радовались, что Apex-Testing заставил модели писать код не в вакууме, а в реальных репозиториях? Тогда датасет из 65 задач уже показал, кто чего стоит. Но разработчики бенчмарка решили, что просто реальные проекты — это для слабаков. В обновлении от 20 мая 2026 года они добавили приватные репозитории с настоящей корпоративной грязью: legacy-кодом, секретами в конфигах, монолитными структурами и кривыми CI/CD.
Результаты? Модели, которые блестяще справлялись с HumanEval и даже с первой версией Apex, начали сыпаться на банальных вещах. Как говорится, у богатых свои причуды — у GPT 5.2 Codex — свои баги.
Что нового в Apex-Testing v2?
Первая версия бенчмарка, о которой мы писали в статье "APEX Testing: когда ELO-рейтинг для кодинговых моделей перестал быть абстракцией", использовала только публичные репозитории с открытыми лицензиями. Хорошо, но нечестно: модели могли встречать эти файлы в обучении. Теперь же бенчмарк задействовал 20 приватных репозиториев реальных компаний (с их согласия, конечно). Всего задач стало 85, из них 25 — на приватном коде.
Ключевое отличие приватных репозиториев: модели не могли "подсмотреть" ответы в тренировочных данных. Это чистый тест на способность к агентному кодингу — умению ориентироваться в незнакомом коде, понимать контекст и не ломать соседние модули.
Задачи разбили на 8 категорий, добавив новые: работа с секретами (не выложить ключи API в открытый доступ), рефакторинг под корпоративные стандарты (PEP8, Google Style), интеграция легаси-API и написание миграций для баз данных с миллионами записей. Отдельный сюрприз — задачи на безопасность: модели должны были найти и исправить уязвимости в собственном коде, сгенерированном ранее.
Результаты: фавориты и разочарования
В тесте участвовали 12 моделей: проприетарные гиганты и открытые альтернативы. В каждой задаче фиксировали не только факт прохождения тестов, но и количество попыток, время и число сломанных файлов. Метрика — APEX Score, от 0 до 100.
| Модель | Общий APEX Score | Приватные репозитории | Публичные репозитории |
|---|---|---|---|
| GPT 5.2 Codex | 89.3 | 84.1 | 94.5 |
| Claude 4 Opus | 87.8 | 82.6 | 93.0 |
| Gemini 3 Ultra | 85.2 | 80.3 | 90.1 |
| DeepSeek Coder 2.5 (v2) | 82.0 | 76.4 | 87.6 |
| Llama 4 Coder 400B | 78.9 | 72.1 | 85.7 |
| Mistral Large 3 (2405) | 76.3 | 68.9 | 83.7 |
Первое место взял GPT 5.2 Codex, но с оговоркой: на приватных репозиториях его преимущество тает. Разрыв между публичным и приватным скором — 10,4 пункта. У Claude 4 Opus этот разрыв чуть меньше (10,4 тоже), но абсолютные цифры ниже. Интересный момент: Claude показал лучшие результаты в задачах на отладку (95% на приватных), а GPT — в рефакторинге и оптимизации. Gemini 3 Ultra неожиданно провалился на задачах с безопасностью — слил API-ключи в stdout в 3 из 5 случаев. Гуглу стоило бы почитать статью "Скандал с бенчмарками", чтобы понять, как синтетические тесты врут.
Почему приватные репозитории — это боль
В чём принципиальное отличие? В публичных репозиториях код обычно хорошо документирован, есть README, тесты, а зависимости — из PyPI или npm. В приватных же — зоопарк: внутренние пакеты, которые не существуют в открытом доступе, файлы конфигурации с путями к staging-серверам, кривые докерфайлы, которые работают только на определённой версии ядра. Модели, обученные на чистом коде, теряются.
Пример: задача "Почини импорт из внутреннего модуля company_utils". Модель должна была догадаться, что модуль лежит в src/private/, а не в site-packages. Ни одна открытая модель не справилась с первого раза. GPT 5.2 Codex потребовалось 3 попытки и подсказка в виде лога ошибки, чтобы найти правильный путь. А глубокие reasoning-модели, вроде o3 и o4 от OpenAI, — они вообще не участвовали в тесте, но если бы участвовали, скорее всего, застряли бы на этапе рассуждения о том, почему импорт не работает.
Вывод напрашивается сам собой: даже самые мощные LLM-кодеры не умеют читать документацию и исследовать файловую систему проекта. Они слепо доверяют своим — часто неполным — знаниям о структуре типичного репозитория.
А что с open-source моделями?
Мы уже привыкли, что в открытых бенчмарках "открытые" модели догоняют проприетарные. Но здесь — разрыв в 10-15 баллов. DeepSeek Coder 2.5 хотя и стоит дешевле, но на приватных репозиториях набрал всего 76,4 — это уровень Mistral Large 3. Llama 4 Coder 400B от Meta отстала ещё сильнее: 72,1 балла. Причина — в том, что обучающие датасеты open-source моделей почти не содержат примеров корпоративного кода с проприетарными зависимостями. Их просто неоткуда взять легально.
Тут стоит вспомнить проект Community Evals на Hugging Face — сообщество пытается собрать приватные задачи от разработчиков, но пока безуспешно: компании не спешат светить свой код.
Как теперь выбирать модель для агентного кодинга?
Если вы строите AI-агента, который будет работать с внутренними репозиториями вашей компании, публичные бенчмарки — зло. Ориентируйтесь на Apex-Testing v2. И не забывайте, что даже GPT 5.2 Codex может случайно закоммитить пароль в открытый репозиторий. Лучший вариант — использовать локальные модели с RAG на вашей кодовой базе, а не надеяться на единый API.
Кстати, разработчики Apex-Testing объявили, что в следующем обновлении добавят задачи на multi-repo (работа с микросервисами) и code review. Ждём с нетерпением — и с ужасом.