Apex-Testing: новые модели на приватных репозиториях — сравнение 2026

Помните, как в прошлом году мы радовались, что Apex-Testing заставил модели писать код не в вакууме, а в реальных репозиториях? Тогда датасет из 65 задач уже показал, кто чего стоит. Но разработчики бенчмарка решили, что просто реальные проекты — это для слабаков. В обновлении от 20 мая 2026 года они добавили приватные репозитории с настоящей корпоративной грязью: legacy-кодом, секретами в конфигах, монолитными структурами и кривыми CI/CD.

Результаты? Модели, которые блестяще справлялись с HumanEval и даже с первой версией Apex, начали сыпаться на банальных вещах. Как говорится, у богатых свои причуды — у GPT 5.2 Codex — свои баги.

Что нового в Apex-Testing v2?

Первая версия бенчмарка, о которой мы писали в статье "APEX Testing: когда ELO-рейтинг для кодинговых моделей перестал быть абстракцией", использовала только публичные репозитории с открытыми лицензиями. Хорошо, но нечестно: модели могли встречать эти файлы в обучении. Теперь же бенчмарк задействовал 20 приватных репозиториев реальных компаний (с их согласия, конечно). Всего задач стало 85, из них 25 — на приватном коде.

Ключевое отличие приватных репозиториев: модели не могли "подсмотреть" ответы в тренировочных данных. Это чистый тест на способность к агентному кодингу — умению ориентироваться в незнакомом коде, понимать контекст и не ломать соседние модули.

Задачи разбили на 8 категорий, добавив новые: работа с секретами (не выложить ключи API в открытый доступ), рефакторинг под корпоративные стандарты (PEP8, Google Style), интеграция легаси-API и написание миграций для баз данных с миллионами записей. Отдельный сюрприз — задачи на безопасность: модели должны были найти и исправить уязвимости в собственном коде, сгенерированном ранее.

Результаты: фавориты и разочарования

В тесте участвовали 12 моделей: проприетарные гиганты и открытые альтернативы. В каждой задаче фиксировали не только факт прохождения тестов, но и количество попыток, время и число сломанных файлов. Метрика — APEX Score, от 0 до 100.

Модель	Общий APEX Score	Приватные репозитории	Публичные репозитории
GPT 5.2 Codex	89.3	84.1	94.5
Claude 4 Opus	87.8	82.6	93.0
Gemini 3 Ultra	85.2	80.3	90.1
DeepSeek Coder 2.5 (v2)	82.0	76.4	87.6
Llama 4 Coder 400B	78.9	72.1	85.7
Mistral Large 3 (2405)	76.3	68.9	83.7

Первое место взял GPT 5.2 Codex, но с оговоркой: на приватных репозиториях его преимущество тает. Разрыв между публичным и приватным скором — 10,4 пункта. У Claude 4 Opus этот разрыв чуть меньше (10,4 тоже), но абсолютные цифры ниже. Интересный момент: Claude показал лучшие результаты в задачах на отладку (95% на приватных), а GPT — в рефакторинге и оптимизации. Gemini 3 Ultra неожиданно провалился на задачах с безопасностью — слил API-ключи в stdout в 3 из 5 случаев. Гуглу стоило бы почитать статью "Скандал с бенчмарками", чтобы понять, как синтетические тесты врут.

Почему приватные репозитории — это боль

В чём принципиальное отличие? В публичных репозиториях код обычно хорошо документирован, есть README, тесты, а зависимости — из PyPI или npm. В приватных же — зоопарк: внутренние пакеты, которые не существуют в открытом доступе, файлы конфигурации с путями к staging-серверам, кривые докерфайлы, которые работают только на определённой версии ядра. Модели, обученные на чистом коде, теряются.

Пример: задача "Почини импорт из внутреннего модуля company_utils". Модель должна была догадаться, что модуль лежит в src/private/, а не в site-packages. Ни одна открытая модель не справилась с первого раза. GPT 5.2 Codex потребовалось 3 попытки и подсказка в виде лога ошибки, чтобы найти правильный путь. А глубокие reasoning-модели, вроде o3 и o4 от OpenAI, — они вообще не участвовали в тесте, но если бы участвовали, скорее всего, застряли бы на этапе рассуждения о том, почему импорт не работает.

Вывод напрашивается сам собой: даже самые мощные LLM-кодеры не умеют читать документацию и исследовать файловую систему проекта. Они слепо доверяют своим — часто неполным — знаниям о структуре типичного репозитория.

А что с open-source моделями?

Мы уже привыкли, что в открытых бенчмарках "открытые" модели догоняют проприетарные. Но здесь — разрыв в 10-15 баллов. DeepSeek Coder 2.5 хотя и стоит дешевле, но на приватных репозиториях набрал всего 76,4 — это уровень Mistral Large 3. Llama 4 Coder 400B от Meta отстала ещё сильнее: 72,1 балла. Причина — в том, что обучающие датасеты open-source моделей почти не содержат примеров корпоративного кода с проприетарными зависимостями. Их просто неоткуда взять легально.

Тут стоит вспомнить проект Community Evals на Hugging Face — сообщество пытается собрать приватные задачи от разработчиков, но пока безуспешно: компании не спешат светить свой код.

Как теперь выбирать модель для агентного кодинга?

Если вы строите AI-агента, который будет работать с внутренними репозиториями вашей компании, публичные бенчмарки — зло. Ориентируйтесь на Apex-Testing v2. И не забывайте, что даже GPT 5.2 Codex может случайно закоммитить пароль в открытый репозиторий. Лучший вариант — использовать локальные модели с RAG на вашей кодовой базе, а не надеяться на единый API.

Кстати, разработчики Apex-Testing объявили, что в следующем обновлении добавят задачи на multi-repo (работа с микросервисами) и code review. Ждём с нетерпением — и с ужасом.

Подписаться на канал

Apex-Testing обновлён: модели кодинга проваливаются на приватных репозиториях — результаты шокируют

Что нового в Apex-Testing v2?

Результаты: фавориты и разочарования

Почему приватные репозитории — это боль

А что с open-source моделями?

Как теперь выбирать модель для агентного кодинга?

Подписывайтесь на наш канал!