ИИ для программирования: тест Qwen 3.5, Codex 5.3, локальные модели

Когда маркетинг сталкивается с реальностью: 70 репозиториев против ИИ-программистов

Каждый месяц выходит новая модель, которая 'революционизирует' программирование. Qwen 3.5, Codex 5.3, локальные гиганты - все обещают писать код за вас. Но когда вы запускаете их на своем проекте, результат часто вызывает слезы. Почему? Потому что синтетические тесты врут. Как в случае с IQuest-Coder-V1-40B-Instruct, который показал блестящие цифры в бенчмарках и полный провал на реальных задачах.

💡

Если вы тестируете модели для реальной работы, не ограничивайтесь синтетическими бенчмарками. Возьмите свою текущую задачу - рефакторинг, добавление фичи, исправление бага - и дайте ее моделям. Разница между HumanEval и вашим кодобазой может быть как между учебником по плаванию и океаном во время шторма.

1Как мы ломали модели: методология APEX Testing

Мы взяли 70 реальных репозиториев с GitHub. От маленьких утилит на Python до монолитов на Java и TypeScript. Каждый репозиторий - это живой проект с тестами, зависимостями и своей архитектурой.

Задачи для моделей:

Добавить новую функцию в существующий код
Исправить баг, описанный в issue
Рефакторинг сложного метода
Написание тестов для непокрытого кода

Инструменты: APEX Testing для автоматизации тестов, LM Studio для запуска локальных моделей. Все модели работали с одинаковыми промптами, температурой 0.2 и максимальной длиной ответа 2048 токенов.

Метрики успеха:

Код компилируется/интерпретируется без ошибок
Проходит существующие тесты репозитория
Соответствует стилю и архитектуре проекта
Выполняет требуемую функциональность

Модель	Общий score	Простые задачи	Средние задачи	Сложные задачи	Среднее время ответа
Codex 5.3 (облако)	89.3%	95%	88%	75%	2.1с
Qwen 3.5 (облако)	84.7%	93%	85%	62%	1.8с
Qwen3-Coder-Next-32B (локально)	82.1%	91%	83%	58%	4.5с
DeepSeek-Coder-33B (локально)	79.5%	90%	80%	55%	5.2с
CodeLlama-70B (локально)	76.8%	88%	78%	50%	7.3с

Где Qwen 3.5 дает трещину: анализ провалов

Цифры кричат: на сложных задачах Qwen 3.5 падает до 62%. Codex 5.3 держит 75%. Разница в 13 процентных пунктов - это пропасть.

Что такое 'сложная задача' в нашем тесте? Например, добавить поддержку новой платежной системы в существующий e-commerce проект. Или рефакторинг унаследованного кода с spaghetti-архитектурой.

Qwen 3.5 часто:

Теряет контекст после 500-600 токенов. Начинает генерировать код, который не стыкуется с предыдущей логикой.
Игнорирует edge cases. Пишет оптимистичный сценарий, но забывает про ошибки сети, валидацию данных, откаты.
Плохо работает с многомодульными проектами. Не может понять, какой класс где находится, импортирует не те модули.

Внимание: если ваш проект сложный и требует глубокого понимания контекста, Qwen 3.5 может подвести. Codex 5.3 здесь надежнее, но и он не идеален.

Локальные модели: темная лошадка или разочарование?

Локальные модели, как Qwen3-Coder-Next, показывают удивительно хорошие результаты. 82.1% против 84.7% у Qwen 3.5 облачной - разница минимальна. Но за это вы платите временем: 4.5 секунды против 1.8 секунд.

Плюсы локальных моделей:

Конфиденциальность: ваш код не уходит в облако.
Контроль: вы настраиваете параметры как хотите.
Стоимость: нет повторяющихся платежей за API.

Минусы:

Требуют мощного железа. Как не сжечь видеокарту, знает не каждый.
Медленнее облачных.
Сложность настройки: нужно знать, как работать с GGUF, EXL2, и т.д.

Для агентного кодирования локальные модели могут быть интересны, особенно с инструментами вроде лучших агентов для локальных LLM. Но если вам нужна скорость и простота, облако пока впереди.

Вопросы, которые вы хотели задать, но боялись

Q: Какая модель лучше для начинающего программиста?

A: Codex 5.3. Он дает более развернутые объяснения и реже ошибается в базовых вещах. Но если вы хотите учиться на реальном коде, локальная модель Qwen3-Coder-Next-32B - отличный выбор, особенно с правильной настройкой.

Q: Стоит ли переходить с Copilot на локальный ИИ?

A: Зависит от ваших приоритетов. Если конфиденциальность и контроль важнее скорости - да. Но готовьтесь к танцам с бубном вокруг VRAM. Подробнее в статье Локальный ИИ против Copilot.

Q: Почему в тесте нет ChatGPT/Gemini/Claude?

A: Потому что они не специализированы на программировании так, как Codex или Qwen. Но если вам интересно, как они справляются с кодом, Owlex MCP-сервер позволяет устроить битву между ними.

Q: Какой железо нужно для локальных моделей в 2026?

A: Для моделей 30-40B параметров хватит RTX 4090 с 24GB VRAM. Для 70B - две таких или RTX 6000 Pro Blackwell 96GB. Здесь подробнее.

Итог прост: Codex 5.3 лидирует, но платно. Qwen 3.5 быстрее и дешевле, но ломается на сложном. Локальные модели дышат в спину, но требуют жертв железу.

Мой совет: не ищите одну лучшую модель. Используйте две. Простые задачи и прототипирование - Qwen 3.5. Сложные изменения и рефакторинг - Codex 5.3. А для внутренних проектов, где код не должен уходить в облако - локальная модель на хорошем железе.

И помните: ИИ-ассистенты - это как автосборка в IDE. Они ускоряют, но не заменяют понимания кода. Иначе вы получите идеально скомпилированный бред.

Подписаться на канал

Битва ИИ-кодеров: Qwen 3.5, Codex 5.3 и локальные модели на 70 репозиториях — кто выжил?