ИИ для программирования: тест Qwen 3.5, Codex 5.3, локальные модели | AiManual
AiManual Logo Ai / Manual.
25 Фев 2026 Гайд

Битва ИИ-кодеров: Qwen 3.5, Codex 5.3 и локальные модели на 70 репозиториях — кто выжил?

Результаты тестирования ИИ-моделей для программирования на 70 реальных репозиториях. Сравнение Qwen 3.5, Codex 5.3 и локальных моделей. Кто лучше справляется с

Когда маркетинг сталкивается с реальностью: 70 репозиториев против ИИ-программистов

Каждый месяц выходит новая модель, которая 'революционизирует' программирование. Qwen 3.5, Codex 5.3, локальные гиганты - все обещают писать код за вас. Но когда вы запускаете их на своем проекте, результат часто вызывает слезы. Почему? Потому что синтетические тесты врут. Как в случае с IQuest-Coder-V1-40B-Instruct, который показал блестящие цифры в бенчмарках и полный провал на реальных задачах.

💡
Если вы тестируете модели для реальной работы, не ограничивайтесь синтетическими бенчмарками. Возьмите свою текущую задачу - рефакторинг, добавление фичи, исправление бага - и дайте ее моделям. Разница между HumanEval и вашим кодобазой может быть как между учебником по плаванию и океаном во время шторма.

1Как мы ломали модели: методология APEX Testing

Мы взяли 70 реальных репозиториев с GitHub. От маленьких утилит на Python до монолитов на Java и TypeScript. Каждый репозиторий - это живой проект с тестами, зависимостями и своей архитектурой.

Задачи для моделей:

  • Добавить новую функцию в существующий код
  • Исправить баг, описанный в issue
  • Рефакторинг сложного метода
  • Написание тестов для непокрытого кода

Инструменты: APEX Testing для автоматизации тестов, LM Studio для запуска локальных моделей. Все модели работали с одинаковыми промптами, температурой 0.2 и максимальной длиной ответа 2048 токенов.

Метрики успеха:

  1. Код компилируется/интерпретируется без ошибок
  2. Проходит существующие тесты репозитория
  3. Соответствует стилю и архитектуре проекта
  4. Выполняет требуемую функциональность
МодельОбщий scoreПростые задачиСредние задачиСложные задачиСреднее время ответа
Codex 5.3 (облако)89.3%95%88%75%2.1с
Qwen 3.5 (облако)84.7%93%85%62%1.8с
Qwen3-Coder-Next-32B (локально)82.1%91%83%58%4.5с
DeepSeek-Coder-33B (локально)79.5%90%80%55%5.2с
CodeLlama-70B (локально)76.8%88%78%50%7.3с

Где Qwen 3.5 дает трещину: анализ провалов

Цифры кричат: на сложных задачах Qwen 3.5 падает до 62%. Codex 5.3 держит 75%. Разница в 13 процентных пунктов - это пропасть.

Что такое 'сложная задача' в нашем тесте? Например, добавить поддержку новой платежной системы в существующий e-commerce проект. Или рефакторинг унаследованного кода с spaghetti-архитектурой.

Qwen 3.5 часто:

  • Теряет контекст после 500-600 токенов. Начинает генерировать код, который не стыкуется с предыдущей логикой.
  • Игнорирует edge cases. Пишет оптимистичный сценарий, но забывает про ошибки сети, валидацию данных, откаты.
  • Плохо работает с многомодульными проектами. Не может понять, какой класс где находится, импортирует не те модули.

Внимание: если ваш проект сложный и требует глубокого понимания контекста, Qwen 3.5 может подвести. Codex 5.3 здесь надежнее, но и он не идеален.

Локальные модели: темная лошадка или разочарование?

Локальные модели, как Qwen3-Coder-Next, показывают удивительно хорошие результаты. 82.1% против 84.7% у Qwen 3.5 облачной - разница минимальна. Но за это вы платите временем: 4.5 секунды против 1.8 секунд.

Плюсы локальных моделей:

  • Конфиденциальность: ваш код не уходит в облако.
  • Контроль: вы настраиваете параметры как хотите.
  • Стоимость: нет повторяющихся платежей за API.

Минусы:

  • Требуют мощного железа. Как не сжечь видеокарту, знает не каждый.
  • Медленнее облачных.
  • Сложность настройки: нужно знать, как работать с GGUF, EXL2, и т.д.

Для агентного кодирования локальные модели могут быть интересны, особенно с инструментами вроде лучших агентов для локальных LLM. Но если вам нужна скорость и простота, облако пока впереди.

Вопросы, которые вы хотели задать, но боялись

Q: Какая модель лучше для начинающего программиста?

A: Codex 5.3. Он дает более развернутые объяснения и реже ошибается в базовых вещах. Но если вы хотите учиться на реальном коде, локальная модель Qwen3-Coder-Next-32B - отличный выбор, особенно с правильной настройкой.

Q: Стоит ли переходить с Copilot на локальный ИИ?

A: Зависит от ваших приоритетов. Если конфиденциальность и контроль важнее скорости - да. Но готовьтесь к танцам с бубном вокруг VRAM. Подробнее в статье Локальный ИИ против Copilot.

Q: Почему в тесте нет ChatGPT/Gemini/Claude?

A: Потому что они не специализированы на программировании так, как Codex или Qwen. Но если вам интересно, как они справляются с кодом, Owlex MCP-сервер позволяет устроить битву между ними.

Q: Какой железо нужно для локальных моделей в 2026?

A: Для моделей 30-40B параметров хватит RTX 4090 с 24GB VRAM. Для 70B - две таких или RTX 6000 Pro Blackwell 96GB. Здесь подробнее.

Итог прост: Codex 5.3 лидирует, но платно. Qwen 3.5 быстрее и дешевле, но ломается на сложном. Локальные модели дышат в спину, но требуют жертв железу.

Мой совет: не ищите одну лучшую модель. Используйте две. Простые задачи и прототипирование - Qwen 3.5. Сложные изменения и рефакторинг - Codex 5.3. А для внутренних проектов, где код не должен уходить в облако - локальная модель на хорошем железе.

И помните: ИИ-ассистенты - это как автосборка в IDE. Они ускоряют, но не заменяют понимания кода. Иначе вы получите идеально скомпилированный бред.

Подписаться на канал