Qwen vs Codex vs Claude: реальное сравнение кода 2026

Заварил чай, открыл pprof — и понял, что пора считать

В DevOps-рутине есть момент истины. Когда твой сервис на Go внезапно жрёт 8 ГБ RAM, а ты сидишь с pprof в одной руке и логами в другой. Именно тогда я решил проверить, насколько сильно можно сэкономить на AI-ассистентах, не потеряв в качестве. Китайские модели типа Qwen 3.6 Plus обещают копеечные цены, но не прячут ли они подвох? Сравним с тяжеловесами — Claude Opus 4.7 и Open AI Codex (последняя версия на июнь 2026).

Спойлер: экономия есть, но не такая, как пишут в рекламных проспектах. И да, я потратил два вечера, чтобы вытащить из каждой модели вменяемый ответ по одной и той же проблеме.

Железобетонная задача: найти утечку горутин в production

Взял реальный кусок кода — обработчик очереди, который периодически накапливал goroutine и не отпускал их даже после таймаута. Без контекста диагностировать такую проблему сложно: нужно вспомнить pprof с goroutine profile, понять, где блокировка, и предложить фикс. Вот промпт, который я скормил всем трём моделям:

У меня есть Go-сервис, который отправляет сообщения в Kafka. Периодически количество горутин растёт до 50 000 и сервис падает по OOM. Вот фрагмент кода:

func (s *Sender) sendBatch(ctx context.Context, msgs []Message) error {
    for _, msg := range msgs {
        go func(m Message) {
            err := s.producer.Send(m)
            if err != nil {
                log.Println(err)
            }
        }(msg)
    }
    return nil
}

Как исправить? Нужно ограничить конкурентность и добавить graceful shutdown. Напиши исправленный код.

Наивно? Зато честно. Именно так выглядит запрос от уставшего инженера в 2 часа ночи.

Кто кого: раунд первый — качество кода

1 Claude Opus 4.7 — эталонный ответ, но с нюансом

Claude сразу выдал корректный паттерн с worker pool через errgroup. Добавил контекст с таймаутом, объяснил, почему go func без синхронизации — зло. Код компилировался с первой попытки. Единственный минус — ответ вышел на 40 строк, из которых треть — комментарии. Полезно, но многословно. Как мы уже разбирали в свежем сравнении флагманов, Claude остаётся лидером по глубине объяснений, но платишь за каждое лишнее слово.

2 Open AI Codex — скорость молнии, но без контекста

Codex (имею в виду последнюю доступную версию на июнь 2026) сгенерировал минималистичный вариант: всего 8 строк, использовал канал-семафор для ограничения горутин. Код рабочий, но без объяснения — просто «вот, вставь». Для новичка это было бы фатально: непонятно, как масштабировать. Для меня — ок, я сам докручу. Однако если вам нужно не только решение, но и понимание, Codex проигрывает.

3 Qwen 3.6 Plus Preview — неожиданный сюрприз

Китайская модель показала себя достойно: выдала вариант с sync.WaitGroup и буферизированным каналом, даже упомянула errgroup как альтернативу. Но была одна странность — в конце ответа появился абзац на китайском с рекомендацией использовать Alibaba Cloud. Сквозная проблема Qwen, про которую я уже писал в статье о скрытых расходах: модель пытается продать облачные сервисы, даже когда её об этом не просят. На качестве кода это не сказалось, но осадочек остался.

Сравнение цен: миф о дешёвом Qwen

Модель	Цена за 1M входных токенов	Цена за 1M выходных токенов	Качество кода (субъективно)
Claude Opus 4.7	$12	$48	9/10
Open AI Codex (последняя)	$10	$40	7/10
Qwen 3.6 Plus Preview	$3.5	$12	8/10

Визуально Qwen в 3-4 раза дешевле Claude. Но есть подвох: как я выяснил в отдельном тесте, Qwen часто генерирует на 40% больше выходных токенов из-за встроенных рекомендаций и маркетинговых блоков. Итоговая реальная стоимость одного запроса может быть не в 4, а всего в 2 раза ниже. И то — если не считать время на проверку лишних «улучшений».

Когда Qwen обгоняет, а когда проваливается

Я прогнал ещё пару тестов: написание Bash-скрипта для деплоя и анализ логов Nginx. В сценариях с чёткими инструкциями Qwen 3.6 Plus отработал наравне с Claude — в недавнем агентском тесте это тоже подтвердилось. А вот когда нужна была тонкая настройка под нестандартный production-окружение (SCP через bastion host с мультифактором), Qwen начал предлагать общие решения, игнорируя специфику. Codex справился лучше — видимо, потому что его обучали на реальных репозиториях.

Четыре подводных камня при переходе на китайские модели

Этическая бомба. Если ваш проект связан с регулируемыми данными (GDPR, HIPAA), Qwen может оказаться под юрисдикцией китайского законодательства. Обработка данных через Alibaba Cloud — не всегда легальна. Открытые модели вроде GLM-5 решают эту проблему, но требуют самостоятельного хостинга.
Спам-контент. Как я уже заметил, Qwen любит вставлять рекламные блоки. Если вы используете модель в автоматическом CI/CD, придётся добавить фильтрацию ответов — лишний оверхед.
Стабильность API. За месяц тестов у Qwen дважды менялся эндпоинт без предупреждения. Claude и Codex таких сюрпризов не подкидывали.
Качество на длинных контекстах. При 128K токенов Claude держит фокус, Codex — почти всегда, а Qwen начинает «забывать» промпт на середине. Хотя Qwen 3.5 122B показал другие результаты, в компактной версии проблема остаётся.

FAQ: коротко о главном

💡

Кого выбрать для повседневной рутины?
Если пишете простые скрипты и не против лишних 20% токенов — Qwen. Если работаете со сложной архитектурой — Claude.

Codex ещё жив?
Да, и он остаётся лучшим выбором для тех, кто хочет только код без объяснений. Дешевле Claude, быстрее, но слабее на аналитике.

Стоит ли мигрировать все запросы на Qwen ради экономии?
Только если вы готовы потратить время на постобработку. Чистая экономия — 30-40%, а не 70%, как обещают.

А локальный Qwen?
В статье про локальную замену Claude показано, что Qwen 3.5 40B в кванте GGUF почти не уступает, но требует GPU от 24 ГБ.

Моё финальное мнение: экономить можно, но не на всём

После недели тестов я оставил Qwen для генерации YAML-манифестов, простых фиксов и быстрых подсказок. Claude — для анализа логов, рефакторинга и задач с контекстом. А Codex — для написания чистых функций без лишних церемоний.

Китайские модели перестали быть «вторым сортом» — апрельское сравнение LLM это подтвердило. Но слепая экономия ради цифры на счёте ударит по качеству в самый неожиданный момент. Я бы советовал гибридную стратегию: 70% простых запросов на бюджетных моделях, 30% сложных — на топовых. И всегда держать под рукой pprof.

P. S. Кстати, про pprof — финальный фикс утечки горутин я в итоге склеил из ответов Claude и Codex. Qwen дал хорошую базу, но без тонкой настройки. Иногда лучшая экономия — не платить дважды за переделку.

Подписаться на канал

Сравнение Qwen, Codex и Claude в реальной задаче: стоит ли переходить на китайские модели для экономии?