Февральский переворот: Claude Opus бьёт по головам
Кто сказал, что битва кодоров закончилась с выходом GPT-5.2? Лидерборд SWE-bench за февраль 2026 года шлёт чёткий сигнал: игра только начинается. И главный сюрприз - Claude 3.7 Opus, который впервые обогнал OpenAI по точности на реальных задачах из GitHub.
Но вот загвоздка. Тот самый Opus, который показывает 76.8% Pass@1 (против 74.3% у GPT-5.2), стоит как небольшой сервер. Разница в 2.5 процентных пункта обойдётся в дополнительные $22 на каждые 100 задач. Стоит ли оно того? Зависит от того, насколько дороги ваши ошибки.
Данные лидерборда обновлены 28 февраля 2026 года. К 23 марта 2026 уже ходят слухи о GPT-5.3, но официальных тестов ещё нет. Так что февральские цифры - последнее, что мы можем разобрать по косточкам.
Цифры, от которых чешутся руки
Забудьте про синтетические задачки. SWE-bench берёт реальные issue из живых репозиториев - Django, pandas, scikit-learn. Нужно понять баг, прочитать обсуждение, написать патч, который пройдёт все тесты. И всё это с первой попытки (Pass@1). Жестоко? Зато честно.
| Модель | Точность (Pass@1) | Стоимость за 100 задач | Сильная сторона |
|---|---|---|---|
| Claude 3.7 Opus | 76.8% | $40.20 | Сложные архитектурные задачи |
| GPT-5.2 | 74.3% | $18.70 | Python, быстрое прототипирование |
| DeepSeek-Coder v3.2 | 71.8% | $3.20 | JavaScript/TypeScript, цена |
| GLM-4.7 Coder | 68.9% | $4.10 | Go, Rust (системное программирование) |
| MiniMax 2.5 Coder | 66.4% | $1.85 | TypeScript, бюджетные решения |
Видите разрыв в цене между первым и вторым местом? $21.50. За эти деньги можно купить почти 11 запусков DeepSeek-Coder. Антропологи явно считают, что их время дороже золота.
Почему Opus работает, а все остальные - нет?
Тут есть грязный секрет. Claude 3.7 Opus не просто генерирует код. Он читает. Внимательно. Весь контекст issue, обсуждения, даже смежные файлы. GPT-5.2 часто пропускает детали, DeepSeek торопится, а Opus методично разбирает проблему.
Пример из тестов: задача в pandas, где нужно было исправить баг с группировкой и агрегацией. GPT-5.2 дал рабочий код, но с побочным эффектом - ломал обратную совместимость. Opus потратил 3 дополнительных «мысли» (и $0.15), чтобы проверить edge cases. И сделал патч, который приняли без правок.
Звучит здорово? Да. Но попробуйте объяснить CFO, почему вы платите $40 за 100 задач, когда есть вариант за $1.85. Особенно если у вас не SpaceX, а обычный SaaS с парой десятков PR в день.
Китайский прорыв: дешево, но не всегда сердито
DeepSeek-Coder v3.2 и GLM-4.7 Coder - это про другое. Они не пытаются быть самыми умными. Они пытаются быть самыми практичными. Разница в точности с Opus - 5-8%, разница в цене - в 12-25 раз.
Минимум 2.5 Coder вообще отдельная история. Модель, которая стоит как чашка кофе на 100 задач. Да, она ошибается чаще. Но когда стоимость ошибки измеряется в центах, можно позволить себе ретраи. Много ретраев.
Кстати, про локальные модели. В Coding Power Ranking за 26.02 лидирует NousCoder-14B с 67.87% Pass@1. Бесплатно, но нужна своя видеокарта. И терпение.
Важный нюанс: SWE-bench тестирует только Pass@1 - первую попытку. В реальной жизни разработчики делают итерации. Если модель дешёвая, можно позволить себе 3-4 попытки и всё равно выйти дешевле одной попытки Opus.
А что с opensource? Там тишина
Февральский лидерборд показал грустную тенденцию: пропасть между проприетарными и открытыми моделями растёт. Лучшая opensource модель в тестах - Qwen3-Coder-32B - набрала 63.2%. И это с хитрой архитектурой субмоделей, о которой мы писали в техническом разборе.
Проблема не в качестве кода. Проблема в контексте. Opus и GPT-5.2 работают с 200K+ токенами, читают всю историю issue. Opensource модели чаще всего ограничены 32K-64K. Они видят фрагмент проблемы, а не всю картину.
Итог: кого брать в 2026?
- Claude 3.7 Opus - если каждая ошибка стоит дорого. Критическая инфраструктура, финансовые системы, безопасность. Платите $40 и спите спокойно.
- GPT-5.2 - золотая середина. Хорошая точность, адекватная цена. Для стартапов и средних проектов.
- DeepSeek-Coder v3.2 - когда бюджет жмёт. Web-разработка, скрипты, внутренние инструменты. Ошибки исправляются ретраями.
- Локальные модели - если данные нельзя выносить. Но готовьтесь к танцам с бубном вокруг видеопамяти.
Мой прогноз на март 2026? Anthropic выпустит более дешёвую версию Opus. OpenAI ответит GPT-5.3 с улучшенным контекстом. А китайские модели продолжат давить ценой.
И главное - не зацикливайтесь на лидербордах. Возьмите 10 своих реальных задач, протестируйте модели. Потому что SWE-bench - это хорошо, но ваш код - это ваше. И платить за него придётся вам.