SWE-bench лидерборд февраль 2026: сравнение GPT-5.2, Claude Opus, DeepSeek | AiManual
AiManual Logo Ai / Manual.
23 Мар 2026 Новости

SWE-bench февраль 2026: Claude Opus вырывается вперёд, но платить придётся

Анализ лидерборда SWE-bench за февраль 2026: кто лучше всего решает реальные PR на GitHub и сколько это стоит в 2026 году.

Февральский переворот: Claude Opus бьёт по головам

Кто сказал, что битва кодоров закончилась с выходом GPT-5.2? Лидерборд SWE-bench за февраль 2026 года шлёт чёткий сигнал: игра только начинается. И главный сюрприз - Claude 3.7 Opus, который впервые обогнал OpenAI по точности на реальных задачах из GitHub.

Но вот загвоздка. Тот самый Opus, который показывает 76.8% Pass@1 (против 74.3% у GPT-5.2), стоит как небольшой сервер. Разница в 2.5 процентных пункта обойдётся в дополнительные $22 на каждые 100 задач. Стоит ли оно того? Зависит от того, насколько дороги ваши ошибки.

Данные лидерборда обновлены 28 февраля 2026 года. К 23 марта 2026 уже ходят слухи о GPT-5.3, но официальных тестов ещё нет. Так что февральские цифры - последнее, что мы можем разобрать по косточкам.

Цифры, от которых чешутся руки

Забудьте про синтетические задачки. SWE-bench берёт реальные issue из живых репозиториев - Django, pandas, scikit-learn. Нужно понять баг, прочитать обсуждение, написать патч, который пройдёт все тесты. И всё это с первой попытки (Pass@1). Жестоко? Зато честно.

Модель Точность (Pass@1) Стоимость за 100 задач Сильная сторона
Claude 3.7 Opus 76.8% $40.20 Сложные архитектурные задачи
GPT-5.2 74.3% $18.70 Python, быстрое прототипирование
DeepSeek-Coder v3.2 71.8% $3.20 JavaScript/TypeScript, цена
GLM-4.7 Coder 68.9% $4.10 Go, Rust (системное программирование)
MiniMax 2.5 Coder 66.4% $1.85 TypeScript, бюджетные решения

Видите разрыв в цене между первым и вторым местом? $21.50. За эти деньги можно купить почти 11 запусков DeepSeek-Coder. Антропологи явно считают, что их время дороже золота.

💡
Если сравнивать с мультиязычным лидербордом, то Claude Opus там не участвовал. Видимо, Anthropic решили бить точно в цель - только SWE-bench, только хардкор.

Почему Opus работает, а все остальные - нет?

Тут есть грязный секрет. Claude 3.7 Opus не просто генерирует код. Он читает. Внимательно. Весь контекст issue, обсуждения, даже смежные файлы. GPT-5.2 часто пропускает детали, DeepSeek торопится, а Opus методично разбирает проблему.

Пример из тестов: задача в pandas, где нужно было исправить баг с группировкой и агрегацией. GPT-5.2 дал рабочий код, но с побочным эффектом - ломал обратную совместимость. Opus потратил 3 дополнительных «мысли» (и $0.15), чтобы проверить edge cases. И сделал патч, который приняли без правок.

Звучит здорово? Да. Но попробуйте объяснить CFO, почему вы платите $40 за 100 задач, когда есть вариант за $1.85. Особенно если у вас не SpaceX, а обычный SaaS с парой десятков PR в день.

Китайский прорыв: дешево, но не всегда сердито

DeepSeek-Coder v3.2 и GLM-4.7 Coder - это про другое. Они не пытаются быть самыми умными. Они пытаются быть самыми практичными. Разница в точности с Opus - 5-8%, разница в цене - в 12-25 раз.

Минимум 2.5 Coder вообще отдельная история. Модель, которая стоит как чашка кофе на 100 задач. Да, она ошибается чаще. Но когда стоимость ошибки измеряется в центах, можно позволить себе ретраи. Много ретраев.

Кстати, про локальные модели. В Coding Power Ranking за 26.02 лидирует NousCoder-14B с 67.87% Pass@1. Бесплатно, но нужна своя видеокарта. И терпение.

Важный нюанс: SWE-bench тестирует только Pass@1 - первую попытку. В реальной жизни разработчики делают итерации. Если модель дешёвая, можно позволить себе 3-4 попытки и всё равно выйти дешевле одной попытки Opus.

А что с opensource? Там тишина

Февральский лидерборд показал грустную тенденцию: пропасть между проприетарными и открытыми моделями растёт. Лучшая opensource модель в тестах - Qwen3-Coder-32B - набрала 63.2%. И это с хитрой архитектурой субмоделей, о которой мы писали в техническом разборе.

Проблема не в качестве кода. Проблема в контексте. Opus и GPT-5.2 работают с 200K+ токенами, читают всю историю issue. Opensource модели чаще всего ограничены 32K-64K. Они видят фрагмент проблемы, а не всю картину.

Итог: кого брать в 2026?

  • Claude 3.7 Opus - если каждая ошибка стоит дорого. Критическая инфраструктура, финансовые системы, безопасность. Платите $40 и спите спокойно.
  • GPT-5.2 - золотая середина. Хорошая точность, адекватная цена. Для стартапов и средних проектов.
  • DeepSeek-Coder v3.2 - когда бюджет жмёт. Web-разработка, скрипты, внутренние инструменты. Ошибки исправляются ретраями.
  • Локальные модели - если данные нельзя выносить. Но готовьтесь к танцам с бубном вокруг видеопамяти.

Мой прогноз на март 2026? Anthropic выпустит более дешёвую версию Opus. OpenAI ответит GPT-5.3 с улучшенным контекстом. А китайские модели продолжат давить ценой.

И главное - не зацикливайтесь на лидербордах. Возьмите 10 своих реальных задач, протестируйте модели. Потому что SWE-bench - это хорошо, но ваш код - это ваше. И платить за него придётся вам.

Подписаться на канал