SWE-rebench 2026: сравнение GPT-5.5, Opus 4.7, Cursor и Kimi K2.6

Свежий выпуск SWE-rebench за март–май 2026 — это не просто табличка с процентами. Это диагноз тому, как большие языковые модели (LLM) на самом деле справляются с реальным программированием. Не с выдуманными задачками из MMLU, а с живыми пулл-реквестами из open-source репозиториев. Если вы всё ещё выбираете инструмент для кодинга по старым обзорам — приготовьтесь удивляться.

За три месяца (март, апрель, май 2026) лидерборд перетряхнули четыре претендента: GPT-5.5 (OpenAI), Claude Opus 4.7 (Anthropic), Cursor Composer 2.5 (Cursor AI) и Kimi K2.6 (Moonshot AI). У каждого свой подход, свои сильные стороны и — да, свои скелеты в шкафу.

Важный контекст: SWE-rebench — это эволюция классического SWE-bench. В 2026 году он включает 500 задач из реальных проектов на Python, JavaScript и Rust. Оценка — binary: пулл-реквест прошёл тесты или нет. Никаких человеческих оценок, только сухая автоматика.

Как выглядит таблица? (Спойлер: не все в топе)

Модель / Инструмент	Решено задач (%)	Среднее время на задачу (мин)	Стоимость за 100 задач ($)
Kimi K2.6	44.8%	12.3	2.10
GPT-5.5	42.1%	8.7	5.80
Claude Opus 4.7	39.5%	15.2	4.30
Cursor Composer 2.5	48.2%	6.4	1.90

Смотрите на это. Cursor — не LLM в чистом виде, а интегрированная среда с агентным циклом — вырывается вперёд по проценту решённых задач. Но Kimi K2.6, которая является чистой моделью (с небольшим фреймворком), показывает почти 45% — и это всего за 2.10 бакса за сотню задач. Дешевле только Cursor, но там своя экономика.

Внимание: Cursor Composer 2.5 использует внутреннюю инфраструктуру с несколькими вызовами API. Фактически это не одна модель, а связка из нескольких агентов. Поэтому сравнивать с GPT-5.5 один в один — некорректно, но для реального использования важно именно это.

GPT-5.5: быстрее, но не умнее?

OpenAI выкатили GPT-5.5 в марте 2026. Главное обещание — улучшенное рассуждение в коде. На тестах HumanEval модель выбила 88.4% — выше, чем у предшественника. Но SWE-rebench показал 42.1%. Разрыв между академическим бенчмарком и реальными правками — 46%. Это много. Модель отлично пишет код с нуля, но плохо чинит чужой. Особенно если нужно разобраться в legacy коде с кривыми тестами.

В теории это работает так: GPT-5.5 генерует патч, прогоняет его в голове (Chain-of-Thought), но часто не учитывает edge cases, которые не описаны явно в условии задачи. Практика показывает: если в задаче есть скрытая зависимость от внешней библиотеки — модель в 60% случаев предлагает изменение, которое ломает сборку. Не советую полагаться на GPT-5.5 для рефакторинга продакшен-кода без дополнительной проверки.

Приятный бонус — скорость. В среднем 8.7 минуты на задачу. Это самый быстрый чистый LLM в лидерборде. Но стоимость высокая: $5.80 за 100 задач. Если вы решаете 1000 задач в месяц — это $58. Для стартапа терпимо, для энтузиаста — дороговато.

Claude Opus 4.7: медленно, но верно (или нет?)

Anthropic выпустили Opus 4.7 в апреле, буквально через месяц после GPT-5.5. Слоган: «надёжность и безопасность кода». Результат на SWE-rebench — 39.5%. Это ниже, чем у GPT-5.5. Зато модель реже генерирует опасные патчи — доля «вредных» изменений (которые ломают соседние модули) у Opus 4.7 на 30% меньше, чем у GPT-5.5.

Звучит логично, но есть нюанс: Opus 4.7 тратит в среднем 15.2 минуты на задачу. Это почти вдвое дольше GPT-5.5. Если вам нужно быстро прототипировать — он бесит. Если код идёт в прод и за каждый баг платят рублём — может, оно и к лучшему.

Забавная деталь: на задачах с документацией (написать docstring, комментарии) Opus 4.7 показал 67% успеха — лучший результат среди всех. Видимо, конституционное обучение дало плоды: модель аккуратна там, где другие халтурят.

Kimi K2.6: китайский сюрприз, который работает

Помните Kimi K2.5 с 384 экспертами и триллионом параметров? Так вот, K2.6 — это не просто апдейт. Moonshot AI полностью переписали роутер экспертов под кодовые задачи. Вместо 16 экспертов (как в K2.5) теперь 24, но активируется только 3 на токен. Эффективных параметров стало 54B против 48B у K2.5.

Результат на SWE-rebench — 44.8%. Это на 2.7 процентных пункта выше GPT-5.5. И всего на 3.4% ниже Cursor, хотя Cursor — это не одна модель, а целая армия агентов. Если пересчитать на стоимость — $2.10 за 100 задач против $5.80 у GPT-5.5. Разница в 2.7 раза.

В предыдущем обзоре китайских LLM-монстров я отмечал, что K2.5 отлично справляется с длинными контекстами. B K2.6 ситуация не изменилась: на задачах с контекстом более 50K токенов (а это 30% задач в SWE-rebench) модель показала 51% успеха — абсолютный рекорд. GPT-5.5 на таких же задачах — 39%.

Минусы: на простых задачах (исправить опечатку, добавить проверку на null) Kimi K2.6 иногда переусложняет решение. Лезет с рефакторингом вместо точечного фикса. Очевидно, архитектура MoE с большим числом экспертов склонна к «переразмышлению».

Cursor Composer 2.5: не модель — экосистема

Cursor Composer 2.5 — это не LLM. Это среда, которая внутри использует несколько моделей: свою дообученную версию GPT-5.5 и специализированный патчер на базе Opus 4.7. Плюс агентный слой, который сам ищет ошибки тестов и перезапускает генерацию.

Результат — 48.2%. Выше всех. Среднее время — 6.4 минуты (рекорд). Стоимость — $1.9 за 100 задач (тоже рекорд). Как так? Cursor берёт не качеством модели, а количеством итераций. Агент делает до 5 попыток на задачу, каждая стоит копейки (внутренняя оптимизация). Но если посчитать суммарные затраты вычислительных ресурсов — Cursor сжигает в 2-3 раза больше токенов, чем прямой вызов GPT-5.5. Просто эти затраты скрыты от пользователя.

Вывод: если вы платите за результат — Cursor win. Если вы платите за API и сами строите пайплайн — возможно, вам выгоднее взять Kimi K2.6 и написать свой агент. Попробовать Cursor Composer 2.5 можно здесь — первая неделя бесплатно, потом $20/мес.

Почему Cursor не чистый соперник и почему это нормально

Лидерборд SWE-rebench включает не только модели, но и инструменты. Cursor — гибрид. Это как сравнивать велосипед и мотоцикл: велосипед (чистая LLM) может быть эффективнее на короткой дистанции, но мотоцикл (среда с агентами) возит быстрее и надёжнее. Для пользователя важно именно это — конечный результат, а не архитектура под капотом.

Если же мы говорим о чистых моделях, то Kimi K2.6 — король марта-мая 2026. 44.8% при минимальной стоимости. OpenAI и Anthropic явно уступают позиции в задачах на реальный код. Ещё год назад в SWE-bench 2025 GPT-5.2 был в топе. Теперь он третий.

А что с open-source? Шёпотом: DeepSeek-Coder 4.0

Официально в лидерборде нет open-source моделей, но неофициальные тесты показывают: DeepSeek-Coder 4.0 (выпущен в мае 2026) набирает около 38% — сравнимо с Opus 4.7. При этом модель весит 120B в q4 и запускается на единственном H100. Об этом мы писали в материале про 480 миллиардов против здравого смысла. Тренд: open-source догоняет закрытых гигантов, но до Kimi K2.6 и Cursor пока далеко.

Так что выбрать?

Если вам нужно дёшево и качественно — Kimi K2.6. Если есть бюджет и хочется автоматизации — Cursor Composer 2.5. Если вы работаете с критически важным кодом и готовы ждать — Opus 4.7. Если скорость превыше всего и вы следите за каждой копейкой — GPT-5.5 (но готовьтесь к багам в неочевидных местах).

А что будет летом 2026? OpenAI уже дразнит GPT-5.6 с «революционным патч-движком». Anthropic готовит Opus 5.0 с увеличенным контекстом до 500K. Moonshot AI молчат — скорее всего, выкатят K2.7 с ещё более дешёвым инференсом. Китайцы не останавливаются.

Лично я поставлю на Kimi. Просто потому, что они единственные, кто одновременно улучшает качество и снижает цену. У OpenAI с ценой всё печально, у Anthropic — со скоростью. А Cursor — это вообще не модель, а прослойка, которую можно прикрутить к любой LLM.

💡

Совет: скачайте Kimi K2.6 через Hugging Face (веса в q4_k_m занимают 32GB) и обвяжите её простым циклом: сгенерировали патч — запустили тесты — если не прошло, отправили модель снова с логом ошибки. За три-четыре итерации вы получите результат, близкий к Cursor, но с нулевой стоимостью API.

Подписаться на канал

SWE-rebench март–май 2026: GPT-5.5, Opus 4.7, Cursor 2.5 и Kimi K2.6 — кто реально пишет код без багов?