SWE-bench Multilingual: лучший ИИ для кода на 9 языках и стоимость

Код на девяти, бюджет на одном

В феврале 2026 года появился SWE-bench Multilingual Leaderboard. Это не просто очередной тест для ИИ. Это прагматичный калькулятор, который отвечает на два вопроса: чей код работает и во сколько это вылезет.

Бенчмарк взял 9 языков - Python, JavaScript, Java, C++, Go, Rust, TypeScript, Ruby, PHP - и загрузил модели реальными задачами из открытых репозиториев. Не абстрактные задачки, а живые issue с GitHub, где нужно понять контекст, найти баг и написать патч. И все это - с подсчётом стоимости каждого запроса.

Лидерборд обновляется в реальном времени на GitHub. Там же лежат все скрипты для воспроизведения тестов. Можно взять и проверить заявленные результаты самостоятельно - редкая честность в мире AI-бенчмарков.

Кто на пьедестале, а кто в долгах

Результаты на 24 февраля 2026 выглядят так. Точность измеряют в Pass@1 - сколько раз модель с первой попытки генерирует рабочий код.

Модель	Общая точность	Стоимость за 100 задач	Лучший язык
GPT-5.2 (OpenAI)	74.3%	$18.70	Python (81.2%)
DeepSeek-Coder v3.2	71.8%	$3.20	JavaScript (77.5%)
GLM-4.7 Coder	68.9%	$4.10	Go (73.1%)
MiniMax 2.5 Coder	66.4%	$1.85	TypeScript (72.8%)
Claude 3.7 Sonnet	70.2%	$15.40	Java (75.6%)

GPT-5.2 лидирует по точности, но платить за это придётся в десять раз больше, чем за MiniMax 2.5. Разница в 8 процентных пунктов обойдётся в $16.85 на каждой сотне задач. Звучит мало? Умножьте на ежедневный объём работы.

MiniMax 2.5: тёмная лошадка из Китая

MiniMax 2.5 Coder - главный сюрприз этого лидерборда. Модель показывает скромные 66.4% общей точности, но зато:

Дешевле всех конкурентов в 2-10 раз
Выдаёт стабильные результаты по всем 9 языкам (разброс всего ±7%)
Особенно сильна в TypeScript и Ruby - языках с динамической типизацией

Китайская компания MiniMax явно сделала ставку на эффективность, а не на максимальную точность. И для многих сценариев это правильный выбор. Если ваш код - это не запуск ракет в космос, а обычные веб-приложения или скрипты, переплачивать за GPT-5.2 нет смысла.

💡

Интересно, что NousCoder-14B в аналогичных тестах показывает 67.87% Pass@1, но только для Python. Мультиязычные модели - это другой уровень сложности.

Компилируемые vs интерпретируемые: где ИИ тупит

Лидерборд разделил языки на две группы, и разница заметная.

Интерпретируемые (Python, JavaScript, Ruby, PHP): средняя точность 72-81%. Модели справляются хорошо, потому что можно быстро проверить код и получить feedback. Ошибка в синтаксисе? Интерпретатор тут же ругнётся.

Компилируемые (Java, C++, Go, Rust): средняя точность 65-75%. Здесь сложнее - нужно учитывать систему типов, время жизни переменных в Rust, шаблоны в C++. GPT-5.2 и Claude 3.7 вырываются вперёд, но цена ошибки выше. И цена inference тоже.

Rust - самый проблемный язык для всех моделей. Даже GPT-5.2 показывает только 68.3%. Видимо, borrow checker до сих пор пугает ИИ больше, чем живых программистов.

Сравнение с другими бенчмарками

SWE-bench Multilingual - не единственный способ оценить кодящие модели. SWE-bench 2025 фокусируется на комплексных инженерных задачах, но только на Python. BigCodeArena оценивает через выполнение кода, что ближе к реальности, но покрывает меньше языков.

Новый лидерборд ценен именно мультиязычностью и привязкой к стоимости. Разработчик из банка, пишущий на Java, увидит одни цифры. Фронтендер на TypeScript - другие. И оба поймут, сколько им это будет стоить в месяц.

Важный нюанс: стоимость inference считается по официальным API-ценам на 24.02.2026. Если вы запускаете модели локально (как в лучших локальных LLM 2025), экономика меняется кардинально. Но для облачных решений цифры актуальны.

Кому что брать: практические рекомендации

Берите GPT-5.2, если: пишете на C++ или Rust, работаете над критичным кодом (финансы, безопасность), или точность важнее бюджета. 8% разницы иногда спасают проект.

Выбирайте DeepSeek-Coder v3.2, если: нужен баланс цены и качества, особенно для JavaScript/TypeScript стека. Модель почти догоняет GPT-5.2, но в 6 раз дешевле.

Смотрите на MiniMax 2.5, если: бюджет ограничен, а задачи стандартные - CRUD, API, скрипты автоматизации. Для Ruby on Rails или Node.js проектов она идеальна.

Рассмотрите IQuest-Coder-V1, если: готовы экспериментировать с новыми моделями. В тестах она показывает 69.1% точности по Python, но в мультиязычном забеге не участвовала.

А вот агенты вроде SERA или Devstral - это отдельная история. Они не просто генерируют код, а планируют и исправляют ошибки. Но и стоят соответственно.

Что будет дальше?

К марту 2026 ожидается обновление лидерборда с добавлением Swift и Kotlin. Google анонсировала Gemini 3.0 Coder специально для мультиязычных задач. И судя по тенденции, разрыв между топовыми и бюджетными моделями будет сокращаться.

Совет на будущее: не гонитесь за максимальной точностью. Посчитайте, сколько ошибок вы готовы терпеть ради экономии. Иногда 5% разницы в Pass@1 означает одну лишнюю правку в день. А стоит ли эта правка $200 в месяц - решать вам.

И да, проверяйте GitHub репозиторий лидерборда раз в месяц. Цены на API меняются, появляются новые модели, и сегодняшний лидер завтра может оказаться аутсайдером по стоимости. В мире AI-кодинга всё течёт слишком быстро, чтобы делать ставки на год вперёд.

Подписаться на канал

SWE-bench Multilingual Leaderboard: какой ИИ лучше всего пишет код на 9 языках и сколько это стоит