Код на девяти, бюджет на одном
В феврале 2026 года появился SWE-bench Multilingual Leaderboard. Это не просто очередной тест для ИИ. Это прагматичный калькулятор, который отвечает на два вопроса: чей код работает и во сколько это вылезет.
Бенчмарк взял 9 языков - Python, JavaScript, Java, C++, Go, Rust, TypeScript, Ruby, PHP - и загрузил модели реальными задачами из открытых репозиториев. Не абстрактные задачки, а живые issue с GitHub, где нужно понять контекст, найти баг и написать патч. И все это - с подсчётом стоимости каждого запроса.
Лидерборд обновляется в реальном времени на GitHub. Там же лежат все скрипты для воспроизведения тестов. Можно взять и проверить заявленные результаты самостоятельно - редкая честность в мире AI-бенчмарков.
Кто на пьедестале, а кто в долгах
Результаты на 24 февраля 2026 выглядят так. Точность измеряют в Pass@1 - сколько раз модель с первой попытки генерирует рабочий код.
| Модель | Общая точность | Стоимость за 100 задач | Лучший язык |
|---|---|---|---|
| GPT-5.2 (OpenAI) | 74.3% | $18.70 | Python (81.2%) |
| DeepSeek-Coder v3.2 | 71.8% | $3.20 | JavaScript (77.5%) |
| GLM-4.7 Coder | 68.9% | $4.10 | Go (73.1%) |
| MiniMax 2.5 Coder | 66.4% | $1.85 | TypeScript (72.8%) |
| Claude 3.7 Sonnet | 70.2% | $15.40 | Java (75.6%) |
GPT-5.2 лидирует по точности, но платить за это придётся в десять раз больше, чем за MiniMax 2.5. Разница в 8 процентных пунктов обойдётся в $16.85 на каждой сотне задач. Звучит мало? Умножьте на ежедневный объём работы.
MiniMax 2.5: тёмная лошадка из Китая
MiniMax 2.5 Coder - главный сюрприз этого лидерборда. Модель показывает скромные 66.4% общей точности, но зато:
- Дешевле всех конкурентов в 2-10 раз
- Выдаёт стабильные результаты по всем 9 языкам (разброс всего ±7%)
- Особенно сильна в TypeScript и Ruby - языках с динамической типизацией
Китайская компания MiniMax явно сделала ставку на эффективность, а не на максимальную точность. И для многих сценариев это правильный выбор. Если ваш код - это не запуск ракет в космос, а обычные веб-приложения или скрипты, переплачивать за GPT-5.2 нет смысла.
Компилируемые vs интерпретируемые: где ИИ тупит
Лидерборд разделил языки на две группы, и разница заметная.
Интерпретируемые (Python, JavaScript, Ruby, PHP): средняя точность 72-81%. Модели справляются хорошо, потому что можно быстро проверить код и получить feedback. Ошибка в синтаксисе? Интерпретатор тут же ругнётся.
Компилируемые (Java, C++, Go, Rust): средняя точность 65-75%. Здесь сложнее - нужно учитывать систему типов, время жизни переменных в Rust, шаблоны в C++. GPT-5.2 и Claude 3.7 вырываются вперёд, но цена ошибки выше. И цена inference тоже.
Rust - самый проблемный язык для всех моделей. Даже GPT-5.2 показывает только 68.3%. Видимо, borrow checker до сих пор пугает ИИ больше, чем живых программистов.
Сравнение с другими бенчмарками
SWE-bench Multilingual - не единственный способ оценить кодящие модели. SWE-bench 2025 фокусируется на комплексных инженерных задачах, но только на Python. BigCodeArena оценивает через выполнение кода, что ближе к реальности, но покрывает меньше языков.
Новый лидерборд ценен именно мультиязычностью и привязкой к стоимости. Разработчик из банка, пишущий на Java, увидит одни цифры. Фронтендер на TypeScript - другие. И оба поймут, сколько им это будет стоить в месяц.
Важный нюанс: стоимость inference считается по официальным API-ценам на 24.02.2026. Если вы запускаете модели локально (как в лучших локальных LLM 2025), экономика меняется кардинально. Но для облачных решений цифры актуальны.
Кому что брать: практические рекомендации
Берите GPT-5.2, если: пишете на C++ или Rust, работаете над критичным кодом (финансы, безопасность), или точность важнее бюджета. 8% разницы иногда спасают проект.
Выбирайте DeepSeek-Coder v3.2, если: нужен баланс цены и качества, особенно для JavaScript/TypeScript стека. Модель почти догоняет GPT-5.2, но в 6 раз дешевле.
Смотрите на MiniMax 2.5, если: бюджет ограничен, а задачи стандартные - CRUD, API, скрипты автоматизации. Для Ruby on Rails или Node.js проектов она идеальна.
Рассмотрите IQuest-Coder-V1, если: готовы экспериментировать с новыми моделями. В тестах она показывает 69.1% точности по Python, но в мультиязычном забеге не участвовала.
А вот агенты вроде SERA или Devstral - это отдельная история. Они не просто генерируют код, а планируют и исправляют ошибки. Но и стоят соответственно.
Что будет дальше?
К марту 2026 ожидается обновление лидерборда с добавлением Swift и Kotlin. Google анонсировала Gemini 3.0 Coder специально для мультиязычных задач. И судя по тенденции, разрыв между топовыми и бюджетными моделями будет сокращаться.
Совет на будущее: не гонитесь за максимальной точностью. Посчитайте, сколько ошибок вы готовы терпеть ради экономии. Иногда 5% разницы в Pass@1 означает одну лишнюю правку в день. А стоит ли эта правка $200 в месяц - решать вам.
И да, проверяйте GitHub репозиторий лидерборда раз в месяц. Цены на API меняются, появляются новые модели, и сегодняшний лидер завтра может оказаться аутсайдером по стоимости. В мире AI-кодинга всё течёт слишком быстро, чтобы делать ставки на год вперёд.