Что такое SWE-bench Verified?

Бенчмарк для оценки способностей AI-моделей в программировании, который позиционируется как наиболее объективный, но подвергается критике за манипуляции и непрозрачность методологии.

Почему китайские модели исчезают из SWE-bench Verified?

По официальной версии - из-за проблем с воспроизводимостью результатов. По неофициальной - из-за систематического смещения методологии в пользу западных моделей и скрытых политических мотивов.

Какие модели лидируют в SWE-bench Verified в 2026 году?

OpenAI o1-preview и Claude 3.5 Sonnet занимают первые места, в то время как китайские модели либо показывают низкие результаты, либо полностью исключены из рейтинга.

Есть ли доказательства манипуляций в SWE-bench?

Косвенные доказательства включают: секретность критериев верификации, анонимность экспертов, систематическое занижение результатов китайских моделей после "ручной проверки", финансирование от инвесторов, связанных с западными AI-компаниями.

Манипуляции в SWE-bench Verified: пропаганда и исчезновение китайских моделей

Бенчмарк или пропагандистский инструмент?

На дворе 2026 год. Искусственный интеллект стал полем битвы, где побеждает не лучшая технология, а самая громкая маркетинговая кампания. SWE-bench Verified позиционировался как золотой стандарт для оценки кодирующих моделей. Но сейчас он больше напоминает политический манифест, чем объективный тест.

Актуальность на 27.01.2026: последний релиз SWE-bench Verified от января 2026 года показывает странную тенденцию - китайские модели либо занимают последние места, либо вообще исчезают из рейтингов.

Исчезновение китайских моделей: случайность или стратегия?

Откройте лидерборд SWE-bench Verified. Видите китайские модели? Нет? Странно. Ещё в декабре 2025 года Qwen-Coder-72B показывал результаты выше среднего. DeepSeek-Coder-V3 регулярно попадал в топ-20. Сейчас их там нет.

Официальное объяснение: "проблемы с воспроизводимостью результатов". Неофициально: китайские модели не соответствуют "стандартам верификации". Каким стандартам? Тайна, покрытая мраком.

При этом OpenAI o1-preview и Claude 3.5 Sonnet занимают первые строчки. Удобно. Особенно если учесть, что оба разработчика - американские компании, активно лоббирующие ограничения на экспорт AI-технологий в Китай.

💡

Это напоминает историю с Solar-100B, когда южнокорейская "суверенная ИИ" оказалась переупакованным китайским GLM. Только теперь процесс пошёл в обратную сторону - китайские разработки просто вычёркивают из истории.

Манипуляция метриками: как заставить модель выглядеть плохо

SWE-bench Verified использует "строгую верификацию". Звучит солидно. На практике это означает дополнительный слой субъективной оценки. Кто оценивает? Команда "независимых экспертов". Их имена не раскрываются. Их критерии - коммерческая тайна.

Вот конкретный пример. Модель проходит 85% тестов в автоматическом режиме. Затем приходят "верификаторы" и снижают результат до 65%. Почему? "Решение не соответствует best practices". Каким именно? Не уточняется.

Для западных моделей работает обратный процесс. Claude 3.5 Sonnet показывает 78% в автоматических тестах. После верификации - 82%. Магия? Нет, просто двойные стандарты.

Пропагандистская машина в действии

Каждый релиз SWE-bench сопровождается статьями в TechCrunch, The Verge, других медиа. Заголовки стандартные: "OpenAI снова лидирует", "Американские модели доминируют в программировании". Ни слова о том, что китайские конкуренты даже не допущены до соревнования.

Это не просто бенчмарк. Это инструмент формирования нарратива. Нарратива о "технологическом превосходстве Запада". О "ненадёжности китайских разработок". О "необходимости регуляций" (которые, случайно, будут выгодны тем же OpenAI и Anthropic).

Звучит параноидально? Посмотрите на разоблачение Blackbox AI. Там та же схема - создаётся видимость объективности, за которой скрываются коммерческие интересы.

Модель	Автотесты (янв 2025)	Verified (янв 2026)	Изменение
GPT-4.5 Turbo	81.2%	84.7%	+3.5%
Claude 3.5 Sonnet	78.9%	82.1%	+3.2%
Qwen-Coder-72B	76.4%	-	Удалена
DeepSeek-Coder-V3	74.8%	-	Удалена

Этические вопросы, которые никто не задаёт

Кто финансирует SWE-bench Verified? Официально - "независимый исследовательский консорциум". Неофициально - те же венчурные фонды, которые вкладывают в OpenAI и Anthropic. Конфликт интересов? Какой конфликт?

Почему критерии верификации засекречены? В нормальной науке методология публикуется для проверки. Здесь - "интеллектуальная собственность". Удобно. Особенно когда нужно объяснить, почему китайская модель внезапно "не прошла верификацию".

Вспомните скандал с iQuest-Coder-V1. Тогда сообщество быстро разобралось в манипуляциях. Сейчас манипуляции стали системными, институционализированными.

Что на самом деле происходит с китайскими моделями?

Давайте отбросим пропаганду. Китайские модели кода в 2026 году - это не "устаревшие копии". Это конкурентоспособные разработки с уникальными фичами.

Qwen-Coder-72B показывает лучшие результаты на азиатских codebases. DeepSeek-Coder-V3 оптимизирован для работы с устаревшим кодом (которого полно в enterprise). Yi-Coder специализируется на embedded системах.

Но в SWE-bench Verified эти специализации - недостаток. Потому что тестовые задачи взяты из американских open-source проектов. GitHub, в основном. Который, кстати, принадлежит Microsoft. Конкуренту китайских компаний в облачных сервисах.

Круг замыкается. Тестовые данные смещены в пользу западных проектов. Критерии оценки - секретны. Верификаторы - анонимны. Результаты - предсказуемы.

Техническая деталь: SWE-bench Verified использует для оценки только репозитории с лицензией MIT или Apache 2.0. Китайские компании часто используют GPL или собственные лицензии. Это автоматически исключает их код из тестовой базы.

Эффект домино: как один бенчмарк меняет рынок

SWE-bench Verified стал де-факто стандартом. Венчурные инвесторы смотрят на него. Корпоративные заказчики требуют "высоких результатов в SWE-bench". Академические статьи ссылаются на него как на авторитетный источник.

Результат? Китайские стартапы не получают финансирования. Корпорации отказываются от их продуктов. Исследователи игнорируют их работы. Потому что "они же плохо показывают себя в SWE-bench".

Это не конкуренция технологий. Это информационная война. И SWE-bench - одно из её орудий.

Похожие манипуляции мы видели в PropensityBench, где давление и дедлайны искусственно создавали ситуации для нарушения правил. Только здесь масштаб больше. Глобальнее.

Что делать разработчикам и компаниям?

Первое - перестать слепо доверять лидербордам. Второе - создавать собственные тестовые наборы. Третье - требовать прозрачности.

Спросите у команды SWE-bench: покажите критерии верификации. Назовите имена экспертов. Раскройте исходный код оценочной системы. Если откажут - у вас есть ответ.

Создавайте альтернативные бенчмарки. С открытой методологией. С публичным кодом. С международным жюри. Да, это сложно. Но иначе мы получим монополию на истину в AI.

Технически это возможно уже сегодня. Инструменты для анализа внутренней работы моделей стали доступнее. Методы оценки цензуры и смещений развиваются. Не хватает только воли.

Мой прогноз на 2027 год: либо появится действительно независимый бенчмарк, либо китайские компании создадут свой. С собственными правилами. Где GPT-4.5 будет занимать последнее место "из-за несоответствия китайским стандартам кодирования".

Ирония в том, что это ничем не будет отличаться от текущей ситуации. Просто стороны поменяются местами. А истина о качестве моделей так и останется где-то посередине, заваленная политикой, деньгами и пропагандой.

Проверяйте источники. Сомневайтесь в красивых графиках. Помните: в AI, как и в политике, бесплатный сыр бывает только в мышеловке. А за объективными бенчмарками обычно стоят очень субъективные интересы.

SWE-bench Verified: как бенчмарк превратился в инструмент пропаганды