SWE-bench скандал: scaffold vs zero-shot и обман в анонсах моделей | AiManual
AiManual Logo Ai / Manual.
30 Мар 2026 Новости

Почему SWE-bench цифры в анонсах моделей вводят в заблуждение: разбор скандала с scaffold и zero-shot

Разоблачаем манипуляции с бенчмарками: как scaffold и zero-shot искажают результаты SWE-bench и вводят разработчиков в заблуждение. Актуально на 30.03.2026.

Когда цифры лгут: как SWE-bench стал полем для манипуляций

Вы читаете анонс новой AI-модели и видите впечатляющие 85% на SWE-bench. Кажется, прорыв. Но через месяц независимые тесты показывают лишь 45%. В чем подвох? Все дело в scaffold и zero-shot – двух методах оценки, которые превращают бенчмарк в инструмент пропаганды.

Скандал с MiniMax M2.7, анонсированной в марте 2026, вскрыл системную проблему: компании все чаще используют scaffold для завышения результатов, зная, что разработчики редко проверяют методологию.

SWE-bench – это стандартный тест для оценки способности AI исправлять ошибки в коде. Но с 2024 года появилось два подхода: zero-shot (модель получает только описание бага) и scaffold (модель получает дополнительные подсказки, контекст или даже шаблоны кода). Разница в результатах может достигать 40 процентных пунктов.

Scaffold vs zero-shot: искусственный интеллект или искусственная оценка?

Представьте, что вы сдаете экзамен. В zero-shot вам дают только вопрос. В scaffold – вопрос, шпаргалку и наводящие подсказки. Естественно, результаты будут разными. Но в анонсах моделей этот нюанс часто замалчивают.

MiniMax при анонсе M2.7 указала результат 82.3% на SWE-bench, но мелким шрифтом – "с использованием scaffold". Когда сообщество провело zero-shot тесты, показатель упал до 44.7%. Это не ошибка – это стратегия.

Модель SWE-bench (scaffold) SWE-bench (zero-shot) Разница
MiniMax M2.7 (2026) 82.3% 44.7% 37.6 п.п.
Qwen 3.5 122B A10B 78.9% 52.1% 26.8 п.п.
GLM-5 Ultra 75.4% 48.3% 27.1 п.п.

Почему scaffold так завышает результаты? Потому что он предоставляет модели структуру решения, уменьшая пространство поиска. По сути, модель не генерирует код с нуля, а заполняет пропуски в готовом шаблоне. Это как собрать мебель по инструкции вместо того, чтобы спроектировать ее с нуля.

Репродуцируемость – главная жертва маркетинга

Проблема глубже, чем кажется. Когда независимые исследователи пытаются воспроизвести заявленные результаты, они часто терпят неудачу. Не потому что модель плоха, а потому что методология оценки размыта. SWE-bench Verified пытался решить эту проблему, но даже он стал инструментом для selective reporting.

История повторяется: в 2025 году был скандал с GPQA и HLE бенчмарками, где ошибки в данных искажали рейтинги. Теперь то же самое со SWE-bench, но с более изощренным методом – манипуляцией условиями оценки.

💡
Zero-shot оценка ближе к реальным условиям, когда разработчик использует модель для исправления багов без дополнительных подсказок. Scaffold – это искусственная среда, которая редко встречается в практике.

Как компании оправдываются?

MiniMax в ответ на критику заявила, что scaffold "отражает реальный workflow разработчиков, которые используют IDE с автодополнением и документацией". Звучит логично, но есть нюанс: в scaffold SWE-bench часто включаются конкретные патчи и даже части кода, которые напрямую наводят на решение. Это не автодополнение – это костыль.

Более того, в анонсах они редко упоминают, что использовали scaffold. Только в техническом отчете, который читают единицы. Средний разработчик видит только красивую цифру и решает, что модель – новая звезда в кодинге.

Что делать разработчикам?

Вот простой чек-лист для оценки заявлений о SWE-bench:

  • Всегда проверяйте, указан ли метод оценки: zero-shot или scaffold. Если не указан – это красный флаг.
  • Ищите independent verification. Сообщества вроде Community Evals на Hugging Face часто проводят собственные тесты.
  • Тестируйте модели на своих задачах. Бенчмарки – это ориентир, но ваши данные – истина.
  • Требуйте прозрачности. Если компания не публикует детали оценки, скепсис оправдан.

Ситуация со SWE-bench – это симптом болезни всей индустрии AI. Бенчмарки создавались для сравнения моделей, но превратились в маркетинговые инструменты. Пока не будет единого стандарта оценки, цифры в анонсах будут продолжать врать.

Мой прогноз? К концу 2026 года мы увидим новый скандал – но уже с multimodal бенчмарками. А пока – проверяйте каждую цифру. И помните: если результат выглядит слишком хорошо, чтобы быть правдой, вероятно, так оно и есть.

Подписаться на канал