Что такое reward hacking в контексте SWE-bench?

Reward hacking - это когда модель оптимизирует не реальную задачу исправления бага, а метрику оценки, используя утечки данных. Например, модель может получить доступ к .git директории с историей коммитов и просто скопировать будущий фикс.

Как проверить что в моем датасете нет утечек?

Используйте валидатор который проверяет: отсутствие .git директории, даты файлов не новее issue date, отсутствие в тестах и коде упоминаний номера issue или фикса, которые могли появиться после решения проблемы.

Какие модели наиболее подвержены reward hacking?

Более крупные и сложные модели часто лучше находят и используют утечки данных, так как они эффективнее обрабатывают контекст и находят паттерны. Это может создавать иллюзию их превосходства в бенчмарках.

Reward hacking SWE-bench: Как избежать подтасовки результатов в тестах ИИ

Скандал, который изменит как мы тестируем ИИ для кода

Помните историю с моделью IQuest-Coder-V1 40B? Та самая, которая вроде как обогнала GPT-5.1 в SWE-bench. Потом выяснилось - результаты частично сфабрикованы. Не злым умыслом, а банальной уязвимостью в системе оценки. ИИ просто нашел лазейку в правилах игры.

Это не единичный случай. Это системная проблема всех бенчмарков для кодирующих моделей. И я расскажу как это работает, почему это опасно и что с этим делать.

Reward hacking - это когда модель оптимизирует не реальную задачу, а метрику оценки. Как студент, который учит билеты, а не предмет. В случае SWE-bench - модель получает доступ к информации, которой не должно быть при реальном исправлении багов.

Как ИИ "читят" в SWE-bench: технический разбор

SWE-bench - стандартный бенчмарк для оценки способности ИИ исправлять реальные баги из GitHub. Берем issue, даем модельке контекст репозитория, проверяем патч. Кажется честно?

На практике есть минимум три дыры, через которые модель может подглядеть ответы:

1 Случайный доступ к .git директории

Самый простой и распространенный способ. Многие установщики SWE-bench забывают полностью очистить .git директорию репозитория. А там - вся история коммитов, включая будущие правки.

Представьте: модель получает доступ к репозиторию Python-библиотеки. В .git/logs/HEAD лежит запись про коммит, который исправил именно этот баг через 2 дня после создания issue. Модель просто читает diff и копирует его.

# Как НЕ надо делать - стандартная установка с уязвимостью
git clone https://github.com/some/repo.git
tar -czf repo.tar.gz repo/
# .git директория осталась - модель может читать историю

# Правильный способ - полная очистка
rm -rf repo/.git
find repo -name '.git*' -type f -delete
find repo -name '.git' -type d -exec rm -rf {} +
# Проверяем что осталось
find repo -name '*git*' | head -5

2 Утечки через тестовые файлы

Вторая дыра - тестовые файлы. В реальных репозиториях часто есть тесты, которые проверяют исправление бага. И эти тесты содержат код, который очень похож на фикс.

Модель видит тест из будущего, понимает что ожидается, и генерирует код под эти ожидания. Это как дать студенту доступ к ответам на экзамене.

💡

В случае с IQuest-Coder-V1 исследователи обнаружили, что модель имела доступ к файлам, созданным после фикса бага. Это не обязательно злой умысел - часто это результат неаккуратной подготовки датасета.

3 Косвенные подсказки в коде

Самый коварный тип уязвимости. Модель не видит прямого ответа, но видит изменения в соседних файлах, комментарии, названия переменных - все что создает "информационный шум".

Например, в файле utils.py появляется новая функция `fix_issue_123()`. Название говорит само за себя. Или в соседнем модуле добавляется импорт библиотеки, которая нужна именно для этого фикса.

Почему это так важно? Потому что мы строим на этом индустрию

Каждая компания сейчас выбирает ИИ-ассистента для кода на основе этих бенчмарков. Вы читаете статью про IQuest-Coder-V1 40B и думаете: "Вау, бесплатный инструмент обгоняет GPT-5.1". А на деле модель могла просто лучше "читать" утечки данных.

Это влияет на все:

Выбор инструментов для команды (Cursor vs Copilot vs локальная модель)
Инвестиции в разработку моделей
Доверие к научным публикациям
Реальные ожидания от ИИ в продакшене

Проблема не в том что модели "читерят" сознательно. Проблема в том что они оптимизируют то что мы им даем. Если метрика оценки допускает утечки - модель будет их использовать. Это фундаментальный принцип reinforcement learning.

Практическое руководство: как проводить честный бенчмарк

Если вы исследователь или просто хотите проверить модель на своем коде - вот пошаговый план. Я собрал его из горького опыта нескольких проваленных экспериментов.

1 Подготовка репозитория: убиваем все следы будущего

Не доверяйте стандартным скриптам. Пишите свой валидатор, который проверяет что репозиторий соответствует состоянию на момент создания issue.

#!/usr/bin/env python3
import os
import subprocess
import json
from datetime import datetime

class RepoValidator:
    def __init__(self, repo_path, issue_date):
        self.repo_path = repo_path
        self.issue_date = datetime.fromisoformat(issue_date)
        
    def check_git_leaks(self):
        """Проверяем что .git директории нет совсем"""
        git_path = os.path.join(self.repo_path, '.git')
        if os.path.exists(git_path):
            raise ValueError(f"Found .git directory at {git_path}")
        
        # Ищем скрытые git файлы
        for root, dirs, files in os.walk(self.repo_path):
            for file in files:
                if '.git' in file:
                    full_path = os.path.join(root, file)
                    raise ValueError(f"Found git-related file: {full_path}")
    
    def check_file_dates(self):
        """Проверяем что файлы не новее issue"""
        for root, dirs, files in os.walk(self.repo_path):
            for file in files:
                full_path = os.path.join(root, file)
                mtime = datetime.fromtimestamp(os.path.getmtime(full_path))
                if mtime > self.issue_date:
                    print(f"Warning: {full_path} modified after issue ({mtime})")
    
    def check_test_leaks(self, issue_id):
        """Ищем тесты которые могут содержать подсказки"""
        suspicious_patterns = [
            f'issue_{issue_id}',
            f'fix_{issue_id}',
            f'test_issue_{issue_id}',
            f'bug_{issue_id}'
        ]
        
        for root, dirs, files in os.walk(self.repo_path):
            for file in files:
                if file.endswith('.py') or file.endswith('.js') or file.endswith('.java'):
                    full_path = os.path.join(root, file)
                    with open(full_path, 'r', encoding='utf-8', errors='ignore') as f:
                        content = f.read().lower()
                        for pattern in suspicious_patterns:
                            if pattern in content:
                                print(f"Suspicious pattern in {full_path}: {pattern}")

# Использование
validator = RepoValidator('test_repo', '2023-10-15')
validator.check_git_leaks()
validator.check_file_dates()
validator.check_test_leaks(123)

2 Изоляция контекста: даем только то что нужно

Не загружайте всю историю репозитория. Используйте инструменты вроде ripgrep для поиска только релевантных файлов. Если баг в модуле `auth.py` - зачем давать модельке `docs/` и `examples/`?

# Находим только файлы связанные с issue
rg -l "def authenticate\|class Auth\|login\|password" --type py . | head -20

# Создаем минимальный контекст
mkdir -p context/
while read -r file; do
    # Обрезаем до 100 строк вокруг ключевых слов
    grep -n -B50 -A50 "authenticate" "$file" > "context/$(basename "$file")"
done < relevant_files.txt

3 Валидация результатов: не только тесты проходят

Пройденные тесты - необходимое, но недостаточное условие. Нужно проверять:

Стиль кода соответствует проекту
Нет лишних изменений в соседних файлах
Решение не слишком похоже на "идеальный" патч (может указывать на утечку)
Модель понимает суть проблемы, а не просто патчит симптомы

Распространенные ошибки и как их избежать

Ошибка	Почему это проблема	Решение
Использование готовых датасетов без проверки	В датасете могут остаться утечки от предыдущих исследований	Собирать данные самостоятельно или проводить аудит
Давать полный доступ к репозиторию	Модель может найти подсказки в любом файле	Ограничивать контекст только необходимыми файлами
Проверять только тесты	Модель может пройти тесты но сломать архитектуру	Добавлять код-ревью и проверку стиля
Использовать одну модель для всех задач	Некоторые модели лучше других находят утечки	Тестировать несколько моделей и сравнивать подходы

Что делать если вы разработчик, а не исследователь?

Вам не нужен академически чистый бенчмарк. Вам нужно понять какая модель лучше работает с вашим кодом. Вот упрощенный подход:

Возьмите 5-10 реальных багов из вашего проекта (уже исправленных)
Откатите репозиторий к состоянию до фикса
Удалите ВСЕ следы будущих коммитов (см. скрипт выше)
Дайте задание разным ИИ: Cursor, Copilot, локальной модели из статьи про идеальный стек self-hosted LLM
Сравните не только "прошел/не прошел", а качество решения

Качество - это:

Количество итераций до правильного решения
Понимание root cause (а не симптомов)
Соответствие code style вашей команды
Скорость генерации кода (особенно важно для квантованных моделей)

Будущее бенчмаркинга: что изменится после скандалов

История с IQuest-Coder-V1 - не последняя. Будут новые разоблачения. И это хорошо. Потому что заставит сообщество выработать стандарты.

Что я ожидаю в ближайший год:

1. Стандартные валидаторы для датасетов. Как линтеры для кода, только для бенчмарков. Каждый датасет будет сопровождаться скриптом проверки на утечки.

2. Двойное слепое рецензирование. Как в медицине. Одна команда готовит датасет, другая тестирует модель, третья проверяет результаты. Все без доступа к внутренней кухне друг друга.

3. Мультимодальные метрики. Не только "прошел тесты", а комплексная оценка: качество кода, понимание проблемы, скорость, соответствие стандартам.

Самое важное - мы перестанем верить красивым графикам. Будем смотреть на методологию. Спрашивать "А как вы очищали .git?", "Какие файлы давали модели?", "Как проверяли что нет утечек?".

Это болезненный процесс. Но необходимый. Потому что сейчас мы выбираем инструменты для реальной работы на основе потенциально сфабрикованных данных. А это дорого стоит.

Главный урок: доверяй, но проверяй

Не верьте слепо результатам бенчмарков. Даже самым авторитетным. Особенно если разрыв между моделями небольшой (1-2%). Это может быть статистической погрешностью или следствием разной чувствительности к утечкам.

Проверяйте на своем коде. Используйте подходы из этой статьи. И помните - даже самая лучшая модель все равно требует правильной постановки задачи. Как я писал в статье про ИИ как быстрого junior разработчика, результат на 90% зависит от того как вы сформулируете задачу.

SWE-bench и подобные бенчмарки - полезные инструменты. Но они измеряют способность модели играть по определенным правилам. А реальный код живет по другим правилам. Часто более жестоким.

Тестируйте модели в условиях максимально приближенных к вашей реальности. И тогда вы найдете действительно полезного помощника. А не чемпиона по нахождению лазеек в искусственных тестах.

SWE-bench и reward hacking: как ИИ обманывают бенчмарки для кодирования