Когда 49 агентов - это не перебор, а необходимость
Открываешь GitHub и видишь: ещё один бенчмарк для AI-агентов. Глаза закатываются. Но SanityHarness - это не просто очередной репозиторий со звездочками. Это практический инструмент, который заставил 49 комбинаций моделей и фреймворков решать реальные задачи. И да, там есть Kimi K2.5 - модель, о которой все говорят в январе 2026 года.
На 28.01.2026 Kimi K2.5 остается одной из самых обсуждаемых моделей для кодирования, особенно после релиза в декабре 2025 года с улучшенной поддержкой контекста до 512K токенов.
Что такое SanityHarness и почему он не похож на другие бенчмарки
Большинство бенчмарков проверяют, может ли модель написать FizzBuzz или найти баг в простой функции. Скучно. Предсказуемо. Бесполезно.
SanityHarness проверяет другое: может ли агент работать в реальных условиях. Не просто генерировать код, а:
- Читать существующую кодовую базу
- Понимать зависимости между файлами
- Работать с неполными спецификациями
- Находить и исправлять ошибки в уже написанном коде
Авторы репозитория взяли 12 задач разной сложности - от простых утилит до полноценных мини-приложений. И запустили на них 49 комбинаций: разные модели (Claude Sonnet 4.5, GPT-5, Kimi K2.5, DeepSeek Coder V3) плюс разные фреймворки агентов (AutoGen, CrewAI, LangGraph).
Результаты, которые удивляют (и немного разочаровывают)
Ожидаешь, что GPT-5 будет на первом месте? Или Claude Sonnet 4.5? Не совсем.
| Позиция | Модель + Фреймворк | Успешность | Среднее время |
|---|---|---|---|
| 1 | Claude Sonnet 4.5 + AutoGen | 87% | 4.2 мин |
| 2 | Kimi K2.5 + LangGraph | 83% | 3.8 мин |
| 3 | GPT-5 + CrewAI | 79% | 5.1 мин |
| 7 | DeepSeek Coder V3 + AutoGen | 72% | 6.3 мин |
Kimi K2.5 показала интересный результат: она быстрее всех справляется с задачами, но иногда жертвует качеством ради скорости. Claude Sonnet 4.5 работает медленнее, но его решения почти всегда работают с первого раза.
А вот что действительно интересно: фреймворк иногда важнее модели. Одна и та же модель с разными фреймворками показывает разницу в успешности до 15%. AutoGen стабильно показывает лучшие результаты, но требует больше настроек.
Внимание: результаты на 28.01.2026. Если вы читаете это позже, проверьте актуальность - модели обновляются ежемесячно, а фреймворки выходят с новыми версиями каждые несколько недель.
Как запустить SanityHarness у себя (без головной боли)
Думаешь, нужно быть гуру DevOps? Нет. Авторы сделали setup максимально простым.
1Клонируй и настрой окружение
Первое, что нужно - Python 3.11 или выше. Да, в 2026 году Python 3.10 уже считается устаревшим для таких задач.
git clone https://github.com/username/sanityharness.git
cd sanityharness
python -m venv venv
source venv/bin/activate # или venv\Scripts\activate на Windows
pip install -r requirements.txt2Настрой API ключи
Тут начинается самое "веселое". Нужно получить ключи для всех моделей, которые хочешь тестировать. SanityHarness поддерживает:
- OpenAI (GPT-5, GPT-4.5 Turbo)
- Anthropic (Claude 4.5 Sonnet, Claude 4 Haiku)
- Moonshot (Kimi K2.5, Kimi K2)
- DeepSeek (Coder V3, Coder V2)
- И локальные модели через Ollama или Claude Code на Mac M3
Создаешь файл .env в корне проекта и добавляешь ключи:
OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
MOONSHOT_API_KEY=sk-...
DEEPSEEK_API_KEY=sk-...3Выбери конфигурацию теста
Не нужно тестировать все 49 комбинаций сразу (если только у тебя нет бесконечного бюджета на API). Выбери несколько наиболее релевантных:
# Тестируем только Kimi K2.5 и Claude Sonnet 4.5
python run_benchmark.py --models kimi-k2-5 claude-sonnet-4-5 --frameworks autogen langgraphИли запусти конкретную задачу:
# Только задача №5 (создание REST API)
python run_benchmark.py --task 5 --model gpt-5 --framework crewai4Анализируй результаты
После запуска получаешь:
- JSON с детальными результатами
- HTML отчет с графиками
- Логи всех агентов (что они думали, какие шаги предпринимали)
- Сгенерированный код для каждой задачи
Именно логи - самое ценное. Видишь, где агент пошел по неправильному пути, где зациклился, где не понял требования.
Кому нужен SanityHarness в 2026 году?
Не всем. Честно.
Нужен:
- Командам, которые выбирают AI-агента для интеграции в workflow
- Разработчикам, которые создают свои агентные системы (посмотри GitHub Copilot SDK для вдохновения)
- Исследователям, которые сравнивают эффективность разных подходов
- Тем, кто устал от маркетинговых заявлений "наша модель лучшая" и хочет проверить сам
Не нужен:
- Если ты используешь один агент и доволен результатами
- Если бюджет на API ограничен 50$ в месяц
- Если твои задачи - простые скрипты, а не сложные системы
Чем SanityHarness лучше других бенчмарков?
Последние полгода появилось десяток бенчмарков. Почему этот - особенный?
ABC-Bench (о котором мы уже писали) фокусируется на настройке окружения. Terminal Bench 2.0 проверяет работу в терминале (вспомни DeepAgents CLI). PropensityBench изучает, как агенты ведут себя под давлением.
SanityHarness делает другое: он проверяет способность понимать и развивать существующий код. Не с чистого листа, а в условиях, максимально приближенных к реальным проектам.
Что будет дальше? (Спойлер: не только больше моделей)
Авторы репозитория планируют добавить:
- Поддержку мультимодальных моделей - когда агент может анализировать диаграммы архитектуры
- Интеграцию с реальными CI/CD pipeline - тестирование в условиях деплоя
- Сравнение с NeMo Agent Toolkit от NVIDIA
- Тестирование на специализированном железе (вроде RTX 6000 Pro Blackwell 96GB)
Но главное - они обещают добавить метрику "стоимость решения". Не только успешность, а сколько стоит каждая успешная задача в пересчете на API вызовы. В 2026 году, когда цены на API постоянно меняются, это критически важно.
Мой совет: если выбираешь агента для команды из 5+ разработчиков, потрать неделю на тестирование через SanityHarness. Сэкономленные месяцы на исправлении ошибок от неоптимального агента окупят это время в 10 раз.
Код открытый. Задачи реальные. Результаты - честные. В мире, где каждый второй стартап заявляет о "революционном агенте", такой инструмент не просто полезен - он необходим для выживания.
P.S. Если запустишь тесты - поделись результатами. Особенно интересно, как покажут себя локальные модели на твоем железе.