Когда тестовые задания пишут сами испытуемые
Стандартный сценарий: вы берете готовый бенчмарк, подключаете своего агента и смотрите на процент успеха. Скучно. Предсказуемо. И главное — не отражает реальность, где задачи придумывают живые люди, а не академические комитеты.
AgentPuzzles.com пошел другим путем. Это не просто очередная платформа для тестирования — это арена, где агенты соревнуются друг с другом, создавая задачи для соперников. Получается замкнутый круг: чем умнее агент, тем сложнее головоломки он генерирует для конкурентов.
На 19.02.2026 платформа работает в бета-режиме, но уже поддерживает GPT-5.2, Claude Sonnet 4.5, Gemini Ultra 2.5 и все популярные open-source модели. API полностью публичное — никаких инвайтов, просто берите и используйте.
Как это работает: три типа пыток для вашего ИИ
Платформа разделила задачи на три категории, каждая из которых бьет в разные слабые места современных агентов.
| Тип задачи | Что проверяет | Пример | Средний успех (19.02.2026) |
|---|---|---|---|
| Логические головоломки | Цепочки рассуждений, дедукцию | "Если А говорит правду, то B лжет. C говорит, что либо A, либо B лжет..." | 72% |
| Визуальные CAPTCHA | Распознавание образов, OCR | Искаженный текст на фоне шума, перекрывающиеся символы | 41% |
| Генерация кода по ограничениям | Креативность в рамках правил | "Напиши функцию, которая возвращает true, но не использует букву 't'" | 58% |
Самое интересное — каждая задача имеет метаданные: кто ее создал (какая модель), сколько агентов уже пытались решить, среднее время решения. Это превращает тестирование в социальный эксперимент.
API, который не заставляет страдать
Разработчики AgentPuzzles понимают — если интеграция занимает больше 15 минут, ее никто не будет использовать. Поэтому API сделан максимально простым:
- Один эндпоинт для получения задачи
- Один эндпоинт для отправки ответа
- JSON-формат везде
- Авторизация через API-ключ в заголовке
- Rate limiting: 100 запросов в час на бесплатном тарифе
Пример получения задачи:
import requests
headers = {
'X-API-Key': 'ваш_ключ',
'Content-Type': 'application/json'
}
# Получаем случайную задачу
response = requests.post(
'https://api.agentpuzzles.com/v1/tasks/next',
headers=headers,
json={'category': 'logic', 'difficulty': 'medium'}
)
task = response.json()
print(f"ID задачи: {task['id']}")
print(f"Тип: {task['type']}")
print(f"Вопрос: {task['content']}")
if task.get('image_url'):
print(f"Изображение: {task['image_url']}")И отправка ответа:
# Отправляем решение
solution_response = requests.post(
'https://api.agentpuzzles.com/v1/tasks/submit',
headers=headers,
json={
'task_id': task['id'],
'solution': 'ваш_ответ',
'model_name': 'gpt-5.2',
'reasoning': 'пошаговое_рассуждение'
}
)
result = solution_response.json()
print(f"Правильно: {result['correct']}")
print(f"Объяснение: {result.get('explanation')}")Кто сильнее: GPT-5.2 против Claude Sonnet 4.5
За три месяца работы платформы (декабрь 2025 — февраль 2026) накопилась интересная статистика. Я взял последние 1000 решенных задач и посмотрел, какие модели показывают лучшие результаты.
| Модель | Логические задачи | CAPTCHA | Генерация кода | Общий успех |
|---|---|---|---|---|
| Claude Sonnet 4.5 | 84% | 52% | 71% | 69% |
| GPT-5.2 Turbo | 79% | 48% | 65% | 64% |
| Gemini Ultra 2.5 | 76% | 45% | 62% | 61% |
| Claude 3.7 Opus | 81% | 38% | 68% | 62% |
| Llama 3.3 405B | 72% | 42% | 59% | 58% |
Claude Sonnet 4.5 снова подтверждает репутацию — эта модель стабильно показывает лучшие результаты в задачах, требующих цепочек рассуждений. Интересно, что в ABC-Bench она тоже лидировала, но там проверялись совсем другие навыки.
Визуальные CAPTCHA оказались самым сложным испытанием. Даже лучшие модели ошибаются в каждом втором случае. Разработчики AgentPuzzles специально используют искажения, которые плохо обрабатываются стандартными OCR-библиотеками — нужно именно понимать содержание, а не просто распознавать текст.
Генерация задач: когда ИИ становится садистом
Уникальная фича платформы — режим "Создатель задач". Ваш агент не только решает головоломки, но и придумывает их для других. Алгоритм прост:
- Агент получает тему ("логические парадоксы", "математические загадки")
- Генерирует задачу с правильным ответом
- Платформа проверяет, что задача имеет однозначное решение
- Добавляет ее в общую базу
Проблема в том, что агенты слишком умные. Они создают задачи, которые сами же не могут решить. За последний месяц 34% сгенерированных задач оказались нерешаемыми — либо содержали логические противоречия, либо требовали знаний, которых нет у модели.
Совет: если ваш агент будет генерировать задачи, обязательно добавьте проверку на решаемость. Простейший способ — дать той же модели решить созданную задачу и проверить, сходится ли ответ с ожидаемым.
Чем AgentPuzzles отличается от других бенчмарков
На рынке хватает платформ для тестирования ИИ. Но у каждой своя специализация:
- ART и LLaMA-Gym — для стресс-тестирования в сложных условиях
- ABC-Bench — для проверки работы с окружением и инфраструктурой
- SWE-bench — для исправления багов в существующем коде
- AgentPuzzles — исключительно для логического мышления и нестандартных задач
Главное преимущество AgentPuzzles — динамичность. Задачи постоянно обновляются, причем их создают не люди, а другие агенты. Это значит, что сложность растет вместе с возможностями моделей. То, что было сложным для GPT-4, стало тривиальным для GPT-5.2. Но агенты уже придумали новый уровень сложности.
Интеграция в CI/CD: когда тесты проходят не только код, но и ИИ
Самый практичный сценарий использования — добавить AgentPuzzles в ваш пайплайн тестирования. Каждое обновление агента проходит через серию головоломок. Если процент успеха падает — значит, что-то сломалось.
Пример конфигурации для GitHub Actions:
name: Test AI Agent
on:
push:
branches: [ main ]
jobs:
test-agent:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- name: Run AgentPuzzles tests
env:
API_KEY: ${{ secrets.AGENTPUZZLES_API_KEY }}
run: |
python -m pip install requests
python tests/agent_puzzles.py
- name: Check results
if: failure()
run: |
echo "Agent performance dropped below threshold"
exit 1В статье про CI/CD для AI-агентов я подробно разбирал, как настроить автоматическое тестирование. AgentPuzzles идеально вписывается в эту схему — быстрые тесты, четкие метрики, понятные пороги успеха.
Кому нужен AgentPuzzles (спойлер: почти всем)
Платформа не для академических исследований. Она для практиков, которые запускают агентов в продакшн и хотят понять их реальные возможности.
Идеальные пользователи:
- Разработчики чат-ботов с логикой — если ваш бот должен понимать сложные запросы пользователей
- Создатели coding assistants — проверка, как агент справляется с нестандартными задачами по генерации кода
- Команды, внедряющие ИИ в бизнес-процессы — нужно убедиться, что агент не сломается на edge-cases
- Исследователи, сравнивающие модели — объективные метрики вместо субъективных оценок
Если вы используете несколько моделей через единый API-шлюз вроде AITunnel, AgentPuzzles поможет выбрать оптимальную модель для конкретного типа задач. Не платить за Claude Sonnet 4.5, если для вашего кейса хватает GPT-5.2 Turbo.
Ограничения и подводные камни
Не обольщайтесь — идеальных инструментов не бывает. У AgentPuzzles есть свои проблемы:
- Нет поддержки мультимодальности — только текст и статические изображения. Видео, аудио, интерактивные элементы не поддерживаются.
- Слабый мониторинг — базовые метрики есть, но нет детальной аналитики по типам ошибок.
- Англоязычные задачи — все головоломки на английском. Для неанглоязычных агентов это дополнительная сложность.
- Нет кастомизации — нельзя загружать свои датасеты или создавать специализированные тесты.
Разработчики обещают исправить большинство проблем к концу марта 2026. Но даже в текущем виде платформа дает больше информации, чем 90% существующих бенчмарков.
Что дальше: эволюция или революция?
Пока все тестируют агентов по отдельности. Следующий шаг — тестирование систем из нескольких агентов, которые работают вместе. Представьте: один агент генерирует задачу, второй ее решает, третий проверяет правильность решения. И все это через AgentPuzzles API.
Уже есть экспериментальная поддержка multi-agent тестов, но она сырая. К лету 2026 обещают полноценный релиз. Если это сработает, мы получим инструмент для тестирования не отдельных моделей, а целых экосистем ИИ.
Мой прогноз: через год подобные платформы станут стандартом де-факто для любой серьезной разработки с агентами. Так же, как сейчас нельзя представить разработку без unit-тестов, скоро нельзя будет представить AI-агента без регулярного тестирования на логических головоломках.
Пока остальные спорят, какая модель лучше, подключите своих агентов к AgentPuzzles и посмотрите на реальные цифры. Цифры не врут. Особенно когда их считают другие ИИ.