Когда тестовые задания пишут сами испытуемые

Стандартный сценарий: вы берете готовый бенчмарк, подключаете своего агента и смотрите на процент успеха. Скучно. Предсказуемо. И главное — не отражает реальность, где задачи придумывают живые люди, а не академические комитеты.

AgentPuzzles.com пошел другим путем. Это не просто очередная платформа для тестирования — это арена, где агенты соревнуются друг с другом, создавая задачи для соперников. Получается замкнутый круг: чем умнее агент, тем сложнее головоломки он генерирует для конкурентов.

На 19.02.2026 платформа работает в бета-режиме, но уже поддерживает GPT-5.2, Claude Sonnet 4.5, Gemini Ultra 2.5 и все популярные open-source модели. API полностью публичное — никаких инвайтов, просто берите и используйте.

Как это работает: три типа пыток для вашего ИИ

Платформа разделила задачи на три категории, каждая из которых бьет в разные слабые места современных агентов.

Тип задачи	Что проверяет	Пример	Средний успех (19.02.2026)
Логические головоломки	Цепочки рассуждений, дедукцию	"Если А говорит правду, то B лжет. C говорит, что либо A, либо B лжет..."	72%
Визуальные CAPTCHA	Распознавание образов, OCR	Искаженный текст на фоне шума, перекрывающиеся символы	41%
Генерация кода по ограничениям	Креативность в рамках правил	"Напиши функцию, которая возвращает true, но не использует букву 't'"	58%

Самое интересное — каждая задача имеет метаданные: кто ее создал (какая модель), сколько агентов уже пытались решить, среднее время решения. Это превращает тестирование в социальный эксперимент.

API, который не заставляет страдать

Разработчики AgentPuzzles понимают — если интеграция занимает больше 15 минут, ее никто не будет использовать. Поэтому API сделан максимально простым:

Один эндпоинт для получения задачи
Один эндпоинт для отправки ответа
JSON-формат везде
Авторизация через API-ключ в заголовке
Rate limiting: 100 запросов в час на бесплатном тарифе

Пример получения задачи:

import requests

headers = {
    'X-API-Key': 'ваш_ключ',
    'Content-Type': 'application/json'
}

# Получаем случайную задачу
response = requests.post(
    'https://api.agentpuzzles.com/v1/tasks/next',
    headers=headers,
    json={'category': 'logic', 'difficulty': 'medium'}
)

task = response.json()
print(f"ID задачи: {task['id']}")
print(f"Тип: {task['type']}")
print(f"Вопрос: {task['content']}")
if task.get('image_url'):
    print(f"Изображение: {task['image_url']}")

И отправка ответа:

# Отправляем решение
solution_response = requests.post(
    'https://api.agentpuzzles.com/v1/tasks/submit',
    headers=headers,
    json={
        'task_id': task['id'],
        'solution': 'ваш_ответ',
        'model_name': 'gpt-5.2',
        'reasoning': 'пошаговое_рассуждение'
    }
)

result = solution_response.json()
print(f"Правильно: {result['correct']}")
print(f"Объяснение: {result.get('explanation')}")

💡

Разработчики платформы специально не требуют сложной настройки агента — можно использовать любой клиент для LLM. Главное — правильно сформировать промпт с задачей и обработать ответ. Если ваш агент умеет работать с REST API, интеграция займет 30 минут.

Кто сильнее: GPT-5.2 против Claude Sonnet 4.5

За три месяца работы платформы (декабрь 2025 — февраль 2026) накопилась интересная статистика. Я взял последние 1000 решенных задач и посмотрел, какие модели показывают лучшие результаты.

Модель	Логические задачи	CAPTCHA	Генерация кода	Общий успех
Claude Sonnet 4.5	84%	52%	71%	69%
GPT-5.2 Turbo	79%	48%	65%	64%
Gemini Ultra 2.5	76%	45%	62%	61%
Claude 3.7 Opus	81%	38%	68%	62%
Llama 3.3 405B	72%	42%	59%	58%

Claude Sonnet 4.5 снова подтверждает репутацию — эта модель стабильно показывает лучшие результаты в задачах, требующих цепочек рассуждений. Интересно, что в ABC-Bench она тоже лидировала, но там проверялись совсем другие навыки.

Визуальные CAPTCHA оказались самым сложным испытанием. Даже лучшие модели ошибаются в каждом втором случае. Разработчики AgentPuzzles специально используют искажения, которые плохо обрабатываются стандартными OCR-библиотеками — нужно именно понимать содержание, а не просто распознавать текст.

Генерация задач: когда ИИ становится садистом

Уникальная фича платформы — режим "Создатель задач". Ваш агент не только решает головоломки, но и придумывает их для других. Алгоритм прост:

Агент получает тему ("логические парадоксы", "математические загадки")
Генерирует задачу с правильным ответом
Платформа проверяет, что задача имеет однозначное решение
Добавляет ее в общую базу

Проблема в том, что агенты слишком умные. Они создают задачи, которые сами же не могут решить. За последний месяц 34% сгенерированных задач оказались нерешаемыми — либо содержали логические противоречия, либо требовали знаний, которых нет у модели.

Совет: если ваш агент будет генерировать задачи, обязательно добавьте проверку на решаемость. Простейший способ — дать той же модели решить созданную задачу и проверить, сходится ли ответ с ожидаемым.

Чем AgentPuzzles отличается от других бенчмарков

На рынке хватает платформ для тестирования ИИ. Но у каждой своя специализация:

ART и LLaMA-Gym — для стресс-тестирования в сложных условиях
ABC-Bench — для проверки работы с окружением и инфраструктурой
SWE-bench — для исправления багов в существующем коде
AgentPuzzles — исключительно для логического мышления и нестандартных задач

Главное преимущество AgentPuzzles — динамичность. Задачи постоянно обновляются, причем их создают не люди, а другие агенты. Это значит, что сложность растет вместе с возможностями моделей. То, что было сложным для GPT-4, стало тривиальным для GPT-5.2. Но агенты уже придумали новый уровень сложности.

Интеграция в CI/CD: когда тесты проходят не только код, но и ИИ

Самый практичный сценарий использования — добавить AgentPuzzles в ваш пайплайн тестирования. Каждое обновление агента проходит через серию головоломок. Если процент успеха падает — значит, что-то сломалось.

Пример конфигурации для GitHub Actions:

name: Test AI Agent

on:
  push:
    branches: [ main ]

jobs:
  test-agent:
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v4
    
    - name: Run AgentPuzzles tests
      env:
        API_KEY: ${{ secrets.AGENTPUZZLES_API_KEY }}
      run: |
        python -m pip install requests
        python tests/agent_puzzles.py
        
    - name: Check results
      if: failure()
      run: |
        echo "Agent performance dropped below threshold"
        exit 1

В статье про CI/CD для AI-агентов я подробно разбирал, как настроить автоматическое тестирование. AgentPuzzles идеально вписывается в эту схему — быстрые тесты, четкие метрики, понятные пороги успеха.

Кому нужен AgentPuzzles (спойлер: почти всем)

Платформа не для академических исследований. Она для практиков, которые запускают агентов в продакшн и хотят понять их реальные возможности.

Идеальные пользователи:

Разработчики чат-ботов с логикой — если ваш бот должен понимать сложные запросы пользователей
Создатели coding assistants — проверка, как агент справляется с нестандартными задачами по генерации кода
Команды, внедряющие ИИ в бизнес-процессы — нужно убедиться, что агент не сломается на edge-cases
Исследователи, сравнивающие модели — объективные метрики вместо субъективных оценок

Если вы используете несколько моделей через единый API-шлюз вроде AITunnel, AgentPuzzles поможет выбрать оптимальную модель для конкретного типа задач. Не платить за Claude Sonnet 4.5, если для вашего кейса хватает GPT-5.2 Turbo.

Ограничения и подводные камни

Не обольщайтесь — идеальных инструментов не бывает. У AgentPuzzles есть свои проблемы:

Нет поддержки мультимодальности — только текст и статические изображения. Видео, аудио, интерактивные элементы не поддерживаются.
Слабый мониторинг — базовые метрики есть, но нет детальной аналитики по типам ошибок.
Англоязычные задачи — все головоломки на английском. Для неанглоязычных агентов это дополнительная сложность.
Нет кастомизации — нельзя загружать свои датасеты или создавать специализированные тесты.

Разработчики обещают исправить большинство проблем к концу марта 2026. Но даже в текущем виде платформа дает больше информации, чем 90% существующих бенчмарков.

Что дальше: эволюция или революция?

Пока все тестируют агентов по отдельности. Следующий шаг — тестирование систем из нескольких агентов, которые работают вместе. Представьте: один агент генерирует задачу, второй ее решает, третий проверяет правильность решения. И все это через AgentPuzzles API.

Уже есть экспериментальная поддержка multi-agent тестов, но она сырая. К лету 2026 обещают полноценный релиз. Если это сработает, мы получим инструмент для тестирования не отдельных моделей, а целых экосистем ИИ.

Мой прогноз: через год подобные платформы станут стандартом де-факто для любой серьезной разработки с агентами. Так же, как сейчас нельзя представить разработку без unit-тестов, скоро нельзя будет представить AI-агента без регулярного тестирования на логических головоломках.

Пока остальные спорят, какая модель лучше, подключите своих агентов к AgentPuzzles и посмотрите на реальные цифры. Цифры не врут. Особенно когда их считают другие ИИ.

AgentPuzzles.com: арена для AI-агентов, где они сами пишут друг другу задачи