AgentPuzzles API: сравнительное тестирование AI-агентов на логических задачах | AiManual
AiManual Logo Ai / Manual.
19 Фев 2026 Инструмент

AgentPuzzles.com: арена для AI-агентов, где они сами пишут друг другу задачи

Обзор AgentPuzzles.com — платформы с API для тестирования AI-агентов на головоломках, логике и CAPTCHA. Сравнение моделей, примеры использования, интеграция.

Когда тестовые задания пишут сами испытуемые

Стандартный сценарий: вы берете готовый бенчмарк, подключаете своего агента и смотрите на процент успеха. Скучно. Предсказуемо. И главное — не отражает реальность, где задачи придумывают живые люди, а не академические комитеты.

AgentPuzzles.com пошел другим путем. Это не просто очередная платформа для тестирования — это арена, где агенты соревнуются друг с другом, создавая задачи для соперников. Получается замкнутый круг: чем умнее агент, тем сложнее головоломки он генерирует для конкурентов.

На 19.02.2026 платформа работает в бета-режиме, но уже поддерживает GPT-5.2, Claude Sonnet 4.5, Gemini Ultra 2.5 и все популярные open-source модели. API полностью публичное — никаких инвайтов, просто берите и используйте.

Как это работает: три типа пыток для вашего ИИ

Платформа разделила задачи на три категории, каждая из которых бьет в разные слабые места современных агентов.

Тип задачиЧто проверяетПримерСредний успех (19.02.2026)
Логические головоломкиЦепочки рассуждений, дедукцию"Если А говорит правду, то B лжет. C говорит, что либо A, либо B лжет..."72%
Визуальные CAPTCHAРаспознавание образов, OCRИскаженный текст на фоне шума, перекрывающиеся символы41%
Генерация кода по ограничениямКреативность в рамках правил"Напиши функцию, которая возвращает true, но не использует букву 't'"58%

Самое интересное — каждая задача имеет метаданные: кто ее создал (какая модель), сколько агентов уже пытались решить, среднее время решения. Это превращает тестирование в социальный эксперимент.

API, который не заставляет страдать

Разработчики AgentPuzzles понимают — если интеграция занимает больше 15 минут, ее никто не будет использовать. Поэтому API сделан максимально простым:

  • Один эндпоинт для получения задачи
  • Один эндпоинт для отправки ответа
  • JSON-формат везде
  • Авторизация через API-ключ в заголовке
  • Rate limiting: 100 запросов в час на бесплатном тарифе

Пример получения задачи:

import requests

headers = {
    'X-API-Key': 'ваш_ключ',
    'Content-Type': 'application/json'
}

# Получаем случайную задачу
response = requests.post(
    'https://api.agentpuzzles.com/v1/tasks/next',
    headers=headers,
    json={'category': 'logic', 'difficulty': 'medium'}
)

task = response.json()
print(f"ID задачи: {task['id']}")
print(f"Тип: {task['type']}")
print(f"Вопрос: {task['content']}")
if task.get('image_url'):
    print(f"Изображение: {task['image_url']}")

И отправка ответа:

# Отправляем решение
solution_response = requests.post(
    'https://api.agentpuzzles.com/v1/tasks/submit',
    headers=headers,
    json={
        'task_id': task['id'],
        'solution': 'ваш_ответ',
        'model_name': 'gpt-5.2',
        'reasoning': 'пошаговое_рассуждение'
    }
)

result = solution_response.json()
print(f"Правильно: {result['correct']}")
print(f"Объяснение: {result.get('explanation')}")
💡
Разработчики платформы специально не требуют сложной настройки агента — можно использовать любой клиент для LLM. Главное — правильно сформировать промпт с задачей и обработать ответ. Если ваш агент умеет работать с REST API, интеграция займет 30 минут.

Кто сильнее: GPT-5.2 против Claude Sonnet 4.5

За три месяца работы платформы (декабрь 2025 — февраль 2026) накопилась интересная статистика. Я взял последние 1000 решенных задач и посмотрел, какие модели показывают лучшие результаты.

МодельЛогические задачиCAPTCHAГенерация кодаОбщий успех
Claude Sonnet 4.584%52%71%69%
GPT-5.2 Turbo79%48%65%64%
Gemini Ultra 2.576%45%62%61%
Claude 3.7 Opus81%38%68%62%
Llama 3.3 405B72%42%59%58%

Claude Sonnet 4.5 снова подтверждает репутацию — эта модель стабильно показывает лучшие результаты в задачах, требующих цепочек рассуждений. Интересно, что в ABC-Bench она тоже лидировала, но там проверялись совсем другие навыки.

Визуальные CAPTCHA оказались самым сложным испытанием. Даже лучшие модели ошибаются в каждом втором случае. Разработчики AgentPuzzles специально используют искажения, которые плохо обрабатываются стандартными OCR-библиотеками — нужно именно понимать содержание, а не просто распознавать текст.

Генерация задач: когда ИИ становится садистом

Уникальная фича платформы — режим "Создатель задач". Ваш агент не только решает головоломки, но и придумывает их для других. Алгоритм прост:

  1. Агент получает тему ("логические парадоксы", "математические загадки")
  2. Генерирует задачу с правильным ответом
  3. Платформа проверяет, что задача имеет однозначное решение
  4. Добавляет ее в общую базу

Проблема в том, что агенты слишком умные. Они создают задачи, которые сами же не могут решить. За последний месяц 34% сгенерированных задач оказались нерешаемыми — либо содержали логические противоречия, либо требовали знаний, которых нет у модели.

Совет: если ваш агент будет генерировать задачи, обязательно добавьте проверку на решаемость. Простейший способ — дать той же модели решить созданную задачу и проверить, сходится ли ответ с ожидаемым.

Чем AgentPuzzles отличается от других бенчмарков

На рынке хватает платформ для тестирования ИИ. Но у каждой своя специализация:

  • ART и LLaMA-Gym — для стресс-тестирования в сложных условиях
  • ABC-Bench — для проверки работы с окружением и инфраструктурой
  • SWE-bench — для исправления багов в существующем коде
  • AgentPuzzles — исключительно для логического мышления и нестандартных задач

Главное преимущество AgentPuzzles — динамичность. Задачи постоянно обновляются, причем их создают не люди, а другие агенты. Это значит, что сложность растет вместе с возможностями моделей. То, что было сложным для GPT-4, стало тривиальным для GPT-5.2. Но агенты уже придумали новый уровень сложности.

Интеграция в CI/CD: когда тесты проходят не только код, но и ИИ

Самый практичный сценарий использования — добавить AgentPuzzles в ваш пайплайн тестирования. Каждое обновление агента проходит через серию головоломок. Если процент успеха падает — значит, что-то сломалось.

Пример конфигурации для GitHub Actions:

name: Test AI Agent

on:
  push:
    branches: [ main ]

jobs:
  test-agent:
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v4
    
    - name: Run AgentPuzzles tests
      env:
        API_KEY: ${{ secrets.AGENTPUZZLES_API_KEY }}
      run: |
        python -m pip install requests
        python tests/agent_puzzles.py
        
    - name: Check results
      if: failure()
      run: |
        echo "Agent performance dropped below threshold"
        exit 1

В статье про CI/CD для AI-агентов я подробно разбирал, как настроить автоматическое тестирование. AgentPuzzles идеально вписывается в эту схему — быстрые тесты, четкие метрики, понятные пороги успеха.

Кому нужен AgentPuzzles (спойлер: почти всем)

Платформа не для академических исследований. Она для практиков, которые запускают агентов в продакшн и хотят понять их реальные возможности.

Идеальные пользователи:

  • Разработчики чат-ботов с логикой — если ваш бот должен понимать сложные запросы пользователей
  • Создатели coding assistants — проверка, как агент справляется с нестандартными задачами по генерации кода
  • Команды, внедряющие ИИ в бизнес-процессы — нужно убедиться, что агент не сломается на edge-cases
  • Исследователи, сравнивающие модели — объективные метрики вместо субъективных оценок

Если вы используете несколько моделей через единый API-шлюз вроде AITunnel, AgentPuzzles поможет выбрать оптимальную модель для конкретного типа задач. Не платить за Claude Sonnet 4.5, если для вашего кейса хватает GPT-5.2 Turbo.

Ограничения и подводные камни

Не обольщайтесь — идеальных инструментов не бывает. У AgentPuzzles есть свои проблемы:

  • Нет поддержки мультимодальности — только текст и статические изображения. Видео, аудио, интерактивные элементы не поддерживаются.
  • Слабый мониторинг — базовые метрики есть, но нет детальной аналитики по типам ошибок.
  • Англоязычные задачи — все головоломки на английском. Для неанглоязычных агентов это дополнительная сложность.
  • Нет кастомизации — нельзя загружать свои датасеты или создавать специализированные тесты.

Разработчики обещают исправить большинство проблем к концу марта 2026. Но даже в текущем виде платформа дает больше информации, чем 90% существующих бенчмарков.

Что дальше: эволюция или революция?

Пока все тестируют агентов по отдельности. Следующий шаг — тестирование систем из нескольких агентов, которые работают вместе. Представьте: один агент генерирует задачу, второй ее решает, третий проверяет правильность решения. И все это через AgentPuzzles API.

Уже есть экспериментальная поддержка multi-agent тестов, но она сырая. К лету 2026 обещают полноценный релиз. Если это сработает, мы получим инструмент для тестирования не отдельных моделей, а целых экосистем ИИ.

Мой прогноз: через год подобные платформы станут стандартом де-факто для любой серьезной разработки с агентами. Так же, как сейчас нельзя представить разработку без unit-тестов, скоро нельзя будет представить AI-агента без регулярного тестирования на логических головоломках.

Пока остальные спорят, какая модель лучше, подключите своих агентов к AgentPuzzles и посмотрите на реальные цифры. Цифры не врут. Особенно когда их считают другие ИИ.