Chatbot Arena $100M ARR: история коммерциализации AI-бенчмарка

Когда-то это была просто игра

Первое апреля 2024 года. Команда исследователей из UC Berkeley запускает сайт, где два чат-бота отвечают на один и тот же вопрос, а обычные пользователи голосуют, чей ответ лучше. Никаких сложных метрик. Никаких бенчмарков с задачками из SAT. Просто человеческий вкус. Ирония судьбы: то, что начиналось как шутка (первые рейтинги моделей появились именно 1 апреля), спустя два года превратилось в бизнес с оценкой в сотни миллионов долларов.

В 2024 году Chatbot Arena была подвалём для гиков. Там тусили разработчики, которые хотели понять, какая opensource-модель реально круче, а не просто красиво расписана в пресс-релизе. Механика простая: ты видишь два ответа, выбираешь лучший, система обновляет рейтинг. Никаких денег, никакой рекламы — только энтузиазм сообщества.

💡

Ключевое отличие Arena от других бенчмарков — человеческие предпочтения, а не автоматические тесты. MMLU и HumanEval можно взломать подгонкой данных, но обмануть 2 миллиона голосов реальных людей почти невозможно.

Параллельно с этим OpenAI наращивал обороты. Мы писали о том, как ChatGPT стал маркетплейсом с Instant Checkout, а его аудитория перевалила за 900 млн пользователей. Но для objectivity рейтингов как раз требовался независимый источник — не внутренние тесты OpenAI, а внешний суд.

Главный рейтинг планеты

К концу 2025 года Chatbot Arena стала стандартом де-факто. Если новая модель не попадала в топ-10 Arena — её никто не покупал. Неважно, сколько нафаршированных цифр в презентации. Arena — это рефери, которому верят. Запуск GPT-4.5 Turbo, Claude 4, Gemini 2.5 — все они сопровождались пресс-релизами с цитатами: «Наша модель занимает первое место в Chatbot Arena».

Почему? Потому что выборка — миллионы голосов от разработчиков, студентов, обычных пользователей. Это не лабораторные условия, а реальная работа. Алгоритм Elo (тот же, что в шахматах) превращал хаос оценок в точный рейтинг. И когда рынок ИИ начал фрагментироваться — десятки моделей от стартапов, гигантов, open-source сообществ — Arena стала экосистемой.

⚠️

Но был нюанс. 2,5 миллиона уникальных пользователей в месяц — это дорого. Сервера для работы LLM, хранение логов, защита от накруток. Энтузиазм не оплачивает счета за GPU от Nvidia.

Как деньги потекли

История коммерциализации началась не с рекламы, а с API. В середине 2025 года команда Arena запустила платный доступ к raw-данным голосований. Компании, обучающие свои модели, хотели знать не просто свою позицию, а почему пользователи предпочитают один ответ другому. Промпты, стили, длина ответов — всё это можно было вытащить из логов за деньги.

Второй этап — enterprise-тарифы для AI-лабораторий. За $500 тысяч в год ты получаешь приоритетные тесты, эксклюзивные сессии с новыми моделями и отчёты с инсайтами. Такие контракты подписали Google DeepMind, Anthropic, Cohere и, как ни странно, сам OpenAI. Те самые $110 млрд инвестиций не помешали им платить за независимый аудит.

Третий этап — реклама. Звучит банально, но не в виде баннеров. Бренды покупают «спонсорские челленджи»: пользователь голосует, видит логотип спонсора и специальный запрос от их AI-ассистента. Например, авиакомпания просит сравнить ответы на вопрос «Какие места в самолёте самые тихие?». Тонкая интеграция, не раздражающая сообщество.

Категория дохода	Доля в ARR	Описание
API доступа к данным	40%	Raw-логи голосований, метаданные
Enterprise-подписки	35%	Приоритетное тестирование, консультации
Спонсорство и реклама	25%	Брендированные челленджи, интеграции

К середине 2026 года ARR достиг $100 млн. Сотрудников — всего 24 человека. Почти вся работа автоматизирована. Это самая высокая выручка на сотрудника среди всех AI-инструментов, о которых мы писали. Для сравнения: даже у OpenAI этот показатель ниже.

Парадокс рейтинга

Есть и обратная сторона. Чем влиятельнее становилась Arena, тем больше попыток её обмануть. В конце 2025 года разгорелся скандал: одна компания нанимала людей за денежное вознаграждение, чтобы они голосовали против конкурентов. Arena ввела антифрод-систему на основе анализа поведения — и это стало отдельным продуктом.

Более того, некоторые стартапы начали жаловаться, что Arena «убивает разнообразие». Модели, которые не попадают в топ-10, не получают контрактов. Это приводит к тому, что все оптимизируют ответы под вкусы среднестатистического пользователя Arena, а не под специфические задачи. Свой бунт против «диктатуры рейтингов» мы уже видели — eBay запретил AI-агентов, но здесь рынок сам себя регулирует.

Что дальше?

У команды Arena амбициозные планы. Летом 2026 года они запускают протокол децентрализованных оценок: пользователи могут зарабатывать токены за верифицированные голоса. Не в криптовалютном смысле, а как proof of work для рейтингов. Это должно решить проблему доверия — если каждый голос имеет материальную ценность, фальсифицировать его станет дорого.

Второе направление — мультимодальные рейтинги. Уже сейчас тестируется видео-tab: пользователи сравнивают не тексты, а сгенерированные видеоролики. К концу года планируют запустить аудио-трек.

💡

История Arena — это история о том, что в эпоху, когда каждый объявляет свою модель «лучшей», независимый арбитр стоит дороже любого рекламного слогана. И что иногда самый прибыльный бизнес вырастает не из плана монетизации, а из искреннего желания сделать сравнение честным.

Кстати, если вспомнить итоги 2025 года, то тогда Arena только начинала монетизацию, и мало кто верил, что краудсорсинговый проект превратится в $100M бизнес. Теперь это proof of concept для всей индустрии: сообщество — это не расходы, а актив.

Подписаться на канал

Как Chatbot Arena превратилась в бизнес с доходом $100M: история коммерциализации AI-бенчмарка

Когда-то это была просто игра

Главный рейтинг планеты

Как деньги потекли

Парадокс рейтинга

Что дальше?

Подписывайтесь на наш канал!