Когда-то это была просто игра
Первое апреля 2024 года. Команда исследователей из UC Berkeley запускает сайт, где два чат-бота отвечают на один и тот же вопрос, а обычные пользователи голосуют, чей ответ лучше. Никаких сложных метрик. Никаких бенчмарков с задачками из SAT. Просто человеческий вкус. Ирония судьбы: то, что начиналось как шутка (первые рейтинги моделей появились именно 1 апреля), спустя два года превратилось в бизнес с оценкой в сотни миллионов долларов.
В 2024 году Chatbot Arena была подвалём для гиков. Там тусили разработчики, которые хотели понять, какая opensource-модель реально круче, а не просто красиво расписана в пресс-релизе. Механика простая: ты видишь два ответа, выбираешь лучший, система обновляет рейтинг. Никаких денег, никакой рекламы — только энтузиазм сообщества.
Параллельно с этим OpenAI наращивал обороты. Мы писали о том, как ChatGPT стал маркетплейсом с Instant Checkout, а его аудитория перевалила за 900 млн пользователей. Но для objectivity рейтингов как раз требовался независимый источник — не внутренние тесты OpenAI, а внешний суд.
Главный рейтинг планеты
К концу 2025 года Chatbot Arena стала стандартом де-факто. Если новая модель не попадала в топ-10 Arena — её никто не покупал. Неважно, сколько нафаршированных цифр в презентации. Arena — это рефери, которому верят. Запуск GPT-4.5 Turbo, Claude 4, Gemini 2.5 — все они сопровождались пресс-релизами с цитатами: «Наша модель занимает первое место в Chatbot Arena».
Почему? Потому что выборка — миллионы голосов от разработчиков, студентов, обычных пользователей. Это не лабораторные условия, а реальная работа. Алгоритм Elo (тот же, что в шахматах) превращал хаос оценок в точный рейтинг. И когда рынок ИИ начал фрагментироваться — десятки моделей от стартапов, гигантов, open-source сообществ — Arena стала экосистемой.
Как деньги потекли
История коммерциализации началась не с рекламы, а с API. В середине 2025 года команда Arena запустила платный доступ к raw-данным голосований. Компании, обучающие свои модели, хотели знать не просто свою позицию, а почему пользователи предпочитают один ответ другому. Промпты, стили, длина ответов — всё это можно было вытащить из логов за деньги.
Второй этап — enterprise-тарифы для AI-лабораторий. За $500 тысяч в год ты получаешь приоритетные тесты, эксклюзивные сессии с новыми моделями и отчёты с инсайтами. Такие контракты подписали Google DeepMind, Anthropic, Cohere и, как ни странно, сам OpenAI. Те самые $110 млрд инвестиций не помешали им платить за независимый аудит.
Третий этап — реклама. Звучит банально, но не в виде баннеров. Бренды покупают «спонсорские челленджи»: пользователь голосует, видит логотип спонсора и специальный запрос от их AI-ассистента. Например, авиакомпания просит сравнить ответы на вопрос «Какие места в самолёте самые тихие?». Тонкая интеграция, не раздражающая сообщество.
| Категория дохода | Доля в ARR | Описание |
|---|---|---|
| API доступа к данным | 40% | Raw-логи голосований, метаданные |
| Enterprise-подписки | 35% | Приоритетное тестирование, консультации |
| Спонсорство и реклама | 25% | Брендированные челленджи, интеграции |
К середине 2026 года ARR достиг $100 млн. Сотрудников — всего 24 человека. Почти вся работа автоматизирована. Это самая высокая выручка на сотрудника среди всех AI-инструментов, о которых мы писали. Для сравнения: даже у OpenAI этот показатель ниже.
Парадокс рейтинга
Есть и обратная сторона. Чем влиятельнее становилась Arena, тем больше попыток её обмануть. В конце 2025 года разгорелся скандал: одна компания нанимала людей за денежное вознаграждение, чтобы они голосовали против конкурентов. Arena ввела антифрод-систему на основе анализа поведения — и это стало отдельным продуктом.
Более того, некоторые стартапы начали жаловаться, что Arena «убивает разнообразие». Модели, которые не попадают в топ-10, не получают контрактов. Это приводит к тому, что все оптимизируют ответы под вкусы среднестатистического пользователя Arena, а не под специфические задачи. Свой бунт против «диктатуры рейтингов» мы уже видели — eBay запретил AI-агентов, но здесь рынок сам себя регулирует.
Что дальше?
У команды Arena амбициозные планы. Летом 2026 года они запускают протокол децентрализованных оценок: пользователи могут зарабатывать токены за верифицированные голоса. Не в криптовалютном смысле, а как proof of work для рейтингов. Это должно решить проблему доверия — если каждый голос имеет материальную ценность, фальсифицировать его станет дорого.
Второе направление — мультимодальные рейтинги. Уже сейчас тестируется видео-tab: пользователи сравнивают не тексты, а сгенерированные видеоролики. К концу года планируют запустить аудио-трек.
Кстати, если вспомнить итоги 2025 года, то тогда Arena только начинала монетизацию, и мало кто верил, что краудсорсинговый проект превратится в $100M бизнес. Теперь это proof of concept для всей индустрии: сообщество — это не расходы, а актив.