Какие модели исчезли из LMSys Arena?

Claude 3.5 Opus, Gemini Ultra 2.0 и GPT-5.1 пропали из рейтинга Chatbot Arena в начале апреля 2026 года.

Почему модели пропали из LMSys Arena?

Причины точно неизвестны, но возможны технические проблемы, коммерческое давление компаний или стратегическое решение избегать публичных сравнений.

Как это повлияет на бенчмарки ИИ?

Доверие к платформам открытого сравнения может упасть, что подтолкнет к разработке новых, более независимых методов оценки моделей.

Opus, Gemini, ChatGPT пропали из LMSys Arena: причины и последствия

Тишина в чат-комнатах: что случилось?

Вчера вечером, 7 апреля 2026 года, десятки тысяч разработчиков обновили страницу LMSys Chatbot Arena и обомлели. Три столпа рейтинга - Claude 3.5 Opus, Gemini Ultra 2.0 и GPT-5.1 - исчезли. Просто испарились из списка доступных для голосования моделей. Никаких анонсов, никаких объяснений. Тишина.

Сообщество взорвалось. Reddit, X, специализированные форумы - везде один вопрос: "Что за чёрт?" LMSys Arena, платформа от UC Berkeley, которая стала де-факто стандартом для сравнения больших языковых моделей, вдруг потеряла своих главных звёзд. Без них рейтинг выглядит как "Лига чемпионов" без "Реала", "Барсы" и "Манчестер Сити". Бессмысленно.

Важно: На момент публикации (8 апреля 2026) официального заявления от LMSys или компаний-разработчиков (Anthropic, Google, OpenAI) нет. Все теории - спекуляции на основе косвенных данных.

Три призрака: Opus, Gemini, ChatGPT

Давайте назовём вещи своими именами. Пропали не просто "модели", а те самые, за которые идут холивары в твиттере. Те, что определяли топ рейтинга последние месяцы.

Claude 3.5 Opus - флагман Anthropic, который славился сложными рассуждениями и почти человеческим пониманием контекста. В Arena он стабильно занимал верхние строчки.
Gemini Ultra 2.0 - ответ Google на GPT-5, вышедший в феврале 2026. После бурной истории провалов и возвращений, эта модель наконец-то показывала выдающиеся результаты в многомодальных задачах.
GPT-5.1 - последняя итерация от OpenAI, которая, несмотря на падение рыночной доли ChatGPT, оставалась эталоном для миллионов пользователей.

Их исчезновение - не технический сбой на час. Прошло уже больше суток. Модели нет. Это решение.

Почему они ушли? Три теории

Я поговорил с десятком инсайдеров из компаний и исследовательских групп. Никто не знает точно. Но есть три правдоподобные версии, каждая страшнее предыдущей.

Теория 1: Коммерческое давление

Anthropic, Google и OpenAI наконец-то осознали, что публичный рейтинг на Arena - это double-edged sword. Когда твоя модель проигрывает в открытом сравнении, это бьёт по репутации и, что важнее, по акциям. Особенно после скандалов с ошибками в бенчмарках, доверие к любому рейтингу стало шатким. Зачем рисковать?

Инсайдер из Google (пожелавший остаться неизвестным) намекнул: "Руководство считает, что Arena искажает восприятие. Пользователи голосуют за более 'разговорчивые' модели, а не за точные". Звучит как оправдание, но доля правды тут есть.

Теория 2: Технические проблемы с масштабированием

LMSys Arena обслуживает миллионы запросов в день. Интеграция с API компаний - сложная штука. Возможно, гиганты просто устали платить за трафик, который генерирует Arena. Или их внутренние системы не выдерживают нагрузки.

Но эта теория хромает. Все три компании одновременно? Слишком удобно. И тогда почему не ушли другие крупные модели, например, Grok-3 или Qwen2.5-72B?

Теория 3: Стратегический уход от открытых сравнений

Самая пугающая версия. Что если гиганты решили, что им больше не нужны независимые бенчмарки? Что они будут оценивать модели сами, на своих наборах данных, и представлять результаты в лучшем свете. Это возврат к эпохе "закрытых садов", где только свои проверяют своих.

Вспомните историю с ретракцией статьи о Llama 4. Meta тогда тоже предпочла тишину. Теперь это может стать трендом.

💡

Контекст: В январе 2026 года исследователи из Qwen опубликовали работу, где показали, что до 30% вопросов в популярных бенчмарках содержат ошибки или двусмысленности. Это заставило многие компании усомниться в объективности публичных сравнений.

А что насчет остальных? Новые короли Arena

Пока гиганты ушли, средний класс LLM празднует. Модели, которые вечно были в тени, внезапно оказались на первых страницах рейтинга.

Модель	Рейтинг до исчезновения	Текущий рейтинг (8.04.2026)
Grok-3 (xAI)	#8	#1
Qwen2.5-72B-Instruct	#12	#2
Llama 3.3 70B	#15	#3

Ирония в том, что Llama 3.3 от Meta, которую многие считали устаревшей, теперь в тройке лидеров. Но это лидерство - пустышка. Без сравнения с Opus или GPT-5.1 рейтинг теряет смысл.

Бенчмарки после скандала: можно ли доверять рейтингам?

Вот главный вопрос. Если компании могут в любой момент забрать свои модели, то зачем нам Arena? Платформа превращается в свалку open-source моделей и второстепенных игроков.

И это проблема не только LMSys. Все открытые бенчмарки теперь под угрозой. Зачем участвовать в гонке, если можно просто выйти из неё, когда становишься неудобным?

Эксперты уже говорят о необходимости децентрализованных, неизменяемых рейтингов на блокчейне (серьёзно). Или о переходе на стандартизированные наборы данных, которые можно запускать локально, как бенчмарк на 672 JSON-вызова. Но это сложно. Очень сложно.

Что делать, если твоя любимая модель исчезла?

Совет банальный, но работающий: не полагайтесь на один источник. Используйте несколько платформ для сравнения. Тестируйте модели на своих задачах. Запускайте свои мини-бенчмарки.

И помните, что за красивыми графиками и рейтингами всегда стоят бизнес-интересы. После этого скандала это стало очевидно как никогда.

Мой прогноз? К концу 2026 года мы увидим раскол. С одной стороны - закрытые экосистемы с своими метриками. С другой - подпольные сообщества, которые будут тайно тестировать утекшие модели, как это было с Llama 3.3 8B. И между ними - мы, пользователи, которые просто хотят понять, какая модель лучше решает их задачи.

P.S. Если вы нашли ошибку в статье или у вас есть инсайдерская информация - пишите. Анонимность гарантируем. И да, проверяйте даты: сегодня 8 апреля 2026 года, и это актуально.

Подписаться на канал

Почему топовые модели Opus, Gemini и ChatGPT пропали из LMSys Arena: разбор скандала и последствия для бенчмарков