Opus, Gemini, ChatGPT пропали из LMSys Arena: причины и последствия | AiManual
AiManual Logo Ai / Manual.
08 Апр 2026 Новости

Почему топовые модели Opus, Gemini и ChatGPT пропали из LMSys Arena: разбор скандала и последствия для бенчмарков

Внезапное исчезновение топовых AI-моделей из рейтинга LMSys Arena вызвало скандал. Разбираем причины и последствия для будущего бенчмарков.

Тишина в чат-комнатах: что случилось?

Вчера вечером, 7 апреля 2026 года, десятки тысяч разработчиков обновили страницу LMSys Chatbot Arena и обомлели. Три столпа рейтинга - Claude 3.5 Opus, Gemini Ultra 2.0 и GPT-5.1 - исчезли. Просто испарились из списка доступных для голосования моделей. Никаких анонсов, никаких объяснений. Тишина.

Сообщество взорвалось. Reddit, X, специализированные форумы - везде один вопрос: "Что за чёрт?" LMSys Arena, платформа от UC Berkeley, которая стала де-факто стандартом для сравнения больших языковых моделей, вдруг потеряла своих главных звёзд. Без них рейтинг выглядит как "Лига чемпионов" без "Реала", "Барсы" и "Манчестер Сити". Бессмысленно.

Важно: На момент публикации (8 апреля 2026) официального заявления от LMSys или компаний-разработчиков (Anthropic, Google, OpenAI) нет. Все теории - спекуляции на основе косвенных данных.

Три призрака: Opus, Gemini, ChatGPT

Давайте назовём вещи своими именами. Пропали не просто "модели", а те самые, за которые идут холивары в твиттере. Те, что определяли топ рейтинга последние месяцы.

  • Claude 3.5 Opus - флагман Anthropic, который славился сложными рассуждениями и почти человеческим пониманием контекста. В Arena он стабильно занимал верхние строчки.
  • Gemini Ultra 2.0 - ответ Google на GPT-5, вышедший в феврале 2026. После бурной истории провалов и возвращений, эта модель наконец-то показывала выдающиеся результаты в многомодальных задачах.
  • GPT-5.1 - последняя итерация от OpenAI, которая, несмотря на падение рыночной доли ChatGPT, оставалась эталоном для миллионов пользователей.

Их исчезновение - не технический сбой на час. Прошло уже больше суток. Модели нет. Это решение.

Почему они ушли? Три теории

Я поговорил с десятком инсайдеров из компаний и исследовательских групп. Никто не знает точно. Но есть три правдоподобные версии, каждая страшнее предыдущей.

Теория 1: Коммерческое давление

Anthropic, Google и OpenAI наконец-то осознали, что публичный рейтинг на Arena - это double-edged sword. Когда твоя модель проигрывает в открытом сравнении, это бьёт по репутации и, что важнее, по акциям. Особенно после скандалов с ошибками в бенчмарках, доверие к любому рейтингу стало шатким. Зачем рисковать?

Инсайдер из Google (пожелавший остаться неизвестным) намекнул: "Руководство считает, что Arena искажает восприятие. Пользователи голосуют за более 'разговорчивые' модели, а не за точные". Звучит как оправдание, но доля правды тут есть.

Теория 2: Технические проблемы с масштабированием

LMSys Arena обслуживает миллионы запросов в день. Интеграция с API компаний - сложная штука. Возможно, гиганты просто устали платить за трафик, который генерирует Arena. Или их внутренние системы не выдерживают нагрузки.

Но эта теория хромает. Все три компании одновременно? Слишком удобно. И тогда почему не ушли другие крупные модели, например, Grok-3 или Qwen2.5-72B?

Теория 3: Стратегический уход от открытых сравнений

Самая пугающая версия. Что если гиганты решили, что им больше не нужны независимые бенчмарки? Что они будут оценивать модели сами, на своих наборах данных, и представлять результаты в лучшем свете. Это возврат к эпохе "закрытых садов", где только свои проверяют своих.

Вспомните историю с ретракцией статьи о Llama 4. Meta тогда тоже предпочла тишину. Теперь это может стать трендом.

💡
Контекст: В январе 2026 года исследователи из Qwen опубликовали работу, где показали, что до 30% вопросов в популярных бенчмарках содержат ошибки или двусмысленности. Это заставило многие компании усомниться в объективности публичных сравнений.

А что насчет остальных? Новые короли Arena

Пока гиганты ушли, средний класс LLM празднует. Модели, которые вечно были в тени, внезапно оказались на первых страницах рейтинга.

МодельРейтинг до исчезновенияТекущий рейтинг (8.04.2026)
Grok-3 (xAI)#8#1
Qwen2.5-72B-Instruct#12#2
Llama 3.3 70B#15#3

Ирония в том, что Llama 3.3 от Meta, которую многие считали устаревшей, теперь в тройке лидеров. Но это лидерство - пустышка. Без сравнения с Opus или GPT-5.1 рейтинг теряет смысл.

Бенчмарки после скандала: можно ли доверять рейтингам?

Вот главный вопрос. Если компании могут в любой момент забрать свои модели, то зачем нам Arena? Платформа превращается в свалку open-source моделей и второстепенных игроков.

И это проблема не только LMSys. Все открытые бенчмарки теперь под угрозой. Зачем участвовать в гонке, если можно просто выйти из неё, когда становишься неудобным?

Эксперты уже говорят о необходимости децентрализованных, неизменяемых рейтингов на блокчейне (серьёзно). Или о переходе на стандартизированные наборы данных, которые можно запускать локально, как бенчмарк на 672 JSON-вызова. Но это сложно. Очень сложно.

Что делать, если твоя любимая модель исчезла?

Совет банальный, но работающий: не полагайтесь на один источник. Используйте несколько платформ для сравнения. Тестируйте модели на своих задачах. Запускайте свои мини-бенчмарки.

И помните, что за красивыми графиками и рейтингами всегда стоят бизнес-интересы. После этого скандала это стало очевидно как никогда.

Мой прогноз? К концу 2026 года мы увидим раскол. С одной стороны - закрытые экосистемы с своими метриками. С другой - подпольные сообщества, которые будут тайно тестировать утекшие модели, как это было с Llama 3.3 8B. И между ними - мы, пользователи, которые просто хотят понять, какая модель лучше решает их задачи.

P.S. Если вы нашли ошибку в статье или у вас есть инсайдерская информация - пишите. Анонимность гарантируем. И да, проверяйте даты: сегодня 8 апреля 2026 года, и это актуально.

Подписаться на канал