Тени на арене
LMSys Chatbot Arena — это не просто бенчмарк. Это цифровой Колизей, где модели сражаются за голоса пользователей в слепых тестах. Здесь репутация важнее маркетинговых презентаций. И вот на этой арене в начале февраля 2026 года появились два новых гладиатора с загадочными именами: Karp-001 и Pisces-llm.
Никаких официальных анонсов. Никаких технических бумаг. Только название модели в списке и возможность задать ей вопрос. Классическая тактика «выпусти-посмотри-что-будет» от крупных игроков, которые не хотят рисковать репутацией преждевременным релизом.
Важно: на момент публикации (07.02.2026) обе модели остаются неофициальными. Ни Alibaba (Qwen), ни ByteDance не подтвердили их принадлежность. Вся информация собрана из косвенных данных и анализа поведения моделей в Arena.
Karp-001: призрак из лабораторий Qwen
Имя «Karp» — не случайность. В экосистеме Qwen уже есть модель под названием «Qwen2.5-Coder», чей внутренний код в репозиториях иногда упоминается как «karp». Стиль ответов Karp-001 выдает родство с Qwen2.5-32B-Instruct: та же структура, похожие формулировки в рассуждениях, знакомый подход к решению кодинг-задач.
Но есть и отличия. Пользователи отмечают, что Karp-001 в некоторых тестах на логику и планирование ведет себя чуть увереннее, чем публичная Qwen2.5. Меньше «возможно» и «вероятно», больше прямых утверждений. Это наводит на мысль о доработке механизмов reasoning или использовании более продвинутой техники RLHF.
Pisces-llm: акула от ByteDance?
С Pisces-llm все еще интереснее. ByteDance уже имеет свою линейку моделей Seed (последняя известная — Seed-LLaMA 2.0), но название «Pisces» (Рыбы) в их контексте ранее не встречалось. Анализ показывает, что модель демонстрирует сильные стороны в креативных задачах: генерация сценариев, сочинение стихов, диалоги в ролевом стиле.
Это логично. ByteDance — компания, живущая контентом (TikTok, Douyin). Им нужна модель, которая не просто отвечает на вопросы, а генерирует вовлекающий, виральный контент. Pisces-llm в тестах выдает более «разговорные», эмоционально окрашенные ответы по сравнению с тем же GPT-4o или Claude 3.5 Sonnet.
Но есть и слабое место — точность в фактологических и математических запросах. Здесь Pisces иногда «плавает», что подтверждает гипотезу о ее специализации на креативе, а не на строгом reasoning.
Зачем все это?
Почему гиганты вбрасывают модели под псевдонимами? Ответ прост: реальные пользователи — лучшие тестировщики.
- Нулевые ожидания. Если модель названа «Qwen2.7-Beta» и плохо справляется, это удар по репутации. Если «Karp-001» — это просто «какая-то модель», которую можно в любой момент удалить.
- Сбор данных о промптах. Arena — это золотая жила реальных, неотфильтрованных запросов пользователей. Идеальный датасет для следующего раунда дообучения.
- Оценка конкурентного поля. Как модель ведет себя против текущих лидеров в слепых боях? Где ее слабые места? Это ценнее любых внутренних бенчмарков.
Эта тактика становится трендом. Ранее похожим образом на арене появлялись и другие «темные лошадки», чьи результаты потом влияли на финальный дизайн публичных релизов. Гонка сместилась из плоскости «у кого больше параметров» в плоскость «у кого лучше data flywheel» — цикл обратной связи от реального использования. Об этом тренде мы подробно писали в статье «Бенчмарки LLM: гонка за качеством закончилась».
Что это значит для нас?
Появление Karp и Pisces — хороший знак для всего сообщества. Это значит, что большие компании все еще экспериментируют, а не просто оттачивают маркетинг вокруг одного флагмана. Новые архитектурные идеи, подходы к alignment, техники сжатия — все это сначала может всплыть в таких «теневых» моделях.
Для энтузиастов локального запуска это также сигнал: скоро на горизонте появятся новые мощные модели, которые, возможно, превзойдут текущих фаворитов вроде компактных чемпионов до 8B параметров. Вопрос только в том, когда и в каком виде они выйдут из тени.
Совет: если вы активно тестируете модели на Arena, обращайте внимание не только на известные имена. Пробуйте эти «анонимные» модели в своих типичных сценариях. Их поведение сегодня может стать стандартом завтра. А ваши промпты — часть датасета для следующего прорыва.
И последнее. Не ждите, что Karp-001 или Pisces-llm появятся на Hugging Face на следующей неделе. Они могут исчезнуть так же внезапно, как появились. Или трансформироваться в официальный релиз под другим именем через несколько месяцев. В мире LLM, где скорость изменений измеряется неделями, такие тени на арене — самое честное отражение того, что готовится за кулисами.
Пока OpenAI и Anthropic спорят о безопасности супер-интеллекта, Qwen и ByteDance тихо тестируют свои новые инструменты в условиях, максимально приближенных к бою. И в этом есть своя, непарадная, прагматичная красота.