Karp-001 и Pisces-llm: скрытые модели Qwen и ByteDance на LMSys Arena

Тени на арене

LMSys Chatbot Arena — это не просто бенчмарк. Это цифровой Колизей, где модели сражаются за голоса пользователей в слепых тестах. Здесь репутация важнее маркетинговых презентаций. И вот на этой арене в начале февраля 2026 года появились два новых гладиатора с загадочными именами: Karp-001 и Pisces-llm.

Никаких официальных анонсов. Никаких технических бумаг. Только название модели в списке и возможность задать ей вопрос. Классическая тактика «выпусти-посмотри-что-будет» от крупных игроков, которые не хотят рисковать репутацией преждевременным релизом.

Важно: на момент публикации (07.02.2026) обе модели остаются неофициальными. Ни Alibaba (Qwen), ни ByteDance не подтвердили их принадлежность. Вся информация собрана из косвенных данных и анализа поведения моделей в Arena.

Karp-001: призрак из лабораторий Qwen

Имя «Karp» — не случайность. В экосистеме Qwen уже есть модель под названием «Qwen2.5-Coder», чей внутренний код в репозиториях иногда упоминается как «karp». Стиль ответов Karp-001 выдает родство с Qwen2.5-32B-Instruct: та же структура, похожие формулировки в рассуждениях, знакомый подход к решению кодинг-задач.

Но есть и отличия. Пользователи отмечают, что Karp-001 в некоторых тестах на логику и планирование ведет себя чуть увереннее, чем публичная Qwen2.5. Меньше «возможно» и «вероятно», больше прямых утверждений. Это наводит на мысль о доработке механизмов reasoning или использовании более продвинутой техники RLHF.

💡

Контекст: Qwen не впервые тестирует модели инкогнито. Подобная тактика позволяла им дорабатывать Qwen2.5-Coder перед релизом, что в итоге дало одну из сильнейших моделей для кода в своем классе. Подробнее в нашем обзоре локальных кодеров.

Pisces-llm: акула от ByteDance?

С Pisces-llm все еще интереснее. ByteDance уже имеет свою линейку моделей Seed (последняя известная — Seed-LLaMA 2.0), но название «Pisces» (Рыбы) в их контексте ранее не встречалось. Анализ показывает, что модель демонстрирует сильные стороны в креативных задачах: генерация сценариев, сочинение стихов, диалоги в ролевом стиле.

Это логично. ByteDance — компания, живущая контентом (TikTok, Douyin). Им нужна модель, которая не просто отвечает на вопросы, а генерирует вовлекающий, виральный контент. Pisces-llm в тестах выдает более «разговорные», эмоционально окрашенные ответы по сравнению с тем же GPT-4o или Claude 3.5 Sonnet.

Но есть и слабое место — точность в фактологических и математических запросах. Здесь Pisces иногда «плавает», что подтверждает гипотезу о ее специализации на креативе, а не на строгом reasoning.

Зачем все это?

Почему гиганты вбрасывают модели под псевдонимами? Ответ прост: реальные пользователи — лучшие тестировщики.

Нулевые ожидания. Если модель названа «Qwen2.7-Beta» и плохо справляется, это удар по репутации. Если «Karp-001» — это просто «какая-то модель», которую можно в любой момент удалить.
Сбор данных о промптах. Arena — это золотая жила реальных, неотфильтрованных запросов пользователей. Идеальный датасет для следующего раунда дообучения.
Оценка конкурентного поля. Как модель ведет себя против текущих лидеров в слепых боях? Где ее слабые места? Это ценнее любых внутренних бенчмарков.

Эта тактика становится трендом. Ранее похожим образом на арене появлялись и другие «темные лошадки», чьи результаты потом влияли на финальный дизайн публичных релизов. Гонка сместилась из плоскости «у кого больше параметров» в плоскость «у кого лучше data flywheel» — цикл обратной связи от реального использования. Об этом тренде мы подробно писали в статье «Бенчмарки LLM: гонка за качеством закончилась».

Что это значит для нас?

Появление Karp и Pisces — хороший знак для всего сообщества. Это значит, что большие компании все еще экспериментируют, а не просто оттачивают маркетинг вокруг одного флагмана. Новые архитектурные идеи, подходы к alignment, техники сжатия — все это сначала может всплыть в таких «теневых» моделях.

Для энтузиастов локального запуска это также сигнал: скоро на горизонте появятся новые мощные модели, которые, возможно, превзойдут текущих фаворитов вроде компактных чемпионов до 8B параметров. Вопрос только в том, когда и в каком виде они выйдут из тени.

Совет: если вы активно тестируете модели на Arena, обращайте внимание не только на известные имена. Пробуйте эти «анонимные» модели в своих типичных сценариях. Их поведение сегодня может стать стандартом завтра. А ваши промпты — часть датасета для следующего прорыва.

И последнее. Не ждите, что Karp-001 или Pisces-llm появятся на Hugging Face на следующей неделе. Они могут исчезнуть так же внезапно, как появились. Или трансформироваться в официальный релиз под другим именем через несколько месяцев. В мире LLM, где скорость изменений измеряется неделями, такие тени на арене — самое честное отражение того, что готовится за кулисами.

Пока OpenAI и Anthropic спорят о безопасности супер-интеллекта, Qwen и ByteDance тихо тестируют свои новые инструменты в условиях, максимально приближенных к бою. И в этом есть своя, непарадная, прагматичная красота.

Karp-001 и Pisces-llm: Qwen и ByteDance тестируют новые модели в тени

Тени на арене

Karp-001: призрак из лабораторий Qwen

Pisces-llm: акула от ByteDance?

Зачем все это?

Что это значит для нас?

Подписывайтесь на наш канал!