Картина, которую все привыкли видеть, треснула. В очередном Car wash test, результаты которого обнародовали на днях, модель Qwen3.5 с 27 миллиардами параметров показала более высокий балл, чем OpenAI GPT-5.2. Да, та самая GPT-5.2, которая доминирует в общих рейтингах вроде AlpacaEval. Звучит как анекдот. Но цифры не врут.
Сначала тишина. Потом – взрыв обсуждений в тематических чатах. Как так? Модель, которую можно запустить на паре видеокарт потребительского уровня, переигрывает монстра, чьи аппетиты в вычислениях сравнивают с энергопотреблением небольшого города. Ключ – в природе самого теста.
Что ломает Car wash test и почему это важно?
Car wash – не очередной benchmark на знание столиц или решение математических головоломок. Его создатели пошли другим путем. Они предлагают модели серию связанных, многошаговых вопросов, которые проверяют не энциклопедические знания, а цепкость логического рассуждения и умение отслеживать контекст. Типичный пример: "Если машину помыли вчера, а сегодня шел дождь, она все еще чистая? А если ее запарковали под деревом?".
Большие, натренированные на гигантских датасетах модели вроде GPT-5.2 иногда "проскакивают" такие тесты на автопилоте, давая поверхностный, но грамматически безупречный ответ. Меньшие, но более сфокусированные модели вынуждены "думать" тщательнее. И, судя по всему, Qwen3.5 27B в последней версии (актуальной на февраль 2026 года) думает очень хорошо.
Цифры и контекст: не всё золото, что блестит
Точные результаты пока не опубликованы в рецензируемом журнале, но предварительные данные из источника, близкого к исследователям, показывают преимущество Qwen3.5 27B в 5-7 процентных пунктов по метрике точности ответов в Car wash test. На фоне абсолютного доминирования GPT-5.2 в автоматических тест-сьютах общего назначения – это капля в море. Но капля ярко-красного цвета.
| Модель | Car wash test (предв. оценка) | AlpacaEval 3.0 (примерно) | Параметры |
|---|---|---|---|
| Qwen3.5 27B (актуальная на 24.02.2026) | ~78% | ~75% | 27B |
| GPT-5.2 (последняя версия) | ~71% | ~92% | Оцен. >1.5T |
О чем это говорит? Не о том, что Qwen3.5 вдруг стала умнее. А о том, что архитектурные решения, заложенные в эту модель (возможно, улучшенные механизмы внимания или тренировка на специфических данных для рассуждений), дали ей преимущество в узкой, но важной нише. То самое преимущество, которое можно выжать из правильного квантования и оптимизации под железо.
Нишевые победы против общего доминирования: новая тактика
История с Car wash test – не единственный звоночек. Ранее Qwen3.5-122B уже демонстрировал впечатляющие результаты против меньших моделей OpenAI. Тренд намечается четкий: открытые модели перестают гнаться за тотальным превосходством. Вместо этого они атакуют по флангам, находя уязвимости в арсенале гигантов.
- Специализация: Можно натренировать 30B модель на конкретном типе задач так, что в этой области она будет конкурировать с титанами.
- Эффективность: Запуск и тонкая настройка Qwen3.5 27B сегодня – задача для мощного ПК или небольшого сервера, а не для дата-центра.
- Прозрачность: Ты точно знаешь, что внутри, и можешь адаптировать модель под свои нужды, чего никогда не позволит закрытый API GPT-5.2.
Это напоминает ситуацию с GLM-5-744B – огромная локальная модель, которая удивила многих в творческих задачах. Но здесь масштаб другой: 27B против 744B. Эффект – похожий.
Так что это значит для тебя? (Спойлер: не спеши переезжать)
Если ты – обычный пользователь ChatGPT через веб-интерфейс, для тебя ничего не меняется. GPT-5.2 по-прежнему будет писать тебе более связные письма, креативные сценарии и лучше суммировать документы. Ее общая эрудиция и плавность речи вне конкуренции.
Но если ты разработчик, который собирает систему, требующую надежных, воспроизводимых и дешевых рассуждений в определенном контексте (например, для анализа цепочек событий в логистике или многошаговой проверки условий), этот результат – фонарь в темноте. Он доказывает, что инвестиции в оптимизацию конкретных открытых моделей под свои задачи могут дать отдачу, превышающую возможности даже самых продвинутых, но "черных ящиков".
Не интерпретируй это как конец эры больших закрытых моделей. Это начало эры осознанного выбора. Большие – для широты, специализированные и эффективные – для глубины и контроля. Парадигма "одна модель на всех фронтах" дает трещину.
Что дальше? Жди лавины нишевых benchmarks, подобных Car wash test. Жди, что сообщество начнет выискивать и пестовать модели, которые блестят в этих узких дисциплинах. И, возможно, жди появления гибридных систем, где маршрутизатор будет отправлять запросы не просто в "лучшую модель по версии AlpacaEval", а в ту, которая статистически лучше всего справляется именно с этим типом запроса. Выбор инструмента по задаче – давняя инженерная мудрость. Теперь она доходит и до мира ИИ.
А пока что, если тебе нужна модель для экспериментов с рассуждениями, которая не сожрет весь твой облачный бюджет, Qwen3.5 27B – очень серьезный кандидат. Просто не жди от нее поэм уровня GPT-5.2. И наоборот.