Китайская Alibaba снова подливает масла в огонь. Сразу несколько инсайдеров на Reddit и китайских форумах утверждают, что Qwen готовит модель с 27 миллиардами параметров. Цифра неслучайная — это идеальный баланс между качеством и возможностью запуска на одной видеокарте. Пока тишина в официальных каналах, но утечки выглядят слишком детализированными, чтобы быть просто фейком.
Почему 27, а не 30 или 32?
Казалось бы, зачем изобретать велосипед, когда уже есть Qwen3-235B и Qwen3.5-397B. Но эти гиганты требуют кластера видеокарт, а 27B при хорошем квантовании (4-bit) занимает около 14 ГБ видеопамяти. Это уровень RTX 4090, RTX 5080 или даже Apple Silicon с Unified Memory. Прямо сейчас ниша "золотой середины" между мелкими 7-14B и тяжелыми 70-80B практически пустует — если не считать Qwen3-Coder-Next 80B на Strix Halo, но там совсем другой бюджет. 27B может стать тем самым "just works" для энтузиастов.
Важный нюанс: все слухи — это слухи. Никаких коммитов на GitHub, никаких тизеров в блогах Qwen. Но если утечка верна, модель может выйти уже в июне 2026 года.
Что говорят источники?
Первым информацию слил пользователь на китайской платформе Zhihu, известный предыдущими точными прогнозами по датам выхода Qwen2.5 72B и Qwen3.5 0.8B. Он опубликовал скриншот внутренней документации с упоминанием "Qwen-27B-Instruct" и "Qwen-27B-Coder". Кстати, про кодерную версию: возможно, это новый виток развития линейки Qwen Code, которая уже отлично проявила себя в локальных агентах.
Второй инсайд — от разработчика llama.cpp, который намекнул на оптимизации для моделей 25-30B в одном из коммитов. Совпадение? Возможно. Но с учетом того, как Qwen любит использовать архитектурные фишки от своих гигантов (например, аномалия с галлюцинациями у 0.8B), можно ждать сюрпризов.
Железо готовят, а модель?
Последняя тенденция — делать модели, которые влезают в одну карту без шаманства с RPC через Docker. 27B — почти идеальный кандидат. В 6-bit квантовании это ~20 ГБ — уже многовато для игровой карты, но в 4-bit — sweet spot. Если Qwen еще и внедрят свою новую архитектуру MoE (как в 397B), то эффективность может превзойти ожидания.
«27B — это не просто цифра. Это размер, при котором модель начинает реально "думать", а не повторять заученное. Если Qwen сделают ее открытой и с APACHE 2.0 — это будет бомба» — пишет один из модераторов r/LocalLLaMA.
Быть или не быть?
Я ставлю 70 на 30, что модель реальна. Слишком уж логично выглядит эта цифра на фоне последних трендов. Лёгкие модели типа 0.5B удобны для дообучения, но для серьезной работы нужно 20+ миллиардов. DeepSeek уже выпустили V3-32B, Llama 4 молчит — Qwen может перехватить инициативу. А если еще и появится версия 3.6 с улучшенной генерацией кода... В общем, следим за обновлениями на Hugging Face и готовим кошельки для апгрейда GPU.
Совет: если у вас висит старая RTX 3060 12GB — лучше не ждите 27B. А вот владельцы 24-гигабайтных карт могут начинать радоваться. Только не забудьте проверить, что ваша версия CUDA совместима с новыми архитектурами — у Qwen есть привычка внезапно требовать свежие драйверы.