Когда выйдет Qwen 3.5?

Официального анонса на 16.02.2026 еще нет, но релиз ожидается в ближайшие дни, вероятно перед китайским Новым годом.

Какие требования к железу у Qwen 3.5?

По слухам, полная версия потребует 80+ GB VRAM для FP16 инференса. Рекомендуем квантованные версии (GGUF/GPTQ) для домашнего использования.

Где скачать Qwen 3.5 в день релиза?

На Hugging Face в репозитории Qwen. Используйте huggingface-cli с флагом --resume-download для устойчивого скачивания.

Чем Qwen 3.5 лучше Qwen3?

Ожидается архитектура MoE, контекст 128K+, встроенная мультимодальность (текст, изображения, аудио), улучшенное понимание кода.

Qwen 3.5: релиз модели Alibaba 16.02.2026, скачать, архитектура, тесты

Тишина перед бурей: почему Alibaba молчит про Qwen 3.5

На календаре 16 февраля 2026 года. До китайского Нового года - рукой подать. А в лабораториях Alibaba Cloud - тишина. Странная тишина для компании, которая обычно шумит о каждом обновлении своих моделей.

Но в этой тишине есть напряжение. Как перед грозой.

Инсайдеры шепчут о Qwen 3.5. Официально - ноль информации. Неофициально - слухи ходят по GitHub, обсуждения в китайских научных чатах, утекшие бенчмарки. Все ждут релиза, который, по логике вещей, должен случиться вот-вот. Потому что выпускать крупное обновление в канун праздника - это по-китайски. Символично и эффектно.

Важный момент: на 16.02.2026 официального анонса Qwen 3.5 еще нет. Все данные ниже - сборная солянка из утекшей информации, анализа предыдущих релизов и экспертных предположений.

Что мы знаем наверняка (или почти наверняка)

Давайте отделим факты от слухов. Начнем с того, что уже можно считать почти подтвержденным:

Архитектура MoE (Mixture of Experts) - это не вопрос "если", а вопрос "как реализовано". После успеха Qwen3-235B с плотной архитектурой, переход на MoE выглядит логичным шагом для масштабирования.
Контекст минимум 128K токенов, с возможностью расширения до 1M через RoPE-интерполяцию. Потому что 32K в 2026 году - это уже смешно.
Поддержка мультимодальности из коробки. Не как отдельная модель вроде Qwen-Image-2512, а как единая архитектура. Текст, изображения, аудио, видео - все в одном.
Улучшенное понимание кода. После успеха Qwen Coder Next как бизнес-агента, эта компонента станет ключевой.

Но вот что интересно: слухи говорят о чем-то большем, чем просто техническое обновление.

Главный вопрос: зачем это Alibaba?

Ответ лежит не в технологиях, а в политике. И в деньгах.

Китайские облачные провайдеры - Alibaba Cloud, Tencent Cloud, Baidu Cloud - воюют за корпоративных клиентов. А корпоративные клиенты в 2026 году хотят не просто LLM API. Они хотят:

Полный контроль над данными (никаких западных серверов)
Возможность тонкой настройки под свои нужды
Интеграцию с существующими китайскими экосистемами (WeChat, DingTalk, Feishu)
Цену ниже, чем у OpenAI, но качество - не хуже

Qwen 3.5 - это ответ на все четыре пункта одновременно.

И еще один важный момент: GLM-4.7 Flash от Zhipu AI уже наступает на пятки. Конкуренция заставляет бежать быстрее.

💡

Парадокс: чем лучше становятся opensource-модели вроде Qwen, тем меньше смысла платить $20/месяц за ChatGPT Pro. Особенно если у вас есть пара свободных GPU или доступ к дешевому облаку вроде Oracle Cloud.

Технические спекуляции: во что может вырасти Qwen 3.5

Если анализировать эволюцию линейки Qwen, видна четкая траектория:

Версия	Год	Ключевая фича	Проблема
Qwen-Image-2.0	2024	Мультимодальность	Низкое качество
Qwen3	2025	Качество кода	Только текст
Qwen-Image-Layered	2025	Работа со слоями	Отдельная модель
Qwen 3.5 (ожидается)	2026	Всё в одном	Требует много GPU

Судя по утекшим данным о требованиях к железу, Qwen 3.5 в полной версии будет жрать видеопамяти как не в себя. Речь о 80+ GB VRAM для инференса в FP16. Это не для домашнего RTX 4090.

Но Alibaba умные. Они наверняка выпустят:

Qwen 3.5 Mini - 3-7B параметров, для CPU/мобилок
Qwen 3.5 Base - 14-32B, золотая середина
Qwen 3.5 Pro - 70-200B, для облачных провайдеров
Qwen 3.5 MoE - 500B+, но активируется только часть экспертов

Как скачать Qwen 3.5 в день релиза: инструкция для параноиков

Релиз будет на Hugging Face. Это очевидно. Но вот что неочевидно:

1 Готовим железо заранее

Проверьте свободное место. Полная версия модели с весами в 4-битном квантовании займет 40-50 GB. В 8-битном - все 80. В FP16 - забудьте, если у вас не кластер.

2 Выбираем инструмент для инференса

Варианты на 16.02.2026:

llama.cpp - если ждете поддержку сразу. После истории с ускорением Qwen3 на 30%, команда скорее всего уже готовит патч.
vLLM - для максимальной скорости, если есть мощная GPU
Transformers от Hugging Face - самое простое, но не самое быстрое
TGI (Text Generation Inference) - если нужен production-ready сервер

3 Мониторим правильные каналы

Официальный анонс будет в трех местах:

GitHub репозиторий Qwen - там появится первый коммит
Официальный блог Alibaba Cloud - красивая маркетинговая статья
Hugging Face модельная карточка - собственно, веса

Неофициально - следите за китайскими форумами like Zhihu и WeChat группами. Там информация появляется на часы раньше.

4 Качаем умно, а не быстро

В день релиза сервера Hugging Face будут гореть. Используйте:

huggingface-cli download Qwen/Qwen-3.5-7B --local-dir ./qwen-3.5-7b --resume-download

Ключевое здесь --resume-download. Если соединение порвется - сможете продолжить, а не начинать заново.

Совет от бывалого: сначала качайте квантованные версии (GGUF для llama.cpp или GPTQ для GPU). Они в 2-4 раза меньше и работают почти так же хорошо. Полные веса FP16 оставьте на потом, когда ажиотаж спадет.

Что тестировать в первую очередь

Когда модель скачается, не стоит спрашивать ее про погоду. Проверьте то, что действительно важно:

Понимание контекста 128K - скормите длинный технический документ и задайте вопрос про детали из середины
Мультимодальность - если заявлена. Дайте изображение схемы и попросите объяснить ее
Качество кода на русском - попросите написать скрипт с комментариями на русском языке
Работа с таблицами - CSV в текст, анализ данных
Сравнение с Qwen3-Coder-Next - на одних и тех же задачах

И главное - проверьте стабильность. Модели в день релиза иногда страдают от багов, которые фиксят в первые недели.

Почему это может разочаровать

Давайте смотреть правде в глаза. Каждый крупный релиз сопровождается хайпом, а потом - отрезвлением.

С Qwen 3.5 могут быть такие проблемы:

Требования к железу завышены - если для инференса 7B модели нужно 16GB VRAM вместо 8, это провал
Английский лучше китайского - парадокс, но у Alibaba иногда так получается
Мультимодальность только для картинок - а про аудио и видео забыли
Специфичная тонкая настройка - если для адаптации под свои нужды нужны терабайты данных и месяц обучения

И самая большая опасность: модель может быть технически совершенной, но скучной. Без "характера". Как очень умный, но абсолютно безэмоциональный ассистент.

Мой прогноз на 17 февраля 2026

Релиз случится сегодня или завтра. Точнее - в ближайшие 72 часа. Потому что выпускать после китайского Нового года - значит потерять весь эффект.

Модель будет впечатляющей технически, но сыроватой. Первые 2-3 недели уйдут на исправление критических багов.

Сообщество быстро создаст GGUF версии для llama.cpp, потому что оптимизация под эту платформу уже отлажена.

А через месяц появится Qwen 3.5 Turbo - та же архитектура, но лучше оптимизированная. И вот ее уже стоит качать серьезно.

Пока же - следите за репозиторием. И держите свободное место на диске. Оно вам понадобится.

Qwen 3.5: зачем Alibaba выпускает новую архитектуру в канун китайского Нового года и как скачать первым