Тишина перед бурей: почему Alibaba молчит про Qwen 3.5
На календаре 16 февраля 2026 года. До китайского Нового года - рукой подать. А в лабораториях Alibaba Cloud - тишина. Странная тишина для компании, которая обычно шумит о каждом обновлении своих моделей.
Но в этой тишине есть напряжение. Как перед грозой.
Инсайдеры шепчут о Qwen 3.5. Официально - ноль информации. Неофициально - слухи ходят по GitHub, обсуждения в китайских научных чатах, утекшие бенчмарки. Все ждут релиза, который, по логике вещей, должен случиться вот-вот. Потому что выпускать крупное обновление в канун праздника - это по-китайски. Символично и эффектно.
Важный момент: на 16.02.2026 официального анонса Qwen 3.5 еще нет. Все данные ниже - сборная солянка из утекшей информации, анализа предыдущих релизов и экспертных предположений.
Что мы знаем наверняка (или почти наверняка)
Давайте отделим факты от слухов. Начнем с того, что уже можно считать почти подтвержденным:
- Архитектура MoE (Mixture of Experts) - это не вопрос "если", а вопрос "как реализовано". После успеха Qwen3-235B с плотной архитектурой, переход на MoE выглядит логичным шагом для масштабирования.
- Контекст минимум 128K токенов, с возможностью расширения до 1M через RoPE-интерполяцию. Потому что 32K в 2026 году - это уже смешно.
- Поддержка мультимодальности из коробки. Не как отдельная модель вроде Qwen-Image-2512, а как единая архитектура. Текст, изображения, аудио, видео - все в одном.
- Улучшенное понимание кода. После успеха Qwen Coder Next как бизнес-агента, эта компонента станет ключевой.
Но вот что интересно: слухи говорят о чем-то большем, чем просто техническое обновление.
Главный вопрос: зачем это Alibaba?
Ответ лежит не в технологиях, а в политике. И в деньгах.
Китайские облачные провайдеры - Alibaba Cloud, Tencent Cloud, Baidu Cloud - воюют за корпоративных клиентов. А корпоративные клиенты в 2026 году хотят не просто LLM API. Они хотят:
- Полный контроль над данными (никаких западных серверов)
- Возможность тонкой настройки под свои нужды
- Интеграцию с существующими китайскими экосистемами (WeChat, DingTalk, Feishu)
- Цену ниже, чем у OpenAI, но качество - не хуже
Qwen 3.5 - это ответ на все четыре пункта одновременно.
И еще один важный момент: GLM-4.7 Flash от Zhipu AI уже наступает на пятки. Конкуренция заставляет бежать быстрее.
Технические спекуляции: во что может вырасти Qwen 3.5
Если анализировать эволюцию линейки Qwen, видна четкая траектория:
| Версия | Год | Ключевая фича | Проблема |
|---|---|---|---|
| Qwen-Image-2.0 | 2024 | Мультимодальность | Низкое качество |
| Qwen3 | 2025 | Качество кода | Только текст |
| Qwen-Image-Layered | 2025 | Работа со слоями | Отдельная модель |
| Qwen 3.5 (ожидается) | 2026 | Всё в одном | Требует много GPU |
Судя по утекшим данным о требованиях к железу, Qwen 3.5 в полной версии будет жрать видеопамяти как не в себя. Речь о 80+ GB VRAM для инференса в FP16. Это не для домашнего RTX 4090.
Но Alibaba умные. Они наверняка выпустят:
- Qwen 3.5 Mini - 3-7B параметров, для CPU/мобилок
- Qwen 3.5 Base - 14-32B, золотая середина
- Qwen 3.5 Pro - 70-200B, для облачных провайдеров
- Qwen 3.5 MoE - 500B+, но активируется только часть экспертов
Как скачать Qwen 3.5 в день релиза: инструкция для параноиков
Релиз будет на Hugging Face. Это очевидно. Но вот что неочевидно:
1 Готовим железо заранее
Проверьте свободное место. Полная версия модели с весами в 4-битном квантовании займет 40-50 GB. В 8-битном - все 80. В FP16 - забудьте, если у вас не кластер.
2 Выбираем инструмент для инференса
Варианты на 16.02.2026:
- llama.cpp - если ждете поддержку сразу. После истории с ускорением Qwen3 на 30%, команда скорее всего уже готовит патч.
- vLLM - для максимальной скорости, если есть мощная GPU
- Transformers от Hugging Face - самое простое, но не самое быстрое
- TGI (Text Generation Inference) - если нужен production-ready сервер
3 Мониторим правильные каналы
Официальный анонс будет в трех местах:
- GitHub репозиторий Qwen - там появится первый коммит
- Официальный блог Alibaba Cloud - красивая маркетинговая статья
- Hugging Face модельная карточка - собственно, веса
Неофициально - следите за китайскими форумами like Zhihu и WeChat группами. Там информация появляется на часы раньше.
4 Качаем умно, а не быстро
В день релиза сервера Hugging Face будут гореть. Используйте:
huggingface-cli download Qwen/Qwen-3.5-7B --local-dir ./qwen-3.5-7b --resume-download
Ключевое здесь --resume-download. Если соединение порвется - сможете продолжить, а не начинать заново.
Совет от бывалого: сначала качайте квантованные версии (GGUF для llama.cpp или GPTQ для GPU). Они в 2-4 раза меньше и работают почти так же хорошо. Полные веса FP16 оставьте на потом, когда ажиотаж спадет.
Что тестировать в первую очередь
Когда модель скачается, не стоит спрашивать ее про погоду. Проверьте то, что действительно важно:
- Понимание контекста 128K - скормите длинный технический документ и задайте вопрос про детали из середины
- Мультимодальность - если заявлена. Дайте изображение схемы и попросите объяснить ее
- Качество кода на русском - попросите написать скрипт с комментариями на русском языке
- Работа с таблицами - CSV в текст, анализ данных
- Сравнение с Qwen3-Coder-Next - на одних и тех же задачах
И главное - проверьте стабильность. Модели в день релиза иногда страдают от багов, которые фиксят в первые недели.
Почему это может разочаровать
Давайте смотреть правде в глаза. Каждый крупный релиз сопровождается хайпом, а потом - отрезвлением.
С Qwen 3.5 могут быть такие проблемы:
- Требования к железу завышены - если для инференса 7B модели нужно 16GB VRAM вместо 8, это провал
- Английский лучше китайского - парадокс, но у Alibaba иногда так получается
- Мультимодальность только для картинок - а про аудио и видео забыли
- Специфичная тонкая настройка - если для адаптации под свои нужды нужны терабайты данных и месяц обучения
И самая большая опасность: модель может быть технически совершенной, но скучной. Без "характера". Как очень умный, но абсолютно безэмоциональный ассистент.
Мой прогноз на 17 февраля 2026
Релиз случится сегодня или завтра. Точнее - в ближайшие 72 часа. Потому что выпускать после китайского Нового года - значит потерять весь эффект.
Модель будет впечатляющей технически, но сыроватой. Первые 2-3 недели уйдут на исправление критических багов.
Сообщество быстро создаст GGUF версии для llama.cpp, потому что оптимизация под эту платформу уже отлажена.
А через месяц появится Qwen 3.5 Turbo - та же архитектура, но лучше оптимизированная. И вот ее уже стоит качать серьезно.
Пока же - следите за репозиторием. И держите свободное место на диске. Оно вам понадобится.