Патч-культура умерла. Да здравствует нативная архитектура
Еще в 2024 году мы собирали мультимодальные модели как конструктор: берешь текстовую LLM, прикручиваешь к ней CLIP-энкодер, добавляешь проекционный слой - и вот уже модель "видит". Это называлось Vision-Language моделями (VL). Работало криво, но работало. В 2025 году это стало выглядеть как попытка собрать спорткар из запчастей от трактора.
Qwen 3.5 от Alibaba пришел не просто с обновлением. Он пришел с архитектурным манифестом: мультимодальность должна быть нативной или ее не должно быть вообще.
Нативная архитектура в Qwen 3.5 означает, что визуальные и текстовые данные обрабатываются единым трансформером с самого начала обучения. Никаких отдельных энкодеров, никаких проекционных слоев-костылей.
Что не так со старыми VL-моделями? (Практически все)
Вспомните любой из старых VL-гибридов. Тот же Qwen3 VL с его галлюцинациями в tool-calls - классический пример архитектурного диссонанса. Текстовая часть модели пыталась работать с визуальными фичами, которые были ей по сути чужими. Результат? Модель "видела" то, чего не было.
Проблема в фундаменте. VL-архитектура предполагает, что можно взять модель, обученную на тексте, и научить ее понимать изображения через дополнительный интерфейс. Это как пытаться научить собаку говорить, привязав к ее лапе синтезатор речи. Технически возможно, но когнитивной связи ноль.
| Архитектурный подход | Задержка inference | Точность VQA | Потребление памяти |
|---|---|---|---|
| Традиционные VL-модели (2024) | 350-500 мс | 68-72% | Высокое |
| Qwen 3.5 (нативная, 2026) | 120-180 мс | 89-92% | Оптимизировано |
| Гибридные системы (Gemini-style) | 200-300 мс | 78-85% | Очень высокое |
Как Qwen 3.5 переваривает изображения без тошноты
Секрет в токенизации. Старые модели резали изображение на патчи, конвертировали их в эмбеддинги через ViT, потом пытались скормить это текстовому трансформеру. Qwen 3.5 использует единый процесс токенизации для всего: текста, изображений, даже схем и диаграмм.
Представьте разницу: раньше у вас был французский переводчик для текста и китайский для изображений. Они общались через третьего переводчика с огромными потерями. Теперь есть один полиглот, который с рождения говорит на всех языках сразу.
А что с генерацией? Неужели рисует лучше Qwen-Image?
Вот здесь начинается самое интересное. Qwen 3.5 - не генеративная модель в классическом понимании. Она не создает изображения с нуля как Qwen-Image-2512. Вместо этого она переосмысливает саму задачу.
Нужна новая иконка для приложения? Qwen 3.5 не будет генерировать пиксели. Она проанализирует существующий дизайн-систему, поймет контекст использования и предложит конкретные правки к SVG. Это другой уровень абстракции.
Для сырой генерации изображений по-прежнему нужны специализированные модели. Но для всего остального - анализа, модификации, понимания контекста - нативная архитектура бьет VL-подход по всем фронтам.
Проблема размера: 397B параметров - это нормально?
Давайте посмотрим правде в глаза: Qwen 3.5 Plus с его 397 миллиардами параметров - это монстр, который не влезет в ваш домашний ПК. Но здесь кроется важный нюанс.
Нативная архитектура позволяет лучше масштабироваться. VL-модели росли как раковая опухоль: добавляли все новые и новые модули, каждый со своей логикой и overhead. Qwen 3.5 растет органично - увеличиваешь трансформер, получаешь улучшение по всем модальностям сразу.
И да, есть оптимизации. Тот же пулл-реквест для llama.cpp, который ускорил Qwen3 Next на 30%, работает и с новой архитектурой. Разработчики уже адаптируют инструменты под нативный подход.
Внимание разработчикам: миграция с VL-архитектур на нативную потребует переписывания пайплайнов. API остаются совместимыми, но внутренняя логика изменилась фундаментально. Готовьтесь к рефакторингу.
Китайский Новый год и стратегия Alibaba: почему именно сейчас?
Выпуск Qwen 3.5 в канун китайского Нового года - не совпадение. Это стратегический ход, о котором мы писали еще в декабре. Alibaba дает сообществу праздничный подарок и одновременно устанавливает новую планку.
К февралю 2026 года становится очевидным: следующий год в мультимодальном ИИ будет годом нативных архитектур. Кто не перейдет - останется с устаревшими VL-решениями, которые будут выглядеть как PHP в мире Rust.
Что делать с вашими старыми VL-моделями?
Паниковать не нужно. Но планировать миграцию - обязательно. Вот практический план:
- Проанализируйте, где вы используете VL-модели. Если это простые задачи классификации - можно подождать.
- Для сложных мультимодальных пайплайнов начинайте эксперименты с Qwen 3.5 уже сейчас. API стабильны, документация улучшается.
- Пересмотрите ваши датасеты. Нативные модели требуют другого подхода к разметке - больше акцента на кросс-модальные связи.
- Изучите опыт дистилляции знаний из Gemini в Qwen. Те же принципы работают и для новой архитектуры.
Будущее уже здесь, но распределено неравномерно
Qwen 3.5 - не первая нативная мультимодальная модель. Но первая, которая действительно работает. Не как proof-of-concept, а как production-решение.
В ближайшие 6-12 месяцев ожидайте волну подражаний. Meta анонсирует нативную версию Llama, Google пересмотрит Gemini, Microsoft будет дорабатывать Phi. Но Alibaba уже захватила психологическое преимущество.
Конец эпохи VL-моделей? Пока нет. Их еще будут использовать для нишевых задач, legacy-систем, образовательных проектов. Но для всего нового, для всего ambitious - выбор очевиден. Нативная архитектура или технический долг.
Совет на 2026 год: не инвестируйте в дообучение старых VL-моделей. Все ресурсы - в освоение нативных архитектур. Через год разница в производительности будет измеряться не процентами, а кратно.
И да, присмотритесь к техникам работы с деталями без увеличения изображений. В мире нативных моделей это становится критически важным навыком.