На этой неделе все говорят про Qwen3.5-397B. Потому что это монстр. 397 миллиардов параметров, которые не помещаются ни на одну видеокарту, доступную обычным смертным. Но Alibaba Cloud выпустила модель с открытыми весами - и это меняет правила игры.
Китайский слон в посудной лавке
Qwen3.5-397B-A17B - это не просто обновление. Это заявление. Модель поддерживает 128 тысяч токенов контекста, понимает 52 языка и показывает результаты, которые на некоторых тестах обгоняют GPT-4.5. Да, тот самый GPT-4.5, который пока доступен только в облаке за 0.15$ за миллион токенов.
Для запуска нужны минимум 4x H100 или их эквиваленты. На домашнем ПК с RTX 4090 даже не пытайтесь. Но для компаний, которые хотят свой собственный ChatGPT без отправки данных в облако - это идеальный вариант.
Интересно, что Alibaba не просто выпустила огромную модель. Они сделали ее по-настоящему мультимодальной. Qwen3.5 понимает не только текст, но и изображения, аудио, видео. И делает это нативно, без костылей в виде отдельных модулей распознавания. Если помните нашу статью про конец эпохи VL-моделей, то Qwen3.5 - это именно то, о чем мы говорили.
PersonaPlex-7B: маленький, но дерзкий
Пока все восхищались китайским гигантом, небольшая команда из Сан-Франциско выпустила PersonaPlex-7B. Всего 7 миллиардов параметров, но с одной фишкой, которая переворачивает представление о персонализированных ассистентах.
Модель умеет сохранять и развивать личность. Не просто запоминать факты о вас, а формировать характер, манеру общения, даже чувство юмора. И делает это в реальном времени, адаптируясь к вашему стилю.
Технически это достигается через специальный механизм внимания к контексту личности. Модель выделяет паттерны в ваших сообщениях и создает внутреннее представление вашего стиля общения. Потом использует это представление для генерации ответов, которые звучат как продолжение разговора с конкретным человеком.
Голосовые модели: когда TTS перестал звучать как робот
На этой неделе случилось то, чего ждали годами. OpenVoice 2.5 вышел с поддержкой эмоциональной окраски. Теперь синтезированная речь звучит не просто естественно - она передает настроение.
Вы можете взять образец голоса (достаточно 3 секунд записи) и заставить модель говорить с радостью, грустью, сарказмом или усталостью. И все это локально, без отправки голоса в облако.
Если сравнивать с Qwen3-ASR, который распознает речь на 52 языках, то OpenVoice 2.5 работает в обратную сторону - синтезирует речь с эмоциями. Вместе они создают полный цикл голосового взаимодействия.
| Модель | Параметры | Особенность | Минимальные требования |
|---|---|---|---|
| Qwen3.5-397B-A17B | 397 млрд | Нативная мультимодальность, 128K контекст | 4x H100, 800GB RAM |
| PersonaPlex-7B | 7 млрд | Адаптация личности в реальном времени | RTX 3090, 24GB VRAM |
| OpenVoice 2.5 | 1.2 млрд | Эмоциональный TTS, клонирование голоса | RTX 3060, 12GB VRAM |
| LTX-Vision-13B | 13 млрд | Видеопонимание без разбивки на кадры | RTX 4090, 24GB VRAM |
Что еще вышло на этой неделе
LTX-Vision-13B - модель, которая понимает видео целиком, а не по кадрам. Вместо того чтобы разбивать видео на отдельные кадры и анализировать каждый, LTX-Vision работает с временными последовательностями. Это как разница между просмотром фильма по кадрам и просмотром целиком.
Модель улавливает движение, изменение сцен, даже эмоциональную дугу в видеороликах. И делает это в 3 раза быстрее, чем предыдущие решения.
Еще одна интересная штука - CodeSight-4B от Stability AI. Всего 4 миллиарда параметров, но специализированная на анализе и генерации кода с пониманием контекста проекта. Модель смотрит не только на текущий файл, но и на связанные файлы, документацию, даже на историю коммитов.
Практический пример: вы пишете функцию на Python, CodeSight-4B предлагает не только завершение кода, но и проверяет, не нарушит ли это изменение другие части проекта. И если нарушит - предупреждает заранее.
Почему это важно для обычных пользователей
Кажется, что 397 миллиардов параметров - это что-то из мира суперкомпьютеров. Но эффект от таких моделей чувствуют все.
Во-первых, большие открытые модели задают стандарты. Когда Alibaba выпускает Qwen3.5-397B, другие компании вынуждены догонять. Это ускоряет развитие всего рынка.
Во-вторых, техники, разработанные для гигантов, постепенно просачиваются в маленькие модели. Тот же механизм внимания к личности из PersonaPlex-7B через полгода появится в моделях размером 3 миллиарда параметров. А через год - в приложениях на вашем телефоне.
В-третьих, открытые веса означают свободу. Вы можете запустить модель на своем сервере, дообучить под свои задачи, модифицировать. Без ограничений API, без цензуры, без риска, что завтра компания-разработчик поменяет политику использования.
Если интересно, как настроить локальные модели для обхода интернет-ограничений, посмотрите наш гайд про настройку Gemma3 и Qwen3. Там есть конкретные инструкции для разных сценариев.
Что будет дальше
Судя по тому, что происходит, через месяц мы увидим первую модель с триллионом параметров и открытыми весами. Возможно, от той же Alibaba. Возможно, от Meta.
Но важнее другое - граница между текстовыми, голосовыми и визуальными моделями исчезает. Скоро мы перестанем говорить "текстовый AI" или "голосовой AI". Будет просто AI, который понимает все модальности одинаково хорошо.
PersonaPlex показал, что следующая битва будет за персонализацию. Не за размер модели, а за ее способность адаптироваться к конкретному пользователю. Модель, которая знает вас лучше, чем вы сами, и говорит с вами как старый друг - вот что будет цениться.
А пока что совет простой: если у вас есть доступ к серьезному железу - пробуйте Qwen3.5-397B. Если нет - PersonaPlex-7B и OpenVoice 2.5 отлично работают на обычных видеокартах. Главное - не ждите, пока эти технологии придут к вам в готовом виде. Берите и пробуйте сейчас.
P.S. Кстати, если думаете, что мультимодальные модели - это только для больших компаний, посмотрите на ZWZ-8B. Всего 8 миллиардов параметров, но визуальное понимание на уровне моделей в 10 раз больше. Иногда размер - не главное.