Мультимодальный прорыв или просто шум? Что такое Ovis2.6
В феврале 2026 года на сцену выходит Ovis2.6-30B-A3B - мультимодальная модель с архитектурой Mixture-of-Experts, которая обещает перевернуть представление о том, как обрабатывать изображения и текст одновременно. На бумаге всё выглядит прекрасно: 30 миллиардов параметров, из которых активны только 8, поддержка разрешения до 4096×4096 пикселей, и всё это с открытыми весами.
Актуальность на 12.02.2026: Ovis2.6-30B-A3B - самая новая версия в линейке Ovis на сегодняшний день. Предыдущая версия 2.5 вышла в ноябре 2025, а эта - полная переработка с улучшенным механизмом экспертов.
Но реальность всегда сложнее маркетинговых слайдов. Я тестировал Ovis2.6 на трёх разных задачах: анализ медицинских снимков, описание сложных диаграмм и детекция объектов на снимках с дронов. Результаты? Неоднозначные.
Архитектура, которая экономит деньги
MoE (Mixture-of-Experts) - это не новая технология. Мы уже видели её в Qwen3-Coder-Next и других моделях. Но в Ovis2.6 её применили к мультимодальности впервые на таком уровне. Идея проста: вместо того чтобы загружать все 30 миллиардов параметров для каждой задачи, модель активирует только нужных «экспертов» - обычно около 8 миллиардов.
На практике это значит, что вы можете запустить Ovis2.6 на оборудовании, которое раньше бы не потянуло полноценную 30B модель. Например, три GTX 1070 с 24 ГБ VRAM теперь достаточно для комфортной работы. Или даже на чистом CPU, если следовать советам из статьи про CPU-only MoE.
Ovis2.6 против Qwen3-VL: битва за детали
Qwen3-VL - текущий фаворит в opensource мультимодальном мире. Модель показала себя отлично в задачах, где нужно не просто описать картинку, а понять контекст. Но у неё есть проблема: она жрёт ресурсы как не в себя.
| Модель | Активные параметры | Макс. разрешение | VRAM для инференса | Стоимость часа (облако) |
|---|---|---|---|---|
| Ovis2.6-30B-A3B | ~8B (из 30B) | 4096×4096 | ~18-22 ГБ | $1.2-1.5 |
| Qwen3-VL-32B | 32B (все) | 4480×4480 | ~48-52 ГБ | $3.8-4.2 |
| GLM 4.7 Flash | ~12B (из 32B) | 4032×4032 | ~24-28 ГБ | $1.8-2.1 |
В тестах на медицинских изображениях Ovis2.6 показал себя интересно. Там, где Qwen3-VL давал развёрнутые, но иногда избыточные описания, Ovis2.6 был более точен в терминологии. Но стоило попросить сравнить два рентгеновских снимка - и преимущество переходило к Qwen. Видимо, китайские разработчики лучше поработали над пониманием отношений между объектами.
GLM 4.7 Flash: китайский ответ на всё
GLM 4.7 Flash - это модель, которая уже успела нашуметь. Как писали в статье про китайского снайпера, она бьёт точно в цель. Но в мультимодальном режиме у неё странности.
Я тестировал все три модели на одном наборе данных: 100 изображений из разных доменов (медицина, техника, искусство, природа). Ovis2.6 стабильно выдавал ответы за 3-5 секунд. Qwen3-VL - за 7-12 секунд. GLM 4.7 Flash - где-то посередине, но с дикими выбросами: иногда 2 секунды, иногда 15.
Под капотом: почему MoE работает для изображений
В Ovis2.6 использовали интересный трюк: отдельные эксперты обучали на разных типах визуальной информации. Один эксперт специализируется на тексте на изображениях (OCR). Другой - на лицах и эмоциях. Третий - на технических чертежах и схемах. Четвёртый - на естественных сценах.
Когда вы загружаете фотографию уличной сцены, активируются эксперты по естественным сценам и, возможно, по тексту (если есть вывески). Эксперт по медицинским изображениям спит. Это экономит не только вычислительные ресурсы, но и улучшает качество: каждый эксперт становится настоящим специалистом в своей области.
Внимание: Архитектура MLA (Multi-head Latent Attention), которую использует GLM 4.7 Flash и о которой писали в статье про MLA, в Ovis2.6 не применяется. Разработчики пошли своим путём, адаптировав классическое внимание под нужды MoE.
Кому подойдёт Ovis2.6, а кому лучше смотреть в сторону конкурентов
Выбирайте Ovis2.6-30B-A3B, если:
- У вас ограниченный бюджет на железо (1-2 хорошие видеокарты вместо серверной стойки)
- Нужна стабильная производительность без резких скачков времени ответа
- Работаете с потоковыми данными, где важна латентность
- Хотите open-source решение без ограничений на коммерческое использование
Оставайтесь с Qwen3-VL, если:
- Качество важнее стоимости (исследовательские проекты, медицина, безопасность)
- Нужна работа с очень высоким разрешением (до 4480×4480)
- Требуется максимальная точность в анализе отношений между объектами
- Уже есть инфраструктура под большие модели
Рассмотрите GLM 4.7 Flash, когда:
- Нужен баланс между стоимостью и качеством
- Работаете в основном с азиатскими языками и контентом
- Готовы мириться с нестабильной производительностью ради экономии
- Используете другие модели из экосистемы GLM
Что будет дальше? Прогноз на 2026-2027
Ovis2.6 - это только начало. Уже в марте 2026 ожидается выход Ovis2.7 с улучшенным механизмом выбора экспертов. Разработчики обещают снизить ошибки активации на 30% - сейчас модель иногда «будит» не тех экспертов, что слегка портит качество.
Но главный тренд 2026 года - не просто мультимодальность, а кросс-модальность. Как в MOVA, которая генерирует видео и звук одновременно. Ovis пока работает только с изображениями и текстом, но архитектура MoE идеально подходит для добавления новых модальностей: звука, видео, 3D-моделей.
Мой прогноз: к концу 2026 года мы увидим MoE-модели, которые обрабатывают 5-6 типов данных одновременно, активируя только нужных экспертов для каждой задачи. И Ovis, судя по их roadmap, планирует быть в авангарде этой революции. Пока что они сделали самый экономичный мультимодальный движок на рынке. Дальше будет интереснее.