Лицензия, которая запрещает Европу
Открываем лицензионное соглашение Tencent Youtu-VL-4B и видим пункт 4.2: "Вы не должны использовать Программное обеспечение в Европейском Союзе". Прямо так, без обиняков. Забудьте про Германию, Францию, Италию. Модель, выпущенная в 2025 году, имеет географические ограничения — случай уникальный даже для китайского open-source.
Технически лицензия Tencent License 2.0 запрещает использование Youtu-VL-4B в странах ЕС. На практике это означает, что если вы находитесь в Германии, Польше или Франции — юридически вы нарушаете условия использования. Для исследователей из других регионов ограничений нет.
Зачем Tencent понадобилось такое ограничение? Официального комментария нет. Возможно, дело в патентах или экспортных ограничениях на технологии компьютерного зрения. А может, просто перестраховка перед возможными регуляторными проблемами. В любом случае — модель существует, веса доступны на Hugging Face, а пользователи из США, Азии и России спокойно качают 12GB файлов.
Что внутри у 4 миллиардов параметров
Youtu-VL-4B — это vision-language модель с архитектурой, напоминающей Florence-2 от Microsoft. Но с китайским акцентом. Вместо стандартного подхода "изображение → эмбеддинг → LLM" здесь используется концепция визуальных токенов как целевых последовательностей.
Конкретные цифры на февраль 2026: 4.2 миллиарда параметров, поддержка изображений до 1024x1024, обучение на смеси английских и китайских данных. Модель умеет:
- Детальное описание изображений (dense captioning)
- Распознавание текста на изображениях (OCR)
- Ответы на вопросы по визуальному контенту
- Генерацию структурированных описаний
Токенизатор — специально обученный для смеси текста и визуальных маркеров. Это важно: модель понимает не просто "здесь текст", а "здесь текст, который говорит то-то".
Прямое сравнение: Youtu-VL-4B против Florence-2 и Qwen-VL
На бумаге все модели делают одно и то же. На практике разница заметна с первого теста.
| Модель | Параметры | Память (FP16) | OCR качество | Лицензия |
|---|---|---|---|---|
| Youtu-VL-4B | 4.2B | ~8.5GB | Отличное | Tencent License (запрет ЕС) |
| Florence-2 | ~3B | ~6GB | Хорошее | MIT |
| Qwen-VL-Max | ~14B | ~28GB | Хорошее | Qwen License |
Florence-2 от Microsoft легче и проще в использовании. Но у нее есть проблема: качество OCR на сложных шрифтах или под углом. Youtu-VL-4B здесь выигрывает — китайские разработчики явно вложились в распознавание текста. Возможно, из-за особенностей иероглифов, где каждый пиксель важен.
Qwen-VL-Max мощнее, но требует RTX 4090 или лучше. Для сравнения — Youtu-VL-4B в GGUF-формате как GLM-4.7 Flash запускается на картах с 6GB VRAM. Разница в потреблении ресурсов — в 3-4 раза.
Практика: запускаем на слабом железе
Вот где Youtu-VL-4B действительно сияет. Сообщество уже конвертировало модель в GGUF-форматы разной квантности:
- Q4_K_M — 2.8GB, качество почти без потерь
- Q3_K_M — 2.1GB, для совсем слабых карт
- Q2_K — 1.6GB, экстремальное сжатие
На RTX 3060 (12GB) модель в Q4 работает с изображениями 768x768 без переполнения памяти. Скорость — 2-3 токена в секунду, что для vision-модели нормально. Важный момент: обработка изображения происходит один раз, потом можно задавать multiple questions без повторного энкодинга.
Совет: используйте llama.cpp с поддержкой CLBlast для GPU-ускорения. На CPU обработка одного изображения может занять 30-60 секунд, на GPU — 3-5 секунд. Разница колоссальная.
Если вам нужна скорость для потоковой обработки — посмотрите на Voxtral-Mini 4B Realtime. Там другие задачи, но подход к оптимизации похож.
Тест на реальных задачах: документы, интерфейсы, мемы
Беру три типа изображений:
- Скан договора с мелким шрифтом
- Скриншот сложного веб-интерфейса
- Мем с текстом поверх изображения
Результаты удивляют. С договором Youtu-VL-4B справляется лучше Florence-2 — распознает даже сноски. С веб-интерфейсом интереснее: модель не просто перечисляет элементы, а пытается понять их функцию. "Кнопка поиска в правом верхнем углу, поле ввода под заголовком".
Мемы — слабое место. Модель описывает картинку и текст, но юмор не улавливает. Впрочем, это проблема всех vision-language моделей на 2026 год. Они видят, что написано, но не понимают контекст.
Для сравнения: Tencent HY-MT 1.5 — другая модель от того же разработчика — показывает, что компания умеет делать эффективные compact-модели. Youtu-VL-4B продолжает эту традицию.
Кому подойдет (и не подойдет) эта модель
Youtu-VL-4B — специфический инструмент. Не для всех.
Берите, если:
- Нужен качественный OCR на слабом железе
- Работаете вне Европейского Союза (важно!)
- Хотите замену Florence-2 с лучшей детализацией
- Есть GPU с 6-8GB VRAM и нужна vision-модель
Не берите, если:
- Вы в Германии, Франции, Италии (лицензионные риски)
- Нужна максимальная скорость обработки
- Работаете только с английским — есть более простые варианты
- Требуется мультимодальность с видео — тут только изображения
Для задач, где нужна работа с кодом и изображениями одновременно, лучше смотреть в сторону интеграций локальных LLM с отдельными vision-модулями.
Странная лицензия как маркетинговый ход
Запрет на использование в ЕС вызывает больше вопросов, чем ответов. Технически Tencent не может отследить, где физически находится сервер. Юридически — могут возникнуть проблемы только при публичном использовании или коммерциализации.
Но эффект достигнут: о модели говорят. "Та, которую запретили в Европе". В мире open-source AI, где каждая вторая модель — вариация Llama или Mistral, такой хайп помогает выделиться.
Напомню историю с IQuest-Coder-V1 — там тоже был скандал, но другого рода. Здесь же скандал предсказуемый и, кажется, запланированный.
Мой прогноз: к середине 2026 года либо лицензию изменят (удалят географические ограничения), либо появится fork без этих условий. Пока что — используйте осторожно, если вы не в ЕС. Или используйте смело, если вам все равно на лицензии (не рекомендую, но понимаю).
Альтернатива? Ждать Florence-3 или следующую версию Qwen-VL. Но если нужен OCR здесь и сейчас — Youtu-VL-4B один из лучших вариантов в своем классе. Неидеальный, со странной лицензией, но работающий.