Лицензия, которая запрещает Европу

Открываем лицензионное соглашение Tencent Youtu-VL-4B и видим пункт 4.2: "Вы не должны использовать Программное обеспечение в Европейском Союзе". Прямо так, без обиняков. Забудьте про Германию, Францию, Италию. Модель, выпущенная в 2025 году, имеет географические ограничения — случай уникальный даже для китайского open-source.

Технически лицензия Tencent License 2.0 запрещает использование Youtu-VL-4B в странах ЕС. На практике это означает, что если вы находитесь в Германии, Польше или Франции — юридически вы нарушаете условия использования. Для исследователей из других регионов ограничений нет.

Зачем Tencent понадобилось такое ограничение? Официального комментария нет. Возможно, дело в патентах или экспортных ограничениях на технологии компьютерного зрения. А может, просто перестраховка перед возможными регуляторными проблемами. В любом случае — модель существует, веса доступны на Hugging Face, а пользователи из США, Азии и России спокойно качают 12GB файлов.

Что внутри у 4 миллиардов параметров

Youtu-VL-4B — это vision-language модель с архитектурой, напоминающей Florence-2 от Microsoft. Но с китайским акцентом. Вместо стандартного подхода "изображение → эмбеддинг → LLM" здесь используется концепция визуальных токенов как целевых последовательностей.

💡

Архитектурная фишка Youtu-VL-4B — использование визуальных токенов как таргетов для обучения. Модель учится генерировать структурированные описания изображений в формате, похожем на язык программирования. Это дает лучшую детализацию по сравнению с обычными captioning-моделями.

Конкретные цифры на февраль 2026: 4.2 миллиарда параметров, поддержка изображений до 1024x1024, обучение на смеси английских и китайских данных. Модель умеет:

Детальное описание изображений (dense captioning)
Распознавание текста на изображениях (OCR)
Ответы на вопросы по визуальному контенту
Генерацию структурированных описаний

Токенизатор — специально обученный для смеси текста и визуальных маркеров. Это важно: модель понимает не просто "здесь текст", а "здесь текст, который говорит то-то".

Прямое сравнение: Youtu-VL-4B против Florence-2 и Qwen-VL

На бумаге все модели делают одно и то же. На практике разница заметна с первого теста.

Модель	Параметры	Память (FP16)	OCR качество	Лицензия
Youtu-VL-4B	4.2B	~8.5GB	Отличное	Tencent License (запрет ЕС)
Florence-2	~3B	~6GB	Хорошее	MIT
Qwen-VL-Max	~14B	~28GB	Хорошее	Qwen License

Florence-2 от Microsoft легче и проще в использовании. Но у нее есть проблема: качество OCR на сложных шрифтах или под углом. Youtu-VL-4B здесь выигрывает — китайские разработчики явно вложились в распознавание текста. Возможно, из-за особенностей иероглифов, где каждый пиксель важен.

Qwen-VL-Max мощнее, но требует RTX 4090 или лучше. Для сравнения — Youtu-VL-4B в GGUF-формате как GLM-4.7 Flash запускается на картах с 6GB VRAM. Разница в потреблении ресурсов — в 3-4 раза.

Практика: запускаем на слабом железе

Вот где Youtu-VL-4B действительно сияет. Сообщество уже конвертировало модель в GGUF-форматы разной квантности:

Q4_K_M — 2.8GB, качество почти без потерь
Q3_K_M — 2.1GB, для совсем слабых карт
Q2_K — 1.6GB, экстремальное сжатие

На RTX 3060 (12GB) модель в Q4 работает с изображениями 768x768 без переполнения памяти. Скорость — 2-3 токена в секунду, что для vision-модели нормально. Важный момент: обработка изображения происходит один раз, потом можно задавать multiple questions без повторного энкодинга.

Совет: используйте llama.cpp с поддержкой CLBlast для GPU-ускорения. На CPU обработка одного изображения может занять 30-60 секунд, на GPU — 3-5 секунд. Разница колоссальная.

Если вам нужна скорость для потоковой обработки — посмотрите на Voxtral-Mini 4B Realtime. Там другие задачи, но подход к оптимизации похож.

Тест на реальных задачах: документы, интерфейсы, мемы

Беру три типа изображений:

Скан договора с мелким шрифтом
Скриншот сложного веб-интерфейса
Мем с текстом поверх изображения

Результаты удивляют. С договором Youtu-VL-4B справляется лучше Florence-2 — распознает даже сноски. С веб-интерфейсом интереснее: модель не просто перечисляет элементы, а пытается понять их функцию. "Кнопка поиска в правом верхнем углу, поле ввода под заголовком".

Мемы — слабое место. Модель описывает картинку и текст, но юмор не улавливает. Впрочем, это проблема всех vision-language моделей на 2026 год. Они видят, что написано, но не понимают контекст.

Для сравнения: Tencent HY-MT 1.5 — другая модель от того же разработчика — показывает, что компания умеет делать эффективные compact-модели. Youtu-VL-4B продолжает эту традицию.

Кому подойдет (и не подойдет) эта модель

Youtu-VL-4B — специфический инструмент. Не для всех.

Берите, если:

Нужен качественный OCR на слабом железе
Работаете вне Европейского Союза (важно!)
Хотите замену Florence-2 с лучшей детализацией
Есть GPU с 6-8GB VRAM и нужна vision-модель

Не берите, если:

Вы в Германии, Франции, Италии (лицензионные риски)
Нужна максимальная скорость обработки
Работаете только с английским — есть более простые варианты
Требуется мультимодальность с видео — тут только изображения

Для задач, где нужна работа с кодом и изображениями одновременно, лучше смотреть в сторону интеграций локальных LLM с отдельными vision-модулями.

Странная лицензия как маркетинговый ход

Запрет на использование в ЕС вызывает больше вопросов, чем ответов. Технически Tencent не может отследить, где физически находится сервер. Юридически — могут возникнуть проблемы только при публичном использовании или коммерциализации.

Но эффект достигнут: о модели говорят. "Та, которую запретили в Европе". В мире open-source AI, где каждая вторая модель — вариация Llama или Mistral, такой хайп помогает выделиться.

Напомню историю с IQuest-Coder-V1 — там тоже был скандал, но другого рода. Здесь же скандал предсказуемый и, кажется, запланированный.

Мой прогноз: к середине 2026 года либо лицензию изменят (удалят географические ограничения), либо появится fork без этих условий. Пока что — используйте осторожно, если вы не в ЕС. Или используйте смело, если вам все равно на лицензии (не рекомендую, но понимаю).

Альтернатива? Ждать Florence-3 или следующую версию Qwen-VL. Но если нужен OCR здесь и сейчас — Youtu-VL-4B один из лучших вариантов в своем классе. Неидеальный, со странной лицензией, но работающий.

Youtu-VL-4B: китайская альтернатива Florence-2, которую нельзя запускать в ЕС