Tencent Youtu-VL-4B vs Florence-2: тест модели с гео-блокировкой | AiManual
AiManual Logo Ai / Manual.
05 Фев 2026 Инструмент

Youtu-VL-4B: китайская альтернатива Florence-2, которую нельзя запускать в ЕС

Обзор Tencent Youtu-VL-4B — 4B vision-language модели с запретом использования в ЕС. Сравнение с Florence-2, тесты OCR, GGUF для слабых GPU.

Лицензия, которая запрещает Европу

Открываем лицензионное соглашение Tencent Youtu-VL-4B и видим пункт 4.2: "Вы не должны использовать Программное обеспечение в Европейском Союзе". Прямо так, без обиняков. Забудьте про Германию, Францию, Италию. Модель, выпущенная в 2025 году, имеет географические ограничения — случай уникальный даже для китайского open-source.

Технически лицензия Tencent License 2.0 запрещает использование Youtu-VL-4B в странах ЕС. На практике это означает, что если вы находитесь в Германии, Польше или Франции — юридически вы нарушаете условия использования. Для исследователей из других регионов ограничений нет.

Зачем Tencent понадобилось такое ограничение? Официального комментария нет. Возможно, дело в патентах или экспортных ограничениях на технологии компьютерного зрения. А может, просто перестраховка перед возможными регуляторными проблемами. В любом случае — модель существует, веса доступны на Hugging Face, а пользователи из США, Азии и России спокойно качают 12GB файлов.

Что внутри у 4 миллиардов параметров

Youtu-VL-4B — это vision-language модель с архитектурой, напоминающей Florence-2 от Microsoft. Но с китайским акцентом. Вместо стандартного подхода "изображение → эмбеддинг → LLM" здесь используется концепция визуальных токенов как целевых последовательностей.

💡
Архитектурная фишка Youtu-VL-4B — использование визуальных токенов как таргетов для обучения. Модель учится генерировать структурированные описания изображений в формате, похожем на язык программирования. Это дает лучшую детализацию по сравнению с обычными captioning-моделями.

Конкретные цифры на февраль 2026: 4.2 миллиарда параметров, поддержка изображений до 1024x1024, обучение на смеси английских и китайских данных. Модель умеет:

  • Детальное описание изображений (dense captioning)
  • Распознавание текста на изображениях (OCR)
  • Ответы на вопросы по визуальному контенту
  • Генерацию структурированных описаний

Токенизатор — специально обученный для смеси текста и визуальных маркеров. Это важно: модель понимает не просто "здесь текст", а "здесь текст, который говорит то-то".

Прямое сравнение: Youtu-VL-4B против Florence-2 и Qwen-VL

На бумаге все модели делают одно и то же. На практике разница заметна с первого теста.

Модель Параметры Память (FP16) OCR качество Лицензия
Youtu-VL-4B 4.2B ~8.5GB Отличное Tencent License (запрет ЕС)
Florence-2 ~3B ~6GB Хорошее MIT
Qwen-VL-Max ~14B ~28GB Хорошее Qwen License

Florence-2 от Microsoft легче и проще в использовании. Но у нее есть проблема: качество OCR на сложных шрифтах или под углом. Youtu-VL-4B здесь выигрывает — китайские разработчики явно вложились в распознавание текста. Возможно, из-за особенностей иероглифов, где каждый пиксель важен.

Qwen-VL-Max мощнее, но требует RTX 4090 или лучше. Для сравнения — Youtu-VL-4B в GGUF-формате как GLM-4.7 Flash запускается на картах с 6GB VRAM. Разница в потреблении ресурсов — в 3-4 раза.

Практика: запускаем на слабом железе

Вот где Youtu-VL-4B действительно сияет. Сообщество уже конвертировало модель в GGUF-форматы разной квантности:

  • Q4_K_M — 2.8GB, качество почти без потерь
  • Q3_K_M — 2.1GB, для совсем слабых карт
  • Q2_K — 1.6GB, экстремальное сжатие

На RTX 3060 (12GB) модель в Q4 работает с изображениями 768x768 без переполнения памяти. Скорость — 2-3 токена в секунду, что для vision-модели нормально. Важный момент: обработка изображения происходит один раз, потом можно задавать multiple questions без повторного энкодинга.

Совет: используйте llama.cpp с поддержкой CLBlast для GPU-ускорения. На CPU обработка одного изображения может занять 30-60 секунд, на GPU — 3-5 секунд. Разница колоссальная.

Если вам нужна скорость для потоковой обработки — посмотрите на Voxtral-Mini 4B Realtime. Там другие задачи, но подход к оптимизации похож.

Тест на реальных задачах: документы, интерфейсы, мемы

Беру три типа изображений:

  1. Скан договора с мелким шрифтом
  2. Скриншот сложного веб-интерфейса
  3. Мем с текстом поверх изображения

Результаты удивляют. С договором Youtu-VL-4B справляется лучше Florence-2 — распознает даже сноски. С веб-интерфейсом интереснее: модель не просто перечисляет элементы, а пытается понять их функцию. "Кнопка поиска в правом верхнем углу, поле ввода под заголовком".

Мемы — слабое место. Модель описывает картинку и текст, но юмор не улавливает. Впрочем, это проблема всех vision-language моделей на 2026 год. Они видят, что написано, но не понимают контекст.

Для сравнения: Tencent HY-MT 1.5 — другая модель от того же разработчика — показывает, что компания умеет делать эффективные compact-модели. Youtu-VL-4B продолжает эту традицию.

Кому подойдет (и не подойдет) эта модель

Youtu-VL-4B — специфический инструмент. Не для всех.

Берите, если:

  • Нужен качественный OCR на слабом железе
  • Работаете вне Европейского Союза (важно!)
  • Хотите замену Florence-2 с лучшей детализацией
  • Есть GPU с 6-8GB VRAM и нужна vision-модель

Не берите, если:

  • Вы в Германии, Франции, Италии (лицензионные риски)
  • Нужна максимальная скорость обработки
  • Работаете только с английским — есть более простые варианты
  • Требуется мультимодальность с видео — тут только изображения

Для задач, где нужна работа с кодом и изображениями одновременно, лучше смотреть в сторону интеграций локальных LLM с отдельными vision-модулями.

Странная лицензия как маркетинговый ход

Запрет на использование в ЕС вызывает больше вопросов, чем ответов. Технически Tencent не может отследить, где физически находится сервер. Юридически — могут возникнуть проблемы только при публичном использовании или коммерциализации.

Но эффект достигнут: о модели говорят. "Та, которую запретили в Европе". В мире open-source AI, где каждая вторая модель — вариация Llama или Mistral, такой хайп помогает выделиться.

Напомню историю с IQuest-Coder-V1 — там тоже был скандал, но другого рода. Здесь же скандал предсказуемый и, кажется, запланированный.

Мой прогноз: к середине 2026 года либо лицензию изменят (удалят географические ограничения), либо появится fork без этих условий. Пока что — используйте осторожно, если вы не в ЕС. Или используйте смело, если вам все равно на лицензии (не рекомендую, но понимаю).

Альтернатива? Ждать Florence-3 или следующую версию Qwen-VL. Но если нужен OCR здесь и сейчас — Youtu-VL-4B один из лучших вариантов в своем классе. Неидеальный, со странной лицензией, но работающий.