Китайский ответ Llama 3.3 8B, который весит в два раза меньше

Пока все обсуждают Llama 3.3 8B-Instruct и её GGUF-версии, на Hugging Face тихо появилась Yuan 3.0 Flash 40B. Не дайте названию обмануть — это не 40 миллиардов параметров, а всего 3.7B. Цифра 40B в названии — это что-то вроде маркетингового хода от YuanLabAI, китайских разработчиков модели.

Но вот что действительно интересно: модель заточена под RAG (Retrieval-Augmented Generation) и поддерживает мультимодальность. Да, вы правильно прочитали — 3.7 миллиарда параметров, а уже умеет работать с текстом и изображениями. В эпоху, когда даже 16 ГБ видеопамяти кажется роскошью, такая компактность выглядит как подарок.

💡

Yuan 3.0 Flash 40B — это не 40 миллиардов параметров. Реальные 3.7B параметров. Название вводит в заблуждение, но сама модель стоит внимания.

Что умеет эта кроха на 3.7B параметров?

Разработчики позиционируют Yuan 3.0 Flash как модель для RAG-приложений. Если вы когда-нибудь пытались запихнуть Llama 3.1 70B в RAG-пайплайн и ждали ответа пять минут — понимаете, о чём речь. Малые модели быстрее, дешевле и часто точнее в задачах поиска информации.

Мультимодальность здесь реализована через отдельный vision encoder. Модель принимает изображения и текст, генерирует текстовые ответы. Не ждите от неё DALL-E 3 уровня — это скорее инструмент для анализа уже существующих изображений в контексте документации.

Характеристика	Yuan 3.0 Flash 40B	Llama 3.3 8B-Instruct	Qwen 2.5 3B
Параметры	3.7B	8B	3B
Мультимодальность	Да (текст + изображения)	Нет	Нет
Оптимизация под RAG	Заявлена	Общая	Общая
Контекстное окно	8K токенов	128K	32K
Размер GGUF (Q4_K_M)	~2.3 ГБ	~4.7 ГБ	~1.8 ГБ

Совместимость с llama.cpp — главный вопрос

Вот здесь начинается самое интересное. На момент написания (февраль 2026) официальных GGUF-конвертаций модели нет. Но архитектура Yuan совместима с llama.cpp? Теоретически — да. Практически — нужно проверять.

YuanLabAI используют собственную архитектуру, но она близка к стандартным трансформерам. Если у вас есть опыт конвертации моделей в GGUF — попробуйте. Если нет — ждите, пока сообщество сделает работу за вас. В статье про аргументы llama.cpp мы разбирали, как адаптировать модели под разное железо.

Мультимодальность в GGUF — отдельная история. Даже если конвертировать текстовую часть, vision encoder может не заработать. Для полноценной мультимодальности, скорее всего, понадобится оригинальный фреймворк от разработчиков.

Кому подойдёт Yuan 3.0 Flash 40B?

Давайте без воды. Эта модель для:

Разработчиков RAG-систем, которым нужна быстрая инференс-модель. 3.7B параметров — это про скорость, а не про глубину рассуждений.
Энтузиастов с ограниченным железом. Если у вас чистая CPU и 64 ГБ ОЗУ — эта модель запустится без проблем.
Любителей китайских моделей. После GLM-4.7 Flash и Qwen китайский AI-ландшафт становится всё интереснее.
Экспериментаторов, которые хотят попробовать мультимодальность на малой модели.

Не ждите от Yuan 3.0 Flash чудес в творческих задачах. Это не Loki-v2-70B для ролевых игр. Это рабочий инструмент для конкретной задачи — извлечения информации.

Как запустить и что делать, если не работает с llama.cpp

Прямо сейчас самый простой способ — использовать оригинальный фреймворк от YuanLabAI. Он доступен на их GitHub. Да, это не так удобно, как просто скачать GGUF и запустить через llama.cpp, но зато всё работает из коробки.

Если очень хочется именно llama.cpp — можно попробовать конвертировать через llama.cpp конвертер. Но будьте готовы к тому, что:

Мультимодальность может отвалиться
Токенизатор может работать некорректно
Производительность будет отличаться от заявленной

Сообщество r/LocalLLaMA уже заметило модель. В их рейтингах скоро может появиться и Yuan 3.0 Flash.

Стоит ли тратить время на эту модель?

Если вам нужна готовая GGUF-модель для llama.cpp — пока нет. Ждите конвертаций сообществом. Если вы готовы повозиться с оригинальным фреймворком и вам критически важна мультимодальность в RAG — да, стоит попробовать.

Yuan 3.0 Flash 40B — интересный эксперимент. Модель пытается сделать многое при минимальных ресурсах. Удачно ли? Время покажет. Но сам факт, что китайские разработчики выпускают такие нишевые оптимизированные модели, говорит о зрелости локального AI-рынка.

Пока все гонятся за топ-5 моделями до 8B параметров, Yuan 3.0 Flash занимает свою узкую нишу. И делает это довольно уверенно.

Мой прогноз? Через месяц-два появятся первые GGUF-конвертации. А через полгода кто-нибудь сделает fine-tuned версию специально для западного рынка. Китайские модели перестают быть экзотикой — они становятся рабочими инструментами.

Yuan 3.0 Flash 40B: китайский мультимодальный снайпер для RAG, который помещается в 8 ГБ VRAM