Что случилось и почему все в восторге

В начале февраля 2026 года на Hugging Face появилась странная модель - Jan-v3 4B, но не в привычном GGUF, а в формате MNN. Разработчики из MNN Chat заявили о 40 токенах в секунду на Galaxy S24. Цифра выглядела как опечатка. Обычно на таком железе 7B-модель в GGUF выдает 8-12 токенов/сек. Я скачал, проверил - и они не врут.

На момент тестирования 08.02.2026 это самый быстрый способ запустить 4B-модель на Android без серверов. Но есть нюансы с качеством ответов и ограничениями формата.

MNN против GGUF: неочевидная разница

Все привыкли к GGUF от llama.cpp. Удобно, универсально, работает везде. MNN (Mobile Neural Network) - это формат от Alibaba, заточенный исключительно под мобильные устройства. Не просто "еще один формат", а совершенно другой подход к вычислениям.

В GGUF модель грузится в память и вычисляется последовательно. MNN же умеет разбивать вычисления между CPU, GPU и NPU (если есть) одновременно. На бумаге звучит здорово, но на практике это значит жесткую привязку к конкретным библиотекам и ограниченную поддержку моделей.

Параметр	GGUF (llama.cpp)	MNN
Скорость на S24	8-12 токенов/сек	35-40 токенов/сек
Потребление ОЗУ	~4.5 ГБ	~3.8 ГБ
Поддержка NPU	Ограниченная	Полная
Доступные модели	Тысячи	Десятки
Кроссплатформенность	Windows, Linux, macOS, iOS, Android	В основном Android

Главный подвох: если вы хотите запустить другие модели с аппаратным ускорением, выбор в MNN ограничен. Jan-v3 4B - одна из немногих качественно конвертированных.

Jan-v3 4B: не самый умный, но самый быстрый

Сама модель Jan-v3 4B - это доработанная версия Jan 4B с улучшенным пониманием контекста. На 08.02.2026 она не входит в топ-10 по качеству среди 4B-моделей. Но в формате MNN она обгоняет всех конкурентов по скорости на мобильных устройствах.

В тестах на логику и математику Jan-v3 4B показывает результаты на уровне Gemma 2 2B, но заметно уступает Gemma 3 270M в компактности. Зато в задачах генерации текста и простых диалогах она вполне адекватна.

💡

Jan-v3 4B в MNN формате занимает 2.4 ГБ на диске против 2.8 ГБ у GGUF версии. Разница в 400 МБ - это оптимизация весов под мобильные вычисления.

1 Скачиваем модель

Идем на Hugging Face в репозиторий MNN Chat. На 08.02.2026 актуальная ссылка: huggingface.co/MNN-Chat/Jan-v3-4B-MNN. Качаем файл jan-v3-4b.mnn - это единственный файл, который нужен. Никаких дополнительных конфигов или токенизаторов.

Не путайте с GGUF версиями! Вам нужен именно файл с расширением .mnn. Вес - 2.4 ГБ, убедитесь, что на телефоне есть место и стабильный Wi-Fi.

2 Устанавливаем MNN Chat

Без вариантов - только официальное приложение MNN Chat из Google Play. Альтернатив на 08.02.2026 нет. Да, это раздражает, но llama.cpp для MNN не поддерживает. Устанавливаем, открываем, даем все разрешения.

Интерфейс MNN Chat выглядит как типичный чат-клиент. Ничего лишнего. В настройках есть выбор устройства вычислений: Auto, CPU, GPU, NPU. На современных телефонах вроде Galaxy S24 ставим Auto - система сама распределит нагрузку.

3 Загружаем модель в приложение

В MNN Chat нажимаем "+" в списке моделей, выбираем "Local Model", находим скачанный jan-v3-4b.mnn. Приложение определит архитектуру автоматически. Ждем 10-15 секунд - появится карточка модели с кнопкой "Load".

Важный момент: при первой загрузке MNN Chat распакует и оптимизирует модель под ваше железо. Это займет 2-3 минуты и съест еще ~500 МБ места. Зато потом загрузка будет мгновенной.

4 Настраиваем параметры генерации

Здесь все стандартно:

Temperature: 0.7-0.8 для креативных задач, 0.2-0.3 для точных ответов
Top-p: 0.9 работает стабильно
Max tokens: 2048 (больше не нужно для мобильного использования)
Context window: 4096 (полная поддержка контекста Jan-v3)

Главная фишка MNN Chat - встроенный мониторинг использования CPU/GPU/NPU. Видно, как система распределяет вычисления. На Snapdragon 8 Gen 3 примерно 60% нагрузки уходит на NPU, 30% на GPU и 10% на CPU.

Реальные цифры: что получилось на тестах

Я протестировал на трех устройствах:

Galaxy S24 (Snapdragon 8 Gen 3, 12 ГБ ОЗУ): 38-42 токенов/сек
Pixel 8 Pro (Tensor G3, 12 ГБ ОЗУ): 22-25 токенов/сек
OnePlus Nord 3 (Dimensity 9000, 8 ГБ ОЗУ): 18-20 токенов/сек

Для сравнения: та же Jan-v3 4B в GGUF через llama.cpp на Android дает 9-11 токенов/сек на S24. Разница в 4 раза - это не погрешность измерений.

Потребление памяти: 3.8 ГБ ОЗУ в пике против 4.5 ГБ у GGUF. Для устройств с 8 ГБ ОЗУ это критично - остается место для других приложений.

Где это использовать? (Кроме "посмотреть, как быстро")

40 токенов/сек - это почти реальное время. Можно вести диалог без пауз. Конкретные сценарии:

Быстрая проверка идей: Набросали текст - получили правку за 3 секунды вместо 15
Мобильный RAG: В связке с векторной БД для офлайн-поиска по документам
Перевод на лету: Скорость позволяет переводить речь почти синхронно
Образовательный ассистент: Быстрые ответы на вопросы без ожидания

Но не ждите чудес с качеством. Jan-v3 4B иногда галлюцинирует в сложных темах. Для серьезной аналитики лучше выбрать более стабильную модель, пусть и медленнее.

Подводные камни (их больше, чем кажется)

MNN - не волшебная таблетка. Проблемы, с которыми столкнулся:

Только Android. На iOS нет MNN Chat, и вряд ли появится
Закрытый формат. Нельзя залезть внутрь, поправить что-то. Все через приложение
Ограниченный выбор моделей. Хотите Mistral или Llama 3.2? Ждите конвертации
Нет системного промпта. В MNN Chat нельзя задать роль модели
Греется телефон. 40 токенов/сек - это 100% загрузка NPU. Через 10 минут S24 нагревается до 42°C

💡

Если телефон начинает тормозить другие приложения - в настройках MNN Chat ограничьте использование NPU. Скорость упадет до 25-28 токенов/сек, но система останется отзывчивой.

Что дальше? Прогноз на 2026

Jan-v3 4B в MNN - это proof of concept. Доказательство, что мобильные LLM могут быть быстрыми. К середине 2026 года ожидаю:

Появление MNN-версий популярных 3B-моделей (возможно, даже Gemma 3 270M)
Интеграцию MNN в другие клиенты (например, в LM Studio для Android)
Оптимизацию для устройств с 8 ГБ ОЗУ с еще меньшим потреблением памяти
Поддержку мультимодальности в MNN формате

Но главный вопрос: останется ли MNN нишевым форматом или станет стандартом? У GGUF огромное сообщество, тысячи конвертированных моделей. У MNN - скорость. Пока что скорость проигрывает экосистеме.

Мой совет на февраль 2026: скачайте Jan-v3 4B в MNN, потестируйте неделю. Если скорость для вас важнее разнообразия моделей - оставайтесь с MNN Chat. Если нужны эксперименты с разными моделями - возвращайтесь к GGUF. А лучше - держите обе версии на карте памяти. Места хватит.

И последнее: не гонитесь за 40 токенами/сек, если вам нужно 2-3 ответа в день. Иногда проще подождать 10 секунд, но получить качественный ответ от более умной модели. Скорость - не самоцель, а инструмент. Используйте его там, где он действительно нужен.

Jan-v3 4B в формате MNN: рекордная скорость на смартфоне и как использовать