Какие Android-телефоны поддерживают NPU для LLM?

Телефоны с Snapdragon 8 Gen 2/3, MediaTek Dimensity 9300+, Samsung Exynos с NPU. Требуется Vulkan 1.1+ с поддержкой вычислений.

Почему MLC Chat требует 5GB места при первом запуске?

Приложение компилирует модель под конкретное железо. Это происходит один раз, затем используется кэшированная версия.

Какие модели LLM лучше всего работают на Android с NPU?

Llama 3.2 1B/3B, Phi-3.5 mini, Qwen 2.5 3B. Модели должны быть специально скомпилированы для MLC Chat.

Можно ли запускать LLM на нескольких телефонах одновременно?

Да, с AI Doomsday Toolbox, но это экспериментальная функция с ограниченной поддержкой NPU и требует синхронизации по Wi-Fi Direct.

Какая скорость генерации текста ожидается на NPU?

8-20 токенов в секунду на современных NPU, в зависимости от модели и оптимизации.

Запуск LLM на Android с NPU: клиенты с аппаратным ускорением в 2025

Зачем вообще запускать LLM на телефоне?

Потому что облака - это шпионаж. Потому что каждый запрос к ChatGPT улетает в неизвестность, обрабатывается неизвестно кем и сохраняется неизвестно где. Потому что интернет в метро работает через раз. Потому что хочется поговорить с ИИ о чем-то личном, не боясь утечек.

Но есть проблема: телефоны слабые. Вернее, были слабые. Пока не появились NPU - Neural Processing Units. Это не просто маркетинг. Это специализированные процессоры, которые делают одну вещь, но делают ее хорошо - матричные умножения. То самое, что составляет 95% работы любой нейронки.

Если вы уже игрались с NPU на мини-ПК вроде AI MAX 395 (у нас есть отдельный гайд), то знаете: это не GPU. Это другой зверь. Менее гибкий, но более эффективный на ватт энергии.

Что у нас есть для Android?

Список короткий. Очень короткий. Потому что большинство разработчиков все еще думают, что мобильный ИИ - это только Stable Diffusion или какая-нибудь нейросеть для обработки фото. LLM на телефоне? Да вы что, это же невозможно!

Но возможно. И вот кто это доказал:

Клиент	NPU поддержка	Модели	Особенность
MLC Chat	Да (через Vulkan)	Llama, Mistral, Phi	Кроссплатформенность
Ollama Android (неофициальный)	Нет	Все Ollama-модели	Только CPU
LM Studio Mobile	В разработке	Ограниченный набор	Проприетарный
AI Doomsday Toolbox	Экспериментальная	Любые GGUF	Распределенный inference

1 MLC Chat - король мобильных LLM

Если вы читали нашу статью про запуск LLM в браузере через MLC, то уже знакомы с подходом. Тот же самый движок, но адаптированный для Android. Идея гениальна в своей простоте: компилируем модель под конкретное железо заранее.

Не в рантайме. Не JIT-компиляция. А именно заранее. Вы качаете уже оптимизированный файл модели, который знает про NPU вашего Snapdragon или Dimensity.

Важно: MLC Chat использует Vulkan для доступа к NPU. Не напрямую, а через графический API. Это и хорошо, и плохо. Хорошо - работает на любом Android с Vulkan 1.1+. Плохо - дополнительные накладные расходы.

Установка простая:

Качаем APK с GitHub Releases
Разрешаем установку из неизвестных источников (временная боль)
Запускаем, качаем модель

А вот с моделями интереснее. Не все форматы подходят. Нужны специально скомпилированные версии:

# Примерные названия моделей в MLC Chat
Llama-3.2-1B-Instruct-q4f16_1-MLC
Phi-3.5-mini-instruct-q4f16_1-MLC
Mistral-7B-Instruct-v0.3-q4f16_1-MLC

Видите суффикс q4f16_1? Это квантование 4-битное с mixed precision. Оптимальный баланс между качеством и скоростью для мобилок.

2 Настройка аппаратного ускорения

Здесь начинается магия. И разочарование. Потому что не все NPU одинаковые. Qualcomm Hexagon, MediaTek APU, Samsung NPU - у каждого свой SDK, свои ограничения.

MLC Chat пытается абстрагироваться через Vulkan, но это работает только если:

Драйвер Vulkan поддерживает расширения для вычислений
Производитель не заблокировал доступ к NPU из Vulkan (спойлер: многие блокируют)
Модель скомпилирована с учетом архитектуры именно вашего NPU

Как проверить, работает ли NPU?

# Через adb
adb shell dumpsys gpu
# Ищем vulkanCompute
# Или через специальные приложения вроде "Device Info HW"

Если не работает - не отчаивайтесь. Vulkan на CPU все равно быстрее голого CPU. Особенно если у вас big.LITTLE архитектура и Vulkan умеет распределять нагрузку.

AI Doomsday Toolbox - для параноиков и энтузиастов

Этот проект я люблю за безумие. Автор решил, что одного телефона мало. Надо запускать LLM на нескольких телефонах одновременно! Как в нашей статье про AI Doomsday Toolbox.

Принцип: разбиваем модель на части, каждую часть грузим на отдельный телефон, синхронизируем вычисления по Wi-Fi Direct или Bluetooth. Безумие? Да. Работает? Иногда.

С NPU поддержка экспериментальная. Потому что синхронизировать вычисления на разных NPU - это как заставить оркестр играть без дирижера, когда каждый музыкант в отдельной комнате.

💡

Если у вас есть несколько старых Android-телефонов, AI Doomsday Toolbox позволяет запустить модели, которые не влезут в память одного устройства. Медленно, нестабильно, но работает. Идеально для апокалипсиса или просто чтобы похвастаться перед друзьями.

Какие модели реально запустить?

Забудьте про GPT-4. Забудьте про Claude 3.5. Даже Llama 3.1 405B не подойдет. Реальность мобильных LLM в 2025:

Llama 3.2 1B/3B - оптимальный выбор. Быстрые, умные достаточно для чата
Phi-3.5 mini - 3.8B параметров, но работает шустрее многих 7B моделей
Qwen 2.5 3B - если нужна поддержка русского
Gemma 2 2B - для экспериментов, качество спорное

Почему такие маленькие? Память. NPU обычно имеет 1-2GB выделенной памяти плюс общая RAM. Модель 7B в 4-битном квантовании занимает ~4GB. Плюс контекст. Плюс система. Не влезает.

Но вот что интересно: 3B модель с хорошим квантованием часто умнее 7B модели с плохим квантованием. Потому что квантование - это не просто сжатие. Это искусство.

Производительность: цифры против ощущений

Я тестировал на Snapdragon 8 Gen 3 (самый быстрый NPU на момент написания):

# Llama 3.2 3B, 4-битное квантование
CPU только: 2-3 токена/сек
CPU + NPU через Vulkan: 8-12 токенов/сек

# Phi-3.5 mini
CPU только: 4-5 токенов/сек
CPU + NPU: 15-20 токенов/сек

20 токенов в секунду - это примерно 1-2 предложения. Медленно? Для чтения - нормально. Для диалога - терпимо. Для генерации кода - забудьте.

Но сравните с облачным решением: задержка сети, ограничения API, стоимость. Локальный запуск выигрывает по предсказуемости.

Проблемы, с которыми столкнетесь

Первый запуск MLC Chat:

Приложение запросит 5GB свободного места. Не для модели. Для кэша компиляции. Да, оно будет компилировать модель под ваше железо при первом запуске. Это займет 10-30 минут и сожжет батарею. Но только один раз.

Тепловыделение: NPU эффективнее GPU, но все равно греется. После 15 минут непрерывной генерации телефон станет теплым. Не горячим, как при играх, но теплым.

Совместимость моделей: скачали не ту версию - приложение молча упадет. Или выдаст ошибку компиляции. Или запустится, но будет работать в 10 раз медленнее.

Стоит ли игра свеч?

Если вы:

Хотите приватный чат-бот без интернета
Готовы мириться со скоростью 10-20 токенов/сек
Имеете телефон с мощным NPU (Snapdragon 8 Gen 2/3, Dimensity 9300+)
Не боитесь технических сложностей

Тогда да. MLC Chat - лучший выбор на рынке. Бесплатный, open-source, активно развивается.

Если же вам нужна скорость и простота - смотрите в сторону Ollama на ПК с нормальной видеокартой. Или серверного решения.

Но мобильные LLM - это будущее. Потому что телефон всегда с тобой. Потому что можно дописывать сообщения в поездке, генерировать идеи в кафе, проверять код на пляже. Без интернета. Без подписок. Без слежки.

Просто ты, твой телефон и искусственный интеллект, который работает только на тебя.

Что будет дальше?

Производители уже анонсируют NPU с 50+ TOPS для мобильных. Qualcomm обещает специальные инструкции для attention-механизмов трансформеров. Google работает над интеграцией LLM в Android на уровне ОС.

Через год сегодняшние 20 токенов/сек покажутся черепашьей скоростью. Через два года мы будем запускать 70B модели на телефонах так же легко, как сегодня запускаем 3B.

Но начать стоит сейчас. Потому что когда это станет мейнстримом, вы уже будете знать все подводные камни. И сможете сказать: "Я это делал, когда это было сложно".

А сложно - это интересно. Разве не поэтому мы все здесь?

Запускаем LLM на Android с NPU: обзор клиентов с аппаратным ускорением