Полный гайд: приватный AI-ассистент на смартфоне с Qwen3 и Stable Diffusion | AiManual
AiManual Logo Ai / Manual.
16 Фев 2026 Инструмент

Ваш смартфон теперь AI-сервер: ставим приватного ассистента с Qwen3 и Stable Diffusion

Запускаем локальный Qwen3, Stable Diffusion и Whisper на Android/iOS. Полная приватность, работа без интернета, сравнение CPU/GPU. Инструкция на февраль 2026.

Зачем это вообще нужно? (Спойлер: потому что надоело)

Открываешь ChatGPT — нужно интернет. Включаешь Midjourney — нужна подписка. Запускаешь голосового ассистента — он слушает не только тебя, но и отправляет твои «включи свет на кухне» в неизвестном направлении. Знакомо?

К февралю 2026 года ситуация стала абсурдной. У нас в кармане лежат устройства мощнее ноутбуков пятилетней давности (спасибо, Snapdragon 8 Gen 4 и Apple A18 Pro), но мы всё ещё зависим от облаков для базовых AI-задач. Парадокс.

Факт: последние флагманы на Android (2025-2026) оснащены NPU (нейропроцессорами) с производительностью до 80 TOPS. Этого хватает для запуска 7B-параметровых моделей в реальном времени. Но производители до сих пор не дают нормального API к этим NPU для сторонних разработчиков. Приходится выкручиваться.

Что у нас в итоге получится?

Единое приложение на смартфоне, которое:

  • Отвечает на вопросы через локальную LLM (Qwen3-4B-Instruct или аналогичную)
  • Генерирует изображения по тексту (Stable Diffusion 1.5 или SDXL Turbo)
  • Транскрибирует голос в текст (Whisper.cpp, оффлайн)
  • Работает без единого запроса в интернет
  • Хранит весь контекст и историю только на устройстве

Звучит как что-то из будущего? Это будущее уже здесь, просто оно спрятано в GitHub-репозиториях и требует пары часов настройки.

Главный герой: MLC Chat (или почему не Ollama)

Когда речь заходит о локальных LLM на мобильных, все сразу вспоминают Ollama. Но в феврале 2026 года есть более интересный вариант — MLC Chat от TVM Unity.

Инструмент Плюсы Минусы Подходит для
MLC Chat Нативная поддержка GPU (Vulkan/Metal), кэширование моделей, оптимизация под мобильные NPU Сложнее в настройке, меньше моделей «из коробки» Производительности и приватности
Ollama (мобильная версия) Простая установка, огромная библиотека моделей Работает через эмуляцию, медленнее на CPU Быстрого тестирования моделей
Lekh AI Готовое iOS-приложение, красивый интерфейс Закрытый код, ограниченные модели iPhone-пользователей, которым нужен готовый вариант

MLC Chat выигрывает по одной простой причине: он компилирует модели под конкретное железо. Не эмулирует, а именно компилирует — как будто собирает специальную версию LLM для вашего Snapdragon или Apple Silicon. Результат? Скорость генерации в 2-3 раза выше при той же точности.

💡
Важный нюанс на февраль 2026: MLC Chat научился работать с квантованными версиями Qwen3 (4-битное квантование). Это значит, что модель Qwen3-4B-Instruct занимает не 8 ГБ, а всего 2.5 ГБ оперативной памяти. На флагманских смартфонах с 12-16 ГБ ОЗУ — это вообще не проблема.

Ставим MLC Chat: инструкция, которая реально работает

В теории всё просто: скачал приложение, загрузил модель, пользуешься. На практике нужно пройти через семь кругов ада с настройками. Собрал для вас работающую последовательность.

1 Подготовка: чистим место и качаем правильную версию

Первое, что нужно понять: MLC Chat — это не одно приложение. Есть версия для Android, для iOS, и каждая имеет по три варианта сборки (CPU, GPU, NPU).

Для Android (февраль 2026):

  • Если у вас Snapdragon 8 Gen 3/4 или Dimensity 9300+ — качайте версию с поддержкой Qualcomm NPU
  • Если у вас Samsung Exynos или старый Snapdragon — версию с Vulkan (GPU)
  • Если не уверены — берите CPU-версию (она будет медленнее, но гарантированно запустится)

Ссылки на все версии ищите в официальном репозитории TVM Unity на GitHub. Не скачивайте с левых сайтов — там могут быть модифицированные версии с бэкдорами.

2 Выбор модели: Qwen3 против конкурентов

Здесь всё зависит от вашего железа. Вот актуальная картина на февраль 2026:

Модель Размер Скорость (токенов/с) Качество ответов Рекомендация
Qwen3-4B-Instruct-Q4 2.5 ГБ 12-18 (CPU)
25-35 (GPU)
Отличное для 4B Лучший баланс
Liquid AI LFM2.5-1.2B 0.8 ГБ 40-60 (CPU) Хорошее для рассуждений Если важна скорость
Gemma 3N-2B 1.2 ГБ 30-45 (CPU) Среднее Только если любите Google
MiniCPM-o 4.5-9B 5.5 ГБ 5-8 (CPU)
15-20 (GPU)
Отличное (мультимодальная) Если нужен анализ изображений

Мой выбор — Qwen3-4B-Instruct-Q4. Почему? Потому что Alibaba (разработчики Qwen) вложили в эту модель нереальные ресурсы, и она обходит конкурентов по всем тестам для своего размера. Плюс у неё отличная поддержка русского — не идеальная, но лучше, чем у большинства open-source моделей.

Внимание: не путайте Qwen3 (2025-2026) с Qwen2.5 (2024). Qwen3 имеет улучшенную архитектуру, лучшее понимание контекста и оптимизирована именно для мобильных устройств. Если где-то предлагают скачать Qwen2.5 — это устаревшая версия.

3 Загрузка модели: где брать и как не сломать

Типичная ошибка: качать модели с первого попавшегося сайта. Правильный путь — Hugging Face, но не любой файл, а специально подготовленные версии для MLC.

Ищите в формате:

  • qwen3-4b-instruct-q4f16-MLC — для MLC Chat
  • qwen3-4b-instruct-q4f16-gguf — для других приложений (не подходит!)

Разница критическая. MLC-версии уже скомпилированы под TVM-рантайм, который используется в приложении. Обычные GGUF-файлы просто не запустятся.

Stable Diffusion на телефоне: реальность или миф?

Вот здесь начинается самое интересное. Генерация изображений на смартфоне — задача на порядок сложнее, чем запуск LLM. Нужно не просто обработать текст, а выполнить десятки итераций диффузии в высоком разрешении.

На февраль 2026 года есть три рабочих варианта:

  1. Draw Things (iOS) — монстр в мире мобильной генерации. Поддерживает SD 1.5, SDXL, даже некоторые кастомные чекпоинты. Работает через Metal (GPU Apple), генерирует 512x512 за 10-15 секунд.
  2. Stable Diffusion для Android (разные форки) — ситуация сложнее. Официального приложения нет, но есть несколько open-source проектов. Лучший на данный момент — SD Mobile с поддержкой TensorFlow Lite и GPU-ускорения.
  3. Интеграция через MLC — экспериментальная, но самая интересная. В последних nightly-сборках MLC Chat добавили поддержку Stable Diffusion 1.5. Пока сыровато, но работает.

Я тестировал SD Mobile на Snapdragon 8 Gen 3. Результаты:

  • 512x512, 20 шагов: 25-30 секунд (GPU), 45-60 секунд (CPU)
  • 256x256, 15 шагов: 8-12 секунд (GPU)
  • Качество — сопоставимо с desktop-версией, но только с базовыми моделями
💡
Совет: не гонитесь за SDXL на мобильном. Модель требует 8+ ГБ оперативной памяти только для загрузки, а генерация занимает минуты. SD 1.5 с хорошим LoRA даёт результаты не хуже для большинства задач.

Whisper.cpp: оффлайн-транскрипция, которая работает

Третья часть нашего трио — преобразование речи в текст. Здесь всё проще: Whisper.cpp (оптимизированная C++ версия Whisper от OpenAI) портирована на Android и iOS уже давно.

Но есть нюансы:

  • Модель tiny (75 МБ) — распознаёт только английский, точность ~85%
  • Модель base (150 МБ) — поддерживает много языков, включая русский, точность ~90%
  • Модель small (500 МБ) — лучшая точность (~95%), но требует больше памяти

Для смартфона оптимальна модель base. Она распознаёт русскую речь вполне сносно, если вы говорите чётко и без сильного акцента. Tiny-версию берите только если каждый мегабайт на счету.

Интеграция с MLC Chat есть, но через костыли. Проще использовать отдельное приложение — Voice Transcription (Android) или Transcribe (iOS). Записываете голос → получаете текст → копируете в MLC Chat.

Собираем всё вместе: Frankenstein edition

Итак, у нас есть три независимых приложения. Как заставить их работать как единый ассистент? Ответ: нельзя. По крайней мере, без программирования.

Но есть обходной путь — использовать принципы из статьи про локального AI-монстра и создать простой интерфейс-посредник.

Вариант для продвинутых:

  1. Устанавливаем Termux (эмулятор терминала на Android)
  2. Ставим Python и необходимые библиотеки
  3. Пишем скрипт, который:
    - Принимает голосовой ввод (через Whisper.cpp)
    - Отправляет текст в MLC Chat (через локальный API)
    - Если в запросе есть «нарисуй» или «сгенерируй изображение» — запускает Stable Diffusion
    - Выводит результат текстом или показывает изображение

Звучит сложно? Потому что это сложно. Но работоспособно. Я собрал такой прототип на Pixel 8 Pro, и он действительно работает полностью оффлайн.

Предупреждение: такой «франкенштейн» съедает батарею за 2-3 часа активного использования. Не используйте как основной ассистент — только для демонстрации возможностей или когда действительно нужна полная приватность.

Кому это вообще нужно? (Честный ответ)

После недели тестирования вот мои выводы:

Подходит идеально:

  • Разработчикам, которые хотят протестировать модели без облаков
  • Параноикам (без иронии) — данные действительно никуда не уходят
  • Путешественникам в места без интернета
  • Энтузиастам, которым интересно «как это работает»

Не подходит:

  • Обычным пользователям, которым нужен «просто помощник»
  • Тем, у кого смартфон старше 2023 года (не хватит мощности)
  • Людям, которые не готовы к багам и нестабильной работе

Что будет дальше? (Прогноз на 2026-2027)

Тренд очевиден: AI уходит на edge-устройства. К концу 2026 года, по моим прогнозам:

  1. Появится единый стандарт для мобильных NPU — как сейчас есть Vulkan для GPU
  2. Модели размером 7B-8B будут работать на смартфонах в реальном времени
  3. Кто-то (скорее всего, Apple или Google) выпустит нативное приложение «Local AI Assistant», которое сделает всё описанное выше простым и удобным
  4. Распределённые системы вроде AI Doomsday Toolbox станут популярнее — когда один телефон не тянет, можно использовать несколько

А пока что мы живём в эпоху DIY-ассистентов. Собирать их сложно, настраивать больно, но когда всё заработает — чувствуешь себя волшебником. Или сумасшедшим учёным. Разницы почти нет.

P.S. Если решитесь повторить — начинайте с MLC Chat и Qwen3-4B. Это самый стабильный и быстрый вариант на февраль 2026. Stable Diffusion оставьте на потом, когда освоите базовое. И купите power bank. Серьёзно.