Зачем это вообще нужно? (Спойлер: потому что надоело)

Открываешь ChatGPT — нужно интернет. Включаешь Midjourney — нужна подписка. Запускаешь голосового ассистента — он слушает не только тебя, но и отправляет твои «включи свет на кухне» в неизвестном направлении. Знакомо?

К февралю 2026 года ситуация стала абсурдной. У нас в кармане лежат устройства мощнее ноутбуков пятилетней давности (спасибо, Snapdragon 8 Gen 4 и Apple A18 Pro), но мы всё ещё зависим от облаков для базовых AI-задач. Парадокс.

Факт: последние флагманы на Android (2025-2026) оснащены NPU (нейропроцессорами) с производительностью до 80 TOPS. Этого хватает для запуска 7B-параметровых моделей в реальном времени. Но производители до сих пор не дают нормального API к этим NPU для сторонних разработчиков. Приходится выкручиваться.

Что у нас в итоге получится?

Единое приложение на смартфоне, которое:

Отвечает на вопросы через локальную LLM (Qwen3-4B-Instruct или аналогичную)
Генерирует изображения по тексту (Stable Diffusion 1.5 или SDXL Turbo)
Транскрибирует голос в текст (Whisper.cpp, оффлайн)
Работает без единого запроса в интернет
Хранит весь контекст и историю только на устройстве

Звучит как что-то из будущего? Это будущее уже здесь, просто оно спрятано в GitHub-репозиториях и требует пары часов настройки.

Главный герой: MLC Chat (или почему не Ollama)

Когда речь заходит о локальных LLM на мобильных, все сразу вспоминают Ollama. Но в феврале 2026 года есть более интересный вариант — MLC Chat от TVM Unity.

Инструмент	Плюсы	Минусы	Подходит для
MLC Chat	Нативная поддержка GPU (Vulkan/Metal), кэширование моделей, оптимизация под мобильные NPU	Сложнее в настройке, меньше моделей «из коробки»	Производительности и приватности
Ollama (мобильная версия)	Простая установка, огромная библиотека моделей	Работает через эмуляцию, медленнее на CPU	Быстрого тестирования моделей
Lekh AI	Готовое iOS-приложение, красивый интерфейс	Закрытый код, ограниченные модели	iPhone-пользователей, которым нужен готовый вариант

MLC Chat выигрывает по одной простой причине: он компилирует модели под конкретное железо. Не эмулирует, а именно компилирует — как будто собирает специальную версию LLM для вашего Snapdragon или Apple Silicon. Результат? Скорость генерации в 2-3 раза выше при той же точности.

💡

Важный нюанс на февраль 2026: MLC Chat научился работать с квантованными версиями Qwen3 (4-битное квантование). Это значит, что модель Qwen3-4B-Instruct занимает не 8 ГБ, а всего 2.5 ГБ оперативной памяти. На флагманских смартфонах с 12-16 ГБ ОЗУ — это вообще не проблема.

Ставим MLC Chat: инструкция, которая реально работает

В теории всё просто: скачал приложение, загрузил модель, пользуешься. На практике нужно пройти через семь кругов ада с настройками. Собрал для вас работающую последовательность.

1 Подготовка: чистим место и качаем правильную версию

Первое, что нужно понять: MLC Chat — это не одно приложение. Есть версия для Android, для iOS, и каждая имеет по три варианта сборки (CPU, GPU, NPU).

Для Android (февраль 2026):

Если у вас Snapdragon 8 Gen 3/4 или Dimensity 9300+ — качайте версию с поддержкой Qualcomm NPU
Если у вас Samsung Exynos или старый Snapdragon — версию с Vulkan (GPU)
Если не уверены — берите CPU-версию (она будет медленнее, но гарантированно запустится)

Ссылки на все версии ищите в официальном репозитории TVM Unity на GitHub. Не скачивайте с левых сайтов — там могут быть модифицированные версии с бэкдорами.

2 Выбор модели: Qwen3 против конкурентов

Здесь всё зависит от вашего железа. Вот актуальная картина на февраль 2026:

Модель	Размер	Скорость (токенов/с)	Качество ответов	Рекомендация
Qwen3-4B-Instruct-Q4	2.5 ГБ	12-18 (CPU) 25-35 (GPU)	Отличное для 4B	Лучший баланс
Liquid AI LFM2.5-1.2B	0.8 ГБ	40-60 (CPU)	Хорошее для рассуждений	Если важна скорость
Gemma 3N-2B	1.2 ГБ	30-45 (CPU)	Среднее	Только если любите Google
MiniCPM-o 4.5-9B	5.5 ГБ	5-8 (CPU) 15-20 (GPU)	Отличное (мультимодальная)	Если нужен анализ изображений

Мой выбор — Qwen3-4B-Instruct-Q4. Почему? Потому что Alibaba (разработчики Qwen) вложили в эту модель нереальные ресурсы, и она обходит конкурентов по всем тестам для своего размера. Плюс у неё отличная поддержка русского — не идеальная, но лучше, чем у большинства open-source моделей.

Внимание: не путайте Qwen3 (2025-2026) с Qwen2.5 (2024). Qwen3 имеет улучшенную архитектуру, лучшее понимание контекста и оптимизирована именно для мобильных устройств. Если где-то предлагают скачать Qwen2.5 — это устаревшая версия.

3 Загрузка модели: где брать и как не сломать

Типичная ошибка: качать модели с первого попавшегося сайта. Правильный путь — Hugging Face, но не любой файл, а специально подготовленные версии для MLC.

Ищите в формате:

qwen3-4b-instruct-q4f16-MLC — для MLC Chat
qwen3-4b-instruct-q4f16-gguf — для других приложений (не подходит!)

Разница критическая. MLC-версии уже скомпилированы под TVM-рантайм, который используется в приложении. Обычные GGUF-файлы просто не запустятся.

Stable Diffusion на телефоне: реальность или миф?

Вот здесь начинается самое интересное. Генерация изображений на смартфоне — задача на порядок сложнее, чем запуск LLM. Нужно не просто обработать текст, а выполнить десятки итераций диффузии в высоком разрешении.

На февраль 2026 года есть три рабочих варианта:

Draw Things (iOS) — монстр в мире мобильной генерации. Поддерживает SD 1.5, SDXL, даже некоторые кастомные чекпоинты. Работает через Metal (GPU Apple), генерирует 512x512 за 10-15 секунд.
Stable Diffusion для Android (разные форки) — ситуация сложнее. Официального приложения нет, но есть несколько open-source проектов. Лучший на данный момент — SD Mobile с поддержкой TensorFlow Lite и GPU-ускорения.
Интеграция через MLC — экспериментальная, но самая интересная. В последних nightly-сборках MLC Chat добавили поддержку Stable Diffusion 1.5. Пока сыровато, но работает.

Я тестировал SD Mobile на Snapdragon 8 Gen 3. Результаты:

512x512, 20 шагов: 25-30 секунд (GPU), 45-60 секунд (CPU)
256x256, 15 шагов: 8-12 секунд (GPU)
Качество — сопоставимо с desktop-версией, но только с базовыми моделями

💡

Совет: не гонитесь за SDXL на мобильном. Модель требует 8+ ГБ оперативной памяти только для загрузки, а генерация занимает минуты. SD 1.5 с хорошим LoRA даёт результаты не хуже для большинства задач.

Whisper.cpp: оффлайн-транскрипция, которая работает

Третья часть нашего трио — преобразование речи в текст. Здесь всё проще: Whisper.cpp (оптимизированная C++ версия Whisper от OpenAI) портирована на Android и iOS уже давно.

Но есть нюансы:

Модель tiny (75 МБ) — распознаёт только английский, точность ~85%
Модель base (150 МБ) — поддерживает много языков, включая русский, точность ~90%
Модель small (500 МБ) — лучшая точность (~95%), но требует больше памяти

Для смартфона оптимальна модель base. Она распознаёт русскую речь вполне сносно, если вы говорите чётко и без сильного акцента. Tiny-версию берите только если каждый мегабайт на счету.

Интеграция с MLC Chat есть, но через костыли. Проще использовать отдельное приложение — Voice Transcription (Android) или Transcribe (iOS). Записываете голос → получаете текст → копируете в MLC Chat.

Собираем всё вместе: Frankenstein edition

Итак, у нас есть три независимых приложения. Как заставить их работать как единый ассистент? Ответ: нельзя. По крайней мере, без программирования.

Но есть обходной путь — использовать принципы из статьи про локального AI-монстра и создать простой интерфейс-посредник.

Вариант для продвинутых:

Устанавливаем Termux (эмулятор терминала на Android)
Ставим Python и необходимые библиотеки
Пишем скрипт, который:
- Принимает голосовой ввод (через Whisper.cpp)
- Отправляет текст в MLC Chat (через локальный API)
- Если в запросе есть «нарисуй» или «сгенерируй изображение» — запускает Stable Diffusion
- Выводит результат текстом или показывает изображение

Звучит сложно? Потому что это сложно. Но работоспособно. Я собрал такой прототип на Pixel 8 Pro, и он действительно работает полностью оффлайн.

Предупреждение: такой «франкенштейн» съедает батарею за 2-3 часа активного использования. Не используйте как основной ассистент — только для демонстрации возможностей или когда действительно нужна полная приватность.

Кому это вообще нужно? (Честный ответ)

После недели тестирования вот мои выводы:

Подходит идеально:

Разработчикам, которые хотят протестировать модели без облаков
Параноикам (без иронии) — данные действительно никуда не уходят
Путешественникам в места без интернета
Энтузиастам, которым интересно «как это работает»

Не подходит:

Обычным пользователям, которым нужен «просто помощник»
Тем, у кого смартфон старше 2023 года (не хватит мощности)
Людям, которые не готовы к багам и нестабильной работе

Что будет дальше? (Прогноз на 2026-2027)

Тренд очевиден: AI уходит на edge-устройства. К концу 2026 года, по моим прогнозам:

Появится единый стандарт для мобильных NPU — как сейчас есть Vulkan для GPU
Модели размером 7B-8B будут работать на смартфонах в реальном времени
Кто-то (скорее всего, Apple или Google) выпустит нативное приложение «Local AI Assistant», которое сделает всё описанное выше простым и удобным
Распределённые системы вроде AI Doomsday Toolbox станут популярнее — когда один телефон не тянет, можно использовать несколько

А пока что мы живём в эпоху DIY-ассистентов. Собирать их сложно, настраивать больно, но когда всё заработает — чувствуешь себя волшебником. Или сумасшедшим учёным. Разницы почти нет.

P.S. Если решитесь повторить — начинайте с MLC Chat и Qwen3-4B. Это самый стабильный и быстрый вариант на февраль 2026. Stable Diffusion оставьте на потом, когда освоите базовое. И купите power bank. Серьёзно.

Ваш смартфон теперь AI-сервер: ставим приватного ассистента с Qwen3 и Stable Diffusion