Зачем это вообще нужно? (Спойлер: потому что надоело)
Открываешь ChatGPT — нужно интернет. Включаешь Midjourney — нужна подписка. Запускаешь голосового ассистента — он слушает не только тебя, но и отправляет твои «включи свет на кухне» в неизвестном направлении. Знакомо?
К февралю 2026 года ситуация стала абсурдной. У нас в кармане лежат устройства мощнее ноутбуков пятилетней давности (спасибо, Snapdragon 8 Gen 4 и Apple A18 Pro), но мы всё ещё зависим от облаков для базовых AI-задач. Парадокс.
Факт: последние флагманы на Android (2025-2026) оснащены NPU (нейропроцессорами) с производительностью до 80 TOPS. Этого хватает для запуска 7B-параметровых моделей в реальном времени. Но производители до сих пор не дают нормального API к этим NPU для сторонних разработчиков. Приходится выкручиваться.
Что у нас в итоге получится?
Единое приложение на смартфоне, которое:
- Отвечает на вопросы через локальную LLM (Qwen3-4B-Instruct или аналогичную)
- Генерирует изображения по тексту (Stable Diffusion 1.5 или SDXL Turbo)
- Транскрибирует голос в текст (Whisper.cpp, оффлайн)
- Работает без единого запроса в интернет
- Хранит весь контекст и историю только на устройстве
Звучит как что-то из будущего? Это будущее уже здесь, просто оно спрятано в GitHub-репозиториях и требует пары часов настройки.
Главный герой: MLC Chat (или почему не Ollama)
Когда речь заходит о локальных LLM на мобильных, все сразу вспоминают Ollama. Но в феврале 2026 года есть более интересный вариант — MLC Chat от TVM Unity.
| Инструмент | Плюсы | Минусы | Подходит для |
|---|---|---|---|
| MLC Chat | Нативная поддержка GPU (Vulkan/Metal), кэширование моделей, оптимизация под мобильные NPU | Сложнее в настройке, меньше моделей «из коробки» | Производительности и приватности |
| Ollama (мобильная версия) | Простая установка, огромная библиотека моделей | Работает через эмуляцию, медленнее на CPU | Быстрого тестирования моделей |
| Lekh AI | Готовое iOS-приложение, красивый интерфейс | Закрытый код, ограниченные модели | iPhone-пользователей, которым нужен готовый вариант |
MLC Chat выигрывает по одной простой причине: он компилирует модели под конкретное железо. Не эмулирует, а именно компилирует — как будто собирает специальную версию LLM для вашего Snapdragon или Apple Silicon. Результат? Скорость генерации в 2-3 раза выше при той же точности.
Ставим MLC Chat: инструкция, которая реально работает
В теории всё просто: скачал приложение, загрузил модель, пользуешься. На практике нужно пройти через семь кругов ада с настройками. Собрал для вас работающую последовательность.
1 Подготовка: чистим место и качаем правильную версию
Первое, что нужно понять: MLC Chat — это не одно приложение. Есть версия для Android, для iOS, и каждая имеет по три варианта сборки (CPU, GPU, NPU).
Для Android (февраль 2026):
- Если у вас Snapdragon 8 Gen 3/4 или Dimensity 9300+ — качайте версию с поддержкой Qualcomm NPU
- Если у вас Samsung Exynos или старый Snapdragon — версию с Vulkan (GPU)
- Если не уверены — берите CPU-версию (она будет медленнее, но гарантированно запустится)
Ссылки на все версии ищите в официальном репозитории TVM Unity на GitHub. Не скачивайте с левых сайтов — там могут быть модифицированные версии с бэкдорами.
2 Выбор модели: Qwen3 против конкурентов
Здесь всё зависит от вашего железа. Вот актуальная картина на февраль 2026:
| Модель | Размер | Скорость (токенов/с) | Качество ответов | Рекомендация |
|---|---|---|---|---|
| Qwen3-4B-Instruct-Q4 | 2.5 ГБ | 12-18 (CPU) 25-35 (GPU) |
Отличное для 4B | Лучший баланс |
| Liquid AI LFM2.5-1.2B | 0.8 ГБ | 40-60 (CPU) | Хорошее для рассуждений | Если важна скорость |
| Gemma 3N-2B | 1.2 ГБ | 30-45 (CPU) | Среднее | Только если любите Google |
| MiniCPM-o 4.5-9B | 5.5 ГБ | 5-8 (CPU) 15-20 (GPU) |
Отличное (мультимодальная) | Если нужен анализ изображений |
Мой выбор — Qwen3-4B-Instruct-Q4. Почему? Потому что Alibaba (разработчики Qwen) вложили в эту модель нереальные ресурсы, и она обходит конкурентов по всем тестам для своего размера. Плюс у неё отличная поддержка русского — не идеальная, но лучше, чем у большинства open-source моделей.
Внимание: не путайте Qwen3 (2025-2026) с Qwen2.5 (2024). Qwen3 имеет улучшенную архитектуру, лучшее понимание контекста и оптимизирована именно для мобильных устройств. Если где-то предлагают скачать Qwen2.5 — это устаревшая версия.
3 Загрузка модели: где брать и как не сломать
Типичная ошибка: качать модели с первого попавшегося сайта. Правильный путь — Hugging Face, но не любой файл, а специально подготовленные версии для MLC.
Ищите в формате:
qwen3-4b-instruct-q4f16-MLC— для MLC Chatqwen3-4b-instruct-q4f16-gguf— для других приложений (не подходит!)
Разница критическая. MLC-версии уже скомпилированы под TVM-рантайм, который используется в приложении. Обычные GGUF-файлы просто не запустятся.
Stable Diffusion на телефоне: реальность или миф?
Вот здесь начинается самое интересное. Генерация изображений на смартфоне — задача на порядок сложнее, чем запуск LLM. Нужно не просто обработать текст, а выполнить десятки итераций диффузии в высоком разрешении.
На февраль 2026 года есть три рабочих варианта:
- Draw Things (iOS) — монстр в мире мобильной генерации. Поддерживает SD 1.5, SDXL, даже некоторые кастомные чекпоинты. Работает через Metal (GPU Apple), генерирует 512x512 за 10-15 секунд.
- Stable Diffusion для Android (разные форки) — ситуация сложнее. Официального приложения нет, но есть несколько open-source проектов. Лучший на данный момент — SD Mobile с поддержкой TensorFlow Lite и GPU-ускорения.
- Интеграция через MLC — экспериментальная, но самая интересная. В последних nightly-сборках MLC Chat добавили поддержку Stable Diffusion 1.5. Пока сыровато, но работает.
Я тестировал SD Mobile на Snapdragon 8 Gen 3. Результаты:
- 512x512, 20 шагов: 25-30 секунд (GPU), 45-60 секунд (CPU)
- 256x256, 15 шагов: 8-12 секунд (GPU)
- Качество — сопоставимо с desktop-версией, но только с базовыми моделями
Whisper.cpp: оффлайн-транскрипция, которая работает
Третья часть нашего трио — преобразование речи в текст. Здесь всё проще: Whisper.cpp (оптимизированная C++ версия Whisper от OpenAI) портирована на Android и iOS уже давно.
Но есть нюансы:
- Модель tiny (75 МБ) — распознаёт только английский, точность ~85%
- Модель base (150 МБ) — поддерживает много языков, включая русский, точность ~90%
- Модель small (500 МБ) — лучшая точность (~95%), но требует больше памяти
Для смартфона оптимальна модель base. Она распознаёт русскую речь вполне сносно, если вы говорите чётко и без сильного акцента. Tiny-версию берите только если каждый мегабайт на счету.
Интеграция с MLC Chat есть, но через костыли. Проще использовать отдельное приложение — Voice Transcription (Android) или Transcribe (iOS). Записываете голос → получаете текст → копируете в MLC Chat.
Собираем всё вместе: Frankenstein edition
Итак, у нас есть три независимых приложения. Как заставить их работать как единый ассистент? Ответ: нельзя. По крайней мере, без программирования.
Но есть обходной путь — использовать принципы из статьи про локального AI-монстра и создать простой интерфейс-посредник.
Вариант для продвинутых:
- Устанавливаем Termux (эмулятор терминала на Android)
- Ставим Python и необходимые библиотеки
- Пишем скрипт, который:
- Принимает голосовой ввод (через Whisper.cpp)
- Отправляет текст в MLC Chat (через локальный API)
- Если в запросе есть «нарисуй» или «сгенерируй изображение» — запускает Stable Diffusion
- Выводит результат текстом или показывает изображение
Звучит сложно? Потому что это сложно. Но работоспособно. Я собрал такой прототип на Pixel 8 Pro, и он действительно работает полностью оффлайн.
Предупреждение: такой «франкенштейн» съедает батарею за 2-3 часа активного использования. Не используйте как основной ассистент — только для демонстрации возможностей или когда действительно нужна полная приватность.
Кому это вообще нужно? (Честный ответ)
После недели тестирования вот мои выводы:
Подходит идеально:
- Разработчикам, которые хотят протестировать модели без облаков
- Параноикам (без иронии) — данные действительно никуда не уходят
- Путешественникам в места без интернета
- Энтузиастам, которым интересно «как это работает»
Не подходит:
- Обычным пользователям, которым нужен «просто помощник»
- Тем, у кого смартфон старше 2023 года (не хватит мощности)
- Людям, которые не готовы к багам и нестабильной работе
Что будет дальше? (Прогноз на 2026-2027)
Тренд очевиден: AI уходит на edge-устройства. К концу 2026 года, по моим прогнозам:
- Появится единый стандарт для мобильных NPU — как сейчас есть Vulkan для GPU
- Модели размером 7B-8B будут работать на смартфонах в реальном времени
- Кто-то (скорее всего, Apple или Google) выпустит нативное приложение «Local AI Assistant», которое сделает всё описанное выше простым и удобным
- Распределённые системы вроде AI Doomsday Toolbox станут популярнее — когда один телефон не тянет, можно использовать несколько
А пока что мы живём в эпоху DIY-ассистентов. Собирать их сложно, настраивать больно, но когда всё заработает — чувствуешь себя волшебником. Или сумасшедшим учёным. Разницы почти нет.
P.S. Если решитесь повторить — начинайте с MLC Chat и Qwen3-4B. Это самый стабильный и быстрый вариант на февраль 2026. Stable Diffusion оставьте на потом, когда освоите базовое. И купите power bank. Серьёзно.