Зачем вам AI в кармане, если нет сети?

Все эти облачные ассистенты отлично работают, пока у вас есть стабильный интернет и вы не против, чтобы Google или OpenAI читали ваши документы. А если вы в метро, в самолете или просто в глуши? Off Grid прибивает эту проблему гвоздями. Это open-source приложение, которое засовывает полновесную Gemma 4 прямо в ваш смартфон. Никаких серверов. Никаких подписок. Только ваш процессор и 10-20 гигабайт свободного места.

💡

К апрелю 2026 года Gemma 4 — это уже не та скромная моделька, что была два года назад. Теперь это монстр с 128 тысячами токенов контекста и встроенным компьютерным зрением. Off Grid умудряется запихнуть эту мощь в ваш телефон, используя агрессивное квантование и свой собственный инференс-движок.

Что в коробке? Возможности Off Grid

Разработчики не стали делать просто еще один фронтенд для llama.cpp. Off Grid — это целый стек. Загружаете приложение, качаете нужную квантованную модель Gemma 4 (например, 7B в формате Q4_K_M) и получаете:

Полный оффлайн-чат с историей и системными промптами.
Загрузку документов: PDF, Word, TXT, код. Модель сама их читает и анализирует.
Базовое компьютерное зрение: загрузите фото — получите описание. Не как в десктопных сборках Gemma 4, но для мобилки и этого хватает.
Голосовой ввод/вывод (TTS и STT через системные API).
Приватность. Все данные остаются на устройстве. Точка.

Готовьте память. Сама аппа весит 80 МБ, а модель Gemma 4 7B в квантовании Q4 — уже 4.2 ГБ. Версия на 128К контекста требует больше оперативки. На слабых Android с 6 ГБ ОЗУ могут быть подтормаживания. У нас есть отдельный гайд по оптимизации для таких случаев.

1 Скачиваем и устанавливаем

Тут все просто. Идем в официальный магазин — Google Play для Android или App Store для iOS. Приложение бесплатное. Есть платная подписка Off Grid Pro, которая отключает водяные знаки в сгенерированном тексте и дает доступ к экспериментальным функциям вроде оффлайн RAG (но базовый RAG и так работает). Если хотите поддержать разработчика — есть Patreon.

2 Качаем модель Gemma 4

Открываете приложение, идете в раздел "Models". Там уже есть список доступных квантований. Выбираете gemma-4-7b-q4_k_m.offgrid. Это оптимальный вариант по балансу скорости и качества. Нажимаете загрузить. 4.2 ГБ — лучше делать это по Wi-Fi. Пока качается, можно почитать про более легкие версии Gemma, если ваш телефон старенький.

3 Первый запуск и настройка

Модель загружена. Теперь в настройках движка (Engine Settings) выставляете:

Threads: 4-6 для современных процессоров. Больше — не всегда лучше.
Context Size: 8192 для начала. 128К — только для топовых флагманов 2025-2026 годов.
Batch Size: Оставьте по умолчанию.

Сохраняете. Теперь можно перейти в чат и написать что-то вроде "Привет". Первый ответ будет долгим — идет загрузка модели в память. Дальше пойдет быстрее.

"И что я с этим буду делать?" — практические кейсы

Вот где начинается магия. Вы летите в командировку. За два часа до вылета вам скидывают техническое задание на 50 страниц в PDF. Вы загружаете его в Off Grid через вкладку "Documents". В самолете открываете чат и спрашиваете: "Суммируй основные требования к API из второго раздела". Модель, которая уже прочла весь документ, выдает точный ответ.

Или вы на стройке, где нет сети. Сфотографировали этикетку на оборудовании, загрузили в чат и спрашиваете: "Какие меры предосторожности указаны?". Gemma 4 с мультимодальностью прочитает текст с картинки и переведет его, если нужно.

Для кодеров — оффлайн-ревью кода. Скопировали кусок Python, вставили. "Найди уязвимости в этом коде". Работает. Это не требует таких танцев с бубном, как сборка кастомного стека с RAG и TTS.

Альтернатива	Чем хуже для оффлайн-запуска Gemma 4	Когда брать её
Llama.cpp + мобильный фронтенд	Нужно отдельно качать llama.cpp, искать модели, конвертировать их. Нет встроенного RAG и работы с документами "из коробки".	Если вы фанат кастомизации и готовы потратить вечер на настройку (наш гайд по llama.cpp в помощь).
EdgeDox + MNN	Сложнее в настройке, заточен под конкретные пайплайны. Gemma 4 поддерживается через костыли.	Если вам нужен промышленный оффлайн RAG для специфичных форматов данных (см. наш разбор EdgeDox).
Облачные ассистенты (через VPN)	Требуют интернет, платную подписку и обход блокировок (как в гайде по Gemini). Нет приватности.	Когда нужна самая последняя модель и вы готовы платить за токены.

Кому это впишется в жизнь, а кому нет?

Берите Off Grid, если вы:

Часто работаете в зонах без интернета (путешествия, командировки, удаленные объекты).
Юрист, инженер или ученый, который работает с конфиденциальными документами и не может их заливать в облако.
Разработчик, которому нужен быстрый оффлайн-советник по коду без открытия ноутбука.
Просто гик, который хочет потрогать будущее, где AI живет в кармане независимо от инфраструктуры.

Даже не смотрите в сторону Off Grid, если:

У вас телефон с 4 ГБ ОЗУ и 32 ГБ памяти. Места не хватит.
Вам нужны сверхточные ответы по нишевым темам. Местный RAG хорош, но не идеален — для сложных случаев лучше кастомный пайплайн.
Вы ждете скорости как у Gemma 4 на iPhone 17 Pro. На Android с Snapdragon 8 Gen 4 вы получите 10-15 токенов в секунду. Это для размышлений, а не для болтовни.

И последний совет — неочевидный. Off Grid отлично работает на старых флагманах вроде Snapdragon 888. Купите такой телефон за копейки в 2026 году, установите Off Grid, и у вас будет персональный AI-сервер, который всегда с вами. Более элегантное решение, чем OpenClaw, и гораздо проще. Будущее наступило. Оно просто пока не у всех в кармане.

Подписаться на канал

Off Grid: полный гайд по запуску Gemma 4 на смартфоне без облака и интернета