Распределенный инференс LLM на мобильных телефонах: гайд по AI-Doomsday-Toolbox | AiManual
AiManual Logo Ai / Manual.
29 Дек 2025 Инструмент

AI-Doomsday-Toolbox: Запускаем большие LLM на нескольких телефонах одновременно

Как запускать большие языковые модели на нескольких Android-телефонах одновременно с помощью llama.cpp и распределенных вычислений. Практический гайд.

Что такое AI-Doomsday-Toolbox?

AI-Doomsday-Toolbox — это экспериментальный проект, который позволяет объединить вычислительные мощности нескольких Android-устройств для запуска больших языковых моделей (LLM). Если у вас есть 2-3 старых смартфона, лежащих без дела, теперь вы можете превратить их в распределенный вычислительный кластер для локального инференса.

💡
Основная идея проста: если одна модель не помещается в память одного устройства, мы распределяем её слои между несколькими телефонами, используя llama.cpp в качестве бэкенда и RPC-сервер для коммуникации между устройствами.

Как это работает технически

Система состоит из нескольких компонентов:

  • llama.cpp на каждом устройстве — ядро для выполнения инференса
  • RPC-сервер — обеспечивает коммуникацию между устройствами в сети
  • Координатор — главное устройство, которое распределяет слои модели и управляет процессом
  • GGUF-модели — квантованные версии LLM, оптимизированные для мобильных устройств

Этот подход похож на то, что описано в нашей статье про llama.cpp RPC-server для распределенных вычислений, но адаптирован для мобильных устройств.

Какие модели можно запускать?

Благодаря распределенному подходу вы можете запускать модели, которые значительно превышают возможности одного устройства:

Модель Размер (параметры) Минимальное кол-во устройств Рекомендуемая квант.
Llama 3.1 8B 8 миллиардов 1-2 устройства Q4_K_M
Qwen 2.5 14B 14 миллиардов 2-3 устройства Q4_0
GLM-4-9B 9 миллиардов 1-2 устройства Q4_K_S

Для моделей большего размера, таких как 32B или 70B параметров, потребуется 4+ устройства с хорошей оперативной памятью. О запуске больших моделей на ограниченном железе мы писали в статье про GLM-4.5-Air на 2-3 битных квантованиях.

Установка и настройка: пошаговый гайд

1 Подготовка устройств

Вам понадобятся Android-устройства с:

  • Минимум 4 ГБ оперативной памяти (лучше 6+ ГБ)
  • Поддержкой USB-отладки
  • Стабильным Wi-Fi соединением (все устройства в одной сети)
  • Достаточным местом для модели (3-10 ГБ в зависимости от размера)

2 Установка llama.cpp и зависимостей

На каждом устройстве выполните через Termux:

pkg update && pkg upgrade
pkg install clang cmake git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j4

3 Настройка RPC-сервера

На главном устройстве (координаторе) запустите сервер:

./server --host 0.0.0.0 --port 8080 --model /path/to/model.gguf

На других устройствах запустите клиенты:

./client --host IP_КООРДИНАТОРА --port 8080

Важно: убедитесь, что устройства находятся в одной подсети и могут общаться друг с другом. Проверьте настройки фаервола и маршрутизатора.

4 Загрузка и конфигурация модели

Скачайте GGUF-версию нужной модели (например, с Hugging Face) и распределите слои между устройствами в конфигурационном файле:

{
  "model": "llama-3.1-8b.Q4_K_M.gguf",
  "devices": [
    {
      "id": "phone1",
      "ip": "192.168.1.100",
      "layers": "0-15",
      "memory": "4GB"
    },
    {
      "id": "phone2",
      "ip": "192.168.1.101",
      "layers": "16-31",
      "memory": "4GB"
    }
  ]
}

Сравнение с альтернативами

AI-Doomsday-Toolbox — не единственный способ запускать LLM локально. Давайте сравним его с популярными альтернативами:

Решение Преимущества Недостатки Лучше всего для
AI-Doomsday-Toolbox Использует старые устройства, распределенная нагрузка, бесплатно Сложная настройка, зависимость от сети, низкая скорость Экспериментов, образовательных целей
Ollama Простая установка, автоматическое управление моделями Требует мощного ПК, нет распределения Повседневного использования на ПК
vLLM Высокая скорость, оптимизация для GPU Требует дорогого железа, сложная настройка Продакшн-сред с несколькими GPU
Локальные мобильные приложения Удобный интерфейс, работа офлайн Ограниченные модели, нет распределения Простых задач на одном устройстве

Практические примеры использования

Пример 1: Образовательный кластер

Учебное заведение может использовать 5-10 старых смартфонов для создания образовательного AI-кластера. Студенты могут экспериментировать с разными моделями, изучая основы машинного обучения без дорогого оборудования.

Пример 2: Домашний исследовательский стенд

Энтузиасты AI могут собрать домашний кластер из 3-4 устройств для тестирования новых моделей и квантований. Это отличный способ понять, как работают распределенные вычисления на практике.

Пример 3: Резервная система для небольших задач

Если у вас есть критически важная задача, требующая локального AI (например, приватная обработка документов), такой кластер может служить резервной системой на случай проблем с основным сервером.

💡
Интересный факт: подход с распределением слоев между устройствами похож на методы, используемые в профессиональных кластерах. В статье про кластеризацию LLM мы рассматривали промышленные решения для распределенной обработки.

Производительность и ограничения

При тестировании системы на 3 устройствах (Xiaomi Redmi Note 10 Pro, 6 ГБ RAM каждое) мы получили следующие результаты:

  • Модель: Llama 3.1 8B Q4_K_M
  • Скорость генерации: 1.2-2.5 токена в секунду
  • Задержка сети: добавляет 100-300 мс на каждый слой
  • Потребление энергии: высокое (телефоны быстро разряжаются)
  • Температура: устройства сильно нагреваются при длительной работе

Предупреждение: длительная работа llama.cpp на мобильных устройствах может привести к перегреву и ускоренному износу батареи. Рекомендуется использовать устройства с активным охлаждением или ограничивать время работы.

Кому подойдет AI-Doomsday-Toolbox?

Это решение идеально для:

  1. Энтузиастов и исследователей, которые хотят экспериментировать с распределенными вычислениями без вложений в дорогое оборудование
  2. Образовательных учреждений, где нужно демонстрировать принципы распределенных систем на доступном оборудовании
  3. Разработчиков, тестирующих алгоритмы распределения моделей перед развертыванием на продакшн-кластерах
  4. Любителей апсайклинга, которые хотят дать вторую жизнь старым смартфонам

Если же вам нужна стабильная производительная система для работы, лучше рассмотреть решения на серверном железе, как описано в статье про запуск LLM на старом серверном железе.

Будущее распределенного мобильного инференса

Технология распределенного инференса на мобильных устройствах находится в зачаточном состоянии, но имеет большой потенциал:

  • Улучшение протоколов коммуникации — уменьшение задержек между устройствами
  • Автоматическое распределение слоев — интеллектуальное назначение слоев в зависимости от возможностей каждого устройства
  • Гибридные кластеры — объединение мобильных устройств с ПК и серверами
  • Специализированные модели — оптимизация LLM specifically для распределенного выполнения

AI-Doomsday-Toolbox — это скорее proof-of-concept, чем готовое решение для продакшна. Однако он демонстрирует важный принцип: вычислительные ресурсы можно агрегировать даже из самых неожиданных источников.

Для тех, кто хочет избежать распространенных ошибок при настройке подобных систем, рекомендуем ознакомиться с практическим гайдом по избежанию ошибок при локальном запуске LLM.