Что такое AI-Doomsday-Toolbox?
AI-Doomsday-Toolbox — это экспериментальный проект, который позволяет объединить вычислительные мощности нескольких Android-устройств для запуска больших языковых моделей (LLM). Если у вас есть 2-3 старых смартфона, лежащих без дела, теперь вы можете превратить их в распределенный вычислительный кластер для локального инференса.
Как это работает технически
Система состоит из нескольких компонентов:
- llama.cpp на каждом устройстве — ядро для выполнения инференса
- RPC-сервер — обеспечивает коммуникацию между устройствами в сети
- Координатор — главное устройство, которое распределяет слои модели и управляет процессом
- GGUF-модели — квантованные версии LLM, оптимизированные для мобильных устройств
Этот подход похож на то, что описано в нашей статье про llama.cpp RPC-server для распределенных вычислений, но адаптирован для мобильных устройств.
Какие модели можно запускать?
Благодаря распределенному подходу вы можете запускать модели, которые значительно превышают возможности одного устройства:
| Модель | Размер (параметры) | Минимальное кол-во устройств | Рекомендуемая квант. |
|---|---|---|---|
| Llama 3.1 8B | 8 миллиардов | 1-2 устройства | Q4_K_M |
| Qwen 2.5 14B | 14 миллиардов | 2-3 устройства | Q4_0 |
| GLM-4-9B | 9 миллиардов | 1-2 устройства | Q4_K_S |
Для моделей большего размера, таких как 32B или 70B параметров, потребуется 4+ устройства с хорошей оперативной памятью. О запуске больших моделей на ограниченном железе мы писали в статье про GLM-4.5-Air на 2-3 битных квантованиях.
Установка и настройка: пошаговый гайд
1 Подготовка устройств
Вам понадобятся Android-устройства с:
- Минимум 4 ГБ оперативной памяти (лучше 6+ ГБ)
- Поддержкой USB-отладки
- Стабильным Wi-Fi соединением (все устройства в одной сети)
- Достаточным местом для модели (3-10 ГБ в зависимости от размера)
2 Установка llama.cpp и зависимостей
На каждом устройстве выполните через Termux:
pkg update && pkg upgrade
pkg install clang cmake git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j4
3 Настройка RPC-сервера
На главном устройстве (координаторе) запустите сервер:
./server --host 0.0.0.0 --port 8080 --model /path/to/model.gguf
На других устройствах запустите клиенты:
./client --host IP_КООРДИНАТОРА --port 8080
Важно: убедитесь, что устройства находятся в одной подсети и могут общаться друг с другом. Проверьте настройки фаервола и маршрутизатора.
4 Загрузка и конфигурация модели
Скачайте GGUF-версию нужной модели (например, с Hugging Face) и распределите слои между устройствами в конфигурационном файле:
{
"model": "llama-3.1-8b.Q4_K_M.gguf",
"devices": [
{
"id": "phone1",
"ip": "192.168.1.100",
"layers": "0-15",
"memory": "4GB"
},
{
"id": "phone2",
"ip": "192.168.1.101",
"layers": "16-31",
"memory": "4GB"
}
]
}
Сравнение с альтернативами
AI-Doomsday-Toolbox — не единственный способ запускать LLM локально. Давайте сравним его с популярными альтернативами:
| Решение | Преимущества | Недостатки | Лучше всего для |
|---|---|---|---|
| AI-Doomsday-Toolbox | Использует старые устройства, распределенная нагрузка, бесплатно | Сложная настройка, зависимость от сети, низкая скорость | Экспериментов, образовательных целей |
| Ollama | Простая установка, автоматическое управление моделями | Требует мощного ПК, нет распределения | Повседневного использования на ПК |
| vLLM | Высокая скорость, оптимизация для GPU | Требует дорогого железа, сложная настройка | Продакшн-сред с несколькими GPU |
| Локальные мобильные приложения | Удобный интерфейс, работа офлайн | Ограниченные модели, нет распределения | Простых задач на одном устройстве |
Практические примеры использования
Пример 1: Образовательный кластер
Учебное заведение может использовать 5-10 старых смартфонов для создания образовательного AI-кластера. Студенты могут экспериментировать с разными моделями, изучая основы машинного обучения без дорогого оборудования.
Пример 2: Домашний исследовательский стенд
Энтузиасты AI могут собрать домашний кластер из 3-4 устройств для тестирования новых моделей и квантований. Это отличный способ понять, как работают распределенные вычисления на практике.
Пример 3: Резервная система для небольших задач
Если у вас есть критически важная задача, требующая локального AI (например, приватная обработка документов), такой кластер может служить резервной системой на случай проблем с основным сервером.
Производительность и ограничения
При тестировании системы на 3 устройствах (Xiaomi Redmi Note 10 Pro, 6 ГБ RAM каждое) мы получили следующие результаты:
- Модель: Llama 3.1 8B Q4_K_M
- Скорость генерации: 1.2-2.5 токена в секунду
- Задержка сети: добавляет 100-300 мс на каждый слой
- Потребление энергии: высокое (телефоны быстро разряжаются)
- Температура: устройства сильно нагреваются при длительной работе
Предупреждение: длительная работа llama.cpp на мобильных устройствах может привести к перегреву и ускоренному износу батареи. Рекомендуется использовать устройства с активным охлаждением или ограничивать время работы.
Кому подойдет AI-Doomsday-Toolbox?
Это решение идеально для:
- Энтузиастов и исследователей, которые хотят экспериментировать с распределенными вычислениями без вложений в дорогое оборудование
- Образовательных учреждений, где нужно демонстрировать принципы распределенных систем на доступном оборудовании
- Разработчиков, тестирующих алгоритмы распределения моделей перед развертыванием на продакшн-кластерах
- Любителей апсайклинга, которые хотят дать вторую жизнь старым смартфонам
Если же вам нужна стабильная производительная система для работы, лучше рассмотреть решения на серверном железе, как описано в статье про запуск LLM на старом серверном железе.
Будущее распределенного мобильного инференса
Технология распределенного инференса на мобильных устройствах находится в зачаточном состоянии, но имеет большой потенциал:
- Улучшение протоколов коммуникации — уменьшение задержек между устройствами
- Автоматическое распределение слоев — интеллектуальное назначение слоев в зависимости от возможностей каждого устройства
- Гибридные кластеры — объединение мобильных устройств с ПК и серверами
- Специализированные модели — оптимизация LLM specifically для распределенного выполнения
AI-Doomsday-Toolbox — это скорее proof-of-concept, чем готовое решение для продакшна. Однако он демонстрирует важный принцип: вычислительные ресурсы можно агрегировать даже из самых неожиданных источников.
Для тех, кто хочет избежать распространенных ошибок при настройке подобных систем, рекомендуем ознакомиться с практическим гайдом по избежанию ошибок при локальном запуске LLM.