Запустить 14 миллиардов параметров на кредитке. Это безумие

Вы скачали свежую Gemma 4 e4b, открыли файл GGUF на 4-битном квантовании и подумали: "А вдруг?". Raspberry Pi 5 лежит на столе, скромно мигая светодиодом. 8 гигабайт оперативки против 14 миллиардов параметров. Звучит как шутка. Но это работает.

В 2026 году запускать большие языковые модели на одноплатниках — не признак безумия, а новый вид спорта. Особенно после нашего материала про износ microSD от работы LLM. Сегодня мы пойдем дальше: выжмем из Raspberry Pi 5 максимум, разгоним его, остудим и заставим работать с Gemma 4 на грани возможного.

Это руководство приведет ваш Raspberry Pi к предельным нагрузкам. Стабильность не гарантирована, гарантия от производителя может быть аннулирована. Делайте это только если понимаете риски.

1 Базовое правило: никаких microSD. Только SSD

Если вы не хотите убить карту памяти за неделю, забудьте про microSD. Постоянная запись swap от работы LLM уничтожит любую флешку. Нужен внешний SSD через USB 3.0.

# Клонируем систему на SSD
sudo dd if=/dev/mmcblk0 of=/dev/sda bs=4M status=progress

# Расширяем файловую систему
sudo raspi-config  # Пункт: Advanced Options -> Expand Filesystem

После перезагрузки система будет работать с SSD. Скорость ввода-вывода вырастет в 5-10 раз. И SSD переживет миллионы циклов записи, которые создает подкачка при работе модели.

2 Разгоняем Raspberry Pi 5 до 3.2 ГГц

Стандартная частота BCM2712 — 2.4 ГГц. Это мало. Процессор будет простаивать, ожидая данных из памяти. Наша цель — 3.0-3.2 ГГц. Почему именно так? Потому что на этой частоте начинает упираться система питания и тепловыделение. Дальше — нестабильность.

# Редактируем конфигурационный файл
sudo nano /boot/firmware/config.txt

# Добавляем в конец строки
arm_freq=3000
over_voltage=6
gpu_freq=850

arm_freq — частота CPU. Начните с 2800, затем увеличивайте.
over_voltage — повышение напряжения. Каждый пункт = 0.025В. Значение 6 добавляет 0.15В. Без этого разгон не стабилен.
gpu_freq — разгон GPU. Нужен для ускорения некоторых операций llama.cpp.

💡

Не устанавливайте arm_freq выше 3200. Процессор BCM2712 на архитектуре Cortex-A76 имеет физический предел около 3.3 ГГц. Достичь его можно только при экстремальном охлаждении (например, элементами Пельтье), но для ежедневной работы это не нужно.

Сохраняем файл, перезагружаемся. Проверяем разгон:

vcgencmd measure_clock arm
vcgencmd measure_temp

Температура на холостом ходу не должна превышать 50°C. Если выше — переходите к следующему шагу немедленно.

3 Кастомное охлаждение: вентилятор — это обязательно

Штатный радиатор не справится. При нагрузке от LLM и разгоне процессор за 2 минуты уйдет за 90°C и начнет троттлить. Нужен активный обдув.

Вариант 1: Кулер с шим-контролем, например, CooliPi 5. Он подключается к контактам 4 (5V), 6 (GND) и 12 (PWM). Скорость регулируется автоматически в зависимости от температуры.

Вариант 2 (для фанатов тишины): Массивный пассивный радиатор + вентилятор 40x40x10 мм на отдельном USB-порту. Менее элегантно, но дешевле.

Устанавливаем мониторинг температуры в реальном времени:

sudo apt install stress
sudo apt install s-tui

# Запускаем монитор
s-tui

Запустите стресс-тест. Если температура держится ниже 80°C при 100% нагрузке — охлаждение адекватное.

4 Оптимизация памяти: танцы с бубном вокруг 8 ГБ RAM

Самое сложное. Gemma 4 7B в 4-битном квантовании занимает около 4.5 ГБ. Плюс операционная система, плюс контекст. Надо настраивать swap и zram.

Сначала отключаем стандартный swap-файл:

sudo dphys-swapfile swapoff
sudo systemctl disable dphys-swapfile
sudo apt remove dphys-swapfile

Создаем swap-раздел на SSD размером 8 ГБ. Да, именно столько. Это компромисс между производительностью и защитой SSD.

sudo fallocate -l 8G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# Делаем постоянным
sudo nano /etc/fstab
# Добавляем строку
/swapfile none swap sw 0 0

Теперь настраиваем параметры ядра для более агрессивного кэширования в памяти и работы с swap:

sudo nano /etc/sysctl.conf

# Добавляем в конец
vm.swappiness=90
vm.vfs_cache_pressure=500
vm.dirty_ratio=10
vm.dirty_background_ratio=5

swappiness=90 — система будет активно сбрасывать неактивные страницы в swap, оставляя больше оперативки для модели.
vfs_cache_pressure=500 — быстрее очищает кэш inode и dentry, которые для LLM не критичны.
Параметры dirty* — управляют записью "грязных" страниц на диск. Мы уменьшаем их, чтобы снизить нагрузку на SSD.

Применяем настройки: sudo sysctl -p.

При swappiness=90 система будет постоянно использовать swap, даже если свободной RAM много. Это нормально и задумано: мы освобождаем место для буферов llama.cpp. Но скорость ответа модели может немного просесть из-за подкачки.

5 Сборка llama.cpp с оптимизациями под ARM

Стандартный apt-пакет llama.cpp не имеет ключевых оптимизаций. Собираем из исходников с флагами для Cortex-A76.

# Устанавливаем зависимости
sudo apt update
sudo apt install build-essential cmake git

# Клонируем репозиторий (используем форк с последними патчами под ARM)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build

# Конфигурация сборки
cmake .. -DCMAKE_BUILD_TYPE=Release \
  -DLLAMA_NATIVE=ON \
  -DLLAMA_CURL=ON \
  -DLLAMA_METAL=OFF \
  -DLLAMA_MPI=OFF \
  -DLLAMA_ACCELERATE=OFF \
  -DCMAKE_C_FLAGS="-march=armv8.2-a+fp16+dotprod" \
  -DCMAKE_CXX_FLAGS="-march=armv8.2-a+fp16+dotprod"

# Компилируем
make -j4

# Устанавливаем
sudo cp ./bin/* /usr/local/bin/

Флаг -march=armv8.2-a+fp16+dotprod включает поддержку половинной точности и dot-продуктов в процессоре. Это ускоряет вычисления матриц.

6 Загрузка и запуск Gemma 4 e4b

Не берите полную версию 7B. Нужно квантование хотя бы Q4_K_M. Лучший выбор для баланса скорость/качество на 04.04.2026 — IQ4_XS. Это 4.5-битное квантование с минимальными потерями.

Идем на Hugging Face и ищем "Gemma-4-7B-it-GGUF-IQ4_XS". Скачиваем файл.

# Запускаем сервер llama.cpp
./server -m ./models/gemma-4-7b-it-IQ4_XS.gguf \
  -c 2048 \              # Контекст
  --ngl 0 \              # Нет слоев на GPU (на RPi его нет)
  --parallel 2 \         # Количество потоков для поколения
  --cont-batching \      # Непрерывный батчинг (новая филла llama.cpp)
  --host 0.0.0.0 \       # Для доступа из сети
  -t 4                   # Количество потоков CPU

Открываем браузер на http://192.168.1.xxx:8080. Интерфейс похож на ChatGPT. Модель работает. Скорость генерации: 1-2 токена в секунду. Это медленно, но для экспериментов и автономных систем — достаточно.

Что делать, если все тормозит

Симптомы: генерация 0.5 токенов в секунду, система "задумывается" на 30 секунд.

Проверьте температуру. Команда vcgencmd measure_temp. Выше 85°C — начинается троттлинг. Улучшите охлаждение.
Уменьшите контекст. Флаг -c 1024 вместо 2048. Это снизит потребление RAM.
Попробуйте более агрессивное квантование. IQ3_S вместо IQ4_XS. Качество упадет, но скорость вырастет.
Убедитесь, что система работает с SSD. Команда df -h покажет, где смонтирован корень. Если это /dev/mmcblk0 — вы все еще на microSD. Переустанавливайте.

Если вы столкнулись с проблемами KV cache, которые пожирают память — вспомните наш разбор в статье про сравнение Gemma 4 и Qwen3.5. Там описаны тонкие настройки.

Ответы на вопросы, которые вы боитесь задать

Вопрос	Ответ
Можно ли запустить Gemma 4 14B?	Теоретически да, с квантованием IQ3_XXS (3 бита). Практически — скорость генерации будет менее 0.5 токенов в секунду. Это для мазохистов.
Почему не используется GPU Raspberry Pi?	VideoCore VII не поддерживает CUDA или OpenCL вычисления с половинной точностью, которые нужны для LLM. Все вычисления идут на CPU.
Насколько разгон сокращает жизнь платы?	Если температура под контролем (ниже 75°C под нагрузкой), то влияние минимально. Главный убийца — перегрев, а не повышенное напряжение в разумных пределах.
Что насчет модели с 2B параметрами?	Gemma 4 2B — идеальный кандидат. Работает в разы быстрее, почти не требует swap. Но и "умственные" способности заметно ниже. Для простых классификаций и чат-ботов — отлично.

И что в итоге?

Raspberry Pi 5 с разгоном до 3.0 ГГц, активным охлаждением и правильно настроенным swap — это рабочая станция для запуска современных LLM. Да, она медленная. Да, это больше proof-of-concept, чем продуктивное решение. Но факт в том, что это возможно. Вы можете положить в карман устройство размером с пачку сигарет, которое понимает естественный язык и работает без интернета.

Следующий логичный шаг — подключение eGPU через PCIe разъем на плате, как мы описывали в руководстве по eGPU. С внешней видеокартой даже 14B модель запоет. Но это уже совсем другая история и другой бюджет.

А пока — качайте GGUF файлы, настраивайте вентилятор и наблюдайте, как крошечная плата пытается осмыслить ваши запросы. Это гипнотическое зрелище.

Подписаться на канал

Как запустить Gemma 4 на Raspberry Pi 5: гайд по оверклокингу, охлаждению и оптимизации памяти