Зачем платить за электричество как за вторую аренду?

В 2026 году держать AI-агента 24/7 на облачном GPU — это всё равно что оставлять включённым обогреватель на всю зиму. Серьёзно. Одна RTX 4090 тянет 450 ватт под нагрузкой. Две — уже 900. А если вам нужен агент, который работает постоянно? Считайте сами.

Но есть другой путь. Jetson Orin Nano Super — это не просто "ещё один одноплатник". Это полноценный AI-ускоритель с 40 TOPS (триллионов операций в секунду), который умещается в ладони и потребляет максимум 15 ватт. В пятнадцать раз меньше, чем одна видеокарта.

TOPS — это не маркетинг. 40 TOPS на Orin Nano Super — это реальная производительность для инференса моделей типа Llama 3.1 8B, Phi-4, или того же Orchestrator-8B от NVIDIA. Для сравнения: Jetson Thor T5000 даёт 2070 TFLOPS, но и потребляет под 100 ватт.

Что внутри коробки и почему это важно

Распаковываете Jetson Orin Nano Super Developer Kit. Внутри:

Сам модуль с 8 ГБ LPDDR5 (этого хватит для 8B модели с контекстом 4K)
Активный кулер (да, он шумит, но не как реактивный двигатель)
Карта с предустановленной Ubuntu 22.04 для ARM64
Блок питания на 65Вт (иронично, да? Плата ест 15, а блок на 65)

Ключевое здесь — архитектура ARM. Не x86. Это значит, что всё, что вы собираетесь запускать, должно быть скомпилировано под aarch64. Звучит страшно, но на практике 90% популярных AI-инструментов уже имеют сборки под ARM.

💡

Если вы думаете о масштабировании, посмотрите статью про запуск 14B модели на нескольких Jetson Orin Nano. Там подробно разобрана схема с llama.cpp и RPC.

Шаг 1: Прошивка и первая настройка

Достаёте карту памяти из комплекта, вставляете в компьютер. Там уже есть Ubuntu. Но мы сделаем чистовую установку с нуля — так надёжнее.

1 Качаем свежий образ

Идём на официальный портал NVIDIA. Не на сторонние ресурсы. Там всегда лежат актуальные образы с исправлениями безопасности. На февраль 2026 года это JetPack 6.1 (да, версии летят быстро).

# Пример команды для скачивания (актуальная на 08.02.2026)
wget https://developer.nvidia.com/downloads/embedded/jetson-orin-nano-super-jetpack-6-1-sd-card-image

Записываем образ на карту через balenaEtcher. Старый добрый dd тоже сработает, но Etcher проверяет запись — меньше шансов получить битый образ.

2 Первичный запуск и настройка сети

Вставляете карту, подключаете монитор по HDMI, клавиатуру, мышь, Ethernet (Wi-Fi будет позже). Включаете.

Система загрузится и предложит создать пользователя. Здесь — важный момент. Не называйте пользователя "nvidia", "jetson", "admin". Придумайте уникальное имя. Это базовая безопасность.

После входа в систему сразу обновите всё:

sudo apt update && sudo apt full-upgrade -y
sudo reboot

Не пропускайте reboot! После обновления ядра система может вести себя странно, если не перезагрузиться. Особенно это касается драйверов NVIDIA.

Шаг 2: Ставим AI-стек — что действительно нужно в 2026

Здесь большинство совершает ошибку: начинают ставить всё подряд, "на всякий случай". В итоге система забита хламом, места на карте не хватает, а агент всё равно не работает.

Нам нужно только это:

llama.cpp — для инференса LLM моделей. Самая оптимизированная версия под ARM с поддержкой CUDA для Jetson.
Ollama — как альтернатива, если не хотите возиться с компиляцией. Но llama.cpp обычно быстрее.
Python 3.11+ (в Ubuntu 22.04 по умолчанию 3.10, нужно обновить).
Docker — но осторожно. На ARM не все образы доступны.

Устанавливаем llama.cpp с поддержкой CUDA:

# Клонируем репозиторий (обязательно с подмодулями)
git clone --recursive https://github.com/ggerganov/llama.cpp
cd llama.cpp

# Компилируем с поддержкой CUDA для Jetson
make LLAMA_CUBLAS=1 -j4

Флаг -j4 использует все 4 ядра Cortex-A78. Компиляция займёт минут 10-15.

💡

Если компиляция падает с ошибкой памяти — увеличьте файл подкачки. На 8 ГБ оперативки лучше поставить swap на 8 ГБ. Команда: sudo fallocate -l 8G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile. Добавьте в /etc/fstab для постоянства.

Шаг 3: Выбираем модель для агента — не ту, что модно, а ту, что работает

Здесь главный соблазн — скачать самую большую и крутую модель. Не делайте этого. На Orin Nano Super с 8 ГБ памяти вы физически не запустите модель больше 8-10 миллиардов параметров в FP16.

Варианты, которые точно работают в 2026 году:

Модель	Размер (параметры)	Квантование	Скорость (токенов/с)
Llama 3.2 3B Instruct	3B	Q4_K_M	45-50
Phi-4 3.8B	3.8B	Q5_K_M	40-45
Orchestrator-8B	8B	Q4_K_S	18-22

Orchestrator-8B — интересный вариант, если ваш агент должен управлять инструментами. Это специальная модель-диспетчер от NVIDIA, которая умеет вызывать функции и API.

Скачиваем модель в квантованном виде (это обязательно — полные веса не влезут):

# Пример для Phi-4 3.8B Q5_K_M
cd ~/llama.cpp
./models/download.sh phi-4-3.8b-q5_k_m.gguf

Шаг 4: Собираем агента на OpenClaw — почему не на LangChain

LangChain — это здорово, но для embedded-систем он слишком тяжёлый. OpenClaw — минималистичный фреймворк, написанный на Python, который делает ровно то, что нужно: принимает запрос, отправляет в LLM, выполняет инструменты.

Устанавливаем:

pip install openclaw-agent

Создаём конфигурационный файл agent_config.yaml:

model:
  path: "/home/ваш_пользователь/llama.cpp/models/phi-4-3.8b-q5_k_m.gguf"
  backend: "llama-cpp"
  context_size: 4096

tools:
  - name: "web_search"
    type: "duckduckgo"
    api_key: ""  # для DuckDuckGo не нужен
  - name: "calculator"
    type: "python_eval"

server:
  host: "0.0.0.0"
  port: 8080
  auth_token: "ваш_секретный_токен"  # обязательно!

Запускаем агента:

openclaw-server --config agent_config.yaml

Теперь у вас есть AI-агент, доступный по HTTP на порту 8080. Он потребляет примерно 8-10 ватт в простое и 12-15 ватт при активной работе с моделью.

Не открывайте порт 8080 в интернет без reverse proxy и аутентификации! Иначе ваш агент станет частью ботнета. Используйте nginx с SSL и базовой аутентификацией, или, ещё лучше, VPN (WireGuard).

Шаг 5: Настройка энергосбережения — те самые 80% экономии

По умолчанию Jetson работает в режиме максимальной производительности. Но ваш агент не всегда что-то обрабатывает. Ночью запросов может не быть вообще. Зачем тогда греть чип?

Включаем динамическое управление частотой:

sudo nvpmodel -m 1  # Режим 10W (было 15W)
sudo jetson_clocks --show  # Показывает текущие частоты

Устанавливаем jetson_stats для мониторинга:

sudo pip install jetson-stats
jtop  # Запускает монитор ресурсов

В jtop видите температуру (должна быть 40-50°C), потребление CPU, GPU, память. Если температура поднимается выше 70°C — проверьте, не забилась ли пылью решётка кулера.

Настраиваем автоматическое снижение частоты при простое. Создаём скрипт /usr/local/bin/power_saver.sh:

#!/bin/bash
# Проверяем загрузку CPU за последнюю минуту
load=$(uptime | awk -F'load average:' '{ print $2 }' | cut -d, -f1 | tr -d ' ')

# Если загрузка меньше 0.3, переключаем в режим 5W
if (( $(echo "$load < 0.3" | bc -l) )); then
    sudo nvpmodel -m 0  # 5W mode
else
    sudo nvpmodel -m 1  # 10W mode
fi

Добавляем в crontab выполнение каждые 5 минут:

crontab -e
# Добавляем строку
*/5 * * * * /usr/local/bin/power_saver.sh

Сколько вы сэкономите на самом деле?

Давайте посчитаем. Возьмём тариф на электроэнергию 8 рублей за кВт·ч (актуально для многих регионов России на 2026 год).

Система	Потребление (Вт)	В месяц (кВт·ч)	Стоимость в месяц	Стоимость в год
ПК с RTX 4090	800	576	4 608 ₽	55 296 ₽
Jetson Orin Nano Super (режим 10W)	10	7.2	58 ₽	696 ₽

Разница — 54 600 рублей в год. За эти деньги можно купить ещё три Jetson Orin Nano Super. Или оплатить интернет на десять лет вперёд.

💡

Если интересна тема экологичности ИИ, почитайте разбор мифа об углеродном следе нейросетей. Там цифры ещё интереснее.

Что делать, когда одного Jetson станет мало

Ваш агент набирает популярность, запросов становится больше, одна модель не справляется. Варианты:

Вертикальное масштабирование — купить более мощный Jetson, например, Orin NX (100 TOPS) или даже Jetson Thor T5000 (2070 TFLOPS). Но потребление вырастет до 60-100 ватт.
Горизонтальное масштабирование — купить второй такой же Orin Nano Super и распределить нагрузку. Это дешевле, чем один мощный модуль, и даёт отказоустойчивость.
Оптимизация — перейти на более лёгкую модель (например, с 8B на 3B) или использовать более агрессивное квантование.

Для горизонтального масштабирования понадобится балансировщик нагрузки. Самый простой вариант — nginx:

upstream ai_backend {
    server 192.168.1.100:8080;  # Первый Jetson
    server 192.168.1.101:8080;  # Второй Jetson
}

server {
    listen 80;
    server_name ai-agent.local;

    location / {
        proxy_pass http://ai_backend;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

Типичные ошибки, которые сведут экономию на нет

Использование SD-карты вместо SSD. SD-карта медленная и быстро изнашивается при активной записи логов. Подключайте SSD через USB 3.0 или M.2 (есть в некоторых корпусах для Jetson).
Отсутствие охлаждения. Да, в комплекте есть кулер, но если вы запихнёте Jetson в закрытый корпус без вентиляции, он будет перегреваться и троттлить. Температура выше 85°C — это аварийный режим.
Запуск всего в Docker. Docker на ARM — это дополнительные накладные расходы. Если можно запустить нативно — запускайте нативно.
Неправильное квантование модели. Q2_K — слишком агрессивно, качество ответов падает. Q8 — почти нет сжатия, не влезает в память. Оптимально: Q4_K_M или Q5_K_M.

А что насчёт будущего? AGI на 15 ватт?

К 2026 году уже очевидно: будущее не за гигантскими моделями на 1000 GPU, а за эффективными архитектурами, которые работают на ограниченном железе. Эволюция AI через ограничения — это не компромисс, а единственный путь к массовому внедрению.

Ваш Jetson Orin Nano Super сегодня запускает помощника для ответов на вопросы. Завтра на таком же железе будет работать VLM для дрона, который сам понимает, куда лететь. Послезавтра — локальный AGI, который управляет вашим умным домом, не отправляя данные в облако.

И всё это — за 58 рублей в месяц за электричество. Неплохо для начала.

AI-агент за копейки: как Jetson Orin Nano Super жрёт 15 ватт вместо 800