Бенчмарк LLM на Jetson Orin Nano Super 8GB: 8 моделей, 4 power modes | AiManual
AiManual Logo Ai / Manual.
02 Июн 2026 Гайд

Бенчмарк LLM на Jetson Orin Nano Super 8GB: производительность 8 моделей в 4 режимах мощности

Тестируем 8 LLM (Qwen2.5, LLaMA 3.2, Nemotron, Phi-4, Gemma 3, Mistral, Command R, DeepSeek) на Jetson Orin Nano Super в 4 режимах мощности. Сравнение скорости,

Зачем вообще заморачиваться с LLM на Jetson?

Владельцы Jetson Orin Nano Super 8GB часто оказываются в ловушке: железо мощное (40 TOPS), но памяти всего 8 ГБ. Запустить Llama 3.1 8B в FP16? Забудьте. А вот квантованные версии до 7B параметров — вполне. Но в каком режиме мощности гнать? MAXN (25 Вт) даст больше токенов, но вентилятор взвоет сиреной. 7 Вт — тишина, но скорость упадёт. Надо выбирать. И я провёл тотальный бенчмарк: 8 моделей, 4 power modes, куча прогонов.

Результаты — ниже. Спойлер: не все модели одинаково полезны. Некоторые вообще умирают в 7-ваттном режиме, а другие чувствуют себя как рыба в воде.

💡
Контекст: если вы ещё не читали статью про AI-агента за копейки, там я разбирал энергопотребление Orin Nano Super. Спойлер: 15 Вт — реальность, в MAXN — 25 Вт. Этот бенчмарк продолжает ту тему.

Стенд — честный, без хитростей

  • Плата: Jetson Orin Nano Super Developer Kit (8GB LPDDR5)
  • ОС: Ubuntu 22.04 for ARM64 (JetPack 6.1)
  • Инструмент: llama.cpp (сборка под aarch64 с CUDA бэкендом)
  • Квантование: Q4_K_M (универсальный баланс скорость/качество)
  • Контекст: 2048 токенов
  • Промпт: «Расскажи подробно, как устроена архитектура трансформера, и чем она отличается от RNN» — типичная задача генерации.
  • Прогрев: 2 минуты перед каждым замером (чтобы выйти на стабильный thermal state).
Все тесты проводились при комнатной температуре 22°C. Вентилятор — активный, кулер из комплекта. Без доп. охлаждения.

4 режима мощности — что на самом деле они меняют

NVIDIA зашила в Orin Nano Super четыре power mode:

РежимTDP (Вт)Частота GPU (МГц)Частота CPU (МГц)Вентилятор
MAXN2513002208~4500 RPM (громко)
15W159181728тихо
10W107141382почти неслышно
7W75441171пассив до 60°C

На практике 7W — это удушение. GPU работает на минималках, и любые модели с количеством параметров >4B начинают «заикаться». Но для мелких моделей-одноклеточных (1–2B) — вполне терпимо.

8 моделей — от малышей до тяжеловесов

Я отобрал 8 моделей, которые реально можно запихнуть в 8 ГБ с Q4_K_M:

  1. Gemma 3 2B (Google) — 2.6B, упор на скорость
  2. Nemotron-3-Nano-4B (NVIDIA) — 4B, родное дитя Jetson
  3. LLaMA 3.2 3B (Meta) — 3B, новейшая архитектура
  4. DeepSeek-Coder-V2-Lite 4B (DeepSeek) — 4B, для кода
  5. Phi-4-mini 3.8B (Microsoft) — 3.8B, синтетические данные
  6. Qwen2.5 7B (Alibaba) — 7B, универсал
  7. Mistral 7B v0.3 — 7B, классика
  8. Command R 7B (Cohere) — 7B, RAG-специалист

Все модели скачаны в GGUF-формате из HuggingFace. Для конвертации Nemotron я использовал скрипт convert-nemotron-to-gguf.py из репки llama.cpp (подробнее — в статье Nemotron-3-Nano-4B в GGUF).

Метрики — что и как замеряли

  • Скорость генерации (tokens/s) — средняя по 10 прогонам, после прогрева.
  • Latency первого токена (TTFT) — время до первого токена в ms.
  • CPU/GPU температура — через tegrastats.
  • Качество ответа — субъективная оценка по шкале 1–5 (внятность, фактологичность, грамматика).

Результаты: таблицы и графика

Скорость генерации (tokens/s) — чем выше, тем лучше

МодельMAXN (25W)15W10W7W
Gemma 3 2B68,254,141,529,8
Nemotron-3-Nano-4B42,533,425,117,3
LLaMA 3.2 3B55,844,233,922,1
DeepSeek 4B39,131,023,715,5
Phi-4-mini 3.8B45,336,227,618,4
Qwen2.5 7B25,419,714,39,2
Mistral 7B23,818,213,18,1
Command R 7B20,515,811,26,7

Что бросается в глаза? Gemma 3 2B — безусловный лидер скорости. Даже в 7W она выдаёт почти 30 токенов/с — хватит для чат-бота в реальном времени. А вот 7B-модели в 7W становятся практически неюзабельными: меньше 10 токенов/с — это слоги.

Latency первого токена (TTFT, ms) — чем меньше, тем лучше

МодельMAXN15W10W7W
Gemma 3 2B124168235342
LLaMA 3.2 3B151207287418
Nemotron-4B187264375552
Qwen2.5 7B278392548803
Mistral 7B301425602887

TTFT критичен для диалоговых систем. Если модель думает больше секунды — пользователь уходит. Gemma 3 2B даже в 7W укладывается в 342 мс — отлично. А 7B модели в 7W уже за 800 мс — это катастрофа.

Качество ответа (субъективная оценка 1–5)

Мы прогнали каждый ответ через лингвистический анализатор и оценили вручную. Результат усреднён по всем power modes (разница в качестве между режимами минимальна, если модель вообще не падает в OOM):

МодельКачество (1–5)Примечание
Qwen2.5 7B4,5Глубокий, структурированный ответ
Mistral 7B4,3Чуть хуже детализации, чем Qwen
Command R 7B4,2Хороший стиль, иногда галлюцинирует
LLaMA 3.2 3B4,0Удивительно толково для 3B
Phi-4-mini 3.8B3,8Суховат, но фактологичен
Nemotron-4B3,7Средне, но оптимизирован под CUDA
DeepSeek 4B (code)3,6На коде — 4.5, на тексте — 3.0
Gemma 3 2B3,2Быстро, но примитивно, много повторов

Важно: оценка качества — усреднение по 3 прогонам на одну тему. Для конкретных задач (код, RAG, суммаризация) результаты могут отличаться. Например, DeepSeek 4B на генерации кода получает твёрдую 4,5, а на общих вопросах — 3,0.

Тепловой режим — кто греется, тот и троттлит

С помощью tegrastats я фиксировал пиковые температуры чипа. Максимальная рабочая температура Orin Nano Super — 75°C, после чего частота режется. В MAXN почти все модели упирались в 74–76°C, даже с вентилятором на 4500 RPM. В 15W — 61–65°C, комфортно. В 7W — 52°C, можно вообще без вентилятора.

Совет: если вам нужна стабильная работа 24/7 без риска троттлинга, 15W — золотая середина. MAXN хорош для коротких всплесков нагрузки, но долго гонять 7B модели в этом режиме — убивать термопасту.

Ошибки, которые я совершил, чтобы вы не повторяли

  1. Запустил 7B модель в 7W без предварительного прогрева. Первый токен шёл 3 секунды. Потом стабилизировался на 9 tok/s, но TTFT был ужасным. Сделайте 2–3 «холостых» прогона.
  2. Попытался загрузить Qwen2.5 7B в Q2_K ради экономии памяти. Качество упало до 2.5 баллов — текст превратился в кашу. Q4_K_M — минимальный порог.
  3. Использовал штатный вентилятор в MAXN с закрытой крышкой. Температура ушла за 80°C, начался троттлинг, скорость упала на 30%. Поставьте активный дополнительный кулер или откройте корпус.
  4. Думал, что Nemotron-4B будет работать быстрее на jetson благодаря оптимизациям NVIDIA. На практике он лишь чуть быстрее LLaMA 3.2 3B, но уступает в качестве. Ждите tensorrtllm — там будет сюрприз.

Какую модель выбрать — чек-лист для вашей задачи

  • Чат-бот реального времени (требуется TTFT < 300 ms, скорость > 40 tok/s): берите LLaMA 3.2 3B в 15W или Gemma 3 2B (если качество не критично). MAXN для LLaMA даст 55 tok/s — идеально.
  • Анализ документов, генерация отчётов (качество важнее скорости): Qwen2.5 7B в 15W — 20 tok/s, но ответ будет полным и логичным. Если нужно чуть быстрее — Mistral 7B.
  • Edge-устройство с батарейным питанием (7W, пассивное охлаждение): только мелкие модели до 4B. Лучший выбор — Nemotron-4B (17 tok/s) или Phi-4-mini (18 tok/s). Gemma 3 2B — 30 tok/s, но качество страдает.
  • Код-генерация: DeepSeek 4B (4.5 балла на код), даже в 15W выдаёт 31 tok/s.
  • RAG с большим контекстом: Command R 7B с его 128K контекстом — единственный выбор, но скорость низкая. Запускайте в MAXN, если нужно быстро.

За подробностями по RAG и распределённым вычислениям — читайте статью про запуск 14B на нескольких Jetson и про заводские решения на квантованных Llama.

Что дальше? TensorRT-LLM и сравнение с Axera

Этот бенчмарк — на llama.cpp. Но в конце 2025 года NVIDIA выпустила TensorRT-LLM для Jetson (v0.11). По моим предварительным тестам, он даёт прирост 15–30% на моделях из этого списка за счёт fusion слоёв и INT4 квантования. Я готовлю отдельный бенчмарк, но пока скажу: если вам важна максимальная производительность — соберите модель через TensorRT-LLM. Например, Nemotron-4B на нём выдаёт 55 tok/s в MAXN вместо 42.

А если хотите посмотреть на альтернативу Jetson — загляните в статью про Axera AX650N за $100. Китайский SoC уделывает Jetson по FPS/доллар, но экосистема LLM у него сырая. Для запуска Qwen2.5-1.8B он сгодится, а для 7B — нет.


Дата тестирования: 01.06.2026. Все результаты воспроизводимы при аналогичных условиях. Если у вас есть вопросы или вы нашли ошибку — пишите в комментарии.

Подписаться на канал