Публикация AiManual

Бенчмарк LLM на Jetson Orin Nano Super 8GB: производительность 8 моделей в 4 режимах мощности

Тестируем 8 LLM (Qwen2.5, LLaMA 3.2, Nemotron, Phi-4, Gemma 3, Mistral, Command R, DeepSeek) на Jetson Orin Nano Super в 4 режимах мощности. Сравнение скорости,

8 мин чтения 02.06.2026

Коротко

Что будет в материале

01
Зачем вообще заморачиваться с LLM на Jetson?
02
Стенд — честный, без хитростей
03
4 режима мощности — что на самом деле они меняют
04
8 моделей — от малышей до тяжеловесов

Зачем вообще заморачиваться с LLM на Jetson?

Владельцы Jetson Orin Nano Super 8GB часто оказываются в ловушке: железо мощное (40 TOPS), но памяти всего 8 ГБ. Запустить Llama 3.1 8B в FP16? Забудьте. А вот квантованные версии до 7B параметров — вполне. Но в каком режиме мощности гнать? MAXN (25 Вт) даст больше токенов, но вентилятор взвоет сиреной. 7 Вт — тишина, но скорость упадёт. Надо выбирать. И я провёл тотальный бенчмарк: 8 моделей, 4 power modes, куча прогонов.

Результаты — ниже. Спойлер: не все модели одинаково полезны. Некоторые вообще умирают в 7-ваттном режиме, а другие чувствуют себя как рыба в воде.

💡

Контекст: если вы ещё не читали статью про AI-агента за копейки, там я разбирал энергопотребление Orin Nano Super. Спойлер: 15 Вт — реальность, в MAXN — 25 Вт. Этот бенчмарк продолжает ту тему.

Стенд — честный, без хитростей

Плата: Jetson Orin Nano Super Developer Kit (8GB LPDDR5)
ОС: Ubuntu 22.04 for ARM64 (JetPack 6.1)
Инструмент: llama.cpp (сборка под aarch64 с CUDA бэкендом)
Квантование: Q4_K_M (универсальный баланс скорость/качество)
Контекст: 2048 токенов
Промпт: «Расскажи подробно, как устроена архитектура трансформера, и чем она отличается от RNN» — типичная задача генерации.
Прогрев: 2 минуты перед каждым замером (чтобы выйти на стабильный thermal state).

Все тесты проводились при комнатной температуре 22°C. Вентилятор — активный, кулер из комплекта. Без доп. охлаждения.

4 режима мощности — что на самом деле они меняют

NVIDIA зашила в Orin Nano Super четыре power mode:

Режим	TDP (Вт)	Частота GPU (МГц)	Частота CPU (МГц)	Вентилятор
MAXN	25	1300	2208	~4500 RPM (громко)
15W	15	918	1728	тихо
10W	10	714	1382	почти неслышно
7W	7	544	1171	пассив до 60°C

На практике 7W — это удушение. GPU работает на минималках, и любые модели с количеством параметров >4B начинают «заикаться». Но для мелких моделей-одноклеточных (1–2B) — вполне терпимо.

8 моделей — от малышей до тяжеловесов

Я отобрал 8 моделей, которые реально можно запихнуть в 8 ГБ с Q4_K_M:

Gemma 3 2B (Google) — 2.6B, упор на скорость
Nemotron-3-Nano-4B (NVIDIA) — 4B, родное дитя Jetson
LLaMA 3.2 3B (Meta) — 3B, новейшая архитектура
DeepSeek-Coder-V2-Lite 4B (DeepSeek) — 4B, для кода
Phi-4-mini 3.8B (Microsoft) — 3.8B, синтетические данные
Qwen2.5 7B (Alibaba) — 7B, универсал
Mistral 7B v0.3 — 7B, классика
Command R 7B (Cohere) — 7B, RAG-специалист

Все модели скачаны в GGUF-формате из HuggingFace. Для конвертации Nemotron я использовал скрипт convert-nemotron-to-gguf.py из репки llama.cpp (подробнее — в статье Nemotron-3-Nano-4B в GGUF).

Метрики — что и как замеряли

Скорость генерации (tokens/s) — средняя по 10 прогонам, после прогрева.
Latency первого токена (TTFT) — время до первого токена в ms.
CPU/GPU температура — через tegrastats.
Качество ответа — субъективная оценка по шкале 1–5 (внятность, фактологичность, грамматика).

Результаты: таблицы и графика

Скорость генерации (tokens/s) — чем выше, тем лучше

Модель	MAXN (25W)	15W	10W	7W
Gemma 3 2B	68,2	54,1	41,5	29,8
Nemotron-3-Nano-4B	42,5	33,4	25,1	17,3
LLaMA 3.2 3B	55,8	44,2	33,9	22,1
DeepSeek 4B	39,1	31,0	23,7	15,5
Phi-4-mini 3.8B	45,3	36,2	27,6	18,4
Qwen2.5 7B	25,4	19,7	14,3	9,2
Mistral 7B	23,8	18,2	13,1	8,1
Command R 7B	20,5	15,8	11,2	6,7

Что бросается в глаза? Gemma 3 2B — безусловный лидер скорости. Даже в 7W она выдаёт почти 30 токенов/с — хватит для чат-бота в реальном времени. А вот 7B-модели в 7W становятся практически неюзабельными: меньше 10 токенов/с — это слоги.

Latency первого токена (TTFT, ms) — чем меньше, тем лучше

Модель	MAXN	15W	10W	7W
Gemma 3 2B	124	168	235	342
LLaMA 3.2 3B	151	207	287	418
Nemotron-4B	187	264	375	552
Qwen2.5 7B	278	392	548	803
Mistral 7B	301	425	602	887

TTFT критичен для диалоговых систем. Если модель думает больше секунды — пользователь уходит. Gemma 3 2B даже в 7W укладывается в 342 мс — отлично. А 7B модели в 7W уже за 800 мс — это катастрофа.

Качество ответа (субъективная оценка 1–5)

Мы прогнали каждый ответ через лингвистический анализатор и оценили вручную. Результат усреднён по всем power modes (разница в качестве между режимами минимальна, если модель вообще не падает в OOM):

Модель	Качество (1–5)	Примечание
Qwen2.5 7B	4,5	Глубокий, структурированный ответ
Mistral 7B	4,3	Чуть хуже детализации, чем Qwen
Command R 7B	4,2	Хороший стиль, иногда галлюцинирует
LLaMA 3.2 3B	4,0	Удивительно толково для 3B
Phi-4-mini 3.8B	3,8	Суховат, но фактологичен
Nemotron-4B	3,7	Средне, но оптимизирован под CUDA
DeepSeek 4B (code)	3,6	На коде — 4.5, на тексте — 3.0
Gemma 3 2B	3,2	Быстро, но примитивно, много повторов

Важно: оценка качества — усреднение по 3 прогонам на одну тему. Для конкретных задач (код, RAG, суммаризация) результаты могут отличаться. Например, DeepSeek 4B на генерации кода получает твёрдую 4,5, а на общих вопросах — 3,0.

Тепловой режим — кто греется, тот и троттлит

С помощью tegrastats я фиксировал пиковые температуры чипа. Максимальная рабочая температура Orin Nano Super — 75°C, после чего частота режется. В MAXN почти все модели упирались в 74–76°C, даже с вентилятором на 4500 RPM. В 15W — 61–65°C, комфортно. В 7W — 52°C, можно вообще без вентилятора.

Совет: если вам нужна стабильная работа 24/7 без риска троттлинга, 15W — золотая середина. MAXN хорош для коротких всплесков нагрузки, но долго гонять 7B модели в этом режиме — убивать термопасту.

Ошибки, которые я совершил, чтобы вы не повторяли

Запустил 7B модель в 7W без предварительного прогрева. Первый токен шёл 3 секунды. Потом стабилизировался на 9 tok/s, но TTFT был ужасным. Сделайте 2–3 «холостых» прогона.
Попытался загрузить Qwen2.5 7B в Q2_K ради экономии памяти. Качество упало до 2.5 баллов — текст превратился в кашу. Q4_K_M — минимальный порог.
Использовал штатный вентилятор в MAXN с закрытой крышкой. Температура ушла за 80°C, начался троттлинг, скорость упала на 30%. Поставьте активный дополнительный кулер или откройте корпус.
Думал, что Nemotron-4B будет работать быстрее на jetson благодаря оптимизациям NVIDIA. На практике он лишь чуть быстрее LLaMA 3.2 3B, но уступает в качестве. Ждите tensorrtllm — там будет сюрприз.

Какую модель выбрать — чек-лист для вашей задачи

Чат-бот реального времени (требуется TTFT < 300 ms, скорость > 40 tok/s): берите LLaMA 3.2 3B в 15W или Gemma 3 2B (если качество не критично). MAXN для LLaMA даст 55 tok/s — идеально.
Анализ документов, генерация отчётов (качество важнее скорости): Qwen2.5 7B в 15W — 20 tok/s, но ответ будет полным и логичным. Если нужно чуть быстрее — Mistral 7B.
Edge-устройство с батарейным питанием (7W, пассивное охлаждение): только мелкие модели до 4B. Лучший выбор — Nemotron-4B (17 tok/s) или Phi-4-mini (18 tok/s). Gemma 3 2B — 30 tok/s, но качество страдает.
Код-генерация: DeepSeek 4B (4.5 балла на код), даже в 15W выдаёт 31 tok/s.
RAG с большим контекстом: Command R 7B с его 128K контекстом — единственный выбор, но скорость низкая. Запускайте в MAXN, если нужно быстро.

За подробностями по RAG и распределённым вычислениям — читайте статью про запуск 14B на нескольких Jetson и про заводские решения на квантованных Llama.

Что дальше? TensorRT-LLM и сравнение с Axera

Этот бенчмарк — на llama.cpp. Но в конце 2025 года NVIDIA выпустила TensorRT-LLM для Jetson (v0.11). По моим предварительным тестам, он даёт прирост 15–30% на моделях из этого списка за счёт fusion слоёв и INT4 квантования. Я готовлю отдельный бенчмарк, но пока скажу: если вам важна максимальная производительность — соберите модель через TensorRT-LLM. Например, Nemotron-4B на нём выдаёт 55 tok/s в MAXN вместо 42.

А если хотите посмотреть на альтернативу Jetson — загляните в статью про Axera AX650N за $100. Китайский SoC уделывает Jetson по FPS/доллар, но экосистема LLM у него сырая. Для запуска Qwen2.5-1.8B он сгодится, а для 7B — нет.

Дата тестирования: 01.06.2026. Все результаты воспроизводимы при аналогичных условиях. Если у вас есть вопросы или вы нашли ошибку — пишите в комментарии.

Подписаться на канал