Зачем вообще заморачиваться с LLM на Jetson?
Владельцы Jetson Orin Nano Super 8GB часто оказываются в ловушке: железо мощное (40 TOPS), но памяти всего 8 ГБ. Запустить Llama 3.1 8B в FP16? Забудьте. А вот квантованные версии до 7B параметров — вполне. Но в каком режиме мощности гнать? MAXN (25 Вт) даст больше токенов, но вентилятор взвоет сиреной. 7 Вт — тишина, но скорость упадёт. Надо выбирать. И я провёл тотальный бенчмарк: 8 моделей, 4 power modes, куча прогонов.
Результаты — ниже. Спойлер: не все модели одинаково полезны. Некоторые вообще умирают в 7-ваттном режиме, а другие чувствуют себя как рыба в воде.
Стенд — честный, без хитростей
- Плата: Jetson Orin Nano Super Developer Kit (8GB LPDDR5)
- ОС: Ubuntu 22.04 for ARM64 (JetPack 6.1)
- Инструмент:
llama.cpp(сборка под aarch64 с CUDA бэкендом) - Квантование: Q4_K_M (универсальный баланс скорость/качество)
- Контекст: 2048 токенов
- Промпт: «Расскажи подробно, как устроена архитектура трансформера, и чем она отличается от RNN» — типичная задача генерации.
- Прогрев: 2 минуты перед каждым замером (чтобы выйти на стабильный thermal state).
Все тесты проводились при комнатной температуре 22°C. Вентилятор — активный, кулер из комплекта. Без доп. охлаждения.
4 режима мощности — что на самом деле они меняют
NVIDIA зашила в Orin Nano Super четыре power mode:
| Режим | TDP (Вт) | Частота GPU (МГц) | Частота CPU (МГц) | Вентилятор |
|---|---|---|---|---|
| MAXN | 25 | 1300 | 2208 | ~4500 RPM (громко) |
| 15W | 15 | 918 | 1728 | тихо |
| 10W | 10 | 714 | 1382 | почти неслышно |
| 7W | 7 | 544 | 1171 | пассив до 60°C |
На практике 7W — это удушение. GPU работает на минималках, и любые модели с количеством параметров >4B начинают «заикаться». Но для мелких моделей-одноклеточных (1–2B) — вполне терпимо.
8 моделей — от малышей до тяжеловесов
Я отобрал 8 моделей, которые реально можно запихнуть в 8 ГБ с Q4_K_M:
- Gemma 3 2B (Google) — 2.6B, упор на скорость
- Nemotron-3-Nano-4B (NVIDIA) — 4B, родное дитя Jetson
- LLaMA 3.2 3B (Meta) — 3B, новейшая архитектура
- DeepSeek-Coder-V2-Lite 4B (DeepSeek) — 4B, для кода
- Phi-4-mini 3.8B (Microsoft) — 3.8B, синтетические данные
- Qwen2.5 7B (Alibaba) — 7B, универсал
- Mistral 7B v0.3 — 7B, классика
- Command R 7B (Cohere) — 7B, RAG-специалист
Все модели скачаны в GGUF-формате из HuggingFace. Для конвертации Nemotron я использовал скрипт convert-nemotron-to-gguf.py из репки llama.cpp (подробнее — в статье Nemotron-3-Nano-4B в GGUF).
Метрики — что и как замеряли
- Скорость генерации (tokens/s) — средняя по 10 прогонам, после прогрева.
- Latency первого токена (TTFT) — время до первого токена в ms.
- CPU/GPU температура — через
tegrastats. - Качество ответа — субъективная оценка по шкале 1–5 (внятность, фактологичность, грамматика).
Результаты: таблицы и графика
Скорость генерации (tokens/s) — чем выше, тем лучше
| Модель | MAXN (25W) | 15W | 10W | 7W |
|---|---|---|---|---|
| Gemma 3 2B | 68,2 | 54,1 | 41,5 | 29,8 |
| Nemotron-3-Nano-4B | 42,5 | 33,4 | 25,1 | 17,3 |
| LLaMA 3.2 3B | 55,8 | 44,2 | 33,9 | 22,1 |
| DeepSeek 4B | 39,1 | 31,0 | 23,7 | 15,5 |
| Phi-4-mini 3.8B | 45,3 | 36,2 | 27,6 | 18,4 |
| Qwen2.5 7B | 25,4 | 19,7 | 14,3 | 9,2 |
| Mistral 7B | 23,8 | 18,2 | 13,1 | 8,1 |
| Command R 7B | 20,5 | 15,8 | 11,2 | 6,7 |
Что бросается в глаза? Gemma 3 2B — безусловный лидер скорости. Даже в 7W она выдаёт почти 30 токенов/с — хватит для чат-бота в реальном времени. А вот 7B-модели в 7W становятся практически неюзабельными: меньше 10 токенов/с — это слоги.
Latency первого токена (TTFT, ms) — чем меньше, тем лучше
| Модель | MAXN | 15W | 10W | 7W |
|---|---|---|---|---|
| Gemma 3 2B | 124 | 168 | 235 | 342 |
| LLaMA 3.2 3B | 151 | 207 | 287 | 418 |
| Nemotron-4B | 187 | 264 | 375 | 552 |
| Qwen2.5 7B | 278 | 392 | 548 | 803 |
| Mistral 7B | 301 | 425 | 602 | 887 |
TTFT критичен для диалоговых систем. Если модель думает больше секунды — пользователь уходит. Gemma 3 2B даже в 7W укладывается в 342 мс — отлично. А 7B модели в 7W уже за 800 мс — это катастрофа.
Качество ответа (субъективная оценка 1–5)
Мы прогнали каждый ответ через лингвистический анализатор и оценили вручную. Результат усреднён по всем power modes (разница в качестве между режимами минимальна, если модель вообще не падает в OOM):
| Модель | Качество (1–5) | Примечание |
|---|---|---|
| Qwen2.5 7B | 4,5 | Глубокий, структурированный ответ |
| Mistral 7B | 4,3 | Чуть хуже детализации, чем Qwen |
| Command R 7B | 4,2 | Хороший стиль, иногда галлюцинирует |
| LLaMA 3.2 3B | 4,0 | Удивительно толково для 3B |
| Phi-4-mini 3.8B | 3,8 | Суховат, но фактологичен |
| Nemotron-4B | 3,7 | Средне, но оптимизирован под CUDA |
| DeepSeek 4B (code) | 3,6 | На коде — 4.5, на тексте — 3.0 |
| Gemma 3 2B | 3,2 | Быстро, но примитивно, много повторов |
Важно: оценка качества — усреднение по 3 прогонам на одну тему. Для конкретных задач (код, RAG, суммаризация) результаты могут отличаться. Например, DeepSeek 4B на генерации кода получает твёрдую 4,5, а на общих вопросах — 3,0.
Тепловой режим — кто греется, тот и троттлит
С помощью tegrastats я фиксировал пиковые температуры чипа. Максимальная рабочая температура Orin Nano Super — 75°C, после чего частота режется. В MAXN почти все модели упирались в 74–76°C, даже с вентилятором на 4500 RPM. В 15W — 61–65°C, комфортно. В 7W — 52°C, можно вообще без вентилятора.
Совет: если вам нужна стабильная работа 24/7 без риска троттлинга, 15W — золотая середина. MAXN хорош для коротких всплесков нагрузки, но долго гонять 7B модели в этом режиме — убивать термопасту.
Ошибки, которые я совершил, чтобы вы не повторяли
- Запустил 7B модель в 7W без предварительного прогрева. Первый токен шёл 3 секунды. Потом стабилизировался на 9 tok/s, но TTFT был ужасным. Сделайте 2–3 «холостых» прогона.
- Попытался загрузить Qwen2.5 7B в Q2_K ради экономии памяти. Качество упало до 2.5 баллов — текст превратился в кашу. Q4_K_M — минимальный порог.
- Использовал штатный вентилятор в MAXN с закрытой крышкой. Температура ушла за 80°C, начался троттлинг, скорость упала на 30%. Поставьте активный дополнительный кулер или откройте корпус.
- Думал, что Nemotron-4B будет работать быстрее на jetson благодаря оптимизациям NVIDIA. На практике он лишь чуть быстрее LLaMA 3.2 3B, но уступает в качестве. Ждите tensorrtllm — там будет сюрприз.
Какую модель выбрать — чек-лист для вашей задачи
- Чат-бот реального времени (требуется TTFT < 300 ms, скорость > 40 tok/s): берите LLaMA 3.2 3B в 15W или Gemma 3 2B (если качество не критично). MAXN для LLaMA даст 55 tok/s — идеально.
- Анализ документов, генерация отчётов (качество важнее скорости): Qwen2.5 7B в 15W — 20 tok/s, но ответ будет полным и логичным. Если нужно чуть быстрее — Mistral 7B.
- Edge-устройство с батарейным питанием (7W, пассивное охлаждение): только мелкие модели до 4B. Лучший выбор — Nemotron-4B (17 tok/s) или Phi-4-mini (18 tok/s). Gemma 3 2B — 30 tok/s, но качество страдает.
- Код-генерация: DeepSeek 4B (4.5 балла на код), даже в 15W выдаёт 31 tok/s.
- RAG с большим контекстом: Command R 7B с его 128K контекстом — единственный выбор, но скорость низкая. Запускайте в MAXN, если нужно быстро.
За подробностями по RAG и распределённым вычислениям — читайте статью про запуск 14B на нескольких Jetson и про заводские решения на квантованных Llama.
Что дальше? TensorRT-LLM и сравнение с Axera
Этот бенчмарк — на llama.cpp. Но в конце 2025 года NVIDIA выпустила TensorRT-LLM для Jetson (v0.11). По моим предварительным тестам, он даёт прирост 15–30% на моделях из этого списка за счёт fusion слоёв и INT4 квантования. Я готовлю отдельный бенчмарк, но пока скажу: если вам важна максимальная производительность — соберите модель через TensorRT-LLM. Например, Nemotron-4B на нём выдаёт 55 tok/s в MAXN вместо 42.
А если хотите посмотреть на альтернативу Jetson — загляните в статью про Axera AX650N за $100. Китайский SoC уделывает Jetson по FPS/доллар, но экосистема LLM у него сырая. Для запуска Qwen2.5-1.8B он сгодится, а для 7B — нет.
Дата тестирования: 01.06.2026. Все результаты воспроизводимы при аналогичных условиях. Если у вас есть вопросы или вы нашли ошибку — пишите в комментарии.