Как загрузить NVIDIA Nemotron 3 Nano NVFP4 в LM Studio: решение ошибки Hugging Face | AiManual
AiManual Logo Ai / Manual.
01 Фев 2026 Гайд

LM Studio не видит Nemotron 3 Nano NVFP4? Вот как загрузить модель вручную через Hugging Face

Пошаговый гайд по ручной загрузке Nemotron 3 Nano NVFP4 в LM Studio. Исправляем проблему с Hugging Face, скачиваем модель и настраиваем форматы. Работает на 01.

Почему LM Studio отказывается качать Nemotron 3 Nano NVFP4

Вы открываете LM Studio, вводите в поиске "nemotron-3-nano-4b-instruct-nvfp4" и видите пустой экран. Или хуже - модель появляется, но кнопка "Download" не работает. Это не ваша вина. Это классический случай, когда интерфейс отстаёт от реальности.

На 01.02.2026 проблема всё ещё актуальна. LM Studio не всегда корректно обрабатывает новые форматы квантования от NVIDIA, особенно NVFP4, который появился вместе с архитектурой Blackwell.

NVFP4 - это новый 4-битный формат с плавающей точкой от NVIDIA. Он даёт прирост скорости в 1.8-2.3 раза по сравнению с традиционным INT4 на картах Blackwell и даже на некоторых RTX 5000-й серии с поддержкой новых инструкций. Проблема в том, что LM Studio ожидает стандартные форматы (GGUF, GPTQ), а NVFP4 требует особого подхода.

Что на самом деле происходит в фоне

Когда вы кликаете на модель в LM Studio, программа делает запрос к Hugging Face API. Если модель имеет нестандартную структуру или требует особых прав доступа (а Nemotron 3 Nano часто требует принятия лицензии), LM Studio просто молча проваливается. В логах вы увидите что-то вроде:

ERROR: Failed to fetch model metadata from Hugging Face
ERROR: License agreement required for nvidia/Nemotron-3-4B-Instruct-NVFP4

Hugging Face в 2026 году стал строже с лицензиями. NVIDIA требует принять соглашение перед скачиванием их моделей. LM Studio этого не умеет - он просто показывает пустой экран.

1 Принимаем лицензию на Hugging Face вручную

Первое, что нужно сделать - открыть страницу модели в браузере. Не в LM Studio, а в обычном Chrome или Firefox. Вот прямая ссылка:

https://huggingface.co/nvidia/Nemotron-3-4B-Instruct-NVFP4

Вы увидите большую кнопку "Agree and access repository". Нажмите её. Вас попросят авторизоваться (если не авторизованы) и принять лицензионное соглашение NVIDIA. Это обязательно - без этого вы не скачаете ни одного файла.

💡
Если у вас нет аккаунта Hugging Face - создайте его. Это бесплатно и занимает 2 минуты. Без аккаунта вы не сможете принять лицензию, а значит и скачать модель.

2 Скачиваем модель через huggingface-hub

Теперь, когда лицензия принята, можно качать. Самый надёжный способ - через Python библиотеку huggingface-hub. Откройте терминал (PowerShell на Windows, Terminal на macOS/Linux) и выполните:

pip install huggingface-hub

Если pip не работает, попробуйте pip3. После установки создайте Python скрипт:

from huggingface_hub import snapshot_download

local_dir = "./models/nemotron-3-nano-nvfp4"

snapshot_download(
    repo_id="nvidia/Nemotron-3-4B-Instruct-NVFP4",
    local_dir=local_dir,
    local_dir_use_symlinks=False,
    resume_download=True,
    token="YOUR_HF_TOKEN"  # необязательно, если уже авторизованы
)

Сохраните как download_nemotron.py и запустите:

python download_nemotron.py

Скачивание займёт 2-4 ГБ в зависимости от точности. NVFP4 версия весит около 2.3 ГБ - это оптимально для карт с 8 ГБ VRAM вроде RTX 5060 Ti или RTX 4070.

Не используйте git clone! Модели на Hugging Face в 2026 году используют Git LFS, и простой git clone скачает только указатели на файлы, а не сами файлы. huggingface-hub решает эту проблему автоматически.

3 Копируем модель в папку LM Studio

LM Studio ищет модели в определённых местах. На Windows это обычно:

C:\Users\ВАШ_ПОЛЬЗОВАТЕЛЬ\AppData\Local\LM Studio\models

На macOS:

~/Library/Application Support/LM Studio/models

На Linux:

~/.local/share/lm-studio/models

Скопируйте всю скачанную папку (nemotron-3-nano-nvfp4) в эту директорию. Или создайте симлинк:

# На Linux/macOS
ln -s /путь/к/скачанной/папке ~/.local/share/lm-studio/models/nemotron-3-nano-nvfp4

# На Windows (PowerShell администратор)
New-Item -ItemType SymbolicLink -Path "$env:APPDATA\LM Studio\models\nemotron-3-nano-nvfp4" -Target "C:\путь\к\скачанной\папке"

4 Загружаем модель в LM Studio

Теперь откройте LM Studio. Перейдите на вкладку "Select a model" и нажмите кнопку обновления (↻) в правом верхнем углу. Модель должна появиться в списке "Local Models".

Если не появилась - проверьте:

  • Файл конфигурации должен называться config.json и находиться в корне папки модели
  • В папке должны быть файлы .safetensors (это формат, который использует NVIDIA для NVFP4)
  • Проверьте права доступа к папке

Почему NVFP4 - это важно в 2026 году

NVFP4 не просто ещё один формат квантования. Это специализированный формат для архитектуры Blackwell и новых RTX 5000-й серии. Если у вас RTX 5060 Ti, вы получите реальный прирост скорости.

Формат Размер Скорость на RTX 5060 Ti Качество
NVFP4 (новый) 2.3 ГБ 45 токенов/с 98% от FP16
INT4 (старый) 2.4 ГБ 28 токенов/с 96% от FP16
FP16 (оригинал) 8.2 ГБ 22 токенов/с 100%

Разница в 1.6 раза между NVFP4 и INT4 - это существенно. Особенно если вы используете модель для чата или кодинга. Подробнее о различиях форматов читайте в сравнении NVFP4 и INT4.

Четыре ошибки, которые сломают всё

Ошибка 1: Скачивание через wget или curl

Некоторые пытаются скачать файлы вручную через wget. Это приводит к неполной загрузке (пропускаются LFS-файлы). Результат - LM Studio видит папку, но не может загрузить модель.

Ошибка 2: Копирование не всех файлов

В папке модели должны быть:

  • config.json
  • model.safetensors (или несколько .safetensors файлов)
  • tokenizer.json или tokenizer_config.json
  • special_tokens_map.json
  • generation_config.json

Если чего-то нет - скачайте заново через huggingface-hub.

Ошибка 3: Попытка конвертировать NVFP4 в GGUF

Не пытайтесь конвертировать NVFP4 в GGUF через llama.cpp или другие инструменты. NVFP4 использует специфичную для NVIDIA квантование, которая не поддерживается стандартными конвертерами. Работайте с ним как с нативной моделью в LM Studio.

Ошибка 4: Игнорирование CUDA версии

NVFP4 требует CUDA 12.4 или новее. Проверьте:

nvcc --version

Если у вас CUDA 11.x - обновите драйверы NVIDIA. LM Studio использует свою версию CUDA, но для максимальной производительности лучше иметь актуальную систему.

Что делать, если LM Studio всё равно не видит модель

Есть nuclear option. Закройте LM Studio полностью (не минимизируйте, а закройте). Удалите кэш:

  • Windows: %APPDATA%\LM Studio\cache
  • macOS: ~/Library/Caches/lm-studio
  • Linux: ~/.cache/lm-studio

Перезапустите LM Studio. Теперь он пересканирует папки с моделями.

Если и это не помогает - проверьте, поддерживает ли ваша версия LM Studio формат safetensors. Обновитесь до последней версии (на 01.02.2026 это 0.3.4 или новее).

💡
Nemotron 3 Nano имеет особенность - она любит "думать вслух". Если модель пишет лишние рассуждения, прочитайте как отключить навязчивое мышление.

Альтернатива: запуск через llama.cpp напрямую

Если LM Studio упорно отказывается работать с NVFP4, есть запасной вариант. Скачайте llama.cpp с поддержкой CUDA:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUDA=1

Затем конвертируйте модель (если нужно) и запускайте:

./main -m ./models/nemotron-3-nano-nvfp4/model.safetensors \
  -n 512 -t 8 --color -c 2048 \
  --temp 0.7 --repeat_penalty 1.1 \
  -p "### Instruction: Напиши код на Python для сортировки списка\n### Response:"

Это даст вам прямой доступ к модели без посредников. Но вы потеряете удобный интерфейс LM Studio.

Почему NVIDIA делает такие сложные модели

Nemotron 3 Nano - это не просто ещё одна маленькая модель. Это демонстрация технологий NVIDIA для edge-устройств. Модель оптимизирована для запуска на Jetson Orin, Blackwell GPUs и даже на некоторых смартфонах с поддержкой TensorRT.

Если вам интересно, зачем NVIDIA понадобилась своя LLM, у нас есть подробный разбор.

NVFP4 - это первый шаг к специализированным форматам для конкретного железа. В будущем (2027-2028) мы увидим форматы, которые будут работать в 3-4 раза быстрее на конкретных GPU, но совершенно бесполезны на других.

Сейчас главное - научиться работать с этими форматами. Потому что старые методы (скачать через интерфейс) уже не работают. Придётся копать глубже, читать документацию и иногда писать скрипты.

Но результат того стоит. 45 токенов в секунду на 4B модели - это уровень, который год назад был фантастикой для карты за $500. Сейчас это реальность. Нужно только правильно скачать модель.