Почему LM Studio отказывается качать Nemotron 3 Nano NVFP4
Вы открываете LM Studio, вводите в поиске "nemotron-3-nano-4b-instruct-nvfp4" и видите пустой экран. Или хуже - модель появляется, но кнопка "Download" не работает. Это не ваша вина. Это классический случай, когда интерфейс отстаёт от реальности.
На 01.02.2026 проблема всё ещё актуальна. LM Studio не всегда корректно обрабатывает новые форматы квантования от NVIDIA, особенно NVFP4, который появился вместе с архитектурой Blackwell.
NVFP4 - это новый 4-битный формат с плавающей точкой от NVIDIA. Он даёт прирост скорости в 1.8-2.3 раза по сравнению с традиционным INT4 на картах Blackwell и даже на некоторых RTX 5000-й серии с поддержкой новых инструкций. Проблема в том, что LM Studio ожидает стандартные форматы (GGUF, GPTQ), а NVFP4 требует особого подхода.
Что на самом деле происходит в фоне
Когда вы кликаете на модель в LM Studio, программа делает запрос к Hugging Face API. Если модель имеет нестандартную структуру или требует особых прав доступа (а Nemotron 3 Nano часто требует принятия лицензии), LM Studio просто молча проваливается. В логах вы увидите что-то вроде:
ERROR: Failed to fetch model metadata from Hugging Face
ERROR: License agreement required for nvidia/Nemotron-3-4B-Instruct-NVFP4
Hugging Face в 2026 году стал строже с лицензиями. NVIDIA требует принять соглашение перед скачиванием их моделей. LM Studio этого не умеет - он просто показывает пустой экран.
1 Принимаем лицензию на Hugging Face вручную
Первое, что нужно сделать - открыть страницу модели в браузере. Не в LM Studio, а в обычном Chrome или Firefox. Вот прямая ссылка:
https://huggingface.co/nvidia/Nemotron-3-4B-Instruct-NVFP4
Вы увидите большую кнопку "Agree and access repository". Нажмите её. Вас попросят авторизоваться (если не авторизованы) и принять лицензионное соглашение NVIDIA. Это обязательно - без этого вы не скачаете ни одного файла.
2 Скачиваем модель через huggingface-hub
Теперь, когда лицензия принята, можно качать. Самый надёжный способ - через Python библиотеку huggingface-hub. Откройте терминал (PowerShell на Windows, Terminal на macOS/Linux) и выполните:
pip install huggingface-hub
Если pip не работает, попробуйте pip3. После установки создайте Python скрипт:
from huggingface_hub import snapshot_download
local_dir = "./models/nemotron-3-nano-nvfp4"
snapshot_download(
repo_id="nvidia/Nemotron-3-4B-Instruct-NVFP4",
local_dir=local_dir,
local_dir_use_symlinks=False,
resume_download=True,
token="YOUR_HF_TOKEN" # необязательно, если уже авторизованы
)
Сохраните как download_nemotron.py и запустите:
python download_nemotron.py
Скачивание займёт 2-4 ГБ в зависимости от точности. NVFP4 версия весит около 2.3 ГБ - это оптимально для карт с 8 ГБ VRAM вроде RTX 5060 Ti или RTX 4070.
Не используйте git clone! Модели на Hugging Face в 2026 году используют Git LFS, и простой git clone скачает только указатели на файлы, а не сами файлы. huggingface-hub решает эту проблему автоматически.
3 Копируем модель в папку LM Studio
LM Studio ищет модели в определённых местах. На Windows это обычно:
C:\Users\ВАШ_ПОЛЬЗОВАТЕЛЬ\AppData\Local\LM Studio\models
На macOS:
~/Library/Application Support/LM Studio/models
На Linux:
~/.local/share/lm-studio/models
Скопируйте всю скачанную папку (nemotron-3-nano-nvfp4) в эту директорию. Или создайте симлинк:
# На Linux/macOS
ln -s /путь/к/скачанной/папке ~/.local/share/lm-studio/models/nemotron-3-nano-nvfp4
# На Windows (PowerShell администратор)
New-Item -ItemType SymbolicLink -Path "$env:APPDATA\LM Studio\models\nemotron-3-nano-nvfp4" -Target "C:\путь\к\скачанной\папке"
4 Загружаем модель в LM Studio
Теперь откройте LM Studio. Перейдите на вкладку "Select a model" и нажмите кнопку обновления (↻) в правом верхнем углу. Модель должна появиться в списке "Local Models".
Если не появилась - проверьте:
- Файл конфигурации должен называться config.json и находиться в корне папки модели
- В папке должны быть файлы .safetensors (это формат, который использует NVIDIA для NVFP4)
- Проверьте права доступа к папке
Почему NVFP4 - это важно в 2026 году
NVFP4 не просто ещё один формат квантования. Это специализированный формат для архитектуры Blackwell и новых RTX 5000-й серии. Если у вас RTX 5060 Ti, вы получите реальный прирост скорости.
| Формат | Размер | Скорость на RTX 5060 Ti | Качество |
|---|---|---|---|
| NVFP4 (новый) | 2.3 ГБ | 45 токенов/с | 98% от FP16 |
| INT4 (старый) | 2.4 ГБ | 28 токенов/с | 96% от FP16 |
| FP16 (оригинал) | 8.2 ГБ | 22 токенов/с | 100% |
Разница в 1.6 раза между NVFP4 и INT4 - это существенно. Особенно если вы используете модель для чата или кодинга. Подробнее о различиях форматов читайте в сравнении NVFP4 и INT4.
Четыре ошибки, которые сломают всё
Ошибка 1: Скачивание через wget или curl
Некоторые пытаются скачать файлы вручную через wget. Это приводит к неполной загрузке (пропускаются LFS-файлы). Результат - LM Studio видит папку, но не может загрузить модель.
Ошибка 2: Копирование не всех файлов
В папке модели должны быть:
- config.json
- model.safetensors (или несколько .safetensors файлов)
- tokenizer.json или tokenizer_config.json
- special_tokens_map.json
- generation_config.json
Если чего-то нет - скачайте заново через huggingface-hub.
Ошибка 3: Попытка конвертировать NVFP4 в GGUF
Не пытайтесь конвертировать NVFP4 в GGUF через llama.cpp или другие инструменты. NVFP4 использует специфичную для NVIDIA квантование, которая не поддерживается стандартными конвертерами. Работайте с ним как с нативной моделью в LM Studio.
Ошибка 4: Игнорирование CUDA версии
NVFP4 требует CUDA 12.4 или новее. Проверьте:
nvcc --version
Если у вас CUDA 11.x - обновите драйверы NVIDIA. LM Studio использует свою версию CUDA, но для максимальной производительности лучше иметь актуальную систему.
Что делать, если LM Studio всё равно не видит модель
Есть nuclear option. Закройте LM Studio полностью (не минимизируйте, а закройте). Удалите кэш:
- Windows: %APPDATA%\LM Studio\cache
- macOS: ~/Library/Caches/lm-studio
- Linux: ~/.cache/lm-studio
Перезапустите LM Studio. Теперь он пересканирует папки с моделями.
Если и это не помогает - проверьте, поддерживает ли ваша версия LM Studio формат safetensors. Обновитесь до последней версии (на 01.02.2026 это 0.3.4 или новее).
Альтернатива: запуск через llama.cpp напрямую
Если LM Studio упорно отказывается работать с NVFP4, есть запасной вариант. Скачайте llama.cpp с поддержкой CUDA:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUDA=1
Затем конвертируйте модель (если нужно) и запускайте:
./main -m ./models/nemotron-3-nano-nvfp4/model.safetensors \
-n 512 -t 8 --color -c 2048 \
--temp 0.7 --repeat_penalty 1.1 \
-p "### Instruction: Напиши код на Python для сортировки списка\n### Response:"
Это даст вам прямой доступ к модели без посредников. Но вы потеряете удобный интерфейс LM Studio.
Почему NVIDIA делает такие сложные модели
Nemotron 3 Nano - это не просто ещё одна маленькая модель. Это демонстрация технологий NVIDIA для edge-устройств. Модель оптимизирована для запуска на Jetson Orin, Blackwell GPUs и даже на некоторых смартфонах с поддержкой TensorRT.
Если вам интересно, зачем NVIDIA понадобилась своя LLM, у нас есть подробный разбор.
NVFP4 - это первый шаг к специализированным форматам для конкретного железа. В будущем (2027-2028) мы увидим форматы, которые будут работать в 3-4 раза быстрее на конкретных GPU, но совершенно бесполезны на других.
Сейчас главное - научиться работать с этими форматами. Потому что старые методы (скачать через интерфейс) уже не работают. Придётся копать глубже, читать документацию и иногда писать скрипты.
Но результат того стоит. 45 токенов в секунду на 4B модели - это уровень, который год назад был фантастикой для карты за $500. Сейчас это реальность. Нужно только правильно скачать модель.