Шок тишины: гигант размером с файл
Представьте, что взяли мозг Claude 4.6, выжали из него все самое ценное и упаковали в модель на 120 миллиардов параметров. И это не абстракция – на Hugging Face уже лежат готовые веса в трёх форматах: BF16, FP8 и GGUF. Кто-то просто взял и сделал.
Дистилляция – это не магия, а жёсткая оптимизация. Большая модель (учитель) обучает меньшую (ученика) имитировать свои ответы. Результат? Файлы стали меньше, а скорость – выше. И да, качество почти не пострадало.
На 19 марта 2026 года это одна из самых свежих дистиллированных версий от Claude 4.6. Модель сохранила рассуждения оригинала, но теперь её можно запустить на железе, которое раньше и не мечтало о таких масштабах.
Три лица одной модели: какой формат заберёте вы?
На выбор есть три варианта. И каждый ломает привычные представления о том, что можно сделать локально.
| Формат | Размер (примерно) | Для кого | Что нужно |
|---|---|---|---|
| BF16 (оригинал) | ~240 ГБ | Облачные инстансы, серверы с 4+ GPU | Много VRAM, точные расчёты |
| FP8 (8-битный float) | ~120 ГБ | Энтузиасты с одной мощной видеокартой | Поддержка FP8 в железе (новые NVIDIA) |
| GGUF (квантованная) | от 40 ГБ (Q4_K_M) | Владельцы Mac с M-чипами, ПК с 64+ ГБ ОЗУ | llama.cpp и терпение |
FP8 – тёмная лошадка. Формат, который NVIDIA проталкивает уже несколько лет, наконец-то получил нормальную поддержку в библиотеках. Точность почти как у BF16, но места занимает вдвое меньше. Если у вас карта с Tensor Cores 4-го поколения (или новее), это ваш выбор.
GGUF – народный формат. Тот самый, который позволяет запихнуть невероятное в разумное. Подробнее о тонкостях работы с ним в llama.cpp мы уже писали в отдельном руководстве. Там же тесты скорости и потребления памяти.
А что, так можно было? Сравнение с альтернативами
Раньше чтобы получить что-то близкое к Claude, нужно было или платить за API, или собирать модель из кусков. Теперь есть готовая дистиллированная версия.
Сравним с тем, что есть на рынке в начале 2026 года:
- Оригинальный Claude 4.6 через API: Лучшее качество, но нет конфиденциальности, нужен интернет, и счётчик тиков. Дистиллированная Nemotron даёт 80-85% качества почти бесплатно.
- Другие большие open-source модели (Qwen3.5 100B, Mixtral 12x47B): Часто требуют ещё больше ресурсов или хуже справляются с reasoning-задачами. У Nemotron-3-Super-120B здесь преимущество – она училась у одного из лучших.
- Меньшие дистиллированные модели (например, от Nemotron-3-nano): Nemotron-3-nano-30B – отличный пример эффективности, но у 120B-версии явно больше знаний и контекста.
Главный козырь этой модели – баланс. Она не пытается быть самой маленькой, как Nanbeige 3B, и не самая большая. Но она предлагает уровень рассуждений, который раньше был доступен только через облако.
Запуск: от страха к восторгу за 10 минут
Теория – это скучно. Давайте запустим. Самый простой способ – через GGUF и llama.cpp. Почему? Потому что это работает почти везде.
1Скачиваем модель
Идём на Hugging Face, ищем "Nemotron-3-Super-120B-Claude-4.6-GGUF". Выбираем уровень квантования. Для начала подойдёт Q4_K_M – хороший баланс между размером и качеством. Файл весит около 45 ГБ. Да, вам нужен быстрый интернет.
2Ставим llama.cpp
Клонируем репозиторий, собираем с поддержкой Metal (для Mac) или CUDA (для NVIDIA). Инструкций в сети море. Для владельцев Mac есть отдельный гайд с кастомными скриптами.
3Запускаем и удивляемся
./main -m ./nemotron-3-super-120b-claude-4.6.Q4_K_M.gguf -n 512 -p "Ваш промпт здесь"Если всё собрано правильно, вы увидите, как текст начинает появляться. Медленно? На первых токенах – да. Потом модель раскручивается. На MacBook Pro M4 Max с 128 ГБ ОЗУ скорость может достигать 5-7 токенов в секунду. Для 120-миллиардной модели это феноменально.
Внимание! Модель может зацикливаться на рассуждениях. Это известный баг Nemotron 3 Super. Решение – тонкая настройка параметров температуры и повторного штрафа (repeat_penalty).
4Пробуем FP8 (для смелых)
Если у вас современная NVIDIA карта (серия RTX 50xx или новее), можно попробовать формат FP8. Для загрузки используйте библиотеку Transformers с поддержкой bitsandbytes. Скрипт будет выглядеть так:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "username/Nemotron-3-Super-120B-Claude-4.6-FP8"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float8, device_map="auto")Это потребует около 120 ГБ VRAM. Да, это много. Но это в два раза меньше, чем BF16.
Кому это вообще нужно? (Спойлер: многим)
Эта модель – не для всех. Но если вы попадаете в одну из категорий ниже, она может изменить ваш workflow.
- Исследователи AI: Которые хотят экспериментировать с reasoning-моделями локально, без ограничений API.
- Разработчики сложных RAG-систем: Мультимодальный RAG с Llama Nemotron показывает потенциал, а эта модель даст ещё более качественные ответы.
- Энтузиасты с мощным железом: У которых есть Mac с кучей памяти или ПК с несколькими видеокартами. Для них это игрушка и инструмент одновременно.
- Компании, которым нужна конфиденциальность: Все данные остаются на ваших серверах. Никаких утечек в облако.
Если вы только начинаете, возможно, стоит сначала попробовать Nemotron-3-Nano-4B в GGUF – она менее требовательна, но покажет философию.
Неочевидный совет напоследок
Не гонитесь за самой высокой степенью квантования в GGUF. Q4_K_M часто оказывается лучшим выбором, чем Q2_K или Q3_K_S. Разница в размере есть, но потеря качества для reasoning-задач может быть критичной. Иногда лучше подождать лишнюю минуту ответа, но получить осмысленный текст, а не набор клише.
И помните: дистиллированные модели – это не будущее, а настоящее. В 2026 году разговор уже не о том, "можно ли запустить", а о том, "какую именно задачу вы хотите решить". Nemotron-3-Super-120B от Claude 4.6 – мощный аргумент в этом разговоре.