Четыре бита на старте. Серьезно?
Вчера на закрытом брифинге для инвесторов вице-президент NVIDIA по исследованиям Брайан Кантанзаро выпалил фразу, от которой у технического сообщества свело челюсть: "Полная предтренировка Nemotron-3 в 2026 году будет вестись с использованием 4-битного формата с плавающей точкой".
Пауза. Перечитайте. Это не про инференс, не про дообучение, не про лора-адаптеры. Речь о создании модели с нуля, о том самом дорогущем процессе, который сжирает миллионы долларов и месяцы времени на кластерах из тысяч GPU. И все это — в FP4.
До сих пор FP4 (или его вариации вроде NF4) использовали ТОЛЬКО для сжатия уже обученных моделей. Представьте, что строят небоскреб из готовых Lego-кирпичей, а не отливают бетон на месте. Такой подход меняет все правила игры.
Зачем это NVIDIA? (Подсказка: не из доброты душевной)
Кантанзаро, обычно сдержанный, на этот раз говорил откровенно. Мотивация NVIDIA к созданию открытых моделей вроде Nemotron-3 или компактного Nemotron 3 Nano — стратегическая, а не альтруистическая.
"Мы создаем экосистему," — сказал он. — "Когда тысячи разработчиков строят приложения на наших моделях, они оптимизируют их под наше железо. Под наши тензорные ядра, под нашу архитектуру памяти. Это создает естественный lock-in."
Проще говоря: открытая модель — это троянский конь. Вы получаете код, веса, все что хотите. А потом обнаруживаете, что она летает только на RTX 6000 или будущих Blackwell-ускорителях. Конкуренты вроде стартапа Positron или Quadric остаются за бортом.
FP4 предтренировка: где подвох?
Технические детали скупы. Известно, что NVIDIA использует модифицированную версию формата NVFP4, который они анонсировали для инференса. Но тренировка — совсем другое дело.
- Устойчивость градиентов: при 4 битах шум квантования может полностью забить сигнал обратного распространения. NVIDIA, судя по всему, разработала специальные техники стабилизации.
- Динамический диапазон: FP4 дает выигрыш против INT4 в представлении очень больших и очень малых чисел. Критично для этапов тренировки с высоким learning rate.
- Аппаратное ускорение: новые тензорные ядра в архитектуре после Blackwell (условно "Blackwell Next") будут заточены под 4-битные операции с плавающей точкой. Без этого железа выигрыш в скорости будет минимальным.
Если у них получится, экономика изменится навсегда. Тренировка модели размером с GPT-4 перестанет быть уделом горстки корпораций. Но это большое "если".
Что это значит для нас в 2026?
Представим, что февраль 2026 года наступил. NVIDIA выпускает Nemotron-3 с полными весами под лицензией Apache 2.0. Что дальше?
| Сценарий | Вероятность | Последствия |
|---|---|---|
| FP4 предтренировка работает как заявлено | 30% | Взрывной рост open-source моделлей уровня GPT-4. Конец закрытых API как доминирующей бизнес-модели. |
| Работает, но требует спецжелеза | 50% | NVIDIA укрепляет монополию. Альтернативные чипы (AMD, стартапы) отстают на поколение. |
| Не работает, откат к FP8 | 20% | Хайп утихает. Но технология квантованной тренировки все равно продвигается на годы вперед. |
Для энтузиастов с парой видеокарт это может означать следующее: модели размером со 120 миллиардов параметров, которые сегодня едва влезают в два RTX 3090 (как в случае с GPT-OSS-120b), станут нормой для 24GB VRAM. А список рабочих моделей для ограниченного железа расширится до небес.
Стратегия открытости: новый вид стен
Самое ироничное в заявлении NVIDIA — это то, как они используют открытый код для создания новых закрытых экосистем. Вы получаете модель, но чтобы ее эффективно тренировать или запускать, вам нужно их железо, их библиотеки (TensorRT, Triton), их облако (NGC).
Они уже делали это с Nemotron 3 Nano 30B MoE — модель открыта, но развертывание в один клик работает лучше всего на их инфраструктуре. Или с техникой Subquadratic Attention — алгоритм опубликован, но реализация выжимает все соки только из их архитектуры.
То же самое будет с FP4. Формат, вероятно, опишут в white paper. Но аппаратная реализация, драйверы, компиляторы — все это останется их секретом. Как сказал один из инженеров на условиях анонимности: "Мы открываем дверь, но ключ от замка меняется каждые шесть месяцев".
Для сообщества open-source это дилемма. Принять дар с подвохом? Или отказаться и остаться с менее эффективными, но truly открытыми альтернативами? В 2026 году этот вопрос станет главным.
А что пока делать?
2026 год не завтра. Пока NVIDIA готовит свой переворот, стоит присмотреться к их текущим технологиям квантования, например, к сравнению NVFP4 против INT4. Или к тому, как они затачивают маленькие модели под специфичные задачи, как в случае с Nemotron Nano 12B v2 VL для понимания видео.
Главный вывод? Не верьте хайпу слепо. Но и не игнорируйте его. Анонс Nemotron-3 с FP4 — это сигнал о том, где NVIDIA видит следующий рубеж. Они редко ошибаются в таких прогнозах. Даже если конкретная технология не взлетит, направление движения они задают именно сейчас.
И да, начинайте копить на новое железо. Оно вам понадобится.