Что получится, если взять 120 миллиардов параметров и разрешить пользователю включать только те, что нужны прямо сейчас?

HyperNova-60B — это не просто очередная большая языковая модель. Это скорее настройщик мощности. Представьте, что у вас есть спортивный автомобиль, но вместо одной педали газа — три: для города, для трассы и для гоночного трека. HyperNova работает примерно так же, только вместо мощности двигателя — качество reasoning.

Термин "reasoning" здесь — не маркетинговая уловка. Речь о реальной способности модели выполнять логические цепочки, математические вычисления и многошаговые рассуждения. Чем выше уровень reasoning — тем больше "мыслительных усилий" тратит модель на ответ.

Архитектура: GPT-OSS-120B, но с умным выключателем

В основе HyperNova лежит GPT-OSS-120B — открытая версия модели от OpenAI с 120 миллиардами параметров. Но разработчики из Multiverse Computing пошли дальше. Они взяли архитектуру Mixture of Experts (MoE) и добавили туда то, чего раньше не было: конфигурируемый reasoning усилитель.

Если вы работали с MoE-моделями на ограниченном VRAM, то знаете главную проблему: они либо работают на полную мощность, либо не работают вообще. HyperNova ломает эту парадигму.

1 Как работает конфигурируемый reasoning?

Вместо того чтобы загружать все 120 миллиардов параметров сразу, модель активирует только нужные эксперты в зависимости от выбранного уровня reasoning. У вас три варианта:

Базовый — для простых диалогов, суммирования текста, ответов на фактологические вопросы. Активирует около 30% параметров.
Стандартный — для анализа кода, решения математических задач средней сложности, логических рассуждений. Задействует 60% параметров.
Усиленный — для сложных научных расчетов, многошаговых reasoning задач, анализа исследовательских статей. Включает все 100% возможностей модели.

💡

Это похоже на то, как работает человеческий мозг. Для ответа на вопрос "Который час?" не нужно активировать все нейроны, отвечающие за высшую математику. HyperNova делает то же самое — экономит вычислительные ресурсы там, где можно обойтись меньшей мощностью.

MXFP4: квантование, которое не ломает логику модели

Если вы читали наш обзор про квантование, которое ломает логику модели, то знаете главную проблему: при агрессивном квантовании (INT4, Q4_K) модель начинает генерировать бред. MXFP4 решает эту проблему.

MXFP4 — это 4-битное квантование с плавающей точкой. В отличие от INT4, которое работает с целыми числами, MXFP4 сохраняет возможность работать с дробными значениями. Разница в качестве? Колоссальная.

Тип квантования	Качество reasoning	Потребление VRAM	Скорость инференса
FP16 (оригинал)	100%	120+ ГБ	Медленно
INT4 (обычное)	65-75%	~30 ГБ	Быстро
MXFP4 (HyperNova)	85-92%	<40 ГБ	Очень быстро

40 ГБ VRAM — это не случайная цифра. Это порог, который позволяет запускать модель на RTX 6000 Ada (48 ГБ) или даже на двух RTX 4090 (24 ГБ каждая) через децентрализованные решения.

Практика: как это выглядит в коде

В теории все звучит красиво. Но как это работает на практике? Давайте посмотрим на код:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Загружаем модель с MXFP4 квантованием
model = AutoModelForCausalLM.from_pretrained(
    "multiverse/HyperNova-60B-MXFP4",
    torch_dtype=torch.float16,
    device_map="auto",
    load_in_4bit=True,  # MXFP4 автоматически
    reasoning_level="standard"  # Уровень reasoning
)

tokenizer = AutoTokenizer.from_pretrained("multiverse/HyperNova-60B-MXFP4")

# Меняем уровень reasoning на лету
model.set_reasoning_level("enhanced")

# Теперь модель использует все эксперты для сложной задачи
prompt = """Реши задачу: У Маши 5 яблок. Она отдала 2 яблока Пете, 
а затем купила еще 4. Сколько яблок у Маши сейчас? Покажи решение по шагам."""

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_length=200)
print(tokenizer.decode(output[0]))

Ключевой момент здесь — reasoning_level. Вы можете менять его динамически, в зависимости от задачи. Нужно просто суммировать статью? Ставите "basic". Нужно решить дифференциальное уравнение? Переключаете на "enhanced".

Внимание: если вы переключитесь с "enhanced" на "basic" в середине диалога, модель может "забыть" сложные рассуждения из предыдущих сообщений. Это не баг — это особенность архитектуры. Разные уровни reasoning активируют разные наборы экспертов.

С чем сравнивать? Альтернативы и конкуренты

HyperNova-60B не существует в вакууме. Вот что есть на рынке:

GPT-OSS-120B (оригинал) — 120 миллиардов параметров, требует минимум 120 ГБ VRAM. Качество отличное, но запустить можно только на серверном железе.
IQuestCoder-40B — специализируется на коде, но не имеет конфигурируемого reasoning. Либо все, либо ничего.
Solar-Open-100B-GGUF — тоже корейская разработка, но с другим подходом к квантованию. Нет гибкости в reasoning.
Granite 4 Small — если вам нужно что-то поменьше, посмотрите наш гайд по запуску 30B MoE-моделей.

Главное преимущество HyperNova — не в абсолютном качестве (хотя оно близко к оригинальному GPT-OSS-120B), а в контроле. Вы платите за вычисления только тогда, когда они действительно нужны.

Кому подойдет HyperNova-60B? (А кому — нет)

Берите, если:

У вас есть GPU с 24-48 ГБ VRAM и вы устали выбирать между "маленькой быстрой моделью" и "большой умной, но медленной"
Вы работаете с разными типами задач: иногда нужно просто перевести текст, иногда — решить сложную математическую проблему
Вам нужна модель для исследовательских целей, где важно понимать, как разные уровни reasoning влияют на качество ответов
Вы экспериментируете с RAG-системами и хотите динамически настраивать качество reasoning в зависимости от сложности запроса

Не берите, если:

У вас меньше 24 ГБ VRAM — модель просто не влезет, даже с MXFP4
Вам всегда нужен максимальный reasoning — тогда лучше искать полноценную 120B модель (и соответствующее железо)
Вы работаете исключительно с одним типом задач (только код, только математика) — есть более специализированные модели
Вам критически важна совместимость с любым инструментом — MXFP4 пока поддерживают не все фреймворки

Под капотом: как Multiverse Computing удалось это сделать

Секрет в двух вещах: архитектуре экспертов и умном квантовании. MoE-архитектура GPT-OSS-120B изначально разделена на 16 экспертов. HyperNova добавляет к этому:

# Упрощенная схема работы reasoning-усилителя
def route_to_experts(input_tokens, reasoning_level):
    """Маршрутизирует токены к экспертам в зависимости от уровня reasoning"""
    
    if reasoning_level == "basic":
        # Только эксперты 0, 1, 2, 3 для базовых задач
        active_experts = [0, 1, 2, 3]
        
    elif reasoning_level == "standard":
        # Эксперты 0-9 для стандартных задач
        active_experts = list(range(10))
        
    elif reasoning_level == "enhanced":
        # Все 16 экспертов
        active_experts = list(range(16))
    
    # Отключаем ненужные эксперты для экономии VRAM
    for i in range(16):
        if i not in active_experts:
            model.experts[i].deactivate()
    
    return active_experts

MXFP4 квантование работает на уровне каждого эксперта отдельно. Когда эксперт деактивирован, его квантованные веса даже не загружаются в VRAM. Когда включается — загружаются динамически.

💡

Это похоже на то, как работает память в AMD Strix Halo — система динамически распределяет ресурсы между разными задачами. Только здесь ресурсы — это не оперативная память, а параметры нейросети.

Что будет дальше? Прогнозы и опасения

Конфигурируемый reasoning — это не фича, а тренд. Скоро каждая крупная модель будет иметь подобный механизм. Но есть риски:

Сложность тестирования. Как проверить, что модель на "basic" уровне действительно решает простые задачи так же хорошо, как на "enhanced"? Нужны новые бенчмарки.
Проблема консистентности. Если пользователь переключает уровни в середине диалога, как сохранить контекст? Пока что решения нет.
Цена ошибки. Что если модель на "basic" уровне пропустит важную деталь в медицинском диагнозе или финансовом отчете?

Multiverse Computing обещает в следующих версиях добавить автоматическое определение нужного уровня reasoning по запросу пользователя. Звучит здорово, но я бы не доверял такой системе ответственные задачи без человеческого надзора.

А пока что HyperNova-60B остается интересным экспериментом. Не идеальным, но указывающим направление: модели будущего будут не просто большими или маленькими. Они будут умными в выборе собственной сложности.

И последний совет: если решите попробовать HyperNova, начните со среднего уровня reasoning. Он дает лучший баланс между качеством и скоростью. А если модель начнет "тупить" на сложной задаче — просто переключите на "enhanced". Это проще, чем перезагружать другую модель.

HyperNova-60B: когда можно решать сложные задачи, но не хочется платить за все 120 миллиардов параметров