Динамический compute budget: Qwen-35B-A3B vs GPT-5.4 на HLE

Вы когда-нибудь задумывались, почему LLM тупят на простых вопросах, но выдают поэмы на сложных? Спойлер: они тратят одинаковое количество вычислительных ресурсов на оба. Абсурд? Ага. Именно это и пытается исправить динамический вычислительный бюджет — техника, которая позволяет модели самой решать, сколько FLOPs бросить на текущий токен.

В мае 2026 года команда Qwen выкатила Qwen-35B-A3B — sparse-модель с 35B параметров, но всего 3B активируемых на токен. И тут же начался хайп: на бенчмарке HLE (Human-Level Evaluation) эта штука якобы почти догоняет GPT-5.4 — модель, которая требует в 10 раз больше ресурсов. Как такое возможно? Давайте копать.

Проблема фиксированного бюджета

Традиционные LLM (даже открытые, вроде Qwen3.5-27B на RTX A6000) на каждый токен выделяют одинаковое количество compute. Плохо это тем, что:

Простые токены (предлоги, союзы, пунктуация) получают избыточные ресурсы — пустая трата электричества и времени.
Сложные токены (логические шаги, цепочки рассуждений) часто недополучают внимание, что ведёт к ошибкам.
Бенчмарки вроде HLE, где каждый шаг требует глубокого анализа, сразу подсвечивают этот дисбаланс.

Что такое HLE? Human-Level Evaluation — датасет из 10 000 вопросов, требующих многошагового рассуждения, аналогичного задачам из математики, физики, программирования. Пройти его на уровне человека — мечта каждого LLM.

Эвристика Qwen-35B-A3B: как работает динамический бюджет

Вместо того чтобы жёстко фиксировать число экспертов (или слоёв) для каждого токена, Qwen-35B-A3B использует эвристическую функцию стоимости. На первых 2-3 слоях Transformer модель оценивает «сложность» текущего токена — например, по энтропии распределения вероятностей или по норме скрытого состояния. Если энтропия высокая (модель неуверенна) — выделяется больше экспертов (до 8 из 32), если низкая — достаточно 1-2.

Звучит логично, но есть нюанс: эвристику пришлось выводить вручную, перебирая десятки метрик. В итоге остановились на комбинации confidence_score и attention_entropy. Результат — средний бюджет на токен снизился с 12B до 4.2B FLOPs, а качество на HLE осталось почти на уровне полной модели.

💡

Кстати, похожие техники обсуждались в статье про нейросимвольный ИИ — там тоже пытались динамически переключаться между нейронным и символьным процессором.

1Алгоритм в двух словах

На каждом токене:

Пропускаем токен через первый слой с пониженной точностью (FP8).
Извлекаем метрики: logit_confidence = max(softmax(logits)), head_entropy.
Решаем: если confidence > 0.95 — используем 1 эксперт и выходим раньше (early exit). Если confidence < 0.7 — подключаем 8 экспертов и полные 32 слоя.
Для промежуточных значений — линейная интерполяция числа экспертов.

Это позволяет экономить до 60% FLOPs на лёгких токенах, не теряя точности на сложных. Но есть подвох — overhead эвристики. Сама по себе она требует дополнительных вычислений, но в Qwen её зашили прямо в тензорные ядра, сделав latency не более 3% от общего времени.

Результаты на HLE: впритык к GPT-5.4

Свежие цифры (май 2026):

Модель	Accuracy на HLE	Средний compute на токен	Latency (ms/token)
GPT-5.4 (2T params, dense)	92.3%	~45 TFLOPS	35
Qwen-35B-A3B (full budget)	88.7%	~4.0 TFLOPS	8.2
Qwen-35B-A3B (dynamic budget)	87.9%	~1.8 TFLOPS	4.1

Да, динамический бюджет проигрывает полной версии Qwen всего 0.8% accuracy, но при этом использует в 2.2 раза меньше compute. А по сравнению с GPT-5.4 — отставание всего 4.4%, хотя разрыв в ресурсах — 25x! Согласитесь, впечатляет.

Особенно круто это смотрится на фоне Qwen 3.5 Plus (397B-A17B) — монстра, который вообще ни в один домашний ПК не влезает. А тут модель с 35B параметров, умещающаяся на одну RTX 4090, почти догоняет топ-1 коммерческую модель.

Практические грабли: что пошло не так и как это чинить

Первое, что ломается при внедрении динамического бюджета — батчинг. Когда токены в батче требуют разного числа экспертов, эффективность GPU падает из-за необходимости паддинга. Qwen решили это через группировку токенов по бюджету внутри микро-батча, но это увеличило задержку на 7%.

⚠️

Типичная ошибка: применять динамический бюджет без fine-tuning эвристики под свой датасет. На HLE эвристика обучена на смеси математики и кода, но если вы работаете с генерацией стихов — она будет ошибаться, считая каждый рифмованный токен сложным. В результате экономия будет нулевой, а latency вырастет.

Вторая проблема — нестабильность хвостовых токенов. Эвристика склонна недооценивать сложность последних токенов в цепочке рассуждений, когда модель уже почти ответила, но ошибка может накапливаться. Решение — добавить positional_penalty к порогу уверенности для токенов с индексом > 128.

Третье: если вы собираетесь запускать это на самодельной ферме вроде бюджетной 4-GPU сборки за 300 евро, помните — overhead коммуникации между картами может убить всю экономию. Лучше использовать single GPU с большим VRAM, чем распределённый инференс.

Что дальше? Спекуляции и тренды

Уже сейчас видно, что техника динамического compute budget становится стандартом для эффективного инференса. Qwen-35B-A3B — не единственная: self-hosting LLM в 2026 году без таких оптимизаций уже считается моветоном. Многие провайдеры API (OpenAI, Anthropic) тоже внедряют нечто подобное, но не афишируют детали.

Мой прогноз: к концу 2026 года динамический бюджет станет таким же привычным, как KV-cache. А пока — берите Qwen-35B-A3B, настраивайте эвристику под свои задачи и радуйтесь скорости, близкой к GPT-5.4, всего за одну видеокарту.

Подписаться на канал

Динамический вычислительный бюджет для LLM: как Qwen-35B-A3B дышит в спину GPT-5.4 на HLE