Вы когда-нибудь задумывались, почему LLM тупят на простых вопросах, но выдают поэмы на сложных? Спойлер: они тратят одинаковое количество вычислительных ресурсов на оба. Абсурд? Ага. Именно это и пытается исправить динамический вычислительный бюджет — техника, которая позволяет модели самой решать, сколько FLOPs бросить на текущий токен.
В мае 2026 года команда Qwen выкатила Qwen-35B-A3B — sparse-модель с 35B параметров, но всего 3B активируемых на токен. И тут же начался хайп: на бенчмарке HLE (Human-Level Evaluation) эта штука якобы почти догоняет GPT-5.4 — модель, которая требует в 10 раз больше ресурсов. Как такое возможно? Давайте копать.
Проблема фиксированного бюджета
Традиционные LLM (даже открытые, вроде Qwen3.5-27B на RTX A6000) на каждый токен выделяют одинаковое количество compute. Плохо это тем, что:
- Простые токены (предлоги, союзы, пунктуация) получают избыточные ресурсы — пустая трата электричества и времени.
- Сложные токены (логические шаги, цепочки рассуждений) часто недополучают внимание, что ведёт к ошибкам.
- Бенчмарки вроде HLE, где каждый шаг требует глубокого анализа, сразу подсвечивают этот дисбаланс.
Что такое HLE? Human-Level Evaluation — датасет из 10 000 вопросов, требующих многошагового рассуждения, аналогичного задачам из математики, физики, программирования. Пройти его на уровне человека — мечта каждого LLM.
Эвристика Qwen-35B-A3B: как работает динамический бюджет
Вместо того чтобы жёстко фиксировать число экспертов (или слоёв) для каждого токена, Qwen-35B-A3B использует эвристическую функцию стоимости. На первых 2-3 слоях Transformer модель оценивает «сложность» текущего токена — например, по энтропии распределения вероятностей или по норме скрытого состояния. Если энтропия высокая (модель неуверенна) — выделяется больше экспертов (до 8 из 32), если низкая — достаточно 1-2.
Звучит логично, но есть нюанс: эвристику пришлось выводить вручную, перебирая десятки метрик. В итоге остановились на комбинации confidence_score и attention_entropy. Результат — средний бюджет на токен снизился с 12B до 4.2B FLOPs, а качество на HLE осталось почти на уровне полной модели.
1Алгоритм в двух словах
На каждом токене:
- Пропускаем токен через первый слой с пониженной точностью (FP8).
- Извлекаем метрики:
logit_confidence = max(softmax(logits)),head_entropy. - Решаем: если
confidence > 0.95— используем 1 эксперт и выходим раньше (early exit). Еслиconfidence < 0.7— подключаем 8 экспертов и полные 32 слоя. - Для промежуточных значений — линейная интерполяция числа экспертов.
Это позволяет экономить до 60% FLOPs на лёгких токенах, не теряя точности на сложных. Но есть подвох — overhead эвристики. Сама по себе она требует дополнительных вычислений, но в Qwen её зашили прямо в тензорные ядра, сделав latency не более 3% от общего времени.
Результаты на HLE: впритык к GPT-5.4
Свежие цифры (май 2026):
| Модель | Accuracy на HLE | Средний compute на токен | Latency (ms/token) |
|---|---|---|---|
| GPT-5.4 (2T params, dense) | 92.3% | ~45 TFLOPS | 35 |
| Qwen-35B-A3B (full budget) | 88.7% | ~4.0 TFLOPS | 8.2 |
| Qwen-35B-A3B (dynamic budget) | 87.9% | ~1.8 TFLOPS | 4.1 |
Да, динамический бюджет проигрывает полной версии Qwen всего 0.8% accuracy, но при этом использует в 2.2 раза меньше compute. А по сравнению с GPT-5.4 — отставание всего 4.4%, хотя разрыв в ресурсах — 25x! Согласитесь, впечатляет.
Особенно круто это смотрится на фоне Qwen 3.5 Plus (397B-A17B) — монстра, который вообще ни в один домашний ПК не влезает. А тут модель с 35B параметров, умещающаяся на одну RTX 4090, почти догоняет топ-1 коммерческую модель.
Практические грабли: что пошло не так и как это чинить
Первое, что ломается при внедрении динамического бюджета — батчинг. Когда токены в батче требуют разного числа экспертов, эффективность GPU падает из-за необходимости паддинга. Qwen решили это через группировку токенов по бюджету внутри микро-батча, но это увеличило задержку на 7%.
Вторая проблема — нестабильность хвостовых токенов. Эвристика склонна недооценивать сложность последних токенов в цепочке рассуждений, когда модель уже почти ответила, но ошибка может накапливаться. Решение — добавить positional_penalty к порогу уверенности для токенов с индексом > 128.
Третье: если вы собираетесь запускать это на самодельной ферме вроде бюджетной 4-GPU сборки за 300 евро, помните — overhead коммуникации между картами может убить всю экономию. Лучше использовать single GPU с большим VRAM, чем распределённый инференс.
Что дальше? Спекуляции и тренды
Уже сейчас видно, что техника динамического compute budget становится стандартом для эффективного инференса. Qwen-35B-A3B — не единственная: self-hosting LLM в 2026 году без таких оптимизаций уже считается моветоном. Многие провайдеры API (OpenAI, Anthropic) тоже внедряют нечто подобное, но не афишируют детали.
Мой прогноз: к концу 2026 года динамический бюджет станет таким же привычным, как KV-cache. А пока — берите Qwen-35B-A3B, настраивайте эвристику под свои задачи и радуйтесь скорости, близкой к GPT-5.4, всего за одну видеокарту.