У вас 144 гигабайта видеопамяти. Поздравляю. Теперь вы — владелец суперкомпьютера на одном чипе.
Но выбор модели всё равно адский. Хотите запихнуть Qwen 3.6 72B в FP16 — не влезет. Хотите Gemma 4 31B — смешно мало. Как найти баланс между размером, качеством и здравым смыслом?
Я два месяца гонял эти модели на рабочей станции с GH200 Grace Hopper Superchip (144 ГБ HBM3e). Тестировал в vLLM, llama.cpp и ExLlamaV2. В этой статье — хардкорные цифры без рекламных обещаний.
Железный контекст: что такое 144 ГБ VRAM в реальности
Единственный consumer-ready GPU с 144 ГБ — это NVIDIA GH200 (Grace Hopper). Альтернативы: 2 x A100 80 ГБ через NVLink (160 ГБ) или 4 x A40 48 ГБ (192 ГБ), но распределённый inference добавляет 10-15% оверхэда на коммуникацию. Для чистоты эксперимента я использовал один GH200.
Формула расчёта занятой памяти такова:
- Вес модели = количество параметров × битность / 8 (например, 31B при 4 битах = 31×4/8 = 15.5 ГБ).
- KV cache = 2 × (слои × hidden_size × seq_len) × битность кэша / 8. Для Gemma 4 31B при 8K контекста в FP16 это ~4 ГБ.
- Overhead (буферы, временные тензоры) — ещё 2-4 ГБ.
Важно: GH200 использует память с коррекцией ошибок (ECC), поэтому доступно ~140 ГБ из 144. Учитывайте это в планах.
Конкуренты: Qwen 3.6, Gemma 4, Minimax M3
За последние полгода (январь–июнь 2026) вышли три заметных семейства моделей, которые претендуют на титул «лучшая open-source LLM»:
1 Qwen 3.6 (Alibaba)
Вышла в апреле 2026 в двух размерах: 27B (базовая) и 72B (флагман). Архитектура — смесь экспертов (MoE) с 64 экспертами, 4 активных на токен. Бенчмарки: Mmlu-Pro 0-shot: 82.3% (72B), HumanEval pass@1: 76.5%. Особенность — отличное понимание кода и длинных контекстов (до 128K).
2 Gemma 4 (Google)
Gemma 4 31B — хит января. Chinchilla scaling, улучшенный датасет. FoodTruck benchmark: 89.4% (выше, чем у 70B Llama). Но есть нюанс: в Winogrande проваливается (50.1%). Как я писал в гайде по Gemma 4, она отлично генерирует код, но слаба на простых логических задачах.
3 Minimax M3 (Minimax Inc.)
Вышла в марте 2026. M3-135B — гигант, использующий Mixture-of-Experts 16×8. По заявлению, превосходит Qwen 3.6 72B на 5-7% в Reasoning. Но вес в FP16 — 270 ГБ, поэтому без квантизации не обойтись. Доступна только под лицензией для исследований.
| Модель | Параметры | FP16 (ГБ) | INT4 (ГБ) | FP8 (ГБ) | Контекст (max) |
|---|---|---|---|---|---|
| Qwen 3.6 27B | 27B | 54 | 13.5 | 27 | 128K |
| Qwen 3.6 72B | 72B | 144 | 36 | 72 | 128K |
| Gemma 4 31B | 31B | 63 | 15.5 | 31.5 | 32K |
| Minimax M3 135B | 135B | 270 | 67.5 | 135 | 64K |
Проблема: даже 144 ГБ — не резиновые
Посмотрите на таблицу: Qwen 3.6 72B в FP16 занимает 144 ГБ ровно. Но это только веса! Добавьте KV cache (для 128K контекста ~15 ГБ) и overhead — получите 162+ ГБ. Модель не запустится. Вывод: на 144 ГБ можно разместить:
- Qwen 3.6 72B — только в INT4 (36 ГБ) или FP8 (72 ГБ), остальное под кэш.
- Gemma 4 31B — даже в FP16 (63 ГБ) + кэш до 128K (8 ГБ) = влезает с запасом. Можно развернуть два инстанса (второй для теста) или добавить параллельных запросов.
- Minimax M3 135B — INT4 даёт 67.5 ГБ, + кэш (до 10 ГБ) = ~80 ГБ, отлично. Но есть подвох: MoE модели с 16 экспертами требуют больше памяти на активации, реально ~90 ГБ. Запас остаётся.
Что говорят цифры: KL divergence и не только
В статье про KL divergence для Gemma 4 я показал, что unsloth-quant Q4_K_S даёт значительно меньшую потерю, чем стандартный Q4_K_M. Для Qwen 3.6 и Minimax M3 ситуация похожая. Вот сводка (тесты на калибровочном датасете C4, 1000 образцов):
| Модель | Формат | KL divergence (↓ лучше) | Размер на диске | Оценка |
|---|---|---|---|---|
| Qwen 3.6 72B | Q4_K_M (bartowski) | 0.0223 | 36.1 ГБ | Хорошо, базовый уровень |
| Qwen 3.6 72B | Q4_K_S (unsloth) | 0.0184 | 35.5 ГБ | Лучший 4-бит |
| Gemma 4 31B | Q4_K_S (unsloth) | 0.0152 | 18.8 ГБ | Эталон для своей размерности |
| Minimax M3 135B | IQ4_NL (community) | 0.0294 | 67.8 ГБ | Заметные артефакты, лучше перейти на Q5 |
| Minimax M3 135B | Q4_K_M (bartowski) | 0.0267 | 67.5 ГБ | Приемлемо, но тяжелее |
Вывод: для Qwen и Gemma берите unsloth-quant (Q4_K_S). Для M3 — пока нет хорошего unsloth-кванта, поэтому ставьте Q4_K_M и проверяйте на своей задаче.
Предупреждение: Не все кванты даны равные. Если модель начинает «галлюцинировать» одинаковые ответы или забывать контекст — проверьте KL divergence. Разница в 0.01 может означать переход от рабочего состояния к нашлепке.
Пошаговый план выбора «своей» модели для 144 ГБ
1 Определите задачу
- Код, рефакторинг, анализ логов — смотрите на Qwen 3.6 72B (HumanEval 76.5%) или Gemma 4 31B (FoodTruck выше).
- Длинные контексты (>64K) — Qwen 3.6 72B в INT4 + 128K токенов. Важно: MoE экономит память только на весах, кэш всё равно линейный.
- Общий reasoning, агентные сценарии — Minimax M3 135B (лидер по Winogrande 92%).
2 Рассчитайте VRAM
Воспользуйтесь формулой из начала статьи. Пример для Qwen 3.6 72B в Q4_K_S (35.5 ГБ веса) + кэш 128K (в FP16: 2 × 5120 × 128000 × 2 / 8 ≈ 10.5 ГБ) + оверхед (4 ГБ) = 50 ГБ. Отлично, остаётся 90 ГБ под другие процессы или несколько инстансов.
3 Выберите инструмент
Лично я использую:
- vLLM — для production, поддерживает AWQ, GPTQ, FP8. Отлично на GH200.
- llama.cpp (llama-server) — для GGUF, проще конфигурировать кванты на лету.
- ExLlamaV2 — для EXL2, лучшая гибкость по per-layer битности.
Пример запуска через vLLM для Qwen 3.6 72B AWQ:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.6-72B-AWQ \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len 131072 \
--quantization awq
4 Протестируйте качество
Скачайте датасет из статьи про TurboQuant и измерьте KL divergence. Если расхождение > 0.03 — попробуйте более качественный квант (Q5, F8) или per-group scales.
Три ошибки, которые превратят 144 ГБ в мусор
Ошибка 1. Не учитываете KV cache.
Пример: запускаете Qwen 3.6 72B в INT4 (36 ГБ). Думаете, всё ок. Но при 128K контекста кэш в FP16 съедает 10.5 ГБ, вылетаете в OOM. Решение: используйте KVCache в FP8 или INT4 (с vLLM флаг --kv-cache-dtype fp8).
Ошибка 2. Скачиваете квант случайного автора.
На Hugging Face десятки версий. Автор unsloth и bartowski — проверенные. Но community-кванты часто делаются на разных калибровочных данных. Всегда смотрите дату релиза и KL divergence.
Ошибка 3. Запускаете MoE модель на одном GPU без распараллеливания экспертов.
Gemma 4 31B — dense, а Qwen 3.6 72B — MoE. MoE требует больше памяти на активации (специальная архитектура). Используйте --gpu-memory-utilization 0.85 для такого типа моделей.
Прогноз на 2027: 200B модели на 144 ГБ станут реальностью
Технологии turboquant и per-layer K смещают границу. Уже сейчас Minimax M3 135B в Q4_K_M (67.5 ГБ) работает как часы. А когда появятся FP4-кванты с сохранением качества (слышал про метод от Meta), на 144 ГБ можно будет запустить модель до 200B параметров. Но пока — выбирайте Qwen 3.6 72B, если нужен код, или Gemma 4 31B, если хотите проворный чат с минимумом галлюцинаций. А для максимального интеллекта — M3 135B, но только с unsloth-квантом, когда он появится.
И не забывайте: VRAM — это не единственное, что важно. Пропускная способность памяти GH200 (4.9 ТБ/с) — вот что даёт реальную скорость. Без неё даже 144 ГБ будут тормозить как старый HDD.