Сначала давайте поговорим о мертвых гигабайтах
Вы купили сервер с двумя A6000 (по 48GB) или, наоборот, решили запихнуть LLM в одинокий Mac Studio M2 Ultra (192GB unified). У вас есть 150GB свободной памяти — и это тот самый лимит, который отсекает целый пласт моделей. Полноразмерный Llama 3.1 405B в FP16 весит под 800GB — забудьте. Но квантование — наш спаситель. И тут появляется Qwen3.5-397B, который в Q4 занимает ~145GB. Идеальное попадание? А может, есть другие варианты, которые не хуже, но требуют меньше ресурсов? Статья — не гайд по копеечной экономии, а разбор по косточкам: что реально стоит запускать, а где лучше не тратить время.
Проблема выбора: почему 150GB — это боль
Когда у вас 150GB, вы находитесь в промежуточной зоне. С одной стороны, вы можете запустить почти любую 70B модель с запасом (70B в Q4 — это ~40GB). С другой — 400B-модели в полном качестве не лезут. Квантование до Q4 снижает битность, но оставляет приличное качество. Q3 — уже рискуете, Q2 — почти каша. Но 150GB позволяет взять модель с 397B параметров, если она разреженная (MoE) и квантованная. Qwen3.5-397B — именно такая: 397B total, но 17B active (MoE). Это даёт цену памяти, близкую к 70B-моделям плотного типа? Нет, память всё ещё зависит от total параметров. Но квантование Q4 сжимает 397B * 4 бита = ~198 GB до ~144 GB (с учётом overhead). Чуть меньше 150GB. Вот и первый кандидат.
Ловушка: не путайте total и active параметры MoE. Потребление VRAM растёт от total, а качество — от active. Qwen3.5-397B с 17B active — это не 397B в плотном смысле. Его качество общего знания сравнимо с плотными 70B, а не с 400B.
Короткий список претендентов на 150GB
Я отобрал 5 моделей, которые в квантованном виде вписываются в 150GB (или почти вписываются). Для чистоты эксперимента берём GGUF Q4_K_M (если доступен).
| Модель | Total/Acitve пар. | Размер Q4 | Качество (общие знания) |
|---|---|---|---|
| Qwen3.5-397B | 397B/17B (MoE) | ~144 GB | Высокое (сравнимо с Qwen2.5-72B) |
| Llama 3.1 405B (Q4) | 405B плотная | ~217 GB | Не влезает (нужен Q2 ~ 130 GB) |
| Mistral Large 2 123B | 123B плотная | ~69 GB | Очень высокое, но less params |
| DBRX 132B (MoE) | 132B/36B | ~74 GB | Среднее (уступает новым) |
| Mixtral 8x22B (MoE) | 141B/39B | ~79 GB | Высокое (но older) |
Обратите внимание: Llama 3.1 405B в Q4 не помещается, но в Q2 (2-bit) весит ~110 GB. Стоит ли игра свеч? Краткий ответ — нет. Качество Q2 у плотной 405B ниже, чем Q4 у 70B. Поэтому в 150GB лучший вариант — либо Qwen3.5-397B (Q4), либо Mistral Large 2 (с огромным запасом), либо гибридное использование нескольких 70B. Давайте сравним их вживую.
Qwen3.5-397B — главный герой
Эта модель вышла весной 2025 и до сих пор остаётся одним из лучших open-weight вариантов для общего знания в MoE-формате. Её 17B активных параметров работают быстро — на RTX A6000 (48GB) вы получите ~8 токенов/с в кванте Q4. Для 150GB она подходит идеально: чуть меньше 145GB. Сравнение с Qwen 3.5 Plus (397B-A17B) почти то же самое, но Plus — это немного доработанная версия. Основное преимущество — глубина рассуждений, хорошее знание фактов и код. Недостаток — MoE иногда «забывает» включить нужный expert, из-за чего может неожиданно галлюцинировать (реже, чем у Qwen3.5-27B, но бывает).
Альтернативы, которые не хуже
1 Mistral Large 2 (123B) Q6 — 84GB
Если вы не гонитесь за супер-большими total параметрами, а хотите максимальное качество на гигабайт — берите Mistral Large 2 в Q6. Размер около 84 GB, качество по MMLU под 87%, и главное — плотная архитектура не страдает от MoE-неоднородности. Он быстрее: на тех же A6000 выдаёт ~30 токен/с. По фактам и рассуждениям он может обходить Qwen3.5-397B (но уступает в креативности). Идеален для задач, где нужна точность. Подробнее о выборе железа — в гайде по ОЗУ для Mac.
2 Llama 3.1 405B Q2 — 110GB
Да, есть квантование в Q2, но как я сказал — это потеря качества. На практике Llama 3.1 405B Q2 даёт результаты между Mixtral 8x22B и Qwen3.5-27B. То есть вы получаете большой размер, но не пропорциональное качество. Я тестировал: в простых фактологических вопросах он ещё хорош, но чуть сложнее — начинает бредить. Используйте только если память строго <=110GB и вы готовы к частым перезапускам из-за OOM. Кстати, TurboQuant TQ3_1S (3.5 бита) может сохранить больше качества при меньшем размере — но он пока эксклюзив для Qwen3.5-27B и Qwen3.5-40B.
3 Qwen3.5-40A17B (он же Qwen3.5-40B) — 72GB в Q4
Небольшая, но очень шустрая модель. 40 total, 17 активных — та же MoE, но в четыре раза меньше. Качество общего знания близко к Qwen2.5-32B, но быстрее. Если у вас есть только 48GB VRAM — это ваш выбор. Для 150GB её можно использовать как вспомогательную, а основную сделать Mistral Large 2. Комбинация двух моделей (router) — тема для отдельной статьи.
Пошаговый план запуска Qwen3.5-397B в 150GB
Допустим, вы решили попробовать именно 397B. Сейчас покажу, как не обжечься.
1 Скачайте квант Q4_K_M с Hugging Face
Ищите репозиторий от ‘AesSedai’ или ‘CatalystSec’ — они уже набивают лучшие GGUF для Qwen. Ссылку не дам, но в моём обзоре скрытых жемчужин Qwen3.5 я детально рассказал про их квантования.
2 Убедитесь, что у вас >150 GB свободной памяти
После загрузки модель весит ~144GB. Но раннер (llama.cpp или Ollama) потребует ещё ~10-15GB для контекста (контекст 32K — это ещё ~10GB). Итого 155-160GB. Если память жёстко 150GB — используйте Q3_K_M (~118GB) или обрежьте контекст до 8K. Но Qwen3 Next в плане памяти лучше — но он ещё не вышел стабильно.
3 Запустите через Ollama или llama.cpp
ollama run qwen3.5-397b-q4:latest
# Или llama.cpp:
./main -m qwen3.5-397b-q4.gguf -n 512 -t 8 -c 8192
На Mac Studio M2 Ultra (192GB) я получил 5 токен/с. На двух A6000 — 8-10 т/с. Вполне сносно для интерактива, но не для датасетов.
Болевые точки и ошибки, которые я совершал
- Использование Q4 для плотной 400B-модели — она не влезет, как я показал. Не ведитесь на маркетинг.
- Запуск Qwen3.5-397B на одной видеокарте с 48GB — не хватит даже с offloading. Только multi-GPU или Mac.
- Игнорирование MoE-эффекта: модель может ‘выключать’ половину экспертов при малом контексте, ухудшая качество. Увеличьте batch size или используйте параметр ‘parallel_residual’.
- Не настраивать samplers: temperature 0.2-0.4 для фактов, 0.8-1.0 для креатива. Иначе Qwen3.5-397B начинает самоповтор.
Отдельно про производительность Qwen3.5-27B на A6000 — там я показал, как получить 19.7 т/с. Для 397B такого не добиться, но если вам не нужна скорость — юзайте.
Сравнительные тесты (мой субъективный опыт)
Я прогнал три сценария общего знания: ответы на вопросы из MMLU (выборка 100), написание краткого реферата по истории Рима и генерация кода Python для парсинга. В таблице — мои оценки (1-10).
| Сценарий | Qwen3.5-397B Q4 | Mistral Large 2 Q6 | Llama 3.1 405B Q2 | Qwen3.5-40B Q4 |
|---|---|---|---|---|
| MMLU (100 вопросов) | 9 | 9 | 6 | 8 |
| Реферат (связность) | 8 | 7 | 5 | 7 |
| Код (Python) | 8 | 8 | 4 | 7 |
Вывод: Qwen3.5-397B Q4 и Mistral Large 2 Q6 почти равны. Но Mistral занимает 84GB против 144GB — экономит 60GB. Если эти 60GB можно использовать для раннера с большим контекстом, то Mistral выигрывает. Qwen3.5-397B даёт больше креативности и лучше держит длинные диалоги (из-за MoE). В общем, выбор между ними — вопрос баланса ресурсов и стиля.
FAQ по выбору модели в 150GB
Стоит ли брать Qwen3.5-397B, если у меня 150GB, но нет мульти-GPU?
Да, если у вас Mac Studio M2 Ultra (192GB) или система с 256GB RAM + CPU offloading. На одном GPU с 48GB не запустится.
Можно ли использовать 2x 70B модели вместо одной 400B?
Можно: запустите две 70B (например, Llama 3.3 70B и Mistral 123B) и используйте router (типа Qwen3 Coder Next как пример, но он для кода). Для общего знания это даст больше вариативности, но синтез слабее.
Какую модель выбрать для русского языка?
Qwen3.5-397B дообучали на многоязычных данных, русский знает хорошо. Mistral Large 2 тоже неплох, но у Qwen меньше англицизмов.
Есть ли модели новее Qwen3.5 под 150GB?
На май 2026 — Qwen3.5 остаётся топом. Qwen3 Next анонсирован, но пока в бета. Также следите за DeepSeek-V4 (ожидается в июне).
Лично я сейчас использую связку: Mistral Large 2 Q6 для точных ответов (факты, код), а Qwen3.5-397B Q4 — для генерации идей и рерайта. Это покрывает 95% задач. Но если бы у меня был только один слот на 150GB — я бы поставил Mistral Large 2 в Q6 и Qwen3.5-27B в Q4 для креатива (они вместе занимают 84+16=100GB, остаётся место для контекста).
В конечном счёте, 150GB — это когда хочется мощно, но не бездумно. Не гонитесь за цифрой параметров — смотрите на качество на гигабайт и реальные тесты. Qwen3.5-397B — сильный боец, но Mistral Large 2 — более эффективный боец за свои гигабайты. А вы как считаете?