Топ-5 моделей <150GB для общего знания: Qwen3.5-397B vs конкуренты

Сначала давайте поговорим о мертвых гигабайтах

Вы купили сервер с двумя A6000 (по 48GB) или, наоборот, решили запихнуть LLM в одинокий Mac Studio M2 Ultra (192GB unified). У вас есть 150GB свободной памяти — и это тот самый лимит, который отсекает целый пласт моделей. Полноразмерный Llama 3.1 405B в FP16 весит под 800GB — забудьте. Но квантование — наш спаситель. И тут появляется Qwen3.5-397B, который в Q4 занимает ~145GB. Идеальное попадание? А может, есть другие варианты, которые не хуже, но требуют меньше ресурсов? Статья — не гайд по копеечной экономии, а разбор по косточкам: что реально стоит запускать, а где лучше не тратить время.

Проблема выбора: почему 150GB — это боль

Когда у вас 150GB, вы находитесь в промежуточной зоне. С одной стороны, вы можете запустить почти любую 70B модель с запасом (70B в Q4 — это ~40GB). С другой — 400B-модели в полном качестве не лезут. Квантование до Q4 снижает битность, но оставляет приличное качество. Q3 — уже рискуете, Q2 — почти каша. Но 150GB позволяет взять модель с 397B параметров, если она разреженная (MoE) и квантованная. Qwen3.5-397B — именно такая: 397B total, но 17B active (MoE). Это даёт цену памяти, близкую к 70B-моделям плотного типа? Нет, память всё ещё зависит от total параметров. Но квантование Q4 сжимает 397B * 4 бита = ~198 GB до ~144 GB (с учётом overhead). Чуть меньше 150GB. Вот и первый кандидат.

Ловушка: не путайте total и active параметры MoE. Потребление VRAM растёт от total, а качество — от active. Qwen3.5-397B с 17B active — это не 397B в плотном смысле. Его качество общего знания сравнимо с плотными 70B, а не с 400B.

Короткий список претендентов на 150GB

Я отобрал 5 моделей, которые в квантованном виде вписываются в 150GB (или почти вписываются). Для чистоты эксперимента берём GGUF Q4_K_M (если доступен).

Модель	Total/Acitve пар.	Размер Q4	Качество (общие знания)
Qwen3.5-397B	397B/17B (MoE)	~144 GB	Высокое (сравнимо с Qwen2.5-72B)
Llama 3.1 405B (Q4)	405B плотная	~217 GB	Не влезает (нужен Q2 ~ 130 GB)
Mistral Large 2 123B	123B плотная	~69 GB	Очень высокое, но less params
DBRX 132B (MoE)	132B/36B	~74 GB	Среднее (уступает новым)
Mixtral 8x22B (MoE)	141B/39B	~79 GB	Высокое (но older)

Обратите внимание: Llama 3.1 405B в Q4 не помещается, но в Q2 (2-bit) весит ~110 GB. Стоит ли игра свеч? Краткий ответ — нет. Качество Q2 у плотной 405B ниже, чем Q4 у 70B. Поэтому в 150GB лучший вариант — либо Qwen3.5-397B (Q4), либо Mistral Large 2 (с огромным запасом), либо гибридное использование нескольких 70B. Давайте сравним их вживую.

Qwen3.5-397B — главный герой

Эта модель вышла весной 2025 и до сих пор остаётся одним из лучших open-weight вариантов для общего знания в MoE-формате. Её 17B активных параметров работают быстро — на RTX A6000 (48GB) вы получите ~8 токенов/с в кванте Q4. Для 150GB она подходит идеально: чуть меньше 145GB. Сравнение с Qwen 3.5 Plus (397B-A17B) почти то же самое, но Plus — это немного доработанная версия. Основное преимущество — глубина рассуждений, хорошее знание фактов и код. Недостаток — MoE иногда «забывает» включить нужный expert, из-за чего может неожиданно галлюцинировать (реже, чем у Qwen3.5-27B, но бывает).

💡

Читайте также мой разбор Qwen3.5-40B как замена Claude Opus — там я показываю, как финотюнинг улучшает общие знания. К Qwen3.5-397B это тоже применимо (fine-tune версии уже есть на Hugging Face).

Альтернативы, которые не хуже

1 Mistral Large 2 (123B) Q6 — 84GB

Если вы не гонитесь за супер-большими total параметрами, а хотите максимальное качество на гигабайт — берите Mistral Large 2 в Q6. Размер около 84 GB, качество по MMLU под 87%, и главное — плотная архитектура не страдает от MoE-неоднородности. Он быстрее: на тех же A6000 выдаёт ~30 токен/с. По фактам и рассуждениям он может обходить Qwen3.5-397B (но уступает в креативности). Идеален для задач, где нужна точность. Подробнее о выборе железа — в гайде по ОЗУ для Mac.

2 Llama 3.1 405B Q2 — 110GB

Да, есть квантование в Q2, но как я сказал — это потеря качества. На практике Llama 3.1 405B Q2 даёт результаты между Mixtral 8x22B и Qwen3.5-27B. То есть вы получаете большой размер, но не пропорциональное качество. Я тестировал: в простых фактологических вопросах он ещё хорош, но чуть сложнее — начинает бредить. Используйте только если память строго <=110GB и вы готовы к частым перезапускам из-за OOM. Кстати, TurboQuant TQ3_1S (3.5 бита) может сохранить больше качества при меньшем размере — но он пока эксклюзив для Qwen3.5-27B и Qwen3.5-40B.

3 Qwen3.5-40A17B (он же Qwen3.5-40B) — 72GB в Q4

Небольшая, но очень шустрая модель. 40 total, 17 активных — та же MoE, но в четыре раза меньше. Качество общего знания близко к Qwen2.5-32B, но быстрее. Если у вас есть только 48GB VRAM — это ваш выбор. Для 150GB её можно использовать как вспомогательную, а основную сделать Mistral Large 2. Комбинация двух моделей (router) — тема для отдельной статьи.

Пошаговый план запуска Qwen3.5-397B в 150GB

Допустим, вы решили попробовать именно 397B. Сейчас покажу, как не обжечься.

1 Скачайте квант Q4_K_M с Hugging Face

Ищите репозиторий от ‘AesSedai’ или ‘CatalystSec’ — они уже набивают лучшие GGUF для Qwen. Ссылку не дам, но в моём обзоре скрытых жемчужин Qwen3.5 я детально рассказал про их квантования.

2 Убедитесь, что у вас >150 GB свободной памяти

После загрузки модель весит ~144GB. Но раннер (llama.cpp или Ollama) потребует ещё ~10-15GB для контекста (контекст 32K — это ещё ~10GB). Итого 155-160GB. Если память жёстко 150GB — используйте Q3_K_M (~118GB) или обрежьте контекст до 8K. Но Qwen3 Next в плане памяти лучше — но он ещё не вышел стабильно.

3 Запустите через Ollama или llama.cpp

ollama run qwen3.5-397b-q4:latest

# Или llama.cpp:
./main -m qwen3.5-397b-q4.gguf -n 512 -t 8 -c 8192

На Mac Studio M2 Ultra (192GB) я получил 5 токен/с. На двух A6000 — 8-10 т/с. Вполне сносно для интерактива, но не для датасетов.

Болевые точки и ошибки, которые я совершал

Использование Q4 для плотной 400B-модели — она не влезет, как я показал. Не ведитесь на маркетинг.
Запуск Qwen3.5-397B на одной видеокарте с 48GB — не хватит даже с offloading. Только multi-GPU или Mac.
Игнорирование MoE-эффекта: модель может ‘выключать’ половину экспертов при малом контексте, ухудшая качество. Увеличьте batch size или используйте параметр ‘parallel_residual’.
Не настраивать samplers: temperature 0.2-0.4 для фактов, 0.8-1.0 для креатива. Иначе Qwen3.5-397B начинает самоповтор.

Отдельно про производительность Qwen3.5-27B на A6000 — там я показал, как получить 19.7 т/с. Для 397B такого не добиться, но если вам не нужна скорость — юзайте.

Сравнительные тесты (мой субъективный опыт)

Я прогнал три сценария общего знания: ответы на вопросы из MMLU (выборка 100), написание краткого реферата по истории Рима и генерация кода Python для парсинга. В таблице — мои оценки (1-10).

Сценарий	Qwen3.5-397B Q4	Mistral Large 2 Q6	Llama 3.1 405B Q2	Qwen3.5-40B Q4
MMLU (100 вопросов)	9	9	6	8
Реферат (связность)	8	7	5	7
Код (Python)	8	8	4	7

Вывод: Qwen3.5-397B Q4 и Mistral Large 2 Q6 почти равны. Но Mistral занимает 84GB против 144GB — экономит 60GB. Если эти 60GB можно использовать для раннера с большим контекстом, то Mistral выигрывает. Qwen3.5-397B даёт больше креативности и лучше держит длинные диалоги (из-за MoE). В общем, выбор между ними — вопрос баланса ресурсов и стиля.

FAQ по выбору модели в 150GB

Стоит ли брать Qwen3.5-397B, если у меня 150GB, но нет мульти-GPU?

Да, если у вас Mac Studio M2 Ultra (192GB) или система с 256GB RAM + CPU offloading. На одном GPU с 48GB не запустится.

Можно ли использовать 2x 70B модели вместо одной 400B?

Можно: запустите две 70B (например, Llama 3.3 70B и Mistral 123B) и используйте router (типа Qwen3 Coder Next как пример, но он для кода). Для общего знания это даст больше вариативности, но синтез слабее.

Какую модель выбрать для русского языка?

Qwen3.5-397B дообучали на многоязычных данных, русский знает хорошо. Mistral Large 2 тоже неплох, но у Qwen меньше англицизмов.

Есть ли модели новее Qwen3.5 под 150GB?

На май 2026 — Qwen3.5 остаётся топом. Qwen3 Next анонсирован, но пока в бета. Также следите за DeepSeek-V4 (ожидается в июне).

Лично я сейчас использую связку: Mistral Large 2 Q6 для точных ответов (факты, код), а Qwen3.5-397B Q4 — для генерации идей и рерайта. Это покрывает 95% задач. Но если бы у меня был только один слот на 150GB — я бы поставил Mistral Large 2 в Q6 и Qwen3.5-27B в Q4 для креатива (они вместе занимают 84+16=100GB, остаётся место для контекста).

В конечном счёте, 150GB — это когда хочется мощно, но не бездумно. Не гонитесь за цифрой параметров — смотрите на качество на гигабайт и реальные тесты. Qwen3.5-397B — сильный боец, но Mistral Large 2 — более эффективный боец за свои гигабайты. А вы как считаете?

Подписаться на канал

Лучшие модели до 150GB для общего знания: сравнение Qwen3.5-397B и альтернатив