Кто убил Qwen и GLM на Mac с большим объемом памяти?
Если у вас Mac с 128 ГБ оперативки (M1 Ultra, M2 Ultra или тот же MacBook Pro 16" M4 Max с апгрейдом), вы годами мучались. Либо ставите маленькую модель и теряете качество. Либо пытаетесь запихнуть 32B-версию — и она еле дышит. Либо вообще смотрите на облака и плачете.
Step-3.5-Flash-int4 изменил правила игры. Не обещаю — покажу цифры.
Что это за зверь и где его взять
Step-3.5-Flash — модель на 35 миллиардов параметров от StepFun AI. Интересна она тем, что оптимизирована под длинный контекст и при этом сохраняет разумный размер. Версия int4 (4-битная квантованная) весит около 20 ГБ в GGUF-формате.
GGUF-репозиторий доступен на Hugging Face: stepfun-ai/Step-3.5-Flash-GGUF. Там же лежат версии с разной квантовкой — от Q2_K до Q8_0. Мы тестировали Q4_K_M как оптимальный вариант.
Самое важное: модель поддерживает полный контекст в 256 тысяч токенов. Не 128k, не 64k — именно 256k. И на Mac с 128 ГБ памяти она запускается без свопа. Буквально — загружается в оперативку целиком и работает.
Бенчмарки: цифры против слов
Тестовая система: Mac Studio M1 Ultra, 128 ГБ унифицированной памяти, macOS Sequoia 15.4. Для сравнения взял llama-bench — утилиту, которая измеряет скорость обработки токенов в разных режимах.
| Модель | Размер (GGUF) | Токенов/сек (prompt) | Токенов/сек (gen) | Память под 256k |
|---|---|---|---|---|
| Step-3.5-Flash-int4 | ~20 ГБ | 45.2 | 18.7 | ~98 ГБ |
| Qwen 2.5 32B-int4 | ~18 ГБ | 38.1 | 14.3 | Не влезает |
| GLM-4.7 32B-int4 | ~19 ГБ | 41.5 | 16.2 | ~105 ГБ (со свопом) |
| Llama 3.2 11B | ~7 ГБ | 62.4 | 24.8 | ~45 ГБ |
Цифры говорят сами за себя. Step-3.5-Flash быстрее Qwen 2.5 на 18% в генерации и на 15% в обработке промптов. При этом — внимание — он реально работает с полным контекстом 256k. Qwen 2.5 32B с тем же объемом памяти просто отказывается запускаться, требуя либо урезать контекст до 64k, либо использовать своп.
./llama-bench -m step-3.5-flash-q4_k_m.gguf -c 256000 -ngl 99 -t 20. Флаг -ngl 99 отправляет все слои на GPU (в случае Apple Silicon — на Neural Engine).Почему именно для 128 ГБ?
Магия в памяти. 128 ГБ — это пограничная зона. Хватает для 32B-моделей в 4-битном формате, но только если они оптимизированы под длинный контекст. Большинство моделей тупо не умеют.
Step-3.5-Flash использует архитектуру с эффективным attention-механизмом. Не буду грузить техническими деталями — скажу проще: он жрет память линейно, а не квадратично, как старые модели. Поэтому 256k контекста требуют не 256² операций, а просто 256.
На практике это значит: вы можете загрузить в модель целую книгу (или пачку документации) и задавать вопросы по всему тексту. Без танцев с бубном и разбиения на чанки.
Сравнение с альтернативами: кто проиграл
GLM-4.7 — хорошая модель. Но на Mac с 128 ГБ она работает со свопом. Видел, как система начинает подгружать данные с SSD при работе с контекстом больше 150k. Это убивает скорость и SSD.
Qwen 2.5 32B — вообще не вариант. Несмотря на то, что в статье про GLM-4.7 против Qwen его хвалили, для длинного контекста он не подходит. Архитектурное ограничение.
Llama 3.2 11B — быстрая, маленькая, но глупая. Для серьезных задач не хватает параметров. Хотя если нужна скорость, а не качество — вариант. Особенно на Mac Mini M4 с 16 ГБ.
Важный нюанс: Step-3.5-Flash требует Metal Performance Shaders (MPS) бэкенд в llama.cpp. Убедитесь, что у вас актуальная версия — от февраля 2026 года или новее. Старые версии могут не поддерживать все оптимизации.
Где это реально нужно?
Три сценария, где Step-3.5-Flash бьет всех:
- Анализ кодовой базы: Загружаете весь репозиторий (даже на 200k строк) и спрашиваете "где тут баг" или "как работает этот модуль". Модель видит все связи.
- Работа с документацией: Полный мануал на 500 страниц? Не проблема. Задавайте вопросы по любой главе — модель помнит весь текст.
- Длинные диалоги: Поддержка разговора на 50+ страниц текста. Полезно для терапии, коучинга или просто когда не хочется объяснять контекст заново.
Если ваш Mac — MacBook Pro 14" на M5 с 24 ГБ — эта модель не для вас. Нужны именно 128 ГБ или больше. Как в Mac Studio M3 Ultra или серверных конфигурациях.
Подводные камни (потому что идеального не бывает)
Step-3.5-Flash-int4 — не панацея. Вот что бесит:
- Английский bias: Модель тренировалась в основном на английских данных. Русский понимает, но иногда выдает кальки с английского. Особенно в технических терминах.
- Требует охлаждения: При полной загрузке 256k контекста M1 Ultra греется до 85°C. Без хорошего охлаждения будет троттлинг.
- Специфичный формат: Только GGUF. Если вы привыкли к PyTorch или ONNX — придется переучиваться. Хотя llama.cpp сейчас де-факто стандарт для Mac.
И главное — это не GPT-5. Не ждите чудес. Качество ответов на уровне хорошей 32B-модели, но не больше. Хотя для локального запуска — более чем достаточно.
Что будет дальше?
StepFun AI анонсировали Step-4.0 на 70B параметров уже в марте 2026. Если они сохранят оптимизацию памяти, это будет монстр. Но для него понадобится уже 256 ГБ RAM или больше.
Тренд ясен: модели становятся умнее не за счет роста параметров, а за счет лучшей архитектуры. Step-3.5-Flash — первый массовый пример. После него другие вендоры начнут оптимизировать память. Особенно китайские — они уже догоняют.
Если вы выбираете железо под локальные LLM в 2026 году, смотрите не на DGX SPARK против Mac M3 Ultra, а на объем памяти. 128 ГБ — новый минимум для серьезной работы. А 256 ГБ — комфортный стандарт.
Step-3.5-Flash-int4 доказывает: можно иметь и умную модель, и длинный контекст, и нормальную скорость. На Mac. Без облаков. Будущее уже здесь — просто не все об этом знают.