Быстрый ответ (спойлер): не всё, что блестит, влезет
Слушай, я понимаю твой зуд. Ты купил MacBook с M4 и 24 ГБ RAM, открываешь LM Studio, видишь список моделей на 30+ миллиардов параметров и думаешь: «Ну, 24 гига — это же почти 24? Наверное, потянет». Спойлер: не потянет. Особенно если хочешь держать открытым браузер с десятью вкладками, Slack, VS Code и пару терминалов.
Из 24 ГБ свободными для модели остаётся 18–20 ГБ. Остальное сжирает macOS, фоновые процессы и сам рантайм. А тебе ещё нужен 64k контекст — это +3–5 ГБ к потреблению модели. Так что 24 ГБ — это не «широкое поле», а узкий коридор. В этом гайде я покажу, какие модели проходят в этот коридор, а какие разбиваются об OOM.
Почему 13B-модели — это мёртвая зона для 24 ГБ
Звучит логично: возьми модель на 13 миллиардов параметров, скорми ей Q4_K_M — получишь ~8 ГБ на веса. Остаётся 12 ГБ на контекст. Но есть нюанс: прожорливый overhead инференса. Когда ты генерируешь текст, активации и KV-кэш занимают дополнительную память. На практике 13B модель с 64k контекстом даже в Q4_K_M требует 17–19 ГБ — почти весь свободный объём. Одно неосторожное движение (открыл новую вкладку в браузере) — и Mac уходит в своп.
⚠️ Предупреждение: Своп на SSD — убийца скорости генерации. Ты получишь 0,5 токена в секунду и нагретый корпус до 90°C. Я проверял — лучше не надо.
Поэтому для 24 ГБ с 64k контекстом реальный лимит — 7–9 миллиардов параметров. Да, ты не сможешь запустить CodeLlama-13B или DeepSeek-Coder-V3-13B. Но современные 7–9B модели с хорошим квантованием закрывают почти все задачи кодинга, чата и работы с текстом. Как я писал в гайде по M5, выбор модели упирается не в «чем больше, тем лучше», а в «что реально помещается и работает быстро».
Математика выживания: считаем не только параметры, но и контекст
| Модель | Квантование | Вес модели | 64k контекст + overhead | Итоговое потребление |
|---|---|---|---|---|
| Qwen2.5-7B-Instruct | Q5_K_M | ~5.5 ГБ | ~3.5 ГБ | ~9 ГБ ✅ |
| DeepSeek-Coder-V3-7B (vLLM) | Q4_K_M | ~4.5 ГБ | ~4 ГБ | ~8.5 ГБ ✅ |
| Gemma-3-9B | Q4_K_M | ~6 ГБ | ~4 ГБ | ~10 ГБ ✅ |
| Llama-3.2-8B | Q5_K_M | ~5.8 ГБ | ~3.5 ГБ | ~9.3 ГБ ✅ |
| Qwen2.5-Coder-14B (для сравнения) | Q4_K_M | ~9.2 ГБ | ~6 ГБ | ~15.2 ГБ ❌ |
Обрати внимание: 14B модель в квантовании Q4_K_M + 64k контекст уже жрёт 15 ГБ. А ведь на фоне у тебя ещё браузер, Spotify, Telegram. Я бы не рисковал. История с тормозами Qwen на M4 Max показывает, что даже с 36 ГБ RAM нужно аккуратно подбирать квантование и бэкенд.
Пошаговый план: как не получить OOM при первом промпте
1Выбери правильный рантайм — MLX, а не llama.cpp
На M4 стандартный бэкенд llama.cpp через Metal API часто ведёт себя неоптимально: он резервирует больше памяти, чем нужно, и дольше загружает модель. MLX (фреймворк от Apple) потребляет меньше RAM и быстрее считает. В LM Studio (версия 0.4.2+ на май 2026) переключи бэкенд: Settings → Backend → MLX (Apple Silicon). Без этого шага твой 24 ГБ Mac будет задыхаться даже на 7B модели.
💡 В нашем материале про vLLM-MLX мы гоняли инференс до 464 ток/с — MLX реально делает разницу.
2Не ставь контекст больше 64k на старте
Да, модель может поддерживать 128k. Но при 24 ГБ даже 64k — уже вызов. Запусти с 32k, проверь, сколько памяти остаётся (через Activity Monitor), и только потом увеличивай. Many LLM runners (LM Studio, Ollama) позволяют менять контекст без перезагрузки. Используй это.
3Закрой всё, что не нужно — или используй «режим фокуса»
Звучит банально, но браузер с 20 вкладками съедает 6–8 ГБ. Оставь только то, что реально нужно для задачи. Если работаешь с кодом — используй терминальный интерфейс (clangd + Ollama) вместо веб-интерфейса LM Studio. Экономия памяти — 2–3 ГБ.
4Используй «выгрузку в своп» только в крайнем случае
Если модель еле влезает, она начнёт использовать своп. На M4 это означает деградацию скорости в 10–20 раз. Лучше выбери модель с меньшим числом параметров или более агрессивное квантование (Q4 вместо Q5), чем терпеть 0,3 ток/с. Статья про GLM-4.5-Air на 2–3 битах показывает, как далеко можно зайти в экономии, но для 64k контекста я бы не советовал опускаться ниже Q4_0 — качество сильно падает.
Три грабли, на которые наступают все (и ты наступишь, если не прочитаешь)
Грабли №1. «У меня 24 ГБ, поставлю модель 13B в Q3». Да, формально веса займут 5 ГБ, но overhead с 64k контекстом + активации вылезут за 14 ГБ. А ты ещё хочешь браузер. В итоге — OOM через 2 минуты генерации. Не делай так.
Грабли №2. «Качну самую популярную — она же лучшая». На Hugging Face топ поиска часто занимают модели 14B+ с Q4_K_M. Они не рассчитаны на 24 ГБ с контекстом. Смотри на вкладку «Memory usage» в LM Studio перед загрузкой.
Грабли №3. «Забуду выгрузить модель из памяти после использования». LM Studio по умолчанию держит модель загруженной. Если переключился на другую задачу — выгрузи вручную (кнопка Unload). Иначе 10 ГБ памяти будут заняты впустую.
Итог: не гонись за размером — гонись за качеством квантования
Лучшая модель для твоего M4 с 24 ГБ — это не та, у которой больше параметров, а та, которая влезает в свободные 18–20 ГБ вместе с контекстом и оставляет запас для системы. Из моего опыта:
- Для кодинга: DeepSeek-Coder-V3-7B (Q4_K_M) — идеальный баланс скорости и качества. На MLX выдаёт 25–30 ток/с.
- Для общего чата/ассистента: Qwen2.5-7B-Instruct (Q5_K_M) — чуть больше памяти, но лучше понимает длинные промпты.
- Для аналитики и работы с большими документами: Gemma-3-9B (Q4_K_M) — у неё хорошее сжатие контекста, меньше overhead на 64k.
И главное: не пытайся выжать максимум из 24 ГБ. Если видишь, что память забита под завязку, лучше купи MacBook с 36 ГБ или 48 ГБ. Кстати, посмотри Apple MacBook Pro 16 2024 M4 Max 36Gb — это уже другой уровень для локальных моделей. Но если твой бюджет ограничен 24 ГБ, описанный подход позволит тебе комфортно работать с современными LLM без покупки нового ноутбука.