Быстрый ответ (спойлер): не всё, что блестит, влезет

Слушай, я понимаю твой зуд. Ты купил MacBook с M4 и 24 ГБ RAM, открываешь LM Studio, видишь список моделей на 30+ миллиардов параметров и думаешь: «Ну, 24 гига — это же почти 24? Наверное, потянет». Спойлер: не потянет. Особенно если хочешь держать открытым браузер с десятью вкладками, Slack, VS Code и пару терминалов.

Из 24 ГБ свободными для модели остаётся 18–20 ГБ. Остальное сжирает macOS, фоновые процессы и сам рантайм. А тебе ещё нужен 64k контекст — это +3–5 ГБ к потреблению модели. Так что 24 ГБ — это не «широкое поле», а узкий коридор. В этом гайде я покажу, какие модели проходят в этот коридор, а какие разбиваются об OOM.

Почему 13B-модели — это мёртвая зона для 24 ГБ

Звучит логично: возьми модель на 13 миллиардов параметров, скорми ей Q4_K_M — получишь ~8 ГБ на веса. Остаётся 12 ГБ на контекст. Но есть нюанс: прожорливый overhead инференса. Когда ты генерируешь текст, активации и KV-кэш занимают дополнительную память. На практике 13B модель с 64k контекстом даже в Q4_K_M требует 17–19 ГБ — почти весь свободный объём. Одно неосторожное движение (открыл новую вкладку в браузере) — и Mac уходит в своп.

⚠️ Предупреждение: Своп на SSD — убийца скорости генерации. Ты получишь 0,5 токена в секунду и нагретый корпус до 90°C. Я проверял — лучше не надо.

Поэтому для 24 ГБ с 64k контекстом реальный лимит — 7–9 миллиардов параметров. Да, ты не сможешь запустить CodeLlama-13B или DeepSeek-Coder-V3-13B. Но современные 7–9B модели с хорошим квантованием закрывают почти все задачи кодинга, чата и работы с текстом. Как я писал в гайде по M5, выбор модели упирается не в «чем больше, тем лучше», а в «что реально помещается и работает быстро».

Математика выживания: считаем не только параметры, но и контекст

Модель	Квантование	Вес модели	64k контекст + overhead	Итоговое потребление
Qwen2.5-7B-Instruct	Q5_K_M	~5.5 ГБ	~3.5 ГБ	~9 ГБ ✅
DeepSeek-Coder-V3-7B (vLLM)	Q4_K_M	~4.5 ГБ	~4 ГБ	~8.5 ГБ ✅
Gemma-3-9B	Q4_K_M	~6 ГБ	~4 ГБ	~10 ГБ ✅
Llama-3.2-8B	Q5_K_M	~5.8 ГБ	~3.5 ГБ	~9.3 ГБ ✅
Qwen2.5-Coder-14B (для сравнения)	Q4_K_M	~9.2 ГБ	~6 ГБ	~15.2 ГБ ❌

Обрати внимание: 14B модель в квантовании Q4_K_M + 64k контекст уже жрёт 15 ГБ. А ведь на фоне у тебя ещё браузер, Spotify, Telegram. Я бы не рисковал. История с тормозами Qwen на M4 Max показывает, что даже с 36 ГБ RAM нужно аккуратно подбирать квантование и бэкенд.

Пошаговый план: как не получить OOM при первом промпте

1Выбери правильный рантайм — MLX, а не llama.cpp

На M4 стандартный бэкенд llama.cpp через Metal API часто ведёт себя неоптимально: он резервирует больше памяти, чем нужно, и дольше загружает модель. MLX (фреймворк от Apple) потребляет меньше RAM и быстрее считает. В LM Studio (версия 0.4.2+ на май 2026) переключи бэкенд: Settings → Backend → MLX (Apple Silicon). Без этого шага твой 24 ГБ Mac будет задыхаться даже на 7B модели.

💡 В нашем материале про vLLM-MLX мы гоняли инференс до 464 ток/с — MLX реально делает разницу.

2Не ставь контекст больше 64k на старте

Да, модель может поддерживать 128k. Но при 24 ГБ даже 64k — уже вызов. Запусти с 32k, проверь, сколько памяти остаётся (через Activity Monitor), и только потом увеличивай. Many LLM runners (LM Studio, Ollama) позволяют менять контекст без перезагрузки. Используй это.

3Закрой всё, что не нужно — или используй «режим фокуса»

Звучит банально, но браузер с 20 вкладками съедает 6–8 ГБ. Оставь только то, что реально нужно для задачи. Если работаешь с кодом — используй терминальный интерфейс (clangd + Ollama) вместо веб-интерфейса LM Studio. Экономия памяти — 2–3 ГБ.

4Используй «выгрузку в своп» только в крайнем случае

Если модель еле влезает, она начнёт использовать своп. На M4 это означает деградацию скорости в 10–20 раз. Лучше выбери модель с меньшим числом параметров или более агрессивное квантование (Q4 вместо Q5), чем терпеть 0,3 ток/с. Статья про GLM-4.5-Air на 2–3 битах показывает, как далеко можно зайти в экономии, но для 64k контекста я бы не советовал опускаться ниже Q4_0 — качество сильно падает.

Три грабли, на которые наступают все (и ты наступишь, если не прочитаешь)

Грабли №1. «У меня 24 ГБ, поставлю модель 13B в Q3». Да, формально веса займут 5 ГБ, но overhead с 64k контекстом + активации вылезут за 14 ГБ. А ты ещё хочешь браузер. В итоге — OOM через 2 минуты генерации. Не делай так.

Грабли №2. «Качну самую популярную — она же лучшая». На Hugging Face топ поиска часто занимают модели 14B+ с Q4_K_M. Они не рассчитаны на 24 ГБ с контекстом. Смотри на вкладку «Memory usage» в LM Studio перед загрузкой.

Грабли №3. «Забуду выгрузить модель из памяти после использования». LM Studio по умолчанию держит модель загруженной. Если переключился на другую задачу — выгрузи вручную (кнопка Unload). Иначе 10 ГБ памяти будут заняты впустую.

🔑

Совет профи: Реализация Paged MoE для 397B модели — экстремальный пример, как техники разделения памяти могут запускать гигантов на малом RAM. Но для 24 ГБ с 64k контекстом такие фокусы избыточны, достаточно простого выбора правильного квантования и бэкенда.

Итог: не гонись за размером — гонись за качеством квантования

Лучшая модель для твоего M4 с 24 ГБ — это не та, у которой больше параметров, а та, которая влезает в свободные 18–20 ГБ вместе с контекстом и оставляет запас для системы. Из моего опыта:

Для кодинга: DeepSeek-Coder-V3-7B (Q4_K_M) — идеальный баланс скорости и качества. На MLX выдаёт 25–30 ток/с.
Для общего чата/ассистента: Qwen2.5-7B-Instruct (Q5_K_M) — чуть больше памяти, но лучше понимает длинные промпты.
Для аналитики и работы с большими документами: Gemma-3-9B (Q4_K_M) — у неё хорошее сжатие контекста, меньше overhead на 64k.

И главное: не пытайся выжать максимум из 24 ГБ. Если видишь, что память забита под завязку, лучше купи MacBook с 36 ГБ или 48 ГБ. Кстати, посмотри Apple MacBook Pro 16 2024 M4 Max 36Gb — это уже другой уровень для локальных моделей. Но если твой бюджет ограничен 24 ГБ, описанный подход позволит тебе комфортно работать с современными LLM без покупки нового ноутбука.

Подписаться на канал

24 ГБ ОЗУ на M4 и 64k контекст: какие LLM реально работают без тормозов?