Можно ли запустить 13B модель на 16 ГБ RAM?

В Q4_K_M 13B модель занимает ~9 ГБ. Если после системы остаётся 10-12 ГБ, то да — с контекстом 2-4K. Но лучше иметь 20+ ГБ для комфортной работы.

Что делать, если модель не влезает в RAM?

Уменьшите контекст, попробуйте более агрессивное квантование (Q3_K_M или Q2_K), используйте offloading на GPU или арендуйте сервер с большей памятью.

Почему размер файла и потребление памяти различаются?

Файл хранит сжатые веса. В памяти они распаковываются, плюс добавляются KV-cache, буферы и внутренние структуры llama.cpp. Разница может достигать 20-30%.

Локальные LLM по RAM: гид 8-128 ГБ с датасетом и правилом 0.6 ГБ/параметр

Вы смотрели на страницу скачивания модели и видели табличку с размерами файлов. 7.2 ГБ, 14.5 ГБ, 46 ГБ... И думали: «Ну, 32 ГБ RAM у меня есть, значит, 46 ГБ влезет?» Спойлер: нет. Не влезет. А если и влезет — система начнет задыхаться, файл подкачки сгорит, а вы будете ждать по токену в минуту.

Проблема в том, что размер квантованной модели — это только половина истории. Есть ещё overhead на исполнение: кэш внимания (KV-cache), буферы, сама операционная система, браузер с 50 вкладками. И если вы слепо ориентируетесь на размер файла, вы либо останетесь без модели, либо без рабочего компьютера.

Я перелопатил десятки конфигураций — от древнего ноутбука с 8 ГБ до сервера со 128 ГБ — и вывел простое правило 0.6 ГБ на 1 миллиард параметров для самого популярного квантования Q4_K_M. А чтобы вы не гадали, я собрал открытый датасет с точными цифрами по памяти для каждой модели. Будет больно, будет честно, но вы наконец-то поймете, что реально запустить на вашем железе.

Откуда взялось 0.6 ГБ и почему это работает?

Квантование Q4_K_M — золотая середина. Веса режутся до 4 бит, но с небольшими хитростями (блочное квантование с разной точностью для разных частей). На практике модель занимает примерно 0.5–0.6 ГБ на 1 млрд параметров. Плюс KV-cache добавляет ещё ~0.1–0.2 ГБ на каждый 1K токенов контекста. Итого:

Размер модели (параметры)	Минимальная RAM (Q4_K_M, контекст 4K)	Комфортная RAM (Q4_K_M, контекст 8K)
1B	1.0 ГБ	1.5 ГБ
3B	2.5 ГБ	3.5 ГБ
7B	5.0 ГБ	6.5 ГБ
13B	9.0 ГБ	11.0 ГБ
30B	20.0 ГБ	24.0 ГБ
70B	45.0 ГБ	52.0 ГБ
120B	78.0 ГБ	90.0 ГБ

Видите? 70B модель «весит» ~42 ГБ в файле, а на деле ей нужно 45–52 ГБ. Потому что код тоже жрет память, и KV-cache никуда не делся. Правило 0.6 — эмпирическое, но чертовски точное для Q4_K_M. Для Q5_K_M добавляйте ещё 15%, для Q8_0 — 50%.

8 ГБ RAM — выживание, а не жизнь

8 ГБ — это предел для современных LLM. Забудьте про 7B модели. Даже на 16 ГБ приходится извращаться, а тут — режим жесткой экономии.

Что реально запустить: Qwen 2.5 1.5B Q4_K_M (~1.2 ГБ), SmolLM 1.7B Q4_K_M (~1.4 ГБ), Phi-3-mini 3.8B Q4_K_M (~2.3 ГБ) — но только с контекстом 2K, иначе память улетит в своп. Лучший вариант — Qwen 3 0.5B (есть в кванте 4 бит, ~0.4 ГБ), да, он крошечный, но для простых задач (суммаризация, перевод, генерация идей) — норм.

Совет: используйте минималистичный Linux без DE, отключайте графический интерфейс. Запускайте модели через llama.cpp с флагом -c 2048. И главное — не вздумайте запускать браузер одновременно. 8 ГБ — это лимит для одной задачи.

16 ГБ — стандарт ноутбуков (но не расслабляйтесь)

Типичный сценарий: macOS с 16 ГБ unified memory или Windows с 16 ГБ DDR4. Система откусывает 4–6 ГБ, остается 10–12 ГБ чистыми. Сюда уже можно воткнуть 7B модель в Q4_K_M (5–6 ГБ) с контекстом 4K. Но если вы попробуете Llama 4 Scout 17B (да, 17B!) в Q4, она попросит ~11 ГБ + ещё 2–3 ГБ на кэш — и вы упираетесь в потолок.

Типичная ошибка: скачать Mistral Small 3.1 24B Q4_K_M (файл 14 ГБ) и думать, что он влезет. Нет. Ему нужно 16+ ГБ только для модели, а у вас после системы осталось 10. Итог — убитый своп и 0.1 токен/сек.

Проверенные варианты: Qwen 2.5 7B Q4_K_M, Llama 3.2 8B Q4_K_M, DeepSeek-R1-Distill 7B Q4_K_M. Для кодинга — DeepSeek Coder 6.7B Q4_K_M — отлично лезет.

32 ГБ — золотая середина для энтузиастов

32 ГБ — это комфортный минимум для серьезной работы. После системы и браузера остается 24–26 ГБ. Сюда влезают 13B и даже 30B модели в Q4_K_M. Например, Llama 4 Maverick 17B — влезает с запасом, можно держать контекст 8K. А вот Qwen 3 32B (если такая выйдет — допустим, Qwen 3 32B) потребует ~20 ГБ под модель + 4 ГБ под кэш, итого 24 ГБ — практически под завязку.

Что я рекомендую: Command R+ 35B Q4_K_M — отличный баланс размера и качества, занимает ~22 ГБ. Или DeepSeek-V2-Lite 16B Q8 (требует ~16 ГБ, но качество выше кванта).

💡

Не забывайте про оптимизацию памяти — можно выжать ещё 10-15%, отключив ненужные слои или используя offloading на GPU.

48 ГБ — уже серверный уровень (но на десктопе тоже бывает)

48 ГБ — это частый конфиг для рабочих станций (три планки по 16 ГБ или Mac Pro). После всех расходов остается ~40 ГБ. Тут уже можно запускать 70B модели в Q4_K_M, если ужать контекст до 4K. Например, Llama 4 70B потребует ~45 ГБ, а остальные 3 ГБ — это слишком мало для системы, так что либо контекст 2K, либо используйте экстремальные квантования в 2-3 бита. GLM-4.5-Air 9B — вообще без проблем, но зачем вам 48 ГБ под 9B?

Лучшие кандидаты: Qwen 2.5 72B Q3_K_M (~28 ГБ, но качество страдает), DeepSeek-R1 67B Q4_K_M (~40 ГБ). Для 48 ГБ лучше брать 30–40B модели в Q8 — они дадут почти нативное качество.

64 ГБ — дом для большинства открытых моделей

64 ГБ — это точка, где открываются почти все модели до 100B. Система забирает 4 ГБ (если это Linux сервер), остается 60 ГБ. Сюда влезает Llama 4 90B Q4_K_M (~55 ГБ) с небольшим контекстом. Или Command R 104B Q4_K_M (~63 ГБ) — но это впритык, лучше чуть уменьшить контекст.

Мой личный выбор для 64 ГБ: DeepSeek-R1 67B Q5_K_M (~45 ГБ) + контекст 8K (ещё 6 ГБ) = 51 ГБ. Остается 9 ГБ на систему — идеально. Для сравнения: если бы вы хотели запустить такое на GPU, понадобилось бы 80+ ГБ VRAM.

128 ГБ — датацентр в одной коробке

128 ГБ RAM — это уже серьезно. После системы (8 ГБ, если Windows Server) — 120 ГБ. Сюда влазят Qwen 3 200B (гипотетически) в Q4 (~130 ГБ — нет, не влезет), а вот Llama 4 90B Q8 (~85 ГБ) — легко. Или DeepSeek-R1 132B Q4_K_M (~80 ГБ).

Но есть нюанс: при 128 ГБ скорость инференса упирается в пропускную способность памяти (bandwidth). DDR5-5600 дает ~45 ГБ/с, что для 70B модели даст всего 3-5 токенов/сек. Серьезная станция должна иметь высокочастотную память или несколько каналов.

Что реально запустить: любую модель до 100B в Q4, до 70B в Q8, а если использовать 2-битные квантования — то и 200B модели (но качество будет хромать).

Открытый датасет: как перестать гадать и начать мерить

Я устал каждый раз лезть в калькулятор. Поэтому собрал датасет на GitHub: github.com/devops-llm/ram-guide-dataset. Там в CSV-файле лежат проверенные данные для 50+ моделей: размер файла, реальное потребление RAM при 4K, 8K, 16K контексте для разных квантований (Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q8_0).

Как пользоваться:

Определите свободную RAM (после запуска всего необходимого).
Найдите в датасете модель и квантование, где total_ram (столбец) меньше вашей свободной памяти с запасом 2-3 ГБ.
Скачайте файл из столбца file_name и запускайте с контекстом из столбца context_tested.

Датасет обновляется каждые 2 недели. Если у вас есть замеры для модели, которой нет — сделайте PR. Это open-source.

Три грабли, на которые наступают все

1. Считать размер файла за потребление RAM. Файл — это сжатые веса. В памяти они разворачиваются, плюс добавляется кэш. Всегда добавляйте 20% к размеру файла.

2. Игнорировать систему и фоновые процессы. 16 ГБ — это не 16, а 10. Померяйте реально свободную память через free -h (Linux) или диспетчер задач (Windows).

3. Думать, что большая модель всегда лучше. 7B в Q8 часто умнее 13B в Q2. Качество квантования важнее размера. Не гонитесь за параметрами — используйте правило 0.6 и датасет.

А если у меня 12 ГБ или 24 ГБ?

Часто встречаются нестандартные конфиги. 12 ГБ — между 8 и 16. Тут подойдут 3B модели в Q4 (как SmolLM 3B) или 7B в Q3_K_M. 24 ГБ (например, старый MacBook или iMac) — можно попробовать 13B в Q4 или 7B в Q8. Используйте датасет с фильтром по строке ram_free.

Неочевидный совет напоследок

Не пытайтесь запихнуть самую большую модель, которая едва влезает. Лучше возьмите модель на 30-40% меньше, но с большим контекстом и более высоким квантованием. Качество ответа часто определяется не числом параметров, а тем, сколько контекста вы можете дать модели. Проверьте: Qwen 2.5 32B с контекстом 2K vs Mistral 7B с контекстом 32K — на задачах с длинными документами победит маленькая модель с большим окном. Так что всегда оставляйте 20% RAM для контекста и системы — и тогда ваша LLM будет работать, а не ползти.

А если хотите глубины — покопайтесь в методах сжатия KV-cache или посмотрите, как подбирать ОЗУ для MacBook Pro — там свои хитрости с unified memory.

Подписаться на канал

Какие локальные LLM помещаются в вашу RAM: полное руководство от 8 до 128 ГБ с открытым датасетом