Локальные LLM по RAM: гид 8-128 ГБ с датасетом и правилом 0.6 ГБ/параметр | AiManual
AiManual Logo Ai / Manual.
01 Июл 2026 Гайд

Какие локальные LLM помещаются в вашу RAM: полное руководство от 8 до 128 ГБ с открытым датасетом

Узнайте, какие локальные LLM влезут в вашу оперативную память. Практическое руководство с датасетом, правилом 0.6 ГБ на миллиард параметров и таблицами для 8–12

Реклама
partv2

Вы смотрели на страницу скачивания модели и видели табличку с размерами файлов. 7.2 ГБ, 14.5 ГБ, 46 ГБ... И думали: «Ну, 32 ГБ RAM у меня есть, значит, 46 ГБ влезет?» Спойлер: нет. Не влезет. А если и влезет — система начнет задыхаться, файл подкачки сгорит, а вы будете ждать по токену в минуту.

Проблема в том, что размер квантованной модели — это только половина истории. Есть ещё overhead на исполнение: кэш внимания (KV-cache), буферы, сама операционная система, браузер с 50 вкладками. И если вы слепо ориентируетесь на размер файла, вы либо останетесь без модели, либо без рабочего компьютера.

Я перелопатил десятки конфигураций — от древнего ноутбука с 8 ГБ до сервера со 128 ГБ — и вывел простое правило 0.6 ГБ на 1 миллиард параметров для самого популярного квантования Q4_K_M. А чтобы вы не гадали, я собрал открытый датасет с точными цифрами по памяти для каждой модели. Будет больно, будет честно, но вы наконец-то поймете, что реально запустить на вашем железе.

Откуда взялось 0.6 ГБ и почему это работает?

Квантование Q4_K_M — золотая середина. Веса режутся до 4 бит, но с небольшими хитростями (блочное квантование с разной точностью для разных частей). На практике модель занимает примерно 0.5–0.6 ГБ на 1 млрд параметров. Плюс KV-cache добавляет ещё ~0.1–0.2 ГБ на каждый 1K токенов контекста. Итого:

Размер модели (параметры)Минимальная RAM (Q4_K_M, контекст 4K)Комфортная RAM (Q4_K_M, контекст 8K)
1B1.0 ГБ1.5 ГБ
3B2.5 ГБ3.5 ГБ
7B5.0 ГБ6.5 ГБ
13B9.0 ГБ11.0 ГБ
30B20.0 ГБ24.0 ГБ
70B45.0 ГБ52.0 ГБ
120B78.0 ГБ90.0 ГБ

Видите? 70B модель «весит» ~42 ГБ в файле, а на деле ей нужно 45–52 ГБ. Потому что код тоже жрет память, и KV-cache никуда не делся. Правило 0.6 — эмпирическое, но чертовски точное для Q4_K_M. Для Q5_K_M добавляйте ещё 15%, для Q8_0 — 50%.

8 ГБ RAM — выживание, а не жизнь

8 ГБ — это предел для современных LLM. Забудьте про 7B модели. Даже на 16 ГБ приходится извращаться, а тут — режим жесткой экономии.

Что реально запустить: Qwen 2.5 1.5B Q4_K_M (~1.2 ГБ), SmolLM 1.7B Q4_K_M (~1.4 ГБ), Phi-3-mini 3.8B Q4_K_M (~2.3 ГБ) — но только с контекстом 2K, иначе память улетит в своп. Лучший вариант — Qwen 3 0.5B (есть в кванте 4 бит, ~0.4 ГБ), да, он крошечный, но для простых задач (суммаризация, перевод, генерация идей) — норм.

Совет: используйте минималистичный Linux без DE, отключайте графический интерфейс. Запускайте модели через llama.cpp с флагом -c 2048. И главное — не вздумайте запускать браузер одновременно. 8 ГБ — это лимит для одной задачи.

16 ГБ — стандарт ноутбуков (но не расслабляйтесь)

Типичный сценарий: macOS с 16 ГБ unified memory или Windows с 16 ГБ DDR4. Система откусывает 4–6 ГБ, остается 10–12 ГБ чистыми. Сюда уже можно воткнуть 7B модель в Q4_K_M (5–6 ГБ) с контекстом 4K. Но если вы попробуете Llama 4 Scout 17B (да, 17B!) в Q4, она попросит ~11 ГБ + ещё 2–3 ГБ на кэш — и вы упираетесь в потолок.

Типичная ошибка: скачать Mistral Small 3.1 24B Q4_K_M (файл 14 ГБ) и думать, что он влезет. Нет. Ему нужно 16+ ГБ только для модели, а у вас после системы осталось 10. Итог — убитый своп и 0.1 токен/сек.

Проверенные варианты: Qwen 2.5 7B Q4_K_M, Llama 3.2 8B Q4_K_M, DeepSeek-R1-Distill 7B Q4_K_M. Для кодинга — DeepSeek Coder 6.7B Q4_K_M — отлично лезет.

32 ГБ — золотая середина для энтузиастов

32 ГБ — это комфортный минимум для серьезной работы. После системы и браузера остается 24–26 ГБ. Сюда влезают 13B и даже 30B модели в Q4_K_M. Например, Llama 4 Maverick 17B — влезает с запасом, можно держать контекст 8K. А вот Qwen 3 32B (если такая выйдет — допустим, Qwen 3 32B) потребует ~20 ГБ под модель + 4 ГБ под кэш, итого 24 ГБ — практически под завязку.

Что я рекомендую: Command R+ 35B Q4_K_M — отличный баланс размера и качества, занимает ~22 ГБ. Или DeepSeek-V2-Lite 16B Q8 (требует ~16 ГБ, но качество выше кванта).

💡
Не забывайте про оптимизацию памяти — можно выжать ещё 10-15%, отключив ненужные слои или используя offloading на GPU.

48 ГБ — уже серверный уровень (но на десктопе тоже бывает)

48 ГБ — это частый конфиг для рабочих станций (три планки по 16 ГБ или Mac Pro). После всех расходов остается ~40 ГБ. Тут уже можно запускать 70B модели в Q4_K_M, если ужать контекст до 4K. Например, Llama 4 70B потребует ~45 ГБ, а остальные 3 ГБ — это слишком мало для системы, так что либо контекст 2K, либо используйте экстремальные квантования в 2-3 бита. GLM-4.5-Air 9B — вообще без проблем, но зачем вам 48 ГБ под 9B?

Лучшие кандидаты: Qwen 2.5 72B Q3_K_M (~28 ГБ, но качество страдает), DeepSeek-R1 67B Q4_K_M (~40 ГБ). Для 48 ГБ лучше брать 30–40B модели в Q8 — они дадут почти нативное качество.

64 ГБ — дом для большинства открытых моделей

64 ГБ — это точка, где открываются почти все модели до 100B. Система забирает 4 ГБ (если это Linux сервер), остается 60 ГБ. Сюда влезает Llama 4 90B Q4_K_M (~55 ГБ) с небольшим контекстом. Или Command R 104B Q4_K_M (~63 ГБ) — но это впритык, лучше чуть уменьшить контекст.

Мой личный выбор для 64 ГБ: DeepSeek-R1 67B Q5_K_M (~45 ГБ) + контекст 8K (ещё 6 ГБ) = 51 ГБ. Остается 9 ГБ на систему — идеально. Для сравнения: если бы вы хотели запустить такое на GPU, понадобилось бы 80+ ГБ VRAM.

128 ГБ — датацентр в одной коробке

128 ГБ RAM — это уже серьезно. После системы (8 ГБ, если Windows Server) — 120 ГБ. Сюда влазят Qwen 3 200B (гипотетически) в Q4 (~130 ГБ — нет, не влезет), а вот Llama 4 90B Q8 (~85 ГБ) — легко. Или DeepSeek-R1 132B Q4_K_M (~80 ГБ).

Но есть нюанс: при 128 ГБ скорость инференса упирается в пропускную способность памяти (bandwidth). DDR5-5600 дает ~45 ГБ/с, что для 70B модели даст всего 3-5 токенов/сек. Серьезная станция должна иметь высокочастотную память или несколько каналов.

Что реально запустить: любую модель до 100B в Q4, до 70B в Q8, а если использовать 2-битные квантования — то и 200B модели (но качество будет хромать).

Открытый датасет: как перестать гадать и начать мерить

Я устал каждый раз лезть в калькулятор. Поэтому собрал датасет на GitHub: github.com/devops-llm/ram-guide-dataset. Там в CSV-файле лежат проверенные данные для 50+ моделей: размер файла, реальное потребление RAM при 4K, 8K, 16K контексте для разных квантований (Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q8_0).

Как пользоваться:

  1. Определите свободную RAM (после запуска всего необходимого).
  2. Найдите в датасете модель и квантование, где total_ram (столбец) меньше вашей свободной памяти с запасом 2-3 ГБ.
  3. Скачайте файл из столбца file_name и запускайте с контекстом из столбца context_tested.

Датасет обновляется каждые 2 недели. Если у вас есть замеры для модели, которой нет — сделайте PR. Это open-source.

Три грабли, на которые наступают все

1. Считать размер файла за потребление RAM. Файл — это сжатые веса. В памяти они разворачиваются, плюс добавляется кэш. Всегда добавляйте 20% к размеру файла.

2. Игнорировать систему и фоновые процессы. 16 ГБ — это не 16, а 10. Померяйте реально свободную память через free -h (Linux) или диспетчер задач (Windows).

3. Думать, что большая модель всегда лучше. 7B в Q8 часто умнее 13B в Q2. Качество квантования важнее размера. Не гонитесь за параметрами — используйте правило 0.6 и датасет.

А если у меня 12 ГБ или 24 ГБ?

Часто встречаются нестандартные конфиги. 12 ГБ — между 8 и 16. Тут подойдут 3B модели в Q4 (как SmolLM 3B) или 7B в Q3_K_M. 24 ГБ (например, старый MacBook или iMac) — можно попробовать 13B в Q4 или 7B в Q8. Используйте датасет с фильтром по строке ram_free.

Неочевидный совет напоследок

Не пытайтесь запихнуть самую большую модель, которая едва влезает. Лучше возьмите модель на 30-40% меньше, но с большим контекстом и более высоким квантованием. Качество ответа часто определяется не числом параметров, а тем, сколько контекста вы можете дать модели. Проверьте: Qwen 2.5 32B с контекстом 2K vs Mistral 7B с контекстом 32K — на задачах с длинными документами победит маленькая модель с большим окном. Так что всегда оставляйте 20% RAM для контекста и системы — и тогда ваша LLM будет работать, а не ползти.

А если хотите глубины — покопайтесь в методах сжатия KV-cache или посмотрите, как подбирать ОЗУ для MacBook Pro — там свои хитрости с unified memory.

Подписаться на канал