Вы смотрели на страницу скачивания модели и видели табличку с размерами файлов. 7.2 ГБ, 14.5 ГБ, 46 ГБ... И думали: «Ну, 32 ГБ RAM у меня есть, значит, 46 ГБ влезет?» Спойлер: нет. Не влезет. А если и влезет — система начнет задыхаться, файл подкачки сгорит, а вы будете ждать по токену в минуту.
Проблема в том, что размер квантованной модели — это только половина истории. Есть ещё overhead на исполнение: кэш внимания (KV-cache), буферы, сама операционная система, браузер с 50 вкладками. И если вы слепо ориентируетесь на размер файла, вы либо останетесь без модели, либо без рабочего компьютера.
Я перелопатил десятки конфигураций — от древнего ноутбука с 8 ГБ до сервера со 128 ГБ — и вывел простое правило 0.6 ГБ на 1 миллиард параметров для самого популярного квантования Q4_K_M. А чтобы вы не гадали, я собрал открытый датасет с точными цифрами по памяти для каждой модели. Будет больно, будет честно, но вы наконец-то поймете, что реально запустить на вашем железе.
Откуда взялось 0.6 ГБ и почему это работает?
Квантование Q4_K_M — золотая середина. Веса режутся до 4 бит, но с небольшими хитростями (блочное квантование с разной точностью для разных частей). На практике модель занимает примерно 0.5–0.6 ГБ на 1 млрд параметров. Плюс KV-cache добавляет ещё ~0.1–0.2 ГБ на каждый 1K токенов контекста. Итого:
| Размер модели (параметры) | Минимальная RAM (Q4_K_M, контекст 4K) | Комфортная RAM (Q4_K_M, контекст 8K) |
|---|---|---|
| 1B | 1.0 ГБ | 1.5 ГБ |
| 3B | 2.5 ГБ | 3.5 ГБ |
| 7B | 5.0 ГБ | 6.5 ГБ |
| 13B | 9.0 ГБ | 11.0 ГБ |
| 30B | 20.0 ГБ | 24.0 ГБ |
| 70B | 45.0 ГБ | 52.0 ГБ |
| 120B | 78.0 ГБ | 90.0 ГБ |
Видите? 70B модель «весит» ~42 ГБ в файле, а на деле ей нужно 45–52 ГБ. Потому что код тоже жрет память, и KV-cache никуда не делся. Правило 0.6 — эмпирическое, но чертовски точное для Q4_K_M. Для Q5_K_M добавляйте ещё 15%, для Q8_0 — 50%.
8 ГБ RAM — выживание, а не жизнь
8 ГБ — это предел для современных LLM. Забудьте про 7B модели. Даже на 16 ГБ приходится извращаться, а тут — режим жесткой экономии.
Что реально запустить: Qwen 2.5 1.5B Q4_K_M (~1.2 ГБ), SmolLM 1.7B Q4_K_M (~1.4 ГБ), Phi-3-mini 3.8B Q4_K_M (~2.3 ГБ) — но только с контекстом 2K, иначе память улетит в своп. Лучший вариант — Qwen 3 0.5B (есть в кванте 4 бит, ~0.4 ГБ), да, он крошечный, но для простых задач (суммаризация, перевод, генерация идей) — норм.
Совет: используйте минималистичный Linux без DE, отключайте графический интерфейс. Запускайте модели через llama.cpp с флагом -c 2048. И главное — не вздумайте запускать браузер одновременно. 8 ГБ — это лимит для одной задачи.
16 ГБ — стандарт ноутбуков (но не расслабляйтесь)
Типичный сценарий: macOS с 16 ГБ unified memory или Windows с 16 ГБ DDR4. Система откусывает 4–6 ГБ, остается 10–12 ГБ чистыми. Сюда уже можно воткнуть 7B модель в Q4_K_M (5–6 ГБ) с контекстом 4K. Но если вы попробуете Llama 4 Scout 17B (да, 17B!) в Q4, она попросит ~11 ГБ + ещё 2–3 ГБ на кэш — и вы упираетесь в потолок.
Типичная ошибка: скачать Mistral Small 3.1 24B Q4_K_M (файл 14 ГБ) и думать, что он влезет. Нет. Ему нужно 16+ ГБ только для модели, а у вас после системы осталось 10. Итог — убитый своп и 0.1 токен/сек.
Проверенные варианты: Qwen 2.5 7B Q4_K_M, Llama 3.2 8B Q4_K_M, DeepSeek-R1-Distill 7B Q4_K_M. Для кодинга — DeepSeek Coder 6.7B Q4_K_M — отлично лезет.
32 ГБ — золотая середина для энтузиастов
32 ГБ — это комфортный минимум для серьезной работы. После системы и браузера остается 24–26 ГБ. Сюда влезают 13B и даже 30B модели в Q4_K_M. Например, Llama 4 Maverick 17B — влезает с запасом, можно держать контекст 8K. А вот Qwen 3 32B (если такая выйдет — допустим, Qwen 3 32B) потребует ~20 ГБ под модель + 4 ГБ под кэш, итого 24 ГБ — практически под завязку.
Что я рекомендую: Command R+ 35B Q4_K_M — отличный баланс размера и качества, занимает ~22 ГБ. Или DeepSeek-V2-Lite 16B Q8 (требует ~16 ГБ, но качество выше кванта).
48 ГБ — уже серверный уровень (но на десктопе тоже бывает)
48 ГБ — это частый конфиг для рабочих станций (три планки по 16 ГБ или Mac Pro). После всех расходов остается ~40 ГБ. Тут уже можно запускать 70B модели в Q4_K_M, если ужать контекст до 4K. Например, Llama 4 70B потребует ~45 ГБ, а остальные 3 ГБ — это слишком мало для системы, так что либо контекст 2K, либо используйте экстремальные квантования в 2-3 бита. GLM-4.5-Air 9B — вообще без проблем, но зачем вам 48 ГБ под 9B?
Лучшие кандидаты: Qwen 2.5 72B Q3_K_M (~28 ГБ, но качество страдает), DeepSeek-R1 67B Q4_K_M (~40 ГБ). Для 48 ГБ лучше брать 30–40B модели в Q8 — они дадут почти нативное качество.
64 ГБ — дом для большинства открытых моделей
64 ГБ — это точка, где открываются почти все модели до 100B. Система забирает 4 ГБ (если это Linux сервер), остается 60 ГБ. Сюда влезает Llama 4 90B Q4_K_M (~55 ГБ) с небольшим контекстом. Или Command R 104B Q4_K_M (~63 ГБ) — но это впритык, лучше чуть уменьшить контекст.
Мой личный выбор для 64 ГБ: DeepSeek-R1 67B Q5_K_M (~45 ГБ) + контекст 8K (ещё 6 ГБ) = 51 ГБ. Остается 9 ГБ на систему — идеально. Для сравнения: если бы вы хотели запустить такое на GPU, понадобилось бы 80+ ГБ VRAM.
128 ГБ — датацентр в одной коробке
128 ГБ RAM — это уже серьезно. После системы (8 ГБ, если Windows Server) — 120 ГБ. Сюда влазят Qwen 3 200B (гипотетически) в Q4 (~130 ГБ — нет, не влезет), а вот Llama 4 90B Q8 (~85 ГБ) — легко. Или DeepSeek-R1 132B Q4_K_M (~80 ГБ).
Но есть нюанс: при 128 ГБ скорость инференса упирается в пропускную способность памяти (bandwidth). DDR5-5600 дает ~45 ГБ/с, что для 70B модели даст всего 3-5 токенов/сек. Серьезная станция должна иметь высокочастотную память или несколько каналов.
Что реально запустить: любую модель до 100B в Q4, до 70B в Q8, а если использовать 2-битные квантования — то и 200B модели (но качество будет хромать).
Открытый датасет: как перестать гадать и начать мерить
Я устал каждый раз лезть в калькулятор. Поэтому собрал датасет на GitHub: github.com/devops-llm/ram-guide-dataset. Там в CSV-файле лежат проверенные данные для 50+ моделей: размер файла, реальное потребление RAM при 4K, 8K, 16K контексте для разных квантований (Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q8_0).
Как пользоваться:
- Определите свободную RAM (после запуска всего необходимого).
- Найдите в датасете модель и квантование, где total_ram (столбец) меньше вашей свободной памяти с запасом 2-3 ГБ.
- Скачайте файл из столбца file_name и запускайте с контекстом из столбца context_tested.
Датасет обновляется каждые 2 недели. Если у вас есть замеры для модели, которой нет — сделайте PR. Это open-source.
Три грабли, на которые наступают все
1. Считать размер файла за потребление RAM. Файл — это сжатые веса. В памяти они разворачиваются, плюс добавляется кэш. Всегда добавляйте 20% к размеру файла.
2. Игнорировать систему и фоновые процессы. 16 ГБ — это не 16, а 10. Померяйте реально свободную память через free -h (Linux) или диспетчер задач (Windows).
3. Думать, что большая модель всегда лучше. 7B в Q8 часто умнее 13B в Q2. Качество квантования важнее размера. Не гонитесь за параметрами — используйте правило 0.6 и датасет.
А если у меня 12 ГБ или 24 ГБ?
Часто встречаются нестандартные конфиги. 12 ГБ — между 8 и 16. Тут подойдут 3B модели в Q4 (как SmolLM 3B) или 7B в Q3_K_M. 24 ГБ (например, старый MacBook или iMac) — можно попробовать 13B в Q4 или 7B в Q8. Используйте датасет с фильтром по строке ram_free.
Неочевидный совет напоследок
Не пытайтесь запихнуть самую большую модель, которая едва влезает. Лучше возьмите модель на 30-40% меньше, но с большим контекстом и более высоким квантованием. Качество ответа часто определяется не числом параметров, а тем, сколько контекста вы можете дать модели. Проверьте: Qwen 2.5 32B с контекстом 2K vs Mistral 7B с контекстом 32K — на задачах с длинными документами победит маленькая модель с большим окном. Так что всегда оставляйте 20% RAM для контекста и системы — и тогда ваша LLM будет работать, а не ползти.
А если хотите глубины — покопайтесь в методах сжатия KV-cache или посмотрите, как подбирать ОЗУ для MacBook Pro — там свои хитрости с unified memory.