Забудьте про облака: 24-миллиардная модель на вашем жестком диске
Liquid AI выпустила LFM2-24B-A2B - модель, которая издевается над законами физики. По крайней мере, над законами потребления памяти. Sparse MoE (Mixture of Experts) архитектура означает, что вы активируете только часть нейронов для каждой задачи. Представьте, что у вас есть команда из 100 экспертов, но для ответа на вопрос о погоде звоните только метеорологу. Остальные 99 спят и не жрут оперативку.
На бумаге LFM2-24B-A2B имеет 24 миллиарда параметров. На практике, для инференса нужно гораздо меньше памяти. Как раз те самые 32 ГБ ОЗУ, которые есть у многих геймерских ПК или рабочих станций.
1Готовим железо и софт
Первое, что нужно понять: 32 ГБ ОЗУ - это минималка. Если у вас Windows с кучей фоновых процессов, освободите память. Лучше использовать Linux. Если вы не знаете, как перейти на Linux, прочитайте построение локального AI-сервера. Если у вас мало оперативки, докупите RAM через наш партнерский магазин: купить оперативную память.
Установите llama.cpp - это наш главный инструмент для CPU-инференса. Если есть GPU с 8+ ГБ памяти, можно использовать vLLM для скорости.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4Для vLLM:
pip install vllmЕсли вы раньше не запускали большие модели локально, избегайте классических ошибок. Практический гайд по ошибкам спасет вам часы жизни.
2Качаем правильное квантование
Оригинальная модель в fp16 весит около 48 ГБ. Это не влезет в 32 ГБ ОЗУ. К счастью, сообщество создало GGUF квантования. Для 32 ГБ ОЗУ подойдет Q4_K_M или Q5_K_M. Q4_K_M - хороший баланс между качеством и размером.
Скачайте модель с Hugging Face или другого зеркала. Используйте официальную страницу модели: LFM2-24B-A2B на Hugging Face. Ищите файлы с расширением .gguf.
wget https://huggingface.co/liquid-ai/LFM2-24B-A2B-GGUF/resolve/main/LFM2-24B-A2B-Q4_K_M.ggufФайл займет около 14 ГБ на диске. Для оперативки нужно примерно 16-20 ГБ при запуске.
3Запускаем через llama.cpp
Базовый запуск для CPU:
./main -m LFM2-24B-A2B-Q4_K_M.gguf -p "Расскажи о квантовой физике" -n 512Если у вас многоядерный процессор, добавьте флаг -t для указания количества потоков. Например, для 16 потоков: -t 16.
Чтобы ускорить работу, можно использовать GPU через CUDA, если llama.cpp скомпилирован с поддержкой CUDA. Но для 32 ГБ ОЗУ, скорее всего, вы используете CPU.
4Пробуем vLLM для GPU
Если у вас есть NVIDIA GPU с 12+ ГБ памяти, vLLM может дать значительный прирост скорости. Установите vLLM и запустите модель.
from vllm import LLM, SamplingParams
llm = LLM(model="liquid-ai/LFM2-24B-A2B", quantization="awq", dtype="half")
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=512)
outputs = llm.generate(["Расскажи о преимуществах sparse MoE архитектуры"], sampling_params)
print(outputs[0].outputs[0].text)Обратите внимание: vLLM требует, чтобы модель была в формате, который он поддерживает. Возможно, понадобится конвертировать GGUF в другой формат или использовать оригинальную модель с квантованием AWQ.
vLLM жадный до видеопамяти. Убедитесь, что у вас достаточно VRAM. Для 24B модели с AWQ квантованием нужно около 12 ГБ VRAM. Если не хватает, уменьшайте параметр max_model_len или используйте CPU.
5SGLang для продвинутых сценариев
SGLang - это движок для сложных промптов, например, с ветвлением или шаблонами. Если вы хотите использовать LFM2-24B-A2B для сложных задач, SGLang может помочь.
pip install sglangПример запуска:
import sglang as sgl
@sgl.function
def multi_step_query(s, question):
s += "Вопрос: " + question + "\n"
s += "Давайте подумаем шаг за шагом.\n"
s += sgl.gen("reasoning", max_tokens=256)
s += "\nИтак, ответ: "
s += sgl.gen("answer", max_tokens=128)
runtime = sgl.Runtime(model="liquid-ai/LFM2-24B-A2B")
state = multi_step_query.run(question="Как работает sparse MoE?")
print(state["answer"])SGLang оптимизирует выполнение таких промптов, уменьшая задержки.
А что с альтернативами? Сравниваем с соседями
LFM2-24B-A2B не единственная модель, которая помещается в 32 ГБ ОЗУ. Вот краткое сравнение:
| Модель | Размер | Архитектура | Качество | Скорость на CPU |
|---|---|---|---|---|
| LFM2-24B-A2B | 24B (sparse MoE) | Sparse MoE | Высокое для задач | Средняя (зависит от активации экспертов) |
| GLM-4.5-Air | 8B | Dense | Хорошее | Быстрая |
| MiniMax-M2.1 | 12B | Dense | Отличное | Медленная без GPU |
GLM-4.5-Air легче и быстрее, но LFM2-24B-A2B может быть умнее в сложных задачах благодаря MoE. Если вам нужно что-то очень компактное, посмотрите 7 маленьких LLM на ноутбуке с 16 ГБ ОЗУ.
MiniMax-M2.1 требует больше ресурсов, но если у вас две видеокарты, запуск на двух GPU возможен.
Кому подойдет LFM2-24B-A2B?
Эта модель для тех, кто:
- Хочет экспериментировать с современными архитектурами (sparse MoE) без доступа к серверным GPU.
- Имеет ПК с 32 ГБ ОЗУ и готов мириться со скоростью 1-2 токена в секунду на CPU.
- Нуждается в качественном ИИ для задач, где плотные модели 8B-12B недостаточны.
- Разрабатывает приложения с ИИ и хочет иметь локальный контроль над моделью.
Если вы собираете серьезную станцию, гайд по железу за $15 000 поможет. Но для LFM2-24B-A2B хватит и скромного железа.
Мой совет: начните с Q4_K_M квантования в llama.cpp. Если скорость не устраивает, и есть GPU, попробуйте vLLM. А если хотите построить целую инфраструктуру, локальная LLM-инфраструктура на домашнем железе - ваш следующий шаг.
И помните: запуск больших моделей локально - это всегда компромисс между качеством, скоростью и ресурсами. LFM2-24B-A2B предлагает уникальный компромисс благодаря sparse MoE. Попробуйте, и вы можете обнаружить, что облака вам больше не нужны.
P.S. Если у вас старый компьютер, не отчаивайтесь. Запуск 355-миллиардной модели на железе 2015 года показывает, что возможности есть всегда.