Забудьте про облака: 24-миллиардная модель на вашем жестком диске

Liquid AI выпустила LFM2-24B-A2B - модель, которая издевается над законами физики. По крайней мере, над законами потребления памяти. Sparse MoE (Mixture of Experts) архитектура означает, что вы активируете только часть нейронов для каждой задачи. Представьте, что у вас есть команда из 100 экспертов, но для ответа на вопрос о погоде звоните только метеорологу. Остальные 99 спят и не жрут оперативку.

💡

Sparse MoE - это не магия, а просто умная архитектура. Модель разделена на "экспертов", и для каждого токена выбираются только несколько из них. Так вы получаете capacity большой модели, но вычисляете только маленькую её часть.

На бумаге LFM2-24B-A2B имеет 24 миллиарда параметров. На практике, для инференса нужно гораздо меньше памяти. Как раз те самые 32 ГБ ОЗУ, которые есть у многих геймерских ПК или рабочих станций.

1Готовим железо и софт

Первое, что нужно понять: 32 ГБ ОЗУ - это минималка. Если у вас Windows с кучей фоновых процессов, освободите память. Лучше использовать Linux. Если вы не знаете, как перейти на Linux, прочитайте построение локального AI-сервера. Если у вас мало оперативки, докупите RAM через наш партнерский магазин: купить оперативную память.

Установите llama.cpp - это наш главный инструмент для CPU-инференса. Если есть GPU с 8+ ГБ памяти, можно использовать vLLM для скорости.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

Для vLLM:

pip install vllm

Если вы раньше не запускали большие модели локально, избегайте классических ошибок. Практический гайд по ошибкам спасет вам часы жизни.

2Качаем правильное квантование

Оригинальная модель в fp16 весит около 48 ГБ. Это не влезет в 32 ГБ ОЗУ. К счастью, сообщество создало GGUF квантования. Для 32 ГБ ОЗУ подойдет Q4_K_M или Q5_K_M. Q4_K_M - хороший баланс между качеством и размером.

Скачайте модель с Hugging Face или другого зеркала. Используйте официальную страницу модели: LFM2-24B-A2B на Hugging Face. Ищите файлы с расширением .gguf.

wget https://huggingface.co/liquid-ai/LFM2-24B-A2B-GGUF/resolve/main/LFM2-24B-A2B-Q4_K_M.gguf

Файл займет около 14 ГБ на диске. Для оперативки нужно примерно 16-20 ГБ при запуске.

3Запускаем через llama.cpp

Базовый запуск для CPU:

./main -m LFM2-24B-A2B-Q4_K_M.gguf -p "Расскажи о квантовой физике" -n 512

Если у вас многоядерный процессор, добавьте флаг -t для указания количества потоков. Например, для 16 потоков: -t 16.

Чтобы ускорить работу, можно использовать GPU через CUDA, если llama.cpp скомпилирован с поддержкой CUDA. Но для 32 ГБ ОЗУ, скорее всего, вы используете CPU.

💡

llama.cpp автоматически использует оперативку эффективно, но если у вас есть немного видеопамяти, можно перенести часть слоев на GPU. Используйте флаг --ngl 20 для загрузки 20 слоев на GPU. Это ускорит инференс, если GPU хватает памяти.

4Пробуем vLLM для GPU

Если у вас есть NVIDIA GPU с 12+ ГБ памяти, vLLM может дать значительный прирост скорости. Установите vLLM и запустите модель.

from vllm import LLM, SamplingParams

llm = LLM(model="liquid-ai/LFM2-24B-A2B", quantization="awq", dtype="half")
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=512)

outputs = llm.generate(["Расскажи о преимуществах sparse MoE архитектуры"], sampling_params)
print(outputs[0].outputs[0].text)

Обратите внимание: vLLM требует, чтобы модель была в формате, который он поддерживает. Возможно, понадобится конвертировать GGUF в другой формат или использовать оригинальную модель с квантованием AWQ.

vLLM жадный до видеопамяти. Убедитесь, что у вас достаточно VRAM. Для 24B модели с AWQ квантованием нужно около 12 ГБ VRAM. Если не хватает, уменьшайте параметр max_model_len или используйте CPU.

5SGLang для продвинутых сценариев

SGLang - это движок для сложных промптов, например, с ветвлением или шаблонами. Если вы хотите использовать LFM2-24B-A2B для сложных задач, SGLang может помочь.

pip install sglang

Пример запуска:

import sglang as sgl

@sgl.function
def multi_step_query(s, question):
    s += "Вопрос: " + question + "\n"
    s += "Давайте подумаем шаг за шагом.\n"
    s += sgl.gen("reasoning", max_tokens=256)
    s += "\nИтак, ответ: "
    s += sgl.gen("answer", max_tokens=128)

runtime = sgl.Runtime(model="liquid-ai/LFM2-24B-A2B")
state = multi_step_query.run(question="Как работает sparse MoE?")
print(state["answer"])

SGLang оптимизирует выполнение таких промптов, уменьшая задержки.

А что с альтернативами? Сравниваем с соседями

LFM2-24B-A2B не единственная модель, которая помещается в 32 ГБ ОЗУ. Вот краткое сравнение:

Модель	Размер	Архитектура	Качество	Скорость на CPU
LFM2-24B-A2B	24B (sparse MoE)	Sparse MoE	Высокое для задач	Средняя (зависит от активации экспертов)
GLM-4.5-Air	8B	Dense	Хорошее	Быстрая
MiniMax-M2.1	12B	Dense	Отличное	Медленная без GPU

GLM-4.5-Air легче и быстрее, но LFM2-24B-A2B может быть умнее в сложных задачах благодаря MoE. Если вам нужно что-то очень компактное, посмотрите 7 маленьких LLM на ноутбуке с 16 ГБ ОЗУ.

MiniMax-M2.1 требует больше ресурсов, но если у вас две видеокарты, запуск на двух GPU возможен.

Кому подойдет LFM2-24B-A2B?

Эта модель для тех, кто:

Хочет экспериментировать с современными архитектурами (sparse MoE) без доступа к серверным GPU.
Имеет ПК с 32 ГБ ОЗУ и готов мириться со скоростью 1-2 токена в секунду на CPU.
Нуждается в качественном ИИ для задач, где плотные модели 8B-12B недостаточны.
Разрабатывает приложения с ИИ и хочет иметь локальный контроль над моделью.

Если вы собираете серьезную станцию, гайд по железу за $15 000 поможет. Но для LFM2-24B-A2B хватит и скромного железа.

Мой совет: начните с Q4_K_M квантования в llama.cpp. Если скорость не устраивает, и есть GPU, попробуйте vLLM. А если хотите построить целую инфраструктуру, локальная LLM-инфраструктура на домашнем железе - ваш следующий шаг.

И помните: запуск больших моделей локально - это всегда компромисс между качеством, скоростью и ресурсами. LFM2-24B-A2B предлагает уникальный компромисс благодаря sparse MoE. Попробуйте, и вы можете обнаружить, что облака вам больше не нужны.

P.S. Если у вас старый компьютер, не отчаивайтесь. Запуск 355-миллиардной модели на железе 2015 года показывает, что возможности есть всегда.

Подписаться на канал

Liquid AI LFM2-24B-A2B: руководство по запуску MoE-модели на локальном железе с 32 ГБ ОЗУ