Почему ваша видеокарта плачет при запуске LLM
Вы скачали очередную модель на 70 миллиардов параметров. Запускаете через llama.cpp - и получаете ошибку CUDA out of memory на карте с 24 ГБ VRAM. Знакомо? Это стандартная ситуация 2024-2025 годов, когда сообщество переоценивало свои запросы к локальным моделям.
Проблема в архитектуре: плотные трансформеры загружают ВСЕ параметры модели для КАЖДОГО токена. 70B модель = 140 ГБ в FP16. Даже с квантованием до 4 бит - минимум 35 ГБ. На потребительском железе - невозможно.
MoE: когда эксперты работают по расписанию
Mixture of Experts - это не новая идея. Но в 2025 году она стала мейнстримом благодаря китайским разработчикам. Если обычная модель - это универсальный солдат, то MoE - это команда узких специалистов, которых вызывают по необходимости.
В китайских моделях этот подход довели до совершенства. Kimi 2.5 (анонсирована в декабре 2025) использует 384 эксперта при общем размере в 1.2 триллиона параметров. Но активирует только 8-16 экспертов за токен.
| Архитектура | Всего параметров | Активных за токен | Эффективный размер | Требуемый VRAM |
|---|---|---|---|---|
| Llama 3.1 70B (плотная) | 70B | 70B | 70B | 140 ГБ (FP16) |
| Kimi 2.5 (MoE) | 1.2T | ~12B | 12B | 24 ГБ (FP16) |
| Kimi 2.5 (квантованная) | 1.2T | ~12B | 12B | 6 ГБ (Int4) |
Магия цифр: от 1.2 триллиона к 6 гигабайтам
Вот где начинается реальная магия. Kimi 2.5 использует трюк, который я называю "двойная экономия":
- MoE экономия: вместо загрузки 1.2T параметров загружаем только актуальных экспертов - примерно 12B
- Квантование: применяем Int4 QAT (Quantization-Aware Training) - сжимаем 12B в 4 раза
- MLA KV Cache: оптимизация кэша ключей-значений, о которой я писал ранее
Результат? Модель с качеством 1.2 триллиона параметров работает на RTX 4090 (24 ГБ) в FP16. Или на RTX 4060 (8 ГБ) в Int4. Это переворачивает рынок локальных LLM с ног на голову.
Под капотом Kimi 2.5: как устроен роутер
Самый интересный компонент MoE - роутер (gate network). Это маленькая нейросеть, которая решает: "Какому эксперту отдать этот токен?". В Kimi 2.5 роутер стал умнее:
- Токен поступает на вход
- Роутер анализирует его семантику и контекст
- Выбирает топ-8 экспертов (из 384) с наибольшей вероятностью
- Активирует только этих экспертов
- Результаты взвешиваются и суммируются
Важный нюанс: роутер тоже обучается. В Kimi 2.5 его натренировали на диверсифицированном датасете, чтобы эксперты специализировались: один на математике, другой на коде, третий на литературном анализе. Это не случайное распределение.
Практика: запускаем Kimi 2.5 на своем железе
Теоретически все звучит прекрасно. Но что на практике? Вот минимальные требования для разных конфигураций:
1 Выбор формата модели
На 28.01.2026 доступны три основных варианта Kimi 2.5:
- Kimi-2.5-1.2T-MoE-FP16: полная версия, требует 4x H100 или аналогичных серверных карт
- Kimi-2.5-1.2T-MoE-Int4: квантованная, работает на 2x RTX 4090 (48 ГБ суммарно)
- Kimi-2.5-Mini-12B: выделенная версия для потребительских карт, использует те же эксперты, но с ограниченным роутером
2 Подготовка окружения
Не используйте старые версии llama.cpp - они не поддерживают MoE оптимально. Нужен llama.cpp версии 2025.12 или новее. Компилируем с поддержкой CUDA и MoE:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean
LLAMA_CUDA=1 LLAMA_MOE=1 make -j$(nproc)
3 Конвертация модели (если скачали в исходном формате)
Большинство пользователей скачивают уже конвертированные GGUF файлы. Но если у вас исходные веса:
# Конвертируем в GGUF с поддержкой MoE
python convert.py \
--outfile kimi-2.5-1.2T-MoE-Q4_K_M.gguf \
--outtype q4_k_m \
--moe \
--experts 384 \
--num-experts-per-tok 8 \
input_model_directory/
Внимание: неправильная настройка --num-experts-per-tok приведет к падению качества или увеличению потребления памяти. Для Kimi 2.5 используйте 8 для баланса скорость/качество, 16 для максимального качества.
Где MoE спотыкается: скрытые проблемы
Все хвалят MoE за экономию памяти. Но никто не говорит о проблемах (кроме меня).
Проблема 1: latency на первом токене (TTFT). Роутер должен выбрать экспертов. Это добавляет задержку. В vLLM это особенно заметно - TTFT может быть в 2-3 раза выше, чем у плотных моделей.
Проблема 2: несбалансированная загрузка экспертов. Что если все запросы идут к одному эксперту по Python, а эксперт по древнегреческой поэзии простаивает? В Kimi 2.5 добавили балансировку, но она неидеальна.
Проблема 3: сложность тонкой настройки. Хотите дообучить модель под свою задачу? Удачи. Нужно настраивать и экспертов, и роутер, и баланс между ними. Это не простая задача.
Сравнение с другими подходами к экономии VRAM
MoE - не единственный способ запустить большую модель на маленькой карте. Вот альтернативы:
| Метод | Пример | Экономия VRAM | Потери качества | Сложность |
|---|---|---|---|---|
| Квантование | GPTQ, AWQ | 4-8x | 2-10% | Низкая |
| Слои на CPU | llama.cpp с частичной загрузкой | До 90% | Минимальная | Средняя |
| MoE архитектура | Kimi 2.5, Mixtral | 10-100x | 0-5% | Высокая |
| Миниатюризация | Phi-3.5, TinyLlama | 10-50x | 15-40% | Низкая |
MoE выигрывает по соотношению качество/память, но проигрывает в простоте. Хотя, честно говоря, для конечного пользователя это не должно иметь значения - скачал GGUF файл и запустил.
Что будет дальше? Прогноз на 2026-2027
Kimi 2.5 - только начало. Вот что ждет нас в ближайшие год-два:
- Динамический MoE: количество активируемых экспертов будет меняться в зависимости от сложности запроса. Простой вопрос - 2 эксперта. Сложный - 16.
- Специализированные эксперты для edge-устройств: MoE модели для смартфонов и IoT, где 4 ГБ VRAM в браузере станет нормой.
- Гибридные архитектуры: комбинация MoE с другими техниками экономии, например, из руководства по оптимизации для старого железа.
- Аппаратная поддержка: NVIDIA и AMD добавят инструкции для ускорения MoE в следующих поколениях GPU.
Самая интересная тенденция: MoE делает облачные API менее необходимыми. Зачем платить OpenAI, если на вашей RTX 5090 (которая выйдет в 2026) будет работать модель с качеством GPT-5?
Финальный совет: не гонитесь за триллионами
Видите модель на 1.2 триллиона параметров? Не бегите скачивать. Спросите себя: "А мне действительно нужно качество 1.2T, или хватит 70B с правильной тонкой настройкой?"
MoE - это инструмент. Как молоток. Можно забить гвоздь, а можно разбить себе палец. Kimi 2.5 показывает, что можно создавать модели-монстры, которые работают на потребительском железе. Но это не значит, что вам нужен именно монстр.
Начните с Kimi-2.5-Mini. Потом переходите к полной версии, если действительно упираетесь в ceiling качества. И помните: самая экономичная память - это та, которую вы не используете.