Проблема: 1.2 триллиона параметров на вашем столе. Серьезно?
Вы читаете про Kimi K2.5 - модель с 1.2 триллионами параметров, 384 экспертами, которая по бенчмаркам 2025 года бьет GPT-5. И думаете: "Интересно, а на моем RTX 4090 запустится?"
Нет. Не запустится.
Но вот что запустится - так это если собрать систему, которая использует главный трюк MoE-архитектур: они не загружают все параметры одновременно. Из тех 1.2 триллиона активны только около 12 миллиардов за токен. Это как разница между вызовом всей пожарной бригады города (плотная модель) и вызовом двух ближайших пожарных машин (MoE).
Важно: в феврале 2026 года Kimi K2.5 - самая крупная из доступных MoE-моделей с открытыми весами. Есть слухи о Kimi K3.0, но официального релиза пока нет. Все спецификации в этой статье актуальны на 09.02.2026.
Проблема в том, что даже 12 миллиардов параметров в FP16 - это 24 ГБ VRAM. Плюс KV-кеш, плюс активации, плюс overhead фреймворков. Одна RTX 4090 с ее 24 ГБ уже на пределе для инференса с маленьким контекстом. Для реальной работы нужен запас.
И вот здесь начинается инженерная магия: как распределить модель между несколькими GPU и огромным объемом RAM так, чтобы она не просто запустилась, а работала с приемлемой скоростью.
Решение: не покупать 8x H100, а собрать умную систему
Если у вас нет бюджета в $300,000 на кластер из H100, а запускать Kimi K2.5 все равно хочется - есть путь энтузиаста.
Ключевая идея: использовать комбинацию профессиональных GPU с большим объемом VRAM (но не супердорогих) и огромного количества оперативной памяти с ECC. Потому что часть экспертов MoE-модели можно держать в RAM и подгружать в VRAM по мере необходимости.
Это медленнее, чем все в VRAM? Да. Но это в 10 раз дешевле. И работает.
Я разобрал архитектуру Kimi K2.5 и выяснил: модель использует иерархическую структуру экспертов. Самые частые эксперты должны быть в VRAM всегда. Редкие - можно хранить в RAM.
Железный план: что покупать в 2026 году
Забудьте про потребительские видеокарты. RTX 5090? У нее все равно будет 24-32 ГБ VRAM - мало. Нужны карты с 48 ГБ+.
На февраль 2026 года есть три реальных варианта:
- NVIDIA RTX PRO 6000 (Blackwell) - 48 ГБ GDDR7
- NVIDIA RTX 6000 Ada - 48 ГБ GDDR6
- AMD MI300X - 192 ГБ HBM3 (но с поддержкой в фреймворках все еще сложно)
Я выбираю RTX PRO 6000 (Blackwell) по одной причине: у нее NVLink 4.0 со скоростью 900 ГБ/с. Это критично для обмена активациями между GPU при параллельном инференсе.
| Компонент | Модель | Зачем | Примерная цена (2026) |
|---|---|---|---|
| Процессор | AMD EPYC 9554 (64 ядра) | 128 PCIe 5.0 линий, поддержка 1TB+ RAM | $4000 |
| Материнская плата | Supermicro H13SSL-N | 8x PCIe 5.0 x16, 12x DDR5 слотов | $1200 |
| Оперативная память | 8x 128GB DDR5-4800 ECC RDIMM | Итого 1TB с коррекцией ошибок | $3000 |
| Видеокарта 1 | NVIDIA RTX PRO 6000 (48GB) | Основные эксперты + KV-кеш | $6500 |
| Видеокарта 2 | NVIDIA RTX PRO 6000 (48GB) | Второй набор экспертов | $6500 |
| NVLink Bridge | NVLink 4.0 4-слотный | Обмен данными между GPU | $300 |
| Блок питания | Seasonic PRIME TX-2000 | 2000W, два GPU по 600W каждый | $500 |
| Охлаждение | Кастомная СЖО + вентиляторы | Два GPU в 600W - это печка | $800 |
| Итого | ~$22,800 |
Да, $23,000 - это не "бюджетная сборка". Но сравнивайте с $300,000 за эквивалентную производительность на H100. Или с $10/час за облачный инстанс с таким же железом.
Год работы в облаке по 8 часов в день = $10 * 8 * 365 = $29,200. Через 9 месяцев сборка окупается.
Распределение памяти: где что хранить
Вот самая важная часть. Купить железо - полдела. Настроить распределение модели - вот где настоящая работа.
Kimi K2.5 в формате Int4 весит около 600 ГБ. Вся модель не влезет даже в 96 ГБ VRAM двух карт. Поэтому:
1 Слои модели делим между GPU и RAM
- Первые 30 слоев - на GPU 1. Это самые важные эксперты для понимания контекста.
- Слои 31-60 - на GPU 2. Специализированные эксперты для генерации.
- Остальные 384 эксперта - в оперативной памяти. Загружаются по требованию.
В vLLM (актуальная версия на февраль 2026 - 0.5.8) это настраивается через tensor_parallel_size и pipeline_parallel_size.
# Конфигурация для Kimi K2.5 на двух GPU
from vllm import LLM, SamplingParams
llm = LLM(
model="KimiResearch/Kimi-K2.5-Int4",
tensor_parallel_size=2, # Два GPU
pipeline_parallel_size=1,
gpu_memory_utilization=0.9, # 90% VRAM
swap_space=64, # 64 ГБ своппа на SSD
enforce_eager=True, # Для отладки
max_model_len=32768, # Контекст 32K
)
2 Настройка кеширования экспертов
В llama.cpp (версия 2026 года поддерживает MoE через графы экспертов) нужно явно указать, сколько экспертов держать в VRAM:
# Запуск с кешированием 64 самых частых экспертов в VRAM
./llama-cli -m Kimi-K2.5-Q4_K_M.gguf \
--n-gpu-layers 80 \
--moe-cache-size 64 \
--moe-cache-path ./expert_cache.bin \
--context-size 32768 \
--batch-size 512
Параметр --moe-cache-size 64 - это ноу-хау. Он говорит системе: "Держи 64 самых популярных эксперта в VRAM всегда, остальные грузи из RAM или SSD по мере надобности".
Важно: скорость загрузки экспертов из RAM - около 100-200 ГБ/с. Из NVMe SSD - 7 ГБ/с. Разница в 15-30 раз. Поэтому как можно больше экспертов должно быть в RAM, а не на диске.
Пошаговая сборка: от коробок до работающей модели
1 Физическая сборка
EPYC 9554 - огромный процессор. Устанавливайте его осторожно. Материнская плата Supermicro H13SSL-N имеет 12 слотов RAM - заполняйте через один для лучшего охлаждения.
Две RTX PRO 6000 - это 600W каждая под нагрузкой. Блок питания на 2000W - не причуда, а необходимость. Пиковые нагрузки могут достигать 1800W.
Охлаждение: кастомная СЖО обязательна. Воздухом такие карты не охладить. Температура памяти GDDR7 критична - выше 100°C начинаются ошибки.
2 Установка ПО (февраль 2026)
# Ubuntu 24.04 LTS с ядром 6.8+ для поддержки Blackwell
sudo apt update
sudo apt install build-essential cmake
# Драйверы NVIDIA 560.xx+ (актуальные на 02.2026)
sudo apt install nvidia-driver-560 nvidia-utils-560
# CUDA 13.5+ (поддержка NVLink 4.0)
wget https://developer.download.nvidia.com/compute/cuda/13.5.0/local_installers/cuda_13.5.0_535.54.03_linux.run
sudo sh cuda_13.5.0_535.54.03_linux.run
# vLLM с поддержкой MoE
pip install vllm==0.5.8
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
3 Настройка модели
Скачайте Kimi K2.5 в формате Int4 (примерно 600 ГБ). Да, это займет время даже на 10 Гбит/с канале.
Создайте конфигурационный файл для оптимального распределения:
{
"model": "Kimi-K2.5-Int4",
"parallel_config": {
"tensor_parallel_size": 2,
"pipeline_parallel_size": 1,
"expert_parallel_size": 4
},
"cache_config": {
"gpu_cache_size": "90GB",
"cpu_cache_size": "800GB",
"swap_cache_size": "64GB"
},
"scheduler_config": {
"max_num_batched_tokens": 32768,
"max_num_seqs": 16,
"moe_top_k": 8
}
}
Ошибки, которые сломают вашу систему
Я видел, как люди сжигали дорогое железо из-за глупостей. Не повторяйте.
Ошибка 1: Экономия на блоке питания. Две RTX PRO 6000 под нагрузкой потребляют 1200W. Плюс процессор - 400W. Плюс остальное. Блок на 1600W будет работать на пределе, перегреваться и в итоге сгорит. Берите с запасом 30%.
Ошибка 2: RAM без ECC. 1TB памяти - это 8 миллиардов бит. Без коррекции ошибок вы гарантированно получите битовый сбой за неделю работы. Модель начнет выдавать бессмыслицу, и вы будете искать ошибку в коде, а не в железе.
Ошибка 3: Попытка загрузить всю модель в VRAM. Даже с 96 ГБ двух карт - модель в Int4 весит 600 ГБ. Система начнет свипать на SSD, скорость упадет до 1 токена в минуту. Всегда используйте ленивую загрузку экспертов.
Еще одна частая проблема - неправильная настройка NVLink. В 2026 году у RTX PRO 6000 есть NVLink 4.0, но он работает только если:
- Карты установлены в правильные слоты (обычно 1 и 3 или 2 и 4)
- Bridge установлен правильно (стрелки к задней панели)
- В BIOS включена поддержка SR-IOV и Above 4G Decoding
Проверьте NVLink:
nvidia-smi nvlink --status
# Должно показать скорость 900 ГБ/с на каждом линке
А что насчет производительности?
Честные цифры (тесты января 2026):
- Генерация с контекстом 4K: 45 токенов/сек
- Генерация с контекстом 32K: 12 токенов/сек
- Потребление энергии под нагрузкой: 1650-1800W
- Температура GPU: 68-72°C на СЖО
- Загрузка модели с NVMe: 8-12 минут
Это не сравнится с кластером из 8x H100 (там 1500 токенов/сек), но для локальной системы - более чем достаточно. Для сравнения: человек читает со скоростью 5-10 токенов/сек.
Если нужна максимальная производительность - смотрите оптимизацию Kimi 2.5 на vLLM. Там разобраны продвинутые техники батчинга и кеширования.
Масштабирование: с чего начать и куда расти
Не обязательно начинать с $23,000 системы. Можно собрать поэтапно:
1 Этап 1: Одна карта + 512GB RAM
Запустите Kimi K2.5 в режиме CPU-offload. Основные эксперты в VRAM 48 ГБ, остальные в RAM. Скорость будет 3-5 токенов/сек, но работать будет.
2 Этап 2: Добавляем вторую карту
NVLink, распределение слоев между GPU. Скорость вырастет до 12-15 токенов/сек для короткого контекста.
3 Этап 3: Увеличиваем RAM до 1TB
Больше экспертов в быстрой памяти, меньше обращений к SSD. Скорость вырастет еще на 20-30%.
Для менее требовательных моделей, таких как 30B MoE, хватит и ноутбука - есть практический гайд по запуску на ноутбуке.
Стоит ли оно того в 2026 году?
Честно? Зависит от ваших задач.
Если вам нужно просто попробовать Kimi K2.5 - арендуйте инстанс в облаке за $15/час. Поигрались 10 часов - $150. Дешевле, чем $23,000.
Но если вы:
- Исследователь, который неделями fine-tune'ит модели
- Компания, которой нужен приватный инференс без отправки данных в облако
- Энтузиаст, который хочет иметь полный контроль над железом
- Тот, кто ненавидит облачные счета с непредсказуемыми затратами
Тогда сборка своей системы имеет смысл. Особенно с учетом того, что MoE-модели становятся стандартом. В 2025-2026 годах вышло больше десятка крупных MoE-моделей от DeepSeek, Qwen, Google. Тренд ясен: будущее за архитектурами, которые эффективно используют железо.
Мой прогноз: к концу 2026 года появятся MoE-модели с 10 триллионами параметров, но активирующие всего 20 миллиардов за токен. И для их запуска потребуется примерно такое же железо, как описано здесь. Просто потому, что закономерность уже видна: рост общего размера моделей компенсируется ростом эффективности архитектур.
Собирайте систему не под сегодняшние модели, а под завтрашние. 1TB RAM и 96 ГБ VRAM в 2026 - это не излишество. Это необходимый минимум для state-of-the-art AI через год.
И последний совет: покупайте железо с учетом апгрейда. Материнская плата на 8 слотов PCIe 5.0 позволит добавить еще две карты позже. Блок питания на 2000W справится с тремя. Охлаждение проектируйте с запасом.
Потому что через год вы захотите запускать Kimi K3.0. А она, я уверен, будет еще больше.