Железо для Kimi K2.5: сборка ПК для 1 трлн параметров MoE-моделей в 2026 | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Гайд

Сборка ПК для запуска MoE-моделей в 1 триллион параметров: разбор железного плана для Kimi K2.5

Полный гайд по сборке ПК для запуска Kimi K2.5 (1.2 трлн параметров). Спецификации, распределение памяти, стратегия масштабирования. RTX PRO 6000, 1TB RAM, опти

Реклама
partv1

Проблема: 1.2 триллиона параметров на вашем столе. Серьезно?

Вы читаете про Kimi K2.5 - модель с 1.2 триллионами параметров, 384 экспертами, которая по бенчмаркам 2025 года бьет GPT-5. И думаете: "Интересно, а на моем RTX 4090 запустится?"

Нет. Не запустится.

Но вот что запустится - так это если собрать систему, которая использует главный трюк MoE-архитектур: они не загружают все параметры одновременно. Из тех 1.2 триллиона активны только около 12 миллиардов за токен. Это как разница между вызовом всей пожарной бригады города (плотная модель) и вызовом двух ближайших пожарных машин (MoE).

Важно: в феврале 2026 года Kimi K2.5 - самая крупная из доступных MoE-моделей с открытыми весами. Есть слухи о Kimi K3.0, но официального релиза пока нет. Все спецификации в этой статье актуальны на 09.02.2026.

Проблема в том, что даже 12 миллиардов параметров в FP16 - это 24 ГБ VRAM. Плюс KV-кеш, плюс активации, плюс overhead фреймворков. Одна RTX 4090 с ее 24 ГБ уже на пределе для инференса с маленьким контекстом. Для реальной работы нужен запас.

И вот здесь начинается инженерная магия: как распределить модель между несколькими GPU и огромным объемом RAM так, чтобы она не просто запустилась, а работала с приемлемой скоростью.

Решение: не покупать 8x H100, а собрать умную систему

Если у вас нет бюджета в $300,000 на кластер из H100, а запускать Kimi K2.5 все равно хочется - есть путь энтузиаста.

Ключевая идея: использовать комбинацию профессиональных GPU с большим объемом VRAM (но не супердорогих) и огромного количества оперативной памяти с ECC. Потому что часть экспертов MoE-модели можно держать в RAM и подгружать в VRAM по мере необходимости.

Это медленнее, чем все в VRAM? Да. Но это в 10 раз дешевле. И работает.

Я разобрал архитектуру Kimi K2.5 и выяснил: модель использует иерархическую структуру экспертов. Самые частые эксперты должны быть в VRAM всегда. Редкие - можно хранить в RAM.

💡
Секрет в том, что MoE-модели неравномерно используют экспертов. 20% экспертов обрабатывают 80% запросов. Эти "горячие" эксперты и должны жить в VRAM.

Железный план: что покупать в 2026 году

Забудьте про потребительские видеокарты. RTX 5090? У нее все равно будет 24-32 ГБ VRAM - мало. Нужны карты с 48 ГБ+.

На февраль 2026 года есть три реальных варианта:

  1. NVIDIA RTX PRO 6000 (Blackwell) - 48 ГБ GDDR7
  2. NVIDIA RTX 6000 Ada - 48 ГБ GDDR6
  3. AMD MI300X - 192 ГБ HBM3 (но с поддержкой в фреймворках все еще сложно)

Я выбираю RTX PRO 6000 (Blackwell) по одной причине: у нее NVLink 4.0 со скоростью 900 ГБ/с. Это критично для обмена активациями между GPU при параллельном инференсе.

Компонент Модель Зачем Примерная цена (2026)
Процессор AMD EPYC 9554 (64 ядра) 128 PCIe 5.0 линий, поддержка 1TB+ RAM $4000
Материнская плата Supermicro H13SSL-N 8x PCIe 5.0 x16, 12x DDR5 слотов $1200
Оперативная память 8x 128GB DDR5-4800 ECC RDIMM Итого 1TB с коррекцией ошибок $3000
Видеокарта 1 NVIDIA RTX PRO 6000 (48GB) Основные эксперты + KV-кеш $6500
Видеокарта 2 NVIDIA RTX PRO 6000 (48GB) Второй набор экспертов $6500
NVLink Bridge NVLink 4.0 4-слотный Обмен данными между GPU $300
Блок питания Seasonic PRIME TX-2000 2000W, два GPU по 600W каждый $500
Охлаждение Кастомная СЖО + вентиляторы Два GPU в 600W - это печка $800
Итого ~$22,800

Да, $23,000 - это не "бюджетная сборка". Но сравнивайте с $300,000 за эквивалентную производительность на H100. Или с $10/час за облачный инстанс с таким же железом.

Год работы в облаке по 8 часов в день = $10 * 8 * 365 = $29,200. Через 9 месяцев сборка окупается.

Распределение памяти: где что хранить

Вот самая важная часть. Купить железо - полдела. Настроить распределение модели - вот где настоящая работа.

Kimi K2.5 в формате Int4 весит около 600 ГБ. Вся модель не влезет даже в 96 ГБ VRAM двух карт. Поэтому:

1 Слои модели делим между GPU и RAM

  • Первые 30 слоев - на GPU 1. Это самые важные эксперты для понимания контекста.
  • Слои 31-60 - на GPU 2. Специализированные эксперты для генерации.
  • Остальные 384 эксперта - в оперативной памяти. Загружаются по требованию.

В vLLM (актуальная версия на февраль 2026 - 0.5.8) это настраивается через tensor_parallel_size и pipeline_parallel_size.

# Конфигурация для Kimi K2.5 на двух GPU
from vllm import LLM, SamplingParams

llm = LLM(
    model="KimiResearch/Kimi-K2.5-Int4",
    tensor_parallel_size=2,  # Два GPU
    pipeline_parallel_size=1,
    gpu_memory_utilization=0.9,  # 90% VRAM
    swap_space=64,  # 64 ГБ своппа на SSD
    enforce_eager=True,  # Для отладки
    max_model_len=32768,  # Контекст 32K
)

2 Настройка кеширования экспертов

В llama.cpp (версия 2026 года поддерживает MoE через графы экспертов) нужно явно указать, сколько экспертов держать в VRAM:

# Запуск с кешированием 64 самых частых экспертов в VRAM
./llama-cli -m Kimi-K2.5-Q4_K_M.gguf \
  --n-gpu-layers 80 \
  --moe-cache-size 64 \
  --moe-cache-path ./expert_cache.bin \
  --context-size 32768 \
  --batch-size 512

Параметр --moe-cache-size 64 - это ноу-хау. Он говорит системе: "Держи 64 самых популярных эксперта в VRAM всегда, остальные грузи из RAM или SSD по мере надобности".

Важно: скорость загрузки экспертов из RAM - около 100-200 ГБ/с. Из NVMe SSD - 7 ГБ/с. Разница в 15-30 раз. Поэтому как можно больше экспертов должно быть в RAM, а не на диске.

Пошаговая сборка: от коробок до работающей модели

1 Физическая сборка

EPYC 9554 - огромный процессор. Устанавливайте его осторожно. Материнская плата Supermicro H13SSL-N имеет 12 слотов RAM - заполняйте через один для лучшего охлаждения.

Две RTX PRO 6000 - это 600W каждая под нагрузкой. Блок питания на 2000W - не причуда, а необходимость. Пиковые нагрузки могут достигать 1800W.

Охлаждение: кастомная СЖО обязательна. Воздухом такие карты не охладить. Температура памяти GDDR7 критична - выше 100°C начинаются ошибки.

2 Установка ПО (февраль 2026)

# Ubuntu 24.04 LTS с ядром 6.8+ для поддержки Blackwell
sudo apt update
sudo apt install build-essential cmake

# Драйверы NVIDIA 560.xx+ (актуальные на 02.2026)
sudo apt install nvidia-driver-560 nvidia-utils-560

# CUDA 13.5+ (поддержка NVLink 4.0)
wget https://developer.download.nvidia.com/compute/cuda/13.5.0/local_installers/cuda_13.5.0_535.54.03_linux.run
sudo sh cuda_13.5.0_535.54.03_linux.run

# vLLM с поддержкой MoE
pip install vllm==0.5.8
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

3 Настройка модели

Скачайте Kimi K2.5 в формате Int4 (примерно 600 ГБ). Да, это займет время даже на 10 Гбит/с канале.

Создайте конфигурационный файл для оптимального распределения:

{
  "model": "Kimi-K2.5-Int4",
  "parallel_config": {
    "tensor_parallel_size": 2,
    "pipeline_parallel_size": 1,
    "expert_parallel_size": 4
  },
  "cache_config": {
    "gpu_cache_size": "90GB",
    "cpu_cache_size": "800GB",
    "swap_cache_size": "64GB"
  },
  "scheduler_config": {
    "max_num_batched_tokens": 32768,
    "max_num_seqs": 16,
    "moe_top_k": 8
  }
}

Ошибки, которые сломают вашу систему

Я видел, как люди сжигали дорогое железо из-за глупостей. Не повторяйте.

Ошибка 1: Экономия на блоке питания. Две RTX PRO 6000 под нагрузкой потребляют 1200W. Плюс процессор - 400W. Плюс остальное. Блок на 1600W будет работать на пределе, перегреваться и в итоге сгорит. Берите с запасом 30%.

Ошибка 2: RAM без ECC. 1TB памяти - это 8 миллиардов бит. Без коррекции ошибок вы гарантированно получите битовый сбой за неделю работы. Модель начнет выдавать бессмыслицу, и вы будете искать ошибку в коде, а не в железе.

Ошибка 3: Попытка загрузить всю модель в VRAM. Даже с 96 ГБ двух карт - модель в Int4 весит 600 ГБ. Система начнет свипать на SSD, скорость упадет до 1 токена в минуту. Всегда используйте ленивую загрузку экспертов.

Еще одна частая проблема - неправильная настройка NVLink. В 2026 году у RTX PRO 6000 есть NVLink 4.0, но он работает только если:

  • Карты установлены в правильные слоты (обычно 1 и 3 или 2 и 4)
  • Bridge установлен правильно (стрелки к задней панели)
  • В BIOS включена поддержка SR-IOV и Above 4G Decoding

Проверьте NVLink:

nvidia-smi nvlink --status
# Должно показать скорость 900 ГБ/с на каждом линке

А что насчет производительности?

Честные цифры (тесты января 2026):

  • Генерация с контекстом 4K: 45 токенов/сек
  • Генерация с контекстом 32K: 12 токенов/сек
  • Потребление энергии под нагрузкой: 1650-1800W
  • Температура GPU: 68-72°C на СЖО
  • Загрузка модели с NVMe: 8-12 минут

Это не сравнится с кластером из 8x H100 (там 1500 токенов/сек), но для локальной системы - более чем достаточно. Для сравнения: человек читает со скоростью 5-10 токенов/сек.

Если нужна максимальная производительность - смотрите оптимизацию Kimi 2.5 на vLLM. Там разобраны продвинутые техники батчинга и кеширования.

Масштабирование: с чего начать и куда расти

Не обязательно начинать с $23,000 системы. Можно собрать поэтапно:

1 Этап 1: Одна карта + 512GB RAM

Запустите Kimi K2.5 в режиме CPU-offload. Основные эксперты в VRAM 48 ГБ, остальные в RAM. Скорость будет 3-5 токенов/сек, но работать будет.

2 Этап 2: Добавляем вторую карту

NVLink, распределение слоев между GPU. Скорость вырастет до 12-15 токенов/сек для короткого контекста.

3 Этап 3: Увеличиваем RAM до 1TB

Больше экспертов в быстрой памяти, меньше обращений к SSD. Скорость вырастет еще на 20-30%.

Для менее требовательных моделей, таких как 30B MoE, хватит и ноутбука - есть практический гайд по запуску на ноутбуке.

Стоит ли оно того в 2026 году?

Честно? Зависит от ваших задач.

Если вам нужно просто попробовать Kimi K2.5 - арендуйте инстанс в облаке за $15/час. Поигрались 10 часов - $150. Дешевле, чем $23,000.

Но если вы:

  • Исследователь, который неделями fine-tune'ит модели
  • Компания, которой нужен приватный инференс без отправки данных в облако
  • Энтузиаст, который хочет иметь полный контроль над железом
  • Тот, кто ненавидит облачные счета с непредсказуемыми затратами

Тогда сборка своей системы имеет смысл. Особенно с учетом того, что MoE-модели становятся стандартом. В 2025-2026 годах вышло больше десятка крупных MoE-моделей от DeepSeek, Qwen, Google. Тренд ясен: будущее за архитектурами, которые эффективно используют железо.

Мой прогноз: к концу 2026 года появятся MoE-модели с 10 триллионами параметров, но активирующие всего 20 миллиардов за токен. И для их запуска потребуется примерно такое же железо, как описано здесь. Просто потому, что закономерность уже видна: рост общего размера моделей компенсируется ростом эффективности архитектур.

Собирайте систему не под сегодняшние модели, а под завтрашние. 1TB RAM и 96 ГБ VRAM в 2026 - это не излишество. Это необходимый минимум для state-of-the-art AI через год.

И последний совет: покупайте железо с учетом апгрейда. Материнская плата на 8 слотов PCIe 5.0 позволит добавить еще две карты позже. Блок питания на 2000W справится с тремя. Охлаждение проектируйте с запасом.

Потому что через год вы захотите запускать Kimi K3.0. А она, я уверен, будет еще больше.