Проблема: 1.2 триллиона параметров на вашем столе. Серьезно?

Вы читаете про Kimi K2.5 - модель с 1.2 триллионами параметров, 384 экспертами, которая по бенчмаркам 2025 года бьет GPT-5. И думаете: "Интересно, а на моем RTX 4090 запустится?"

Нет. Не запустится.

Но вот что запустится - так это если собрать систему, которая использует главный трюк MoE-архитектур: они не загружают все параметры одновременно. Из тех 1.2 триллиона активны только около 12 миллиардов за токен. Это как разница между вызовом всей пожарной бригады города (плотная модель) и вызовом двух ближайших пожарных машин (MoE).

Важно: в феврале 2026 года Kimi K2.5 - самая крупная из доступных MoE-моделей с открытыми весами. Есть слухи о Kimi K3.0, но официального релиза пока нет. Все спецификации в этой статье актуальны на 09.02.2026.

Проблема в том, что даже 12 миллиардов параметров в FP16 - это 24 ГБ VRAM. Плюс KV-кеш, плюс активации, плюс overhead фреймворков. Одна RTX 4090 с ее 24 ГБ уже на пределе для инференса с маленьким контекстом. Для реальной работы нужен запас.

И вот здесь начинается инженерная магия: как распределить модель между несколькими GPU и огромным объемом RAM так, чтобы она не просто запустилась, а работала с приемлемой скоростью.

Решение: не покупать 8x H100, а собрать умную систему

Если у вас нет бюджета в $300,000 на кластер из H100, а запускать Kimi K2.5 все равно хочется - есть путь энтузиаста.

Ключевая идея: использовать комбинацию профессиональных GPU с большим объемом VRAM (но не супердорогих) и огромного количества оперативной памяти с ECC. Потому что часть экспертов MoE-модели можно держать в RAM и подгружать в VRAM по мере необходимости.

Это медленнее, чем все в VRAM? Да. Но это в 10 раз дешевле. И работает.

Я разобрал архитектуру Kimi K2.5 и выяснил: модель использует иерархическую структуру экспертов. Самые частые эксперты должны быть в VRAM всегда. Редкие - можно хранить в RAM.

💡

Секрет в том, что MoE-модели неравномерно используют экспертов. 20% экспертов обрабатывают 80% запросов. Эти "горячие" эксперты и должны жить в VRAM.

Железный план: что покупать в 2026 году

Забудьте про потребительские видеокарты. RTX 5090? У нее все равно будет 24-32 ГБ VRAM - мало. Нужны карты с 48 ГБ+.

На февраль 2026 года есть три реальных варианта:

NVIDIA RTX PRO 6000 (Blackwell) - 48 ГБ GDDR7
NVIDIA RTX 6000 Ada - 48 ГБ GDDR6
AMD MI300X - 192 ГБ HBM3 (но с поддержкой в фреймворках все еще сложно)

Я выбираю RTX PRO 6000 (Blackwell) по одной причине: у нее NVLink 4.0 со скоростью 900 ГБ/с. Это критично для обмена активациями между GPU при параллельном инференсе.

Компонент	Модель	Зачем	Примерная цена (2026)
Процессор	AMD EPYC 9554 (64 ядра)	128 PCIe 5.0 линий, поддержка 1TB+ RAM	$4000
Материнская плата	Supermicro H13SSL-N	8x PCIe 5.0 x16, 12x DDR5 слотов	$1200
Оперативная память	8x 128GB DDR5-4800 ECC RDIMM	Итого 1TB с коррекцией ошибок	$3000
Видеокарта 1	NVIDIA RTX PRO 6000 (48GB)	Основные эксперты + KV-кеш	$6500
Видеокарта 2	NVIDIA RTX PRO 6000 (48GB)	Второй набор экспертов	$6500
NVLink Bridge	NVLink 4.0 4-слотный	Обмен данными между GPU	$300
Блок питания	Seasonic PRIME TX-2000	2000W, два GPU по 600W каждый	$500
Охлаждение	Кастомная СЖО + вентиляторы	Два GPU в 600W - это печка	$800
Итого			~$22,800

Да, $23,000 - это не "бюджетная сборка". Но сравнивайте с $300,000 за эквивалентную производительность на H100. Или с $10/час за облачный инстанс с таким же железом.

Год работы в облаке по 8 часов в день = $10 * 8 * 365 = $29,200. Через 9 месяцев сборка окупается.

Распределение памяти: где что хранить

Вот самая важная часть. Купить железо - полдела. Настроить распределение модели - вот где настоящая работа.

Kimi K2.5 в формате Int4 весит около 600 ГБ. Вся модель не влезет даже в 96 ГБ VRAM двух карт. Поэтому:

1 Слои модели делим между GPU и RAM

Первые 30 слоев - на GPU 1. Это самые важные эксперты для понимания контекста.
Слои 31-60 - на GPU 2. Специализированные эксперты для генерации.
Остальные 384 эксперта - в оперативной памяти. Загружаются по требованию.

В vLLM (актуальная версия на февраль 2026 - 0.5.8) это настраивается через tensor_parallel_size и pipeline_parallel_size.

# Конфигурация для Kimi K2.5 на двух GPU
from vllm import LLM, SamplingParams

llm = LLM(
    model="KimiResearch/Kimi-K2.5-Int4",
    tensor_parallel_size=2,  # Два GPU
    pipeline_parallel_size=1,
    gpu_memory_utilization=0.9,  # 90% VRAM
    swap_space=64,  # 64 ГБ своппа на SSD
    enforce_eager=True,  # Для отладки
    max_model_len=32768,  # Контекст 32K
)

2 Настройка кеширования экспертов

В llama.cpp (версия 2026 года поддерживает MoE через графы экспертов) нужно явно указать, сколько экспертов держать в VRAM:

# Запуск с кешированием 64 самых частых экспертов в VRAM
./llama-cli -m Kimi-K2.5-Q4_K_M.gguf \
  --n-gpu-layers 80 \
  --moe-cache-size 64 \
  --moe-cache-path ./expert_cache.bin \
  --context-size 32768 \
  --batch-size 512

Параметр --moe-cache-size 64 - это ноу-хау. Он говорит системе: "Держи 64 самых популярных эксперта в VRAM всегда, остальные грузи из RAM или SSD по мере надобности".

Важно: скорость загрузки экспертов из RAM - около 100-200 ГБ/с. Из NVMe SSD - 7 ГБ/с. Разница в 15-30 раз. Поэтому как можно больше экспертов должно быть в RAM, а не на диске.

Пошаговая сборка: от коробок до работающей модели

1 Физическая сборка

EPYC 9554 - огромный процессор. Устанавливайте его осторожно. Материнская плата Supermicro H13SSL-N имеет 12 слотов RAM - заполняйте через один для лучшего охлаждения.

Две RTX PRO 6000 - это 600W каждая под нагрузкой. Блок питания на 2000W - не причуда, а необходимость. Пиковые нагрузки могут достигать 1800W.

Охлаждение: кастомная СЖО обязательна. Воздухом такие карты не охладить. Температура памяти GDDR7 критична - выше 100°C начинаются ошибки.

2 Установка ПО (февраль 2026)

# Ubuntu 24.04 LTS с ядром 6.8+ для поддержки Blackwell
sudo apt update
sudo apt install build-essential cmake

# Драйверы NVIDIA 560.xx+ (актуальные на 02.2026)
sudo apt install nvidia-driver-560 nvidia-utils-560

# CUDA 13.5+ (поддержка NVLink 4.0)
wget https://developer.download.nvidia.com/compute/cuda/13.5.0/local_installers/cuda_13.5.0_535.54.03_linux.run
sudo sh cuda_13.5.0_535.54.03_linux.run

# vLLM с поддержкой MoE
pip install vllm==0.5.8
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

3 Настройка модели

Скачайте Kimi K2.5 в формате Int4 (примерно 600 ГБ). Да, это займет время даже на 10 Гбит/с канале.

Создайте конфигурационный файл для оптимального распределения:

{
  "model": "Kimi-K2.5-Int4",
  "parallel_config": {
    "tensor_parallel_size": 2,
    "pipeline_parallel_size": 1,
    "expert_parallel_size": 4
  },
  "cache_config": {
    "gpu_cache_size": "90GB",
    "cpu_cache_size": "800GB",
    "swap_cache_size": "64GB"
  },
  "scheduler_config": {
    "max_num_batched_tokens": 32768,
    "max_num_seqs": 16,
    "moe_top_k": 8
  }
}

Ошибки, которые сломают вашу систему

Я видел, как люди сжигали дорогое железо из-за глупостей. Не повторяйте.

Ошибка 1: Экономия на блоке питания. Две RTX PRO 6000 под нагрузкой потребляют 1200W. Плюс процессор - 400W. Плюс остальное. Блок на 1600W будет работать на пределе, перегреваться и в итоге сгорит. Берите с запасом 30%.

Ошибка 2: RAM без ECC. 1TB памяти - это 8 миллиардов бит. Без коррекции ошибок вы гарантированно получите битовый сбой за неделю работы. Модель начнет выдавать бессмыслицу, и вы будете искать ошибку в коде, а не в железе.

Ошибка 3: Попытка загрузить всю модель в VRAM. Даже с 96 ГБ двух карт - модель в Int4 весит 600 ГБ. Система начнет свипать на SSD, скорость упадет до 1 токена в минуту. Всегда используйте ленивую загрузку экспертов.

Еще одна частая проблема - неправильная настройка NVLink. В 2026 году у RTX PRO 6000 есть NVLink 4.0, но он работает только если:

Карты установлены в правильные слоты (обычно 1 и 3 или 2 и 4)
Bridge установлен правильно (стрелки к задней панели)
В BIOS включена поддержка SR-IOV и Above 4G Decoding

Проверьте NVLink:

nvidia-smi nvlink --status
# Должно показать скорость 900 ГБ/с на каждом линке

А что насчет производительности?

Честные цифры (тесты января 2026):

Генерация с контекстом 4K: 45 токенов/сек
Генерация с контекстом 32K: 12 токенов/сек
Потребление энергии под нагрузкой: 1650-1800W
Температура GPU: 68-72°C на СЖО
Загрузка модели с NVMe: 8-12 минут

Это не сравнится с кластером из 8x H100 (там 1500 токенов/сек), но для локальной системы - более чем достаточно. Для сравнения: человек читает со скоростью 5-10 токенов/сек.

Если нужна максимальная производительность - смотрите оптимизацию Kimi 2.5 на vLLM. Там разобраны продвинутые техники батчинга и кеширования.

Масштабирование: с чего начать и куда расти

Не обязательно начинать с $23,000 системы. Можно собрать поэтапно:

1 Этап 1: Одна карта + 512GB RAM

Запустите Kimi K2.5 в режиме CPU-offload. Основные эксперты в VRAM 48 ГБ, остальные в RAM. Скорость будет 3-5 токенов/сек, но работать будет.

2 Этап 2: Добавляем вторую карту

NVLink, распределение слоев между GPU. Скорость вырастет до 12-15 токенов/сек для короткого контекста.

3 Этап 3: Увеличиваем RAM до 1TB

Больше экспертов в быстрой памяти, меньше обращений к SSD. Скорость вырастет еще на 20-30%.

Для менее требовательных моделей, таких как 30B MoE, хватит и ноутбука - есть практический гайд по запуску на ноутбуке.

Стоит ли оно того в 2026 году?

Честно? Зависит от ваших задач.

Если вам нужно просто попробовать Kimi K2.5 - арендуйте инстанс в облаке за $15/час. Поигрались 10 часов - $150. Дешевле, чем $23,000.

Но если вы:

Исследователь, который неделями fine-tune'ит модели
Компания, которой нужен приватный инференс без отправки данных в облако
Энтузиаст, который хочет иметь полный контроль над железом
Тот, кто ненавидит облачные счета с непредсказуемыми затратами

Тогда сборка своей системы имеет смысл. Особенно с учетом того, что MoE-модели становятся стандартом. В 2025-2026 годах вышло больше десятка крупных MoE-моделей от DeepSeek, Qwen, Google. Тренд ясен: будущее за архитектурами, которые эффективно используют железо.

Мой прогноз: к концу 2026 года появятся MoE-модели с 10 триллионами параметров, но активирующие всего 20 миллиардов за токен. И для их запуска потребуется примерно такое же железо, как описано здесь. Просто потому, что закономерность уже видна: рост общего размера моделей компенсируется ростом эффективности архитектур.

Собирайте систему не под сегодняшние модели, а под завтрашние. 1TB RAM и 96 ГБ VRAM в 2026 - это не излишество. Это необходимый минимум для state-of-the-art AI через год.

И последний совет: покупайте железо с учетом апгрейда. Материнская плата на 8 слотов PCIe 5.0 позволит добавить еще две карты позже. Блок питания на 2000W справится с тремя. Охлаждение проектируйте с запасом.

Потому что через год вы захотите запускать Kimi K3.0. А она, я уверен, будет еще больше.

Сборка ПК для запуска MoE-моделей в 1 триллион параметров: разбор железного плана для Kimi K2.5