RTX 6000 Blackwell проблемы загрузки: решение для Epyc Genoa и LLM | AiManual
AiManual Logo Ai / Manual.
22 Янв 2026 Гайд

RTX 6000 Blackwell не POSTится: спасение системы за $15,000 через сброс CMOS и IPMI

Детальный гайд по решению проблем с загрузкой ОС на RTX 6000 Blackwell с Epyc Genoa. Сброс CMOS, настройка IPMI, стабилизация Ubuntu для локальных LLM.

Когда $15,000 молчат: RTX 6000 Blackwell зависает на заставке BIOS

Вы только что собрали мечту любого AI-разработчика: Supermicro H13SSL с Epyc Genoa 9354 и две RTX 6000 Blackwell. Мощность для запуска 70B-моделей в полном контексте, скорость для тренировок, расширяемость для будущего. Вы нажимаете кнопку питания, вентиляторы раскручиваются, на экране появляется логотип материнской платы... и всё. Система зависает. Ни POST-кодов, ни меню BIOS, только мертвая тишина и мигающий курсор в левом верхнем углу.

Симптомы могут различаться: иногда система проходит POST, но зависает при загрузке Ubuntu, иногда не видит одну из карт, иногда перезагружается циклически. Корень проблемы один — несовершенство совместимости нового железа.

Почему это происходит? Черноводская математика совместимости

RTX 6000 Blackwell — архитектурно новая платформа. Не просто больше ядер и памяти, а другой подход к PCIe-коммуникациям, другой энергопрофиль, другие требования к прошивке. Epyc Genoa 9004 серии — тоже не старичок. Сложите вместе:

  • Новые UEFI-драйверы GPU в BIOS материнской платы
  • AGESA-микрокод процессора, который обновляется раз в квартал
  • Параметры энергосбережения PCIe 5.0, которые конфликтуют с инициализацией карт
  • Встроенное управление питанием VRM, которое не успевает за скачками потребления Blackwell

Производители тестируют комбинации, но не все. Supermicro проверяет с серверными картами, NVIDIA — с серверными материнками. Ваша кастомная сборка для локальных LLM попадает в серую зону. И вот вы с коробкой за $15,000, которая не грузится.

Мертвая петля диагностики: что НЕ работает

Прежде чем покажу решение, давайте пройдем по ложным путям. Я потратил на них 16 часов, вам не придется.

Что пробовали Результат Почему не сработало
Переустановка карт в другие слоты PCIe Система видит только одну карту Проблема не в физическом соединении
Обновление BIOS до последней версии Не помогает, иногда усугубляет Новая прошивка может содержать баги для Blackwell
Отключение Above 4G Decoding Система грузится, но видит только 16GB VRAM на карту Blackwell требует 64-битной адресации для полного объема памяти
Ручная установка таймингов памяти Нестабильность, случайные сбои Проблема не в ОЗУ

Самое опасное — начать менять компоненты. «Наверное, блок питания слабый» (нет, 1600W Platinum хватает). «Может, процессор кривой» (Epyc тестируется лучше, чем Ryzen). «Давайте попробуем другую материнку» (и потратим еще неделю на сборку).

Настоящее решение: сброс CMOS через IPMI и каскад настроек

Вот что сработало на трех разных системах с Epyc Genoa и RTX 6000 Blackwell. Метод выглядит простым, но важен порядок и детали.

1 Полный сброс через IPMI, а не кнопку

На материнках Supermicro (и большинстве серверных) есть два способа сбросить CMOS: физическая перемычка и через IPMI. Физический сброс не всегда очищает NVRAM полностью. Делаем через IPMI:

# Подключаемся к IPMI интерфейсу
ipmitool -H 192.168.1.100 -U ADMIN -P ADMIN raw 0x30 0x33 0x01

# Ждем 30 секунд, затем подаем питание
ipmitool -H 192.168.1.100 -U ADMIN -P ADMIN power on

Важно: после сброса CMOS система может несколько раз перезагрузиться сама. Это нормально — UEFI переобучает параметры памяти и PCIe. Не прерывайте процесс.

2 Последовательная загрузка карт

После сброса CMOS заходим в BIOS. Не торопитесь. Отключаем все, что не нужно для загрузки:

  • Встроенную графику (если есть)
  • Лишние контроллеры SATA/NVMe
  • Сетевые интерфейсы, кроме одного
  • Всякие Serial Port, TPM (потом включите)

Теперь самое важное: устанавливаем параметр PCIe ARI Support в Enabled. Без этого Blackwell не раскроет все свои функции. Затем включаем Above 4G Decoding и Resizable BAR Support.

3 Настройка иерархии PCIe

В разделе PCI Subsystem Settings:

PCIe ASPM Support: Disabled  # Чертовски важно!
PCIe ARI Support: Enabled
PCIe Ten Bit Tag Support: Enabled
PCIe Maximum Payload Size: 256 Bytes
PCIe Maximum Read Request Size: 4096 Bytes

ASPM (Active State Power Management) — главный враг стабильности с Blackwell. Выключаем на всех уровнях. Это добавит 10-15 ватт к энергопотреблению в простое, но избавит от случайных вылетов при загрузке больших моделей.

4 Установка Ubuntu с правильным ядром

Не используйте Ubuntu 22.04 LTS. Его ядро 5.15 слишком старое для Blackwell. Берите Ubuntu 24.04 LTS или, что лучше, Ubuntu 24.10 с ядром 6.8+. При установке:

# В загрузчике GRUB добавляем параметры
quiet splash nomodeset pci=noaer

# После установки сразу обновляем ядро
sudo apt update
sudo apt install linux-oem-24.04d  # Специальная сборка для нового железа
💡
Параметр pci=noaer отключает расширенную обработку ошибок PCIe, которая иногда вызывает панику ядра с новыми картами. После настройки драйверов можно убрать.

5 Установка драйверов и проверка

Не ставьте драйверы из репозитория Ubuntu. Качайте напрямую с NVIDIA:

# Удаляем все следы старых драйверов
sudo apt purge nvidia-*

# Ставим зависимости
sudo apt install build-essential dkms

# Скачиваем драйвер 560.xx или новее для Blackwell
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/560.35/NVIDIA-Linux-x86_64-560.35.run
chmod +x NVIDIA-Linux-x86_64-560.35.run
sudo ./NVIDIA-Linux-x86_64-560.35.run --no-drm --no-opengl-files --silent

После установки проверяем:

nvidia-smi
# Должны видеть все карты с полным объемом памяти
# Температура в норме, нет предупреждений

Тонкая настройка для стабильной работы LLM

Система загрузилась? Отлично. Теперь сделаем ее стабильной под нагрузкой. Потому что запуск 70B-моделей на двух картах — это не игра в тетрис.

Настройка управления питанием

По умолчанию карты работают в адаптивном режиме. Для LLM нужно фиксированное состояние:

# Устанавливаем persistence mode
sudo nvidia-persistenced --persistence-mode

# Фиксируем частоты для стабильности
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 300  # Лимит мощности в ваттах, ниже максимального

Настройка памяти и свопа

Когда VRAM заканчивается, система начинает использовать своп. По умолчанию это убивает производительность. Настраиваем zswap:

# Добавляем в /etc/default/grub
GRUB_CMDLINE_LINUX="zswap.enabled=1 zswap.compressor=lz4 zswap.max_pool_percent=25 zswap.zpool=z3fold"

Мониторинг и предупреждения

Ставим telegraf + grafana для мониторинга. Ключевые метрики для RTX 6000 Blackwell:

  • Температура памяти (должна быть ниже 90°C)
  • Потребление энергии (скачки при inference)
  • Загрузка PCIe шины (должна быть близка к 100% при загрузке моделей)
  • Ошибки ECC памяти (должны быть нулевые)

Что делать, если проблема возвращается

Иногда, после обновления ядра или драйверов, система снова начинает капризничать. Не паникуйте. У меня есть чек-лист на 5 минут:

  1. Проверяем dmesg | grep -i nvidia — нет ли ошибок инициализации
  2. Перезагружаем драйвер: sudo modprobe -r nvidia && sudo modprobe nvidia
  3. Сбрасываем параметры карт: sudo nvidia-smi -r
  4. Если не помогает — откатываемся к предыдущей версии драйвера
  5. Крайний случай — обновляем BIOS материнки до версии, которая точно работала

Не обновляйте BIOS «на всякий случай». Каждая новая версия — лотерея. Найдите на форуме Level1Techs или ServeTheHome отзывы по вашей конкретной комбинации железа.

Стоит ли игра свеч? Мой вердикт

RTX 6000 Blackwell — монстр. 48GB HBM3e памяти, пропускная способность под 8TB/s, поддержка новых форматов квантования. Для локальных LLM это уровень, когда можно забыть о компромиссах. 70B-модели с контекстом 32K работают как по маслу, тренировки LoRA занимают минуты вместо часов.

Но железо первого эшелона всегда требует крови. Не надейтесь на «вставил и работает». Вы становитесь системным инженером, исследователем совместимости, мастером отладки. Платите $15,000 не только за терафлопсы, но и за право быть на острие.

Мой совет: если собираете систему для продакшна, где каждая минута простоя стоит денег — подождите 6 месяцев. Выпустят обновления BIOS, стабилизируют драйверы, напишут гайды. Если же вы энтузиаст, который хочет самое лучшее здесь и сейчас — запаситесь терпением, кофе и этой инструкцией. Оно того стоит.

Когда система наконец загрузится, и вы запустите первую 70B-модель локально, это чувство... Оно напоминает первый запуск двигателя после капремонта. Рев мотора, вибрация, осознание: да, я это собрал. Да, это работает. И да, никакой облачный API не даст такой контроль.