Исправление Xid 79 на RTX 3090: чистка райзера и диагностика | AiManual
AiManual Logo Ai / Manual.
05 Июн 2026 Гайд

Как исправить ошибку Xid 79 'GPU has fallen off the bus' на RTX 3090: практическое руководство

Ошибка GPU has fallen off the bus на RTX 3090? Решение: чистка контактов PCIe райзера, проверка питания и драйверов. Полный гайд для владельцев multi-GPU.

Реклама
vec_recv1

Ты запускаешь обучение, карта ревёт уже второй час, loss падает красиво. И тут — dmesg печатает серую стену: "Xid 79: GPU has fallen off the bus". Всё. Процесс убит, карта пропала из nvidia-smi, а ты сидишь с открытым ртом и четырьмя RTX 3090, одна из которых теперь — дорогой кирпич. Знакомо? Это не дефект карты и не проклятие. Это банальная грязь в PCIe райзере. И сейчас я покажу, как за 15 минут превратить кирпич обратно в рабочую лошадку.

Почему карта "выпадает" из шины, если она исправна?

RTX 3090 потребляет под 350 Вт. Она греется, остывает, греется снова. PCIe райзер — это тонкий переходник с открытыми контактами. Со временем на них образуется оксидная плёнка, пыль, налёт от испарений термопрокладок. Контакт становится нестабильным. Карта может работать час, день, неделю, но при малейшем микро-дребезге сигнала — драйвер теряет связь и выдаёт тот самый Xid 79.

Важно: Ошибка GPU has fallen off the bus почти всегда аппаратная. Не трать время на переустановку драйвера — с вероятностью 95% проблема в физическом соединении.

В редких случаях виноват блок питания (просадка по линии 12 В) или несовместимость райзера с PCIe 4.0. Но в 8 из 10 случаев мне хватало просто протереть контакты. Прежде чем бежать в магазин за новым райзером или паять карту — сделай тривиальную чистку.

Диагностика: убедись, что это именно райзер

Прежде чем лезть внутрь — проверь симптомы. Если карта пропадает под нагрузкой (обучение, майнинг, рендер) и появляется после перезагрузки — это почти гарантированно контакт. Вот быстрый чек:

  • Команда nvidia-smi — карта не отображается или показывает ошибку.
  • Команда dmesg | grep -i nvidia — видишь Xid 79, timeout, fallen off the bus.
  • Запусти nvtop — карта может мелькать, но при старте нагрузки сразу отваливается.
  • Попробуй вставить карту напрямую в материнку (без райзера). Если ошибка исчезла — райзер 100% виноват.

В некоторых случаях проблема кроется глубже — например, если у тебя разгон через NVLink или сложная конфигурация multi-GPU. Как я писал в статье про скрытый слот PCIe 2.0 x4 — иногда достаточно переставить карту в другой слот.

Инструменты и реагенты: что нужно, а что убьёт контакты

Возьми минимум:

  • Изопропиловый спирт (чистота 99% — не бери 70%, там вода).
  • Безворсовая салфетка (льняная или специальная из микрофибры).
  • Резиновый ластик (мягкий, не канцелярский для чернил).
  • Зубочистка или пластиковая лопатка (не металл!).

Чистая правда: Никогда не используй WD-40, спиртосодержащие жидкости с добавками, ацетон или наждачку. Разъёмы PCIe покрыты тонким слоем золота. Ацетон и абразив сотрут его навсегда. Тогда только замена райзера.

Пошаговая реанимация: от выключения до первого cuda-теста

1 Обесточь и разбери

Выключи блок питания тумблером (не просто через софт). Отсоедини карту от райзера. Если райзер закреплён на стойке — сними его. Открути все винты, которые держат PCIe разъём.

2 Протри контакты спиртом

Смочи салфетку спиртом (не лей прямо на разъём!). Протри золотые контакты на самой карте и на райзере. Делай продольными движениями — от края к краю, без нажима. Если видишь тёмные пятна — это оксид. Спирт его не всегда берёт, тогда нужен ластик.

3 Осторожно обработай ластиком

Возьми ластик и легонько потри контакты — буквально 2-3 прохода. Не три до блеска. Смахни крошки. Затем снова протри спиртом — удали остатки резины. После этого карта должна выглядеть как новая. Если на райзере есть пластиковые выступы — пройдись по ним зубочисткой, чтобы убрать грязь.

4 Собери и проверь фиксацию

Вставь карту в райзер до щелчка. Убедись, что защёлка защёлкнулась. Если райзер болтается — подложи изолирующую прокладку (обычный картон, только не токопроводящий). Притяни карту винтами к корпусу. Половина проблем с Xid 79 решается просто качественным контактом — карта не должна шевелиться даже от вибрации вентиляторов.

5 Тест под нагрузкой

Включи ПК. Дай системе загрузиться. Выполни nvidia-smi — карта должна появиться. Затем nvidia-smi -l 2 — мониторь температуру. Запусти тест: cuda-memtest --stress или просто gpu-burn. Час стресса — критерий. Если ошибка не появилась — готово. Если вернулась — читай дальше.

Что делать, если чистка не помогла?

Бывает, что контакты окислились глубоко — их не отмыть. Тогда только замена райзера. Но перед этим проверь ещё три вещи:

  1. Блок питания: Если в моменте нагрузки напряжение на 12 В падает ниже 11.7 В — карта может отваливаться. Проверь мультиметром или софтом (HWiNFO).
  2. PCIe поколение в BIOS: Принудительно поставь Gen3 вместо Auto или Gen4. Райзеры часто не держат 4.0 стабильно. Скорость почти не потеряешь (разница <2%), а стабильность вырастет.
  3. Перегрев VRAM: Если памяти жарко (выше 110°C), контроллер может выдавать ложный Xid. RTX 3090 с завода часто греет задние чипы — нужна замена термопрокладок. Но это уже тема для отдельного разговора.

Кстати, если ты используешь Proxmox с пробросом карты — там свои грабли с PCIe Reset. В виртуалках Xid 79 может появляться из-за некорректного завершения VM. На чистом Linux это встречается реже.

Типичные ошибки, которые убивают карту окончательно

Я видел, как люди делают вот что — и потом несут карту в ремонт:

  • Используют перекись водорода или ацетон — разъедают позолоту, контакты теряют защиту.
  • Трут металлической щёткой — царапают дорожки. Ластик или салфетка, никакого металла.
  • Пытаются пропаять райзер паяльником — если ты не инженер, не лезь. Слой контактов очень тонкий, оторвёшь дорожку.
  • Переставляют карту без заземления — статика убивает GPU мгновенно. Перед работой коснись корпуса блока питания.

Фатальная ошибка: Не пытайся включить карту, если она вставлена не до конца или с перекосом. Короткое замыкание по линиям питания убьёт и карту, и райзер, и иногда материнку.

Профилактика: как больше не просыпаться от Xid 79

Раз в три месяца продувай системник баллончиком сжатого воздуха — особенно райзеры. Если живёшь в регионе с влажным климатом — держи в комнате осушитель. Влажность >60% ускоряет окисление контактов в разы. Можешь обработать контакты специальным диэлектрическим силиконовым спреем для электроники (не WD-40!). Я использую DeoxIT D5 — он убирает оксид и создаёт защитную плёнку. Одна обработка держится полгода.

И ещё — если собираешь multi-GPU ферму, не экономь на райзерах. Китайские за 300 рублей с Aliexpress часто сами по себе бракованные. Лучше взять проверенные, например, райзеры с конденсаторами на линии 12 В — они гасят пульсации и стабилизируют питание. Потратишь чуть больше, но сэкономишь недели отладки.

Часто задаваемые вопросы

Сколько стоит нормальный райзер для RTX 3090?

Хороший райзер с PCIe x16, поддержкой 4.0 и керамическими конденсаторами — от 1500 до 3000 рублей. Дёшево — хорошо не бывает.

Поможет ли undervolt от Xid 79?

Косвенно — да. Снижение нагрузки уменьшает нагрев райзера, контакты меньше расширяются. Но если контакт плохой — undervolt лишь отложит проблему. Лучше почистить.

Может ли ошибка быть из-за драйвера?

Редко. Но бывает на драйверах ветки 470.x (для старых карт). На 560.xx для RTX 3090 таких проблем нет. Если чистка не помогла — обнови драйвер, но это последнее, что стоит пробовать.

Как проверить райзер на исправность без второй карты?

Возьми мультиметр, прозвони линии 12 В и GND между концами райзера. Если есть обрыв — только замена. Но обычно контакт теряется из-за окисла, а не разрыва дорожки.

Если после всех манипуляций Xid 79 всё ещё появляется — попробуй принудительно установить PCIe Generation 3 в BIOS. Да, ты потеряешь 1-2% пропускной способности, но карта перестанет падать. Стабильность всегда важнее гигатрансферов. Лично у меня одна из 3090 работала только на Gen3, и это её не спасло — пришлось менять райзер. Но для локального ML разница незаметна.

Подписаться на канал