Зачем вообще это нужно? Экономия против головной боли

Представьте ситуацию: вы хотите запускать локальные LLM вроде Llama 3.3 70B или новой Qwen 2.5 72B, но бюджет ограничен. RTX 5060 Ti с её 16 ГБ GDDR7 - отличная карта для инференса, но контекст в 32K+ съедает память как пирожки. А вот Tesla P40 за копейки даёт ещё 24 ГБ. В сумме 40 ГБ - уже можно загрузить что-то серьёзное.

Но Windows с её драйверами устраивает саботаж. P40 - это серверная карта без дисплейных выходов, работающая на драйверах без WDDM. RTX 5060 Ti - игровая карта нового поколения с обязательным WDDM 3.5. Система просто отказывается ставить оба драйвера одновременно. Знакомо?

Важный момент на 2026 год: драйвер 581.57 - это последний релиз, который теоретически поддерживает и Pascal (P40), и Ada Lovelace Next (RTX 5060 Ti). Но «теоретически» и «практически» - разные вселенные.

Что ломается сразу и почему

Вы скачиваете драйвер 581.57 с официального сайта Nvidia, запускаете установку. Инсталлятор видит RTX 5060 Ti, радостно сообщает: «Установка драйверов для вашего устройства NVIDIA». Проходит минут 10, перезагрузка... И P40 в диспетчере устройств помечен жёлтым треугольником с кодом ошибки 43. Windows говорит: «Это устройство было остановлено (код 43)».

Причина проста: инсталлятор ставит WDDM-драйвер для RTX 5060 Ti, а для P40 пытается использовать тот же INF-файл. Но P40 на WDDM не работает. Вообще. Никогда. Это карта для вычислений, а не для отрисовки интерфейса Windows.

💡

WDDM (Windows Display Driver Model) - это архитектура драйверов для видеокарт в Windows. Серверные карты вроде P40 используют только базовый драйвер без WDDM, потому что им не нужно рендерить рабочий стол. Игровые карты обязаны его иметь.

Решение: разделяй и властвуй

Нужно установить два разных драйвера: один для RTX 5060 Ti (с WDDM), другой для P40 (без WDDM). И сделать так, чтобы Windows не пыталась автоматически «обновить» P40 до неправильной версии.

1 Подготовка: скачиваем всё нужное

Первым делом - отключаем автоматическое обновление драйверов в Windows. Иначе система всё испортит при первой же перезагрузке.

# Запускаем PowerShell от имени администратора
gpedit.msc
# Или через реестр, если нет групповых политик
reg add "HKLM\SOFTWARE\Policies\Microsoft\Windows\WindowsUpdate" /v ExcludeWUDriversInQualityUpdate /t REG_DWORD /d 1 /f

Теперь скачиваем:

Драйвер 581.57 Standard для RTX 5060 Ti (обычный установщик с сайта Nvidia)
Драйвер 474.30 Data Center для Tesla P40 (ищите в разделе «Data Center / Tesla» на сайте Nvidia)
Утилиту NVCleanstall (последняя версия на 2026 год - 1.16.2)
Display Driver Uninstaller (DDU) - на случай, если всё пойдёт не так

Важно: драйвер 474.30 - последний, который официально поддерживает P40 на Windows. Более новые версии могут работать, но требуют модификации INF-файлов. 474.30 работает из коробки.

2 Чистая установка: начинаем с нуля

Если у вас уже стояли драйверы Nvidia - запускаем DDU в безопасном режиме. Выбираем «Clean and restart» для NVIDIA. После перезагрузки у вас будет только базовый драйвер Microsoft.

Теперь физически отключаем P40 от материнской платы. Оставляем только RTX 5060 Ti. Запускаем установщик 581.57. Ставим как обычно, но не ставим GeForce Experience - это лишняя нагрузка для LLM-станции.

После установки перезагружаемся, проверяем в диспетчере устройств: RTX 5060 Ti должен работать нормально, без ошибок. Запускаем nvidia-smi в командной строке - должна отображаться карта с драйвером 581.57.

3 Хитрость с P40: обманываем систему

Выключаем компьютер, подключаем P40. Включаем. Windows обнаружит новое устройство, попытается найти драйверы... и не найдёт.

В диспетчере устройств находим P40 (обычно в разделе «Другие устройства» как «3D-контроллер»). Правой кнопкой - «Обновить драйвер» → «Выполнить поиск драйверов на этом компьютере» → «Выбрать драйвер из списка доступных».

Нажимаем «Установить с диска» и указываем путь к распакованному драйверу 474.30. Конкретно к файлу nv_dispi.inf в папке Display.Driver.

ВНИМАНИЕ: Windows может предупредить, что драйвер не имеет цифровой подписи. Нажимаем «Установить всё равно». На Windows 11 24H2+ может потребоваться отключить проверку подписи драйверов в настройках загрузки.

После установки перезагружаемся. Если всё сделано правильно, в диспетчере устройств будут два разных драйвера:

Устройство	Драйвер	Версия	WDDM
NVIDIA GeForce RTX 5060 Ti	nvidia_disp.inf	581.57	Да (3.5)
NVIDIA Tesla P40	nv_dispi.inf	474.30	Нет

4 Фиксация: чтобы Windows не «помогала»

Теперь нужно заблокировать драйвер для P40, чтобы Windows не решила его «обновить» до неправильной версии при следующем обновлении системы.

# Находим ID устройства P40 в диспетчере устройств
# Свойства → Сведения → ИД оборудования
# Выглядит как PCI\VEN_10DE&DEV_1B38&SUBSYS_...

# Затем в PowerShell:
pnputil /enum-devices | findstr "Tesla P40"
# Запоминаем Instance ID

# Блокируем драйвер:
pnputil /disable-device "INSTANCE_ID_ЗДЕСЬ"

Или проще: в диспетчере устройств на P40 → Свойства → Драйвер → «Откатить» (если доступно) → «Обновить драйвер» → «Выполнить поиск на этом компьютере» → «Выбрать из уже установленных» → выбираем 474.30 и ставим галочку «Только совместимые».

Проверка и настройка для LLM

Запускаем командную строку от имени администратора и проверяем:

nvidia-smi

Должны увидеть обе карты. Обратите внимание: у P40 в столбце «Fan» будет «N/A» - у этой карты нет мониторинга оборотов через драйвер. Температура должна отображаться.

Теперь проверяем CUDA. Устанавливаем CUDA Toolkit 13.5 (последняя версия, совместимая и с Pascal, и с Ada Lovelace Next).

import torch
print(torch.cuda.device_count())  # Должно быть 2
print(torch.cuda.get_device_name(0))  # RTX 5060 Ti
print(torch.cuda.get_device_name(1))  # Tesla P40

# Проверяем вычисления на обеих картах
torch.cuda.set_device(0)
a = torch.randn(1000, 1000).cuda()
torch.cuda.synchronize()

print("RTX 5060 Ti работает")

torch.cuda.set_device(1)
b = torch.randn(1000, 1000).cuda()
torch.cuda.synchronize()
print("P40 работает")

Типичные проблемы и их решение

Проблема 1: После перезагрузки P40 снова с ошибкой 43.

Решение: Windows обновила драйвер. Заходим в настройки Windows Update → Дополнительные параметры → Опциональные обновления → Обновления драйверов. Если там есть драйвер для P40 - удаляем его. Затем повторяем установку 474.30 и сразу блокируем через pnputil.

Проблема 2: nvidia-smi показывает только одну карту.

Решение: Скорее всего, конфликт драйверов. Попробуйте установить драйвер для P40 через NVCleanstall. Эта утилита позволяет модифицировать INF-файлы и установить «серверный» драйвер поверх «игрового».

Проблема 3: Система нестабильна, синие экраны.

Решение: Проверьте питание. P40 потребляет до 250Вт, RTX 5060 Ti - до 220Вт. Вместе это 470Вт только на видеокарты. Нужен БП от 850Вт качественного производства. И отдельные кабели питания для каждой карты, никаких разветвителей.

Оптимизация для локальных LLM

Теперь, когда обе карты работают, нужно настроить их для эффективной работы с языковыми моделями.

Первое - ограничиваем энергопотребление P40. Эта карта греется как печка. Устанавливаем NVML и настраиваем:

import pynvml
pynvml.nvmlInit()
handle = pynvml.nvmlDeviceGetHandleByIndex(1)  # P40
# Ограничиваем мощность до 200Вт вместо 250
pynvml.nvmlDeviceSetPowerManagementLimit(handle, 200000)
# Включаем адаптивный clock
pynvml.nvmlDeviceSetAPIRestriction(handle, pynvml.NVML_FEATURE_API_RESTRICTED_CLOCKS, 0)

Второе - настраиваем распределение моделей. RTX 5060 Ti с её GDDR7 быстрее в вычислениях, но имеет меньше памяти. P40 медленнее, но память дешёвая. Идеальная схема: небольшие модели (до 13B) запускать на RTX 5060 Ti, крупные (70B+) распределять между картами.

Для работы с такими гибридными сборками отлично подходит Tensor Parallel - он умеет распределять слои модели между разными GPU, даже с разной архитектурой.

💡

Интересный факт: хотя P40 основана на архитектуре Pascal (2016), а RTX 5060 Ti на Ada Lovelace Next (2025), они могут работать вместе благодаря обратной совместимости CUDA. Производительность, конечно, будет ограничена более медленной картой, но для инференса LLM это часто приемлемо.

А что с Linux?

Если честно, в Linux всё проще. Драйверы там ставятся одной командой, и нет этой дурацкой WDDM-проблемы. Но многие предпочитают Windows для локальных LLM из-за удобства интерфейсов вроде LM Studio или Faraday.

Если вы всё же решите перейти на Linux - посмотрите мою статью про бюджетный AI-сервер. Там есть инструкции по настройке подобных гибридных систем.

Стоит ли игра свеч?

Честный ответ: зависит от вашего терпения и бюджета. P40 на вторичном рынке в 2026 году стоит около $150-200. RTX 5060 Ti - $600-700. В сумме $800 за 40 ГБ VRAM.

Альтернатива - одна RTX 3090 с 24 ГБ за $500-600 (б/у). Или новая RTX 4070 Ti SUPER с 16 ГБ за $800. Но у вас не будет 40 ГБ.

Если вам действительно нужны большие контексты и модели размером 70B+ - гибридная сборка имеет смысл. Если хватит 13B-34B моделей - лучше взять одну современную карту и не мучиться с драйверами.

Лично я после месяца экспериментов с P40+RTX 5060 Ti перешёл на связку из двух RTX 3090. Драйверы ставятся без проблем, производительность предсказуемая, и не нужно бороться с WDDM. Но это уже в два раза дороже.

А если хотите узнать больше о современных LLM для таких сборок - посмотрите обзор моделей с поддержкой большого контекста. Там есть информация, какие модели лучше всего работают на гибридных системах.

И последний совет: если собираете такую систему, сразу покупайте хорошую систему охлаждения для P40. Пассивный кулер на 250Вт - это издевательство. Поставьте на него 120-мм вентилятор на стяжках или купите готовый активный кулер. Иначе thermal throttling будет срезать производительность вдвое.

P40 и RTX 5060 Ti в одной системе: как заставить старый и новый GPU работать на Windows для локальных LLM