Второй GPU для VRAM: бюджетное решение с Tesla M60 для локальных LLM

Проблема: VRAM закончился, а модель не влезла

Каждый, кто работает с локальными LLM, сталкивался с этой ситуацией: выбранная модель требует 16 ГБ VRAM, а у вашей RTX 3060Ti всего 8 ГБ. Ошибка CUDA out of memory становится постоянным спутником. Покупка новой карты на 24 ГБ — удовольствие не из дешевых, а NVLink для RTX 3060Ti не поддерживается.

Но что если я скажу вам, что можно удвоить доступную видеопамять всего за 15-20 тысяч рублей? И это не магия, а проверенная комбинация: ваша основная игровая/рабочая карта + серверный GPU Tesla M60.

Важно: Это решение не даст вам единого пула памяти как в случае с NVLink. Модель будет разделена между картами, что создает определенные накладные расходы на передачу данных. Но для многих задач — это единственный способ запустить большие модели без вложений в дорогое железо.

Почему именно Tesla M60?

Tesla M60 — это серверная карта от NVIDIA с двумя GPU на одной плате. Каждый GPU имеет 8 ГБ GDDR5 памяти, что в сумме дает 16 ГБ. Но главное — ее цена на вторичном рынке. За те же деньги, что вы отдадите за одну бывшую в употреблении RTX 3060Ti, можно купить целых две Tesla M60 и получить 32 ГБ VRAM.

GPU	VRAM (ГБ)	Примерная цена	Плюсы	Минусы
RTX 3060Ti	8	25-30 тыс. руб.	Высокая производительность, поддержка игр	Мало VRAM для LLM
Tesla M60 (одна плата)	16 (2×8)	15-20 тыс. руб.	Много VRAM за небольшие деньги	Медленная память GDDR5, нет DisplayPort
RTX 3090	24	70-90 тыс. руб.	Огромный VRAM, высокая скорость	Очень дорого, требует мощного БП

Ключевой момент: Tesla M60 работает через PCIe и не требует специальных разъемов питания — только стандартный 8-pin. Это делает ее идеальным кандидатом на роль второго GPU в существующей системе.

Что вам понадобится?

Основная система с работающей RTX 3060Ti (или аналогичной картой)
Свободный слот PCIe x16 на материнской плате
Блок питания мощностью от 750W (рекомендуется 850W для надежности)
Дополнительный кабель питания 8-pin (часто идет в комплекте с БП)
Пространство в корпусе — Tesla M60 достаточно крупная карта
Пассивный кулер или хорошая вентиляция — серверные карты часто не имеют активного охлаждения

Совет: Проверьте документацию вашей материнской платы. Некоторые платы при использовании двух карт автоматически переключают слоты на режим x8/x8. Это нормально для наших задач — PCIe 3.0 x8 все равно обеспечивает достаточную пропускную способность для большинства LLM.

Пошаговый план установки

1 Подготовка системы

Перед физической установкой карты подготовьте систему:

# Создайте резервную копию важных данных
# Обновите драйверы NVIDIA до последней версии
sudo apt update && sudo apt upgrade  # для Linux
# Или загрузите с официального сайта NVIDIA для Windows

Проверьте текущую конфигурацию:

nvidia-smi

Убедитесь, что ваша основная карта правильно определяется и работает.

2 Физическая установка Tesla M60

Выключите компьютер и отсоедините кабель питания.
Снимите боковую панель корпуса.
Найдите свободный слот PCIe x16 (обычно второй или третий слот).
Аккуратно установите Tesla M60, убедившись, что она полностью вошла в слот.
Подключите кабель питания 8-pin к карте.
Если карта пассивно охлаждается, убедитесь, что рядом есть вентиляторы корпуса для обдува.

3 Настройка в операционной системе

Для Windows:

Включите компьютер — система должна автоматически обнаружить новое устройство.
Установите драйверы NVIDIA (если не установлены).
Откройте Диспетчер устройств и проверьте, что обе карты отображаются.
В Панели управления NVIDIA можно настроить приоритет GPU для вычислений.

Для Linux:

# После загрузки проверьте наличие обеих карт
lspci | grep -i nvidia
# Должно показать две разные карты

# Проверьте через nvidia-smi
sudo nvidia-smi
# Вы должны увидеть обе карты в таблице

4 Настройка ПО для работы с двумя GPU

Для использования двух карт в локальных LLM нужно правильно настроить фреймворк. Рассмотрим пример для llama.cpp:

# Запуск модели с распределением по слоям между двумя GPU
./main -m ./models/llama-2-70b.Q4_K_M.gguf \
  --ngl 80 \
  -c 4096 \
  -b 512 \
  --gpu-layers 40,40 \
  --split-mode layer \
  --main-gpu 0 \
  --no-mmap

Ключевые параметры:

--gpu-layers 40,40 — распределяет 40 слоев на первую карту и 40 на вторую
--split-mode layer — режим разделения по слоям
--main-gpu 0 — указывает основную карту (RTX 3060Ti)

Для PyTorch использование нескольких GPU выглядит так:

import torch

# Проверяем доступные устройства
devices = [torch.device(f'cuda:{i}') for i in range(torch.cuda.device_count())]
print(f"Доступно GPU: {len(devices)}")

# Создаем модель и распределяем ее по устройствам
model = MyLargeModel()
model = torch.nn.DataParallel(model, device_ids=[0, 1])

Распространенные ошибки и их решение

Ошибка 1: Система не видит вторую карту после установки.

Решение: Проверьте, достаточно ли мощности у блока питания. Tesla M60 потребляет до 300W в пике. Также проверьте, правильно ли карта вошла в слот — серверные карты часто толще и требуют большего усилия.

Ошибка 2: Перегрев Tesla M60 при нагрузке.

Решение: Установите дополнительный вентилятор, направленный на карту. Можно использовать простой 120mm вентилятор, закрепленный стяжками. Температура выше 85°C может привести к троттлингу.

Ошибка 3: Низкая производительность при использовании двух карт.

Решение: Убедитесь, что данные передаются через PCIe, а не через медленную системную память. В llama.cpp используйте параметр --no-mmap. Также проверьте, что обе карты работают в режиме PCIe 3.0 x8 или лучше.

Альтернативные варианты

Если Tesla M60 вам не подходит, рассмотрите другие варианты:

RTX 2080Ti (11 ГБ) — дороже, но быстрее и с лучшей поддержкой
Tesla P40 (24 ГБ) — еще больше VRAM, но требует активного охлаждения
Две RTX 3060 12GB — если у вас уже есть одна, можно добавить вторую

Для более масштабных сборок рекомендую ознакомиться с нашей статьей про бюджетную 4-GPU ферму для LLM.

Реальные результаты: что можно запустить?

После успешной установки Tesla M60 вместе с RTX 3060Ti вы получаете суммарно 24 ГБ VRAM (8 + 16). Этого достаточно для:

Llama 2 70B в 4-битной квантизации
Qwen 72B в 4-битной версии
Mixtral 8x7B с полным контекстом
Многие 34B модели в 8-битной версии

Для сравнения, о запуске больших моделей на ограниченном VRAM мы писали в статье «Можно ли запустить локальную LLM на 10 ГБ видеопамяти?».

Стоит ли игра свеч?

Давайте посчитаем:

Стоимость апгрейда: 15-20 тыс. рублей за Tesla M60
Прирост VRAM: +16 ГБ (с 8 до 24 ГБ)
Производительность в LLM: Скорость инференса увеличится незначительно (из-за накладных расходов), но вы сможете запускать модели, которые раньше были недоступны
Срок окупаемости: Если вы зарабатываете на AI-разработке — несколько недель

Для сравнения, переход на RTX 4090 (24 ГБ) обойдется в 150+ тыс. рублей — в 7-10 раз дороже.

💡

Если вы планируете дальнейшее масштабирование, изучите наши материалы про стратегии масштабирования локальных LLM и сравнение NVLink и PCIe для огромных моделей.

Часто задаваемые вопросы

Будет ли Tesla M60 работать в играх?

Нет. Tesla M60 не имеет DisplayPort выходов и оптимизирована для вычислений, а не для рендеринга графики. Используйте ее исключительно как вычислительный ускоритель.

Нужны ли специальные драйверы?

Нет, стандартные драйверы NVIDIA GeForce работают и с Tesla картами. Однако для некоторых серверных функций может потребоваться установка Enterprise драйверов.

Можно ли использовать более двух карт?

Да, если ваша материнская плата поддерживает 3 или 4 слота PCIe x16. Но учтите требования к блоку питания и охлаждению. Подробнее в статье про 4 видеокарты в одном корпусе.

Что лучше: одна мощная карта или две средние?

Для игр — одна мощная. Для LLM вычислений — часто две средние, так как VRAM складывается (пусть и с накладными расходами). Для обучения моделей смотрите статью про тренировку 70B моделей на 4 видеокартах.

Заключение

Добавление второго GPU — это самый бюджетный способ увеличить доступный VRAM для локальных LLM. Комбинация RTX 3060Ti + Tesla M60 дает 24 ГБ видеопамяти менее чем за 20 тыс. рублей, позволяя запускать модели, которые раньше были недоступны.

Конечно, это решение не идеально: есть накладные расходы на передачу данных между картами, вопросы с охлаждением и совместимостью. Но когда нужно срочно увеличить VRAM без серьезных вложений — это лучший вариант.

Помните: самое важное в работе с локальными LLM — не абсолютная скорость, а возможность запустить модель вообще. А с 24 ГБ VRAM возможностей становится значительно больше.

Апгрейд на коленке: как добавить второй GPU для VRAM без лишних трат