Проблема: VRAM закончился, а модель не влезла
Каждый, кто работает с локальными LLM, сталкивался с этой ситуацией: выбранная модель требует 16 ГБ VRAM, а у вашей RTX 3060Ti всего 8 ГБ. Ошибка CUDA out of memory становится постоянным спутником. Покупка новой карты на 24 ГБ — удовольствие не из дешевых, а NVLink для RTX 3060Ti не поддерживается.
Но что если я скажу вам, что можно удвоить доступную видеопамять всего за 15-20 тысяч рублей? И это не магия, а проверенная комбинация: ваша основная игровая/рабочая карта + серверный GPU Tesla M60.
Важно: Это решение не даст вам единого пула памяти как в случае с NVLink. Модель будет разделена между картами, что создает определенные накладные расходы на передачу данных. Но для многих задач — это единственный способ запустить большие модели без вложений в дорогое железо.
Почему именно Tesla M60?
Tesla M60 — это серверная карта от NVIDIA с двумя GPU на одной плате. Каждый GPU имеет 8 ГБ GDDR5 памяти, что в сумме дает 16 ГБ. Но главное — ее цена на вторичном рынке. За те же деньги, что вы отдадите за одну бывшую в употреблении RTX 3060Ti, можно купить целых две Tesla M60 и получить 32 ГБ VRAM.
| GPU | VRAM (ГБ) | Примерная цена | Плюсы | Минусы |
|---|---|---|---|---|
| RTX 3060Ti | 8 | 25-30 тыс. руб. | Высокая производительность, поддержка игр | Мало VRAM для LLM |
| Tesla M60 (одна плата) | 16 (2×8) | 15-20 тыс. руб. | Много VRAM за небольшие деньги | Медленная память GDDR5, нет DisplayPort |
| RTX 3090 | 24 | 70-90 тыс. руб. | Огромный VRAM, высокая скорость | Очень дорого, требует мощного БП |
Ключевой момент: Tesla M60 работает через PCIe и не требует специальных разъемов питания — только стандартный 8-pin. Это делает ее идеальным кандидатом на роль второго GPU в существующей системе.
Что вам понадобится?
- Основная система с работающей RTX 3060Ti (или аналогичной картой)
- Свободный слот PCIe x16 на материнской плате
- Блок питания мощностью от 750W (рекомендуется 850W для надежности)
- Дополнительный кабель питания 8-pin (часто идет в комплекте с БП)
- Пространство в корпусе — Tesla M60 достаточно крупная карта
- Пассивный кулер или хорошая вентиляция — серверные карты часто не имеют активного охлаждения
Совет: Проверьте документацию вашей материнской платы. Некоторые платы при использовании двух карт автоматически переключают слоты на режим x8/x8. Это нормально для наших задач — PCIe 3.0 x8 все равно обеспечивает достаточную пропускную способность для большинства LLM.
Пошаговый план установки
1 Подготовка системы
Перед физической установкой карты подготовьте систему:
# Создайте резервную копию важных данных
# Обновите драйверы NVIDIA до последней версии
sudo apt update && sudo apt upgrade # для Linux
# Или загрузите с официального сайта NVIDIA для Windows
Проверьте текущую конфигурацию:
nvidia-smi
Убедитесь, что ваша основная карта правильно определяется и работает.
2 Физическая установка Tesla M60
- Выключите компьютер и отсоедините кабель питания.
- Снимите боковую панель корпуса.
- Найдите свободный слот PCIe x16 (обычно второй или третий слот).
- Аккуратно установите Tesla M60, убедившись, что она полностью вошла в слот.
- Подключите кабель питания 8-pin к карте.
- Если карта пассивно охлаждается, убедитесь, что рядом есть вентиляторы корпуса для обдува.
3 Настройка в операционной системе
Для Windows:
- Включите компьютер — система должна автоматически обнаружить новое устройство.
- Установите драйверы NVIDIA (если не установлены).
- Откройте Диспетчер устройств и проверьте, что обе карты отображаются.
- В Панели управления NVIDIA можно настроить приоритет GPU для вычислений.
Для Linux:
# После загрузки проверьте наличие обеих карт
lspci | grep -i nvidia
# Должно показать две разные карты
# Проверьте через nvidia-smi
sudo nvidia-smi
# Вы должны увидеть обе карты в таблице
4 Настройка ПО для работы с двумя GPU
Для использования двух карт в локальных LLM нужно правильно настроить фреймворк. Рассмотрим пример для llama.cpp:
# Запуск модели с распределением по слоям между двумя GPU
./main -m ./models/llama-2-70b.Q4_K_M.gguf \
--ngl 80 \
-c 4096 \
-b 512 \
--gpu-layers 40,40 \
--split-mode layer \
--main-gpu 0 \
--no-mmap
Ключевые параметры:
--gpu-layers 40,40— распределяет 40 слоев на первую карту и 40 на вторую--split-mode layer— режим разделения по слоям--main-gpu 0— указывает основную карту (RTX 3060Ti)
Для PyTorch использование нескольких GPU выглядит так:
import torch
# Проверяем доступные устройства
devices = [torch.device(f'cuda:{i}') for i in range(torch.cuda.device_count())]
print(f"Доступно GPU: {len(devices)}")
# Создаем модель и распределяем ее по устройствам
model = MyLargeModel()
model = torch.nn.DataParallel(model, device_ids=[0, 1])
Распространенные ошибки и их решение
Ошибка 1: Система не видит вторую карту после установки.
Решение: Проверьте, достаточно ли мощности у блока питания. Tesla M60 потребляет до 300W в пике. Также проверьте, правильно ли карта вошла в слот — серверные карты часто толще и требуют большего усилия.
Ошибка 2: Перегрев Tesla M60 при нагрузке.
Решение: Установите дополнительный вентилятор, направленный на карту. Можно использовать простой 120mm вентилятор, закрепленный стяжками. Температура выше 85°C может привести к троттлингу.
Ошибка 3: Низкая производительность при использовании двух карт.
Решение: Убедитесь, что данные передаются через PCIe, а не через медленную системную память. В llama.cpp используйте параметр --no-mmap. Также проверьте, что обе карты работают в режиме PCIe 3.0 x8 или лучше.
Альтернативные варианты
Если Tesla M60 вам не подходит, рассмотрите другие варианты:
- RTX 2080Ti (11 ГБ) — дороже, но быстрее и с лучшей поддержкой
- Tesla P40 (24 ГБ) — еще больше VRAM, но требует активного охлаждения
- Две RTX 3060 12GB — если у вас уже есть одна, можно добавить вторую
Для более масштабных сборок рекомендую ознакомиться с нашей статьей про бюджетную 4-GPU ферму для LLM.
Реальные результаты: что можно запустить?
После успешной установки Tesla M60 вместе с RTX 3060Ti вы получаете суммарно 24 ГБ VRAM (8 + 16). Этого достаточно для:
- Llama 2 70B в 4-битной квантизации
- Qwen 72B в 4-битной версии
- Mixtral 8x7B с полным контекстом
- Многие 34B модели в 8-битной версии
Для сравнения, о запуске больших моделей на ограниченном VRAM мы писали в статье «Можно ли запустить локальную LLM на 10 ГБ видеопамяти?».
Стоит ли игра свеч?
Давайте посчитаем:
- Стоимость апгрейда: 15-20 тыс. рублей за Tesla M60
- Прирост VRAM: +16 ГБ (с 8 до 24 ГБ)
- Производительность в LLM: Скорость инференса увеличится незначительно (из-за накладных расходов), но вы сможете запускать модели, которые раньше были недоступны
- Срок окупаемости: Если вы зарабатываете на AI-разработке — несколько недель
Для сравнения, переход на RTX 4090 (24 ГБ) обойдется в 150+ тыс. рублей — в 7-10 раз дороже.
Часто задаваемые вопросы
Будет ли Tesla M60 работать в играх?
Нет. Tesla M60 не имеет DisplayPort выходов и оптимизирована для вычислений, а не для рендеринга графики. Используйте ее исключительно как вычислительный ускоритель.
Нужны ли специальные драйверы?
Нет, стандартные драйверы NVIDIA GeForce работают и с Tesla картами. Однако для некоторых серверных функций может потребоваться установка Enterprise драйверов.
Можно ли использовать более двух карт?
Да, если ваша материнская плата поддерживает 3 или 4 слота PCIe x16. Но учтите требования к блоку питания и охлаждению. Подробнее в статье про 4 видеокарты в одном корпусе.
Что лучше: одна мощная карта или две средние?
Для игр — одна мощная. Для LLM вычислений — часто две средние, так как VRAM складывается (пусть и с накладными расходами). Для обучения моделей смотрите статью про тренировку 70B моделей на 4 видеокартах.
Заключение
Добавление второго GPU — это самый бюджетный способ увеличить доступный VRAM для локальных LLM. Комбинация RTX 3060Ti + Tesla M60 дает 24 ГБ видеопамяти менее чем за 20 тыс. рублей, позволяя запускать модели, которые раньше были недоступны.
Конечно, это решение не идеально: есть накладные расходы на передачу данных между картами, вопросы с охлаждением и совместимостью. Но когда нужно срочно увеличить VRAM без серьезных вложений — это лучший вариант.
Помните: самое важное в работе с локальными LLM — не абсолютная скорость, а возможность запустить модель вообще. А с 24 ГБ VRAM возможностей становится значительно больше.