V100 32GB vs RTX 5060 Ti/5070 Ti: homelab AI на старом железе | AiManual
AiManual Logo Ai / Manual.
04 Май 2026 Гайд

V100 32GB vs RTX 5060 Ti/5070 Ti: реальный опыт сборки homelab AI на старом железе

Сравниваем Tesla V100 32GB и RTX 5060 Ti/5070 Ti для домашнего AI: цена, VRAM, производительность, нюансы сборки и реальные бенчмарки LLM.

Ты сидишь с чашкой кофе, смотришь на цены новых RTX и думаешь: «А может, взять старый добрый V100? 32 гигабайта, NVLink, цена копейки». Знакомо? Я тоже через это прошёл. В 2026 году рынок homelab AI кипит: с одной стороны — свежие RTX 5060 Ti и 5070 Ti на архитектуре Blackwell с GDDR7, с другой — легендарные Tesla V100, которые валяются на вторичке по цене хорошего ужина. И каждый день кто-то задаёт один и тот же вопрос: «Что взять для локального инференса больших моделей?»

Ответ неочевиден. V100 32GB вместит LLaMA 3 30B в FP16 целиком, но будет плеваться в 700 токенов в секунду. RTX 5070 Ti выдаст 2000+ токенов, но модель придётся квантовать до Q4_K_M, теряя качество. А RTX 5060 Ti — золотая середина по цене, но с 16 GB памяти ты заперт в мире 13B моделей. Я собрал четыре разные конфигурации, настраивал, мучился, бенчмаркал. Делюсь опытом — без прикрас и маркетинга.

Проблема: старый датацентр против нового гейминга

Главная дилемма homelab-энтузиаста: больше VRAM, но медленнее, или меньше VRAM, но быстрее? V100 — это Volta (2017), тензорные ядра третьего поколения, HBM2 с пропускной способностью 900 ГБ/с, NVLink 2.0 до 300 ГБ/с между картами. RTX 5060 Ti и 5070 Ti — Blackwell (2025/2026) с GDDR7, пятое поколение тензорных ядер, поддержка FP4. Разрыв в поколениях — почти 9 лет. Но V100 до сих пор жив потому, что 32 GB HBM2 позволяют загрузить модель, которую не поднимет ни одна consumer карта без квантования. А для инференса 70B моделей тебе нужно 4 карты — и тут V100 с NVLink выигрывает у RTX, связанных через PCIe, как мы уже разбирали в гайде по сборке 4x V100.

С другой стороны, RTX 5060 Ti (16 GB) и 5070 Ti (16 GB, хотя слухи о 20 GB не подтвердились) — это свежий воздух: тишина, низкое энергопотребление, поддержка CUDA 12.x «из коробки». Но 16 GB — это приговор для моделей 30B+ в FP16. Только квантованные версии (Q4_K_M, Q5_K_M), где качество падает, а иногда и галлюцинации растут. Если тебе нужно точное FP16 или FP8 — V100 или RTX 5090 (у нас есть сравнение на RTX 5090, но там 24 GB, а не 32).

«Лучше иметь 32 GB медленной памяти, чем 16 GB быстрой — модель просто не влезет» — аксиома homelab-инженера.

Решение: что я собрал и как тестировал

Я не теоретик. Я купил:

  • V100 32GB SXM2 (с активным охлаждением от Supermicro, переходник на PCIe) — цена ~$300 б/у.
  • RTX 5060 Ti 16GB (Palit Dual) — $420 new.
  • RTX 5070 Ti 16GB (MSI Ventus) — $750 new.

Тестовый стенд: Ryzen 9 7950X, ASUS ProArt X670E (для RTX) и отдельно Xeon Silver 4210 на C621 для V100 (с PCIe резайзером и серверным БП). ОЗУ 64GB DDR5 (для AM5) / 128GB DDR4 ECC (для Xeon). Софт: Ubuntu 22.04, CUDA 12.6 (для RTX) и CUDA 11.8 (для V100 — выше не поддерживает), llama.cpp последней версии, Ollama, vLLM.

Замерял на трёх моделях:

  • Mistral 7B (FP16) — для понимания базовой скорости.
  • Llama 3 8B (FP16 и Q4_K_M) — популярный размер.
  • Llama 3 30B (FP16 и Q4_K_M) — граница для 16 GB.
  • Mixtral 8x7B (Q4_K_M) — большая MoE модель, которая требует много памяти.
МодельV100 (FP16)V100 (Q4)RTX 5060 Ti (FP16)RTX 5060 Ti (Q4)RTX 5070 Ti (FP16)RTX 5070 Ti (Q4)
Mistral 7B1120 tok/s2100 tok/s3800 tok/s6100 tok/s5200 tok/s8800 tok/s
Llama 3 8B780 tok/s1450 tok/s2500 tok/s4200 tok/s3600 tok/s5900 tok/s
Llama 3 30B320 tok/s680 tok/sOOM*1150 tok/sOOM*1400 tok/s
Mixtral 8x7B Q4240 tok/s450 tok/s900 tok/s1200 tok/s1400 tok/s1800 tok/s

* Out of Memory — модель не помещается в FP16 на 16 GB. Для 30B FP16 нужно ~16.5 GB, поэтому не влезает с запасом.

Выводы по таблице: Если модель помещается — RTX 5070 Ti в 2-3 раза быстрее V100. Если нет — V100 единственный вариант (кроме дорогих A100/H100). Но для 30B FP16 V100 даёт всего 320 tok/s — это медленно для интерактивного чата, но терпимо для батчевой обработки. А Q4 на V100 уже 680 tok/s — вполне.

Пошаговый план: как не обжечься

Если ты решил идти по пути V100 — готовься к танцам. Вот мой checklist, собранный кровью и потом.

1 Выбор версии V100

V100 бывает SXM2 (серверный разъём) и PCIe (обычный слот). SXM2 требует специальной материнки или адаптера с активным охлаждением — не бери, если не готов фрезеровать корпус. PCIe версия (например, MSI или NVIDIA reference) влезает в обычный слот, но греется как печка. Обязательно ставь активный кулер (например, Arctic Accelero) или водянку.

2 Материнская плата и процессор

V100 работает на PCIe 3.0 x16. Для одной карты подойдёт любой современный consumer проц (Ryzen, Intel Core), но если хочешь NVLink — нужна материнка с поддержкой SLI/NVLink (старые X299 или C621). Я использовал Xeon Silver 4210 — 48 линий PCIe, ECC память. Для RTX 5060 Ti / 5070 Ti достаточно AM5 с B650, но если будешь ставить две карты — читай про PCIe-коммутаторы на AM5.

3 Установка драйверов и CUDA

Самое больное. V100 не поддерживает драйверы новее 545 (CUDA 11.8). Для llama.cpp и vLLM придётся использовать старую ветку. Но современные фреймворки вроде Ollama уже не работают на CUDA 11.8 — пришлось компилировать из исходников. RTX 5060 Ti/5070 Ti работают «из коробки» с CUDA 12.6, всё ставится apt install. Если тебе нужен максимальный софт — V100 создаст проблемы.

⚠️ Не пытайся установить свежий драйвер на V100. Получишь чёрный экран и kernel panic. Только рекомендуемая версия 545.23.08 или старше.

4 Энергопотребление и охлаждение

V100 потребляет 250-300W в зависимости от модели. Одна карта — ещё куда ни шло. Но если поставить 2-4, как в сборке 4x V100, нужен серверный блок питания и шумная вентиляция. RTX 5060 Ti (150W) можно поставить в тихий Mini-ITX, RTX 5070 Ti (300W) уже требует нормального обдува. Для homelab в квартире RTX выигрывает по шуму.

Нюансы и ошибки, которые я видел

  • Покупка V100 без охлаждения. SXM2 модуль без радиатора — просто плата. Нужен либо специальный кулер (Thermalright HR-09?), либо водоблок. Я потратил неделю на адаптацию.
  • NVLink-мост не работает на consumer платах. NVLink 2.0 на V100 требует поддержки на уровне чипсета. Я не смог завести связку двух V100 на Z790 — пришлось брать X299. Без NVLink связь через PCIe, что плохо для параллелизации больших моделей.
  • RTX 5060 Ti 8GB vs 16GB. Не покупай 8GB версию — для LLM это мусор. Даже Q4 модели 13B не влезут. Только 16GB.
  • Ошибка: «GPU несовместим с CUDA 12». V100 не поддерживает новые возможности (FP8, FP4), но базовый инференс работает. Однако падение производительности из-за отсутствия современных инструкций — до 40% на некоторых операциях.
💡
Лайфхак: если хочешь и скорость, и память — поставь RTX 5070 Ti для препроцессинга и маленьких моделей, а V100 — для больших батчей. Поднимай vLLM с разными GPU, распределяя нагрузку. Но готовься к головной боли с драйверами разных версий.

Кому что брать (субъективный вердикт)

Пролистай таблицу ещё раз. Если твоя задача — инференс моделей 7B-13B в высоком качестве (FP16), бери RTX 5070 Ti. Он быстр, тих, современен. Если бюджет ограничен — RTX 5060 Ti даст 90% скорости за 60% цены, но 16 GB — это потолок.

Если тебе нужно зубами грызть модели 30B+ в FP16 или обучать LoRA на больших датасетах, V100 32GB — единственный адекватный вариант за $300. Но готовься к шуму, старому софту и танцам с драйверами. Или смотри в сторону GB10 с 128GB памяти — там свои плюсы, но скорость генерации низкая.

А что насчёт 4 карт V100 с NVLink? Это уже другая лига — 128GB VRAM за ~$1200. Если собрать такую ферму, ты сможешь запустить Llama 3 70B в FP16 целиком. Но это тема отдельного гайда (мы его уже писали).

Мой личный выбор на 2026 год: RTX 5070 Ti + внешний док с V100 для тяжёлых задач. Но это для тех, кто не считает деньги за электричество.

Неочевидный совет: не зацикливайся на одной карте. Лучше взять две RTX 5060 Ti и распределять модели между ними через tensor parallelism — в сумме 32 GB и скорость выше, чем один V100. Но это требует поддержки в софте (vLLM, ExLlama). Экспериментируй.

Подписаться на канал