Вы сняли H200 за $3 в час. Радуетесь. Запускаете свою LLM — и получаете 28 токенов в секунду вместо 45 у коллеги на таком же инстансе. Знакомо? Добро пожаловать в самую дорогую лотерею в мире. Только билет вы покупаете каждый час, а джекпот — это просто обещанная производительность.
Проблема не нова: чипы одного модельного ряда отличаются по частоте, энергопотреблению и стабильности из-за естественного разброса при производстве. Nvidia сортирует (bins) свои GPU: лучшие идут в дорогие датацентровые карты, остальные — в потребительские. Но в облаке даже «датацентровые» H200 и H100 имеют разницу в 10–15% по пиковой производительности. Когда к этому добавляется шум от соседей по гипервизору, перекос охлаждения и разная версия драйвера — разрыв вырастает до 30–40%.
Мы уже писали об анатомии этого неравенства в статье Silicon Lottery: Why GPU Cloud Performance Varies Dramatically. Там есть суть: биннинг, мультитенанси, thermal throttling. Теперь же у нас есть цифры, от которых волосы дыбом.
3500 чипов, 11 провайдеров — и полный разброд
Сообщество SiliconMark прогнало одинаковый бенчмарк на 3500 инстансах от AWS, Azure, GCP, CoreWeave, Lambda Labs, RunPod, Vast.ai, Paperspace, TensorDock, DataCrunch и Nebius. Результаты — чистое безумие.
| GPU | Разница внутри одного SKU (один провайдер) | Разница между провайдерами |
|---|---|---|
| H200 SXM | до 28% | до 45% |
| H100 PCIe | до 22% | до 38% |
| B200 (да, и на новом поколении то же самое) | до 18% | до 35% |
Подробный разбор этих цифр — в нашем материале Силиконовая лотерея: анализ 3500 GPU от 11 провайдеров. Там же — скрипты и методология. А сейчас — переходим к практике: как купить билет в эту лотерею и не прогореть.
Приём №1: Не верь — проверяй. Бенчмарк до покупки
Большинство инженеров заказывают инстанс, начинают обучение и только через час замечают, что производительность ниже ожидаемой. К этому моменту уже потрачены деньги и время.
Правильный подход: запускать бенчмарк на дешёвом spot-инстансе или prepaid-сессии перед тем, как арендовать dedicated GPU на неделю. Вот минимальный скрипт, который загружает и прогоняет SiliconMark:
git clone https://github.com/siliconmark/siliconmark.git
cd siliconmark
pip install -r requirements.txt
python run_benchmark.py --gpu all --output my_gpu_report.json
Через 5–10 минут вы получите JSON с FLOPS, пропускной способностью HBM и латентностью PCIe. Ваша цель — сравнить эти цифры с эталонными значениями для данной модели GPU (их публикует Nvidia и сообщество). Если разница превышает 10% — меняйте инстанс.
Ошибка: запускать бенчмарк на GPU, который уже нагружен соседями. Всегда запрашивайте --exclusive или dedicated флаг у провайдера. Иначе вы измерите не чип, а шум.
Ещё один лайфхак: используйте тот же скрипт для мониторинга в рантайме. Запустите на GPU, который арендован для работы, и следите за дрейфом метрик каждые 10 минут. Если показатели падают — thermal throttling или сосед активизировался.
Приём №2: Выбирай провайдера с гарантией
Не все облака одинаково полезны. Те же CoreWeave и Lambda Labs в среднем показывают меньший разброс, чем гиперскейлеры. Причина: они используют dedicated серверы без мультитенанси на уровне GPU, а часто и с собственной системой охлаждения, которая не даёт чипам перегреваться.
Гиперскейлеры (AWS, GCP, Azure) вынуждены смешивать клиентов на одном физическом сервере через MIG или SR-IOV. Это экономит им деньги, но убивает вашу производительность. Если вам нужна стабильность — берите инстансы с флагом dedicated или pcluster. Да, они стоят на 20–30% дороже, но разница в токенах может окупить эту переплату.
И ещё: обращайте внимание на ревизию чипа. Провайдеры иногда ставят более старые ревизии (с пониженной частотой). Запросите у поддержки спецификацию конкретного узла. Если отказываются — бегите.
Приём №3: Автоматический откат при деградации
Даже если вы выбрали идеальный инстанс, никто не гарантирует, что через час сосед по дата-центру не запустит тяжёлую задачу, и температура не поползёт вверх. Решение — написать простой watchdog, который мониторит скорость инференса вашей LLM и при падении ниже порога автоматически переключается на другой инстанс.
Вот концепт на Python (без зависимостей, просто логика):
import time
import json
import subprocess
THRESHOLD_TOKENS_PER_SEC = 40
CHECK_INTERVAL = 60 # секунд
def get_current_tps():
# Запускаем ваш инференс и парсим вывод
result = subprocess.run(["python", "inference.py", "--benchmark"], capture_output=True, text=True)
return float(result.stdout.strip())
while True:
tps = get_current_tps()
if tps < THRESHOLD_TOKENS_PER_SEC:
# Вызываем скрипт переключения облачного провайдера
subprocess.run(["./switch_to_backup_instance.sh"])
print(f"TPS упал до {tps}. Переключаемся.")
break
time.sleep(CHECK_INTERVAL)
Да, это костыль. Но он спасёт вас от ситуации, когда модель деградирует посреди ночи, а вы спите. Провайдеры, которые предлагают SLA по производительности (например, CoreWeave), — исключение, но их мало.
Ошибка, которую совершают 90% команд
Они смотрят только на цену за час. Дешёвый инстанс на Vast.ai или RunPod может быть медленным из-за старого драйвера или плохого охлаждения. В итоге эффективная стоимость одного токена оказывается выше, чем у «дорогого» CoreWeave. Второй популярный провал — игнорирование bandwidth между GPU. Если вы используете распределённое обучение, медленный NVLink или PCIe сведёт на нет всю экономию. Кстати, мы разбирали похожую ситуацию на примере двух RTX 4090 — статья о локальной сборке, где скорость межсоединений оказалась критичнее числа GPU.
И ещё один нюанс: thermal throttling. Даже в dedicated-инстансе, если стойка перегрета, GPU снижает частоту. Проверьте температуру через nvidia-smi — если она выше 85°C при нагрузке, требуйте замены.
Что дальше? Прогноз на 2027
Nvidia уже тестирует «бинарные» GPU с гарантированным биннингом для облачных провайдеров. В 2027 году, скорее всего, вы сможете выбирать инстанс с конкретным классом частоты (Gold/Silver/Bronze), как у процессоров Intel. Но пока этого нет, единственный способ не проиграть в кремниевую лотерею — тестировать, сравнивать и отказываться от медленных экземпляров. Каждый час простоя на тормозном GPU — это деньги на ветер.
* Данные SiliconMark актуальны на май 2026. Мы рекомендуем всегда проверять свежие бенчмарки перед арендой.