Кремниевая лотерея: как выбрать реально быстрый облачный GPU — гайд 2026 | AiManual
AiManual Logo Ai / Manual.
10 Май 2026 Гайд

Как не проиграть в «кремниевую лотерею»: выбираем облачный GPU с максимальной производительностью

Разница в производительности одинаковых облачных GPU достигает 45%. Как не переплачивать за медленные чипы? Тестируем, выбираем провайдера и автоматизируем — га

Вы сняли H200 за $3 в час. Радуетесь. Запускаете свою LLM — и получаете 28 токенов в секунду вместо 45 у коллеги на таком же инстансе. Знакомо? Добро пожаловать в самую дорогую лотерею в мире. Только билет вы покупаете каждый час, а джекпот — это просто обещанная производительность.

Проблема не нова: чипы одного модельного ряда отличаются по частоте, энергопотреблению и стабильности из-за естественного разброса при производстве. Nvidia сортирует (bins) свои GPU: лучшие идут в дорогие датацентровые карты, остальные — в потребительские. Но в облаке даже «датацентровые» H200 и H100 имеют разницу в 10–15% по пиковой производительности. Когда к этому добавляется шум от соседей по гипервизору, перекос охлаждения и разная версия драйвера — разрыв вырастает до 30–40%.

Мы уже писали об анатомии этого неравенства в статье Silicon Lottery: Why GPU Cloud Performance Varies Dramatically. Там есть суть: биннинг, мультитенанси, thermal throttling. Теперь же у нас есть цифры, от которых волосы дыбом.

3500 чипов, 11 провайдеров — и полный разброд

Сообщество SiliconMark прогнало одинаковый бенчмарк на 3500 инстансах от AWS, Azure, GCP, CoreWeave, Lambda Labs, RunPod, Vast.ai, Paperspace, TensorDock, DataCrunch и Nebius. Результаты — чистое безумие.

GPU Разница внутри одного SKU (один провайдер) Разница между провайдерами
H200 SXM до 28% до 45%
H100 PCIe до 22% до 38%
B200 (да, и на новом поколении то же самое) до 18% до 35%

Подробный разбор этих цифр — в нашем материале Силиконовая лотерея: анализ 3500 GPU от 11 провайдеров. Там же — скрипты и методология. А сейчас — переходим к практике: как купить билет в эту лотерею и не прогореть.

💡
На момент написания (10.05.2026) SiliconMark версии 2.4 поддерживает все актуальные GPU: от A100 до B200 и даже AMD Instinct MI400. Мы используем его в примерах.

Приём №1: Не верь — проверяй. Бенчмарк до покупки

Большинство инженеров заказывают инстанс, начинают обучение и только через час замечают, что производительность ниже ожидаемой. К этому моменту уже потрачены деньги и время.

Правильный подход: запускать бенчмарк на дешёвом spot-инстансе или prepaid-сессии перед тем, как арендовать dedicated GPU на неделю. Вот минимальный скрипт, который загружает и прогоняет SiliconMark:

git clone https://github.com/siliconmark/siliconmark.git
cd siliconmark
pip install -r requirements.txt
python run_benchmark.py --gpu all --output my_gpu_report.json

Через 5–10 минут вы получите JSON с FLOPS, пропускной способностью HBM и латентностью PCIe. Ваша цель — сравнить эти цифры с эталонными значениями для данной модели GPU (их публикует Nvidia и сообщество). Если разница превышает 10% — меняйте инстанс.

Ошибка: запускать бенчмарк на GPU, который уже нагружен соседями. Всегда запрашивайте --exclusive или dedicated флаг у провайдера. Иначе вы измерите не чип, а шум.

Ещё один лайфхак: используйте тот же скрипт для мониторинга в рантайме. Запустите на GPU, который арендован для работы, и следите за дрейфом метрик каждые 10 минут. Если показатели падают — thermal throttling или сосед активизировался.

Приём №2: Выбирай провайдера с гарантией

Не все облака одинаково полезны. Те же CoreWeave и Lambda Labs в среднем показывают меньший разброс, чем гиперскейлеры. Причина: они используют dedicated серверы без мультитенанси на уровне GPU, а часто и с собственной системой охлаждения, которая не даёт чипам перегреваться.

Гиперскейлеры (AWS, GCP, Azure) вынуждены смешивать клиентов на одном физическом сервере через MIG или SR-IOV. Это экономит им деньги, но убивает вашу производительность. Если вам нужна стабильность — берите инстансы с флагом dedicated или pcluster. Да, они стоят на 20–30% дороже, но разница в токенах может окупить эту переплату.

И ещё: обращайте внимание на ревизию чипа. Провайдеры иногда ставят более старые ревизии (с пониженной частотой). Запросите у поддержки спецификацию конкретного узла. Если отказываются — бегите.

Приём №3: Автоматический откат при деградации

Даже если вы выбрали идеальный инстанс, никто не гарантирует, что через час сосед по дата-центру не запустит тяжёлую задачу, и температура не поползёт вверх. Решение — написать простой watchdog, который мониторит скорость инференса вашей LLM и при падении ниже порога автоматически переключается на другой инстанс.

Вот концепт на Python (без зависимостей, просто логика):

import time
import json
import subprocess

THRESHOLD_TOKENS_PER_SEC = 40
CHECK_INTERVAL = 60 # секунд

def get_current_tps():
    # Запускаем ваш инференс и парсим вывод
    result = subprocess.run(["python", "inference.py", "--benchmark"], capture_output=True, text=True)
    return float(result.stdout.strip())

while True:
    tps = get_current_tps()
    if tps < THRESHOLD_TOKENS_PER_SEC:
        # Вызываем скрипт переключения облачного провайдера
        subprocess.run(["./switch_to_backup_instance.sh"])
        print(f"TPS упал до {tps}. Переключаемся.")
        break
    time.sleep(CHECK_INTERVAL)

Да, это костыль. Но он спасёт вас от ситуации, когда модель деградирует посреди ночи, а вы спите. Провайдеры, которые предлагают SLA по производительности (например, CoreWeave), — исключение, но их мало.

Ошибка, которую совершают 90% команд

Они смотрят только на цену за час. Дешёвый инстанс на Vast.ai или RunPod может быть медленным из-за старого драйвера или плохого охлаждения. В итоге эффективная стоимость одного токена оказывается выше, чем у «дорогого» CoreWeave. Второй популярный провал — игнорирование bandwidth между GPU. Если вы используете распределённое обучение, медленный NVLink или PCIe сведёт на нет всю экономию. Кстати, мы разбирали похожую ситуацию на примере двух RTX 4090 — статья о локальной сборке, где скорость межсоединений оказалась критичнее числа GPU.

И ещё один нюанс: thermal throttling. Даже в dedicated-инстансе, если стойка перегрета, GPU снижает частоту. Проверьте температуру через nvidia-smi — если она выше 85°C при нагрузке, требуйте замены.

Что дальше? Прогноз на 2027

Nvidia уже тестирует «бинарные» GPU с гарантированным биннингом для облачных провайдеров. В 2027 году, скорее всего, вы сможете выбирать инстанс с конкретным классом частоты (Gold/Silver/Bronze), как у процессоров Intel. Но пока этого нет, единственный способ не проиграть в кремниевую лотерею — тестировать, сравнивать и отказываться от медленных экземпляров. Каждый час простоя на тормозном GPU — это деньги на ветер.

* Данные SiliconMark актуальны на май 2026. Мы рекомендуем всегда проверять свежие бенчмарки перед арендой.

Подписаться на канал