Выбор между арендой и покупкой GPU в 2026 году напоминает русскую рулетку с кошельком
Ошибешься — либо сгоришь на арендных платежах, либо застрянешь с устаревшим железом, пока конкуренты бегают на новых B400. Классический совет «считай TCO» не работает, когда цены на аренду скачут на 30% за квартал, а стоимость видеокарт на вторичке падает после каждого анонса NVIDIA. Нужно смотреть не на абстрактные цифры, а на конкретные задачи. Вот семь реальных сценариев, с которыми сталкивался я и мои клиенты. Цены актуальны на первую половину 2026 года.
Важно: все расчёты в долларах для простоты. Курс берём 90 ₽/$. Цены на аренду — средние по рынку, собранные через трекеры. Стоимость железа — ориентировочная, на основе прогнозов из статьи про рост цен на GPU.
Сценарий 1: Инференс маленькой LLM для внутреннего чат-бота
Задача: круглосуточный чат-бот на базе модели типа Llama 3.2 8B (или её наследника 2026 года), обрабатывающий 500-1000 запросов в день. Модель в 4-битном квантовании.
| Параметр | Аренда | Покупка |
|---|---|---|
| Конфигурация | Инстанс с RTX 4090 или A10G (24 GB VRAM) | RTX 5090 (предположительно 36 GB VRAM) |
| Стоимость (разовая/час) | ~$0.65/час (≈ 58 ₽) | ~$3200 (≈ 288 000 ₽) |
| Месячные затраты (24/7) | $0.65 * 24 * 30 = $468 (≈ 42 120 ₽) | Электроэнергия: 350W * 24 * 30 * $0.12 = ~$30. Итого: $30 |
| Точка окупаемости | $3200 / ($468 - $30) ≈ 7.3 месяцев | |
Вывод: если бот нужен больше чем на 8 месяцев — покупай железо. Меньше — арендуй. Но здесь подвох: через 8 месяцев может выйти RTX 5090 Ti, и твоя карта потеряет в цене. Аренда страхует от этого.
Сценарий 2: Дообучение (fine-tuning) моделей 7B-13B на своих данных
Задача: раз в неделю дообучать модель на свежих данных компании. Процесс занимает ~12 часов. Используется LoRA или полный fine-tuning.
| Параметр | Аренда | Покупка |
|---|---|---|
| Конфигурация | Инстанс с A100 40GB (или аналогом нового поколения) | Система с 2x RTX 5090 (NVLink) |
| Стоимость (разовая/час) | ~$1.8/час (данные с сравнения провайдеров) | ~$7000 (≈ 630 000 ₽) за систему |
| Месячные затраты (48 часов работы) | $1.8 * 12 часов * 4 недели = $86.4 | Электроэнергия (только при работе): 700W * 48ч * $0.12 = ~$4. + Амортизация. Итого: ~$100 (с учётом простоя) |
| Точка окупаемости | $7000 / ($86.4 - $4) ≈ 85 месяцев (более 7 лет!) | |
Вывод однозначен: аренда. Железо простаивает 90% времени. Покупать две топовые карты для периодической работы — выбрасывать деньги. Бери инстансы по часам, когда нужно.
Сценарий 3: Инференс гигантских моделей 70B+ для аналитики
Задача: запуск моделей типа Llama 4 70B (или её преемника) в 4-битном формате для сложного RAG и анализа документов. Нагрузка: 8 часов в день, 5 дней в неделю.
| Параметр | Аренда | Покупка |
|---|---|---|
| Конфигурация | Инстанс с 2x H100 80GB (или 1x B200) | Локальный сервер с 4x RTX 5090 (через PCIe) |
| Стоимость (разовая/час) | 2x H100: ~$8/час. B200: ~$11/час | ~$15000 (≈ 1.35 млн ₽) за всю систему |
| Месячные затраты (160 часов) | $8 * 160 = $1280 | Электроэнергия: 1400W * 160ч * $0.12 = ~$27. + Охлаждение, место. Итого: ~$200 |
| Точка окупаемости | $15000 / ($1280 - $27) ≈ 12 месяцев | |
Пограничный случай. Окупаемость около года. Но если ты купишь 4x RTX 5090, то завяжешься на эту конкретную конфигурацию. Аренда позволяет через полгода перейти на B400, который будет в 2 раза быстрее. Платишь за гибкость.
Сценарий 4: Полное обучение моделей с нуля (research)
Задача: тренировка новой архитектуры LLM с 1-3 миллиардами параметров. Нужны недели непрерывной работы на нескольких GPU.
Сценарий 5: Генерация изображений (Stable Diffusion 4 / Midjourney v7)
Задача: генерация 1000-5000 изображений в день для контента. Модели стали прожорливее, требуют 12-16 GB VRAM для быстрой работы.
| Параметр | Аренда | Покупка |
|---|---|---|
| Конфигурация | Инстанс с RTX 4090 или A100 40GB | RTX 5090 или RTX 4090 (б/у) |
| Стоимость (разовая/час) | ~$0.7/час | $3200 (новый) или $1800 (б/у 4090) |
| Месячные затраты (12 часов в день) | $0.7 * 12 * 30 = $252 | Электроэнергия: 350W * 12 * 30 * $0.12 = ~$15 |
| Точка окупаемости (на новом) | $3200 / ($252 - $15) ≈ 13.5 месяцев | |
Близко к окупаемости. Но учти, что генерация изображений — задача «рывками». Можно арендовать мощный инстанс на 2 часа, сгенерить всё что нужно, и выключить. Покупка же заставляет платить за электричество даже в простое. Считай реальную загрузку.
Сценарий 6: Компьютерное зрение (обучение детекторов, сегментация)
Задача: обучение и инференс моделей YOLO-v11 или Segment Anything v3 на потоках видео. Нагрузка постоянная, но не пиковая.
Для CV часто хватает одной мощной карты. Аренда RTX 4090: ~$0.65/час. Покупка RTX 5080 (предположим, $2200). При работе 16/7 окупаемость около 10 месяцев. Но ключевой фактор — задержка (latency). Если твоё приложение обрабатывает видео с камер в реальном времени, даже 50 мс на передачу данных в облако могут быть критичны. Локальное железо выигрывает.
Сценарий 7: Непредсказуемая R&D нагрузка (стартап, эксперименты)
Сегодня тестируешь квантование 70B модели, завтра — тренируешь маленькую модель на специфичных данных, послезавтра — рендеришь 3D. Нет постоянного workflow.
Покупка железа здесь — самоубийство. Ты либо купишь слишком слабую карту, и она не потянет некоторые эксперименты, либо слишком мощную, и она будет простаивать. Аренда позволяет брать именно те конфигурации, которые нужны здесь и сейчас. Используй провайдеров с почасовой оплатой и минимальным временем аренды в 1 час.
Что сломается, если просто следовать цифрам
Расчёты выше — лишь половина правды. Вторая половина — подводные камни, которые не видны в Excel.
Скрытые затраты при покупке
- Место и охлаждение. Сервер с 4 GPU греется как маленькая печь. Тебе нужен кондиционер, мощная вентиляция, а иногда и отдельная розетка. Это тысячи долларов.
- Время на настройку. Прошивка BIOS, настройка драйверов, CUDA, оркестрация нескольких карт. Это дни работы senior инженера. Его время тоже деньги.
- Амортизация и ликвидность. Купленная RTX 5090 через год будет стоить на 40-50% меньше (см. анализ рынка). Это не затраты, но потеря капитала.
Скрытые проблемы аренды
- Доступность. В понедельник утром все дешёвые H100 могут быть разобраны. Твой скрипт обучения встанет в очередь. Планируй работу с запасом.
- Выход из облака (Vendor Lock-in). Твои данные, модели, пайплайны привязываются к API конкретного провайдера. Переезд болезненный.
- Нестабильность цен. Сегодня час A100 стоит $1.5, завтра — $2.2 из-за скачка спроса на крипто или новый релиз модели. Бюджет летит в тартарары.
Мой совет на 2026: начинай всегда с аренды. Даже если расчёты показывают окупаемость за 6 месяцев. Запусти workload в облаке, погоняй его 2-3 месяца. Пойми реальные потребности в часах, памяти, стабильности. И только потом, если цифры всё ещё сходятся, рассматривай покупку. Так ты избежишь ситуации, когда купленное железо через месяц оказывается не тем, что нужно.
Ошибка, которую совершают 90% команд
Они сравнивают цену аренды on-demand инстанса со стоимостью покупки. Это в корне неверно. Облачные провайдеры дают скидки до 70% за preemptible instances (прерываемые инстансы) или commitment на 1-3 года. Например, Google Cloud предлагает длительные commitment. А локальное железо можно купить б/у, сэкономив 40%. Сравнивай сопоставимые варианты: аренда со скидкой vs покупка б/у железа. Картина может радикально поменяться.
И последнее. Не зацикливайся на железе. В 2026 году эффективность алгоритмов и библиотек (типа FlashAttention-3, новые форматы квантования) даёт прирост в 2-5 раз на том же железе. Иногда лучше потратить $10 000 на найм гения-оптимизатора, чем на ещё одну стойку с GPU. Железо устаревает. Знания — нет.