Выбор между арендой и покупкой GPU в 2026 году напоминает русскую рулетку с кошельком

Ошибешься — либо сгоришь на арендных платежах, либо застрянешь с устаревшим железом, пока конкуренты бегают на новых B400. Классический совет «считай TCO» не работает, когда цены на аренду скачут на 30% за квартал, а стоимость видеокарт на вторичке падает после каждого анонса NVIDIA. Нужно смотреть не на абстрактные цифры, а на конкретные задачи. Вот семь реальных сценариев, с которыми сталкивался я и мои клиенты. Цены актуальны на первую половину 2026 года.

Важно: все расчёты в долларах для простоты. Курс берём 90 ₽/$. Цены на аренду — средние по рынку, собранные через трекеры. Стоимость железа — ориентировочная, на основе прогнозов из статьи про рост цен на GPU.

Сценарий 1: Инференс маленькой LLM для внутреннего чат-бота

Задача: круглосуточный чат-бот на базе модели типа Llama 3.2 8B (или её наследника 2026 года), обрабатывающий 500-1000 запросов в день. Модель в 4-битном квантовании.

Параметр	Аренда	Покупка
Конфигурация	Инстанс с RTX 4090 или A10G (24 GB VRAM)	RTX 5090 (предположительно 36 GB VRAM)
Стоимость (разовая/час)	~$0.65/час (≈ 58 ₽)	~$3200 (≈ 288 000 ₽)
Месячные затраты (24/7)	$0.65 * 24 * 30 = $468 (≈ 42 120 ₽)	Электроэнергия: 350W * 24 * 30 * $0.12 = ~$30. Итого: $30
Точка окупаемости	$3200 / ($468 - $30) ≈ 7.3 месяцев

Вывод: если бот нужен больше чем на 8 месяцев — покупай железо. Меньше — арендуй. Но здесь подвох: через 8 месяцев может выйти RTX 5090 Ti, и твоя карта потеряет в цене. Аренда страхует от этого.

Сценарий 2: Дообучение (fine-tuning) моделей 7B-13B на своих данных

Задача: раз в неделю дообучать модель на свежих данных компании. Процесс занимает ~12 часов. Используется LoRA или полный fine-tuning.

Параметр	Аренда	Покупка
Конфигурация	Инстанс с A100 40GB (или аналогом нового поколения)	Система с 2x RTX 5090 (NVLink)
Стоимость (разовая/час)	~$1.8/час (данные с сравнения провайдеров)	~$7000 (≈ 630 000 ₽) за систему
Месячные затраты (48 часов работы)	$1.8 * 12 часов * 4 недели = $86.4	Электроэнергия (только при работе): 700W * 48ч * $0.12 = ~$4. + Амортизация. Итого: ~$100 (с учётом простоя)
Точка окупаемости	$7000 / ($86.4 - $4) ≈ 85 месяцев (более 7 лет!)

Вывод однозначен: аренда. Железо простаивает 90% времени. Покупать две топовые карты для периодической работы — выбрасывать деньги. Бери инстансы по часам, когда нужно.

Сценарий 3: Инференс гигантских моделей 70B+ для аналитики

Задача: запуск моделей типа Llama 4 70B (или её преемника) в 4-битном формате для сложного RAG и анализа документов. Нагрузка: 8 часов в день, 5 дней в неделю.

Параметр	Аренда	Покупка
Конфигурация	Инстанс с 2x H100 80GB (или 1x B200)	Локальный сервер с 4x RTX 5090 (через PCIe)
Стоимость (разовая/час)	2x H100: ~$8/час. B200: ~$11/час	~$15000 (≈ 1.35 млн ₽) за всю систему
Месячные затраты (160 часов)	$8 * 160 = $1280	Электроэнергия: 1400W * 160ч * $0.12 = ~$27. + Охлаждение, место. Итого: ~$200
Точка окупаемости	$15000 / ($1280 - $27) ≈ 12 месяцев

Пограничный случай. Окупаемость около года. Но если ты купишь 4x RTX 5090, то завяжешься на эту конкретную конфигурацию. Аренда позволяет через полгода перейти на B400, который будет в 2 раза быстрее. Платишь за гибкость.

Сценарий 4: Полное обучение моделей с нуля (research)

Задача: тренировка новой архитектуры LLM с 1-3 миллиардами параметров. Нужны недели непрерывной работы на нескольких GPU.

💡

Здесь математика ломается. Покупка кластера из 8x H100 обойдётся в ~$400 000. Аренда такого же кластера — $60+/час. Если ты не FAANG или у тебя нет гранта в миллион долларов, даже не думай о покупке. Все серьёзные исследования в 2026 году идут в облаке или на суперкомпьютерах. Единственное исключение — если ты точно знаешь, что будешь гонять этот кластер 24/7 ближайшие 3 года. Но в реалиях быстро меняющихся моделей это фантастика.

Сценарий 5: Генерация изображений (Stable Diffusion 4 / Midjourney v7)

Задача: генерация 1000-5000 изображений в день для контента. Модели стали прожорливее, требуют 12-16 GB VRAM для быстрой работы.

Параметр	Аренда	Покупка
Конфигурация	Инстанс с RTX 4090 или A100 40GB	RTX 5090 или RTX 4090 (б/у)
Стоимость (разовая/час)	~$0.7/час	$3200 (новый) или $1800 (б/у 4090)
Месячные затраты (12 часов в день)	$0.7 * 12 * 30 = $252	Электроэнергия: 350W * 12 * 30 * $0.12 = ~$15
Точка окупаемости (на новом)	$3200 / ($252 - $15) ≈ 13.5 месяцев

Близко к окупаемости. Но учти, что генерация изображений — задача «рывками». Можно арендовать мощный инстанс на 2 часа, сгенерить всё что нужно, и выключить. Покупка же заставляет платить за электричество даже в простое. Считай реальную загрузку.

Сценарий 6: Компьютерное зрение (обучение детекторов, сегментация)

Задача: обучение и инференс моделей YOLO-v11 или Segment Anything v3 на потоках видео. Нагрузка постоянная, но не пиковая.

Для CV часто хватает одной мощной карты. Аренда RTX 4090: ~$0.65/час. Покупка RTX 5080 (предположим, $2200). При работе 16/7 окупаемость около 10 месяцев. Но ключевой фактор — задержка (latency). Если твоё приложение обрабатывает видео с камер в реальном времени, даже 50 мс на передачу данных в облако могут быть критичны. Локальное железо выигрывает.

Сценарий 7: Непредсказуемая R&D нагрузка (стартап, эксперименты)

Сегодня тестируешь квантование 70B модели, завтра — тренируешь маленькую модель на специфичных данных, послезавтра — рендеришь 3D. Нет постоянного workflow.

Покупка железа здесь — самоубийство. Ты либо купишь слишком слабую карту, и она не потянет некоторые эксперименты, либо слишком мощную, и она будет простаивать. Аренда позволяет брать именно те конфигурации, которые нужны здесь и сейчас. Используй провайдеров с почасовой оплатой и минимальным временем аренды в 1 час.

Что сломается, если просто следовать цифрам

Расчёты выше — лишь половина правды. Вторая половина — подводные камни, которые не видны в Excel.

Скрытые затраты при покупке

Место и охлаждение. Сервер с 4 GPU греется как маленькая печь. Тебе нужен кондиционер, мощная вентиляция, а иногда и отдельная розетка. Это тысячи долларов.
Время на настройку. Прошивка BIOS, настройка драйверов, CUDA, оркестрация нескольких карт. Это дни работы senior инженера. Его время тоже деньги.
Амортизация и ликвидность. Купленная RTX 5090 через год будет стоить на 40-50% меньше (см. анализ рынка). Это не затраты, но потеря капитала.

Скрытые проблемы аренды

Доступность. В понедельник утром все дешёвые H100 могут быть разобраны. Твой скрипт обучения встанет в очередь. Планируй работу с запасом.
Выход из облака (Vendor Lock-in). Твои данные, модели, пайплайны привязываются к API конкретного провайдера. Переезд болезненный.
Нестабильность цен. Сегодня час A100 стоит $1.5, завтра — $2.2 из-за скачка спроса на крипто или новый релиз модели. Бюджет летит в тартарары.

Мой совет на 2026: начинай всегда с аренды. Даже если расчёты показывают окупаемость за 6 месяцев. Запусти workload в облаке, погоняй его 2-3 месяца. Пойми реальные потребности в часах, памяти, стабильности. И только потом, если цифры всё ещё сходятся, рассматривай покупку. Так ты избежишь ситуации, когда купленное железо через месяц оказывается не тем, что нужно.

Ошибка, которую совершают 90% команд

Они сравнивают цену аренды on-demand инстанса со стоимостью покупки. Это в корне неверно. Облачные провайдеры дают скидки до 70% за preemptible instances (прерываемые инстансы) или commitment на 1-3 года. Например, Google Cloud предлагает длительные commitment. А локальное железо можно купить б/у, сэкономив 40%. Сравнивай сопоставимые варианты: аренда со скидкой vs покупка б/у железа. Картина может радикально поменяться.

И последнее. Не зацикливайся на железе. В 2026 году эффективность алгоритмов и библиотек (типа FlashAttention-3, новые форматы квантования) даёт прирост в 2-5 раз на том же железе. Иногда лучше потратить $10 000 на найм гения-оптимизатора, чем на ещё одну стойку с GPU. Железо устаревает. Знания — нет.

Аренда vs покупка GPU в 2026: разбор 7 сценариев для ИИ-разработки с ценами и расчётами