TCO локального LLM-сервера за $6400: окупаемость vs API в 2026 | AiManual
AiManual Logo Ai / Manual.
31 Май 2026 Гайд

Сколько стоит владеть локальным LLM-сервером за $6400? Сравнение с API и полный финансовый анализ

Детальный финансовый анализ локального LLM-сервера за $6400: CAPEX, OPEX, амортизация, стоимость электроэнергии. Сравнение с GPT-4.5, Claude 4 и Gemini 2.5. Ког

Вы запустили первый запрос к GPT-4.5 через OpenRouter. Ответ прилетает за 400 мс. Красота. Через месяц приходит счёт — $2 400. Вы чешете затылок. Через три месяца — $7 000. А через полгода вы гуглите «собрать LLM сервер за $6400».

Знакомо? Если да — вы на правильной странице. Если нет — всё равно читайте: ваши будущие деньги скажут спасибо.

Я собрал сервер за $6 400 в мае 2026. Прогнал его месяц в production. Сравнил с API-провайдерами. Считал каждый цент — включая амортизацию, электричество и потраченные нервы. Вот что получилось.

Не «вот вам цифры», а «почему цифры именно такие»

Любой совет с потолка — пустая трата времени. Я не скажу «покупай железо, дешевле». Я разберу, почему именно ваша точка безубыточности может отличаться в 10 раз.

Возьмём конкретный сетап. Не абстрактный «мощный ПК», а железка, которую можно заказать сейчас.

1Спецификация: что внутри за $6 400

КомпонентМодельЦена (2026)
GPU2× RTX 4090 24 ГБ (или 4090D)$3 600
CPUAMD Ryzen 9 7950X$550
RAM64 ГБ DDR5-6000$250
SSD2 ТБ NVMe gen4$150
Блок питания1600W Platinum$400
Охлаждение + корпус + прочееCustom loop, корпус, вентиляторы$700
Итого$6 400

Почему именно 2× 4090? Потому что это 48 ГБ VRAM — минимальный порог для комфортной работы с моделями 30-40B в 4-bit (Q4_K_M) и 70B в Q2_K. Можно было взять 2× RTX 5090 (32 ГБ каждая, 64 ГБ суммарно) за ~$4 400, но бюджет улетает за $7 200. 4090 — всё ещё золотая середина.

TCO: как считать, если у вас не завод по майнингу

Полная стоимость владения (TCO) за 3 года = CAPEX + OPEX + амортизация + время. Разберём каждый пункт.

2CAPEX: $6 400 — один раз, но больно

Да, капитальные затраты. Сервер прослужит 3-5 лет. RTX 4090 — карты избыточные для игр, но для LLM их хватит на 3 года без апгрейда. После — продажа остаточной стоимости: через 3 года 4090 будут стоить около $600-700 за штуку (с учётом износа). Итого потеря стоимости — примерно $2 200.

3OPEX: электричество — главный скрытый враг

Сервер жрёт под нагрузкой ~800 Вт (две карты по 350 Вт + система). В idle — 150 Вт. Реалистичный сценарий: 12 часов в день под нагрузкой, 12 часов в покое. Тариф в США / Европе — в среднем $0.15 за кВт·ч.

ПараметрЗначение
Нагрузка (Вт)800
Idle (Вт)150
Время под нагрузкой в день12 ч
Время idle в день12 ч
Потребление в день (кВт·ч)0.8×12 + 0.15×12 = 11.4
Тариф$0.15 / кВт·ч
В год ($)11.4×365×0.15 ≈ $624
За 3 года ($)$1 872

Плюс охлаждение комнаты (сервер греет как обогреватель) — ещё $200-300 в год. Итого OPEX за 3 года: $1 872 + $750 ≈ $2 622.

4Амортизация + время: $1 200 в год на обслуживание

Вы потратите время на настройку vLLM, Ollama, обновление драйверов, устранение падений, мониторинг. Оцениваю в 2 часа в месяц. Ваша ставка — $50/час? Уже $1 200 в год. За 3 года — $3 600. Можно этот пункт игнорировать, если вы делаете это в удовольствие, но для бизнеса — реальные деньги.

Не советую так делать: «я настрою один раз и забуду». На практике драйверы NVIDIA ломаются, версия CUDA не подходит, модель вылетает с OOM. Если ваш поток запросов критичен для бизнеса — нужен SRE, который это держит.

Сводный TCO за 3 года

СтатьяЗатраты
CAPEX (с учётом остаточной стоимости)$6 400 – $1 200 = $5 200
Электричество + охлаждение$2 622
Обслуживание (время)$3 600
Итого за 3 года$11 422
В среднем в месяц$317

То есть владение сервером обходится примерно в $317/мес. Кажется недорого? А теперь сравним с API.

API-провайдеры в 2026: цены и реальность

На май 2026 три основных игрока:

  • GPT-4.5 Turbo: $5 / 1M input, $15 / 1M output (до 128K контекста)
  • Claude 4 Opus: $6 / 1M input, $18 / 1M output
  • Gemini 2.5 Ultra: $4 / 1M input, $12 / 1M output

Но это цены при стандартном rate limit. Если вам нужно больше — включаются надбавки. Плюс токенизация: у некоторых провайдеров один токен может стоить как 1.3 «реальных» токена для русского языка.

Производительность локального сервера: что он реально выдаёт

На этом железе я запускал Qwen 2.5 32B (Q4_K_M) — самая адекватная модель для продакшна. Результаты:

  • Скорость генерации: ~55 токенов/с (batch size 1), ~150 токенов/с при batch size 8
  • Пропускная способность: ~3 000 токенов/минуту на один инстанс
  • За час непрерывной работы — 180 000 токенов
  • В день (8 часов) — ~1.44 млн токенов

Это output токены. Input обрабатываются быстрее (~400 токенов/с).

Важный нюанс: если грузить модель 24/7, можно прогнать до 4 млн токенов в день. Но в реальности не бывает постоянной нагрузки. Для расчётов возьмём консервативные 1 млн токенов/день (смесь input/output в пропорции 2:1).

Сравнение на миллион токенов: локальный vs API

Считаем стоимость одного миллиона выходных токенов (с учётом входных, один выходной стоит примерно 3-4 входных). Возьмём сценарий: 500K input + 500K output = 2M эквивалентных входных токенов (поскольку 1M output = 3M input по цене).

ПараметрЛокальныйGPT-4.5 TurboClaude 4 OpusGemini 2.5 Ultra
Стоимость 1M output (с input)$0.38$20$24$16
Стоимость 10M output (с input)$3.8$200$240$160
Стоимость 100M output$38$2 000$2 400$1 600

Расчёт для локального: TCO $317/мес ÷ на (~1 млн токенов/день × 30 дней = 30 млн токенов/мес) = $0.01 за 1 млн. Но это если используете сервер на 100% круглосуточно. На практике — 30% загрузка? Тогда реальная стоимость 1M токенов ~ $0.04-0.10. Всё равно дешевле API в 200 раз.

Точка безубыточности: когда сервер окупается

Построим простую формулу:

  • Переменные затраты на API: $20 за 1M output (среднее по трём провайдерам)
  • Стоимость локального: $317/мес (не зависит от объёма, если не превышаете лимиты железа)
  • Объём в месяц: X млн output токенов

Точка безубыточности: X = $317 / $20 ≈ 15.85 млн выходных токенов (с учётом входных — примерно 50 млн эквивалентных).

Если вы генерируете меньше 15 млн выходных токенов в месяц — API дешевле. Если больше — локальный сервер выгоднее.

Ошибка №1: считать точку безубыточности без учёта времени обслуживания. Если добавить $100/мес за ваше время, порог сдвигается до 20 млн. А если вы нанимаете админа за $500/мес — до 35 млн.

Типичные грабли при сборке сервера за $6 400

  • Недооценка тепловыделения. 800 Вт в комнате — это +2-3°C. Без кондиционера летом сервер будет троттлить. Добавьте $200 на охлаждение.
  • Покупка одной карты вместо двух. 24 ГБ хватает только на модели 7-13B. Вы быстро упрётесь в потолок. Лучше сразу 2× с запасом.
  • Экономия на блоке питания. Дешёвый БП на 1200W может не выдержать пиковых нагрузок. RTX 4090 даёт транзиенты до 500 Вт. Берите 1600W Platinum.
  • Игнорирование PCIe lanes. На consumer платформах (AM5, LGA1700) может не хватить линий для двух карт x16. Хотя для LLM x8 на карту не критично, узким местом может стать CPU-to-GPU обмен.

Подробнее про эти ошибки я разбирал в статье «Почему сборка ПК для локальных LLM может быть ошибкой».

А что с качеством? Локальная модель vs API

В 2026 году локальные модели догнали API по большинству бенчмарков. Qwen 2.5 32B (или Llama 4 34B) дают ~90% качества GPT-4.5 на русском и английском. Для типовых задач (суммаризация, генерация кода, RAG) — разница незаметна. Для креативного письма — да, API чуть лучше. Но если вам нужно 10 миллионов токенов в месяц на код-генерацию — локальная модель выигрывает и по деньгам, и по скорости (нет задержек сети).

💡
Полный гид по запуску локальных моделей — в статье «Ollama vs другие: полный гид по запуску LLM офлайн на своем ПК».

Когда API всё-таки выгоднее (и не нужно покупать сервер)

  • У вас <5 млн выходных токенов в месяц — платите $100-200 за API и спите спокойно.
  • Вам нужна капризная модель (GPT-4.5 level reasoning для сложных цепочек) — API даёт лучшее качество.
  • У вас нет физического места для сервера, шум и жара критичны.
  • Вы не готовы тратить время на администрирование — ваше время дороже $500/мес.

В этих случаях сервер за $6 400 превращается в дорогую игрушку. Но если ваш проект масштабируется — считайте сами.

Итог: сухие цифры без воды

  • Сервер за $6 400 стоит $317/мес владения (с амортизацией, электричеством и вашим временем).
  • Окупается при >15 млн выходных токенов в месяц (или ~50 млн эквивалентных).
  • Качество моделей 30-40B в 4-bit — ~90% от топовых API.
  • Главные грабли: тепловыделение, bottleneck PCIe, недооценка времени админа.

Если вы генерируете >20 млн токенов в месяц — берите сервер не думая. Если меньше — подпишитесь на наш разбор API vs локальные модели в 2026 и продолжайте платить провайдерам.

А если хотите оптимизировать расходы на API — вот инструмент, который реально работает: Portkey AI Gateway (снижает затраты до 30% за счёт роутинга и кеширования). Не реклама, мой production стек.

Подписаться на канал