Вы запустили первый запрос к GPT-4.5 через OpenRouter. Ответ прилетает за 400 мс. Красота. Через месяц приходит счёт — $2 400. Вы чешете затылок. Через три месяца — $7 000. А через полгода вы гуглите «собрать LLM сервер за $6400».
Знакомо? Если да — вы на правильной странице. Если нет — всё равно читайте: ваши будущие деньги скажут спасибо.
Я собрал сервер за $6 400 в мае 2026. Прогнал его месяц в production. Сравнил с API-провайдерами. Считал каждый цент — включая амортизацию, электричество и потраченные нервы. Вот что получилось.
Не «вот вам цифры», а «почему цифры именно такие»
Любой совет с потолка — пустая трата времени. Я не скажу «покупай железо, дешевле». Я разберу, почему именно ваша точка безубыточности может отличаться в 10 раз.
Возьмём конкретный сетап. Не абстрактный «мощный ПК», а железка, которую можно заказать сейчас.
1Спецификация: что внутри за $6 400
| Компонент | Модель | Цена (2026) |
|---|---|---|
| GPU | 2× RTX 4090 24 ГБ (или 4090D) | $3 600 |
| CPU | AMD Ryzen 9 7950X | $550 |
| RAM | 64 ГБ DDR5-6000 | $250 |
| SSD | 2 ТБ NVMe gen4 | $150 |
| Блок питания | 1600W Platinum | $400 |
| Охлаждение + корпус + прочее | Custom loop, корпус, вентиляторы | $700 |
| Итого | $6 400 |
Почему именно 2× 4090? Потому что это 48 ГБ VRAM — минимальный порог для комфортной работы с моделями 30-40B в 4-bit (Q4_K_M) и 70B в Q2_K. Можно было взять 2× RTX 5090 (32 ГБ каждая, 64 ГБ суммарно) за ~$4 400, но бюджет улетает за $7 200. 4090 — всё ещё золотая середина.
TCO: как считать, если у вас не завод по майнингу
Полная стоимость владения (TCO) за 3 года = CAPEX + OPEX + амортизация + время. Разберём каждый пункт.
2CAPEX: $6 400 — один раз, но больно
Да, капитальные затраты. Сервер прослужит 3-5 лет. RTX 4090 — карты избыточные для игр, но для LLM их хватит на 3 года без апгрейда. После — продажа остаточной стоимости: через 3 года 4090 будут стоить около $600-700 за штуку (с учётом износа). Итого потеря стоимости — примерно $2 200.
3OPEX: электричество — главный скрытый враг
Сервер жрёт под нагрузкой ~800 Вт (две карты по 350 Вт + система). В idle — 150 Вт. Реалистичный сценарий: 12 часов в день под нагрузкой, 12 часов в покое. Тариф в США / Европе — в среднем $0.15 за кВт·ч.
| Параметр | Значение |
|---|---|
| Нагрузка (Вт) | 800 |
| Idle (Вт) | 150 |
| Время под нагрузкой в день | 12 ч |
| Время idle в день | 12 ч |
| Потребление в день (кВт·ч) | 0.8×12 + 0.15×12 = 11.4 |
| Тариф | $0.15 / кВт·ч |
| В год ($) | 11.4×365×0.15 ≈ $624 |
| За 3 года ($) | $1 872 |
Плюс охлаждение комнаты (сервер греет как обогреватель) — ещё $200-300 в год. Итого OPEX за 3 года: $1 872 + $750 ≈ $2 622.
4Амортизация + время: $1 200 в год на обслуживание
Вы потратите время на настройку vLLM, Ollama, обновление драйверов, устранение падений, мониторинг. Оцениваю в 2 часа в месяц. Ваша ставка — $50/час? Уже $1 200 в год. За 3 года — $3 600. Можно этот пункт игнорировать, если вы делаете это в удовольствие, но для бизнеса — реальные деньги.
Не советую так делать: «я настрою один раз и забуду». На практике драйверы NVIDIA ломаются, версия CUDA не подходит, модель вылетает с OOM. Если ваш поток запросов критичен для бизнеса — нужен SRE, который это держит.
Сводный TCO за 3 года
| Статья | Затраты |
|---|---|
| CAPEX (с учётом остаточной стоимости) | $6 400 – $1 200 = $5 200 |
| Электричество + охлаждение | $2 622 |
| Обслуживание (время) | $3 600 |
| Итого за 3 года | $11 422 |
| В среднем в месяц | $317 |
То есть владение сервером обходится примерно в $317/мес. Кажется недорого? А теперь сравним с API.
API-провайдеры в 2026: цены и реальность
На май 2026 три основных игрока:
- GPT-4.5 Turbo: $5 / 1M input, $15 / 1M output (до 128K контекста)
- Claude 4 Opus: $6 / 1M input, $18 / 1M output
- Gemini 2.5 Ultra: $4 / 1M input, $12 / 1M output
Но это цены при стандартном rate limit. Если вам нужно больше — включаются надбавки. Плюс токенизация: у некоторых провайдеров один токен может стоить как 1.3 «реальных» токена для русского языка.
Производительность локального сервера: что он реально выдаёт
На этом железе я запускал Qwen 2.5 32B (Q4_K_M) — самая адекватная модель для продакшна. Результаты:
- Скорость генерации: ~55 токенов/с (batch size 1), ~150 токенов/с при batch size 8
- Пропускная способность: ~3 000 токенов/минуту на один инстанс
- За час непрерывной работы — 180 000 токенов
- В день (8 часов) — ~1.44 млн токенов
Это output токены. Input обрабатываются быстрее (~400 токенов/с).
Важный нюанс: если грузить модель 24/7, можно прогнать до 4 млн токенов в день. Но в реальности не бывает постоянной нагрузки. Для расчётов возьмём консервативные 1 млн токенов/день (смесь input/output в пропорции 2:1).
Сравнение на миллион токенов: локальный vs API
Считаем стоимость одного миллиона выходных токенов (с учётом входных, один выходной стоит примерно 3-4 входных). Возьмём сценарий: 500K input + 500K output = 2M эквивалентных входных токенов (поскольку 1M output = 3M input по цене).
| Параметр | Локальный | GPT-4.5 Turbo | Claude 4 Opus | Gemini 2.5 Ultra |
|---|---|---|---|---|
| Стоимость 1M output (с input) | $0.38 | $20 | $24 | $16 |
| Стоимость 10M output (с input) | $3.8 | $200 | $240 | $160 |
| Стоимость 100M output | $38 | $2 000 | $2 400 | $1 600 |
Расчёт для локального: TCO $317/мес ÷ на (~1 млн токенов/день × 30 дней = 30 млн токенов/мес) = $0.01 за 1 млн. Но это если используете сервер на 100% круглосуточно. На практике — 30% загрузка? Тогда реальная стоимость 1M токенов ~ $0.04-0.10. Всё равно дешевле API в 200 раз.
Точка безубыточности: когда сервер окупается
Построим простую формулу:
- Переменные затраты на API: $20 за 1M output (среднее по трём провайдерам)
- Стоимость локального: $317/мес (не зависит от объёма, если не превышаете лимиты железа)
- Объём в месяц: X млн output токенов
Точка безубыточности: X = $317 / $20 ≈ 15.85 млн выходных токенов (с учётом входных — примерно 50 млн эквивалентных).
Если вы генерируете меньше 15 млн выходных токенов в месяц — API дешевле. Если больше — локальный сервер выгоднее.
Ошибка №1: считать точку безубыточности без учёта времени обслуживания. Если добавить $100/мес за ваше время, порог сдвигается до 20 млн. А если вы нанимаете админа за $500/мес — до 35 млн.
Типичные грабли при сборке сервера за $6 400
- Недооценка тепловыделения. 800 Вт в комнате — это +2-3°C. Без кондиционера летом сервер будет троттлить. Добавьте $200 на охлаждение.
- Покупка одной карты вместо двух. 24 ГБ хватает только на модели 7-13B. Вы быстро упрётесь в потолок. Лучше сразу 2× с запасом.
- Экономия на блоке питания. Дешёвый БП на 1200W может не выдержать пиковых нагрузок. RTX 4090 даёт транзиенты до 500 Вт. Берите 1600W Platinum.
- Игнорирование PCIe lanes. На consumer платформах (AM5, LGA1700) может не хватить линий для двух карт x16. Хотя для LLM x8 на карту не критично, узким местом может стать CPU-to-GPU обмен.
Подробнее про эти ошибки я разбирал в статье «Почему сборка ПК для локальных LLM может быть ошибкой».
А что с качеством? Локальная модель vs API
В 2026 году локальные модели догнали API по большинству бенчмарков. Qwen 2.5 32B (или Llama 4 34B) дают ~90% качества GPT-4.5 на русском и английском. Для типовых задач (суммаризация, генерация кода, RAG) — разница незаметна. Для креативного письма — да, API чуть лучше. Но если вам нужно 10 миллионов токенов в месяц на код-генерацию — локальная модель выигрывает и по деньгам, и по скорости (нет задержек сети).
Когда API всё-таки выгоднее (и не нужно покупать сервер)
- У вас <5 млн выходных токенов в месяц — платите $100-200 за API и спите спокойно.
- Вам нужна капризная модель (GPT-4.5 level reasoning для сложных цепочек) — API даёт лучшее качество.
- У вас нет физического места для сервера, шум и жара критичны.
- Вы не готовы тратить время на администрирование — ваше время дороже $500/мес.
В этих случаях сервер за $6 400 превращается в дорогую игрушку. Но если ваш проект масштабируется — считайте сами.
Итог: сухие цифры без воды
- Сервер за $6 400 стоит $317/мес владения (с амортизацией, электричеством и вашим временем).
- Окупается при >15 млн выходных токенов в месяц (или ~50 млн эквивалентных).
- Качество моделей 30-40B в 4-bit — ~90% от топовых API.
- Главные грабли: тепловыделение, bottleneck PCIe, недооценка времени админа.
Если вы генерируете >20 млн токенов в месяц — берите сервер не думая. Если меньше — подпишитесь на наш разбор API vs локальные модели в 2026 и продолжайте платить провайдерам.
А если хотите оптимизировать расходы на API — вот инструмент, который реально работает: Portkey AI Gateway (снижает затраты до 30% за счёт роутинга и кеширования). Не реклама, мой production стек.