Почему $20k перестали быть безумием
Каждый раз, когда кто-то пишет в тред про сборку за $20 000, комментарии делятся на два лагеря: «ты безумец, облако дешевле» и «ну наконец-то серьезный билд». Оба отчасти правы, но только при конкретных сценариях. Мы решили не гадать на кофейной гуще, а взять реальные цифры — цены на железо середины 2026 года, актуальные тарифы API и типичную нагрузку небольшой продакшн-команды. Результат оказался не таким однозначным, как хотелось бы хейтерам локального ИИ.
Тренд на свои серверы действительно набирает обороты — эксперты по инфраструктуре все чаще делают ставку на локальные решения, объясняя это контролем и предсказуемостью затрат. С другой стороны, цены на память взлетели до $14/ГБ, и облачные провайдеры не остались в стороне — их тарифы тоже поползли вверх. Уже к концу 2025 года стало ясно: модель pay-per-token больше не является однозначно дешевой.
Ключевой вопрос: при каком объеме запросов сервер за $20k начнет окупать себя быстрее, чем подписка на облачный API? Чтобы ответить, пришлось разобрать TCO и сравнить с реальными счетами OpenAI и Anthropic.
Что входит в $20k в 2026 году
За эти деньги сегодня можно собрать машину, способную тянуть несколько инстансов Llama 4 70B (или открытые аналоги) с квантизацией 4-bit и контекстом до 128K токенов. Типичная конфигурация включает:
- 2× NVIDIA RTX 5090 (48GB VRAM каждая) — около $5500 за обе (спрос немного снизил цены)
- AMD Threadripper 7980X (или Intel Xeon W) — $2500
- 256GB DDR5 — $2800 (да, RAM все еще дорогая)
- Блок питания 2000W, корпус, система охлаждения — $1000
- NVMe SSD 4TB — $700
- Остальное — материнка, сетевые карты, резервирование, сборка — закрываем бюджет
Итоговая стоимость ~$20 500, но округлим для чистоты. За эти деньги мы получаем около 96GB суммарной VRAM и 256GB системной памяти — достаточно для обслуживания одновременно нескольких моделей и обработки больших батчей без свопинга.
Важно: сборка неидеальна для всех сценариев. Как показывает разбор неудачного билда, без правильной балансировки CPU/GPU и охлаждения можно выбросить деньги на ветер. Наш конфиг — рабочая лошадка, проверенная в нескольких инсталляциях.
TCO: не только железо
Владение сервером — это не только чек при покупке. Посчитаем совокупную стоимость за 3 года (стандартный срок амортизации):
| Статья расходов | В месяц | За 3 года |
|---|---|---|
| Амортизация железа ($20 000 / 36) | $556 | $20 000 |
| Электричество (1.5 кВт × 24ч × $0.15/кВт·ч) | $162 | $5 832 |
| Обслуживание (замена термопасты, диски, администрирование) | $50 | $1 800 |
| Итого | $768 | $27 632 |
$768 в месяц — это плата за возможность использовать столько токенов, сколько нужно, без доплат. Теперь сравним с облаком.
Облачный API: тарифы середины 2026
Берем средние цены на самые популярные модели уровня GPT-4o (июнь 2026): input ~$0.30/M токенов, output ~$1.20/M токенов. Типичное приложение для работы с кодом и документацией генерирует примерно 60% input и 40% output. Посчитаем ежемесячную стоимость при разном объеме:
| Ежедневный объем токенов (M) | Стоимость облака в месяц | Разница с локальным TCO ($768) |
|---|---|---|
| 5 | $108 | - $660 (облако дешевле) |
| 20 | $432 | - $336 |
| 50 | $1 080 | + $312 |
| 100 | $2 160 | + $1 392 |
| 200 | $4 320 | + $3 552 |
Точка безубыточности — около 35M токенов/день. Это примерно 1500-2000 активных пользователей, делающих по 10-20 запросов в сутки. Для стартапа или среднего бизнеса вполне реальная цифра.
Три скрытых козыря локального сервера
Чистые цифры — это хорошо, но есть факторы, которые не отражаются в таблице. Первое — предсказуемость. Облачные цены прыгают: недавно OpenAI анонсировала outcome-based pricing, что для тяжелых кейсов увеличило счета в 2-3 раза. Локальный сервер таких сюрпризов не преподносит.
Второе — скорость. При инференсе через API вы теряете 200-500 мс на сетевые задержки. Для real-time чат-ботов это критично. Локально пинг — 1-5 мс, и вы можете контролировать пропускную способность без rate limits.
Третье — конфиденциальность. Если вы работаете с чувствительными данными клиентов, отправка их в облако может нарушить требования GDPR. В Европе все чаще выбирают локальные кластеры именно из-за этого, и выбор между B200 и швейцарскими API уже не кажется надуманным.
Так когда же $20k — это выгодно?
Однозначного ответа нет. Если ваш пайплайн генерирует меньше 30M токенов в день, облако остается дешевле. Если вы планируете рост или уже работаете на таком объеме, сервер окупится за 1.5-2 года. Для enterprise с сотнями миллионов токенов — решение очевидно.
Но самое интересное — это не только деньги. Контроль над моделью, возможность делать fine-tuning без дополнительных затрат на API, полная автономия. Как выбрать стратегию развертывания LLM — вопрос не только финансовый, но и архитектурный. В 2026 году инструменты для локального хостинга стали настолько зрелыми, что порог входа снизился: запустить инфраструктуру на домашнем железе с 192GB RAM — уже мейнстрим.
Наш совет: не покупайте сервер в надежде, что он окупится сам. Сначала посчитайте реальный объем токенов, протестируйте API в течение месяца, замерьте задержки. Только имея цифры под рукой, принимайте решение. И да — если вам хватит 10M токенов в день, забудьте о $20k, купите подписку и сэкономьте ресурсы на развитие.
Рынок облачного ИИ меняется быстрее, чем мы привыкли. Цены на память растут, модели становятся тяжелее, а outcome-based pricing заставляет пересматривать привычные метрики. Возможно, через год $20k-сервер будет окупаться уже при 20M токенов. А может, появятся специализированные чипы, которые перевернут расчеты. Но сегодня, в июле 2026, ответ один: все зависит от вашего объема. Считайте, а не верьте мифам.