Мой дорогой косяк: как я потратил $4000 на бумажный тигр
В начале 2025 года я, поддавшись хайпу, решил собрать локальную LLM-машину. Цель - запускать модели типа Llama 3.2 90B, Qwen2.5 72B и новейшие Mixtral 8x22B без оглядки на счёт за API. Я хотел свободы, приватности и мнимой экономии. Получил кучу проблем, шумный обогреватель и финансовую дыру. Давайте разберём мой неудачный билд по косточкам и посчитаем, во сколько реально обходится такая "свобода".
Сразу оговорюсь: есть сценарии, где локальное железо выигрывает. Но они узкие и специфичные. В 90% случаев для разработчика или небольшой компании облачные API или аренда GPU - разумнее. В этой статье мы как раз разбираем эти исключения.
Список компонентов: что я купил и почему это было глупо
Вот спецификация моего "монстра", собранного в феврале 2025:
| Компонент | Модель | Стоимость (USD, 2025) | Ошибка выбора |
|---|---|---|---|
| Процессор | AMD Ryzen 9 7950X | $580 | Избыточная мощность для LLM-инференса. Хватило бы и дешевле. |
| Материнская плата | ASUS ProArt X670E-CREATOR WIFI | $450 | Дорогая плата с функциями, которые никогда не использовал. |
| Оперативная память | Corsair Dominator Platinum RGB 128GB DDR5-6000 | $620 | RGB для LLM? Серьёзно? Переплата за бренд и подсветку. |
| Видеокарта #1 | NVIDIA RTX 4090 24GB | $1,800 | Единственный адекватный выбор, но одной мало для больших моделей. |
| Видеокарта #2 | NVIDIA RTX 3090 24GB (б/у) | $850 | Попытка сэкономить привела к проблемам с совместимостью и нагревом. |
| Блок питания | Seasonic PRIME TX-1600 | $400 | 1600W для двух карт - overkill. Шумный вентилятор. |
| Охлаждение и корпус | Custom loop + массивный корпус | $500 | Кастомная СВО для LLM-сервера - инженерное безумие. |
| Итого | ~$5,200 | И это без учёта потраченного времени на сборку и настройку. |
Первая и главная ошибка - я строил игровой ПК, а не LLM-сервер. RGB-подсветка, кастомная СВО, дорогая материнка - всё это бесполезно для задачи инференса моделей. Новички часто повторяют эту ошибку, гонясь за геймерскими трендами. Бюджетная ферма на серверных компонентах часто оказывается эффективнее.
Проблемы, с которыми я столкнулся (и которые не показывают в обзорах)
- Несовместимость VRAM: 4090 и 3090 в одной системе - боль. Разная архитектура (Ada Lovelace vs Ampere), разная эффективность tensor cores. В llama.cpp или vLLM это приводило к неоптимальному распределению слоёв и проседанию производительности на 15-20%.
- Тепловой ад: Две топовые карты в одном корпусе выделяют под 800-900Вт тепла. Даже с кастомной СВО летом температура в комнате поднималась на 5-7 градусов. Кондиционер работал постоянно, что добавило к счетам за электричество.
- Программные костыли: Заставить работать две разные карты вместе - это отдельный квест. Text Generation WebUI, Ollama, llama.cpp - каждый фреймворк требовал своих танцев с бубном. Сборка llama.cpp превратилась в многочасовой debugging.
- 48GB VRAM - всё ещё мало: Цель была запускать 70B+ модели в полном precision. Реальность: для Qwen2.5 72B в FP16 нужно ~144GB VRAM. Моих 48GB хватило только на 4-битные квантования (Q4_K_M), что заметно снижало качество ответов. Ожидание vs реальность.
Считаем ROI: когда железо окупается, а когда нет
Давайте переведём эмоции в цифры. Возьмём мою систему за $5,200 и посчитаем, сколько запросов к API я мог бы купить на эти деньги.
| Параметр | Локальная система (мой билд) | Облачный API (аналог GPT-4o, 2026 цены) |
|---|---|---|
| Капитальные затраты (CapEx) | $5,200 (железо) | $0 |
| Операционные затраты в месяц (OpEx) | ~$45 (электричество, 500W × 24ч × 30д × $0.12/кВтч) | Зависит от использования |
| Стоимость 1M токенов (вход+выход) | ~$0.018 (только электричество) | ~$2.50 - $5.00 (для моделей уровня GPT-4) |
| Точка окупаемости | Нужно обработать ~289M токенов, чтобы оправдать CapEx | - |
| Годовая стоимость при 10M токенов/мес | $5,200 + ($45 × 12) = $5,740 | ($3.75 × 10 × 12) = $450 |
Цифры не врут. При нагрузке 10 миллионов токенов в месяц (это примерно 5-7 тысяч длинных диалогов) облачный API в 12 раз дешевле в первый год. И в 127 раз дешевле, если считать только OpEx. Локальная сборка окупается только при экстремальных объёмах - от 50-100M токенов в месяц постоянно. А это уровень небольшой компании, а не индивидуального разработчика.
Не забывай про амортизацию. Железо устаревает. Через 2-3 года твоя RTX 4090 будет медленной и малоемкой по сравнению с новыми картами. Её остаточная стоимость упадёт в 2-3 раза. API всегда даёт доступ к самым свежим моделям (на 16.02.2026 это уже GPT-4.5, Claude 3.7 Sonnet и аналоги).
Когда локальное железо всё-таки имеет смысл?
После всей критики - справедливости ради. Есть сценарии, где свой сервер выигрывает:
- Строгие требования к приватности данных. Медицина, юриспруденция, корпоративные секреты. Если данные не могут покидать периметр - вариантов нет. В корпоративных проектах это ключевой фактор.
- Эксперименты с fine-tuning. Обучение адаптеров LoRA, дообучение моделей на своих данных. Здесь API либо слишком дорог (за обучение берут отдельно), либо вообще не предлагает такой возможности.
- Предсказуемые высокие нагрузки 24/7. Если твой сервис стабильно генерирует 50M+ токенов в день - свои карты могут быть выгоднее. Но считай, считай и ещё раз считай.
- Доступ к дешёвой электроэнергии. Если живёшь в регионе с ценой ниже $0.05 за кВтч (например, рядом с ГЭС) - экономика меняется.
- Образовательные и исследовательские цели. Хочешь глубоко разобраться в архитектуре, поиграть с низкоуровневой оптимизацией? Локальная среда незаменима.
Если ты попадаешь в одну из этих категорий - тогда да, собирай. Но собирай с умом. Не повторяй моих ошибок.
Альтернатива: гибридный подход и аренда GPU
В 2026 году появились интересные компромиссы, о которых мало говорят:
- Он-премис облака (on-prem cloud): Установка серверной стойки у себя в офисе, но с оплатой по подписке за железо. Поставщик обслуживает оборудование, ты платишь как за услугу. Капитальных затрат нет.
- Кратковременная аренда GPU для тяжёлых задач: Запускаешь обучение модели на vast.ai или Lambda за $1-2 в час, а инференс делаешь на более слабом локальном железе или через API. Гибрид.
- Локальные маленькие модели для предиктов, большие - в облаке: Используешь локально Quantized Llama 3.2 8B для простых задач, а для сложных запросов дергаешь GPT-4.5 через API. Оптимизация по стоимости и качеству.
Выбор стратегии развёртывания - это не бинарное "или-или". Это спектр. И твоя задача - найти свою точку на этом спектре, а не бросаться в крайности.
Практический план: как принять решение без эмоций
1 Оцени реальную нагрузку
Возьми исторические данные или сделай реалистичный прогноз. Сколько токенов в день/месяц будет обрабатывать система? Не "максимально возможно", а по факту. Используй инструменты мониторинга API-провайдеров, если уже пользуешься облаком.
2 Посчитай TCO за 3 года
Total Cost of Ownership - полная стоимость владения. Включи:
- Стоимость железа (CapEx)
- Электричество (500-1000W для мощной системы)
- Охлаждение (кондиционер летом)
- Амортизацию (обесценивание железа на 30% в год)
- Стоимость своего времени на настройку и поддержку ($50-100 в час)
- Сравни с стоимостью API или аренды GPU за тот же период.
3 Протестируй на арендованном железе
Прежде чем покупать карты, возьми их в аренду на неделю. Настрой там свой стек (Ollama, vLLM, llama.cpp), прогрей реальную нагрузку. Убедись, что производительность и стабильность тебя устраивают. Это стоит $100-200, но сэкономит тысячи.
4 Выбери правильные компоненты
Если после всех расчётов решение "железо" остаётся - собирай с умом. Не покупай геймерские компоненты. Ищи:
- Серверные материнские платы с поддержкой 4-8 GPU (Supermicro, ASRock Rack)
- Б/у профессиональные карты (NVIDIA A100 40GB, если бюджет позволяет, или RTX 3090/4090 без RGB)
- Эффективные блоки питания с сертификатом 80+ Platinum
- Простой корпус с хорошей airflow, без стекла и подсветки
Изучи бюджетные сборки на 3× RTX 3090 - там много практических советов по совместимости.
Что я сделал со своим "монстром" и итоговый совет
Через 8 месяцев мучений я разобрал систему. RTX 4090 продал за $1400 (потеря $400), RTX 3090 - за $600 (потеря $250). Остальные компоненты перекочевали в рабочий ПК для других задач. Общие потери - около $1500 + бесценное время.
Сейчас я использую гибридную схему:
- Для экспериментов и прототипирования - Ollama на MacBook с M3 Max (36GB unified memory). Хватает для 8B-13B моделей.
- Для продакшена - API Anthropic Claude 3.5 Sonnet и OpenAI GPT-4.5.
- Для fine-tuning - аренда A100 на RunPod на 2-3 дня раз в месяц.
Месячные затраты: $200-300 против $45 только за электричество + $5,200 капекса. И главное - ноль головной боли с драйверами, совместимостью и перегревом.
Мой главный совет на 2026 год: начни с API. Любого. OpenAI, Anthropic, Google, открытые модели через Together AI или Fireworks. Когда упрёшься в лимиты стоимости или функциональности - тогда и только тогда рассматривай локальное развёртывание. И делай это на арендованном железе сначала. Прямо сейчас твой ROI от изучения промпт-инжиниринга и построения архитектуры вокруг API в 10-100 раз выше, чем от сборки ПК.
Железо - это инструмент, а не цель. Не попади в ловушку технофетишизма, как я. Считай деньги, считай время, считай нервы. Удачи.