Мой дорогой косяк: как я потратил $4000 на бумажный тигр

В начале 2025 года я, поддавшись хайпу, решил собрать локальную LLM-машину. Цель - запускать модели типа Llama 3.2 90B, Qwen2.5 72B и новейшие Mixtral 8x22B без оглядки на счёт за API. Я хотел свободы, приватности и мнимой экономии. Получил кучу проблем, шумный обогреватель и финансовую дыру. Давайте разберём мой неудачный билд по косточкам и посчитаем, во сколько реально обходится такая "свобода".

Сразу оговорюсь: есть сценарии, где локальное железо выигрывает. Но они узкие и специфичные. В 90% случаев для разработчика или небольшой компании облачные API или аренда GPU - разумнее. В этой статье мы как раз разбираем эти исключения.

Список компонентов: что я купил и почему это было глупо

Вот спецификация моего "монстра", собранного в феврале 2025:

Компонент	Модель	Стоимость (USD, 2025)	Ошибка выбора
Процессор	AMD Ryzen 9 7950X	$580	Избыточная мощность для LLM-инференса. Хватило бы и дешевле.
Материнская плата	ASUS ProArt X670E-CREATOR WIFI	$450	Дорогая плата с функциями, которые никогда не использовал.
Оперативная память	Corsair Dominator Platinum RGB 128GB DDR5-6000	$620	RGB для LLM? Серьёзно? Переплата за бренд и подсветку.
Видеокарта #1	NVIDIA RTX 4090 24GB	$1,800	Единственный адекватный выбор, но одной мало для больших моделей.
Видеокарта #2	NVIDIA RTX 3090 24GB (б/у)	$850	Попытка сэкономить привела к проблемам с совместимостью и нагревом.
Блок питания	Seasonic PRIME TX-1600	$400	1600W для двух карт - overkill. Шумный вентилятор.
Охлаждение и корпус	Custom loop + массивный корпус	$500	Кастомная СВО для LLM-сервера - инженерное безумие.
Итого		~$5,200	И это без учёта потраченного времени на сборку и настройку.

Первая и главная ошибка - я строил игровой ПК, а не LLM-сервер. RGB-подсветка, кастомная СВО, дорогая материнка - всё это бесполезно для задачи инференса моделей. Новички часто повторяют эту ошибку, гонясь за геймерскими трендами. Бюджетная ферма на серверных компонентах часто оказывается эффективнее.

Проблемы, с которыми я столкнулся (и которые не показывают в обзорах)

Несовместимость VRAM: 4090 и 3090 в одной системе - боль. Разная архитектура (Ada Lovelace vs Ampere), разная эффективность tensor cores. В llama.cpp или vLLM это приводило к неоптимальному распределению слоёв и проседанию производительности на 15-20%.
Тепловой ад: Две топовые карты в одном корпусе выделяют под 800-900Вт тепла. Даже с кастомной СВО летом температура в комнате поднималась на 5-7 градусов. Кондиционер работал постоянно, что добавило к счетам за электричество.
Программные костыли: Заставить работать две разные карты вместе - это отдельный квест. Text Generation WebUI, Ollama, llama.cpp - каждый фреймворк требовал своих танцев с бубном. Сборка llama.cpp превратилась в многочасовой debugging.
48GB VRAM - всё ещё мало: Цель была запускать 70B+ модели в полном precision. Реальность: для Qwen2.5 72B в FP16 нужно ~144GB VRAM. Моих 48GB хватило только на 4-битные квантования (Q4_K_M), что заметно снижало качество ответов. Ожидание vs реальность.

💡

Ключевой урок: перед сборкой всегда считай, сколько VRAM нужно под твои целевые модели. Формула простая: размер модели в параметрах × битность / 8. Llama 3.2 90B в FP16 = 90 × 10^9 × 2 байта = ~180GB. Ни одна потребительская карта в 2025-2026 не даст столько. Нужны серверные решения или несколько карт, что резко усложняет сборку.

Считаем ROI: когда железо окупается, а когда нет

Давайте переведём эмоции в цифры. Возьмём мою систему за $5,200 и посчитаем, сколько запросов к API я мог бы купить на эти деньги.

Параметр	Локальная система (мой билд)	Облачный API (аналог GPT-4o, 2026 цены)
Капитальные затраты (CapEx)	$5,200 (железо)	$0
Операционные затраты в месяц (OpEx)	~$45 (электричество, 500W × 24ч × 30д × $0.12/кВтч)	Зависит от использования
Стоимость 1M токенов (вход+выход)	~$0.018 (только электричество)	~$2.50 - $5.00 (для моделей уровня GPT-4)
Точка окупаемости	Нужно обработать ~289M токенов, чтобы оправдать CapEx	-
Годовая стоимость при 10M токенов/мес	$5,200 + ($45 × 12) = $5,740	($3.75 × 10 × 12) = $450

Цифры не врут. При нагрузке 10 миллионов токенов в месяц (это примерно 5-7 тысяч длинных диалогов) облачный API в 12 раз дешевле в первый год. И в 127 раз дешевле, если считать только OpEx. Локальная сборка окупается только при экстремальных объёмах - от 50-100M токенов в месяц постоянно. А это уровень небольшой компании, а не индивидуального разработчика.

Не забывай про амортизацию. Железо устаревает. Через 2-3 года твоя RTX 4090 будет медленной и малоемкой по сравнению с новыми картами. Её остаточная стоимость упадёт в 2-3 раза. API всегда даёт доступ к самым свежим моделям (на 16.02.2026 это уже GPT-4.5, Claude 3.7 Sonnet и аналоги).

Когда локальное железо всё-таки имеет смысл?

После всей критики - справедливости ради. Есть сценарии, где свой сервер выигрывает:

Строгие требования к приватности данных. Медицина, юриспруденция, корпоративные секреты. Если данные не могут покидать периметр - вариантов нет. В корпоративных проектах это ключевой фактор.
Эксперименты с fine-tuning. Обучение адаптеров LoRA, дообучение моделей на своих данных. Здесь API либо слишком дорог (за обучение берут отдельно), либо вообще не предлагает такой возможности.
Предсказуемые высокие нагрузки 24/7. Если твой сервис стабильно генерирует 50M+ токенов в день - свои карты могут быть выгоднее. Но считай, считай и ещё раз считай.
Доступ к дешёвой электроэнергии. Если живёшь в регионе с ценой ниже $0.05 за кВтч (например, рядом с ГЭС) - экономика меняется.
Образовательные и исследовательские цели. Хочешь глубоко разобраться в архитектуре, поиграть с низкоуровневой оптимизацией? Локальная среда незаменима.

Если ты попадаешь в одну из этих категорий - тогда да, собирай. Но собирай с умом. Не повторяй моих ошибок.

Альтернатива: гибридный подход и аренда GPU

В 2026 году появились интересные компромиссы, о которых мало говорят:

Он-премис облака (on-prem cloud): Установка серверной стойки у себя в офисе, но с оплатой по подписке за железо. Поставщик обслуживает оборудование, ты платишь как за услугу. Капитальных затрат нет.
Кратковременная аренда GPU для тяжёлых задач: Запускаешь обучение модели на vast.ai или Lambda за $1-2 в час, а инференс делаешь на более слабом локальном железе или через API. Гибрид.
Локальные маленькие модели для предиктов, большие - в облаке: Используешь локально Quantized Llama 3.2 8B для простых задач, а для сложных запросов дергаешь GPT-4.5 через API. Оптимизация по стоимости и качеству.

Выбор стратегии развёртывания - это не бинарное "или-или". Это спектр. И твоя задача - найти свою точку на этом спектре, а не бросаться в крайности.

Практический план: как принять решение без эмоций

1 Оцени реальную нагрузку

Возьми исторические данные или сделай реалистичный прогноз. Сколько токенов в день/месяц будет обрабатывать система? Не "максимально возможно", а по факту. Используй инструменты мониторинга API-провайдеров, если уже пользуешься облаком.

2 Посчитай TCO за 3 года

Total Cost of Ownership - полная стоимость владения. Включи:
- Стоимость железа (CapEx)
- Электричество (500-1000W для мощной системы)
- Охлаждение (кондиционер летом)
- Амортизацию (обесценивание железа на 30% в год)
- Стоимость своего времени на настройку и поддержку ($50-100 в час)
- Сравни с стоимостью API или аренды GPU за тот же период.

3 Протестируй на арендованном железе

Прежде чем покупать карты, возьми их в аренду на неделю. Настрой там свой стек (Ollama, vLLM, llama.cpp), прогрей реальную нагрузку. Убедись, что производительность и стабильность тебя устраивают. Это стоит $100-200, но сэкономит тысячи.

4 Выбери правильные компоненты

Если после всех расчётов решение "железо" остаётся - собирай с умом. Не покупай геймерские компоненты. Ищи:
- Серверные материнские платы с поддержкой 4-8 GPU (Supermicro, ASRock Rack)
- Б/у профессиональные карты (NVIDIA A100 40GB, если бюджет позволяет, или RTX 3090/4090 без RGB)
- Эффективные блоки питания с сертификатом 80+ Platinum
- Простой корпус с хорошей airflow, без стекла и подсветки

Изучи бюджетные сборки на 3× RTX 3090 - там много практических советов по совместимости.

Что я сделал со своим "монстром" и итоговый совет

Через 8 месяцев мучений я разобрал систему. RTX 4090 продал за $1400 (потеря $400), RTX 3090 - за $600 (потеря $250). Остальные компоненты перекочевали в рабочий ПК для других задач. Общие потери - около $1500 + бесценное время.

Сейчас я использую гибридную схему:
- Для экспериментов и прототипирования - Ollama на MacBook с M3 Max (36GB unified memory). Хватает для 8B-13B моделей.
- Для продакшена - API Anthropic Claude 3.5 Sonnet и OpenAI GPT-4.5.
- Для fine-tuning - аренда A100 на RunPod на 2-3 дня раз в месяц.

Месячные затраты: $200-300 против $45 только за электричество + $5,200 капекса. И главное - ноль головной боли с драйверами, совместимостью и перегревом.

Мой главный совет на 2026 год: начни с API. Любого. OpenAI, Anthropic, Google, открытые модели через Together AI или Fireworks. Когда упрёшься в лимиты стоимости или функциональности - тогда и только тогда рассматривай локальное развёртывание. И делай это на арендованном железе сначала. Прямо сейчас твой ROI от изучения промпт-инжиниринга и построения архитектуры вокруг API в 10-100 раз выше, чем от сборки ПК.

Железо - это инструмент, а не цель. Не попади в ловушку технофетишизма, как я. Считай деньги, считай время, считай нервы. Удачи.

Почему сборка ПК для локальных LLM может быть ошибкой: разбор неудачного билда и расчёт ROI против API