Coding-агент до $5000: сравнение DGX Spark, Mac Studio, кастомной сборки

Claude Code утомил лимитами? Пора строить своего агента

Вы знаете этот момент: только начал диалог с coding-агентом, а он уже упирается в лимит контекста или запросов. Claude Code, GitHub Copilot - они хороши, но они не ваши. Агент, который работает локально, не шпионит, не ограничивает и не требует подписки - это другая лига. И да, в 2026 году это уже не фантастика, а необходимость.

Бюджет в $5000 - это магическая граница. Выше - уже профессиональные станции, ниже - компромиссы. За эти деньги можно собрать машину, которая потянет самые продвинутые модели для кодогенерации, с контекстом в сотни тысяч токенов. Но какой путь выбрать?

Три кандидата: NVIDIA DGX Spark (специализированный AI-аппарат), Apple Mac Studio (универсальная рабочая станция) и кастомная сборка на PC (максимум гибкости). Каждый - со своей философией и подводными камнями.

Важно: цены и доступность компонентов указаны на начало 2026 года. Рынок AI-железа меняется стремительно, поэтому проверяйте актуальность перед покупкой.

Память против скорости: что важнее для coding-агента?

Прежде чем смотреть на конкретные модели, поймите главное: coding-агент - это не просто генерация кода. Это анализ больших кодовых баз, работа с длинным контекстом, возможно, мультимодальность (картинки, диаграммы). Поэтому два ключевых параметра: объем памяти и скорость инференса.

Объем памяти определяет, какую модель и в каком количестве вы сможете запустить. Скорость инференса - как быстро агент будет думать. И здесь начинаются компромиссы.

В нашей предыдущей статье мы детально разбирали разницу между архитектурами памяти в DGX Spark и Mac Studio. Коротко: в Spark память разделена на быструю VRAM и медленную RAM, в Mac Studio - единая быстрая память. Для coding-агента, который часто работает с большими контекстами, это критично.

Три пути к локальному агенту: подробное сравнение

Параметр	DGX Spark	Mac Studio (M3 Ultra)	Кастомная сборка
Бюджет (примерно)	$3500-$4000	$4000-$5000 (за 128 GB)	$3000-$5000
Память (эффективная для LLM)	48 GB VRAM + 16 GB RAM	128 GB или 192 GB единой памяти	Зависит от конфигурации, но можно 48-96 GB VRAM
Скорость генерации (токенов/с для 70B Q4)	~30-40 токенов/с	~20-30 токенов/с	~40-60 токенов/с (с 2x RTX 4090)
Поддержка моделей	Все модели под CUDA	Модели под MLX и некоторые под llama.cpp	Все модели под CUDA, плюс гибкость
Шум и энергопотребление	Шумно, потребляет ~500W	Практически бесшумно, ~200W	Зависит от сборки, может быть шумно
Апгрейд	Ограничен	Нулевой	Полный

Теперь разберем каждый вариант подробно.

1 DGX Spark: специализированный AI-аппарат

NVIDIA позиционирует DGX Spark как entry-level решение для AI. По сути, это готовый системный блок с RTX 6000 Ada (48 GB VRAM) и процессором Intel Core i7. Плюсы: максимальная оптимизация под CUDA, отличная поддержка от NVIDIA, компактность. Минусы: шумная система охлаждения, невозможность апгрейда GPU, раздельная память.

Для coding-агента Spark хорош, если вы работаете в основном с моделями, которые помещаются в 48 GB VRAM. Например, 70B-модель в 4-битной квантованности (Q4_K_M) занимает около 40 GB. Останется немного места для контекста. Но если контекст огромный, и часть модели уйдет в RAM - производительность упадет.

Из последних моделей 2026 года, которые отлично работают на Spark: GLM-4.5-Coder-128B (в 3-битной квантованности), DeepSeek-Coder-V3-67B, CodeLlama-2-90B. Все они помещаются в VRAM с квантованием.

Предупреждение: не верьте маркетингу, что в Spark 64 GB памяти. Для LLM эффективны только 48 GB VRAM. 16 GB RAM - это медленная подстраховка, которая спасет от падения, но убьет скорость.

Если вы выбираете Spark, обязательно прочтите наш опыт использования DGX Spark, чтобы избежать типичных ошибок.

2 Mac Studio (M3 Ultra): тихий универсал

Apple с чипом M3 Ultra создала монстра для ML. 128 GB или 192 GB единой памяти - это мечта для работы с большими моделями и контекстами. Вы загружаете 70B модель в Q4, и она просто работает. Никаких танцев с кешированием слоев между VRAM и RAM.

Но есть нюанс: скорость генерации. Архитектура Apple Silicon оптимизирована для энергоэффективности, но не для raw performance в инференсе. Поэтому токенов в секунду вы получите меньше, чем на Spark или кастомной сборке с топовыми GPU.

Плюсы: тишина, энергоэффективность, единая память, отличная экосистема (MLX). Минусы: закрытость, невозможность апгрейда, ограниченная поддержка моделей (не все модели портированы под MLX).

Для coding-агента Mac Studio идеален, если вы цените тишину и работаете с длинными контекстами. Модели: CodeGemma-2-27B (отлично работает на MLX), GLM-4-Coder-9B (через llama.cpp), Mistral-Coder-45B.

Если рассматриваете Mac Studio, посмотрите также сравнение с другими платформами.

3 Кастомная сборка: максимум за свои деньги

Собрать PC самостоятельно - это риск, но и потенциально лучшая производительность за те же деньги. За $5000 можно собрать систему с двумя RTX 4090 (или одной RTX 6000 Ada) и 128 GB RAM. Но помните: в кастомной сборке память все равно разделена. GPU имеют свою VRAM, и если модель не помещается, придется использовать CPU/RAM, что медленно.

Плюсы: полный контроль, возможность апгрейда, максимальная производительность в рамках бюджета. Минусы: сложность сборки и настройки, шум, энергопотребление.

Ключевой момент: для coding-агента с длинным контекстом важно, чтобы модель целиком помещалась в VRAM. Поэтому лучше одна RTX 6000 Ada с 48 GB VRAM, чем две RTX 4090 по 24 GB каждая (в сумме 48 GB, но с ограничениями).

Рекомендуемая конфигурация за $5000 (цены примерные на 2026 год):

GPU: NVIDIA RTX 6000 Ada (48 GB) - ~$3000
CPU: AMD Ryzen 9 7950X - ~$500
Материнская плата: ASUS ProArt X670E - ~$400
Память: 64 GB DDR5 (2x32 GB) - ~$200
SSD: 2 TB NVMe - ~$150
Блок питания: 1000W - ~$200
Корпус и охлаждение - ~$200

Итого: около $4650. Останется на периферию.

Для такой сборки модели те же, что и для Spark. Но вы можете экспериментировать с несколькими GPU, если выберете две RTX 4090. Однако, для coding-агента, который часто работает последовательно, несколько GPU могут не дать преимущества, если модель не распараллеливается идеально.

💡

Совет: не гонитесь за несколькими GPU. Для coding-агента важна не только скорость генерации, но и время отклика (TTFT). Одна мощная GPU с большим объемом VRAM часто лучше, чем несколько слабых.

Какую модель выбрать для coding-агента в 2026?

Железо - это полдела. Вторая половина - модель. На начало 2026 года лидеры в кодогенерации:

GLM-4.5-Coder-128B - новая версия от Zhipu AI, поддерживает 128K контекст, отлично справляется с многократными итерациями.
DeepSeek-Coder-V3-67B - улучшенная версия DeepSeek, с фокусом на понимание кода и рефакторинг.
CodeLlama-3-90B - если Meta выпустит обновление к 2026 году (пока предположение).
Mistral-Coder-45B - хороший баланс между размером и качеством.

Все эти модели требуют от 20 до 48 GB VRAM в квантованном виде. Поэтому выбор железа определяет, какую модель вы сможете запустить.

Пошаговая настройка coding-агента

Независимо от выбранного железа, общие шаги:

1 Установите базовое ПО

Для DGX Spark и кастомной сборки на Windows/Linux: Ollama или LM Studio. Для Mac Studio: MLX или llama.cpp.

Ollama - самый простой способ. Установка на Linux:

curl -fsSL https://ollama.ai/install.sh | sh

Затем скачайте модель, например, CodeLlama:

ollama run codellama:70b

Но для coding-агента вам нужен не просто чат, а интеграция с IDE. Поэтому следующий шаг.

2 Интеграция с IDE

3 Настройка контекста и промптов

Здесь начинается магия. Coding-агент должен понимать ваш проект. Поэтому важно загрузить в контекст структуру проекта, README, ключевые файлы.

В Continue.dev это делается через конфигурационный файл. Создайте `~/.continue/config.json`:

{
  "models": [
    {
      "title": "Local CodeLlama",
      "provider": "ollama",
      "model": "codellama:70b"
    }
  ],
  "contextProviders": [
    {
      "name": "code",
      "params": {}
    }
  ]
}

Теперь агент будет видеть открытые файлы и использовать их как контекст.

Ошибки, которые все совершают

Экономия на памяти. 32 GB RAM - это мало. 64 GB - минимум. Для coding-агента с большим контекстом лучше 128 GB.
Игнорирование охлаждения. GPU при полной нагрузке греются. Плохое охлаждение ведет к троттлингу и падению производительности.
Слепая вера в бенчмарки. Токенов в секунду - не единственный показатель. Время до первого токена (TTFT) критично для интерактивной работы.
Использование неподходящих моделей. Не все модели хороши для кода. Тестируйте на своих задачах.

FAQ: частые вопросы

Вопрос: Что лучше для coding-агента - одна большая модель или несколько маленьких?
Ответ: Одна большая модель (70B+) обычно дает лучшее качество кода. Несколько маленьких можно использовать для разных задач, но управлять ими сложнее.

Вопрос: Можно ли использовать cloud-модели вместе с локальными?
Ответ: Да, например, через кластеризацию LLM. Простые запросы - локально, сложные - в облако. Это экономит деньги и время.

Вопрос: Стоит ли ждать новых GPU в 2026 году?
Ответ: Всегда стоит ждать. Но если нужен агент сейчас - покупайте. NVIDIA Blackwell уже вышла, но цены высоки. RTX 6000 Ada - хороший компромисс.

Итог: что выбирать?

Если вы хотите готовое решение и работаете в экосистеме NVIDIA - DGX Spark. Если цените тишину и работаете с длинными контекстами - Mac Studio. Если готовы к возне за максимальную производительность - кастомная сборка.

Лично я, после тестов всех трех вариантов, склоняюсь к кастомной сборке с RTX 6000 Ada. Это дает баланс памяти и скорости, плюс возможность апгрейда. Но это требует времени и нервов.

Самый неочевидный совет: не зацикливайтесь на железе. Лучше среднее железо с хорошо настроенным агентом, чем топовое железо с кривой настройкой. Начните с того, что есть, и улучшайте по мере необходимости.

И помните: локальный coding-агент - это не замена облачным сервисам, а дополнение. Он дает приватность, контроль и неограниченное использование. А это, в 2026 году, дорогого стоит.

Сборка рабочей станции для локального coding-агента до $5000: DGX Spark vs Mac Studio vs кастомная сборка