Claude Code утомил лимитами? Пора строить своего агента
Вы знаете этот момент: только начал диалог с coding-агентом, а он уже упирается в лимит контекста или запросов. Claude Code, GitHub Copilot - они хороши, но они не ваши. Агент, который работает локально, не шпионит, не ограничивает и не требует подписки - это другая лига. И да, в 2026 году это уже не фантастика, а необходимость.
Бюджет в $5000 - это магическая граница. Выше - уже профессиональные станции, ниже - компромиссы. За эти деньги можно собрать машину, которая потянет самые продвинутые модели для кодогенерации, с контекстом в сотни тысяч токенов. Но какой путь выбрать?
Три кандидата: NVIDIA DGX Spark (специализированный AI-аппарат), Apple Mac Studio (универсальная рабочая станция) и кастомная сборка на PC (максимум гибкости). Каждый - со своей философией и подводными камнями.
Важно: цены и доступность компонентов указаны на начало 2026 года. Рынок AI-железа меняется стремительно, поэтому проверяйте актуальность перед покупкой.
Память против скорости: что важнее для coding-агента?
Прежде чем смотреть на конкретные модели, поймите главное: coding-агент - это не просто генерация кода. Это анализ больших кодовых баз, работа с длинным контекстом, возможно, мультимодальность (картинки, диаграммы). Поэтому два ключевых параметра: объем памяти и скорость инференса.
Объем памяти определяет, какую модель и в каком количестве вы сможете запустить. Скорость инференса - как быстро агент будет думать. И здесь начинаются компромиссы.
В нашей предыдущей статье мы детально разбирали разницу между архитектурами памяти в DGX Spark и Mac Studio. Коротко: в Spark память разделена на быструю VRAM и медленную RAM, в Mac Studio - единая быстрая память. Для coding-агента, который часто работает с большими контекстами, это критично.
Три пути к локальному агенту: подробное сравнение
| Параметр | DGX Spark | Mac Studio (M3 Ultra) | Кастомная сборка |
|---|---|---|---|
| Бюджет (примерно) | $3500-$4000 | $4000-$5000 (за 128 GB) | $3000-$5000 |
| Память (эффективная для LLM) | 48 GB VRAM + 16 GB RAM | 128 GB или 192 GB единой памяти | Зависит от конфигурации, но можно 48-96 GB VRAM |
| Скорость генерации (токенов/с для 70B Q4) | ~30-40 токенов/с | ~20-30 токенов/с | ~40-60 токенов/с (с 2x RTX 4090) |
| Поддержка моделей | Все модели под CUDA | Модели под MLX и некоторые под llama.cpp | Все модели под CUDA, плюс гибкость |
| Шум и энергопотребление | Шумно, потребляет ~500W | Практически бесшумно, ~200W | Зависит от сборки, может быть шумно |
| Апгрейд | Ограничен | Нулевой | Полный |
Теперь разберем каждый вариант подробно.
1 DGX Spark: специализированный AI-аппарат
NVIDIA позиционирует DGX Spark как entry-level решение для AI. По сути, это готовый системный блок с RTX 6000 Ada (48 GB VRAM) и процессором Intel Core i7. Плюсы: максимальная оптимизация под CUDA, отличная поддержка от NVIDIA, компактность. Минусы: шумная система охлаждения, невозможность апгрейда GPU, раздельная память.
Для coding-агента Spark хорош, если вы работаете в основном с моделями, которые помещаются в 48 GB VRAM. Например, 70B-модель в 4-битной квантованности (Q4_K_M) занимает около 40 GB. Останется немного места для контекста. Но если контекст огромный, и часть модели уйдет в RAM - производительность упадет.
Из последних моделей 2026 года, которые отлично работают на Spark: GLM-4.5-Coder-128B (в 3-битной квантованности), DeepSeek-Coder-V3-67B, CodeLlama-2-90B. Все они помещаются в VRAM с квантованием.
Предупреждение: не верьте маркетингу, что в Spark 64 GB памяти. Для LLM эффективны только 48 GB VRAM. 16 GB RAM - это медленная подстраховка, которая спасет от падения, но убьет скорость.
Если вы выбираете Spark, обязательно прочтите наш опыт использования DGX Spark, чтобы избежать типичных ошибок.
2 Mac Studio (M3 Ultra): тихий универсал
Apple с чипом M3 Ultra создала монстра для ML. 128 GB или 192 GB единой памяти - это мечта для работы с большими моделями и контекстами. Вы загружаете 70B модель в Q4, и она просто работает. Никаких танцев с кешированием слоев между VRAM и RAM.
Но есть нюанс: скорость генерации. Архитектура Apple Silicon оптимизирована для энергоэффективности, но не для raw performance в инференсе. Поэтому токенов в секунду вы получите меньше, чем на Spark или кастомной сборке с топовыми GPU.
Плюсы: тишина, энергоэффективность, единая память, отличная экосистема (MLX). Минусы: закрытость, невозможность апгрейда, ограниченная поддержка моделей (не все модели портированы под MLX).
Для coding-агента Mac Studio идеален, если вы цените тишину и работаете с длинными контекстами. Модели: CodeGemma-2-27B (отлично работает на MLX), GLM-4-Coder-9B (через llama.cpp), Mistral-Coder-45B.
Если рассматриваете Mac Studio, посмотрите также сравнение с другими платформами.
3 Кастомная сборка: максимум за свои деньги
Собрать PC самостоятельно - это риск, но и потенциально лучшая производительность за те же деньги. За $5000 можно собрать систему с двумя RTX 4090 (или одной RTX 6000 Ada) и 128 GB RAM. Но помните: в кастомной сборке память все равно разделена. GPU имеют свою VRAM, и если модель не помещается, придется использовать CPU/RAM, что медленно.
Плюсы: полный контроль, возможность апгрейда, максимальная производительность в рамках бюджета. Минусы: сложность сборки и настройки, шум, энергопотребление.
Ключевой момент: для coding-агента с длинным контекстом важно, чтобы модель целиком помещалась в VRAM. Поэтому лучше одна RTX 6000 Ada с 48 GB VRAM, чем две RTX 4090 по 24 GB каждая (в сумме 48 GB, но с ограничениями).
Рекомендуемая конфигурация за $5000 (цены примерные на 2026 год):
- GPU: NVIDIA RTX 6000 Ada (48 GB) - ~$3000
- CPU: AMD Ryzen 9 7950X - ~$500
- Материнская плата: ASUS ProArt X670E - ~$400
- Память: 64 GB DDR5 (2x32 GB) - ~$200
- SSD: 2 TB NVMe - ~$150
- Блок питания: 1000W - ~$200
- Корпус и охлаждение - ~$200
Итого: около $4650. Останется на периферию.
Для такой сборки модели те же, что и для Spark. Но вы можете экспериментировать с несколькими GPU, если выберете две RTX 4090. Однако, для coding-агента, который часто работает последовательно, несколько GPU могут не дать преимущества, если модель не распараллеливается идеально.
Какую модель выбрать для coding-агента в 2026?
Железо - это полдела. Вторая половина - модель. На начало 2026 года лидеры в кодогенерации:
- GLM-4.5-Coder-128B - новая версия от Zhipu AI, поддерживает 128K контекст, отлично справляется с многократными итерациями.
- DeepSeek-Coder-V3-67B - улучшенная версия DeepSeek, с фокусом на понимание кода и рефакторинг.
- CodeLlama-3-90B - если Meta выпустит обновление к 2026 году (пока предположение).
- Mistral-Coder-45B - хороший баланс между размером и качеством.
Все эти модели требуют от 20 до 48 GB VRAM в квантованном виде. Поэтому выбор железа определяет, какую модель вы сможете запустить.
Пошаговая настройка coding-агента
Независимо от выбранного железа, общие шаги:
1 Установите базовое ПО
Для DGX Spark и кастомной сборки на Windows/Linux: Ollama или LM Studio. Для Mac Studio: MLX или llama.cpp.
Ollama - самый простой способ. Установка на Linux:
curl -fsSL https://ollama.ai/install.sh | sh
Затем скачайте модель, например, CodeLlama:
ollama run codellama:70b
Но для coding-агента вам нужен не просто чат, а интеграция с IDE. Поэтому следующий шаг.
2 Интеграция с IDE
Популярные варианты:
- Continue.dev - плагин для VS Code, который подключается к локальному Ollama.
- Cursor - IDE со встроенной поддержкой локальных моделей (но платная).
- Windsurf - открытая альтернатива Cursor.
Установите плагин, укажите адрес локального сервера Ollama (обычно http://localhost:11434) и выберите модель.
3 Настройка контекста и промптов
Здесь начинается магия. Coding-агент должен понимать ваш проект. Поэтому важно загрузить в контекст структуру проекта, README, ключевые файлы.
В Continue.dev это делается через конфигурационный файл. Создайте `~/.continue/config.json`:
{
"models": [
{
"title": "Local CodeLlama",
"provider": "ollama",
"model": "codellama:70b"
}
],
"contextProviders": [
{
"name": "code",
"params": {}
}
]
}
Теперь агент будет видеть открытые файлы и использовать их как контекст.
Ошибки, которые все совершают
- Экономия на памяти. 32 GB RAM - это мало. 64 GB - минимум. Для coding-агента с большим контекстом лучше 128 GB.
- Игнорирование охлаждения. GPU при полной нагрузке греются. Плохое охлаждение ведет к троттлингу и падению производительности.
- Слепая вера в бенчмарки. Токенов в секунду - не единственный показатель. Время до первого токена (TTFT) критично для интерактивной работы.
- Использование неподходящих моделей. Не все модели хороши для кода. Тестируйте на своих задачах.
FAQ: частые вопросы
Вопрос: Что лучше для coding-агента - одна большая модель или несколько маленьких?
Ответ: Одна большая модель (70B+) обычно дает лучшее качество кода. Несколько маленьких можно использовать для разных задач, но управлять ими сложнее.
Вопрос: Можно ли использовать cloud-модели вместе с локальными?
Ответ: Да, например, через кластеризацию LLM. Простые запросы - локально, сложные - в облако. Это экономит деньги и время.
Вопрос: Стоит ли ждать новых GPU в 2026 году?
Ответ: Всегда стоит ждать. Но если нужен агент сейчас - покупайте. NVIDIA Blackwell уже вышла, но цены высоки. RTX 6000 Ada - хороший компромисс.
Итог: что выбирать?
Если вы хотите готовое решение и работаете в экосистеме NVIDIA - DGX Spark. Если цените тишину и работаете с длинными контекстами - Mac Studio. Если готовы к возне за максимальную производительность - кастомная сборка.
Лично я, после тестов всех трех вариантов, склоняюсь к кастомной сборке с RTX 6000 Ada. Это дает баланс памяти и скорости, плюс возможность апгрейда. Но это требует времени и нервов.
Самый неочевидный совет: не зацикливайтесь на железе. Лучше среднее железо с хорошо настроенным агентом, чем топовое железо с кривой настройкой. Начните с того, что есть, и улучшайте по мере необходимости.
И помните: локальный coding-агент - это не замена облачным сервисам, а дополнение. Он дает приватность, контроль и неограниченное использование. А это, в 2026 году, дорогого стоит.