Ты когда-нибудь смотрел на счёт за Claude API и чувствовал, как деньги просто испаряются?
Я тоже. В какой-то момент понял, что отдаю $200 в месяц за то, что можно получить бесплатно на своём железе. Единственная проблема — нужно собрать этот пазл из кусков: совместимая модель, правильная обвязка и железо, которое не лопнет. Спойлер: AMD Strix Halo с Qwen3.6 оказались тем самым решением. И да, это июнь 2026 — Qwen3.6 уже стабилен, а llama.cpp обновил поддержку Vulkan до такой степени, что даже встроенная графика Strix Halo выдает 25+ токенов в секунду на 7B модели. Попробуйте повторить это с облачным API, когда у вас кончится бесплатный лимит.
Зачем вам это читать? Если вы устали от счетов Anthropic, хотите держать код под контролем или просто любите копаться в железе — этот гайд для вас. Я покажу, как скрестить Claude Code с Qwen3.6 на AMD Strix Halo, и сэкономить те самые $200. А заодно — как не наступить на грабли, на которые я наступил.
Почему Strix Halo, а не просто видеокарта?
AMD Strix Halo — это не очередной мобильный процессор. Это зверь с 40 вычислительными блоками RDNA 3.5 и единой памятью до 64 ГБ (если не ошибаюсь, на топ-конфигурации). Для LLM это подарок судьбы: вам не нужно таскать данные через медленную шину PCIe, как с дискретной картой. Вся модель помещается в общей памяти, а iGPU имеет прямой доступ к ней. На практике это даёт прирост скорости на 15-20% по сравнению с аналогичной дискретной RX 7600 XT. Подтверждение — недавние тесты после обновления прошивки AMD, где Vulkan в llama.cpp показал +30% пропускной способности. И это на Qwen 3.5 35B — представьте, что будет на Qwen3.6 7B, который ещё легче.
Короче: Strix Halo — идеальная платформа для локального Claude Code. Не надо покупать RTX 4090 за две сотни тысяч. Достаточно ноутбука или мини-ПК с этим камнем.
Выбор модели: почему Qwen3.6, а не DeepSeek или Llama?
На рынке локальных LLM сейчас три кита: Llama 4 (ещё сыровата), DeepSeek-Coder-V3 (хороша, но гигантская) и Qwen3.6. Последняя — результат эволюции Qwen2.5-Coder. Команда Alibaba выкатила версию 3.6 в мае 2026 года, и она моментально стала стандартом для локального кодинга. Почему?
- Лучшее соотношение размер/качество. Qwen3.6-Coder-7B в квантизации Q4_K_M весит ~4.5 ГБ. При этом по бенчмаркам на HumanEval+ она обходит DeepSeek-Coder-7B и Llama-4-7B.
- GGUF-совместимость. Почти все репозитории на Hugging Face уже содержат готовые GGUF от TheBloke и других. Качаете и запускаете — никаких конвертаций.
- Кодерский фокус. Модель дообучена на миллионах репозиториев GitHub, включая Python, JavaScript, Rust, Go. Она не просто отвечает на вопросы — она генерирует рабочий код.
Я выбрал Qwen3.6-Coder-7B-Q4_K_M.gguf. Можете взять Q5_K_M, если у вас 64 ГБ ОЗУ — качество чуть выше, но разница в скорости минимальна. А если хотите поэкспериментировать, почитайте наш тест Qwen 3.6 против топовых моделей — там наглядно видно, на что она способна.
Сборка llama.cpp: без танцев с бубном, но с флагами
llama.cpp — это швейцарский нож для LLM. Он умеет всё: от простого инференса до полноценного OpenAI-совместимого сервера. Нам нужен именно серверный режим, чтобы Claude Code мог к нему подключиться. Собирать будем из исходников, потому что готовые бинарники для Strix Halo могут не учесть особенности Vulkan.
1 Клонирование и подготовка
git clone https://github.com/ggml-ai/llama.cpp
cd llama.cpp
git checkout master # на 10.06.2026 это последний коммит
2 Сборка с Vulkan back-end
Для Strix Halo используем Vulkan — он работает и на Linux, и на Windows, и даёт почти такую же производительность, как ROCm (а на некоторых прошивках даже выше).
mkdir build && cd build
cmake .. -DGGML_VULKAN=ON -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)
Предупреждение: если у вас старая прошивка Strix Halo (до марта 2026), Vulkan может работать в два раза медленнее. Обязательно обновите прошивку через AMD Adrenalin или Linux firmware. Подробнее об этом — в нашем обзоре прироста скорости.
Если вы на Linux и хотите использовать ROCm (для кастомных сборок драйверов), замените флаг на -DGGML_HIP=ON. Но в 90% случаев Vulkan достаточно.
Запуск сервера: первый контакт с Qwen3.6
После сборки и скачивания модели запускаем сервер:
./llama-server --host 0.0.0.0 --port 8080 \
-m /path/to/qwen3.6-coder-7b-q4_k_m.gguf \
-ngl 99 --ctx-size 8192 --cont-batching \
--rope-scaling yarn --rope-freq-scale 1.0
-ngl 99— выгружаем все слои на GPU (iGPU Strix Halo).--ctx-size 8192— контекст 8K токенов. Для Claude Code этого хватает под проект среднего размера. Если нужно больше — ставьте 16384, но скорость упадёт.--cont-batching— непрерывный батчинг. Позволяет обрабатывать несколько запросов параллельно, что важно при работе с Claude Code, который может слать несколько промптов разом.--rope-scaling yarn— для расширения контекста без потери качества. Qwen3.6 поддерживает YaRN.
Проверяем, что сервер отвечает:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen3.6","messages":[{"role":"user","content":"Hello"}]}'
Если видите JSON с ответом — всё ок. Если ошибка, проверьте лог сервера: часто проблема в нехватке памяти или неправильном пути к модели.
Стыковка с Claude Code: превращаем локальную модель в AI-ассистента
Теперь самое интересное — соединить Claude Code с нашим сервером. Подробно этот процесс описан в статье "Подключаем локальные LLM к Claude Code: DeepSeek и Qwen вместо платных API", но я пробегусь по ключевым шагам.
Сначала установите Claude Code CLI (если ещё не):
npm install -g @anthropic-ai/claude-code
Затем инициализируйте его в проекте и укажите свой endpoint:
cd your-project
claude init --provider openai --api-base http://localhost:8080/v1
model (можно задать через параметр --alias при запуске).После инициализации запустите Claude Code:
claude
Если всё настроено правильно, вы увидите приглашение ассистента. Попросите его что-нибудь сделать, например, "напиши скрипт для бэкапа базы данных". Если модель отвечает медленно — читайте следующий раздел.
Грабли, которые я собрал за вас
За две недели экспериментов я наступил на всё, что можно. Вот фатальные ошибки:
1. Старая прошивка Vulkan
Сначала я запускал на прошивке от января 2026. Скорость была 12 токенов/с. После обновления до последней (май 2026) — 28 токенов/с. Разница — в 2.3 раза. Не повторяйте мою ошибку. Обновляйте BIOS и драйверы AMD перед тем, как собирать llama.cpp.
2. Слишком большой контекст
Поставил --ctx-size 32768 для красоты. Сервер запустился, но первые 10 секунд модель "разогревалась" — скорость упала до 3 токенов/с. Оказалось, что для 7B модели такой контекст требует пересчёта attention, что убивает производительность. Решение: держите 8K-16K, не больше. Если проект большой, используйте --cache-type f16 для экономии памяти.
3. Неправильный формат сообщений
Claude Code иногда шлёт системные промпты с ролями assistant в истории. Старые версии llama.cpp сервера не умели обрабатывать несколько сообщений подряд с ролью assistant. Решение: обновитесь до последнего коммита (на июнь 2026 этот баг исправлен) или используйте флаг --chat-template с шаблоном для Qwen.
Эту ошибку легче предупредить: сразу укажите шаблон чата при запуске сервера: --chat-template chatml (Qwen использует ChatML). Или скачайте готовый шаблон из репозитория llama.cpp.
Сравнение с облачным API: цифры и ощущения
| Параметр | Облачный Claude API (Sonnet 5) | Локальный Qwen3.6 на Strix Halo |
|---|---|---|
| Стоимость за месяц | $200+ | $0 (только электричество) |
| Скорость (токены/с) | ~50-100 (зависит от нагрузки) | 25-30 (стабильно) |
| Контекст | 200K токенов | 8-16K (зависит от ОЗУ) |
| Приватность | Код уходит на сервера Anthropic | Код остаётся на вашем устройстве |
| Качество кода | Высокое (Claude Sonnet 5) | Очень высокое (Qwen3.6 почти не уступает) |
Как видите, облачный API быстрее, но локальное решение безопаснее и бесплатно. Если вам нужно обрабатывать гигантские проекты с контекстом в 100K токенов — облако пока вне конкуренции. Но для 90% задач локального кодинга Qwen3.6 на Strix Halo справляется отлично.
А что там с командной работой?
Мы недавно писали о замене Claude Code для команды разработчиков. Локальная связка на Strix Halo — хороший вариант для small team, если вы готовы терминалом. Но если нужно, чтобы каждый разработчик имел свой инстанс, то экономия становится ещё заметнее: вместо $200 на человека вы платите за один мощный мини-ПК, который раздаёт API по сети.
Для этого запускайте сервер в режиме прослушивания всех интерфейсов (--host 0.0.0.0) и настройте firewall. Только не забудьте про аутентификацию — добавьте --api-key your_secret, чтобы к вам не подключились чужие.
Возможные проблемы и их решения
| Проблема | Причина | Решение |
|---|---|---|
| Сервер падает с out of memory | Не хватает ОЗУ для контекста | Уменьшите --ctx-size до 4096 или используйте более легкую квантизацию (Q3_K_M) |
| Медленно, менее 15 токенов/с | Vulkan не использует iGPU или старая прошивка | Проверьте флаг -ngl 99; обновите прошивку; попробуйте --no-mmap |
| Claude Code не видит модель | Не совпадает endpoint или модель в запросе | Укажите при запуске сервера --alias qwen3.6; убедитесь, что API base без /v1 на конце в claude init |
| Ошибка "context length exceeded" | Запрос превышает --ctx-size | Увеличьте --ctx-size; включите --rope-scaling |
Что дальше? Прогноз на 2027 год
Учитывая темпы развития Qwen и постоянные улучшения llama.cpp, уже через год мы, вероятно, увидим локальные кодер-модели, которые будут почти неотличимы от Claude Sonnet 5. Strix Halo с его унифицированной памятью — отличная платформа для этого тренда. Я бы поставил на то, что к середине 2027 года локальные LLM станут стандартом для разработчиков, ценящих приватность и не желающих кормить корпорации.
А пока — берите Qwen3.6, собирайте llama.cpp и наслаждайтесь Claude Code безлимитно. Если наткнётесь на новую ошибку — пишите в комментариях, я дополню гайд. И не забывайте проверять обновления прошивки — это проще, чем кажется. Удачи!