Публикация AiManual

Как я выкинул облачный API и посадил Claude Code на Strix Halo: Qwen3.6 под капотом

Пошаговая инструкция по настройке локального AI-ассистента Claude Code на базе Qwen3.6 GGUF под управлением AMD Strix Halo. Экономим деньги и сохраняем приватно

10 мин чтения 10.06.2026

Коротко

Что будет в материале

01
Ты когда-нибудь смотрел на счёт за Claude API и чувствовал, как деньги просто испаряются?
02
Почему Strix Halo, а не просто видеокарта?
03
Выбор модели: почему Qwen3.6, а не DeepSeek или Llama?
04
Сборка llama.cpp: без танцев с бубном, но с флагами

Ты когда-нибудь смотрел на счёт за Claude API и чувствовал, как деньги просто испаряются?

Я тоже. В какой-то момент понял, что отдаю $200 в месяц за то, что можно получить бесплатно на своём железе. Единственная проблема — нужно собрать этот пазл из кусков: совместимая модель, правильная обвязка и железо, которое не лопнет. Спойлер: AMD Strix Halo с Qwen3.6 оказались тем самым решением. И да, это июнь 2026 — Qwen3.6 уже стабилен, а llama.cpp обновил поддержку Vulkan до такой степени, что даже встроенная графика Strix Halo выдает 25+ токенов в секунду на 7B модели. Попробуйте повторить это с облачным API, когда у вас кончится бесплатный лимит.

Зачем вам это читать? Если вы устали от счетов Anthropic, хотите держать код под контролем или просто любите копаться в железе — этот гайд для вас. Я покажу, как скрестить Claude Code с Qwen3.6 на AMD Strix Halo, и сэкономить те самые $200. А заодно — как не наступить на грабли, на которые я наступил.

Почему Strix Halo, а не просто видеокарта?

AMD Strix Halo — это не очередной мобильный процессор. Это зверь с 40 вычислительными блоками RDNA 3.5 и единой памятью до 64 ГБ (если не ошибаюсь, на топ-конфигурации). Для LLM это подарок судьбы: вам не нужно таскать данные через медленную шину PCIe, как с дискретной картой. Вся модель помещается в общей памяти, а iGPU имеет прямой доступ к ней. На практике это даёт прирост скорости на 15-20% по сравнению с аналогичной дискретной RX 7600 XT. Подтверждение — недавние тесты после обновления прошивки AMD, где Vulkan в llama.cpp показал +30% пропускной способности. И это на Qwen 3.5 35B — представьте, что будет на Qwen3.6 7B, который ещё легче.

Короче: Strix Halo — идеальная платформа для локального Claude Code. Не надо покупать RTX 4090 за две сотни тысяч. Достаточно ноутбука или мини-ПК с этим камнем.

Выбор модели: почему Qwen3.6, а не DeepSeek или Llama?

На рынке локальных LLM сейчас три кита: Llama 4 (ещё сыровата), DeepSeek-Coder-V3 (хороша, но гигантская) и Qwen3.6. Последняя — результат эволюции Qwen2.5-Coder. Команда Alibaba выкатила версию 3.6 в мае 2026 года, и она моментально стала стандартом для локального кодинга. Почему?

Лучшее соотношение размер/качество. Qwen3.6-Coder-7B в квантизации Q4_K_M весит ~4.5 ГБ. При этом по бенчмаркам на HumanEval+ она обходит DeepSeek-Coder-7B и Llama-4-7B.
GGUF-совместимость. Почти все репозитории на Hugging Face уже содержат готовые GGUF от TheBloke и других. Качаете и запускаете — никаких конвертаций.
Кодерский фокус. Модель дообучена на миллионах репозиториев GitHub, включая Python, JavaScript, Rust, Go. Она не просто отвечает на вопросы — она генерирует рабочий код.

Я выбрал Qwen3.6-Coder-7B-Q4_K_M.gguf. Можете взять Q5_K_M, если у вас 64 ГБ ОЗУ — качество чуть выше, но разница в скорости минимальна. А если хотите поэкспериментировать, почитайте наш тест Qwen 3.6 против топовых моделей — там наглядно видно, на что она способна.

Сборка llama.cpp: без танцев с бубном, но с флагами

llama.cpp — это швейцарский нож для LLM. Он умеет всё: от простого инференса до полноценного OpenAI-совместимого сервера. Нам нужен именно серверный режим, чтобы Claude Code мог к нему подключиться. Собирать будем из исходников, потому что готовые бинарники для Strix Halo могут не учесть особенности Vulkan.

1 Клонирование и подготовка

git clone https://github.com/ggml-ai/llama.cpp
cd llama.cpp
git checkout master  # на 10.06.2026 это последний коммит

2 Сборка с Vulkan back-end

Для Strix Halo используем Vulkan — он работает и на Linux, и на Windows, и даёт почти такую же производительность, как ROCm (а на некоторых прошивках даже выше).

mkdir build && cd build
cmake .. -DGGML_VULKAN=ON -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

Предупреждение: если у вас старая прошивка Strix Halo (до марта 2026), Vulkan может работать в два раза медленнее. Обязательно обновите прошивку через AMD Adrenalin или Linux firmware. Подробнее об этом — в нашем обзоре прироста скорости.

Если вы на Linux и хотите использовать ROCm (для кастомных сборок драйверов), замените флаг на -DGGML_HIP=ON. Но в 90% случаев Vulkan достаточно.

Запуск сервера: первый контакт с Qwen3.6

После сборки и скачивания модели запускаем сервер:

./llama-server --host 0.0.0.0 --port 8080 \
  -m /path/to/qwen3.6-coder-7b-q4_k_m.gguf \
  -ngl 99 --ctx-size 8192 --cont-batching \
  --rope-scaling yarn --rope-freq-scale 1.0

-ngl 99 — выгружаем все слои на GPU (iGPU Strix Halo).
--ctx-size 8192 — контекст 8K токенов. Для Claude Code этого хватает под проект среднего размера. Если нужно больше — ставьте 16384, но скорость упадёт.
--cont-batching — непрерывный батчинг. Позволяет обрабатывать несколько запросов параллельно, что важно при работе с Claude Code, который может слать несколько промптов разом.
--rope-scaling yarn — для расширения контекста без потери качества. Qwen3.6 поддерживает YaRN.

Проверяем, что сервер отвечает:

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3.6","messages":[{"role":"user","content":"Hello"}]}'

Если видите JSON с ответом — всё ок. Если ошибка, проверьте лог сервера: часто проблема в нехватке памяти или неправильном пути к модели.

Стыковка с Claude Code: превращаем локальную модель в AI-ассистента

Теперь самое интересное — соединить Claude Code с нашим сервером. Подробно этот процесс описан в статье "Подключаем локальные LLM к Claude Code: DeepSeek и Qwen вместо платных API", но я пробегусь по ключевым шагам.

Сначала установите Claude Code CLI (если ещё не):

npm install -g @anthropic-ai/claude-code

Затем инициализируйте его в проекте и укажите свой endpoint:

cd your-project
claude init --provider openai --api-base http://localhost:8080/v1

💡

Важный момент: Claude Code ожидает совместимость с API OpenAI. llama.cpp сервер по умолчанию предоставляет такой endpoint. Убедитесь, что в ответе сервера есть поле model (можно задать через параметр --alias при запуске).

После инициализации запустите Claude Code:

claude

Если всё настроено правильно, вы увидите приглашение ассистента. Попросите его что-нибудь сделать, например, "напиши скрипт для бэкапа базы данных". Если модель отвечает медленно — читайте следующий раздел.

Грабли, которые я собрал за вас

За две недели экспериментов я наступил на всё, что можно. Вот фатальные ошибки:

1. Старая прошивка Vulkan

Сначала я запускал на прошивке от января 2026. Скорость была 12 токенов/с. После обновления до последней (май 2026) — 28 токенов/с. Разница — в 2.3 раза. Не повторяйте мою ошибку. Обновляйте BIOS и драйверы AMD перед тем, как собирать llama.cpp.

2. Слишком большой контекст

Поставил --ctx-size 32768 для красоты. Сервер запустился, но первые 10 секунд модель "разогревалась" — скорость упала до 3 токенов/с. Оказалось, что для 7B модели такой контекст требует пересчёта attention, что убивает производительность. Решение: держите 8K-16K, не больше. Если проект большой, используйте --cache-type f16 для экономии памяти.

3. Неправильный формат сообщений

Claude Code иногда шлёт системные промпты с ролями assistant в истории. Старые версии llama.cpp сервера не умели обрабатывать несколько сообщений подряд с ролью assistant. Решение: обновитесь до последнего коммита (на июнь 2026 этот баг исправлен) или используйте флаг --chat-template с шаблоном для Qwen.

Эту ошибку легче предупредить: сразу укажите шаблон чата при запуске сервера: --chat-template chatml (Qwen использует ChatML). Или скачайте готовый шаблон из репозитория llama.cpp.

Сравнение с облачным API: цифры и ощущения

Параметр	Облачный Claude API (Sonnet 5)	Локальный Qwen3.6 на Strix Halo
Стоимость за месяц	$200+	$0 (только электричество)
Скорость (токены/с)	~50-100 (зависит от нагрузки)	25-30 (стабильно)
Контекст	200K токенов	8-16K (зависит от ОЗУ)
Приватность	Код уходит на сервера Anthropic	Код остаётся на вашем устройстве
Качество кода	Высокое (Claude Sonnet 5)	Очень высокое (Qwen3.6 почти не уступает)

Как видите, облачный API быстрее, но локальное решение безопаснее и бесплатно. Если вам нужно обрабатывать гигантские проекты с контекстом в 100K токенов — облако пока вне конкуренции. Но для 90% задач локального кодинга Qwen3.6 на Strix Halo справляется отлично.

А что там с командной работой?

Мы недавно писали о замене Claude Code для команды разработчиков. Локальная связка на Strix Halo — хороший вариант для small team, если вы готовы терминалом. Но если нужно, чтобы каждый разработчик имел свой инстанс, то экономия становится ещё заметнее: вместо $200 на человека вы платите за один мощный мини-ПК, который раздаёт API по сети.

Для этого запускайте сервер в режиме прослушивания всех интерфейсов (--host 0.0.0.0) и настройте firewall. Только не забудьте про аутентификацию — добавьте --api-key your_secret, чтобы к вам не подключились чужие.

Возможные проблемы и их решения

Проблема	Причина	Решение
Сервер падает с out of memory	Не хватает ОЗУ для контекста	Уменьшите --ctx-size до 4096 или используйте более легкую квантизацию (Q3_K_M)
Медленно, менее 15 токенов/с	Vulkan не использует iGPU или старая прошивка	Проверьте флаг -ngl 99; обновите прошивку; попробуйте --no-mmap
Claude Code не видит модель	Не совпадает endpoint или модель в запросе	Укажите при запуске сервера --alias qwen3.6; убедитесь, что API base без /v1 на конце в claude init
Ошибка "context length exceeded"	Запрос превышает --ctx-size	Увеличьте --ctx-size; включите --rope-scaling

Что дальше? Прогноз на 2027 год

Учитывая темпы развития Qwen и постоянные улучшения llama.cpp, уже через год мы, вероятно, увидим локальные кодер-модели, которые будут почти неотличимы от Claude Sonnet 5. Strix Halo с его унифицированной памятью — отличная платформа для этого тренда. Я бы поставил на то, что к середине 2027 года локальные LLM станут стандартом для разработчиков, ценящих приватность и не желающих кормить корпорации.

А пока — берите Qwen3.6, собирайте llama.cpp и наслаждайтесь Claude Code безлимитно. Если наткнётесь на новую ошибку — пишите в комментариях, я дополню гайд. И не забывайте проверять обновления прошивки — это проще, чем кажется. Удачи!

Подписаться на канал