Зачем платить Anthropic, если у тебя RTX 5090?
Счет за облачные API Claude растет как на дрожжах. $20 здесь, $50 там — через месяц получается сумма, на которую можно купить половину видеокарты. А если у тебя уже стоит RTX 5090 с ее 32GB VRAM (или любая другая карта с 16GB+), ты буквально сжигаешь деньги, отправляя запросы в облако.
Цифры не врут: локальный запуск ClawdBot на RTX 5090 снижает стоимость запроса с $0.03-0.15 до $0.0001-0.001. Разница в 30-150 раз. За месяц активного использования экономия достигает $200-500.
Но локальный запуск — это не просто "скачал и запустил". Здесь есть подводные камни: выбор модели, настройка контекста, интеграция с существующим ClawdBot, управление памятью. Я прошел через все это, наступил на все грабли, и сейчас покажу, как настроить систему, которая не будет падать при каждом втором запросе.
Два пути: локальный монстр или молниеносный Groq
У тебя есть два основных варианта:
- Локальный запуск на GPU — полная независимость, нулевая стоимость после настройки, но требует железа и настройки
- Groq API — невероятная скорость (до 800 токенов/сек), низкая стоимость ($0.00027 за 1K токенов для Mixtral 8x7B), но все же облако
| Подход | Стоимость/запрос | Скорость | Лучше всего для |
|---|---|---|---|
| Локально (RTX 5090) | ~$0.0003 | 20-50 токенов/сек | Конфиденциальные данные, постоянное использование |
| Groq API | ~$0.001 | 500-800 токенов/сек | Высокая нагрузка, когда скорость критична |
| Anthropic API | ~$0.03-0.15 | 30-100 токенов/сек | Когда лень настраивать что-то свое |
Лично я использую гибрид: локальная модель для повседневных задач и Groq, когда нужно обработать тонну текста за секунды. Такой подход дает и экономию, и скорость там, где она нужна.
Шаг 1: Выбираем модель — что работает в 2026 году
Не все модели одинаково полезны для ClawdBot. Нужно что-то с хорошим tool calling (инструменты вызова), приличным контекстом и адекватной производительностью на доступном железе.
Для RTX 5090 с 32GB VRAM идеально подходит Qwen2.5-Coder-32B в 4-битной квантованности. Она умещается в память с запасом и отлично справляется с программированием. Если VRAM меньше (16-24GB), бери GLM-4.7-Flash — она легче и быстрее.
Кстати, если хочешь подробнее про выбор моделей, у меня есть отдельный разбор лучших локальных LLM для современных GPU с тестами производительности.
1 Готовим окружение: не накосячить с зависимостями
Первая ошибка новичков — пытаться установить все подряд. ClawdBot на Python, модели через Ollama или llama.cpp, зависимости конфликтуют, система превращается в свалку. Делаем чисто:
# Создаем изолированное окружение
python -m venv clawdbot_env
source clawdbot_env/bin/activate # На Windows: clawdbot_env\Scripts\activate
# Ставим только нужное
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 # Для CUDA 12.4
pip install transformers accelerate bitsandbytes
pip install langchain langchain-community
pip install "clawdbot>=2.1.0" # Последняя версия на февраль 2026
Внимание: не ставь torch через обычный pip без указания версии CUDA. Если у тебя RTX 5090 с драйверами 560.xx+, нужен CUDA 12.4 или новее. Старый torch с CUDA 11.8 просто не увидит карту.
2 Качаем и настраиваем модель
Не качай модели через интерфейс — весит много, может оборваться. Используем CLI и выбираем правильную квантованность:
# Устанавливаем huggingface-cli если нет
pip install huggingface-hub
# Качаем Qwen2.5-Coder-32B в 4-битном формате GGUF
huggingface-cli download Qwen/Qwen2.5-Coder-32B-GGUF qwen2.5-coder-32b-q4_k_m.gguf --local-dir ./models --local-dir-use-symlinks False
# Или GLM-4.7-Flash для карт с меньшей памятью
huggingface-cli download THUDM/glm-4-7b-flash-gguf glm-4-7b-flash-q4_k_m.gguf --local-dir ./models --local-dir-use-symlinks False
Q4_K_M — оптимальный баланс качества и размера. Разница с полной точностью (FP16) почти незаметна для большинства задач, но модель занимает в 4 раза меньше памяти.
3 Запускаем локальный сервер с OpenAI-совместимым API
ClawdBot по умолчанию работает с OpenAI API. Значит, нам нужно поднять локальный сервер, который имитирует этот API. Используем llama.cpp или vLLM — второй быстрее, но требует больше памяти.
# Устанавливаем llama.cpp с поддержкой CUDA
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean && LLAMA_CUDA=1 make -j$(nproc)
# Запускаем сервер
./server -m ../models/qwen2.5-coder-32b-q4_k_m.gguf \
-c 32768 \ # Контекст 32K
--host 0.0.0.0 \
--port 8080 \
-ngl 99 # Все слои на GPU
Флаг -ngl 99 критически важен для производительности. Он загружает все слои модели в VRAM. Если памяти не хватает, уменьшай число (например, -ngl 40 для загрузки 40 слоев на GPU, остальные в RAM).
4 Настраиваем ClawdBot на локальный эндпоинт
Теперь говорим ClawdBot использовать наш локальный сервер вместо OpenAI:
# config_local.py
import os
# Переключаем ClawdBot на локальный сервер
os.environ["OPENAI_API_BASE"] = "http://localhost:8080/v1"
os.environ["OPENAI_API_KEY"] = "sk-no-key-required" # Любой ключ, сервер его игнорирует
os.environ["MODEL_NAME"] = "qwen2.5-coder-32b" # Должно совпадать с именем в сервере
# Опционально: настройки для оптимизации памяти
os.environ["MAX_TOKENS"] = "8192"
os.environ["TEMPERATURE"] = "0.7"
Запускаем ClawdBot с этой конфигурацией:
python -c "import config_local" && python -m clawdbot
Если все настроено правильно, ClawdBot будет работать с локальной моделью. Первый запрос займет 10-30 секунд (модель загружается в память), последующие — 2-5 секунд.
Альтернатива: Groq API — скорость света за копейки
Если локальный запуск кажется сложным, или нужна бешеная скорость, Groq — твой выбор. Их LPU (Language Processing Unit) выдает до 800 токенов в секунду. Это быстрее, чем ты читаешь этот текст.
5 Настраиваем ClawdBot для Groq
С Groq все проще — не нужно поднимать сервер, только получить API ключ и поменять настройки:
# Регистрируемся на groq.com, получаем API ключ
# Ключ выглядит как gsk_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# config_groq.py
import os
os.environ["OPENAI_API_BASE"] = "https://api.groq.com/openai/v1"
os.environ["OPENAI_API_KEY"] = "gsk_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # Твой ключ Groq
os.environ["MODEL_NAME"] = "mixtral-8x7b-32768" # Или "llama3-70b-8192", "gemma2-9b-it"
# Groq поддерживает огромный контекст
os.environ["MAX_CONTEXT_LENGTH"] = "32768"
Важно: Groq API не полностью совместим с OpenAI. Некоторые продвинутые функции ClawdBot могут не работать. Проверь документацию Groq на актуальные ограничения (на февраль 2026 streaming работает, tool calling — частично).
Оптимизация: как выжать максимум из RTX 5090
RTX 5090 — монстр, но даже ему нужна правильная настройка. Вот что реально работает:
- Включаем CUDA graphs — ускоряет инференс на 15-30%. В llama.cpp: флаг --graph
- Настраиваем batch size — для интерактивного использования batch=1, для обработки очереди batch=4-8
- Используем flash attention — если модель поддерживает (GLM-4.7-Flash поддерживает)
- Охлаждение
Для серьезной нагрузки смотри мой гайд про оптимизацию AI-станций на Threadripper. Там про объединение нескольких GPU, настройку охлаждения и питания.
Частые проблемы и их решения
| Проблема | Причина | Решение |
|---|---|---|
| "Out of memory" при запуске | Модель не помещается в VRAM | Используй более агрессивную квантованность (Q3_K_S вместо Q4_K_M) или уменьши -ngl |
| Медленные ответы | Слои модели в RAM вместо VRAM | Увеличь -ngl, проверь что CUDA работает |
| ClawdBot не видит локальный сервер | Проблемы с сетью или портами | Проверь firewall: sudo ufw allow 8080, убедись что сервер на 0.0.0.0 а не 127.0.0.1 |
| Плохое качество ответов | Слишком агрессивная квантованность | Попробуй Q5_K_M или Q6_K, если хватает памяти |
Стоит ли игра свеч? Считаем экономию
Давай посчитаем на реальных цифрах. Допустим, ты используешь ClawdBot для:
- Код-ревью: 50 запросов в день × 2000 токенов = 100K токенов/день
- Генерация документации: 20 запросов × 3000 токенов = 60K токенов/день
- Ответы на вопросы команды: 30 запросов × 1000 токенов = 30K токенов/день
Итого: 190K токенов в день × 22 рабочих дня = 4.18M токенов в месяц.
Стоимость:
- Anthropic Claude 3.5 Sonnet: 4.18M × $0.003/1K = $12.54/месяц
- Groq Mixtral 8x7B: 4.18M × $0.00027/1K = $1.13/месяц
- Локально на RTX 5090: ~$0.20/месяц (только электричество)
Разница в 60 раз между локальным запуском и Claude. За год экономия $150-200. За два года — уже хватит на апгрейд железа.
Что дальше? Автоматизация и масштабирование
Когда базовый запуск работает, можно улучшать систему:
- Добавляем несколько моделей — легкую для простых запросов, тяжелую для сложных. ClawdBot умеет роутить запросы.
- Настраиваем кэширование — одинаковые запросы не должны обрабатываться повторно.
- Мониторинг — следим за использованием VRAM, температурой, скоростью ответов.
- Резервный канал — если локальная модель падает, автоматически переключаемся на Groq.
Для командной работы смотри мой гайд про замену Claude Code для команд разработчиков. Там про настройку общего сервера, квоты, приоритезацию запросов.
Самый неочевидный совет? Не пытайся достичь "идеального" качества как у Claude 3.5. Локальные модели 2026 года на 80-90% так же хороши для практических задач. Оставшиеся 10-20% разницы не стоят $200 в месяц. Особенно когда эти $200 можно потратить на что-то полезное. Например, на кофе. Или на еще одну RTX 5090.