Зачем это нужно? Твой домашний сервер против GPT-5 Turbo
Покупаешь RTX 3090 за 150 тысяч рублей. Собираешь стенд. Запускаешь Llama 3.1 70B. И понимаешь: она думает медленнее, чем ты сам. 5 токенов в секунду вместо 50. Контекст съедает всю память. А еще надо квантовать, настраивать, танцевать с бубном.
Облачные API просто работают. Нажимаешь кнопку — получаешь ответ. Но есть одно "но": твои данные летят куда-то в Калифорнию. Каждый запрос стоит денег. Каждый промпт записывается где-то в логах. И если интернет упал — ты в офлайне.
На 04.02.2026 самая актуальная проблема: локальные модели либо медленные, либо нестабильные. Но их можно заставить работать почти как облачные. Почти.
Что мешает твоей RTX 3090 летать
24 ГБ VRAM — это много для игр, но мало для современных LLM. Llama 3.2 70B в FP16 весит 140 ГБ. Даже в 4-битном квантовании — 35 ГБ. Не влезает.
Но это не главное. Главное — bandwidth. Пропускная способность памяти RTX 3090: 936 ГБ/с. У RTX 5090 — 1.5 ТБ/с. Разница почти в два раза. А у Intel Arc A770 — 560 ГБ/с. Это как сравнивать Ferrari и грузовик.
1 Выбираем модель: что реально работает в 2026
Забудь про 70B модели на одной карте. Они будут работать, но медленно. Очень медленно.
Лучшие кандидаты на RTX 3090:
- Qwen2.5-Coder-14B — отлично пишет код, контекст 32K, тул-коллинг
- Llama 3.2 13B — баланс качества и скорости
- DeepSeek-Coder-V2-Lite 16B — специализирован на код, работает быстрее аналогов
Для Intel Arc A770 (16 ГБ):
- Phi-4 14B — оптимизирована для Intel, работает через OpenVINO
- Mistral-Nemo 12B — компактная, но умная
- Qwen2.5-Math-7B — если нужна математика
Не пытайся запускать Llama 3.2 70B на одной RTX 3090. Даже с квантованием. Даже с оверклоком. Это путь к разочарованию. Лучше две карты с NVLink — об этом мы писали в гайде NVLink для двух RTX 3090.
2 Квантование: не просто сжать, а сохранить мозги
Квантование — это уменьшение точности весов. Вместо 32 бит (FP32) используем 4 бита (INT4). Модель становится меньше, быстрее, но... глупее.
Или не глупее, если сделать правильно.
На 04.02.2026 самые актуальные методы:
| Метод | Качество | Скорость | Когда использовать |
|---|---|---|---|
| AWQ (Activation-aware Weight Quantization) | Отличное | Быстрое | Для большинства задач |
| GPTQ | Хорошее | Очень быстрое | Когда скорость важнее качества |
| EXL2 (ExLlamaV2) | Лучшее | Зависит от битности | Для максимального качества |
Как квантовать на практике:
# Квантование с помощью AutoAWQ (самый простой способ)
pip install autoawq
python -m awq.llm.quantize \
--model mistralai/Mistral-7B-Instruct-v0.3 \
--output mistral-7b-instruct-awq \
--q_group_size 128 \
--w_bit 4
# Для EXL2 (лучшее качество)
git clone https://github.com/turboderp/exllamav2
cd exllamav2
python convert.py \
-i mistralai/Mistral-7B-Instruct-v0.3 \
-o mistral-7b-exl2 \
-b 4.85 # 4.85 бит на вес
Магическое число: 4.85 бит. Не 4, не 5, а 4.85. Это смешанная точность — важные веса в 6 бит, менее важные в 4. Работает лучше, чем равномерное квантование.
3 Движок инференса: llama.cpp, vLLM или Ollama?
Три подхода, три философии.
llama.cpp — написан на C++, работает везде. Даже на Raspberry Pi. Медленнее, чем CUDA-решения, но стабильнее. Поддерживает все квантования.
# Сборка с поддержкой CUDA для RTX 3090
make LLAMA_CUDA=1 -j
# Запуск модели
./main -m mistral-7b-q4_k_m.gguf \
-p "Напиши код на Python для парсинга JSON" \
-n 256 \
-c 4096 \
-t 8 # количество потоков CPU
vLLM — хайповый движок от Berkeley. Использует PagedAttention, ускоряет инференс в 2-4 раза. Но жрет память как не в себя. Для RTX 3090 подходит, для Intel Arc — проблемы.
from vllm import LLM, SamplingParams
llm = LLM(
model="mistralai/Mistral-7B-Instruct-v0.3",
quantization="awq", # или "gptq"
gpu_memory_utilization=0.9, # использовать 90% VRAM
max_model_len=16384 # максимальный контекст
)
outputs = llm.generate(["Промпт"], SamplingParams(temperature=0.7))
Ollama — для ленивых. Скачал, запустил, работает. Но кастомизация минимальна. Как готовый ужин в супермаркете — съедобно, но не шедевр.
4 Настройка системы: не только модель, но и ОС
Windows 11 мешает. Seriously. Фоновые процессы съедают 2-3 ГБ VRAM. Телеметрия, защитник, обновления.
Лучший вариант — Ubuntu 24.04 LTS. Но если нужен Windows:
# Отключаем телеметрию Windows (требует прав администратора)
Set-ItemProperty -Path "HKLM:\SOFTWARE\Policies\Microsoft\Windows\DataCollection" -Name "AllowTelemetry" -Value 0
# Приоритет для процесса Python
Start-Process python -ArgumentList "app.py" -PriorityClass RealTime
Для NVIDIA:
# Устанавливаем последние драйвера (на 04.02.2026 это 560.xx)
sudo ubuntu-drivers autoinstall
# Настройка persistence mode (карта не уходит в сон)
sudo nvidia-persistenced --persistence-mode
Для Intel Arc:
# Установка драйверов и инструментов
wget https://github.com/intel/intel-graphics-compiler/releases/download/...
# Это боль, но работает
# Лучше использовать готовый образ Ubuntu с предустановленными драйверами
Бенчмарки: что реально получается
Тестировал на своем стенде:
- RTX 3090, Ryzen 9 5950X, 64 ГБ RAM
- Intel Arc A770, Core i7-13700K, 32 ГБ RAM
| Модель / Конфигурация | Скорость (токен/с) | Память | Задержка первого токена |
|---|---|---|---|
| Qwen2.5-14B AWQ (RTX 3090, vLLM) | 42-48 | 12.3 ГБ | 180 мс |
| Llama 3.2 13B EXL2 (RTX 3090) | 38-45 | 10.8 ГБ | 210 мс |
| Phi-4 14B (Intel Arc, llama.cpp) | 18-22 | 9.5 ГБ | 450 мс |
| GPT-4o Mini API (для сравнения) | Нет данных | — | 120-300 мс |
Вывод: RTX 3090 может давать 40+ токенов в секунду. Это достаточно для чата, но не для потоковой обработки документов. Intel Arc в два раза медленнее, но дешевле.
Почему Intel Arc — не шутка, а альтернатива
За 35 тысяч рублей получаешь 16 ГБ памяти. У RTX 4060 Ti 16GB — 60 тысяч. Математика простая.
Проблемы Intel Arc:
- Драйвера. Всегда драйвера. На Windows более-менее, на Linux — квест.
- Поддержка не всех форматов квантования. EXL2? Забудь. AWQ? Может быть.
- Сообщество маленькое. Нашел баг — сам разбирайся.
Но если нужен бюджетный стенд для экспериментов — почему нет? Особенно если рассматриваешь варианты вроде Intel Arc Pro B60 для совсем скромных бюджетов.
Контекстное окно: как не сожрать всю память
32K контекст — это не 32 тысячи токенов. Это 32 тысячи * 2 байта на токен в FP16 = 64 МБ. Плюс кеш внимания. Плюс активации.
На практике 32K контекст съедает 4-6 ГБ дополнительной памяти. На RTX 3090 с 24 ГБ это допустимо. На Intel Arc с 16 ГБ — уже напряжно.
Решение — sliding window. Как в Mistral 7B: модель "видит" только последние 4K токенов, но помнит, что было раньше. Эффективный контекст 32K, реальное потребление памяти как для 8K.
# В vLLM настройка контекста
llm = LLM(
model="mistralai/Mistral-7B-Instruct-v0.3",
max_model_len=32768,
sliding_window=4096, # реально обрабатываем за раз
gpu_memory_utilization=0.85
)
Сравнение с облаком: когда локально, а когда нет
Локально:
- Конфиденциальные данные (медицина, юриспруденция, код)
- Постоянная нагрузка (ты генерируешь 1000 промптов в день)
- Нет интернета или он медленный
- Хочешь полный контроль над пайплайном
Облако:
- Нужна самая новая модель (GPT-5, Claude 3.7)
- Разовые задачи (раз в неделю)
- Нет денег на железо (аренда дешевле)
- Не хочешь ничего настраивать
Стоимость: RTX 3090 стоит 150к рублей. GPT-4o Mini стоит $0.15 за 1M токенов. Чтобы окупить карту, нужно сгенерировать 1 миллиард токенов. Это много. Но если считаешь время настройки, электричество, амортизацию — облако может быть дешевле.
Чего ждать в 2026-2027
Тренды:
- Меньше параметров, больше качества — модели типа Phi-4 14B конкурируют с Llama 3 70B
- Специализированные модели — не одна модель для всего, а отдельные для кода, математики, медицины
- Аппаратное ускорение — не только GPU, но и NPU в процессорах. Intel Lunar Lake уже имеет 100+ TOPS NPU
- Квантование без потерь — методы, которые сжимают в 4 раза без ухудшения качества
Мой прогноз: к концу 2026 локальная 34B модель будет работать на карте за 50 тысяч рублей со скоростью 100+ токенов в секунду. И будет умнее сегодняшней GPT-4.
А пока — настраивай, квантуй, тестируй. И не забывай про новые модели для RTX 5080, которые уже показывают, куда движется индустрия.
FAQ: частые вопросы и ошибки
| Проблема | Решение |
|---|---|
| Модель загружается, но не генерирует | Проверь квантование. Часто модель загружена, но веса повреждены |
| Скорость падает со временем | Утечка памяти в Python. Перезапускай процесс раз в 6 часов |
| Intel Arc не видит всю память | Драйвера. Всегда драйвера. Качай с official.intel.com |
| Контекст 32K тормозит | Используй sliding window или уменьши до 16K |
| vLLM жрет всю память | gpu_memory_utilization=0.8, не 0.95 |
Последний совет: не гонись за размером. 13B модель с хорошим квантованием лучше, чем 70B с плохим. Скорость важнее параметров. И помни — самое дорогое в локальных моделях не железо, а время, которое тратишь на настройку.