Какая видеокарта нужна для запуска локальных LLM?

Для экспериментов достаточно RTX 4060 (8 ГБ) или даже интегрированной графики. Для работы - RTX 4070 Ti Super (16 ГБ). Для серьезных задач - RTX 4090 (24 ГБ). Важна не только память, но и пропускная способность памяти.

Какую модель выбрать для начала?

Начните с Llama 3.2 3B или Qwen2.5 7B. Они работают на большинстве компьютеров и дают хорошее качество. Не начинайте с больших 70B моделей - они требуют мощного железа.

Что такое квантование и зачем оно нужно?

Квантование - сжатие весов модели с 16-битной точности до 4, 3 или даже 2 бит. Уменьшает размер модели в 4-8 раз с потерей качества всего 1-3%. Позволяет запускать большие модели на ограниченной VRAM.

Сколько стоит эксплуатация локальной LLM?

На примере RTX 4070 Ti Super: карта $800, потребление 285 Вт, работа 8 часов в день обходится в $0.34 ежедневно или $10.20 ежемесячно. Сравните с $48 в месяц за активное использование GPT-4 через API.

Какие главные ошибки совершают новички?

1) Скачивают слишком большие модели для своего железа 2) Игнорируют квантование 3) Используют дефолтные настройки генерации 4) Ждут GPT-4 уровня от маленьких моделей 5) Не мониторят использование памяти и загрузку в GPU.

Локальные LLM для начинающих 2025: выбор железа, моделей и ПО

Почему все хотят локальные LLM (и почему это не так просто)

Вы читаете это в феврале 2025 года. ChatGPT уже платный, Claude ограничивает бесплатный доступ, а API ключи стоят как хороший обед в ресторане. Кажется логичным: скачал модель, запустил на своем компьютере — и вот он, персональный ИИ, который не шпионит, не ограничивает и работает даже без интернета.

Звучит идеально. Пока вы не сталкиваетесь с реальностью.

RTX 4090 гудит как пылесос, но выдает 2 токена в секунду. 70-миллиардная модель занимает 140 ГБ места и отказывается запускаться. Ошибки CUDA, нехватка памяти, непонятные форматы моделей. Типичный путь новичка заканчивается разочарованием и мыслью «наверное, это не для меня».

А должен заканчиваться работающим локальным ассистентом.

Главный миф 2025 года: «Для локальных LLM нужен суперкомпьютер». Неправда. Современные 7B-модели работают на ноутбуках за $800. Вопрос не в мощности, а в правильных решениях.

Железо: что реально нужно в 2025 году

Забудьте про «чем больше видеопамяти, тем лучше». Это устаревший подход. Современный инференс — это баланс между VRAM, скоростью памяти и поддержкой технологий.

Сценарий использования	Рекомендуемое железо	Что получите	Стоимость (примерно)
Эксперименты, обучение	RTX 4060 (8 ГБ) или даже интегрированная графика	Модели до 7B параметров, 5-10 токенов/с	$300-500 за карту
Рабочая станция	RTX 4070 Ti Super (16 ГБ) или RTX 4080 (16 ГБ)	Модели 13B-20B, 15-25 токенов/с, можно несколько моделей одновременно	$800-1200
Серьезная работа	RTX 4090 (24 ГБ) или две RTX 3090 (24 ГБ каждая)	Модели до 70B с квантованием, 30+ токенов/с, длинные контексты	$1600-2500
Энтузиаст/разработчик	RTX 6000 Ada (48 ГБ) или серверные карты	Полноразмерные 70B модели, обучение, fine-tuning	$4000+

Ключевой параметр в 2025 — не объем памяти, а пропускная способность памяти. Она определяет, насколько быстро модель сможет «думать». RTX 4090 с 1008 ГБ/с против RTX 4070 с 504 ГБ/с — разница в скорости инференса будет почти двукратной при одинаковом объеме VRAM.

💡

Если у вас старый компьютер без NVIDIA-карты — не отчаивайтесь. Llama.cpp отлично работает на CPU, а новые процессоры AMD и Intel с большим количеством ядер могут запускать 7B-модели на приемлемой скорости (3-7 токенов в секунду). Медленно, но бесплатно.

Софт: три пути, один из которых ваш

Инференс-стек — это как операционная система для LLM. Выбрали неправильно — получите головную боль. Выбрали правильно — все «просто работает».

1Ollama: для тех, кто хочет быстро и без боли

Скачал, установил, запустил. Ollama — это Docker для LLM. Одна команда — и у вас работает модель.

ollama run llama3.2:3b
# или
ollama run mistral:7b

Преимущества: автоматическое скачивание моделей, управление версиями, REST API из коробки, поддержка GPU и CPU. Недостатки: меньше контроля над настройками, ограниченный выбор моделей (хотя основные все есть).

Если вы разработчик, который хочет интегрировать LLM в свое приложение, Ollama — ваш выбор. В нашем сравнении Ollama с другими решениями мы разобрали все плюсы и минусы подробнее.

2LM Studio: графический интерфейс для всех

Не хотите командную строку? LM Studio — это как Stable Diffusion WebUI, но для текстовых моделей. Ищете модели в каталоге, скачиваете, настраиваете ползунками, общаетесь в чате.

Идеально для исследователей, писателей, контент-мейкеров. Вы можете быстро переключаться между моделями, тестировать промпты, экспортировать модели в разные форматы.

Главный плюс: не нужно быть технарем. Главный минус: меньше гибкости для автоматизации.

3llama.cpp + текстовый интерфейс: для максимального контроля

Хардкорный путь. Скачиваете модель в GGUF-формате, компилируете llama.cpp с поддержкой CUDA, запускаете через командную строку.

./main -m mixtral-8x7b-v0.1.Q4_K_M.gguf \
  -n 512 \
  --temp 0.7 \
  --repeat_penalty 1.1 \
  -ngl 99 \
  -p "Твой промпт здесь"

Это дает полный контроль над каждым параметром: сколько слоев загружать в VRAM, температура, penalty за повторения. Но требует времени на изучение.

В нашем подробном сравнении LM Studio и llama.cpp мы разобрали, когда какой инструмент выбирать.

Модели 2025: что скачать прямо сейчас

Вот список моделей, которые реально работают на потребительском железе в 2025 году. Не теоретически, а на практике.

Модель	Размер	Минимальная VRAM	Для чего подходит	Где скачать
Llama 3.2 3B	3B	4 ГБ	Быстрые ответы, простые задачи, мобильные устройства	Ollama, Hugging Face
Qwen2.5 7B	7B	6 ГБ (Q4)	Универсальная модель, хороший баланс качества и скорости	Hugging Face
Mistral Small 2 12B	12B	8 ГБ (Q4)	Творческие задачи, анализ текста, кодирование	Ollama, Mistral AI
DeepSeek Coder 33B	33B	20 ГБ (Q4)	Программирование, лучшая модель для кода в своем классе	Hugging Face
Llama 3.1 70B	70B	32 ГБ (Q4)	Сложный анализ, исследования, почти GPT-4 уровень	Ollama, Meta

Важное обновление 2025 года: формат GGUF (llama.cpp) стал де-факто стандартом для локального запуска. Он поддерживает квантование, эффективную загрузку на GPU и CPU, и имеет лучшую экосистему инструментов. Если видите модель в форматах .safetensors или .bin — конвертируйте в GGUF через llama.cpp.

Особое внимание обратите на модели с поддержкой Tool Calling — они превращают пассивную LLM в активного агента, способного работать с внешними инструментами. В отдельном гайде по Tool Calling моделям мы разбираем, какие из них действительно работают локально.

Главные ошибки новичков (и как их избежать)

Я видел десятки одинаковых ошибок. Вот топ-5, которые совершают 90% начинающих.

Ошибка 1: Скачивать самые большие модели

«Возьму-ка я Llama 3.1 405B на свою RTX 4070». Звучит смешно, но люди реально так делают. Потом удивляются, почему ничего не работает.

Правильно: Начните с маленькой модели. Llama 3.2 3B или Qwen2.5 7B. Убедитесь, что ваш стек работает. Потом переходите к большим моделям.

Ошибка 2: Игнорировать квантование

Загружают модель в полной точности (FP16), которая занимает в 2-4 раза больше памяти. Для 70B модели это 140 ГБ против 35 ГБ в Q4.

Потеря качества от Q4_K_M квантования — 1-3% в большинстве тестов. Выигрыш в памяти — 400%. Выбор очевиден.

Ошибка 3: Не настраивать параметры генерации

Запускают модель с дефолтными настройками, получают скучные, повторяющиеся ответы. Temperature = 0.1 (слишком детерминировано), top_p = 1.0 (слишком случайно).

Базовые настройки для творческих задач: temperature=0.7, top_p=0.9, top_k=40, repeat_penalty=1.1. Для точных ответов: temperature=0.3, top_p=0.95.

Ошибка 4: Ждать от локальных моделей GPT-4 уровня

Локальная 7B модель никогда не будет так же умна, как GPT-4. У нее в 100+ раз меньше параметров. Но она может быть достаточно хороша для конкретных задач: анализ документов, ответы на основе контекста, простой код.

Ставьте реалистичные ожидания. Локальные LLM — не замена облачным гигантам, а альтернатива с другими компромиссами.

Ошибка 5: Не мониторить использование памяти

Запускают модель, она «работает», но на самом деле 95% слоев загружены в системную RAM, а не в VRAM. Скорость — 1 токен в секунду.

Всегда смотрите, сколько слоев загружено в GPU. В llama.cpp это флаг -ngl (number of GPU layers). Для 7B модели на 8 ГБ VRAM ставьте -ngl 40-45 (из 50).

Больше ошибок и их решений мы разобрали в отдельном подробном гайде.

Практический план: с нуля до работающей модели за 30 минут

1Шаг 1: Установка Ollama (самый простой путь)

Заходите на ollama.com, скачиваете установщик для своей ОС. Запускаете. Все.

# Проверяем установку
ollama --version
# Скачиваем и запускаем модель 3B для теста
ollama run llama3.2:3b

Если все работает — переходите к шагу 2. Если нет — проверьте, что у вас установлены драйверы NVIDIA (если есть GPU).

2Шаг 2: Выбор модели под ваши задачи

Ответьте на три вопроса:

Сколько у вас VRAM? (Проверьте в диспетчере задач или nvidia-smi)
Что вы хотите делать? (Кодирование, творчество, анализ данных)
Какая скорость вас устроит? (5 токенов/с достаточно для чтения, 20+ для диалога)

Исходя из этого — выбирайте модель из таблицы выше.

3Шаг 3: Настройка параметров

Не используйте дефолтные настройки. Вот базовый конфиг для Ollama:

# Файл Modelfile для Ollama
FROM qwen2.5:7b

# Параметры системы
SYSTEM "Ты — полезный ассистент"

# Параметры генерации
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1

# Контекстное окно (сколько помнит модель)
PARAMETER num_ctx 8192

4Шаг 4: Тестирование и оптимизация

Запустите модель. Задайте ей вопросы. Измерьте скорость (токены в секунду).

Если скорость низкая:

Уменьшите количество контекста (num_ctx)
Используйте более агрессивное квантование (Q3 вместо Q4)
Убедитесь, что модель загружена в GPU (в Ollama: OLLAMA_GPU_LAYERS=50)

Что дальше? От инференса к реальным проектам

Когда у вас работает базовая модель — можно двигаться дальше. Вот что стоит изучить:

RAG (Retrieval-Augmented Generation) — даете модели доступ к вашим документам, базам знаний. Она отвечает на основе ваших данных, а не общей тренировочной выборки.

Fine-tuning — дообучение модели на ваших данных. Нужно для специфических задач: анализ медицинских текстов, юридических документов, корпоративных знаний.

Мультимодальность — модели, которые понимают не только текст, но и изображения, аудио, видео. LLaVA, Qwen-VL, CogVLM.

API-сервер — запуск модели как веб-сервиса, чтобы подключаться к ней из других приложений. Ollama уже имеет встроенный сервер, llama.cpp тоже умеет.

Самая недооцененная возможность 2025 года: локальные LLM для бизнес-задач. Анализ внутренних документов, классификация обращений, генерация отчетов — все это работает без отправки данных в облако. И стоит в 10-100 раз дешевле, чем API-вызовы к OpenAI.

Реальная экономика: сколько это стоит на самом деле

Давайте посчитаем на примере RTX 4070 Ti Super (16 ГБ):

Стоимость карты: $800
Потребление под нагрузкой: 285 Вт
Стоимость электроэнергии: $0.15 за кВт·ч
Работа 8 часов в день: 285 Вт × 8 ч = 2.28 кВт·ч
Ежедневная стоимость: 2.28 × 0.15 = $0.34
Ежемесячная: $10.20

Для сравнения: GPT-4 Turbo через API стоит $0.01 за 1K токенов ввода и $0.03 за вывод. Один час активного диалога с моделью (примерно 10K токенов) — $0.40. За месяц активного использования (4 часа в день) — $48.

Окупаемость железа: 800 / (48 - 10.20) ≈ 21 месяц. Но это если сравнивать только с GPT-4. Если вы используете модель для внутренних задач компании, где важна конфиденциальность, окупаемость мгновенная.

Что будет через год?

В 2026 году нас ждут:

Модели 3B параметров уровня сегодняшних 7B — благодаря улучшенным архитектурам и методам обучения
Полная мультимодальность на потребительском железе — модели, которые одинаково хорошо понимают текст, изображения, видео
Специализированные модели для конкретных задач — вместо универсальных «мастеров на все руки»
Аппаратное ускорение в процессорах — NPU в каждом новом CPU, что ускорит инференс в 5-10 раз

Но самое важное — экосистема инструментов дозреет до уровня «установил и забыл». Как сегодня с Docker или Kubernetes. Выбираешь модель из каталога, нажимаешь «запустить», получаешь API-эндпоинт.

Локальные LLM перестанут быть хобби гиков и станут стандартным инструментом разработчика. Как Git в 2010-х или Docker в 2020-х.

Начните сегодня с маленькой модели. Поэкспериментируйте. Поймите, что работает для ваших задач. Через полгода вы будете смеяться над тем, как боялись начать.

Локальные LLM в 2025: с чего начать, если у вас есть компьютер и много вопросов