Какая видеопамять нужна для запуска локальной LLM?

Для моделей 7B с квантованием нужно минимум 8 ГБ VRAM, для 12B - 12+ ГБ. Можно запускать и на CPU, но скорость будет значительно ниже.

Почему вы рекомендуете Ollama вместо LM Studio?

Ollama имеет REST API, лучше работает с Docker, поддерживает кастомные промпты и проще интегрируется в RAG-системы.

Чем Qdrant лучше ChromaDB?

Qdrant быстрее, имеет более стабильный API и лучше масштабируется. Chroma в 2026 году имеет проблемы с миграцией и зависимостями.

Сохранятся ли чаты после перезагрузки компьютера?

Да, если правильно настроить персистентные тома Docker для Open WebUI. История будет храниться на вашем диске.

Можно ли использовать эту систему без интернета?

Да, полностью. Модели скачиваются один раз и работают локально. Все компоненты запускаются на вашем компьютере.

Запуск локальной LLM с RAG и памятью чатов: полный гайд для новичков 2026

Почему ваш первый локальный ИИ превращается в хаос

Вы скачали какую-то модель. Установили какой-то интерфейс. Потратили три часа на конфигурационные файлы. И получили... ничего. Или почти ничего - чат-бота, который забывает разговор через два сообщения и не может ответить на вопросы по вашим документам.

Знакомо? Я провел через этот ад десятки новичков. Проблема не в вашей некомпетентности. Проблема в том, что в 2026 году экосистема локальных LLM разрослась как сорняк. Каждый день появляются новые инструменты, а старые умирают. И никто не объясняет, как собрать из этого конструктора работающую систему.

Что мы строим (и зачем)

Не очередного тупого чат-бота. Мы собираем полноценную систему, которая:

Работает на вашем компьютере без интернета
Помнит историю разговоров (даже если вы перезапустили программу)
Умеет отвечать на вопросы по вашим документам - PDF, Word, статьи, заметки
Имеет нормальный веб-интерфейс, а не командную строку
Не требует платить OpenAI по $20 в месяц

Архитектура проста: модель → векторная база → интерфейс. Но дьявол, как всегда, в деталях.

Важно: Если у вас меньше 8 ГБ видеопамяти (VRAM), прочитайте сначала гайд по минимальным требованиям VRAM. Иначе будете смотреть на ошибку "Out of memory" вместо работающего ИИ.

1 Выбираем модель: что работает в 2026 году

Здесь большинство новичков совершают фатальную ошибку - пытаются запустить Llama 3.1 70B на ноутбуке с RTX 3060. Не делайте так. Модель сгенерирует один токен в секунду (если вообще запустится).

Модель (актуально на январь 2026)	Размер VRAM	Качество	Для кого
Qwen2.5-Coder-7B-Instruct-Q4_K_M	4.5 ГБ	Отличное для кода, хорошо для общего чата	Разработчики, 8+ ГБ VRAM
Llama 3.2 3B-Instruct-Q4_K_M	2.1 ГБ	Хорошее для своего размера	Ноутбуки, слабое железо
Mistral-Nemo 12B-Instruct-Q4_K_M	7.2 ГБ	Очень хорошее	16+ ГБ VRAM, основной выбор

Я рекомендую Mistral-Nemo 12B. Она балансирует между качеством и требованиями к железу. Но если у вас 8 ГБ VRAM или меньше - берите Qwen2.5-Coder-7B. Она удивительно умная для своего размера.

2 Устанавливаем Ollama (не LM Studio, и вот почему)

LM Studio - отличная программа. Для Windows. Но когда вам нужно настроить RAG и память чатов, вы упретесь в ограничения GUI. Ollama работает через командную строку, зато:

Имеет REST API (это критично для интеграций)
Проще управляется через Docker
Поддерживает кастомные промпты и системные сообщения
Автоматически скачивает модели

# Установка Ollama на Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh

# Или через Docker (рекомендую для чистоты системы)
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Проверяем работу
curl http://localhost:11434/api/tags

Для Windows просто скачайте установщик с официального сайта. Да, через Docker на Windows тоже можно, но проще нативный вариант.

Если не любите командную строку, посмотрите мой гайд по one-click установщикам. Но для RAG системы командная строка неизбежна.

3 Скачиваем и запускаем модель

Теперь самое простое - загружаем модель. Ollama сам разберется с квантованием и оптимизацией.

# Скачиваем Mistral-Nemo 12B (рекомендованная)
ollama pull mistral-nemo:12b-instruct-q4_K_M

# Или Qwen2.5-Coder-7B для слабого железа
ollama pull qwen2.5-coder:7b-instruct-q4_K_M

# Запускаем модель
ollama run mistral-nemo:12b-instruct-q4_K_M

Если видите приветственное сообщение модели - поздравляю, ядро системы работает. Но это пока просто чат в терминале.

💡

Модель скачивается один раз и хранится локально. Обычно 7B модель занимает 4-5 ГБ, 12B - 7-8 ГБ. Убедитесь, что на диске достаточно места.

4 Ставим векторную базу данных - мозг RAG системы

RAG (Retrieval-Augmented Generation) - это когда модель ищет ответы в ваших документах. Для этого нужна векторная база. Не Chroma (устарела), не Pinecone (облачная). В 2026 году лучший выбор - Qdrant. Быстрая, простая, с хорошей документацией.

# Запускаем Qdrant через Docker
docker run -p 6333:6333 -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

# Проверяем
curl http://localhost:6333

Qdrant будет слушать на порту 6333. Это наша "библиотека" - здесь будут храниться векторизованные версии ваших документов.

Почему не Chroma? Потому что Chroma в 2026 стала монстром с кучей зависимостей и глючной миграцией. Qdrant просто работает.

5 Устанавливаем Open WebUI - лицо системы

Open WebUI (раньше назывался Ollama WebUI) - это ChatGPT-подобный интерфейс для вашей локальной модели. С историей чатов, загрузкой файлов, настройкой промптов.

# Самый простой способ - через Docker
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

# Или с поддержкой GPU (если хотите ускорить эмбеддинги)
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --gpus all \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Откройте http://localhost:3000. Создайте аккаунт. В настройках подключите Ollama (адрес http://host.docker.internal:11434, если Ollama на хосте).

Теперь у вас есть красивый интерфейс. Но пока без памяти между сессиями и без RAG. Исправляем.

6 Настраиваем память чатов (самая скучная часть)

Open WebUI по умолчанию хранит историю в памяти Docker-контейнера. При перезапуске - все теряется. Фиксим:

# Останавливаем и удаляем старый контейнер
docker stop open-webui
docker rm open-webui

# Запускаем с персистентным хранилищем
docker run -d -p 3000:8080 \
  -v /path/to/your/data:/app/backend/data \
  -v /path/to/your/uploads:/app/backend/uploads \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Замените /path/to/your/data на реальный путь на вашем диске. Например, /home/user/ai_data на Linux или C:\\ai_data на Windows.

На Windows пути должны быть абсолютными и использовать двойные обратные слеши или обычные слеши: C:/ai_data работает, C:\\ai_data тоже работает, C:\\\ai_data - нет.

7 Подключаем RAG - магия начинается

Теперь самая интересная часть - учим систему работать с вашими документами. Open WebUI имеет встроенную поддержку RAG через плагины.

# Останавливаем Open WebUI если запущен
docker stop open-webui

# Запускаем с поддержкой RAG плагинов
docker run -d -p 3000:8080 \
  -v /path/to/your/data:/app/backend/data \
  -v /path/to/your/uploads:/app/backend/uploads \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -e WEBUI_SECRET_KEY=your_secret_key_here \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

После запуска:

Зайдите в http://localhost:3000
Перейдите в Workspaces → RAG
Выберите "Qdrant" как векторную базу
URL: http://host.docker.internal:6333
Создайте коллекцию (например, "my-docs")

Теперь в любом чате вы можете включить "RAG Search" и система будет искать ответы в ваших документах.

8 Загружаем документы и тестируем

В Open WebUI есть удобный интерфейс для загрузки документов:

PDF, Word, Excel, PowerPoint
Текстовые файлы
Веб-страницы (через URL)
Markdown

Загрузите несколько документов. Процесс может занять время - система создает эмбеддинги (векторные представления текста).

Тест-кейс: загрузите документацию к какому-нибудь проекту. Спросите "Как настроить X?" или "Какие есть требования к Y?". Система должна найти ответ в документах и сгенерировать ответ на основе найденного.

Где все ломается (и как починить)

Проблема 1: "Ollama не отвечает на порту 11434"

Docker-контейнеры не видят localhost друг друга. Используйте host.docker.internal (Mac/Windows) или IP адрес хоста (Linux).

# На Linux узнайте IP хоста
ip addr show docker0
# Используйте этот IP вместо localhost

Проблема 2: "Модель отвечает медленно"

Убедитесь, что используете квантованную версию (Q4_K_M или Q5_K_M). Полная точность (FP16) в 4 раза медленнее и требует в 2 раза больше памяти.

Если у вас NVIDIA GPU, проверьте, что Ollama использует CUDA:

# Переустановите Ollama с поддержкой CUDA
OLLAMA_GPU_OVERRIDE=1 ollama serve

Проблема 3: "RAG находит нерелевантные документы"

Попробуйте другой эмбеддинг-модель. По умолчанию Open WebUI использует all-MiniLM-L6-v2. В настройках RAG можно выбрать:

bge-base-en-v1.5 - лучше для английского
multilingual-e5-large - для смеси языков
nomic-embed-text-v1.5 - современный вариант (2025 год)

Что делать дальше (когда базовая система работает)

Вы собрали MVP. Теперь можно улучшать:

Улучшение	Сложность	Эффект
Добавить автоматическую синхронизацию с Google Drive/Dropbox	Средняя	Документы обновляются автоматически
Настроить гибридный поиск (векторный + ключевые слова)	Высокая	Более точные ответы
Добавить Whisper для голосового ввода	Низкая	Общаться голосом
Развернуть в домашней сети для доступа с других устройств	Средняя	ИИ доступен на телефоне, планшете

Если хотите серьезную инфраструктуру, посмотрите мой гайд по домашней LLM-инфраструктуре. Там про несколько моделей, балансировку нагрузки, мониторинг.

Чего не хватает в этой системе (честно)

Идеальных решений не существует. Наша сборка имеет недостатки:

Нет fine-tuning (обучение модели на ваших данных) - только RAG
Мультимодальность (работа с изображениями) требует отдельной модели
Анализ таблиц и Excel работает через пень-колоду
Скорость генерации на CPU - 2-5 токенов в секунду (на GPU - 20-50)

Но для 95% пользовательских сценариев этого достаточно. Вы получаете приватного ассистента, который помнит разговоры и умеет работать с вашими документами.

Если столкнулись с проблемами, которых нет в этой статье, посмотрите гайд по основным ошибкам при запуске LLM. Там разобраны десятки специфических проблем.

Стоит ли игра свеч?

После двух часов настройки вы можете спросить: "А не проще ли платить $20 в месяц за ChatGPT Plus?"

Проще. Безусловно. Но:

Ваши данные никуда не уходят (критично для коммерческих документов)
Нет лимитов на количество запросов
Можете настроить модель под свои нужды (например, всегда отвечать на немецком)
Работает без интернета (в поезде, самолете, деревне)
Это просто интересно (признайте)

В 2026 году локальные LLM догнали по качеству GPT-4 2023 года. Отставание есть, но для персонального использования разница незаметна.

Самый частый вопрос, который мне задают: "А что, если через полгода выйдет новая версия и все сломается?" Отвечаю: если следовать этому гайду, сломается только Open WebUI (обновится). Ollama и Qdrant - стабильные проекты. Модели скачаны локально. Даже если интернет пропадет навсегда, ваша система продолжит работать.

Полный гайд для начинающих: как с нуля запустить локальную LLM с памятью чатов и RAG