Запуск локальной LLM с RAG и памятью чатов: полный гайд для новичков 2026 | AiManual
AiManual Logo Ai / Manual.
21 Янв 2026 Гайд

Полный гайд для начинающих: как с нуля запустить локальную LLM с памятью чатов и RAG

Пошаговое руководство по установке Ollama, настройке векторной базы данных и созданию полноценного RAG-системы с чат-памятью на домашнем ПК. Все инструменты акт

Почему ваш первый локальный ИИ превращается в хаос

Вы скачали какую-то модель. Установили какой-то интерфейс. Потратили три часа на конфигурационные файлы. И получили... ничего. Или почти ничего - чат-бота, который забывает разговор через два сообщения и не может ответить на вопросы по вашим документам.

Знакомо? Я провел через этот ад десятки новичков. Проблема не в вашей некомпетентности. Проблема в том, что в 2026 году экосистема локальных LLM разрослась как сорняк. Каждый день появляются новые инструменты, а старые умирают. И никто не объясняет, как собрать из этого конструктора работающую систему.

Что мы строим (и зачем)

Не очередного тупого чат-бота. Мы собираем полноценную систему, которая:

  • Работает на вашем компьютере без интернета
  • Помнит историю разговоров (даже если вы перезапустили программу)
  • Умеет отвечать на вопросы по вашим документам - PDF, Word, статьи, заметки
  • Имеет нормальный веб-интерфейс, а не командную строку
  • Не требует платить OpenAI по $20 в месяц

Архитектура проста: модель → векторная база → интерфейс. Но дьявол, как всегда, в деталях.

Важно: Если у вас меньше 8 ГБ видеопамяти (VRAM), прочитайте сначала гайд по минимальным требованиям VRAM. Иначе будете смотреть на ошибку "Out of memory" вместо работающего ИИ.

1 Выбираем модель: что работает в 2026 году

Здесь большинство новичков совершают фатальную ошибку - пытаются запустить Llama 3.1 70B на ноутбуке с RTX 3060. Не делайте так. Модель сгенерирует один токен в секунду (если вообще запустится).

Модель (актуально на январь 2026) Размер VRAM Качество Для кого
Qwen2.5-Coder-7B-Instruct-Q4_K_M 4.5 ГБ Отличное для кода, хорошо для общего чата Разработчики, 8+ ГБ VRAM
Llama 3.2 3B-Instruct-Q4_K_M 2.1 ГБ Хорошее для своего размера Ноутбуки, слабое железо
Mistral-Nemo 12B-Instruct-Q4_K_M 7.2 ГБ Очень хорошее 16+ ГБ VRAM, основной выбор

Я рекомендую Mistral-Nemo 12B. Она балансирует между качеством и требованиями к железу. Но если у вас 8 ГБ VRAM или меньше - берите Qwen2.5-Coder-7B. Она удивительно умная для своего размера.

2 Устанавливаем Ollama (не LM Studio, и вот почему)

LM Studio - отличная программа. Для Windows. Но когда вам нужно настроить RAG и память чатов, вы упретесь в ограничения GUI. Ollama работает через командную строку, зато:

  • Имеет REST API (это критично для интеграций)
  • Проще управляется через Docker
  • Поддерживает кастомные промпты и системные сообщения
  • Автоматически скачивает модели
# Установка Ollama на Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh

# Или через Docker (рекомендую для чистоты системы)
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Проверяем работу
curl http://localhost:11434/api/tags

Для Windows просто скачайте установщик с официального сайта. Да, через Docker на Windows тоже можно, но проще нативный вариант.

Если не любите командную строку, посмотрите мой гайд по one-click установщикам. Но для RAG системы командная строка неизбежна.

3 Скачиваем и запускаем модель

Теперь самое простое - загружаем модель. Ollama сам разберется с квантованием и оптимизацией.

# Скачиваем Mistral-Nemo 12B (рекомендованная)
ollama pull mistral-nemo:12b-instruct-q4_K_M

# Или Qwen2.5-Coder-7B для слабого железа
ollama pull qwen2.5-coder:7b-instruct-q4_K_M

# Запускаем модель
ollama run mistral-nemo:12b-instruct-q4_K_M

Если видите приветственное сообщение модели - поздравляю, ядро системы работает. Но это пока просто чат в терминале.

💡
Модель скачивается один раз и хранится локально. Обычно 7B модель занимает 4-5 ГБ, 12B - 7-8 ГБ. Убедитесь, что на диске достаточно места.

4 Ставим векторную базу данных - мозг RAG системы

RAG (Retrieval-Augmented Generation) - это когда модель ищет ответы в ваших документах. Для этого нужна векторная база. Не Chroma (устарела), не Pinecone (облачная). В 2026 году лучший выбор - Qdrant. Быстрая, простая, с хорошей документацией.

# Запускаем Qdrant через Docker
docker run -p 6333:6333 -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

# Проверяем
curl http://localhost:6333

Qdrant будет слушать на порту 6333. Это наша "библиотека" - здесь будут храниться векторизованные версии ваших документов.

Почему не Chroma? Потому что Chroma в 2026 стала монстром с кучей зависимостей и глючной миграцией. Qdrant просто работает.

5 Устанавливаем Open WebUI - лицо системы

Open WebUI (раньше назывался Ollama WebUI) - это ChatGPT-подобный интерфейс для вашей локальной модели. С историей чатов, загрузкой файлов, настройкой промптов.

# Самый простой способ - через Docker
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

# Или с поддержкой GPU (если хотите ускорить эмбеддинги)
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --gpus all \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Откройте http://localhost:3000. Создайте аккаунт. В настройках подключите Ollama (адрес http://host.docker.internal:11434, если Ollama на хосте).

Теперь у вас есть красивый интерфейс. Но пока без памяти между сессиями и без RAG. Исправляем.

6 Настраиваем память чатов (самая скучная часть)

Open WebUI по умолчанию хранит историю в памяти Docker-контейнера. При перезапуске - все теряется. Фиксим:

# Останавливаем и удаляем старый контейнер
docker stop open-webui
docker rm open-webui

# Запускаем с персистентным хранилищем
docker run -d -p 3000:8080 \
  -v /path/to/your/data:/app/backend/data \
  -v /path/to/your/uploads:/app/backend/uploads \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Замените /path/to/your/data на реальный путь на вашем диске. Например, /home/user/ai_data на Linux или C:\\ai_data на Windows.

На Windows пути должны быть абсолютными и использовать двойные обратные слеши или обычные слеши: C:/ai_data работает, C:\\ai_data тоже работает, C:\\\ai_data - нет.

7 Подключаем RAG - магия начинается

Теперь самая интересная часть - учим систему работать с вашими документами. Open WebUI имеет встроенную поддержку RAG через плагины.

# Останавливаем Open WebUI если запущен
docker stop open-webui

# Запускаем с поддержкой RAG плагинов
docker run -d -p 3000:8080 \
  -v /path/to/your/data:/app/backend/data \
  -v /path/to/your/uploads:/app/backend/uploads \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -e WEBUI_SECRET_KEY=your_secret_key_here \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

После запуска:

  1. Зайдите в http://localhost:3000
  2. Перейдите в Workspaces → RAG
  3. Выберите "Qdrant" как векторную базу
  4. URL: http://host.docker.internal:6333
  5. Создайте коллекцию (например, "my-docs")

Теперь в любом чате вы можете включить "RAG Search" и система будет искать ответы в ваших документах.

8 Загружаем документы и тестируем

В Open WebUI есть удобный интерфейс для загрузки документов:

  • PDF, Word, Excel, PowerPoint
  • Текстовые файлы
  • Веб-страницы (через URL)
  • Markdown

Загрузите несколько документов. Процесс может занять время - система создает эмбеддинги (векторные представления текста).

Тест-кейс: загрузите документацию к какому-нибудь проекту. Спросите "Как настроить X?" или "Какие есть требования к Y?". Система должна найти ответ в документах и сгенерировать ответ на основе найденного.

Где все ломается (и как починить)

Проблема 1: "Ollama не отвечает на порту 11434"

Docker-контейнеры не видят localhost друг друга. Используйте host.docker.internal (Mac/Windows) или IP адрес хоста (Linux).

# На Linux узнайте IP хоста
ip addr show docker0
# Используйте этот IP вместо localhost

Проблема 2: "Модель отвечает медленно"

Убедитесь, что используете квантованную версию (Q4_K_M или Q5_K_M). Полная точность (FP16) в 4 раза медленнее и требует в 2 раза больше памяти.

Если у вас NVIDIA GPU, проверьте, что Ollama использует CUDA:

# Переустановите Ollama с поддержкой CUDA
OLLAMA_GPU_OVERRIDE=1 ollama serve

Проблема 3: "RAG находит нерелевантные документы"

Попробуйте другой эмбеддинг-модель. По умолчанию Open WebUI использует all-MiniLM-L6-v2. В настройках RAG можно выбрать:

  • bge-base-en-v1.5 - лучше для английского
  • multilingual-e5-large - для смеси языков
  • nomic-embed-text-v1.5 - современный вариант (2025 год)

Что делать дальше (когда базовая система работает)

Вы собрали MVP. Теперь можно улучшать:

Улучшение Сложность Эффект
Добавить автоматическую синхронизацию с Google Drive/Dropbox Средняя Документы обновляются автоматически
Настроить гибридный поиск (векторный + ключевые слова) Высокая Более точные ответы
Добавить Whisper для голосового ввода Низкая Общаться голосом
Развернуть в домашней сети для доступа с других устройств Средняя ИИ доступен на телефоне, планшете

Если хотите серьезную инфраструктуру, посмотрите мой гайд по домашней LLM-инфраструктуре. Там про несколько моделей, балансировку нагрузки, мониторинг.

Чего не хватает в этой системе (честно)

Идеальных решений не существует. Наша сборка имеет недостатки:

  • Нет fine-tuning (обучение модели на ваших данных) - только RAG
  • Мультимодальность (работа с изображениями) требует отдельной модели
  • Анализ таблиц и Excel работает через пень-колоду
  • Скорость генерации на CPU - 2-5 токенов в секунду (на GPU - 20-50)

Но для 95% пользовательских сценариев этого достаточно. Вы получаете приватного ассистента, который помнит разговоры и умеет работать с вашими документами.

Если столкнулись с проблемами, которых нет в этой статье, посмотрите гайд по основным ошибкам при запуске LLM. Там разобраны десятки специфических проблем.

Стоит ли игра свеч?

После двух часов настройки вы можете спросить: "А не проще ли платить $20 в месяц за ChatGPT Plus?"

Проще. Безусловно. Но:

  • Ваши данные никуда не уходят (критично для коммерческих документов)
  • Нет лимитов на количество запросов
  • Можете настроить модель под свои нужды (например, всегда отвечать на немецком)
  • Работает без интернета (в поезде, самолете, деревне)
  • Это просто интересно (признайте)

В 2026 году локальные LLM догнали по качеству GPT-4 2023 года. Отставание есть, но для персонального использования разница незаметна.

Самый частый вопрос, который мне задают: "А что, если через полгода выйдет новая версия и все сломается?" Отвечаю: если следовать этому гайду, сломается только Open WebUI (обновится). Ollama и Qdrant - стабильные проекты. Модели скачаны локально. Даже если интернет пропадет навсегда, ваша система продолжит работать.