Почему этот каталог нужен прямо сейчас

Открываешь GitHub, ищешь "local AI" - получаешь 500 репозиториев. Читаешь статью про RAG - упоминают 15 разных векторных баз. Заходишь в чат разработчиков - каждый хвалит свой инструмент. Хаос.

А потом пытаешься собрать рабочую систему. И понимаешь: часть инструментов уже мертва, другая несовместима, третья требует специфичного железа. Теряешь недели на поиск и тестирование.

💡

Этот каталог - результат шести месяцев тестирования, сравнения и отсева. Мы проверяли совместимость, скорость, потребление памяти, документацию. Убрали устаревшее, добавили проверенное. Сохранили только то, что работает в 2026 году.

Как выбирать инструменты: неочевидные критерии

Все говорят про "быстро" и "легко". Забудьте. Вот что действительно важно:

Совместимость с железом: Apple Silicon, NVIDIA (какой CUDA?), AMD ROCm, CPU-only
Жизненный цикл проекта: Активность в Issues, частота релизов, размер сообщества
Экосистема: Есть ли Python-библиотека? REST API? Поддержка LangChain?
Порог входа: Сколько времени уйдет на первый работающий прототип?

Предупреждение: Самый частый провал - выбрать инструмент под конкретную модель, а потом сменить модель. Всегда смотрите на поддержку форматов: GGUF, SafeTensors, ONNX, EXL2.

Раздел 1: Инференс LLM - запускаем модели локально

Здесь все начинается. Без инференса - нет локального ИИ.

1 Универсальные движки (подходят для большинства моделей)

Инструмент	Сильные стороны	Ограничения	Идеальный кейс
Ollama (версия 0.6.2+)	Проще некуда, автоматическая загрузка моделей, Modelfile	Ограниченный контроль над параметрами инференса	Быстрый старт, прототипирование, демо
llama.cpp (версия 4.0+)	Максимальная производительность на CPU, поддержка всех квантований	Сложная настройка, нет интерактивного UI	Продакшен на CPU, edge-устройства
vLLM (версия 0.5.0+)	PagedAttention, батчинг, высокая пропускная способность	Требует CUDA, сложнее в настройке	Высоконагруженные API, многопользовательские системы

Между Ollama и другими движками разница в философии. Ollama - это "включи и работай", llama.cpp - "настрой под себя".

2 Графические интерфейсы и клиенты

Если командная строка вызывает аллергию:

LM Studio: Windows/macOS, красивый UI, встроенный магазин моделей
Text Generation WebUI: Веб-интерфейс, расширения, поддержка множества бэкендов
Jan: Кроссплатформенный десктопный клиент, похож на ChatGPT
Faraday.dev: Фокус на персонажах и ролевых сценариях

Мы подробно разбирали продвинутые приложения для локальных LLM в отдельной статье.

Раздел 2: Генерация изображений - не только Stable Diffusion

Да, Stable Diffusion правит бал. Но мир не стоит на месте.

Инструмент	Особенность	VRAM	Актуальность 2026
ComfyUI	Нодальный редактор, бесконечная кастомизация	4GB+	Активно развивается, много расширений
Automatic1111 WebUI	Классика, все знают интерфейс	4GB+	Поддержка продолжается, но инновации в ComfyUI
Fooocus	Минималистичный, "просто работает"	4GB+	Отличный выбор для начинающих
Krita Diffusion	Плагин для Krita, работа в привычном редакторе	4GB+	Для художников, которые хотят AI-ассистента

Внимание на поколение 2025-2026: Flux, Stable Diffusion 3.5, и новые архитектуры требуют больше VRAM. Проверяйте совместимость перед установкой.

Раздел 3: RAG - от простого поиска к production-системам

RAG - это не просто "закинул документы в векторную базу". Это целый пайплайн.

3 Векторные базы данных: выбор зависит от объема

Критерии выбора: скорость поиска, поддержка метаданных, фильтрация, режим работы (память/диск).

Для маленьких проектов (<10k документов): Chroma (простота), FAISS (скорость)
Для средних проектов (10k-1M документов): Qdrant (производственные фичи), Weaviate (графовые возможности)
Для больших проектов (>1M документов): Milvus (распределенный), PostgreSQL с pgvector (уже в продакшене)

Когда у вас 4 миллиона PDF, выбор базы становится критичным. Мы разбирали этот кейс отдельно.

4 Фреймворки для построения RAG-пайплайнов

Не изобретайте велосипед:

Фреймворк	Плюсы	Минусы	Когда выбирать
LangChain	Самый популярный, много интеграций	Сложный API, иногда избыточный	Когда нужна максимальная гибкость
LlamaIndex	Специализирован на RAG, хорошая документация	Меньше интеграций чем у LangChain	Когда RAG - основная задача
Haystack	Производственный фокус, пайплайны	Степен learning curve	Для production-развертывания

Современный RAG в 2026 году - это гибридный поиск, реранкинг, агенты. Не ограничивайтесь простым семантическим поиском.

Раздел 4: Тонкая настройка - делаем модели умнее

Инференс - это хорошо. Но когда модель должна знать вашу специфику, нужна тонкая настройка.

5 Фреймворки для тонкой настройки

Axolotl: Лидер в 2026. Поддержка множества методов (LoRA, QLoRA, полная настройка), удобная конфигурация через YAML
Unsloth: Оптимизации для ускорения обучения в 2-5 раз. Особенно хорош для ограниченного железа
Lit-GPT: Минималистичный, от команды Lightning AI. Для тех, кто хочет понять как все работает внутри
LLaMA-Factory: Веб-интерфейс для тонкой настройки. Не нужно писать код

💡

QLoRA в 2026 году позволяет настраивать 70B модели на 24GB VRAM. Это меняет правила игры. Больше нет необходимости в ферме GPU для кастомизации моделей.

Раздел 5: Специализированные инструменты

Иногда нужен инструмент для конкретной задачи.

6 Для разработчиков и инженеров

Continue.dev: Локальная альтернатива GitHub Copilot. Работает с любым редактором
Windsurf
Tabby

Если боитесь, что корпоративные нейросети узнают ваш код, читайте про локальный ИИ против Copilot.

7 Для работы с документами

SurfSense: Локальный ассистент для документов. Не отправляет данные в облако
PrivateGPT: Готовое решение для приватного Q&A по документам
LLMSherpa

Раздел 6: Инфраструктура и оркестрация

Когда один инструмент превращается в систему.

8 Контейнеризация и развертывание

Docker: Очевидно? Но есть нюансы с GPU passthrough, разными драйверами
NVIDIA Triton: Продакшен-сервер для моделей. Поддерживает множество фреймворков
BentoML: Упаковка моделей в контейнеры с автоматическим API generation

Как построить локальный AI-сервер с доступом к файлам - отдельная большая тема с выбором железа и софта.

9 Мониторинг и оптимизация

LangSmith: Отладка, трассировка, мониторинг цепочек LLM
Prometheus + Grafana: Классика для мониторинга инференса (latency, throughput, ошибки)
SEDAC v5: Динамическое ускорение LLM на основе семантической энтропии. Для edge-устройств

Раздел 7: Экосистемные инструменты

Вспомогательные, но критически важные.

Категория	Инструменты	Для чего
Работа с моделями	huggingface-cli, ggit-lfs, modelc	Скачивание, конвертация, управление моделями
Эмбеддинги	sentence-transformers, Instructor, BGE-M3	Векторизация текста для RAG
Агенты и автоматизация	AutoGen, CrewAI, LangGraph	Построение многоагентных систем
Инструменты и плагины	MCP Tool Registry, LlamaIndex Tools	Даем моделям доступ к внешним инструментам

MCP Tool Registry - это отдельная история. Реестр инструментов для автоматизации RAG-систем.

Чеклист выбора инструментов

Определите задачу: инференс, RAG, тонкая настройка, генерация изображений?
Оцените железо: VRAM, RAM, CPU, поддержка CUDA/ROCm?
Определите уровень контроля: нужен ли полный контроль или достаточно "включи и работай"?
Проверьте совместимость форматов моделей
Оцените сообщество и активность разработки (последний коммит, открытые Issues)
Протестируйте на своих данных перед принятием решения

Ошибки, которые совершают все (и как их избежать)

Ошибка 1: Выбор самого популярного инструмента без учета специфики задачи. Chroma отлично подходит для прототипов, но для 10M документов нужен Milvus.

Ошибка 2: Игнорирование форматов моделей. Скачали модель в формате, который не поддерживается вашим движком. Проверяйте: GGUF для llama.cpp, EXL2 для ExLlamaV2, SafeTensors для большинства.

Ошибка 3: Недооценка потребления памяти. Запускают 70B модель на 16GB RAM, удивляются OOM. Используйте квантованные версии (Q4_K_M, Q8_0 для баланса скорость/качество).

Что дальше? Тренды 2026-2027

Заглядываем в ближайшее будущее:

Специализированные акселераторы: Не только NVIDIA. AMD, Intel, даже Raspberry Pi с NPU
Квантование на лету: Модели адаптируются к доступным ресурсам
Локальные мультимодальные модели: Не только текст, но и видео, аудио на одном устройстве
Федеративное обучение: Совместная тонкая настройка без обмена данными

Мой прогноз: к концу 2026 года локальный ИИ станет таким же обычным делом, как локальная база данных. Не нужно будет объяснять "зачем". Будет очевидно.

💡

Совет напоследок: Начните с простого. Ollama для инференса, Chroma для RAG. Получите работающий прототип. Потом оптимизируйте. Не пытайтесь построить идеальную систему с первого раза.

Этот каталог живой. Инструменты появляются и умирают. Если нашли что-то стоящее, что мы пропустили - напишите. Будем обновлять.

Полный каталог инструментов для локального ИИ: 80+ опенсорс-решений для инференса, RAG и тонкой настройки