Почему этот каталог нужен прямо сейчас
Открываешь GitHub, ищешь "local AI" - получаешь 500 репозиториев. Читаешь статью про RAG - упоминают 15 разных векторных баз. Заходишь в чат разработчиков - каждый хвалит свой инструмент. Хаос.
А потом пытаешься собрать рабочую систему. И понимаешь: часть инструментов уже мертва, другая несовместима, третья требует специфичного железа. Теряешь недели на поиск и тестирование.
Как выбирать инструменты: неочевидные критерии
Все говорят про "быстро" и "легко". Забудьте. Вот что действительно важно:
- Совместимость с железом: Apple Silicon, NVIDIA (какой CUDA?), AMD ROCm, CPU-only
- Жизненный цикл проекта: Активность в Issues, частота релизов, размер сообщества
- Экосистема: Есть ли Python-библиотека? REST API? Поддержка LangChain?
- Порог входа: Сколько времени уйдет на первый работающий прототип?
Предупреждение: Самый частый провал - выбрать инструмент под конкретную модель, а потом сменить модель. Всегда смотрите на поддержку форматов: GGUF, SafeTensors, ONNX, EXL2.
Раздел 1: Инференс LLM - запускаем модели локально
Здесь все начинается. Без инференса - нет локального ИИ.
1 Универсальные движки (подходят для большинства моделей)
| Инструмент | Сильные стороны | Ограничения | Идеальный кейс |
|---|---|---|---|
| Ollama (версия 0.6.2+) | Проще некуда, автоматическая загрузка моделей, Modelfile | Ограниченный контроль над параметрами инференса | Быстрый старт, прототипирование, демо |
| llama.cpp (версия 4.0+) | Максимальная производительность на CPU, поддержка всех квантований | Сложная настройка, нет интерактивного UI | Продакшен на CPU, edge-устройства |
| vLLM (версия 0.5.0+) | PagedAttention, батчинг, высокая пропускная способность | Требует CUDA, сложнее в настройке | Высоконагруженные API, многопользовательские системы |
Между Ollama и другими движками разница в философии. Ollama - это "включи и работай", llama.cpp - "настрой под себя".
2 Графические интерфейсы и клиенты
Если командная строка вызывает аллергию:
- LM Studio: Windows/macOS, красивый UI, встроенный магазин моделей
- Text Generation WebUI: Веб-интерфейс, расширения, поддержка множества бэкендов
- Jan: Кроссплатформенный десктопный клиент, похож на ChatGPT
- Faraday.dev: Фокус на персонажах и ролевых сценариях
Мы подробно разбирали продвинутые приложения для локальных LLM в отдельной статье.
Раздел 2: Генерация изображений - не только Stable Diffusion
Да, Stable Diffusion правит бал. Но мир не стоит на месте.
| Инструмент | Особенность | VRAM | Актуальность 2026 |
|---|---|---|---|
| ComfyUI | Нодальный редактор, бесконечная кастомизация | 4GB+ | Активно развивается, много расширений |
| Automatic1111 WebUI | Классика, все знают интерфейс | 4GB+ | Поддержка продолжается, но инновации в ComfyUI |
| Fooocus | Минималистичный, "просто работает" | 4GB+ | Отличный выбор для начинающих |
| Krita Diffusion | Плагин для Krita, работа в привычном редакторе | 4GB+ | Для художников, которые хотят AI-ассистента |
Внимание на поколение 2025-2026: Flux, Stable Diffusion 3.5, и новые архитектуры требуют больше VRAM. Проверяйте совместимость перед установкой.
Раздел 3: RAG - от простого поиска к production-системам
RAG - это не просто "закинул документы в векторную базу". Это целый пайплайн.
3 Векторные базы данных: выбор зависит от объема
Критерии выбора: скорость поиска, поддержка метаданных, фильтрация, режим работы (память/диск).
- Для маленьких проектов (<10k документов): Chroma (простота), FAISS (скорость)
- Для средних проектов (10k-1M документов): Qdrant (производственные фичи), Weaviate (графовые возможности)
- Для больших проектов (>1M документов): Milvus (распределенный), PostgreSQL с pgvector (уже в продакшене)
Когда у вас 4 миллиона PDF, выбор базы становится критичным. Мы разбирали этот кейс отдельно.
4 Фреймворки для построения RAG-пайплайнов
Не изобретайте велосипед:
| Фреймворк | Плюсы | Минусы | Когда выбирать |
|---|---|---|---|
| LangChain | Самый популярный, много интеграций | Сложный API, иногда избыточный | Когда нужна максимальная гибкость |
| LlamaIndex | Специализирован на RAG, хорошая документация | Меньше интеграций чем у LangChain | Когда RAG - основная задача |
| Haystack | Производственный фокус, пайплайны | Степен learning curve | Для production-развертывания |
Современный RAG в 2026 году - это гибридный поиск, реранкинг, агенты. Не ограничивайтесь простым семантическим поиском.
Раздел 4: Тонкая настройка - делаем модели умнее
Инференс - это хорошо. Но когда модель должна знать вашу специфику, нужна тонкая настройка.
5 Фреймворки для тонкой настройки
- Axolotl: Лидер в 2026. Поддержка множества методов (LoRA, QLoRA, полная настройка), удобная конфигурация через YAML
- Unsloth: Оптимизации для ускорения обучения в 2-5 раз. Особенно хорош для ограниченного железа
- Lit-GPT: Минималистичный, от команды Lightning AI. Для тех, кто хочет понять как все работает внутри
- LLaMA-Factory: Веб-интерфейс для тонкой настройки. Не нужно писать код
Раздел 5: Специализированные инструменты
Иногда нужен инструмент для конкретной задачи.
6 Для разработчиков и инженеров
- Continue.dev: Локальная альтернатива GitHub Copilot. Работает с любым редактором
- Windsurf
- Tabby
Если боитесь, что корпоративные нейросети узнают ваш код, читайте про локальный ИИ против Copilot.
7 Для работы с документами
- SurfSense: Локальный ассистент для документов. Не отправляет данные в облако
- PrivateGPT: Готовое решение для приватного Q&A по документам
- LLMSherpa
Раздел 6: Инфраструктура и оркестрация
Когда один инструмент превращается в систему.
8 Контейнеризация и развертывание
- Docker: Очевидно? Но есть нюансы с GPU passthrough, разными драйверами
- NVIDIA Triton: Продакшен-сервер для моделей. Поддерживает множество фреймворков
- BentoML: Упаковка моделей в контейнеры с автоматическим API generation
Как построить локальный AI-сервер с доступом к файлам - отдельная большая тема с выбором железа и софта.
9 Мониторинг и оптимизация
- LangSmith: Отладка, трассировка, мониторинг цепочек LLM
- Prometheus + Grafana: Классика для мониторинга инференса (latency, throughput, ошибки)
- SEDAC v5: Динамическое ускорение LLM на основе семантической энтропии. Для edge-устройств
Раздел 7: Экосистемные инструменты
Вспомогательные, но критически важные.
| Категория | Инструменты | Для чего |
|---|---|---|
| Работа с моделями | huggingface-cli, ggit-lfs, modelc | Скачивание, конвертация, управление моделями |
| Эмбеддинги | sentence-transformers, Instructor, BGE-M3 | Векторизация текста для RAG |
| Агенты и автоматизация | AutoGen, CrewAI, LangGraph | Построение многоагентных систем |
| Инструменты и плагины | MCP Tool Registry, LlamaIndex Tools | Даем моделям доступ к внешним инструментам |
MCP Tool Registry - это отдельная история. Реестр инструментов для автоматизации RAG-систем.
Чеклист выбора инструментов
- Определите задачу: инференс, RAG, тонкая настройка, генерация изображений?
- Оцените железо: VRAM, RAM, CPU, поддержка CUDA/ROCm?
- Определите уровень контроля: нужен ли полный контроль или достаточно "включи и работай"?
- Проверьте совместимость форматов моделей
- Оцените сообщество и активность разработки (последний коммит, открытые Issues)
- Протестируйте на своих данных перед принятием решения
Ошибки, которые совершают все (и как их избежать)
Ошибка 1: Выбор самого популярного инструмента без учета специфики задачи. Chroma отлично подходит для прототипов, но для 10M документов нужен Milvus.
Ошибка 2: Игнорирование форматов моделей. Скачали модель в формате, который не поддерживается вашим движком. Проверяйте: GGUF для llama.cpp, EXL2 для ExLlamaV2, SafeTensors для большинства.
Ошибка 3: Недооценка потребления памяти. Запускают 70B модель на 16GB RAM, удивляются OOM. Используйте квантованные версии (Q4_K_M, Q8_0 для баланса скорость/качество).
Что дальше? Тренды 2026-2027
Заглядываем в ближайшее будущее:
- Специализированные акселераторы: Не только NVIDIA. AMD, Intel, даже Raspberry Pi с NPU
- Квантование на лету: Модели адаптируются к доступным ресурсам
- Локальные мультимодальные модели: Не только текст, но и видео, аудио на одном устройстве
- Федеративное обучение: Совместная тонкая настройка без обмена данными
Мой прогноз: к концу 2026 года локальный ИИ станет таким же обычным делом, как локальная база данных. Не нужно будет объяснять "зачем". Будет очевидно.
Этот каталог живой. Инструменты появляются и умирают. Если нашли что-то стоящее, что мы пропустили - напишите. Будем обновлять.