Сколько раз вы упирались в ценник OpenAI?
Вы приносите руководству идею: давайте внедрим AI-агента для обработки заявок, автоматизации ответов, анализа логов. Вам говорят: "Ок, сколько это стоит?" Вы открываете pricing GPT-4o — $2.50 за 1M input токенов. Потом умножаете на объёмы. Потом добавляете cost за инфраструктуру. Лицо начальника вытягивается. Проект закрывают.
Или другая история: вы разработчик, но вам лень писать интеграции с нуля, а готовые сервисы вроде LangChain требуют прогибаться под их API. Хочется собрать что-то своё, быстро, без танцев с бубном. Звучит знакомо?
Есть способ. Локальный ИИ-агент за один день. Без GPU за $10k, без подписки на облачные LLM, без единой строчки на Python, если не хотите. Всё на стеке Ollama + n8n + маленькая, но боевая модель. Сегодня 17 мая 2026 года, и этот стек стабилен как никогда.
1Что нам понадобится (и почему именно это)
Ollama — прослойка для запуска LLM локально. Под капотом llama.cpp, но с человеческим интерфейсом. Устанавливается за минуту. Поддерживает квантованные модели (4-bit, 8-bit). На момент статьи актуальна версия 0.5.5. (Проверено: 17.05.2026 — всё ещё топ.)
n8n — low-code платформа для автоматизации с богатой экосистемой. Работает как в облаке, так и локально через Docker. Позволяет строить workflow с HTTP-запросами к Ollama. Не требует программирования для простых сценариев. Последний стабильный релиз — 1.78.0.
Модель. Тут выбор критичен. Не тащите Llama 3.1 70B на ноутбуке — сожрёт всю память и уснёт. Берите Qwen 2.5 Coder 7B (Q4_K_M) — отличный баланс скорости и качества для агентов. Если есть 16+ GB RAM, можно взять Qwen 2.5 14B — ещё разумнее. Для совсем слабых машин — Phi-3.5-mini 4B.
Важно: вы не привязаны к провайдеру. Все данные остаются у вас. Конфиденциальность? Максимальная. Никакие промпты не улетают в условный AWS.
2Установка Ollama — быстрее, чем вы думаете
Скачиваете с официального сайта (ollama.com). Для Linux — curl-скрипт, для macOS — .dmg, для Windows — инсталлятор. Я ставлю на Ubuntu 24.04:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve # запуск сервера
После старта сервер висит на localhost:11434. Сразу скачиваем модель:
ollama pull qwen2.5-coder:7b
# Или для 14B:
ollama pull qwen2.5:14b
Готово. $ ollama run qwen2.5-coder:7b — можно тестировать. Совет: для агента лучше использовать чистый инференс без интерактива. API работает из коробки.
3n8n — конвейер для вашего агента
Запускаем через Docker Compose (так надёжнее). Пишем docker-compose.yml:
version: '3.8'
services:
n8n:
image: n8nio/n8n:1.78.0
ports:
- "5678:5678"
environment:
- N8N_AI_ENABLED=true
- N8N_AI_OLLAMA_BASE_URL=http://host.docker.internal:11434
volumes:
- ./n8n_data:/home/node/.n8n
Поднимаем: docker compose up -d. Заходим в браузер на localhost:5678. n8n попросит создать пользователя — сделайте.
Типичная ошибка: если n8n в контейнере, а Ollama на хосте, нужно указывать host.docker.internal. На Linux Docker 20.10+ по умолчанию не пробрасывает host.docker.internal — добавьте extra_hosts: - "host.docker.internal:host-gateway".
4Строим workflow агента — без кода (почти)
Создаём новый workflow. Добавляем триггер — например, Webhook или Schedule. Я возьму Manual Trigger для теста.
Далее — нода HTTP Request. Она будет стучаться к Ollama. Настройка:
- Method: POST
- URL:
http://host.docker.internal:11434/api/chat - Body (JSON):
{ "model": "qwen2.5-coder:7b", "messages": [ {"role": "system", "content": "Ты — агент поддержки. Отвечай кратко и по делу."}, {"role": "user", "content": "{{ $json.body }}"} ], "stream": false }
Получаем ответ. Чтобы извлечь текст, добавьте ноду Code (JavaScript) или Set. В коде:
const body = $input.first().json;
const reply = body.message.content;
return { reply };
Готово. Запускаете — и агент отвечает на любой запрос. Всё локально, без единого вызова в интернет.
5Уровень PRO: добавляем память, инструменты и контекст
Голый chat — скучно. Агент должен помнить историю. В n8n можно сохранять контекст в переменные или Redis. Самый простой способ — добавить ноду Wait и хранить историю в JSON-файле. Но лучше использовать встроенный AI Agent ноду, которая появилась в n8n 1.75+. Она умеет работать с Ollama напрямую:
- Drag & drop ноду AI Agent из палитры.
- В настройках выберите Ollama Chat Model.
- Укажите базовый URL:
http://host.docker.internal:11434и модельqwen2.5-coder:7b. - Добавьте инструменты: к примеру, Web Search через сервис SearXNG, или калькулятор через Code ноду.
Теперь агент может не только отвечать, но и выполнять действия: искать информацию, сохранять в базу, отправлять письма. Что-то подобное мы уже разбирали в пошаговом руководстве по созданию AI-агентов в n8n с локальными LLM.
6Когда локальный агент тупит (и что делать)
Реальность такова: 7B модель не напишет код уровня senior-разработчика и не переведёт Шекспира безупречно. Зато она справится с классификацией запросов, генерацией шаблонных ответов, извлечением сущностей. Если нужна генерация кода — берите DeepSeek-Coder-V2 16B или Qwen 2.5 Coder 14B. Для сложных рассуждений — Llama 3.2 8B.
Главные грабли:
- Токенов мало. 7B модель обычно вмещает 8-32K контекста. Если ваш промпт с историей диалога разросся до 20K — агент начнёт «забывать» начало. Решение: правильный выбор модели и квантования.
- Ollama жрёт память. Если модель постоянно выгружается, добавьте
OLLAMA_KEEP_ALIVE=0в переменные окружения, чтобы она не висела вечно. Или настройтеnum_ctxменьше. - n8n таймаутит запросы. Увеличьте timeout в настройках ноды HTTP Request до 120 секунд.
7Реальный кейс: агент для обработки заявок техподдержки
Допустим, вы работаете в компании, где клиенты присылают однотипные вопросы: «Как сбросить пароль?», «Где мой заказ?». Вместо того чтобы нанимать четырёх саппортов, вы делаете так:
- Триггер — Webhook из CRM (например, AmoCRM или Bitrix24).
- HTTP Request к Ollama — классифицируем запрос: сброс пароля / статус заказа / жалоба.
- Далее ветвление: если сброс пароля — отвечаем инструкцией, если жалоба — пересылаем в отдел по email через ноду Email.
- Всё. Работает 24/7, не устаёт, не просит зарплату.
Подробнее про реальные кейсы локальных LLM — в статье Локальные LLM в работе: реальные кейсы, которые меняют всё.
8Что завтра? (вместо заключения)
Локальные агенты — не игрушка. n8n уже интегрирует AI-ноды на уровне enterprise. Ollama добавляет поддержку vision-моделей. Через год мы будем запускать мультимодальных агентов на обычном ноутбуке. Но уже сегодня вы можете за один день собрать прототип, который сэкономит часы рутины. Не ждите идеального стека — берите и делайте. Если что-то пойдёт не так, перечитывайте раздел «Когда локальный агент тупит».
И да: не забудьте спрятать host.docker.internal за переменные окружения, когда будете деплоить в продакшн. А то коллеги потом найдут вашу локальную LLM и начнут генерировать мемы.