Сколько раз вы упирались в ценник OpenAI?

Вы приносите руководству идею: давайте внедрим AI-агента для обработки заявок, автоматизации ответов, анализа логов. Вам говорят: "Ок, сколько это стоит?" Вы открываете pricing GPT-4o — $2.50 за 1M input токенов. Потом умножаете на объёмы. Потом добавляете cost за инфраструктуру. Лицо начальника вытягивается. Проект закрывают.

Или другая история: вы разработчик, но вам лень писать интеграции с нуля, а готовые сервисы вроде LangChain требуют прогибаться под их API. Хочется собрать что-то своё, быстро, без танцев с бубном. Звучит знакомо?

Есть способ. Локальный ИИ-агент за один день. Без GPU за $10k, без подписки на облачные LLM, без единой строчки на Python, если не хотите. Всё на стеке Ollama + n8n + маленькая, но боевая модель. Сегодня 17 мая 2026 года, и этот стек стабилен как никогда.

1Что нам понадобится (и почему именно это)

Ollama — прослойка для запуска LLM локально. Под капотом llama.cpp, но с человеческим интерфейсом. Устанавливается за минуту. Поддерживает квантованные модели (4-bit, 8-bit). На момент статьи актуальна версия 0.5.5. (Проверено: 17.05.2026 — всё ещё топ.)

n8n — low-code платформа для автоматизации с богатой экосистемой. Работает как в облаке, так и локально через Docker. Позволяет строить workflow с HTTP-запросами к Ollama. Не требует программирования для простых сценариев. Последний стабильный релиз — 1.78.0.

Модель. Тут выбор критичен. Не тащите Llama 3.1 70B на ноутбуке — сожрёт всю память и уснёт. Берите Qwen 2.5 Coder 7B (Q4_K_M) — отличный баланс скорости и качества для агентов. Если есть 16+ GB RAM, можно взять Qwen 2.5 14B — ещё разумнее. Для совсем слабых машин — Phi-3.5-mini 4B.

Важно: вы не привязаны к провайдеру. Все данные остаются у вас. Конфиденциальность? Максимальная. Никакие промпты не улетают в условный AWS.

2Установка Ollama — быстрее, чем вы думаете

Скачиваете с официального сайта (ollama.com). Для Linux — curl-скрипт, для macOS — .dmg, для Windows — инсталлятор. Я ставлю на Ubuntu 24.04:

curl -fsSL https://ollama.com/install.sh | sh
ollama serve  # запуск сервера

После старта сервер висит на localhost:11434. Сразу скачиваем модель:

ollama pull qwen2.5-coder:7b
# Или для 14B:
ollama pull qwen2.5:14b

Готово. $ ollama run qwen2.5-coder:7b — можно тестировать. Совет: для агента лучше использовать чистый инференс без интерактива. API работает из коробки.

3n8n — конвейер для вашего агента

Запускаем через Docker Compose (так надёжнее). Пишем docker-compose.yml:

version: '3.8'
services:
  n8n:
    image: n8nio/n8n:1.78.0
    ports:
      - "5678:5678"
    environment:
      - N8N_AI_ENABLED=true
      - N8N_AI_OLLAMA_BASE_URL=http://host.docker.internal:11434
    volumes:
      - ./n8n_data:/home/node/.n8n

Поднимаем: docker compose up -d. Заходим в браузер на localhost:5678. n8n попросит создать пользователя — сделайте.

Типичная ошибка: если n8n в контейнере, а Ollama на хосте, нужно указывать host.docker.internal. На Linux Docker 20.10+ по умолчанию не пробрасывает host.docker.internal — добавьте extra_hosts: - "host.docker.internal:host-gateway".

4Строим workflow агента — без кода (почти)

Создаём новый workflow. Добавляем триггер — например, Webhook или Schedule. Я возьму Manual Trigger для теста.

Далее — нода HTTP Request. Она будет стучаться к Ollama. Настройка:

Method: POST
URL: http://host.docker.internal:11434/api/chat

Body (JSON):

{
  "model": "qwen2.5-coder:7b",
  "messages": [
    {"role": "system", "content": "Ты — агент поддержки. Отвечай кратко и по делу."},
    {"role": "user", "content": "{{ $json.body }}"}
  ],
  "stream": false
}

Получаем ответ. Чтобы извлечь текст, добавьте ноду Code (JavaScript) или Set. В коде:

const body = $input.first().json;
const reply = body.message.content;
return { reply };

Готово. Запускаете — и агент отвечает на любой запрос. Всё локально, без единого вызова в интернет.

5Уровень PRO: добавляем память, инструменты и контекст

Голый chat — скучно. Агент должен помнить историю. В n8n можно сохранять контекст в переменные или Redis. Самый простой способ — добавить ноду Wait и хранить историю в JSON-файле. Но лучше использовать встроенный AI Agent ноду, которая появилась в n8n 1.75+. Она умеет работать с Ollama напрямую:

Drag & drop ноду AI Agent из палитры.
В настройках выберите Ollama Chat Model.
Укажите базовый URL: http://host.docker.internal:11434 и модель qwen2.5-coder:7b.
Добавьте инструменты: к примеру, Web Search через сервис SearXNG, или калькулятор через Code ноду.

Теперь агент может не только отвечать, но и выполнять действия: искать информацию, сохранять в базу, отправлять письма. Что-то подобное мы уже разбирали в пошаговом руководстве по созданию AI-агентов в n8n с локальными LLM.

💡

Для долгих сессий полезен Persistent REPL — он экономит контекст и не даёт агенту забыть, что было десять шагов назад.

6Когда локальный агент тупит (и что делать)

Реальность такова: 7B модель не напишет код уровня senior-разработчика и не переведёт Шекспира безупречно. Зато она справится с классификацией запросов, генерацией шаблонных ответов, извлечением сущностей. Если нужна генерация кода — берите DeepSeek-Coder-V2 16B или Qwen 2.5 Coder 14B. Для сложных рассуждений — Llama 3.2 8B.

Главные грабли:

Токенов мало. 7B модель обычно вмещает 8-32K контекста. Если ваш промпт с историей диалога разросся до 20K — агент начнёт «забывать» начало. Решение: правильный выбор модели и квантования.
Ollama жрёт память. Если модель постоянно выгружается, добавьте OLLAMA_KEEP_ALIVE=0 в переменные окружения, чтобы она не висела вечно. Или настройте num_ctx меньше.
n8n таймаутит запросы. Увеличьте timeout в настройках ноды HTTP Request до 120 секунд.

7Реальный кейс: агент для обработки заявок техподдержки

Допустим, вы работаете в компании, где клиенты присылают однотипные вопросы: «Как сбросить пароль?», «Где мой заказ?». Вместо того чтобы нанимать четырёх саппортов, вы делаете так:

Триггер — Webhook из CRM (например, AmoCRM или Bitrix24).
HTTP Request к Ollama — классифицируем запрос: сброс пароля / статус заказа / жалоба.
Далее ветвление: если сброс пароля — отвечаем инструкцией, если жалоба — пересылаем в отдел по email через ноду Email.
Всё. Работает 24/7, не устаёт, не просит зарплату.

Подробнее про реальные кейсы локальных LLM — в статье Локальные LLM в работе: реальные кейсы, которые меняют всё.

8Что завтра? (вместо заключения)

Локальные агенты — не игрушка. n8n уже интегрирует AI-ноды на уровне enterprise. Ollama добавляет поддержку vision-моделей. Через год мы будем запускать мультимодальных агентов на обычном ноутбуке. Но уже сегодня вы можете за один день собрать прототип, который сэкономит часы рутины. Не ждите идеального стека — берите и делайте. Если что-то пойдёт не так, перечитывайте раздел «Когда локальный агент тупит».

И да: не забудьте спрятать host.docker.internal за переменные окружения, когда будете деплоить в продакшн. А то коллеги потом найдут вашу локальную LLM и начнут генерировать мемы.

Подписаться на канал

Развёртывание ИИ-агента за один день: Ollama, n8n и локальная языковая модель