Зачем llama.cpp превращается в агента?

В 2026 году граница между локальными и облачными моделями стирается. Но пока все бегают за GPT-5.5 Turbo или Claude 4, кто-то тихо дорабатывает старый добрый llama.cpp. И делает это чертовски умно.

💡

Model Context Protocol (MCP) – стандарт от Anthropic для подключения внешних инструментов к LLM. Сервера MCP дают доступ к файлам, базам данных, API. Клиент MCP в llama.cpp – это мост между вашей локальной моделью и этими инструментами.

Представьте: вы в терминале, запускаете llama-cli с моделью типа Devstral Small 3 или CodeLlama 70B. Модель видит ваш код, может его редактировать, запускать тесты, делать коммиты в Git. Без плагинов, без веб-интерфейсов. Просто терминал и ваша локальная модель, которая внезапно научилась работать с реальным миром.

Что умеет MCP-клиент в llama.cpp?

Текущая реализация (на 05.02.2026) поддерживает:

Подключение к любым MCP-серверам через stdio или HTTP
Автоматическое описание доступных инструментов для модели
Обработку вызовов инструментов и возврат результатов в контекст
Поддержку серверов вроде Serena (для работы с файлами и кодом)
Интеграцию с существующим API llama.cpp без переписывания кода

Важно: MCP-клиент в llama.cpp – это не замена полноценным IDE-плагинам. Это минималистичный подход для тех, кто живёт в терминале и не хочет переключаться между окнами.

Как это работает технически?

MCP-клиент встраивается в цикл инференса llama.cpp. Когда модель генерирует текст и встречает специальный токен (обычно ), клиент парсит запрос, вызывает соответствующий инструмент через MCP-сервер, получает результат и вставляет его обратно в контекст.

Проще говоря: модель говорит "прочитай файл main.py", MCP-клиент передаёт запрос серверу Serena, получает содержимое файла, и модель продолжает работу уже с этим контекстом.

1 Установка и сборка с поддержкой MCP

Сначала нужно собрать llama.cpp с поддержкой MCP. Если у вас версия старше 2026 года – обновитесь. MCP-клиент стал стандартной фичей в основной ветке.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make clean
make LLAMA_MCP=1 -j$(nproc)

Флаг LLAMA_MCP=1 включает компиляцию MCP-клиента. Если его нет в вашей версии – значит, вы используете устаревший код. На 05.02.2026 он должен быть в основном репозитории.

2 Настройка MCP-серверов

Теперь нужно запустить MCP-сервер. Самый популярный для кодинга – Serena. Устанавливаем его отдельно:

pip install serena-mcp-server
serena-server --stdio

Сервер запустится в режиме stdio – именно так с ним общается llama.cpp. Если нужно больше инструментов, можно подключить несколько серверов через конфигурационный файл.

💡

Serena даёт доступ к файловой системе, Git, запуску команд, поиску в коде. Есть и другие серверы – для работы с SQL, веб-поиском, календарём. Экосистема MCP в 2026 году разрослась до десятков специализированных серверов.

3 Запуск llama-cli с MCP

Вот где начинается магия. Запускаем модель с подключением к MCP:

./llama-cli -m models/devstral-small-3.Q5_K_M.gguf \
  --mcp-server "serena" \
  --mcp-transport stdio \
  --mcp-command "serena-server --stdio" \
  --ctx-size 16384 \
  -p "Проанализируй текущий проект и предложи улучшения"

Ключевые флаги:

--mcp-server – имя сервера (используется в промптах модели)
--mcp-transport – способ связи (stdio или http)
--mcp-command – команда запуска сервера
--ctx-size 16384 – увеличенный контекст для работы с файлами

Пример реального использования

Допустим, вы работаете над Python-проектом. Запускаете llama-cli с MCP и говорите:

./llama-cli -m models/codellama-70b.Q4_K_M.gguf \
  --mcp-server "serena" \
  --mcp-command "serena-server --stdio" \
  -p "Найди все функции без docstring в текущей директории и сгенерируй для них документацию"

Модель через MCP-клиент запросит у сервера Serena список файлов, прочитает их, найдет функции без документации и предложит варианты docstring. Вы можете принять изменения или попросить переписать.

Или более сложный сценарий:

./llama-cli -m models/deepseek-coder-33b.Q6_K.gguf \
  --mcp-server "serena" \
  --mcp-command "serena-server --stdio" \
  -p "Проверь, есть ли незакоммиченные изменения в Git. Если есть – создай коммит с осмысленным сообщением на основе diff"

Чем это лучше альтернатив?

Инструмент	Плюсы	Минусы
llama.cpp + MCP	Локально, бесплатно, работает в терминале, гибкая настройка	Требует сборки, меньше готовых инструментов
PocketCoder	Готовое решение, красивый интерфейс	Тяжелее, требует больше ресурсов
Самописные агенты на Python	Полный контроль, можно сделать что угодно	Нужно писать код, поддерживать
Claude Code / Cursor	Отличное качество, много фич	Платно, облачно, нет контроля

Главное преимущество llama.cpp с MCP – минимализм. Нет веб-сервера, нет баз данных, нет лишних зависимостей. Просто бинарник, модель и MCP-сервер. Если сервер упал – перезапускаете. Если модель тупит – меняете на другую. Всё под контролем.

Проблемы и подводные камни

Не всё так гладко. Вот с чем столкнётесь:

Контекст съедает память. Каждый вызов инструмента добавляет данные в контекст. Через 10-20 операций контекст переполняется. Решение: использовать модели с большим контекстом или периодически очищать историю.
Модели иногда "галлюцинируют" с инструментами. Могут вызвать несуществующий инструмент или неправильно передать параметры. Требуется точная настройка промптов.
MCP-серверы нестабильны. Особенно самописные. Сервер может упасть в середине работы, и модель останется без инструментов.
Нет состояния между сессиями. Закрыли терминал – история общения потеряна. В отличие от более продвинутых систем, которые сохраняют контекст.

Совет: начните с простых операций. Не пытайтесь заставить модель рефакторить весь проект сразу. Дайте ей прочитать один файл, внести изменения, проверить результат. Постепенно увеличивайте сложность.

Для кого это вообще нужно?

Эта связка идеально подойдёт:

Терминальным маньякам, которые ненавидят мышь и IDE. Всё через CLI, всё под контролем.
Разработчикам на слабом железе. llama.cpp работает даже на Raspberry Pi. MCP добавляет функциональность без тяжёлых IDE.
Любителям приватности. Весь код обрабатывается локально. Никаких отправок в облако.
Экспериментаторам, которые хотят собирать агентов из LEGO и тестировать разные комбинации моделей и инструментов.

Не подойдёт тем, кто ждёт готового продукта уровня Cursor или GitHub Copilot. Здесь нужно возиться, настраивать, дебажить. Это инструмент для тех, кому нравится процесс настройки больше, чем результат.

Что будет дальше?

К 05.02.2026 интеграция MCP в llama.cpp ещё сыровата. Но тренд очевиден: локальные модели учатся работать с внешним миром. В ближайшем будущем ждём:

Поддержку нескольких MCP-серверов одновременно (уже в тестировании)
Интеграцию с Messages API для совместимости с существующими агентами
Автоматическое управление контекстом (очистка старых вызовов инструментов)
Готовые конфигурации для популярных задач (рефакторинг, дебаг, документация)

Самый интересный сценарий – комбинация с MCP-сервером для IDE. Запускаете llama.cpp в терминале, а он через MCP работает с IntelliJ IDEA, получая доступ к индексации кода, рефакторингам, статическому анализу. Локальная модель с возможностями JetBrains – звучит как фантастика, но технически уже возможно.

Пока все спорят, какая облачная модель лучше, llama.cpp тихо становится платформой для локальных агентов. Не самый удобный, не самый красивый, но свой. И в этом его главная сила.

Интеграция MCP-клиента в llama.cpp: как превратить llama-cli в агента для кодинга