Почему я выкинул веб-интерфейсы и пересел в терминал

В 2026 году держать LLM в браузере — это как гонять на Ferrari по грунтовой дороге. Медленно, неудобно и дико раздражает. Если вы все еще копируете код из Claude Code или ждете, пока загрузится очередной веб-чат, вы теряете самое ценное — время. Настоящая магия локального ИИ происходит в терминале, где нет лагов, цензуры и лимитов на токены.

Особенно это касается разработчиков и админов. Нам нужен инструмент, который вшит в рабочий процесс: попросил — получил ответ, указал на файл — получил патч. Никаких переключений между окнами. Только консоль, модель и ваш код.

Важно: все инструменты в этом обзоре работают с локальными моделями через Ollama или llama.cpp. Ваши данные никуда не улетают. Это критично, если вы работаете с проприетарным кодом или конфиденциальными данными. О других подходах к приватности мы писали в статье Ollama vs другие: полный гид по запуску LLM офлайн.

Три кита терминального ИИ: aider, TUI Chat и cli-ai

У каждого инструмента своя философия. Один заточен под код, другой под диалог, третий под скорость. Выбрать не самый лучший, а самый подходящий — вот задача.

Инструмент	Суть	Идеальная модель	Боль
aider	Инженер по вызову. Читает вашу кодобазу, предлагает изменения, правит ошибки.	DeepSeek-Coder-V2.5, Llama 3.2 Coder	Может увлечься и переписать половину проекта.
TUI Chat (Ollama TUI)	Диалог в стиле старого доброго IRC. Минималистичный, быстрый, без отвлекающих элементов.	Qwen2.5-32B, Gemma 2 27B	Только чат. Никаких файлов, только текст.
cli-ai	Швейцарский нож. Быстрый запрос — быстрый ответ. Можно в пайплайны встраивать.	Phi-4, TinyLlama 1.5B	Слишком простой, иногда хочется больше контекста.

1 Aider: когда ИИ становится тимлидом

Aider — это не просто чат с подсветкой кода. Это полноценный коллега, который сидит у вас в терминале. Он умеет читать файлы из вашего проекта, понимать контекст изменений и предлагать конкретные правки в виде диффов, которые можно сразу применить.

Установка на Linux (актуально для версии 1.0.0+ на 2026 год):

pip install aider-chat

Базовый запуск с моделью через Ollama (предполагаем, что Ollama 0.6.0+ уже стоит):

aider --model ollama/deepseek-coder-v2.5

Вот где начинается магия. Вы говорите: "Добавь валидацию email в этот файл", и aider не только напишет код, но и предложит его применить. Вы смотрите дифф и говорите "yes". Все. Код в репозитории.

💡

Aider отлично работает с Git. Он сам добавляет изменения в stage, коммитит от вашего имени. Это одновременно и круто, и страшно. Всегда проверяйте диффы перед применением. Инструмент мощный, но не безгрешный.

2 TUI Chat: минимализм как искусство

Если aider — это рабочий станок, то TUI Chat (официальный интерфейс от Ollama) — это кресло для раздумий. Никаких картинок, кнопок, настроек. Только вы, модель и текст. Идеально для мозговых штурмов, конспектирования или просто разговоров.

Установка (идет в комплекте с Ollama):

# Устанавливаем Ollama, если еще нет
curl -fsSL https://ollama.com/install.sh | sh
# Запускаем TUI интерфейс
ollama run --tui qwen2.5:32b

Интерфейс использует стандартные Vim-подобные клавиши для навигации. / для поиска по истории, Ctrl+C для остановки генерации. Все как у взрослых. Скорость работы запредельная, потому что рендеринг — это буквы в терминале, а не тонны JavaScript.

3 cli-ai: снайперский выстрел

Иногда не нужен диалог. Иногда нужен ответ на один вопрос. Запускать для этого тяжелый интерактивный режим — overkill. cli-ai решает эту проблему. Это утилита, которая работает как классическая UNIX-утилита: stdin → обработка → stdout.

Установка через pip (версия 3.2.0+):

pip install cli-ai

Использование:

# Прямой запрос
cli-ai "Как настроить Nginx для WebSocket?"
# Конвейерная обработка
echo "Проверь грамматику этого текста" | cli-ai --model ollama/llama3.3

Его можно встроить в скрипты, использовать для автоматической обработки логов или генерации комментариев. Маленький, быстрый, предсказуемый.

Настройка под Linux: от железа до софта

Здесь все упирается в две вещи: правильную установку Ollama и настройку GPU. Если у вас RTX 4090 или, тем более, DGX Spark — вы обязаны выжать из них максимум.

1 Ставим и тюним Ollama

Ollama в 2026 году — де-факто стандарт для запуска моделей. Но из коробки он не всегда использует ресурсы оптимально.

# Официальная установка
curl -fsSL https://ollama.com/install.sh | sh

# Сразу пуляем модель для теста (актуальная на 2026 Llama 3.3 70B)
ollama pull llama3.3:70b

# Запускаем сервис с увеличенным количеством потоков и своим путем для моделей
sudo systemctl edit ollama.service

В редакторе добавляем:

[Service]
Environment="OLLAMA_NUM_PARALLEL=8"
Environment="OLLAMA_MODELS=/mnt/ssd/.ollama/models"

Это ускорит загрузку моделей и перенесет их на быстрый SSD.

2 GPU-ускорение: заставляем CUDA пахать

Ollama автоматически использует CUDA, если видит NVIDIA-драйверы. Но стоит проверить:

# Проверяем, что Ollama видит GPU
ollama run llama3.3:7b
# В ответе должно быть что-то вроде "total VRAM: 24576 MiB"

# Если нет, ставим драйверы заново (для Ubuntu 24.04+)
sudo apt install nvidia-driver-560 cuda-12-4 -y
sudo reboot

Для моделей семейства Qwen или DeepSeek, которые отлично работают на GPU, это критично. Разница в скорости может достигать 10 раз.

Не забывайте про квантование. Модель в 70B параметров в формате Q4_K_M займет около 40 ГБ и будет работать в разы быстрее полноценной версии с потерей качества в 1-2%. Для большинства задач этого более чем достаточно. Подробнее о выборе моделей читайте в нашем обзоре лучших LLM с поддержкой Tool Calling.

3 Интеграция с Neovim: точка сборки

Настоящий кайф начинается, когда вы встраиваете эти инструменты в Neovim. Не нужно переключаться между окнами. Все происходит внутри редактора.

Установите плагин aider.nvim или используйте ollama.nvim. Конфиг для Neovim (Lua):

-- ~/.config/nvim/init.lua
-- Интеграция aider
vim.api.nvim_create_user_command('Aider', function()
  local cmd = "aider --model ollama/deepseek-coder-v2.5 " .. vim.fn.expand('%:p')
  vim.fn.termopen(cmd)
end, {})

-- Интеграция Ollama для быстрых запросов
vim.keymap.set('v', 'ai', ':!ollama run llama3.3', { noremap = true, silent = true })

Теперь выделяете код, жмете ,ai и получаете объяснение или рефакторинг прямо в буфере.

Где все ломается: частые ошибки и их решение

"Ollama не видит GPU". 99% случаев — проблема с драйверами. Удалите все следы nvidia (sudo apt purge nvidia-*) и поставьте заново из официального репозитория. Проверьте nvidia-smi.
"aider переписал не тот файл". Он работает с файлами, которые вы ему явно указали или которые есть в Git. Всегда запускайте его из корня проекта и проверяйте список файлов, которые он "видит" (команда /files внутри aider).
"Модель жрет всю память и падает". Не пытайтесь запустить 70B модель на 16 ГБ ОЗУ. Используйте квантованные версии (Q4, Q5) или меньшие модели (7B, 13B). Или докупайте память. Волшебства нет.
"TUI Chat тормозит при длинных ответах". Это не тормоза, это модель думает. Увеличьте параметр num_ctx в Ollama (через Modelfile) или выберите более быструю модель.

💡

Если вы хотите пойти дальше простого чата и построить вокруг локальной LLM целую систему (например, для стенографирования встреч), посмотрите наш гайд по AnythingLLM Meeting Assistant. Там все серьезно.

Что будет завтра? (Неочевидный прогноз)

Тренд 2026 года — не увеличение параметров, а специализация. Появятся микро-инструменты, заточенные под одну задачу: например, LLM для ревью пулл-реквестов, которая работает только с diff'ами, или инструмент для автоматического написания тестов, который понимает coverage.

Интеграция станет еще глубже. Aider научится работать не с файлами, а с абстрактным синтаксическим деревом, что позволит делать рефакторинг безопаснее. TUI-интерфейсы начнут поддерживать мультимодальность прямо в терминале (да, картинки в ASCII уже не за горами).

А самый главный сдвиг: эти инструменты перестанут быть уделом гиков. Они войдут в стандартный набор любого разработчика, как вошёл Git. И те, кто освоит их сейчас, получат фору в пару лет. Время начинать.

Обзор терминальных инструментов для локальных LLM: сравнение aider, TUI Chat, cli-ai и настройка под Linux