Перестаньте тыкать в браузер. Ваш терминал уже умнее

Вы снова открыли новую вкладку, набрали "как убить зомби-процесс в Linux" и ждете, пока Google выдаст вам десять однотипных ответов с сайтов 2015 года. А тем временем ваш восьмиядерный Intel i7 зевает от скуки. Почему бы не спросить у него самого? Не через облако, не через API, а прямо здесь, в консоли, за пару секунд. Сегодня мы заставим Llama 3.2 работать на голом CPU так быстро, что вы забудете про поисковики для половины рутинных вопросов.

💡

На 27.01.2026 Llama 3.2 остается одной из самых сбалансированных открытых моделей для CPU-инференса. Ее 1-миллиардная и 3-миллиардная версии — это золотая середина между скоростью и адекватностью ответов для терминальных задач.

Зачем это вообще нужно? (Спойлер: не только для понтов)

Потому что контекст — это все. Вы пишете скрипт на Python, и вам нужно быстро вспомнить синтаксиз f-строк. Или ищете опцию для команды ffmpeg, которую использовали на прошлой неделе. Переключение на браузер, ожидание загрузки, клики по рекламным ссылкам — это отнимает 30-40 секунд чистого времени. Локальная модель в терминале отвечает за 2-3 секунды. И делает это без отправки ваших данных на сервер Meta, Google или куда-либо еще.

Не ждите от 3B-модели философских трактатов или написания бизнес-плана. Ее сила — в быстрых, фактологических ответах на технические вопросы. Для сложных рассуждений смотрите в сторону больших моделей, но будьте готовы к минутам ожидания.

Что у нас под капотом? Железо и софт

Тестировал на двух конфигурациях, которые есть у половины разработчиков:

Основная машина: Intel Core i7-12700K (12 ядер, 20 потоков), 32 ГБ DDR4, без дискретной видеокарты. Чистый CPU.
Старый ноутбук: Intel Core i5-1135G7 (4 ядра, 8 потоков), 16 ГБ DDR4, интегрированная графика Iris Xe.

ОС — Ubuntu 24.04 LTS. Почему? Потому что Linux дает прямой доступ к инструкциям процессора и выжимает из llama.cpp на 30-50% больше соков, чем Windows. Если вы на Windows — поставьте WSL2, иначе теряете львиную долю производительности.

1 Ставим движок: llama.cpp против Ollama

Есть два пути: собрать llama.cpp из исходников (максимум скорости) или использовать готовый Ollama (максимум простоты). Я покажу оба, но для тестов использовал llama.cpp.

# Путь 1: Сборка llama.cpp с поддержкой AVX2 (для большинства Intel)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j8

# Путь 2: Установка Ollama (одна команда)
curl -fsSL https://ollama.ai/install.sh | sh

Ollama проще, но добавляет свою обертку и иногда съедает 5-10% производительности. Для чистого эксперимента — только llama.cpp. Если не хотите возиться с компиляцией, Ollama скачивается за минуту.

2 Качаем правильные модели. Квантование — это магия

Не берите первые попавшиеся файлы. Нам нужен формат GGUF с квантованием Q4_K_M. Это оптимально для качества и скорости.

Llama 3.2 1B Instruct: ~600 МБ
Llama 3.2 3B Instruct: ~1.7 ГБ

Качаем с Hugging Face:

# Пример для 3B модели
wget https://huggingface.co/bartowski/Meta-Llama-3.2-3B-Instruct-GGUF/resolve/main/Meta-Llama-3.2-3B-Instruct-Q4_K_M.gguf

Квантование Q4_K_M сжимает модель до 4 бит на параметр, но сохраняет групповые статистики для точности. Потери в качестве против полной версии (FP16) минимальны — человек не заметит. А скорость вырастает в 3-4 раза. Не используйте Q2_K или Q3_K — для таких маленьких моделей потеря качества будет чувствительной.

3 Первый запуск и настройка параметров

Запускаем модель в интерактивном режиме, чтобы почувствовать скорость:

./main -m Meta-Llama-3.2-3B-Instruct-Q4_K_M.gguf \
  -n 256 \
  -t 8 \
  -c 2048 \
  --temp 0.7 \
  --repeat_penalty 1.1 \
  -p "Ты — ассистент в терминале. Отвечай кратко и по делу. Как убить процесс по имени?"

Ключевые флаги:

-t 8: количество потоков CPU. Ставьте количество физических ядер (не потоков!). Для i7-12700K я ставлю 12.
-c 2048: размер контекста. Для 1B/3B моделей больше 4096 не нужно — они начинают тормозить.
--temp 0.7: температура. Чем ниже, тем более предсказуемые ответы. Для фактов ставьте 0.1-0.3.

Цифры, которые имеют значение. Тест производительности

Замерял скорость генерации (токенов в секунду) на двух моделях с промптом "Напиши команду для поиска файлов измененных за последние 7 дней".

Модель / Конфигурация	i7-12700K (12 ядер)	i5-1135G7 (4 ядра)	Потребление RAM
Llama 3.2 1B Q4_K_M	85-95 токенов/сек	32-38 токенов/сек	~700 МБ
Llama 3.2 3B Q4_K_M	45-55 токенов/сек	18-22 токенов/сек	~1.8 ГБ

Что это значит на практике? 1B модель выдает ответ из 50 токенов (примерно 2-3 предложения) за полсекунды на мощном CPU и за 1.5 секунды на ноутбуке. 3B модель — за 1 секунду и 2.5 секунды соответственно. Это быстрее, чем вы достанете телефон и разблокируете экран.

💡

Для сравнения: Gemma 3 270M на том же i7 выдает около 120 токенов/сек, но ее знания и способность понимать промпты заметно слабее. Llama 3.2 1B умнее, хоть и немного медленнее.

4 Интеграция в терминал: делаем алиас для мгновенных ответов

Постоянно запускать ./main с кучей флагов неудобно. Пишем простой bash-скрипт.

#!/bin/bash
# Файл: ~/bin/ask
MODEL_PATH="/path/to/Meta-Llama-3.2-1B-Instruct-Q4_K_M.gguf"
/path/to/llama.cpp/main -m $MODEL_PATH -t 12 -c 2048 --temp 0.1 -p "Ты — помощник в терминале. Отвечай максимально кратко, только факты. ${*}" -n 128

Делаем исполняемым и добавляем алиас в ~/.bashrc или ~/.zshrc:

chmod +x ~/bin/ask
echo "alias ask='~/bin/ask'" >> ~/.zshrc
source ~/.zshrc

Теперь в терминале просто пишем:

ask как проверить открытые порты на ubuntu

И через секунду получаете ответ: "Команда: sudo netstat -tulpn или ss -tulpn".

Где собака зарыта: нюансы и грабли

Все выглядит гладко, пока не упретесь в эти моменты:

Качество ответов. 1B модель может уверенно генерировать неправильные команды. Всегда проверяйте, особенно если дело касается rm -rf или изменения системных файлов. 3B модель надежнее, но тоже не идеальна.
Память. 3B модель в полном контексте (4096 токенов) может съесть до 3.5 ГБ ОЗУ. Убедитесь, что у вас есть запас. На ноутбуке с 8 ГБ лучше использовать 1B версию.
Первое слово (prefill). Самое большое замедление — обработка вашего промпта (prefill stage). На слабом CPU это может занять 2-3 секунды для 3B модели. Сама генерация потом идет быстро.
Инструкции CPU. Если ваш процессор поддерживает AVX-512 (некоторые Intel 10-11 поколений и новее), соберите llama.cpp с поддержкой AVX-512. Это даст еще 15-20% скорости. Но не на всех системах — иногда из-за троттлинга эффект обратный.

Самая частая ошибка — запуск с количеством потоков (-t) больше, чем физических ядер. Это не ускорит генерацию, а замедлит из-за накладных расходов на переключение контекста. Используйте `nproc` или `lscpu` чтобы узнать реальное количество ядер.

А что с альтернативами? LM Studio и другие обертки

Если не хотите трогать терминал, есть LM Studio — графическая оболочка для локальных LLM. Качаете модель через интерфейс, настраиваете ползунки и общаетесь в чате. Удобно для тестирования, но для интеграции в рабочий процесс терминала не подходит. Да и накладные расходы выше.

Для промышленного использования с несколькими пользователями смотрите в сторону vLLM или специализированных бэкендов, но там уже нужна видеокарта.

Итог: стоит ли игра свеч?

Если вы системный администратор, разработчик или просто фанат автоматизации — однозначно да. Llama 3.2 1B на современном Intel CPU — это молниеносный карманный справочник, который не лезет в интернет и не продает ваши запросы. Он ошибается, но для десятка ежедневных рутинных вопросов работает идеально.

Через год, когда выйдут 5B модели с качеством нынешних 10B, эта технология станет стандартом для любого продвинутого терминала. Начните привыкать к ней сейчас. Перестаньте кормить поисковых гигантов вашими простыми запросами. Ваш CPU справится сам.

Замена Google в терминале: тест производительности Llama 3.2 (1B, 3B) на CPU Intel без видеокарты