Llama 3.2 на CPU: тест 1B и 3B моделей для замены Google в терминале | AiManual
AiManual Logo Ai / Manual.
27 Янв 2026 Гайд

Замена Google в терминале: тест производительности Llama 3.2 (1B, 3B) на CPU Intel без видеокарты

Практический гайд по запуску локальных LLM Llama 3.2 (1B, 3B) на процессоре Intel без видеокарты. Замеры скорости, инструкция по установке и интеграции в консол

Перестаньте тыкать в браузер. Ваш терминал уже умнее

Вы снова открыли новую вкладку, набрали "как убить зомби-процесс в Linux" и ждете, пока Google выдаст вам десять однотипных ответов с сайтов 2015 года. А тем временем ваш восьмиядерный Intel i7 зевает от скуки. Почему бы не спросить у него самого? Не через облако, не через API, а прямо здесь, в консоли, за пару секунд. Сегодня мы заставим Llama 3.2 работать на голом CPU так быстро, что вы забудете про поисковики для половины рутинных вопросов.

💡
На 27.01.2026 Llama 3.2 остается одной из самых сбалансированных открытых моделей для CPU-инференса. Ее 1-миллиардная и 3-миллиардная версии — это золотая середина между скоростью и адекватностью ответов для терминальных задач.

Зачем это вообще нужно? (Спойлер: не только для понтов)

Потому что контекст — это все. Вы пишете скрипт на Python, и вам нужно быстро вспомнить синтаксиз f-строк. Или ищете опцию для команды ffmpeg, которую использовали на прошлой неделе. Переключение на браузер, ожидание загрузки, клики по рекламным ссылкам — это отнимает 30-40 секунд чистого времени. Локальная модель в терминале отвечает за 2-3 секунды. И делает это без отправки ваших данных на сервер Meta, Google или куда-либо еще.

Не ждите от 3B-модели философских трактатов или написания бизнес-плана. Ее сила — в быстрых, фактологических ответах на технические вопросы. Для сложных рассуждений смотрите в сторону больших моделей, но будьте готовы к минутам ожидания.

Что у нас под капотом? Железо и софт

Тестировал на двух конфигурациях, которые есть у половины разработчиков:

  • Основная машина: Intel Core i7-12700K (12 ядер, 20 потоков), 32 ГБ DDR4, без дискретной видеокарты. Чистый CPU.
  • Старый ноутбук: Intel Core i5-1135G7 (4 ядра, 8 потоков), 16 ГБ DDR4, интегрированная графика Iris Xe.

ОС — Ubuntu 24.04 LTS. Почему? Потому что Linux дает прямой доступ к инструкциям процессора и выжимает из llama.cpp на 30-50% больше соков, чем Windows. Если вы на Windows — поставьте WSL2, иначе теряете львиную долю производительности.

1 Ставим движок: llama.cpp против Ollama

Есть два пути: собрать llama.cpp из исходников (максимум скорости) или использовать готовый Ollama (максимум простоты). Я покажу оба, но для тестов использовал llama.cpp.

# Путь 1: Сборка llama.cpp с поддержкой AVX2 (для большинства Intel)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j8

# Путь 2: Установка Ollama (одна команда)
curl -fsSL https://ollama.ai/install.sh | sh

Ollama проще, но добавляет свою обертку и иногда съедает 5-10% производительности. Для чистого эксперимента — только llama.cpp. Если не хотите возиться с компиляцией, Ollama скачивается за минуту.

2 Качаем правильные модели. Квантование — это магия

Не берите первые попавшиеся файлы. Нам нужен формат GGUF с квантованием Q4_K_M. Это оптимально для качества и скорости.

  • Llama 3.2 1B Instruct: ~600 МБ
  • Llama 3.2 3B Instruct: ~1.7 ГБ

Качаем с Hugging Face:

# Пример для 3B модели
wget https://huggingface.co/bartowski/Meta-Llama-3.2-3B-Instruct-GGUF/resolve/main/Meta-Llama-3.2-3B-Instruct-Q4_K_M.gguf

Квантование Q4_K_M сжимает модель до 4 бит на параметр, но сохраняет групповые статистики для точности. Потери в качестве против полной версии (FP16) минимальны — человек не заметит. А скорость вырастает в 3-4 раза. Не используйте Q2_K или Q3_K — для таких маленьких моделей потеря качества будет чувствительной.

3 Первый запуск и настройка параметров

Запускаем модель в интерактивном режиме, чтобы почувствовать скорость:

./main -m Meta-Llama-3.2-3B-Instruct-Q4_K_M.gguf \
  -n 256 \
  -t 8 \
  -c 2048 \
  --temp 0.7 \
  --repeat_penalty 1.1 \
  -p "Ты — ассистент в терминале. Отвечай кратко и по делу. Как убить процесс по имени?"

Ключевые флаги:

  • -t 8: количество потоков CPU. Ставьте количество физических ядер (не потоков!). Для i7-12700K я ставлю 12.
  • -c 2048: размер контекста. Для 1B/3B моделей больше 4096 не нужно — они начинают тормозить.
  • --temp 0.7: температура. Чем ниже, тем более предсказуемые ответы. Для фактов ставьте 0.1-0.3.

Цифры, которые имеют значение. Тест производительности

Замерял скорость генерации (токенов в секунду) на двух моделях с промптом "Напиши команду для поиска файлов измененных за последние 7 дней".

Модель / Конфигурация i7-12700K (12 ядер) i5-1135G7 (4 ядра) Потребление RAM
Llama 3.2 1B Q4_K_M 85-95 токенов/сек 32-38 токенов/сек ~700 МБ
Llama 3.2 3B Q4_K_M 45-55 токенов/сек 18-22 токенов/сек ~1.8 ГБ

Что это значит на практике? 1B модель выдает ответ из 50 токенов (примерно 2-3 предложения) за полсекунды на мощном CPU и за 1.5 секунды на ноутбуке. 3B модель — за 1 секунду и 2.5 секунды соответственно. Это быстрее, чем вы достанете телефон и разблокируете экран.

💡
Для сравнения: Gemma 3 270M на том же i7 выдает около 120 токенов/сек, но ее знания и способность понимать промпты заметно слабее. Llama 3.2 1B умнее, хоть и немного медленнее.

4 Интеграция в терминал: делаем алиас для мгновенных ответов

Постоянно запускать ./main с кучей флагов неудобно. Пишем простой bash-скрипт.

#!/bin/bash
# Файл: ~/bin/ask
MODEL_PATH="/path/to/Meta-Llama-3.2-1B-Instruct-Q4_K_M.gguf"
/path/to/llama.cpp/main -m $MODEL_PATH -t 12 -c 2048 --temp 0.1 -p "Ты — помощник в терминале. Отвечай максимально кратко, только факты. ${*}" -n 128

Делаем исполняемым и добавляем алиас в ~/.bashrc или ~/.zshrc:

chmod +x ~/bin/ask
echo "alias ask='~/bin/ask'" >> ~/.zshrc
source ~/.zshrc

Теперь в терминале просто пишем:

ask как проверить открытые порты на ubuntu

И через секунду получаете ответ: "Команда: sudo netstat -tulpn или ss -tulpn".

Где собака зарыта: нюансы и грабли

Все выглядит гладко, пока не упретесь в эти моменты:

  • Качество ответов. 1B модель может уверенно генерировать неправильные команды. Всегда проверяйте, особенно если дело касается rm -rf или изменения системных файлов. 3B модель надежнее, но тоже не идеальна.
  • Память. 3B модель в полном контексте (4096 токенов) может съесть до 3.5 ГБ ОЗУ. Убедитесь, что у вас есть запас. На ноутбуке с 8 ГБ лучше использовать 1B версию.
  • Первое слово (prefill). Самое большое замедление — обработка вашего промпта (prefill stage). На слабом CPU это может занять 2-3 секунды для 3B модели. Сама генерация потом идет быстро.
  • Инструкции CPU. Если ваш процессор поддерживает AVX-512 (некоторые Intel 10-11 поколений и новее), соберите llama.cpp с поддержкой AVX-512. Это даст еще 15-20% скорости. Но не на всех системах — иногда из-за троттлинга эффект обратный.

Самая частая ошибка — запуск с количеством потоков (-t) больше, чем физических ядер. Это не ускорит генерацию, а замедлит из-за накладных расходов на переключение контекста. Используйте `nproc` или `lscpu` чтобы узнать реальное количество ядер.

А что с альтернативами? LM Studio и другие обертки

Если не хотите трогать терминал, есть LM Studio — графическая оболочка для локальных LLM. Качаете модель через интерфейс, настраиваете ползунки и общаетесь в чате. Удобно для тестирования, но для интеграции в рабочий процесс терминала не подходит. Да и накладные расходы выше.

Для промышленного использования с несколькими пользователями смотрите в сторону vLLM или специализированных бэкендов, но там уже нужна видеокарта.

Итог: стоит ли игра свеч?

Если вы системный администратор, разработчик или просто фанат автоматизации — однозначно да. Llama 3.2 1B на современном Intel CPU — это молниеносный карманный справочник, который не лезет в интернет и не продает ваши запросы. Он ошибается, но для десятка ежедневных рутинных вопросов работает идеально.

Через год, когда выйдут 5B модели с качеством нынешних 10B, эта технология станет стандартом для любого продвинутого терминала. Начните привыкать к ней сейчас. Перестаньте кормить поисковых гигантов вашими простыми запросами. Ваш CPU справится сам.