Когда все модели одинаково серы, на помощь приходит секундомер

Загрузили пятую модель за вечер. Llama 3.3, Mistral 2.5, какая-то экспериментальная Qwen2.7. Интерфейс LM Studio выглядит идентично для каждой, ответы звучат похоже. А вот время генерации прыгает от 12 до 45 токенов в секунду. Где правда? Какую модель оставить для реальной работы, а какую — выбросить в корзину вместе с потраченными гигабайтами?

Ответ лежит не в красивых оболочках, а в консоли. Инструмент llama-bench из экосистемы llama.cpp — это та самая машина истины для владельцев Mac на Apple Silicon. Я прогнал через него 37 популярных моделей в формате GGUF с квантованием Q4_K_M на MacBook Air с чипом M5. Результаты удивят. А инструкция — спасет вам вечер.

На что смотреть в 2026: Квантование Q4_K_M — это золотая середина между скоростью и качеством. Более агрессивные квантования (Q2, Q3) экономят память, но могут "ломать" логику модели. Более точные (Q5, Q6) почти не дают выигрыша в качестве на фоне Q4_K_M, но заметно медленнее. Для Mac с унифицированной памятью — это стандарт де-факто.

Что такое llama-bench и почему он не похож на другие бенчмарки

Не путать с синтетическими тестами вроде MMLU или Hellaswag. Llama-bench — низкоуровневый инструмент, который измеряет именно скорость инференса. Он не оценивает интеллект модели. Он отвечает на один вопрос: как быстро ваше железо будет генерировать текст после того, как модель уже загружена в память.

Работает просто: он делает несколько "прогревов", а затем замеряет время генерации заданного количества токенов. На выходе — чистые цифры: токенов в секунду (t/s) для обработки промпта (prompt) и для собственно генерации (generation). Первый показатель важен для задач с большим контекстом, второй — для чатов и длинных ответов.

Альтернативы? Их почти нет. Встроенные бенчмарки в LM Studio слишком абстрактны. Специализированные фреймворки вроде MLCommons слишком сложны для рядового пользователя. Llama-bench — это инструмент из мира llama.cpp, где все прозрачно и контролируемо.

37 моделей, один MacBook Air M5: кто быстрее всех?

Тестовая конфигурация: MacBook Air 15" (2025) на базе Apple M5 с 16 ГБ унифицированной памяти. macOS Sequoia 15.4. Все модели в формате GGUF, квантование Q4_K_M, загружены через официальные репозитории на Hugging Face. Размер контекста — 4096 токенов. Замер — скорость генерации (t/s).

Модель (Размер)	Скорость генерации (t/s)	Заметки
Qwen2.5-Coder-1.5B	112.4	Абсолютный рекордсмен. Но 1.5B параметров — это скорее игрушка.
Phi-4-Micro (3.8B)	89.7	Неожиданно быстрая модель от Microsoft. Идеальна для сценариев с Tool Calling.
Llama 3.2 Vision (11B)	45.2	Мультимодальная, но все еще шустрая. Для работы с изображениями и текстом.
Mistral 2.5-Instruct (12B)	41.8	Баланс скорости и ума. Работает стабильно на любых промптах.
Gemma 3-IT (9B)	48.6	Оптимизирована под инструкции. В чатах чувствуется ее отзывчивость.
DeepSeek-Coder-V3 (7B)	52.1	Лучший выбор для программиста. Пишет код почти без задержек.
Llama 3.3-Instruct (70B)	14.3	Тяжеловес. Скорость низкая, но качество ответов часто того стоит.
Qwen2.5-Math (32B)	18.9	Специалист по математике. Для своих задач — оптимальна.

Полная таблица из 37 строк — это отдельная история. Но главный тренд 2026 года очевиден: модели размером 7-12B параметров захватили золотую середину. Они умнее мелких моделей, но все еще летают на железе уровня MacBook Air. Гиганты вроде Llama 3.3 70B требуют уже MacBook Pro с 48 ГБ памяти, а их скорость заставляет заварить кофе в ожидании ответа.

Внимание на память: MacBook Air M5 с 16 ГБ памяти — это не универсальный солдат. Модели больше 14B параметров в Q4_K_M уже активно используют своп. Это тормозит не только LLM, но и всю систему. Если планируете работать с большими моделями, смотрите в сторону MacBook Pro с увеличенной памятью. Это не реклама, а суровая реальность нейросетевых вычислений.

Шаг за шагом: запускаем llama-bench на своем Mac

1 Установка llama.cpp — фундамент

Llama-bench — часть проекта llama.cpp. Ставить лучше через Homebrew, это проще и даст актуальную версию (на апрель 2026 это llama.cpp 2.8.1). Открываем Terminal и вбиваем две команды:

brew install llama.cpp

Проверяем, что установка прошла успешно:

llama-bench --version

2 Подготовка модели в формате GGUF

Llama-bench не умеет скачивать модели сам. Нужен готовый файл .gguf. Проще всего взять его из LlamaBarn или скачать вручную с Hugging Face. Например, для теста Mistral 2.5 12B:

# Переходим в папку, где храним модели
cd ~/Models
# Скачиваем модель (пример для Mistral 2.5 12B Q4_K_M)
wget https://huggingface.co/mistralai/Mistral-2.5-12B-Instruct-GGUF/resolve/main/mistral-2.5-12b-instruct.Q4_K_M.gguf

💡

Не знаете, какую модель тестировать первую? Начните с Mistral 2.5 12B или Llama 3.2 11B. Они показывают отличный баланс и есть на любом модельном хабе. Для специализированных задач вроде перевода сложных текстов посмотрите наше сравнение LLM и традиционного перевода.

3 Запуск бенчмарка и чтение результатов

Базовая команда выглядит просто. Указываем путь к модели и размер контекста (например, 4096):

llama-bench -m ~/Models/mistral-2.5-12b-instruct.Q4_K_M.gguf -c 4096

Инструмент проведет серию тестов и выдаст что-то вроде:

\n------------------------------------\nBenchmark results for mistral-2.5-12b-instruct.Q4_K_M.gguf\n\nPrompt processing speed: 85.2 t/s\nText generation speed: 41.8 t/s\n\nSystem: Apple M5, 16 GB RAM, macOS 15.4\nModel size: 12B params, 7.2 GB (Q4_K_M)\n------------------------------------\n

Prompt processing speed — сколько токенов в секунду система может "проглотить" из вашего промпта. Важно, если вы загружаете в контекст длинные документы. Text generation speed — скорость, с которой модель выдает ответ. Это главная цифра для чатов.

4 Продвинутые флаги: тестируем по-взрослому

Базовый запуск хорош для быстрой проверки. Но чтобы понять поведение модели под нагрузкой, добавьте флаги:

llama-bench -m ~/Models/model.gguf -c 8192 -t 8 -n 512 -ngl 99

-t 8: Количество потоков CPU. Обычно ставьте равным количеству производительных ядер (для M5 это 8).
-n 512: Количество токенов для генерации. Чем больше, тем стабильнее средний показатель.
-ngl 99: Количество слоев, которые будут загружены на GPU (Neural Engine). 99 — это "все, что можно". На Apple Silicon это серьезно ускоряет работу.

А что, если я не дружу с терминалом?

Тогда llama-bench — не ваш инструмент. Серьезно. Но это не значит, что вы не можете тестировать модели. Просто делайте это через графические интерфейсы, которые дают хотя бы примерные цифры.

LM Studio: В раздере "Model Configuration" есть вкладка "Benchmark". Цифры будут немного завышены (они измеряют скорость внутри своей оптимизированной среды), но для относительного сравнения моделей на одном компьютере — сойдет.
LlamaBarn: Наше любимое приложение для Mac, о котором мы уже писали, показывает скорость генерации прямо в интерфейсе чата. Не так точно, зато наглядно.

Но запомните: все эти оболочки — всего лишь фронтенд к тому же llama.cpp. Их цифры всегда будут вторичны.

Для кого этот инструмент — молитва, а для кого — бесполезный шум

Садитесь за llama-bench, если вы:

Инженер или исследователь, которому нужно сравнить эффективность разных квантований или сборок llama.cpp.
Пользователь, выбирающий между 5 похожими моделями для постоянной работы. Цифры помогут принять решение.
Владелец нескольких устройств на Apple Silicon, который хочет понять, какое из них лучше справляется с нейросетями.
Участник нашего сообщества по тестированию LLM, где важны воспроизводимые результаты.

Проходите мимо, если:

Вам нужно оценить "ум" модели, ее знания или способность к рассуждению. Для этого есть другие промпты и тесты.
Вы только начали и хотите просто поговорить с нейросетью. Используйте LM Studio или Jan.
Вы работаете исключительно с облачными API (OpenAI, Anthropic). Там скорость зависит от сервера, а не от вашего Mac.

Итог: правда в цифрах, но не только в них

Llama-bench выдал вам холодную статистику. Mistral 2.5 12B быстрее Llama 3.3 70B в три раза. Но это не значит, что первая модель в три раза лучше. Она просто другая. После тестов обязательно поговорите с моделями. Задайте им вопросы из вашей реальной работы. Например, попросите проанализировать код или составить договор.

Скорость в 45 t/s — это когда ответ на средний вопрос появляется за 2-3 секунды. Скорость в 15 t/s — это уже 6-8 секунд ожидания. На бумаге разница неочевидна. В работе — чувствуется каждый раз.

Мой совет на 2026 год: скачайте 3-4 модели размером 7-12B (из таблицы выше), прогнайте их через llama-bench, а затем устройте им живое собеседование с помощью промптов на Tool Calling. Та модель, которая и думает быстро, и отвечает внятно, — ваша. Все остальные цифры — просто цифры.

Подписаться на канал

Как протестировать LLM на Mac: обзор 37 моделей и инструкция по использованию llama-bench