Когда все модели одинаково серы, на помощь приходит секундомер
Загрузили пятую модель за вечер. Llama 3.3, Mistral 2.5, какая-то экспериментальная Qwen2.7. Интерфейс LM Studio выглядит идентично для каждой, ответы звучат похоже. А вот время генерации прыгает от 12 до 45 токенов в секунду. Где правда? Какую модель оставить для реальной работы, а какую — выбросить в корзину вместе с потраченными гигабайтами?
Ответ лежит не в красивых оболочках, а в консоли. Инструмент llama-bench из экосистемы llama.cpp — это та самая машина истины для владельцев Mac на Apple Silicon. Я прогнал через него 37 популярных моделей в формате GGUF с квантованием Q4_K_M на MacBook Air с чипом M5. Результаты удивят. А инструкция — спасет вам вечер.
На что смотреть в 2026: Квантование Q4_K_M — это золотая середина между скоростью и качеством. Более агрессивные квантования (Q2, Q3) экономят память, но могут "ломать" логику модели. Более точные (Q5, Q6) почти не дают выигрыша в качестве на фоне Q4_K_M, но заметно медленнее. Для Mac с унифицированной памятью — это стандарт де-факто.
Что такое llama-bench и почему он не похож на другие бенчмарки
Не путать с синтетическими тестами вроде MMLU или Hellaswag. Llama-bench — низкоуровневый инструмент, который измеряет именно скорость инференса. Он не оценивает интеллект модели. Он отвечает на один вопрос: как быстро ваше железо будет генерировать текст после того, как модель уже загружена в память.
Работает просто: он делает несколько "прогревов", а затем замеряет время генерации заданного количества токенов. На выходе — чистые цифры: токенов в секунду (t/s) для обработки промпта (prompt) и для собственно генерации (generation). Первый показатель важен для задач с большим контекстом, второй — для чатов и длинных ответов.
Альтернативы? Их почти нет. Встроенные бенчмарки в LM Studio слишком абстрактны. Специализированные фреймворки вроде MLCommons слишком сложны для рядового пользователя. Llama-bench — это инструмент из мира llama.cpp, где все прозрачно и контролируемо.
37 моделей, один MacBook Air M5: кто быстрее всех?
Тестовая конфигурация: MacBook Air 15" (2025) на базе Apple M5 с 16 ГБ унифицированной памяти. macOS Sequoia 15.4. Все модели в формате GGUF, квантование Q4_K_M, загружены через официальные репозитории на Hugging Face. Размер контекста — 4096 токенов. Замер — скорость генерации (t/s).
| Модель (Размер) | Скорость генерации (t/s) | Заметки |
|---|---|---|
| Qwen2.5-Coder-1.5B | 112.4 | Абсолютный рекордсмен. Но 1.5B параметров — это скорее игрушка. |
| Phi-4-Micro (3.8B) | 89.7 | Неожиданно быстрая модель от Microsoft. Идеальна для сценариев с Tool Calling. |
| Llama 3.2 Vision (11B) | 45.2 | Мультимодальная, но все еще шустрая. Для работы с изображениями и текстом. |
| Mistral 2.5-Instruct (12B) | 41.8 | Баланс скорости и ума. Работает стабильно на любых промптах. |
| Gemma 3-IT (9B) | 48.6 | Оптимизирована под инструкции. В чатах чувствуется ее отзывчивость. |
| DeepSeek-Coder-V3 (7B) | 52.1 | Лучший выбор для программиста. Пишет код почти без задержек. |
| Llama 3.3-Instruct (70B) | 14.3 | Тяжеловес. Скорость низкая, но качество ответов часто того стоит. |
| Qwen2.5-Math (32B) | 18.9 | Специалист по математике. Для своих задач — оптимальна. |
Полная таблица из 37 строк — это отдельная история. Но главный тренд 2026 года очевиден: модели размером 7-12B параметров захватили золотую середину. Они умнее мелких моделей, но все еще летают на железе уровня MacBook Air. Гиганты вроде Llama 3.3 70B требуют уже MacBook Pro с 48 ГБ памяти, а их скорость заставляет заварить кофе в ожидании ответа.
Внимание на память: MacBook Air M5 с 16 ГБ памяти — это не универсальный солдат. Модели больше 14B параметров в Q4_K_M уже активно используют своп. Это тормозит не только LLM, но и всю систему. Если планируете работать с большими моделями, смотрите в сторону MacBook Pro с увеличенной памятью. Это не реклама, а суровая реальность нейросетевых вычислений.
Шаг за шагом: запускаем llama-bench на своем Mac
1 Установка llama.cpp — фундамент
Llama-bench — часть проекта llama.cpp. Ставить лучше через Homebrew, это проще и даст актуальную версию (на апрель 2026 это llama.cpp 2.8.1). Открываем Terminal и вбиваем две команды:
brew install llama.cpp
Проверяем, что установка прошла успешно:
llama-bench --version
2 Подготовка модели в формате GGUF
Llama-bench не умеет скачивать модели сам. Нужен готовый файл .gguf. Проще всего взять его из LlamaBarn или скачать вручную с Hugging Face. Например, для теста Mistral 2.5 12B:
# Переходим в папку, где храним модели
cd ~/Models
# Скачиваем модель (пример для Mistral 2.5 12B Q4_K_M)
wget https://huggingface.co/mistralai/Mistral-2.5-12B-Instruct-GGUF/resolve/main/mistral-2.5-12b-instruct.Q4_K_M.gguf
3 Запуск бенчмарка и чтение результатов
Базовая команда выглядит просто. Указываем путь к модели и размер контекста (например, 4096):
llama-bench -m ~/Models/mistral-2.5-12b-instruct.Q4_K_M.gguf -c 4096
Инструмент проведет серию тестов и выдаст что-то вроде:
\n------------------------------------\nBenchmark results for mistral-2.5-12b-instruct.Q4_K_M.gguf\n\nPrompt processing speed: 85.2 t/s\nText generation speed: 41.8 t/s\n\nSystem: Apple M5, 16 GB RAM, macOS 15.4\nModel size: 12B params, 7.2 GB (Q4_K_M)\n------------------------------------\n
Prompt processing speed — сколько токенов в секунду система может "проглотить" из вашего промпта. Важно, если вы загружаете в контекст длинные документы. Text generation speed — скорость, с которой модель выдает ответ. Это главная цифра для чатов.
4 Продвинутые флаги: тестируем по-взрослому
Базовый запуск хорош для быстрой проверки. Но чтобы понять поведение модели под нагрузкой, добавьте флаги:
llama-bench -m ~/Models/model.gguf -c 8192 -t 8 -n 512 -ngl 99
- -t 8: Количество потоков CPU. Обычно ставьте равным количеству производительных ядер (для M5 это 8).
- -n 512: Количество токенов для генерации. Чем больше, тем стабильнее средний показатель.
- -ngl 99: Количество слоев, которые будут загружены на GPU (Neural Engine). 99 — это "все, что можно". На Apple Silicon это серьезно ускоряет работу.
А что, если я не дружу с терминалом?
Тогда llama-bench — не ваш инструмент. Серьезно. Но это не значит, что вы не можете тестировать модели. Просто делайте это через графические интерфейсы, которые дают хотя бы примерные цифры.
- LM Studio: В раздере "Model Configuration" есть вкладка "Benchmark". Цифры будут немного завышены (они измеряют скорость внутри своей оптимизированной среды), но для относительного сравнения моделей на одном компьютере — сойдет.
- LlamaBarn: Наше любимое приложение для Mac, о котором мы уже писали, показывает скорость генерации прямо в интерфейсе чата. Не так точно, зато наглядно.
Но запомните: все эти оболочки — всего лишь фронтенд к тому же llama.cpp. Их цифры всегда будут вторичны.
Для кого этот инструмент — молитва, а для кого — бесполезный шум
Садитесь за llama-bench, если вы:
- Инженер или исследователь, которому нужно сравнить эффективность разных квантований или сборок llama.cpp.
- Пользователь, выбирающий между 5 похожими моделями для постоянной работы. Цифры помогут принять решение.
- Владелец нескольких устройств на Apple Silicon, который хочет понять, какое из них лучше справляется с нейросетями.
- Участник нашего сообщества по тестированию LLM, где важны воспроизводимые результаты.
Проходите мимо, если:
- Вам нужно оценить "ум" модели, ее знания или способность к рассуждению. Для этого есть другие промпты и тесты.
- Вы только начали и хотите просто поговорить с нейросетью. Используйте LM Studio или Jan.
- Вы работаете исключительно с облачными API (OpenAI, Anthropic). Там скорость зависит от сервера, а не от вашего Mac.
Итог: правда в цифрах, но не только в них
Llama-bench выдал вам холодную статистику. Mistral 2.5 12B быстрее Llama 3.3 70B в три раза. Но это не значит, что первая модель в три раза лучше. Она просто другая. После тестов обязательно поговорите с моделями. Задайте им вопросы из вашей реальной работы. Например, попросите проанализировать код или составить договор.
Скорость в 45 t/s — это когда ответ на средний вопрос появляется за 2-3 секунды. Скорость в 15 t/s — это уже 6-8 секунд ожидания. На бумаге разница неочевидна. В работе — чувствуется каждый раз.
Мой совет на 2026 год: скачайте 3-4 модели размером 7-12B (из таблицы выше), прогнайте их через llama-bench, а затем устройте им живое собеседование с помощью промптов на Tool Calling. Та модель, которая и думает быстро, и отвечает внятно, — ваша. Все остальные цифры — просто цифры.