На каких Mac работает этот бэкенд?

Только на Mac с чипами Apple Silicon (M1, M2, M3, M4). На Intel Mac он недоступен. Требуется macOS Sequoia 15.4 или новее.

Какие модели поддерживает ANE бэкенд?

Оптимально работают квантованные модели до 13B параметров: Llama 3.1 8B Q4_K_M, Gemma 2 9B Q5_K_S, Phi-3.5 Mini 4B Q4_0. Модели большего размера не помещаются в память ANE.

В чем главное преимущество перед Metal бэкендом?

Главное преимущество - энергоэффективность (3-5 Вт против 12-20 Вт) и значительно меньшая задержка первого токена (120 мс против 300 мс) благодаря технологии префилла контекста.

Установка ANE бэкенда llama.cpp на Mac: ускорение LLM

Что скрывает нейрочип в твоём MacBook?

В каждом современном Mac с Apple Silicon сидит маленький монстр - Apple Neural Engine. Это 16 или 32 ядра, которые обычно дремлют, пока ты запускаешь Stable Diffusion через переводной мост Metal. А ведь они могут напрямую жевать матричные умножения из твоей локальной Llama. Прямо сейчас.

Инженеры llama.cpp наконец-то выкатили нативный бэкенд для ANE. Не обертку, не костыль через Core ML, а прямую интеграцию в вычислительный граф ggml. Релиз вышел в конце 2025 года, и к марту 2026 это уже стабильная ветка в основной репозиторий.

На 30 марта 2026 года актуальная версия llama.cpp с поддержкой ANE - 3.2.1. Бэкенд проходит под флагами -backend ane и -ngl 0 (да, здесь нет слоев для GPU, все уходит в нейрочип).

Чем этот ANE-бэкенд круче обычного Metal?

Сравнивать его с Metal - все равно что сравнивать Formula 1 с грузовиком. Оба ездят, но цели разные.

Бэкенд	Энергопотребление	Пиковая пропускная способность (M4 Pro)	Задержка первого токена
ANE (новый бэкенд)	3-5 Вт	38 токенов/с (Llama 3.1 8B)	120 мс
Metal (через GPU)	12-20 Вт	45 токенов/с	300 мс
CPU только (AVX2)	25-30 Вт	8 токенов/с	1500 мс

Главный козырь ANE - префилл. Это подготовка контекста. Пока Metal GPU просыпается и разогревает видеопамять, ANE уже рассчитал первые 512 токенов. Разница в 180 мс - это вечность в интерактивных чатах.

Альтернативы? Есть AFM MLX от Apple, но он заточен под свои форматы моделей. Или можно собрать роутер между GPU, но зачем, если у тебя один нейрочип.

Установка: не собирай из source, если не хочешь сломать систему

Первый инстинкт - клонировать репозиторий и запустить make. Не делай так. Сломаешь зависимости Metal и потом будешь искать скорую помощь для llama.cpp.

1 Ставим через Homebrew (правильный путь)

brew tap llama.cpp/ane
brew install llama.cpp-ane --HEAD

Флаг --HEAD обязателен. В стабильной версии формул еще нет патчей для M4. Проверяй дату: если формула обновилась позже 25 марта 2026 - все в порядке.

Убедись, что у тебя macOS Sequoia 15.4 или новее. В более старых версиях нет драйверов ANE с доступом к низкоуровневым операциям matmul.

2 Качаем правильную модель

Не всякая квантованная модель подойдет. ANE работает только с определенными форматами весов.

Llama 3.1 8B Q4_K_M - лучший вариант для начала
Gemma 2 9B Q5_K_S - чуть медленнее, но качество выше
Phi-3.5 Mini 4B Q4_0 - если нужна скорость, а не глубина

Забудь про модели больше 13B. ANE имеет ограниченную память - около 12GB эффективного использования. Хочешь запустить что-то серьезное - смотри в сторону Autoresearch на ANE, там другие подходы.

Запускаем и видим магию

llama-cli -m /путь/к/llama-3.1-8b-Q4_K_M.gguf \
  -p "Расскажи про квантовую запутанность" \
  -n 512 \
  -t 4 \
  -c 2048 \
  -b 512 \
  --backend ane \
  --ane-prefill  \
  --ane-heap-size 1024

Ключевые флаги:

--backend ane - говорит системе использовать нейрочип
--ane-prefill - включает тот самый быстрый префилл контекста
--ane-heap-size 1024 - выделяет 1GB памяти ANE под вычисления (не путай с оперативной памятью)

Если видишь в логах строку ane: Initializing ANE backend with 16 cores - все работает. Если видишь warning: falling back to CPU - где-то ошибка в модели или системе.

Кому это вообще нужно?

Это не для всех. Если ты тренируешь LoRA на ANE, тебе нужны другие инструменты. Если ты собираешь AI-агент для iPhone, тут тоже свой путь.

ANE бэкенд идеален для:

Интерактивных чат-ботов, где важна задержка первого ответа
Фоновых агентов, которые работают от батареи часами
Систем с пассивным охлаждением (MacBook Air, Mac mini)

Бесполезен для:

Больших контекстов (больше 8K токенов - ANE перегревается и троттлится)
Обучения моделей (только инференс, только хардкор)
Визуальных моделей (Stable Diffusion, SDXL - для них свой Metal)

💡

Проверь температуру ANE через sudo powermetrics --samplers ane. Если видишь стабильные 85°C - снижай --ane-heap-size. Идеальный диапазон - 65-75°C.

Что делать, если все сломалось?

Сначала проверь, поддерживает ли твоя машина ANE. Все Mac на M1, M2, M3, M4 - поддерживают. Старые Intel - нет (тут только запуск TinyLlama на PowerBook G4 будет интереснее).

Частые ошибки:

"ANE backend not available" - переустанови Xcode Command Line Tools
"Model format not supported" - конвертируй модель заново через llama.cpp с флагом --ctx-size 2048
Долгая загрузка модели (больше 10 секунд) - проверь, не упала ли модель в своп

Самый надежный способ - собрать llama.cpp самому с флагом LLAMA_ANE=1. Но это для тех, кто не боится встраивать движок LLM прямо в свой проект.

И что в итоге?

На M4 Pro MacBook Pro с 38 токенами в секунду и потреблением 4 ватта - это самый энергоэффективный способ запускать LLM локально. Не такой быстрый, как топовая видеокарта, но в 10 раз эффективнее.

Через год, к марту 2027, Apple наверняка выпустит M5 с вдвое более мощным ANE. И тогда этот бэкенд станет стандартом для всех Mac. А пока - это инструмент для тех, кто ценит тишину кулеров и долгую работу от батареи.

Попробуй запустить сегодня. И послушай: если не слышишь вентиляторов - значит, все работает правильно.

Подписаться на канал

ANЕ для Mac: как установить и использовать новый бэкенд llama.cpp для Apple Neural Engine