Запустить Llama 70B на MacBook Air? Легко

Весна 2026 года. Пока одни спорят, нужен ли им нейроимплант для общения с ИИ, другие тихо запускают Llama 3.1-405B на своем Mac Studio, не отправляя ни байта в облако. Секрет не в магии, а в грамотных обёртках. AFM MLX 0.9.7 - одна из них, но не первая и не последняя. Зачем она вам, если есть Ollama или LM Studio? Ответ прост: когда вам надоело кликать по кнопкам и хочется контролировать каждый бит.

Важно: версия 0.9.7 - это не просто апдейт. Разработчики переписали систему кэширования с нуля, добавили нативный парсинг Grammars из GGUF-файлов и убили главную боль - "утечку" памяти при длинных сессиях в Telegram-боте.

Что делает эта штука?

AFM MLX - это не графическое приложение. Это набор Python-скриптов, которые превращают ваш Mac в сервер для локальных моделей. Основной сценарий - afm_adaptive_xml - умеет три вещи, которые сложно найти в одном месте:

Грамматическое декодирование (Grammar-based decoding): Модель не просто болтает, а строго следует заданной схеме. Хотите, чтобы ответ всегда был JSON для вызова функции? Задайте грамматику. Это как надеть намордник на нейросеть, но в хорошем смысле.
Кэширование префиксов (Prompt cache): Системный промпт, инструкции, шаблоны - всё, что повторяется от запроса к запросу, вычисляется один раз и хранится в памяти. Для диалоговых агентов ускорение достигает 40% на длинных сессиях.
Telegram-бот из коробки: Запустили модель - получили эндпоинт. Подключили бота - вот вам приватный ассистент без API-ключей и лимитов. Проще, чем настраивать AnythingLLM для простого чата.

Установка: две команды и вы в деле

Здесь нет .dmg-файлов. Только терминал. Если вы боитесь командной строки, лучше вернуться к LlamaBarn. Для остальных:

pip install afm-mlx==0.9.7
pip install 'afm-mlx[telegram]'  # если нужен бот

Всё. Да, вам нужен Python 3.10+. И MLX, конечно. Но если вы дошли до этой статьи, вы уже знаете, что такое mlx-lm.

💡

На 18 марта 2026 года AFM MLX официально поддерживает модели в формате MLX (конечно) и GGUF. Рекомендуемые модели - последние Llama 3.2 (до 90B параметров), Qwen 2.5-32B и DeepSeek-V3-Lite, которые показывают лучшую производительность на Apple Silicon.

Грамматики: заставьте ИИ говорить правильно

Вот где инструмент блистает. Допустим, вам нужно, чтобы модель всегда возвращала структурированные данные для интеграции с другим софтом. Раньше вы молились и парсили ответы регулярками. Теперь описываете грамматику в формате JSON Schema и передаёте флагом.

afm_adaptive_xml \
  --model mlx-community/Llama-3.2-3B-Instruct-4bit \
  --grammar-file ./schema/weather_request.json \
  --prompt "Какая погода в Москве?"

Модель физически не сможет выдать ответ, не соответствующий вашей схеме. Никаких "Извините, я ИИ, я не могу...". Только чистый JSON. Для задач вроде локальной транскрипции и анализа встреч это меняет правила игры.

Telegram-бот за 5 минут

Создайте бота через @BotFather, получите токен. Затем:

export TELEGRAM_BOT_TOKEN="ваш_токен"
afm_adaptive_xml --model qwen2.5-14b-instruct-4bit --telegram-bot

Бот запустится на localhost:8080 (или на вашем сервере, если пробросите порт). Все диалоги изолированы, контекст сохраняется. И да, это полностью локально. Ваши разговоры о рецептах борща или корпоративных секретах не улетают в открытый космос.

С чем сравнить? Бенчмарки не всегда честны

LM Studio - для тех, кто любит красивые кнопки. Ollama - для быстрого старта. AFM MLX - для кастомизации и production-сценариев.

Инструмент	Плюсы	Минусы
AFM MLX 0.9.7	Грамматики, кэширование, Telegram-бот, полный контроль	Только командная строка, нужно знать Python
Ollama 0.5.7 (актуально на 18.03.2026)	Проще некуда, огромная библиотека моделей	Нет грамматик, ограниченный API для сложных сценариев
LM Studio 0.3.9	Графический интерфейс, мониторинг ресурсов	Тяжелее, меньше контроля над процессом инференса

Если ваша цель - быстро потестировать модель, выбирайте Ollama. Если нужен полный контроль над выводом, как в случае построения корпоративного переводчика, AFM MLX вне конкуренции.

Кому это нужно?

Разработчикам, которые встраивают LLM в свои приложения и устали от костылей с пост-обработкой. Исследователям, экспериментирующим с новыми методами контроля вывода. Параноикам, которые не доверяют облачным API даже с шифрованием. И просто гикам, которые хотят иметь полностью приватный чат без цензуры.

Прогноз: к концу 2026 года грамматическое декодирование станет стандартом для любого серьёзного применения локальных LLM. Инструменты вроде AFM MLX показывают, что будущее - не за более умными моделями, а за более предсказуемыми.

Стоит ли пробовать? Если вы читаете это, значит, вам уже интересно. Установите, запустите маленькую модель типа Llama 3.2-1B и попробуйте заставить её заполнить ваш первый JSON. Это момент, когда абстрактная "нейросеть" превращается в инструмент. Почти как собрать свою систему диктовки, только для структурированных данных.

P.S. Не ищите графический интерфейс. Его нет. И слава богу.

Подписаться на канал

AFM MLX 0.9.7: полный обзор продвинутой обёртки для локальных LLM на Mac с Telegram-ботом и грамматическим декодированием