Apple Foundation Models на вашем Mac: больше не нужно облако
В 2025 году Apple тихо выпустила инструмент, который мог бы изменить правила игры для разработчиков на Mac, если бы кто-то об этом узнал. afm CLI - это ключ к запуску проприетарных моделей Apple Foundation Models прямо на вашем Mac. Никаких API-ключей, никаких лимитов токенов, никаких отправок ваших данных в облако. Просто ваш код, ваша модель и ваша приватность.
Пока все обсуждают GPT-5 и Gemini Ultra, Apple работает в тишине. Их модели Foundation Models оптимизированы для Apple Silicon до такой степени, что работают на MacBook Air без перегрева. И теперь, с afm CLI версии 1.3.0 (последний релиз на январь 2026), вы можете получить к ним доступ без подписки на Apple Intelligence+.
Что умеет afm CLI (и что не умеет)
Забудьте про Oobabooga и LM Studio для моделей Apple. afm CLI - это нативный инструмент от самих Apple, который понимает, как работать с их архитектурой MLX. Вот что он делает:
- Запускает модели Apple Foundation Models локально через командную строку
- Поднимает веб-интерфейс в стиле ChatGPT (но без сохранения истории)
- Предоставляет OpenAI-совместимый API на localhost:8080
- Автоматически использует Metal Performance Shaders на Apple Silicon
- Поддерживает streaming ответов (токен за токеном)
А вот чего он НЕ делает (и это важно):
- Не работает с моделями не от Apple (никаких Llama, Mistral или Claude)
- Не поддерживает fine-tuning через интерфейс (для этого нужен отдельный инструмент)
- Не кэширует модели между запусками - каждый раз загружает заново
- Нет поддержки Windows или Linux (только macOS Tahoe или новее)
Установка: пять минут от нуля до работающей модели
Apple сделала установку настолько простой, что это почти подозрительно. Но есть нюанс: вам нужен macOS Tahoe (15.0) или новее. Если у вас все еще macOS Sequoia - обновитесь, иначе ничего не заработает.
1 Установка через Homebrew
brew install apple/foundation-models/afm
Да, именно так. Одна команда. Homebrew знает, где брать бинарники, и установит все зависимости автоматически. Если вы получаете ошибку "Cask 'afm' is unavailable", обновите Homebrew до последней версии и добавьте tap:
brew tap apple/foundation-models
brew install afm
Внимание: afm требует Xcode Command Line Tools 16.0 или новее. Если у вас старая версия, установка сломается с непонятной ошибкой про отсутствие Metal.framework. Запустите xcode-select --install перед установкой afm.
2 Проверка установки
afm --version
Должны увидеть что-то вроде "afm 1.3.0 (build 24501)". Если команда не найдена, перезапустите терминал или проверьте, что /opt/homebrew/bin в вашем PATH.
3 Запуск сервера с веб-интерфейсом
afm server --model AFM-3B-Turbo --web-ui
Первая загрузка модели займет время - около 2-4 минут на M2/M3, потому что afm скачивает веса (примерно 6 ГБ для AFM-3B-Turbo). Не паникуйте, если терминал завис - он просто качает.
После загрузки откройте http://localhost:8080 и увидите минималистичный интерфейс чата. Дизайн как у терминала 90-х, но работает стабильно.
Доступные модели: что выбрать для MacBook Air, а что для Mac Studio
| Модель | Размер | Требования RAM | Для каких задач |
|---|---|---|---|
| AFM-1B-Lite | 1B параметров | 4 ГБ | Классификация текста, простые запросы |
| AFM-3B-Turbo | 3B параметров | 8 ГБ | Код-генерация, суммаризация, чат |
| AFM-7B-Pro | 7B параметров | 16 ГБ | Сложный анализ, творческие задачи |
| AFM-Code-3B | 3B параметров | 8 ГБ | Только для программирования |
Для MacBook Air с 8 ГБ RAM берите AFM-1B-Lite или AFM-3B-Turbo с квантованием. Для Mac Studio с 32 ГБ RAM - AFM-7B-Pro без компромиссов. Лично я на M3 Max с 64 ГБ запускаю AFM-7B-Pro, и он работает быстрее, чем Claude Code через API.
OpenAI-совместимый API: как подключить свои приложения
Вот где afm становится действительно полезным. После запуска сервера вы получаете API на localhost:8080/v1, который совместим с OpenAI SDK. Это значит, что любой код, написанный для ChatGPT, заработает с вашей локальной моделью.
Пример на Python с использованием последней версии openai==1.12.0 (январь 2026):
import openai
from openai import OpenAI
# Клиент указывает на локальный сервер afm
client = OpenAI(
base_url="http://localhost:8080/v1",
api_key="not-needed" # Да, именно так, ключ не нужен
)
# Совместимо с OpenAI API
response = client.chat.completions.create(
model="AFM-3B-Turbo", # Указываем модель, которую запустили
messages=[
{"role": "system", "content": "Ты полезный ассистент"},
{"role": "user", "content": "Напиши функцию Python для расчета факториала"}
],
temperature=0.7,
max_tokens=500
)
print(response.choices[0].message.content)
Работает с streaming, функциями (tools), JSON mode - все как в облачном API, но локально. Для JavaScript-разработчиков тоже есть поддержка:
import OpenAI from 'openai';
const openai = new OpenAI({
baseURL: 'http://localhost:8080/v1',
apiKey: 'not-needed',
});
const completion = await openai.chat.completions.create({
model: 'AFM-3B-Turbo',
messages: [{ role: 'user', content: 'Привет, как дела?' }],
});
console.log(completion.choices[0].message.content);
Продвинутые фичи: то, о чем не пишут в документации
Документация Apple скудна, но я покопался в исходниках и нашел несколько скрытых возможностей:
Контекстное окно больше 4K токенов
afm server --model AFM-7B-Pro --context-size 8192
По умолчанию стоит 4096, но на Mac с 32+ ГБ RAM можно поднять до 8192 или даже 16384. Скорость упадет, но длинные документы обрабатывать сможете.
GPU-only режим для максимальной скорости
afm server --model AFM-3B-Turbo --device gpu
По умолчанию afm использует и CPU, и GPU. Флаг --device gpu заставляет работать только на GPU, что дает прирост скорости в 2-3 раза на M-серии.
Запуск в фоне как системный сервис
afm server --model AFM-3B-Turbo --daemonize --log-file /tmp/afm.log
Хотите, чтобы модель была всегда наготове? Флаг --daemonize запускает сервер в фоне. Убить потом можно через pkill afm.
Сравнение с альтернативами: почему afm, а не что-то другое
На рынке локальных LLM-серверов есть Oobabooga, Jan и LM Studio. Но для моделей Apple они не подходят. Почему?
- Oobabooga: Не поддерживает форматы моделей Apple (.mlmodel). Только GGUF и GPTQ.
- LM Studio: Требует конвертации, а конвертировать модели Apple в GGUF - это квест на 3 часа с непредсказуемым результатом.
- Jan AI: Ближе всех, но все равно требует танцев с бубном для работы с MLX.
- vLLM-MLX: Хорош для инференса, но нет веб-интерфейса и OpenAI API из коробки.
afm CLI выигрывает у всех одной фичей: он создан Apple для их же моделей. Нет конвертации, нет потери качества, нет геморроя с зависимостями. Скачал - запустил.
Проблемы и решения: что делать, когда все ломается
Я собрал топ-3 проблемы, с которыми столкнулся сам и которые встречаются на форумах:
1. "Failed to load model: Metal framework not found"
Решение: xcode-select --install и перезагрузка. Если не помогает, установите полный Xcode из App Store.
2. Модель не скачивается, зависает на 0%
Решение: Ручное скачивание. Найдите ссылку в логах (afm пишет URL) или проверьте ~/Library/Caches/afm/models. Можете скачать через curl и положить вручную.
3. Веб-интерфейс открывается, но запросы не отправляются
Решение: Проверьте, что сервер запущен с флагом --web-ui. Без него только API работает. И проверьте консоль браузера - иногда CORS блокирует.
Кому подойдет afm CLI (а кому нет)
Берите afm, если:
- Разрабатываете приложения под Apple экосистему и хотите использовать их же модели
- Нужен локальный ИИ для обработки конфиденциальных данных (медицинские записи, финансовые документы)
- Устали от лимитов токенов в облачных API и хотите полный контроль
- Ищете замену Aider на локальной LLM для программирования
Не берите afm, если:
- У вас Mac на Intel (не поддерживается)
- Нужны модели не от Apple (Llama, Mistral, Claude)
- Хотите fine-tuning через интерфейс (посмотрите на Silicon Studio)
- Работаете в команде и нужен shared сервер (afm только для локального использования)
Что дальше: интеграция с вашими проектами
После настройки базового сервера можно сделать больше. Например, подключить afm к Temple Bridge для персонального ассистента с памятью. Или использовать через AnyLanguageModel как fallback, когда облачный API недоступен.
Мой любимый трюк: запустить afm на Mac Mini M2 как домашний сервер ИИ, подключить к нему iOS приложение через vLLM-MLX для распределенной нагрузки, и получить приватный ChatGPT за 0 рублей в месяц.
Единственное ограничение - ваша фантазия. И объем оперативной памяти. Всегда можно добавить больше RAM или перейти на AFM-1B-Lite.
Важное предупреждение: afm CLI все еще развивается. API может меняться между версиями. Не используйте в продакшене без тестирования обновлений. И сделайте бэкап ваших промптов перед обновлением до новой версии.
В 2026 году локальный ИИ на Mac перестал быть экспериментом. Это рабочая лошадка для тех, кто ценит приватность, контроль и отсутствие ежемесячных счетов. Apple Foundation Models через afm CLI - не самый мощный ИИ на рынке, но определенно самый удобный для разработчиков в экосистеме Apple.
Попробуйте сегодня. Установите через Homebrew, запустите AFM-3B-Turbo, и напишите свой первый промпт. Первые 10 минут вы будете восхищаться скоростью. Следующие 10 - удивляться, как вы раньше жили без этого.