Apple Foundation Models на вашем Mac: больше не нужно облако

В 2025 году Apple тихо выпустила инструмент, который мог бы изменить правила игры для разработчиков на Mac, если бы кто-то об этом узнал. afm CLI - это ключ к запуску проприетарных моделей Apple Foundation Models прямо на вашем Mac. Никаких API-ключей, никаких лимитов токенов, никаких отправок ваших данных в облако. Просто ваш код, ваша модель и ваша приватность.

Пока все обсуждают GPT-5 и Gemini Ultra, Apple работает в тишине. Их модели Foundation Models оптимизированы для Apple Silicon до такой степени, что работают на MacBook Air без перегрева. И теперь, с afm CLI версии 1.3.0 (последний релиз на январь 2026), вы можете получить к ним доступ без подписки на Apple Intelligence+.

💡

afm CLI вышел из бета-версии в ноябре 2025 и теперь поддерживает все последние модели Apple Foundation Models, включая AFM-3B-Turbo и AFM-7B-Pro. Если вы до сих пор используете старые версии - обновитесь немедленно, API изменился.

Что умеет afm CLI (и что не умеет)

Забудьте про Oobabooga и LM Studio для моделей Apple. afm CLI - это нативный инструмент от самих Apple, который понимает, как работать с их архитектурой MLX. Вот что он делает:

Запускает модели Apple Foundation Models локально через командную строку
Поднимает веб-интерфейс в стиле ChatGPT (но без сохранения истории)
Предоставляет OpenAI-совместимый API на localhost:8080
Автоматически использует Metal Performance Shaders на Apple Silicon
Поддерживает streaming ответов (токен за токеном)

А вот чего он НЕ делает (и это важно):

Не работает с моделями не от Apple (никаких Llama, Mistral или Claude)
Не поддерживает fine-tuning через интерфейс (для этого нужен отдельный инструмент)
Не кэширует модели между запусками - каждый раз загружает заново
Нет поддержки Windows или Linux (только macOS Tahoe или новее)

Установка: пять минут от нуля до работающей модели

Apple сделала установку настолько простой, что это почти подозрительно. Но есть нюанс: вам нужен macOS Tahoe (15.0) или новее. Если у вас все еще macOS Sequoia - обновитесь, иначе ничего не заработает.

1 Установка через Homebrew

brew install apple/foundation-models/afm

Да, именно так. Одна команда. Homebrew знает, где брать бинарники, и установит все зависимости автоматически. Если вы получаете ошибку "Cask 'afm' is unavailable", обновите Homebrew до последней версии и добавьте tap:

brew tap apple/foundation-models
brew install afm

Внимание: afm требует Xcode Command Line Tools 16.0 или новее. Если у вас старая версия, установка сломается с непонятной ошибкой про отсутствие Metal.framework. Запустите xcode-select --install перед установкой afm.

2 Проверка установки

afm --version

Должны увидеть что-то вроде "afm 1.3.0 (build 24501)". Если команда не найдена, перезапустите терминал или проверьте, что /opt/homebrew/bin в вашем PATH.

3 Запуск сервера с веб-интерфейсом

afm server --model AFM-3B-Turbo --web-ui

Первая загрузка модели займет время - около 2-4 минут на M2/M3, потому что afm скачивает веса (примерно 6 ГБ для AFM-3B-Turbo). Не паникуйте, если терминал завис - он просто качает.

После загрузки откройте http://localhost:8080 и увидите минималистичный интерфейс чата. Дизайн как у терминала 90-х, но работает стабильно.

Доступные модели: что выбрать для MacBook Air, а что для Mac Studio

Модель	Размер	Требования RAM	Для каких задач
AFM-1B-Lite	1B параметров	4 ГБ	Классификация текста, простые запросы
AFM-3B-Turbo	3B параметров	8 ГБ	Код-генерация, суммаризация, чат
AFM-7B-Pro	7B параметров	16 ГБ	Сложный анализ, творческие задачи
AFM-Code-3B	3B параметров	8 ГБ	Только для программирования

Для MacBook Air с 8 ГБ RAM берите AFM-1B-Lite или AFM-3B-Turbo с квантованием. Для Mac Studio с 32 ГБ RAM - AFM-7B-Pro без компромиссов. Лично я на M3 Max с 64 ГБ запускаю AFM-7B-Pro, и он работает быстрее, чем Claude Code через API.

OpenAI-совместимый API: как подключить свои приложения

Вот где afm становится действительно полезным. После запуска сервера вы получаете API на localhost:8080/v1, который совместим с OpenAI SDK. Это значит, что любой код, написанный для ChatGPT, заработает с вашей локальной моделью.

Пример на Python с использованием последней версии openai==1.12.0 (январь 2026):

import openai
from openai import OpenAI

# Клиент указывает на локальный сервер afm
client = OpenAI(
    base_url="http://localhost:8080/v1",
    api_key="not-needed"  # Да, именно так, ключ не нужен
)

# Совместимо с OpenAI API
response = client.chat.completions.create(
    model="AFM-3B-Turbo",  # Указываем модель, которую запустили
    messages=[
        {"role": "system", "content": "Ты полезный ассистент"},
        {"role": "user", "content": "Напиши функцию Python для расчета факториала"}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

Работает с streaming, функциями (tools), JSON mode - все как в облачном API, но локально. Для JavaScript-разработчиков тоже есть поддержка:

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'http://localhost:8080/v1',
  apiKey: 'not-needed',
});

const completion = await openai.chat.completions.create({
  model: 'AFM-3B-Turbo',
  messages: [{ role: 'user', content: 'Привет, как дела?' }],
});

console.log(completion.choices[0].message.content);

Продвинутые фичи: то, о чем не пишут в документации

Документация Apple скудна, но я покопался в исходниках и нашел несколько скрытых возможностей:

Контекстное окно больше 4K токенов

afm server --model AFM-7B-Pro --context-size 8192

По умолчанию стоит 4096, но на Mac с 32+ ГБ RAM можно поднять до 8192 или даже 16384. Скорость упадет, но длинные документы обрабатывать сможете.

GPU-only режим для максимальной скорости

afm server --model AFM-3B-Turbo --device gpu

По умолчанию afm использует и CPU, и GPU. Флаг --device gpu заставляет работать только на GPU, что дает прирост скорости в 2-3 раза на M-серии.

Запуск в фоне как системный сервис

afm server --model AFM-3B-Turbo --daemonize --log-file /tmp/afm.log

Хотите, чтобы модель была всегда наготове? Флаг --daemonize запускает сервер в фоне. Убить потом можно через pkill afm.

Сравнение с альтернативами: почему afm, а не что-то другое

На рынке локальных LLM-серверов есть Oobabooga, Jan и LM Studio. Но для моделей Apple они не подходят. Почему?

Oobabooga: Не поддерживает форматы моделей Apple (.mlmodel). Только GGUF и GPTQ.
LM Studio: Требует конвертации, а конвертировать модели Apple в GGUF - это квест на 3 часа с непредсказуемым результатом.
Jan AI: Ближе всех, но все равно требует танцев с бубном для работы с MLX.
vLLM-MLX: Хорош для инференса, но нет веб-интерфейса и OpenAI API из коробки.

afm CLI выигрывает у всех одной фичей: он создан Apple для их же моделей. Нет конвертации, нет потери качества, нет геморроя с зависимостями. Скачал - запустил.

💡

Если вам нужен именно веб-интерфейс с историей чатов и файловым менеджером моделей, посмотрите на LlamaBarn 0.23. Но для чистого API и максимальной производительности afm вне конкуренции.

Проблемы и решения: что делать, когда все ломается

Я собрал топ-3 проблемы, с которыми столкнулся сам и которые встречаются на форумах:

1. "Failed to load model: Metal framework not found"

Решение: xcode-select --install и перезагрузка. Если не помогает, установите полный Xcode из App Store.

2. Модель не скачивается, зависает на 0%

Решение: Ручное скачивание. Найдите ссылку в логах (afm пишет URL) или проверьте ~/Library/Caches/afm/models. Можете скачать через curl и положить вручную.

3. Веб-интерфейс открывается, но запросы не отправляются

Решение: Проверьте, что сервер запущен с флагом --web-ui. Без него только API работает. И проверьте консоль браузера - иногда CORS блокирует.

Кому подойдет afm CLI (а кому нет)

Берите afm, если:

Разрабатываете приложения под Apple экосистему и хотите использовать их же модели
Нужен локальный ИИ для обработки конфиденциальных данных (медицинские записи, финансовые документы)
Устали от лимитов токенов в облачных API и хотите полный контроль
Ищете замену Aider на локальной LLM для программирования

Не берите afm, если:

У вас Mac на Intel (не поддерживается)
Нужны модели не от Apple (Llama, Mistral, Claude)
Хотите fine-tuning через интерфейс (посмотрите на Silicon Studio)
Работаете в команде и нужен shared сервер (afm только для локального использования)

Что дальше: интеграция с вашими проектами

После настройки базового сервера можно сделать больше. Например, подключить afm к Temple Bridge для персонального ассистента с памятью. Или использовать через AnyLanguageModel как fallback, когда облачный API недоступен.

Мой любимый трюк: запустить afm на Mac Mini M2 как домашний сервер ИИ, подключить к нему iOS приложение через vLLM-MLX для распределенной нагрузки, и получить приватный ChatGPT за 0 рублей в месяц.

Единственное ограничение - ваша фантазия. И объем оперативной памяти. Всегда можно добавить больше RAM или перейти на AFM-1B-Lite.

Важное предупреждение: afm CLI все еще развивается. API может меняться между версиями. Не используйте в продакшене без тестирования обновлений. И сделайте бэкап ваших промптов перед обновлением до новой версии.

В 2026 году локальный ИИ на Mac перестал быть экспериментом. Это рабочая лошадка для тех, кто ценит приватность, контроль и отсутствие ежемесячных счетов. Apple Foundation Models через afm CLI - не самый мощный ИИ на рынке, но определенно самый удобный для разработчиков в экосистеме Apple.

Попробуйте сегодня. Установите через Homebrew, запустите AFM-3B-Turbo, и напишите свой первый промпт. Первые 10 минут вы будете восхищаться скоростью. Следующие 10 - удивляться, как вы раньше жили без этого.

Apple Foundation Models на Mac: Полный гайд по afm для локального ИИ