Зачем вам это? Потому что облачные модели - это как аренда мозга

Я купил MacBook Pro с чипом M4 и 32 ГБ оперативки за эти самые 1200 евро. Не для того, чтобы платить OpenAI ежемесячную дань за каждый чих. Локальная модель - это ваш личный ассистент, который не шпионит, не тормозит из-за лага и не отключается при обрыве сети. Но выбрать её на Apple Silicon - задача не для слабонервных.

Две модели постоянно мелькают в обсуждениях: GPT-OSS 20B (открытая версия, наследующая архитектуру GPT-4) и обновленная Gemma 4B от Google. Первая - монстр на 20 миллиардов параметров. Вторая - компактная, но удивительно сообразительная. Обе работают на Neural Engine, но ведут себя совершенно по-разному.

Не верьте бенчмаркам из интернета. На M4/M5 производительность упирается не в чистые токены в секунду, а в то, как модель использует Unified Memory. 24 ГБ - это не 24 ГБ на видеокарте, это общий пул. И это меняет всё.

Мой стенд: MacBook Pro M4 Pro, 32 ГБ, 256 ГБ SSD. И планы на M5 Mini

Почему такая конфигурация? 32 ГБ - это минимальный комфортный порог для GPT-OSS 20B в формате Q4_K_M. Модель загружается примерно в 14-16 ГБ оперативки, оставляя системе и вашим приложениям пространство для манёвра. 256 ГБ SSD - это больно, но если вы храните модели на внешнем NVMe-накопителе (через Thunderbolt 4), то жить можно. Для серьезной работы с RAG или множеством моделей смотрите в сторону 512 ГБ или 1 ТБ.

M5 Mini, который только анонсирован, по слухам, будет иметь вариант с 48 ГБ памяти. Это уже совсем другая лига - можно будет запускать 32B-модели без стресса. Но пока мы работаем с тем, что есть. Если выбираете железо сейчас, прочтите мой гид по выбору Mac для локальных LLM.

1Задача первая: Vibe Coding, или Как не сломать продакшен в 3 ночи

Vibe coding - это когда вы в потоке, пишете код, а модель подсказывает следующую строку, предлагает рефакторинг или генерирует тесты. Нужна модель, которая понимает контекст проекта, а не просто дописывает функцию.

Критерий	GPT-OSS 20B (Q4_K_M)	Gemma 4B (Q4_K_S)
Понимание контекста	Отличное. Держит в голове 8-10к токенов, помнит структуру файла.	Хорошее, но на сложных проектах может "потерять нить".
Качество генерации кода	Близко к Copilot. Пишет рабочий Python, Go, Rust.	Проще, чаще предлагает шаблонные решения.
Скорость (токен/с)	14-18 ток/с (с оптимизацией MLX)	35-45 ток/с (летает)
Потребление памяти	~16 ГБ	~5 ГБ

Вывод для кодинга: GPT-OSS 20B - это ваш выбор, если вы работаете над сложным проектом и готовы пожертвовать скоростью ради качества. Она справится с агентным кодингом лучше. Gemma 4B - для быстрых скриптов, когда нужно что-то набросать за минуту.

2Задача вторая: Системное администрирование. Bash, Ansible, Kubernetes

Здесь нужна модель, которая не нагенерирует вам "rm -rf /" в скрипте. Точность и знание специфичных команд важнее красоты кода.

GPT-OSS 20B иногда перемудрит. Попросите написать скрипт для очистки логов - получите систему с ротацией, компрессией и отправкой в S3. Gemma 4B даст простой, работающий вариант из пяти строк. Для администрирования это часто лучше.

# Пример: GPT-OSS 20B может сгенерировать такую конструкцию
find /var/log -name "*.log" -mtime +7 -exec gzip {} \; -exec aws s3 cp {}.gz s3://backup/logs/ \;

# Gemma 4B предложит проще
find /var/log -name "*.log" -mtime +7 -delete

Второй скрипт удалит логи старше недели. Первый - заархивирует и зальет в облако. Оба работают, но второй - быстрее и безопаснее для новичка. Gemma 4B выигрывает в предсказуемости для DevOps задач.

3Задача третья: Тегирование закладок и заметок. Интеллектуальная организация хаоса

У вас 5000 закладок в браузере. Нужно автоматически проставить теги (например, "docker", "kubernetes", "оптимизация"). Задача кажется простой, но требует понимания смысла текста.

GPT-OSS 20B делает это блестяще. Она улавливает нюансы и может присвоить несколько релевантных тегов. Gemma 4B часто хватается за ключевые слова из заголовка и пропускает контекст. Но она делает это в 3 раза быстрее.

💡

Для тегирования больших объемов документов в RAG-системе скорость может быть критична. Если качество тегов приемлемо, Gemma 4B позволит обработать тысячи документов за разумное время. Подробнее о железе для таких задач в статье про локальный RAG.

Как заставить это всё работать: установка за 10 минут

Забудьте о сложных Docker-контейнерах. На Apple Silicon в 2026 году стандартом де-факто стал MLX от Apple и обертка Ollama с его поддержкой. Вот самый быстрый путь.

1Ставим Ollama (актуальная версия на 30.01.2026)

curl -fsSL https://ollama.ai/install.sh | sh

После установки сервис запустится автоматически. Проверяем:

ollama --version
# Должно показать версию 0.6.0 или новее

2Качаем и запускаем модели

Ollama сам выберет оптимальный квантизованный формат для вашего железа. Для M4/M5 это обычно Q4_K_M.

# Устанавливаем GPT-OSS 20B (в репозитории Ollama она может называться gpt-oss:20b)
ollama run gpt-oss:20b

# Устанавливаем Gemma 4B (актуальная версия Gemma 2 4B на 2026 год)
ollama run gemma2:4b

Внимание! Модель GPT-OSS 20B весит около 12 ГБ. Убедитесь, что на диске достаточно места. Если используете внешний SSD, можно настроить Ollama на скачивание моделей туда через переменную окружения OLLAMA_MODELS.

3Настройка для максимальной скорости

По умолчанию Ollama использует все доступные ядра CPU и GPU. Но можно выжать еще 10-15%.

# Запускаем Ollama сервер с указанием количества слоев для GPU
# Для GPT-OSS 20B на 32 ГБ можно отдать почти всё
OLLAMA_NUM_GPU_LAYERS=99 ollama serve &

# Затем запускаем модель
ollama run gpt-oss:20b

Сколько слоев выставлять? Правило простое: пока не закончится память. На M4 Pro с 32 ГБ для GPT-OSS 20B я ставлю 99. Система сама распределит, что поместится. Следите за давлением памяти в Activity Monitor.

Ошибки, которые сведут вас с ума (и как их избежать)

Ошибка: "недостаточно памяти". Вы запускаете GPT-OSS 20B на Mac Mini M4 с 16 ГБ. Решение? Не делайте так. Берите 32 ГБ или используйте Gemma 4B. Или квантизуйте модель до Q3, но качество упадет заметно.
Ошибка: модель "задумывается" на минуту. Вы дали слишком длинный промпт (больше 8000 токенов). GPT-OSS 20B справится, но Gemma 4B начнет тормозить. Решение: разбивайте запросы. Для администрирования это не критично, для кодинга - да.
Ошибка: странные ответы, не по теме. Вы не указали контекст. Локальные модели не догадываются, что вы от них хотите. Всегда начинайте с системного промпта: "Ты - опытный DevOps инженер. Напиши скрипт для..."

💡

Для продвинутой настройки и максимальной производительности (до 464 ток/с на некоторых моделях) изучите статью про vLLM-MLX. Но это для тех, кто готов копать глубже.

Итог: что выбрать для Mac M4/M5 в 2026 году?

У вас два пути.

Первый: GPT-OSS 20B. Это ваш основной рабочий инструмент для кодинга и сложной обработки текста. Требует минимум 32 ГБ RAM. Работает на скорости 15-20 токенов в секунду - этого хватает для диалога. Качество ответов близко к платным облачным моделям уровня 2024-2025 годов.

Второй: Gemma 4B (или Gemma 2 4B). Это скоростной реактивный самолет для администрирования, простого кодинга и массового тегирования. Жрет мало памяти, работает шустро. Идеально для Mac Mini с 24 ГБ или как вторая модель на основном компьютере.

Мой совет? Установите обе. Настройте Ollama, чтобы они работали параллельно. GPT-OSS 20B для глубокой работы, Gemma 4B для быстрых задач. Так вы получите и качество, и скорость, не разоряясь на облачные API. А когда выйдет M5 Mini с 48 ГБ - присмотритесь к 32B-моделям. Но это уже другая история.

Оптимальные локальные LLM для Mac M4/M5: сравнение GPT-OSS 20B и Gemma 4B для кодирования, администрирования и тегирования