Зачем вам это? Потому что облачные модели - это как аренда мозга
Я купил MacBook Pro с чипом M4 и 32 ГБ оперативки за эти самые 1200 евро. Не для того, чтобы платить OpenAI ежемесячную дань за каждый чих. Локальная модель - это ваш личный ассистент, который не шпионит, не тормозит из-за лага и не отключается при обрыве сети. Но выбрать её на Apple Silicon - задача не для слабонервных.
Две модели постоянно мелькают в обсуждениях: GPT-OSS 20B (открытая версия, наследующая архитектуру GPT-4) и обновленная Gemma 4B от Google. Первая - монстр на 20 миллиардов параметров. Вторая - компактная, но удивительно сообразительная. Обе работают на Neural Engine, но ведут себя совершенно по-разному.
Не верьте бенчмаркам из интернета. На M4/M5 производительность упирается не в чистые токены в секунду, а в то, как модель использует Unified Memory. 24 ГБ - это не 24 ГБ на видеокарте, это общий пул. И это меняет всё.
Мой стенд: MacBook Pro M4 Pro, 32 ГБ, 256 ГБ SSD. И планы на M5 Mini
Почему такая конфигурация? 32 ГБ - это минимальный комфортный порог для GPT-OSS 20B в формате Q4_K_M. Модель загружается примерно в 14-16 ГБ оперативки, оставляя системе и вашим приложениям пространство для манёвра. 256 ГБ SSD - это больно, но если вы храните модели на внешнем NVMe-накопителе (через Thunderbolt 4), то жить можно. Для серьезной работы с RAG или множеством моделей смотрите в сторону 512 ГБ или 1 ТБ.
M5 Mini, который только анонсирован, по слухам, будет иметь вариант с 48 ГБ памяти. Это уже совсем другая лига - можно будет запускать 32B-модели без стресса. Но пока мы работаем с тем, что есть. Если выбираете железо сейчас, прочтите мой гид по выбору Mac для локальных LLM.
1Задача первая: Vibe Coding, или Как не сломать продакшен в 3 ночи
Vibe coding - это когда вы в потоке, пишете код, а модель подсказывает следующую строку, предлагает рефакторинг или генерирует тесты. Нужна модель, которая понимает контекст проекта, а не просто дописывает функцию.
| Критерий | GPT-OSS 20B (Q4_K_M) | Gemma 4B (Q4_K_S) |
|---|---|---|
| Понимание контекста | Отличное. Держит в голове 8-10к токенов, помнит структуру файла. | Хорошее, но на сложных проектах может "потерять нить". |
| Качество генерации кода | Близко к Copilot. Пишет рабочий Python, Go, Rust. | Проще, чаще предлагает шаблонные решения. |
| Скорость (токен/с) | 14-18 ток/с (с оптимизацией MLX) | 35-45 ток/с (летает) |
| Потребление памяти | ~16 ГБ | ~5 ГБ |
Вывод для кодинга: GPT-OSS 20B - это ваш выбор, если вы работаете над сложным проектом и готовы пожертвовать скоростью ради качества. Она справится с агентным кодингом лучше. Gemma 4B - для быстрых скриптов, когда нужно что-то набросать за минуту.
2Задача вторая: Системное администрирование. Bash, Ansible, Kubernetes
Здесь нужна модель, которая не нагенерирует вам "rm -rf /" в скрипте. Точность и знание специфичных команд важнее красоты кода.
GPT-OSS 20B иногда перемудрит. Попросите написать скрипт для очистки логов - получите систему с ротацией, компрессией и отправкой в S3. Gemma 4B даст простой, работающий вариант из пяти строк. Для администрирования это часто лучше.
# Пример: GPT-OSS 20B может сгенерировать такую конструкцию
find /var/log -name "*.log" -mtime +7 -exec gzip {} \; -exec aws s3 cp {}.gz s3://backup/logs/ \;
# Gemma 4B предложит проще
find /var/log -name "*.log" -mtime +7 -delete
Второй скрипт удалит логи старше недели. Первый - заархивирует и зальет в облако. Оба работают, но второй - быстрее и безопаснее для новичка. Gemma 4B выигрывает в предсказуемости для DevOps задач.
3Задача третья: Тегирование закладок и заметок. Интеллектуальная организация хаоса
У вас 5000 закладок в браузере. Нужно автоматически проставить теги (например, "docker", "kubernetes", "оптимизация"). Задача кажется простой, но требует понимания смысла текста.
GPT-OSS 20B делает это блестяще. Она улавливает нюансы и может присвоить несколько релевантных тегов. Gemma 4B часто хватается за ключевые слова из заголовка и пропускает контекст. Но она делает это в 3 раза быстрее.
Как заставить это всё работать: установка за 10 минут
Забудьте о сложных Docker-контейнерах. На Apple Silicon в 2026 году стандартом де-факто стал MLX от Apple и обертка Ollama с его поддержкой. Вот самый быстрый путь.
1Ставим Ollama (актуальная версия на 30.01.2026)
curl -fsSL https://ollama.ai/install.sh | sh
После установки сервис запустится автоматически. Проверяем:
ollama --version
# Должно показать версию 0.6.0 или новее
2Качаем и запускаем модели
Ollama сам выберет оптимальный квантизованный формат для вашего железа. Для M4/M5 это обычно Q4_K_M.
# Устанавливаем GPT-OSS 20B (в репозитории Ollama она может называться gpt-oss:20b)
ollama run gpt-oss:20b
# Устанавливаем Gemma 4B (актуальная версия Gemma 2 4B на 2026 год)
ollama run gemma2:4b
Внимание! Модель GPT-OSS 20B весит около 12 ГБ. Убедитесь, что на диске достаточно места. Если используете внешний SSD, можно настроить Ollama на скачивание моделей туда через переменную окружения OLLAMA_MODELS.
3Настройка для максимальной скорости
По умолчанию Ollama использует все доступные ядра CPU и GPU. Но можно выжать еще 10-15%.
# Запускаем Ollama сервер с указанием количества слоев для GPU
# Для GPT-OSS 20B на 32 ГБ можно отдать почти всё
OLLAMA_NUM_GPU_LAYERS=99 ollama serve &
# Затем запускаем модель
ollama run gpt-oss:20b
Сколько слоев выставлять? Правило простое: пока не закончится память. На M4 Pro с 32 ГБ для GPT-OSS 20B я ставлю 99. Система сама распределит, что поместится. Следите за давлением памяти в Activity Monitor.
Ошибки, которые сведут вас с ума (и как их избежать)
- Ошибка: "недостаточно памяти". Вы запускаете GPT-OSS 20B на Mac Mini M4 с 16 ГБ. Решение? Не делайте так. Берите 32 ГБ или используйте Gemma 4B. Или квантизуйте модель до Q3, но качество упадет заметно.
- Ошибка: модель "задумывается" на минуту. Вы дали слишком длинный промпт (больше 8000 токенов). GPT-OSS 20B справится, но Gemma 4B начнет тормозить. Решение: разбивайте запросы. Для администрирования это не критично, для кодинга - да.
- Ошибка: странные ответы, не по теме. Вы не указали контекст. Локальные модели не догадываются, что вы от них хотите. Всегда начинайте с системного промпта: "Ты - опытный DevOps инженер. Напиши скрипт для..."
Итог: что выбрать для Mac M4/M5 в 2026 году?
У вас два пути.
Первый: GPT-OSS 20B. Это ваш основной рабочий инструмент для кодинга и сложной обработки текста. Требует минимум 32 ГБ RAM. Работает на скорости 15-20 токенов в секунду - этого хватает для диалога. Качество ответов близко к платным облачным моделям уровня 2024-2025 годов.
Второй: Gemma 4B (или Gemma 2 4B). Это скоростной реактивный самолет для администрирования, простого кодинга и массового тегирования. Жрет мало памяти, работает шустро. Идеально для Mac Mini с 24 ГБ или как вторая модель на основном компьютере.
Мой совет? Установите обе. Настройте Ollama, чтобы они работали параллельно. GPT-OSS 20B для глубокой работы, Gemma 4B для быстрых задач. Так вы получите и качество, и скорость, не разоряясь на облачные API. А когда выйдет M5 Mini с 48 ГБ - присмотритесь к 32B-моделям. Но это уже другая история.