Когда 120 миллиардов параметров сходят с ума
Запускаешь GPT-OSS-120B на своем Mac Studio M3 Ultra, задаешь простой вопрос по документации Python, а в ответ получаешь подробный рассказ о несуществующем модуле 'pyquantix' с вымышленным API. Знакомая история? Это не баг, это фича всех больших языковых моделей, которые пытаются работать на железе, для которого не предназначены. Галлюцинации — наша общая головная боль.
На 22 марта 2026 года ситуация с большими локальными моделями (70B+ параметров) на архитектуре Apple Silicon улучшилась, но фундаментальные проблемы остались. И GPT-OSS-120B, и последние версии Deepseek (включая актуальный Deepseek V3.2) страдают от одних и тех же артефактов на Mac.
Корень зла: память, квантование и жадный контекст
Почему именно на Mac? Потому что Unified Memory — это и благословение, и проклятие. Модель в 120 миллиардов параметров даже в агрессивном квантовании Q4_K_M занимает под 70 ГБ. Mac Studio M3 Ultra с 192 ГБ — в теории тянет. На практике система, фоновые процессы и сам инференс-движок (llama.cpp или MLX) ведут жестокую войну за ресурсы.
Модель, которой не хватает оперативки для комфортной работы с контекстом, начинает 'экономить'. Она сжимает внутренние представления, теряет детализацию входных данных и — бац — начинает уверенно генерировать отсебятину. Это как заставлять нейрохирурга делать операцию в тесной комнате при тусклом свете. Ошибки неизбежны.
1 Температура sampling: ваш главный враг
Параметр 'temperature' в настройках llama.cpp или Ollama по умолчанию часто стоит 0.8. Для больших моделей на пределе железа это смерть. При высокой температуре модель активнее исследует маловероятные токены. Когда ресурсов мало, это приводит к резкому скачку в странные, несвязанные цепочки мыслей.
Что делать? Опускайте до 0.1-0.3 для задач, требующих фактуальности. Для креатива можно поднять, но будьте готовы к странностям. В последних версиях llama.cpp (актуальных на март 2026) появился параметр 'min-p', который режет маловероятные варианты еще на подлете. Используйте его.
# Пример запуска GPT-OSS-120B в llama.cpp с 'холодными' настройками
./main -m ./gguf/gpt-oss-120b-q4_k_m.gguf \
-p "Вопрос: Когда была выпущена Python 3.12?" \
-t 6 -ngl 120 -c 4096 \
--temp 0.2 \
--min-p 0.05 \
--top-k 40
2 Контекстное окно: меньше — значит стабильнее
GPT-OSS-120B и Deepseek V3.2 поддерживают контекст в 128k токенов. Соблазн загрузить туда всю документацию велик. Не делайте этого на Mac. Установите '-c 2048' или максимум '-c 4096'. Больший контекст требует больше памяти для внимания (KV-cache), что напрягает систему и увеличивает вероятность галлюцинаций в конце длинного ответа.
Если задача требует анализа большого текста, разбейте его на чанки и обрабатывайте последовательно. Да, это медленнее, но зато модель не начнет выдумывать факты из последнего абзаца, потому что 'забыла' первый.
Deepseek: китайский гость и его особые причуды
Deepseek V3.2, о котором мы уже писали, архитектурно — смесь MoE и плотных слоев. На Mac это создает дополнительную нагрузку на память при переключении экспертов. Модель может 'залипнуть' на одном эксперте и начать генерировать текст в узкой, но неверной парадигме.
| Параметр | Значение для стабильности | Что ломает |
|---|---|---|
| Температура (temp) | 0.1 - 0.3 | > 0.7 |
| Размер контекста (c) | 2048 - 4096 | > 8192 |
| Квантование | Q4_K_M / IQ3_XXS | Q2_K (сильная деградация) |
| Потоки (t) | Физические ядра | Число больше ядер (thrashing) |
Решение? Используйте официальные GGUF-версии от BlinkDL. И не скачивайте самые агрессивные квантования (Q2_K). Берите Q4_K_M или, если очень нужно сэкономить память, IQ3_XXS — новые форматные серии на 2026 год дают лучшее качество при том же размере.
Внимание: запуск через MLX, который рекламируют для Mac, для моделей размером более 70B часто менее стабилен, чем через оптимизированный llama.cpp. Наши тесты битвы форматов это подтверждают. MLX хорош для моделей поменьше.
Кому это вообще нужно?
Если вы исследователь, который должен протестировать поведение именно 120B модели — терпения вам и Mac Pro с терабайтом RAM. Если же вы разработчик или энтузиаст, которому нужна надежная локальная модель для работы, присмотритесь к меньшим вариантам.
Например, GPT-OSS-20B или даже 7B-модели с качественным квантованием показывают удивительную разумность и почти не галлюцинируют на том же MacBook M5 Pro. Мы сравнивали их в обзоре оптимальных LLM для Mac. Разница в качестве ответов на практические задачи часто минимальна, а стабильность — в разы выше.
Запуск гигантов на Mac — это технологический челлендж, а не ежедневная практика. Настройте параметры, смиритесь со скоростью 1-2 токена в секунду и всегда проверяйте факты. Или купите нормальную видеокарту. (Шучу. Но только отчасти).