Когда облака закрываются: зачем в 2025 году запирать LLM в своей квартире
Представьте: вам нужно переписать ядро платежного модуля. Или проанализировать уязвимости в legacy-коде, который видел еще COBOL. Или просто сгенерировать тысячу строк шаблонного, но критически важного кода для микросервиса.
Открываете ChatGPT — и тут же получаете кирпич от compliance-отдела. Клиент запрещает выносить код за периметр. Контракт разрывается. История заканчивается.
В 2025 году это не паранойя, а стандартная практика в финтехе, госсекторе и любой компании, где код стоит дороже денег. Облачные модели умерли для продакшена. Остаются локальные.
Но какие? И на чем их запускать?
Сегодня разберем две модели-тяжеловеса — Qwen 3.5 122B и GPT-oss-120B — и единственный ноутбук, который в 2025 году может их потянуть без звука взлетающего вертолета: MacBook Pro с чипом M5 и 128 ГБ единой памяти.
Важно: все данные актуальны на 16 марта 2026 года. Qwen 3.5 — это флагманская модель Alibaba Cloud, выпущенная в конце 2025. GPT-oss-120B — open-source проект, собравший 120 миллиардов параметров из разных исследований. Mac M5 — топовая конфигурация Apple на момент написания. Если вы читаете это в 2027 — половина информации уже устарела.
Два титана: что на самом деле умеет Qwen 3.5 и GPT-oss
Не обманывайтесь размером. 120 миллиардов параметров — не гарантия гениальности. Это гарантия того, что модель не забудет первую строчку вашего ТЗ, пока пишет последнюю.
| Модель | Qwen 3.5 122B (Qwen2.5-Coder) | GPT-oss-120B (сборная солянка) |
|---|---|---|
| Происхождение | Alibaba Cloud. Четкая, централизованная разработка. | Сообщество. Смесь архитектур от Llama, GPT-NeoX и пяти других проектов. |
| Контекстное окно | 128К токенов. Реально работает с 100К. | Заявлено 64К, стабильно — 32К. |
| Сильная сторона | Архитектурное мышление. Понимает связи между модулями, может предложить рефакторинг. | Широта знаний. Видела все репозитории GitHub. Отлично генерирует шаблонный код на любом языке. |
| Слабое место | Иногда переусложняет. Может предложить микросервис там, где хватило бы функции. | Плохо держит нить рассуждения в длинных диалогах. Может "сбиться" после 20-го сообщения. |
| Лицензия | Tongyi Qianwen LICENSE. Можно использовать в коммерции, но с отчетностью. | Apache 2.0. Делайте что хотите. |
Выбор зависит от задачи. Если вам нужен архитектор — берите Qwen. Если нужен копирайтер кода, который набросает заготовки под любой ваш запрос — GPT-oss. Впрочем, есть нюанс.
Mac M5 128GB: почему в 2025 году все побежали за этим ноутбуком
Две видеокарты RTX 4090 — это прошлый век. Шум, тепло, 800 ватт из розетки. Mac M5 с 128 ГБ единой памяти — другая религия.
- Единая память: 128 ГБ доступны и CPU, и GPU (нейроядру). Не нужно копировать данные туда-сюда. Это решает главную проблему локальных LLM — bottleneck на передаче весов.
- Энергоэффективность: 35 ватт под нагрузкой. Можно работать от батареи в кафе и не искать розетку после первого же промпта.
- Тишина: Пассивное охлаждение справляется с инференсом Qwen 3.5 в квантовании Q4. Вентилятор просто не включается.
Но есть ложка дегтя. Большая.
Mac M5 не тянет модели в оригинальном размере. 122 миллиарда параметров в формате FP16 — это около 244 ГБ весов. Они физически не влезут в память. Спасение — квантование.
1 Какое квантование выбрать для Mac M5 128GB
Забудьте про Q2 и Q3 — качество кода упадет ниже плинтуса. Qwen 3.5 превратится в студента-первокурсника.
- Q4_K_M — оптимальный баланс. Модель 122B сожмется до ~65 ГБ. Качество сохранится на 95-97% от оригинала. На Mac M5 будет выдавать 8-12 токенов в секунду. Медленно, но для обдумывания архитектуры — нормально.
- Q5_K_M — если осталось место. Вес ~80 ГБ. Качество почти оригинальное, но скорость упадет до 5-8 токенов/с.
- Q8 — не вариант. 122 ГБ — это предел памяти, системе тоже нужно место. Модель будет постоянно свапаться на диск, скорость станет 1 токен в минуту.
Для GPT-oss-120B правила те же. Но эта модель изначально менее оптимизирована, поэтому в Q4 может "галлюцинировать" чуть чаще.
Пошаговый план: разворачиваем Qwen 3.5 на Mac M5 за 15 минут
Не будем разводить философию. Вот конкретные шаги.
1 Устанавливаем Ollama (актуальная версия на март 2026)
Ollama в 2025 году научилась эффективно работать с Metal Performance Shaders (MPS) на чипах Apple. Это проще, чем возиться с llama.cpp напрямую.
curl -fsSL https://ollama.ai/install.sh | sh
2 Загружаем квантованную модель Qwen 3.5 122B
В репозитории Ollama уже есть готовые квантования. Ищем последнее.
ollama pull qwen2.5-coder:122b-q4_K_M
Ждем. 65 ГБ скачаются не быстро. Идите выпейте кофе. Или три.
Если скорости загрузки нет — качайте модель вручную с Hugging Face (например, через официальную страницу Qwen), а затем конвертируйте в формат GGUF через llama.cpp. Инструкция есть в нашей статье про фреймворки для локального запуска LLM.
3 Настраиваем параметры инференса
Создаем файл Modelfile для тонкой настройки.
FROM qwen2.5-coder:122b-q4_K_M
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 98304 # Максимальный контекст для этой квантовки
SYSTEM "Ты — senior-разработчик. Отвечай подробно, с примерами кода. Не предлагай небезопасные решения."
Собираем кастомную модель:
ollama create my-qwen-coder -f ./Modelfile
4 Интегрируем в среду разработки
Для VS Code ставим расширение Continue или Cursor (актуально на 2026 год). В настройках прописываем endpoint локального сервера Ollama.
{
"models": [
{
"title": "Local Qwen 122B",
"provider": "ollama",
"model": "my-qwen-coder",
"apiBase": "http://localhost:11434"
}
]
}
Все. Теперь у вас в редакторе работает приватный ассистент уровня GPT-4, который не шлет ваш код в Кремниевую долину.
Где выстрелит в ногу: 5 ошибок, которые сломают всю магию
- Ждать чудес от маленького контекста. Даже 128К токенов — это не вся кодовая база. Не загружайте в промпт весь проект разом. Используйте RAG (Retrieval-Augmented Generation) — инструмент для семантического поиска по коду, который подаст модели только релевантные файлы. Об этом подробнее в нашем гайде по большим моделям.
- Не мониторить температуру. По умолчанию в Ollama стоит 0.8. Для генерации кода это много. Модель начинает "креативить" и придумывать несуществующие библиотеки. Опускайте до 0.1-0.3 для детерминированных задач.
- Забыть про системный промпт. Без четкой инструкции "ты — экспертный программист" Qwen может начать отвечать общими фразами. Системный промпт — это закон, который вы пишете для своей модели.
- Игнорировать warning'и лицензии. Qwen 3.5 требует указания авторства в некоторых сценариях коммерческого использования. Прочитайте лицензию, иначе юристы придут поздравить.
- Держать модель всегда загруженной. Она съедает 65+ ГБ оперативки. Когда не кодите — останавливайте:
ollama stop my-qwen-coder. Или купите сервер, но это уже другая история, как в статье "Две RTX 4090 против Гигачата".
Вопросы, которые вы хотели задать, но боялись
Сможет ли эта связка (M5 + Qwen) работать в агентном режиме — автономно исправлять баги?
Нет. Скорость 10 токенов в секунду убивает любую агентную магию. Агент должен быстро делать много вызовов подряд. Здесь каждый вызов — 30 секунд ожидания. Максимум на что способна связка — это пошаговый разбор задачи с вашим контролем. Автономность — удел маленьких 7B-моделей, но их интеллекта не хватит на сложные исправления. Паритет пока недостижим.
Что лучше для кодинга: одна большая модель 122B или ансамбль из маленьких?
Одна большая. Ансамбль — это красивая теория, но на практике координация между моделями создает больше проблем, чем решает. Ошибка одной ломает всю цепочку. Один умный архитектор полезнее десяти быстро печатающих стажеров.
Mac M5 128GB или сборка на двух RTX 4090 (48GB каждая)?
Если код — ваша основная работа, и вы не хотите слышать гул турбин — берите Mac. Это тихий, энергоэффективный цех. Если вы исследователь и будете постоянно переключаться между десятком моделей, играть с fine-tuning — нужен Linux и две 4090. На них можно запустить модель в более высоком квантовании (Q6) и получить скорость 30+ токенов/с. Но готовьтесь платить за электричество и шумоизоляцию.
Итог, который не будет банальным
Локальные LLM в 2025 году — это не про демо и не про хайп. Это инженерный инструмент с конкретными ограничениями и спецификой.
Связка Qwen 3.5 122B в квантовании Q4_K_M + Mac M5 128GB — это Rolls-Royce для приватного кодинга. Тихий, мощный, статусный. Но едет он не быстрее 60 км/ч (в токенах).
GPT-oss-120B — Ford Mustang. Громкий, жрет много, но зато открытый и простой в тюнинге.
Выбирайте не по тестам, а по ощущениям от первого реального рабочего дня. Скачайте обе. Попросите помочь с самым сложным куском кода, который у вас есть. Та модель, после общения с которой не хочется биться головой о стол, — ваша.
А через год, когда выйдут 200B-модели и Mac M6 с 256 ГБ памяти, выбросите этот гайд и начинайте все заново. Таков закон джунглей AI-инфраструктуры.