Выбор и тестирование локальной LLM для кодинга на Apple Silicon

Ваша модель для кодинга — говно. Давайте это исправим

Вы скачали Qwen 3.5 27B, потому что все говорят, что она крутая для кода. Запустили на своем M4 Max. Попросили написать игру «Змейка» на Python. А она выдает код, который даже не запускается. Или генерирует безопасную, но абсолютно бесполезную функцию. Знакомо?

Проблема не в модели. Проблема в том, как 99% людей выбирают и тестируют локальные LLM. Они смотрят на рейтинг в той же LM Studio, скачивают первую попавшуюся и потом разочаровываются. Сегодня я научу вас делать это правильно.

Актуальность на 23.03.2026: В статье используются только последние версии моделей и инструментов. Qwen 3.5 27B остается одной из лучших open-source моделей для кодинга, но также тестируем новые конкуренты, которые появились к 2026 году.

1 Забудьте про HumanEval. Ваш бенчмарк — ваша работа

HumanEval — это как сдача на права на пустой площадке. Модель может пройти 80% задач, но это не значит, что она справится с вашим legacy-кодом на Go. Бенчмарки для кодинга должны быть комплексными.

Бенчмарк	Что проверяет	Почему важен в 2026
LiveCodeBench	Решение реальных задач из GitHub Issues	Имитирует рабочий процесс, а не академические задачки
SWE-bench Lite	Исправление багов в open-source проектах	Показывает, может ли модель работать с контекстом в тысячи строк
MultiPL-E	Генерация кода на 10+ языках	Важно для full-stack разработчиков

Но даже эти бенчмарки — лишь начало. Создайте свой. Возьмите 5-10 реальных задач из ваших проектов: «добавить логгирование в этот микросервис», «переписать функцию на async/await», «написать тест для этого сложного метода». Это и будет вашим главным критерием.

2 Выбор модели: размер против ума

На 2026 год для локального кодинга на Apple Silicon есть три категории моделей:

Тяжеловесы (27B-70B параметров): Qwen 3.5 27B, DeepSeek Coder 33B. Качество близкое к GPT-4, но требуют 16-32 ГБ памяти. Для M4 Max с 48 ГБ — идеально.
Средний класс (7B-13B): CodeLlama 13B, StarCoder2 15B. Работают на любом Mac, но часто «тупят» на сложных задачах. Хороши для рефакторинга и объяснения кода.
Специализированные: Модели, обученные только на код, например, новые версии WizardCoder. Бьют большие модели в узких задачах, но страдают в общих рассуждениях.

💡

Почему Qwen 3.5 27B все еще в игре: На 2026 год у нее одно из самых больших контекстных окон (128K токенов), отличная поддержка китайского и английского (важно для чтения документации), и она оптимизирована под MLX. Но не забывайте про новинки — проверяйте обзоры.

3 Загрузка и настройка: танцы с квантованием

Скачать модель — это полдела. Надо ее правильно «упаковать» для вашего железа. Для Apple Silicon с 2024 года стандартом стал фреймворк MLX от Apple, но llama.cpp с бэкендом Metal часто быстрее.

# Установка Ollama (самый простой способ на 2026)
curl -fsSL https://ollama.ai/install.sh | sh

# Загрузка Qwen 3.5 27B в 8-битном квантовании
ollama pull qwen2.5:27b-q8_0

# Или через llama.cpp прямо из Hugging Face
huggingface-cli download Qwen/Qwen2.5-27B-Instruct-GGUF --local-dir ./models --include "*q8_0.gguf"

Квантование 8-bit (q8_0) — это магия. Модель в 27B параметров занимает не 50 ГБ, а около 28 ГБ, с минимальной потерей качества. Для кодинга это оптимально. 4-bit (q4_0) уже заметно «тупеет» на логических задачах.

Ошибка №1: Не ставьте температуру 0.7 для кодинга. Это значение для творческих текстов. Для генерации кода температура должна быть ниже — 0.2-0.3, чтобы модель была детерминированной и не выдумывала несуществующие библиотеки.

4 Тестовые промпты, которые отсеют 90% моделей

Забудьте про «напиши hello world». Вот три промпта, которые я использую для стресс-теста любой coding LLM. Если модель проходит их — она годна.

Промпт 1: Отладка и объяснение

Ты — senior Python разработчик. Объясни, что делает эта функция, найди в ней баг и предложи исправление.

```python
def process_data(items, threshold=10):
    result = []
    for i in range(len(items)):
        if items[i] > threshold:
            result.append(items[i] * 2)
        else:
            result.append(items[i] / 2)
    return result

# Примечание: функция иногда возвращает пустой список, когда items = [5, 15, 25]
```

Хорошая модель заметит, что при threshold=10, items[0]=5 меньше порога, и должно быть деление на 2. Но баг в другом — при определенных входных данных индекс может выйти за границы? Нет, тут ошибка в логике: если items пустой, range(0) даст пустую итерацию, и функция вернет пустой список. Это и есть баг. Слабая модель будет искать проблему в арифметике.

Промпт 2: Генерация с контекстом

Дополни код, соблюдая стиль проекта. Используй только стандартную библиотеку Python 3.11.

```python
# existing_code.py
class DataProcessor:
    def __init__(self, config):
        self.config = config
        self.cache = {}
    
    def process(self, data: list) -> dict:
        """Обрабатывает список чисел, возвращает статистику."""
        # TODO: реализовать подсчет среднего, медианы и стандартного отклонения
        # Код должен кэшировать результаты для одинаковых входных данных
        pass
```

Промпт 3: Мультиязычная задача

Напиши одну и ту же функцию на Python, JavaScript и Rust: функция принимает строку, возвращает словарь/объект/struct с количеством каждого символа. Учти особенности каждого языка (immutability в Rust, Unicode в JS).

Если модель справляется с этими тремя — она понимает код, а не просто запоминает шаблоны с GitHub.

5 Интеграция в рабочий процесс: не просто чат-интерфейс

Запускать модель в LM Studio — это как использовать Ferrari для поездки в магазин за хлебом. Надо интегрировать ее прямо в IDE. На 2026 год есть два рабочих пути:

Плагин Continue.dev + локальный сервер Ollama. Выделяете код, нажимаете Ctrl+L, модель предлагает рефакторинг или объяснение.
Собственный скрипт на основе AnyLanguageModel для Apple экосистемы. Пишете Swift-утилиту, которая дергает модель через API.

# Пример: запуск Ollama как сервера и запрос через curl
ollama serve &
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:27b-q8_0",
  "prompt": "Напиши функцию сортировки слиянием на Python с type hints",
  "stream": false,
  "options": { "temperature": 0.2 }
}'

Что может пойти не так (и обязательно пойдет)

Ошибка	Почему происходит	Как исправить
Модель генерирует бесконечный поток текста	Не настроен stop token или max_tokens	В llama.cpp добавьте `-c 2048` для ограничения контекста, в промпте явно укажите «Ответь только кодом»
Код работает, но стиль ужасен	Модель не обучена на code style конкретного проекта	Дайте в контексте 2-3 примера вашего кода. Или используйте fine-tuning на своих данных
На MacBook Pro вентиляторы взлетают в космос	Модель использует CPU вместо GPU	В Ollama: `OLLAMA_GPU_METAL=1 ollama run ...`. В llama.cpp: убедитесь, что используется бэкенд Metal
Модель «забывает» начало длинного промпта	Контекстное окно меньше, чем заявлено, или идет переполнение	Разбейте задачу на части. Даже при 128K токенах качество понимания падает после 16K

Частые вопросы (ответы короткие, без воды)

Какая модель лучше для кодинга на M3 Pro с 18 ГБ памяти?

CodeLlama 13B в 8-bit (занимает ~8 ГБ) или Qwen 2.5 7B, если нужен большой контекст. 27B модели будут подкачивать из SSD, что замедлит работу в разы.

Почему моя локальная модель глупее, чем та же версия в ChatGPT?

Потому что у ChatGPT стоит температура 0.1, ретрай на 3 попытки, цепочка промптов (chain-of-thought) и пост-обработка вывода. Вы можете имитировать это, используя техники tool calling и многоэтапные промпты.

Стоит ли ждать новых моделей в 2026?

Всегда стоит. Но если вам нужно работать сегодня — берите Qwen 3.5 27B или DeepSeek Coder 33B. Архитектура Transformer не меняется фундаментально, поэтому прорывов в 2 раза за месяц не будет. А вот оптимизация под Apple Silicon — да, следите за обновлениями MLX и Ollama.

Как подключить модель к VS Code?

Установите расширение Continue.dev, в настройках укажите http://localhost:11434 как базовый URL, выберите модель. Или соберите персональный стек из llama.cpp + кастомного плагина.

Последний совет: Не ищите идеальную модель. Ищите модель, которая достаточно хороша для 80% ваших задач, и научитесь задавать правильные промпты. Локальная LLM — это как новый язык программирования: вы учитесь на ней «говорить», а не просто нажимаете кнопку.

Подписаться на канал

Как выбрать и протестировать локальную LLM для кодинга: бенчмарки, промпты и настройка под Apple Silicon