Лучшие LLM для кодирования на ноутбуке с 128 ГБ ОЗУ (Strix Halo) в 2026: тесты, настройка | AiManual
AiManual Logo Ai / Manual.
21 Янв 2026 Гайд

128 ГБ ОЗУ на Strix Halo: какие модели для кодирования реально работают, а какие — маркетинг

Практический гайд по выбору моделей 30B-100B параметров для локального кодирования на Strix Halo с 128 ГБ ОЗУ. Сравнение GGUF, AWQ, тесты производительности, кв

128 ГБ ОЗУ — это не про комфорт, это про возможность

Когда вы видите ноутбук с 128 ГБ ОЗУ на AMD Strix Halo, первая мысль — "наконец-то можно запустить что-то серьезное". Вторая мысль — "а что именно?".

Потому что оперативка есть, но вот архитектура Strix Halo — это не 128 ГБ видеопамяти на RTX 6000. Разница колоссальная. Пропускная способность памяти, латентность, скорость матричных операций — все это влияет на то, какие модели будут летать, а какие будут еле ползать.

Важное отличие: 128 ГБ ОЗУ на Strix Halo дают объем, но не дают скорости видеопамяти. Это значит, что модели размером 70B+ будут работать, но медленнее, чем на специализированных GPU. Нужно выбирать модели с умом.

Почему 30B-100B параметров — золотая середина для кодирования

Модели до 8B параметров — это для чата и простых задач. Модели от 200B — это для кластеров. А вот диапазон 30B-100B — именно то, что нужно для серьезного кодирования на локальной машине.

Почему? Потому что эти модели:

  • Достаточно умны для сложных архитектурных решений
  • Помнят контекст в 128K+ токенов (важно для больших проектов)
  • Умеют работать с несколькими файлами одновременно
  • Их можно тонко настроить под ваш стек технологий
  • Они влезают в 128 ГБ ОЗУ (после правильного квантования)
💡
Если вы думаете, что 7B-модели справятся с рефакторингом 10K строк кода — забудьте. Нужен минимум 30B параметров для понимания сложных зависимостей и архитектурных паттернов.

Топ-5 моделей для Strix Halo: не верить бенчмаркам, верить практике

Все бенчмарки в интернете делаются на идеальном железе. На практике на Strix Halo с 128 ГБ ОЗУ все работает иначе. Вот что реально летает:

1. DeepSeek-Coder-V3-70B-Instruct (Q4_K_M GGUF)

На январь 2026 года — это король локального кодирования. Не путать с DeepSeek-Coder-V2 — третья версия получила серьезные улучшения в понимании контекста и работе с длинными файлами.

Параметр Значение Что это значит для Strix Halo
Потребление памяти ~45 ГБ (Q4_K_M) Остается место для ОС и других процессов
Скорость генерации 12-15 токенов/сек Приемлемо для интерактивной работы
Контекстное окно 128K токенов Можно загружать целые проекты

Почему GGUF, а не AWQ? Потому что на чистой оперативке (без быстрой видеопамяти) GGUF с llama.cpp работает стабильнее. AWQ оптимизирован под NVIDIA GPU с tensor cores, а у Strix Halo их нет.

2. Qwen2.5-Coder-32B-Instruct (Q6_K GGUF)

Если DeepSeek слишком медленный для ваших задач — берите Qwen2.5. На январь 2026 это самая быстрая 32B-модель для кодирования. Особенно хороша для Python и веб-разработки.

Q6_K квантование — это компромисс между качеством и скоростью. На Strix Halo разница между Q4_K_M и Q6_K в скорости всего 15-20%, но качество кода заметно лучше.

Предупреждение: не берите Qwen2.5-Coder-72B для Strix Halo. Она будет работать, но скорость генерации упадет до 3-5 токенов в секунду. Это неприемлемо для интерактивной разработки.

3. CodeLlama-70B-Python (IQ3_XS GGUF)

Да, модель 2023 года, но до сих пор одна из лучших для Python. IQ3_XS — это новый формат квантования 2025 года, который дает почти такое же качество как Q4_K_M, но на 25% меньше размер.

На Strix Halo это важно — меньше размер модели = меньше операций с памятью = выше скорость. CodeLlama-70B в IQ3_XS занимает всего ~38 ГБ вместо ~45 ГБ у DeepSeek в Q4_K_M.

4. Magicoder2-30B-SC-Instruct (Q5_K_M GGUF)

Специально обучена на синтетических данных для кодирования. На январь 2026 — лучшая 30B-модель для multi-language проектов (Python, JavaScript, Go, Rust в одном проекте).

На Strix Halo дает 20-25 токенов/сек — это уже комфортная скорость для работы в реальном времени. Потребляет всего ~22 ГБ ОЗУ в Q5_K_M.

5. StarCoder2-30B-Instruct (Q4_K_M GGUF)

Если работаете с GitHub-проектами — эта модель понимает контекст лучше других. Обучена на лицензионных данных, можно использовать в коммерческих проектах без страха нарушить лицензии.

Квантование — это не "какой коэффициент выбрать", а "какой формат не сломает модель"

Все говорят про Q4_K_M, Q6_K, но мало кто понимает, как квантование влияет на способность модели писать код. А влияет сильно.

Вот простая таблица, которая сэкономит вам недели экспериментов:

Формат квантования Качество кода (1-10) Скорость на Strix Halo Когда использовать
Q2_K 3/10 Очень быстро Никогда для кодирования
Q3_K_S 5/10 Быстро Только для простых скриптов
Q4_K_M 8/10 Средне Основной рабочий вариант
Q5_K_M 9/10 Медленно Финальная проверка кода
Q6_K 9.5/10 Очень медленно Только для 32B и меньше моделей
IQ3_XS (новый) 7.5/10 Быстро Когда мало места или нужна скорость

Золотое правило для Strix Halo: для 70B моделей — только Q4_K_M или IQ3_XS. Для 30B-32B моделей можно Q5_K_M, если готовы ждать.

💡
Не доверяйте автоматическому квантованию через инструменты вроде "auto-gptq". Для кодирующих моделей нужно ручное тестирование — иногда квантование ломает понимание синтаксиса конкретного языка.

Тонкая настройка на Strix Halo: можно, но нужно ли?

У вас 128 ГБ ОЗУ, значит теоретически можно делать тонкую настройку (fine-tuning) прямо на ноутбуке. Практически — это боль и страдания.

Почему? Потому что Strix Halo — мобильный чип. Да, у него много ядер, но:

  • Нет tensor cores для ускорения обучения
  • Тепловыделение ограничено (ноутбук же)
  • Оперативка быстрая, но не настолько быстрая как HBM на профессиональных GPU

Что МОЖНО делать на Strix Halo:

  1. LoRA для 7B-13B моделей — быстро, не греется, влезает в память
  2. QLoRA для 30B моделей — медленно (сутки на небольшом датасете), но возможно
  3. Дообучение на код-ревью — маленькие датасеты, быстрый результат

Что НЕЛЬЗЯ делать на Strix Halo:

  1. Full fine-tuning 70B моделей — технически возможно, но займет недели
  2. Обучение с нуля — даже не думайте
  3. Обучение на больших датасетах (100K+ примеров) — ноутбук превратится в грелку

Если серьезно хотите заниматься тонкой настройкой — посмотрите сравнение Strix Halo и RTX 5080. Для обучения все же лучше отдельная видеокарта.

Оптимизация под 128 ГБ: как выжать максимум без магии

Шаг 1: Настройка llama.cpp для Strix Halo

# Компиляция с оптимизациями под Zen 5 (ядро Strix Halo)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CPU_AVX512=1 LLAMA_BLAS=1 LLAMA_BLAS_VENDOR=OpenBLAS -j32

Ключевые флаги:

  • LLAMA_CPU_AVX512=1 — использует AVX-512 инструкции Zen 5
  • LLAMA_BLAS=1 — ускоряет матричные операции
  • -j32 — использует все 32 потока Strix Halo

Шаг 2: Запуск с правильными параметрами

./main -m ./models/deepseek-coder-v3-70b-q4_k_m.gguf \
  -t 30 \  # 30 потоков, 2 оставляем для системы
  -c 131072 \  # полный контекст 128K
  -b 512 \  # размер batch для ускорения
  -ngl 0 \  # все в оперативку, видеопамяти нет
  --mlock \  # фиксируем модель в RAM
  --no-mmap \  # не используем mmap для стабильности
  -p "[INST] Напиши функцию на Python для..."

Шаг 3: Мониторинг и настройка

Установите htop и следите за:

  • Использование оперативки (не должно быть свопа)
  • Температура CPU (должна быть стабильной)
  • Загрузка потоков (все ядра должны работать)

Важно: если видите использование swap — немедленно уменьшайте контекст или берите меньшую модель. Своп на SSD убьет скорость работы.

Распространенные ошибки (и как их избежать)

Ошибка 1: Брать самую большую модель

"У меня 128 ГБ, значит возьму 100B модель!" — звучит логично, но работает плохо. 100B модель в Q4_K_M займет ~60 ГБ, но скорость будет 2-3 токена в секунду. Бесполезно для работы.

Ошибка 2: Использовать AWQ вместо GGUF

AWQ форматы оптимизированы под NVIDIA GPU. На чистом CPU (даже таком мощном как Strix Halo) GGUF работает быстрее и стабильнее. Не ведитесь на маркетинг.

Ошибка 3: Не настраивать количество потоков

По умолчанию llama.cpp использует все ядра. На Strix Halo это 32 потока. Но системе тоже нужны ресурсы. Ставьте -t 28 или -t 30, оставляйте 2-4 потока для ОС.

Ошибка 4: Работать без мониторинга температуры

Strix Halo под нагрузкой греется. Если температура превышает 95°C — система начнет троттлить. Установите sensors и следите. Или используйте ограничение частоты через Ryzen Adj.

Что будет через год? (прогноз на 2027)

На январь 2026 Strix Halo с 128 ГБ ОЗУ — это топ для локального кодирования. Но технологии не стоят на месте.

Что изменится к 2027:

  • Модели станут эффективнее — те же 70B параметров, но лучше качество
  • Появятся специализированные кодеры 50B — золотая середина между скоростью и качеством
  • Квантование IQ4_XS станет стандартом — качество Q4_K_M при размере Q3_K_S
  • Интеграция с IDE станет нативной — не через плагины, а прямо в ядро редакторов

Но главное — появятся гибридные схемы, где тяжелые вычисления делаются на eGPU, а инференс — на Strix Halo. Это изменит правила игры.

💡
Совет напоследок: не гонитесь за последней версией модели. DeepSeek-Coder-V3-70B будет актуальна еще минимум год. Лучше потратьте время на создание хорошего промпт-шаблона под ваш стек технологий — это даст больше пользы, чем переход с V3 на V4.

Вопросы, которые задают чаще всего

Можно ли запустить две модели одновременно?

Технически — да. Практически — нет. 70B модель занимает 45 ГБ, вторая 70B — еще 45 ГБ, итого 90 ГБ. Остается 38 ГБ на систему, кэш, IDE. Будет работать, но с оговорками:

  • Скорость каждой упадет в 2 раза
  • Возможны перегревы
  • Система будет менее отзывчивой

Лучше запускать одну модель, но использовать ее для всех задач.

Стоит ли обновлять биос/драйверы для работы с LLM?

Обязательно. На январь 2026 уже вышли оптимизации под AI-нагрузки:

  • Биос с улучшенным управлением питанием
  • Драйверы чипсета с оптимизациями для матричных операций
  • Обновления микрокода процессора

Без обновлений можете терять 15-20% производительности.

Какой IDE плагин лучше для локальных моделей?

На январь 2026 лидер — Continue.dev с поддержкой локальных моделей через llama.cpp. Из бесплатных — Cursor с ручной настройкой эндпоинта. Не используйте плагины, которые требуют GPU — они не заработают на Strix Halo.

Что делать, если модель "забывает" синтаксис?

Это проблема квантования. Решения:

  1. Перейти на менее агрессивное квантование (с Q4_K_M на Q5_K_M)
  2. Использовать промпты с примерами синтаксиса
  3. Взять другую модель (не все одинаково устойчивы к квантованию)
  4. Попробовать новый формат IQ3_XS — он лучше сохраняет знания

Если интересны детали оптимизации памяти под разные модели — посмотрите отдельный гайд по оптимизации ОЗУ.