Можно ли запустить две модели одновременно на 128 ГБ ОЗУ?

Технически возможно, но практически не рекомендуется. Две 70B модели займут около 90 ГБ ОЗУ, что приведет к снижению скорости каждой модели в 2 раза, возможным перегревам и снижению отзывчивости системы.

Какой формат квантования лучше для моделей кодирования на Strix Halo?

Для 70B моделей рекомендуется Q4_K_M или новый формат IQ3_XS. Для 30B-32B моделей можно использовать Q5_K_M для лучшего качества. AWQ форматы не рекомендуются, так как оптимизированы под NVIDIA GPU с tensor cores.

Стоит ли делать тонкую настройку моделей на Strix Halo?

Для LoRA на 7B-13B моделях — да. Для QLoRA на 30B моделях — возможно, но медленно. Full fine-tuning 70B моделей занимает недели и не рекомендуется из-за ограничений мобильной платформы.

Лучшие LLM для кодирования на ноутбуке с 128 ГБ ОЗУ (Strix Halo) в 2026: тесты, настройка

128 ГБ ОЗУ — это не про комфорт, это про возможность

Когда вы видите ноутбук с 128 ГБ ОЗУ на AMD Strix Halo, первая мысль — "наконец-то можно запустить что-то серьезное". Вторая мысль — "а что именно?".

Потому что оперативка есть, но вот архитектура Strix Halo — это не 128 ГБ видеопамяти на RTX 6000. Разница колоссальная. Пропускная способность памяти, латентность, скорость матричных операций — все это влияет на то, какие модели будут летать, а какие будут еле ползать.

Важное отличие: 128 ГБ ОЗУ на Strix Halo дают объем, но не дают скорости видеопамяти. Это значит, что модели размером 70B+ будут работать, но медленнее, чем на специализированных GPU. Нужно выбирать модели с умом.

Почему 30B-100B параметров — золотая середина для кодирования

Модели до 8B параметров — это для чата и простых задач. Модели от 200B — это для кластеров. А вот диапазон 30B-100B — именно то, что нужно для серьезного кодирования на локальной машине.

Почему? Потому что эти модели:

Достаточно умны для сложных архитектурных решений
Помнят контекст в 128K+ токенов (важно для больших проектов)
Умеют работать с несколькими файлами одновременно
Их можно тонко настроить под ваш стек технологий
Они влезают в 128 ГБ ОЗУ (после правильного квантования)

💡

Если вы думаете, что 7B-модели справятся с рефакторингом 10K строк кода — забудьте. Нужен минимум 30B параметров для понимания сложных зависимостей и архитектурных паттернов.

Топ-5 моделей для Strix Halo: не верить бенчмаркам, верить практике

Все бенчмарки в интернете делаются на идеальном железе. На практике на Strix Halo с 128 ГБ ОЗУ все работает иначе. Вот что реально летает:

1. DeepSeek-Coder-V3-70B-Instruct (Q4_K_M GGUF)

На январь 2026 года — это король локального кодирования. Не путать с DeepSeek-Coder-V2 — третья версия получила серьезные улучшения в понимании контекста и работе с длинными файлами.

Параметр	Значение	Что это значит для Strix Halo
Потребление памяти	~45 ГБ (Q4_K_M)	Остается место для ОС и других процессов
Скорость генерации	12-15 токенов/сек	Приемлемо для интерактивной работы
Контекстное окно	128K токенов	Можно загружать целые проекты

Почему GGUF, а не AWQ? Потому что на чистой оперативке (без быстрой видеопамяти) GGUF с llama.cpp работает стабильнее. AWQ оптимизирован под NVIDIA GPU с tensor cores, а у Strix Halo их нет.

2. Qwen2.5-Coder-32B-Instruct (Q6_K GGUF)

Если DeepSeek слишком медленный для ваших задач — берите Qwen2.5. На январь 2026 это самая быстрая 32B-модель для кодирования. Особенно хороша для Python и веб-разработки.

Q6_K квантование — это компромисс между качеством и скоростью. На Strix Halo разница между Q4_K_M и Q6_K в скорости всего 15-20%, но качество кода заметно лучше.

Предупреждение: не берите Qwen2.5-Coder-72B для Strix Halo. Она будет работать, но скорость генерации упадет до 3-5 токенов в секунду. Это неприемлемо для интерактивной разработки.

3. CodeLlama-70B-Python (IQ3_XS GGUF)

Да, модель 2023 года, но до сих пор одна из лучших для Python. IQ3_XS — это новый формат квантования 2025 года, который дает почти такое же качество как Q4_K_M, но на 25% меньше размер.

На Strix Halo это важно — меньше размер модели = меньше операций с памятью = выше скорость. CodeLlama-70B в IQ3_XS занимает всего ~38 ГБ вместо ~45 ГБ у DeepSeek в Q4_K_M.

4. Magicoder2-30B-SC-Instruct (Q5_K_M GGUF)

Специально обучена на синтетических данных для кодирования. На январь 2026 — лучшая 30B-модель для multi-language проектов (Python, JavaScript, Go, Rust в одном проекте).

На Strix Halo дает 20-25 токенов/сек — это уже комфортная скорость для работы в реальном времени. Потребляет всего ~22 ГБ ОЗУ в Q5_K_M.

5. StarCoder2-30B-Instruct (Q4_K_M GGUF)

Если работаете с GitHub-проектами — эта модель понимает контекст лучше других. Обучена на лицензионных данных, можно использовать в коммерческих проектах без страха нарушить лицензии.

Квантование — это не "какой коэффициент выбрать", а "какой формат не сломает модель"

Все говорят про Q4_K_M, Q6_K, но мало кто понимает, как квантование влияет на способность модели писать код. А влияет сильно.

Вот простая таблица, которая сэкономит вам недели экспериментов:

Формат квантования	Качество кода (1-10)	Скорость на Strix Halo	Когда использовать
Q2_K	3/10	Очень быстро	Никогда для кодирования
Q3_K_S	5/10	Быстро	Только для простых скриптов
Q4_K_M	8/10	Средне	Основной рабочий вариант
Q5_K_M	9/10	Медленно	Финальная проверка кода
Q6_K	9.5/10	Очень медленно	Только для 32B и меньше моделей
IQ3_XS (новый)	7.5/10	Быстро	Когда мало места или нужна скорость

Золотое правило для Strix Halo: для 70B моделей — только Q4_K_M или IQ3_XS. Для 30B-32B моделей можно Q5_K_M, если готовы ждать.

💡

Не доверяйте автоматическому квантованию через инструменты вроде "auto-gptq". Для кодирующих моделей нужно ручное тестирование — иногда квантование ломает понимание синтаксиса конкретного языка.

Тонкая настройка на Strix Halo: можно, но нужно ли?

У вас 128 ГБ ОЗУ, значит теоретически можно делать тонкую настройку (fine-tuning) прямо на ноутбуке. Практически — это боль и страдания.

Почему? Потому что Strix Halo — мобильный чип. Да, у него много ядер, но:

Нет tensor cores для ускорения обучения
Тепловыделение ограничено (ноутбук же)
Оперативка быстрая, но не настолько быстрая как HBM на профессиональных GPU

Что МОЖНО делать на Strix Halo:

LoRA для 7B-13B моделей — быстро, не греется, влезает в память
QLoRA для 30B моделей — медленно (сутки на небольшом датасете), но возможно
Дообучение на код-ревью — маленькие датасеты, быстрый результат

Что НЕЛЬЗЯ делать на Strix Halo:

Full fine-tuning 70B моделей — технически возможно, но займет недели
Обучение с нуля — даже не думайте
Обучение на больших датасетах (100K+ примеров) — ноутбук превратится в грелку

Если серьезно хотите заниматься тонкой настройкой — посмотрите сравнение Strix Halo и RTX 5080. Для обучения все же лучше отдельная видеокарта.

Оптимизация под 128 ГБ: как выжать максимум без магии

Шаг 1: Настройка llama.cpp для Strix Halo

# Компиляция с оптимизациями под Zen 5 (ядро Strix Halo)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CPU_AVX512=1 LLAMA_BLAS=1 LLAMA_BLAS_VENDOR=OpenBLAS -j32

Ключевые флаги:

LLAMA_CPU_AVX512=1 — использует AVX-512 инструкции Zen 5
LLAMA_BLAS=1 — ускоряет матричные операции
-j32 — использует все 32 потока Strix Halo

Шаг 2: Запуск с правильными параметрами

./main -m ./models/deepseek-coder-v3-70b-q4_k_m.gguf \
  -t 30 \  # 30 потоков, 2 оставляем для системы
  -c 131072 \  # полный контекст 128K
  -b 512 \  # размер batch для ускорения
  -ngl 0 \  # все в оперативку, видеопамяти нет
  --mlock \  # фиксируем модель в RAM
  --no-mmap \  # не используем mmap для стабильности
  -p "[INST] Напиши функцию на Python для..."

Шаг 3: Мониторинг и настройка

Установите htop и следите за:

Использование оперативки (не должно быть свопа)
Температура CPU (должна быть стабильной)
Загрузка потоков (все ядра должны работать)

Важно: если видите использование swap — немедленно уменьшайте контекст или берите меньшую модель. Своп на SSD убьет скорость работы.

Распространенные ошибки (и как их избежать)

Ошибка 1: Брать самую большую модель

"У меня 128 ГБ, значит возьму 100B модель!" — звучит логично, но работает плохо. 100B модель в Q4_K_M займет ~60 ГБ, но скорость будет 2-3 токена в секунду. Бесполезно для работы.

Ошибка 2: Использовать AWQ вместо GGUF

AWQ форматы оптимизированы под NVIDIA GPU. На чистом CPU (даже таком мощном как Strix Halo) GGUF работает быстрее и стабильнее. Не ведитесь на маркетинг.

Ошибка 3: Не настраивать количество потоков

По умолчанию llama.cpp использует все ядра. На Strix Halo это 32 потока. Но системе тоже нужны ресурсы. Ставьте -t 28 или -t 30, оставляйте 2-4 потока для ОС.

Ошибка 4: Работать без мониторинга температуры

Strix Halo под нагрузкой греется. Если температура превышает 95°C — система начнет троттлить. Установите sensors и следите. Или используйте ограничение частоты через Ryzen Adj.

Что будет через год? (прогноз на 2027)

На январь 2026 Strix Halo с 128 ГБ ОЗУ — это топ для локального кодирования. Но технологии не стоят на месте.

Что изменится к 2027:

Модели станут эффективнее — те же 70B параметров, но лучше качество
Появятся специализированные кодеры 50B — золотая середина между скоростью и качеством
Квантование IQ4_XS станет стандартом — качество Q4_K_M при размере Q3_K_S
Интеграция с IDE станет нативной — не через плагины, а прямо в ядро редакторов

Но главное — появятся гибридные схемы, где тяжелые вычисления делаются на eGPU, а инференс — на Strix Halo. Это изменит правила игры.

💡

Совет напоследок: не гонитесь за последней версией модели. DeepSeek-Coder-V3-70B будет актуальна еще минимум год. Лучше потратьте время на создание хорошего промпт-шаблона под ваш стек технологий — это даст больше пользы, чем переход с V3 на V4.

Вопросы, которые задают чаще всего

Можно ли запустить две модели одновременно?

Технически — да. Практически — нет. 70B модель занимает 45 ГБ, вторая 70B — еще 45 ГБ, итого 90 ГБ. Остается 38 ГБ на систему, кэш, IDE. Будет работать, но с оговорками:

Скорость каждой упадет в 2 раза
Возможны перегревы
Система будет менее отзывчивой

Лучше запускать одну модель, но использовать ее для всех задач.

Стоит ли обновлять биос/драйверы для работы с LLM?

Обязательно. На январь 2026 уже вышли оптимизации под AI-нагрузки:

Биос с улучшенным управлением питанием
Драйверы чипсета с оптимизациями для матричных операций
Обновления микрокода процессора

Без обновлений можете терять 15-20% производительности.

Какой IDE плагин лучше для локальных моделей?

На январь 2026 лидер — Continue.dev с поддержкой локальных моделей через llama.cpp. Из бесплатных — Cursor с ручной настройкой эндпоинта. Не используйте плагины, которые требуют GPU — они не заработают на Strix Halo.

Что делать, если модель "забывает" синтаксис?

Это проблема квантования. Решения:

Перейти на менее агрессивное квантование (с Q4_K_M на Q5_K_M)
Использовать промпты с примерами синтаксиса
Взять другую модель (не все одинаково устойчивы к квантованию)
Попробовать новый формат IQ3_XS — он лучше сохраняет знания

Если интересны детали оптимизации памяти под разные модели — посмотрите отдельный гайд по оптимизации ОЗУ.

128 ГБ ОЗУ на Strix Halo: какие модели для кодирования реально работают, а какие — маркетинг