Какой harness самый простой для новичка?

LM Studio. Он имеет интуитивный графический интерфейс, встроенный поиск моделей на HuggingFace и автоматически настраивает offloading.

Что делать, если вылетает 'CUDA out of memory'?

Уменьшите контекст до 8192 токенов, снизьте количество GPU слоёв до 25 и убедитесь, что используете квантование Q4_K_M или IQ4_NL, а не FP16.

Можно ли запустить Qwen 3.6 27B на 16GB VRAM?

Скорее всего нет, если только не использовать очень агрессивное квантование (Q2_K) и контекст 2K. Для комфортной работы нужна 24GB видеокарта.

Qwen 3.6 27B harness: выбор инструмента для запуска LLM на Windows с RTX 3090

RTX 3090, 96GB RAM и 27B модель: вот где начинается веселье

Вы скачали Qwen 3.6 27B, прочитали обзоры, восхитились цифрами на бумаге. Теперь самая сложная часть — заставить модель работать на вашей Windows-машине с RTX 3090 (24GB VRAM) и 96GB RAM. Кажется, что должно хватить? И да, и нет. 27B в Q4 квантовании весит ~16GB — в VRAM помещается, пока контекст маленький. Но как только вы попросите модель обработать 32K токенов, CUDA вылетит с ошибкой OOM. Тут-то и нужен правильный harness — программа, которая возьмёт на себя загрузку модели, управление памятью и offloading.

Зачем вообще выбирать? Почему не взять первое попавшееся? Потому что неправильный выбор может стоить вам 5 токенов в секунду вместо 25. А может и просто чёрного экрана. Я перебрал почти все популярные инструменты на своей 3090 и 96GB озу, и теперь расскажу, какой подходит под какую задачу.

💡

Если вы думаете, что 96GB RAM избавит от танцев с бубном — спешу разочаровать. Windows, в отличие от Linux, не умеет прозрачно шарить память между GPU и CPU. Всё придётся настраивать руками.

Что вообще такое «harness» и почему это не просто GUI?

Harness — это прослойка между моделью и пользователем, которая занимается загрузкой весов, токенизацией, управлением контекстом, стримингом и опциями вроде квантования или слоевого offloading. Без него модель — просто набор файлов, которые вы можете разве что открыть блокнотом. В мире локального AI для Windows есть четыре главных претендента: LM Studio, oobabooga text-generation-webui, Ollama и Jan. Все они используют под капотом llama.cpp или ExLlamaV2, но интерфейсы и контроль различаются радикально.

Битва тяжеловесов: сравниваем лицом к лицу

Инструмент	Интерфейс	Гибкость offloading	Скорость (токенов/сек)	Квантования
LM Studio (v0.3.9)	GUI, простой	Средняя (слайдер слоёв)	20-35 (зависит от контекста)	Q4_K_M, Q5_K_M, IQ4_NL
oobabooga (1.23)	WebUI, полный	Высокая (ExLlamaV2, Transformers)	20-35	Любые через llama.cpp или GPTQ
Ollama (0.5.0)	CLI + API	Низкая (скрытые параметры)	15-25	Q4_K_M, Q8_0
Jan (0.5.2)	GUI, минимализм	Средняя	18-30	Q4_K_M, Q5_K_M

1 LM Studio — выбор для тех, кто хочет «включил и поехал»

LM Studio последних версий (на май 2026 — это v0.3.9) продолжает удерживать звание самого дружелюбного инструмента на Windows. Вы просто устанавливаете exe, вбиваете в поиск Qwen 3.6 27B, выбираете нужное квантование, и модель готова. В версии 0.3.9 появилась поддержка IQ4_NL — это квантование, которое даёт почти full-precision качество при 4.5 бит на параметр. Для 27B модели это спасение: контекст 32K влезает в 24GB с запасом.

Минус — вы не сможете тонко настроить, какие слои уходят в RAM. Слайдер «GPU layers» работает, но оставляет часть слоёв на CPU, даже когда VRAM свободна. Это не критично, но раздражает перфекционистов.

2 oobabooga text-generation-webui — для тех, кто любит рычаги и кнопки

oobabooga — это швейцарский нож. Вы можете запустить модель через llama.cpp, ExLlamaV2 или даже Transformers от HuggingFace. Зачем это? ExLlamaV2 часто даёт на 10-15% больше токенов в секунду, чем llama.cpp, особенно на коротких запросах. А если вам вдруг понадобится загрузить Qwen 3.6 в FP16 (52GB), oobabooga позволит сделать это через CPU+GPU offloading — 96GB RAM позволят распределить модель.

Ещё здесь есть extensions — например, для RAG или подключения к Telegram. Для тех, кто хочет превратить локальную модель в полноценного AI-агента, oobabooga — выбор номер один. Но установка на Windows требует Python, Git, ручного разрешения конфликтов библиотек. Не для слабонервных.

3 Ollama — минимализм ради скорости

Ollama сделал для локального AI то, что Docker сделал для контейнеров — одна команда и модель работает. На Windows с версии 0.4.x стабильно запускается как сервис. Вы пишете ollama run qwen3.6:27b-q4_K_M — и через минуту чат в консоли. Для интеграции с другими приложениями — REST API на localhost:11434.

Проблема: offloading в Ollama настраивается через переменные окружения (OLLAMA_NUM_GPU_LAYERS), и по умолчанию он часто недооценивает VRAM. На 3090 с 24GB я получил всего 18 токенов/с на Q4_K_M, хотя LM Studio выдавала 30. Потому что часть слоёв упорно оставалась на CPU. Исправить можно, но не так интуитивно.

4 Jan — красивый, но сыроватый

Jan — open-source GUI, который внешне копирует LM Studio, но с открытым кодом. Он умеет скачивать модели из HuggingFace, показывает детальную статистику используемой VRAM и позволяет задавать количество GPU-слоёв. Однако на май 2026 у него есть баг с длинным контекстом на 3090: если контекст больше 4096 токенов, происходит падение без сообщения об ошибке. Разработчики обещают исправить в следующей версии, но пока я бы не рекомендовал для серьёзной работы.

Квантование: что выбрать для RTX 3090 и 96GB RAM?

Ваша видеокарта — 24GB, но модель 27B. Вот что я тестировал:

Q4_K_M — 16.1GB. Влезает целиком. Даёт ~30 токенов/с на контексте 8K. Если контекст больше 16K — уже не влезает, начинается offloading.
Q5_K_M — 18.5GB. Качество выше, но контекст ограничен 4K без offloading. Для коротких диалогов — идеал.
IQ4_NL — 15.2GB. Субъективно почти не хуже Q5, но занимает меньше. LM Studio поддерживает его с версии 0.3.9. Рекомендую как стартовую точку.
Q8_0 — 27GB. Чисто на GPU не влезет, только с offloading. На 96GB RAM можно попробовать, но скорость упадёт до 8-10 токенов/с.

Если вы готовы пожертвовать скоростью ради качества, используйте oobabooga с ExLlamaV2 и их квантованием EXL2 — оно даёт самые гибкие битрейты (4.25, 4.5 и т.д.). Но для этого придётся конвертировать модель специальным скриптом.

❌ Частая ошибка: Скачать FP16 версию (52GB) и пытаться запустить на 3090. Даже с offloading на 96GB RAM это будет медленнее, чем Q4 на чистом GPU. Всегда берите уже квантованные файлы от TheBloke или других авторов.

Пошаговый план: запускаем Qwen 3.6 27B на LM Studio за 15 минут

Предположим, вы выбрали LM Studio. Вот как это сделать правильно, чтобы не кусать локти.

1 Скачайте последнюю версию с официального сайта (на май 2026 — v0.3.9)

Установка интуитивная: «Next, Next, Finish». После запуска откроется окно поиска моделей.

2 Найдите Qwen 3.6 27B

В строке поиска введите Qwen 3.6 27B Q4_K_M. LM Studio покажет результаты из HuggingFace. Выберите файл, который весит около 16GB (обычно от lmdeploy или microsoft?). Нажмите Download. Скорость скачивания зависит от вашего интернета — 16GB через 100 мбит/с качаются около 25 минут.

3 Настройте GPU offloading

В панели справа найдите GPU Layers. Для Q4_K_M на 3090 я ставлю 35 (всего 40 слоёв). Остальные 5 слоёв уходят на CPU — это почти не влияет на скорость, но даёт запас VRAM под контекст. Если ваша RAM 96GB, можно попробовать 40/40, но тогда контекст ограничен ~8K.

4 Настройте контекст

В разделе Context Length введите 16384 — этого хватит для большинства задач. Если вам нужно обрабатывать большие документы (например, кодовые базы), ставьте 32768, но тогда снизьте GPU Layers до 30, чтобы уместиться.

5 Нажмите Start и проверьте скорость

После запуска попробуйте простой запрос: «Explain quantum computing in simple terms». Смотрите на число токенов/с в строке состояния. Если меньше 25 — проверьте, не загружено ли в фоне что-то тяжёлое (Chrome, игры).

Типовые грабли и как их обойти

Я собрал три самые частые проблемы, которые ломают жизнь новичкам:

«CUDA out of memory» на пустом месте. Проверьте, не используете ли вы модель FP16. Потом проверьте длину контекста — попробуйте уменьшить до 8192. Если всё ещё вылетает — снизьте GPU Layers до 25 и добавьте в RAM (ваши 96GB это позволяют).
Скорость упала до 5 токенов/с. Это значит, что почти все слои ушли на CPU. В LM Studio откройте Advanced и убедитесь, что MMap включено (оно позволяет быстрее загружать веса). В oobabooga проверьте, какой бэкенд выбран — Transformers на CPU всегда медленнее.
Модель отвечает бессмыслицей. Скорее всего, вы скачали квантованную версию, не соответствующую архитектуре. Qwen 3.6 использует chat template, и если вы пытаетесь запустить её как Llama, токенизатор ломается. В LM Studio это исправляется автоматически, а в Jan нужно вручную выбирать qwen2 тип.

Кстати, если вы размышляете, не попробовать ли нецензурированную версию Qwen, прочитайте наш обзор нецензурированных моделей — там тоже пригодятся советы по harness.

Итоговый вердикт: что выбрать под вашу задачу?

Нет одного идеального инструмента для всех. Вот мои рекомендации по сценариям:

Нужно просто чатиться без лишних заморочек? Берите LM Studio. Оно поддерживает все современные квантования, даёт отличную скорость и не требует танцев с Python.
Вы разработчик и хотите встраивать модель в свои проекты через API, менять параметры сэмплинга, подключать RAG? Ваш выбор — oobabooga. Да, установка сложнее, но гибкость окупается. К тому же, он легко справляется с контекстом 64K на вашей 96GB RAM.
Нужно лёгкое API для CI/CD или асинхронных запросов? Ollama, но учтите, что вы потеряете немного скорости и не сможете тонко управлять слоями.
Хотите красивое опенсорсное приложение с возможностью доработки? Следите за Jan — возможно, к лету 2026 они пофиксят баги с контекстом и он станет конкурентом LM Studio.

Кстати, если вам интересно, как запускать модели ещё большего размера (например, Qwen 122B на нескольких 3090), почитайте наш гайд по сборке монстра из 4x RTX 6000 — техника offloading там похожа, но масштабы другие.

И последнее: не верьте тем, кто говорит, что Windows непригодна для локального AI. С правильным harness и квантованием вы получите до 30 токенов/с на 27B модели — этого хватит для комфортного общения, анализа текстов и даже простой code review. А если захотите большего — всегда можно двойной загрузкой поставить Linux и выжать ещё 15% скорости. Но это уже совсем другая история.

Подписаться на канал

Как выбрать harness для Qwen 3.6 27B: сравнение инструментов для запуска больших языковых моделей на Windows