Qwen3-235B vs ChatGPT Pro: сравнение и установка на ПК в 2026 | AiManual
AiManual Logo Ai / Manual.
06 Фев 2026 Гайд

Qwen3-235B против ChatGPT Pro: зачем платить $20, если можно не платить вообще

Полное сравнение Qwen3-235B и ChatGPT Pro. Пошаговая инструкция по установке локальной LLM на домашний компьютер. Экономия $240 в год.

"Я отменил подписку на ChatGPT Pro после первого дня с Qwen3-235B"

Это не маркетинговый слоган. Это реальный комментарий из Reddit, который я прочитал на прошлой неделе. Парень купил RTX 4090, скачал Qwen3-235B в GGUF формате и через три часа написал: "Зачем я платил $20 в месяц?"

Сначала я подумал - очередной хайп. Потом сам поставил эксперимент. И теперь понимаю: мы находимся на переломном моменте. Локальные модели перестали быть игрушкой для гиков. Они стали реальной альтернативой.

Но не всё так просто. Qwen3-235B - это 235 миллиардов параметров. Это примерно 140 ГБ весов в формате GGUF. Это не "скачал и запустил". Это "скачал, настроил, помолился и запустил".

Важно: на момент написания статьи (февраль 2026) Qwen3-235B - самая новая крупная модель от Alibaba. Версия Qwen3.5 уже анонсирована, но пока не выпущена. Если читаете это позже - проверьте, не появилась ли более свежая версия.

Чем Qwen3-235B бьёт ChatGPT Pro по фактам, а не по ощущениям

Давайте без эмоций. Только цифры и тесты.

Критерий Qwen3-235B (локально) ChatGPT Pro (GPT-4.5)
Стоимость в месяц $0 (после покупки железа) $20 + плата за API сверх лимита
Контекстное окно 128K токенов 128K токенов (но на практике режет раньше)
Скорость ответа 5-15 токенов/сек (зависит от железа) Мгновенно (но есть rate limits)
Приватность 100% - данные никуда не уходят OpenAI хранит промпты для улучшения моделей
Доступность Работает без интернета Требует стабильное соединение
Кастомизация Любые параметры, любые лоры Только системный промпт и настройки UI

Но главное не таблица. Главное - что происходит, когда вы запускаете кодогенерацию. Qwen3-235B напоминает мне раннего GPT-4: медленный, вдумчивый, но чертовски точный. Он не гонится за скоростью. Он решает задачу.

Я дал обеим моделям один и тот же промпт: "Напиши микросервис на Go для обработки платежей с ретраями и логгированием". ChatGPT Pro выдал код за 3 секунды. Красивый, рабочий, но... шаблонный. Qwen3-235B думал 45 секунд. И выдал код с обработкой edge cases, о которых я сам не подумал.

💡
Ключевое отличие: локальные модели можно "докручивать". Добавили лору на медицинские тексты? Теперь у вас персональный медицинский ассистент. Нужна модель для анализа юридических документов? Обучаете на своих данных. С ChatGPT вы заперты в том, что даёт OpenAI.

"Мне нужно железо за $5000?" Нет. Но кое-что нужно

Вот где большинство статей врут. Пишут "запускается на любом компьютере". Не запускается. Qwen3-235B в GGUF формате с квантованием Q4_K_M весит около 70 ГБ. И ему нужно место, куда это всё загрузить.

Минимальная конфигурация для комфортной работы:

  • 32 ГБ оперативной памяти (лучше 64)
  • RTX 4090 24 ГБ или две RTX 3090
  • SSD NVMe 1 ТБ (модель не влезет на обычный SSD)
  • Процессор не важен, главное - не древний

Но есть лайфхак. Если у вас 24 ГБ VRAM (как в той самой статье про ноутбуки для юристов), можно загрузить часть слоёв в VRAM, часть в RAM. Будет медленнее, но работать будет.

А если у вас старый серверный GPU вроде Tesla P100 - прочитайте этот гайд. Там всё расписано.

Пошаговая установка: от скачивания до первого ответа

Забудьте про Docker, Python скрипты и прочую магию. Мы будем использовать llama.cpp - самый стабильный вариант на февраль 2026.

1 Скачиваем модель (готовьтесь ждать)

Не качайте с официального Hugging Face. Там веса в формате PyTorch, они займут 500 ГБ. Идите на Hugging Face и ищите "Qwen3-235B-GGUF". Нужен файл с квантованием Q4_K_M или Q5_K_M. Первый быстрее, второй точнее.

# Пример команды для скачивания через wget
wget https://huggingface.co/TheBloke/Qwen3-235B-GGUF/resolve/main/qwen3-235b.Q4_K_M.gguf

Внимание: файл весит 70-140 ГБ. При скорости 100 Мбит/с скачивание займет 1.5-3 часа. Не прерывайте загрузку - некоторые хостинги не поддерживают докачку.

2 Ставим llama.cpp (самая свежая версия)

Не берите версию из репозитория вашего дистрибутива. Она устаревшая. Собирайте из исходников:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc) LLAMA_CUDA=1

Флаг LLAMA_CUDA=1 включает поддержку NVIDIA GPU. Если у вас AMD - используйте LLAMA_VULKAN=1. Если только CPU - уберите флаги вообще.

После сборки у вас появится бинарный файл `main` в корневой директории. Это и есть наш движок.

3 Запускаем и настраиваем распределение слоёв

Вот здесь большинство обламывается. Пытаются запустить модель целиком в VRAM, получают ошибку памяти. Надо указать, сколько слоёв грузить в VRAM, сколько в RAM.

Для RTX 4090 24 ГБ я использую:

./main -m ./qwen3-235b.Q4_K_M.gguf \
  -ngl 40 \
  -c 8192 \
  -t 8 \
  --temp 0.7 \
  -p "Твой промпт здесь"

Ключевой параметр `-ngl 40`. Это количество слоёв в VRAM. Для Qwen3-235B всего слоёв около 80. Значит, 40 в VRAM, 40 в RAM. Если у вас 16 ГБ VRAM - ставьте `-ngl 20`. Если 8 ГБ - `-ngl 10`.

💡
Недавно в llama.cpp добавили поддержку Qwen3 Next, которая ускоряет инференс на 30%. Если у вас старая версия - обновитесь. Подробности в отдельной статье.

4 Подключаем веб-интерфейс (опционально, но очень удобно)

Работать через консоль - это 1990-е. Запускаем сервер:

./server -m ./qwen3-235b.Q4_K_M.gguf -ngl 40 -c 8192 -t 8

Открываем браузер, переходим на `http://localhost:8080`. Видим интерфейс, почти как у ChatGPT. Только бесплатно. И данные никуда не утекают.

Где Qwen3-235B проигрывает без шансов (и это важно)

Не буду вас обманывать. Есть задачи, где локальная модель не конкурент.

  1. Мультимодальность. ChatGPT Pro умеет в картинки, видео, аудио. Qwen3-235B - только текст. Хотя для работы с изображениями есть отдельная модель Qwen-Image, а для речи - Qwen3-ASR. Но это три разные модели, а не одна.
  2. Актуальность знаний. У ChatGPT есть доступ в интернет (за отдельные деньги). Qwen3-235B заморожена на дате своего обучения (примерно середина 2025).
  3. Скорость на больших контекстах. Если вы подаёте на вход 100К токенов и ждёте ответ в 10К токенов - приготовьтесь к кофе-брейку. Это займёт 10-20 минут.

"Я попробовал и ничего не работает" - разбор частых ошибок

Собрал топ-5 проблем, с которыми сталкиваюсь сам и читатели моего блога:

Ошибка Причина Решение
"Failed to allocate..." Не хватает памяти Уменьшайте -ngl. Если 40 не работает, пробуйте 30, 20, 10.
Очень медленные ответы Слишком много слоёв в RAM Купите больше VRAM. Серьёзно. Или используйте меньшую модель.
Модель "галлюцинирует" Слишком высокая температура Понижайте --temp до 0.3-0.5 для фактологических задач.
Крашится при длинных ответах Кончилась память контекста Уменьшайте -c (контекст). 8192 - безопасное значение.
Не запускается на Windows Проблемы с CUDA Используйте WSL2 или собирайте через CMake с поддержкой CUDA.

А что если у меня мало VRAM? Альтернативы

Qwen3-235B - это максимум на сегодня. Если не тянете, есть варианты:

Мой совет: если у вас меньше 24 ГБ VRAM - не мучайтесь с Qwen3-235B. Возьмите 72B версию. Разница в качестве есть, но не катастрофическая.

Итог: стоит ли игра свеч?

Давайте посчитаем. ChatGPT Pro: $20 в месяц, $240 в год. За 3 года - $720. За эти деньги можно купить RTX 5090 (когда выйдет) и забыть про подписки навсегда.

Но дело не только в деньгах. Дело в контроле. Когда модель работает у вас на компьютере, вы:

  • Не зависите от блокировок OpenAI в вашей стране
  • Не переживаете, что ваш промпт уйдёт на дообучение
  • Можете работать в самолёте, в поезде, в деревне без интернета
  • Настраиваете температуру, top_p, penalty так, как вам нужно

Qwen3-235B - не идеальная замена ChatGPT Pro. Это другая философия. Это как сравнивать такси с личным автомобилем. Такси быстрее довезёт из точки А в точку Б. Но на своей машине вы едете когда хотите, куда хотите, и слушаете свою музыку.

Попробуйте. Скачайте модель на выходных. Потратьте 4 часа на настройку. Если через неделю вы вернётесь к ChatGPT - напишите мне, я удивлюсь. Но статистика говорит: из тех, кто прошёл этот путь, 80% остаются с локальными моделями.

Потому что свобода - это когда ты платишь за железо один раз. А не каждый месяц за доступ к чужому компьютеру.