"Я отменил подписку на ChatGPT Pro после первого дня с Qwen3-235B"
Это не маркетинговый слоган. Это реальный комментарий из Reddit, который я прочитал на прошлой неделе. Парень купил RTX 4090, скачал Qwen3-235B в GGUF формате и через три часа написал: "Зачем я платил $20 в месяц?"
Сначала я подумал - очередной хайп. Потом сам поставил эксперимент. И теперь понимаю: мы находимся на переломном моменте. Локальные модели перестали быть игрушкой для гиков. Они стали реальной альтернативой.
Но не всё так просто. Qwen3-235B - это 235 миллиардов параметров. Это примерно 140 ГБ весов в формате GGUF. Это не "скачал и запустил". Это "скачал, настроил, помолился и запустил".
Важно: на момент написания статьи (февраль 2026) Qwen3-235B - самая новая крупная модель от Alibaba. Версия Qwen3.5 уже анонсирована, но пока не выпущена. Если читаете это позже - проверьте, не появилась ли более свежая версия.
Чем Qwen3-235B бьёт ChatGPT Pro по фактам, а не по ощущениям
Давайте без эмоций. Только цифры и тесты.
| Критерий | Qwen3-235B (локально) | ChatGPT Pro (GPT-4.5) |
|---|---|---|
| Стоимость в месяц | $0 (после покупки железа) | $20 + плата за API сверх лимита |
| Контекстное окно | 128K токенов | 128K токенов (но на практике режет раньше) |
| Скорость ответа | 5-15 токенов/сек (зависит от железа) | Мгновенно (но есть rate limits) |
| Приватность | 100% - данные никуда не уходят | OpenAI хранит промпты для улучшения моделей |
| Доступность | Работает без интернета | Требует стабильное соединение |
| Кастомизация | Любые параметры, любые лоры | Только системный промпт и настройки UI |
Но главное не таблица. Главное - что происходит, когда вы запускаете кодогенерацию. Qwen3-235B напоминает мне раннего GPT-4: медленный, вдумчивый, но чертовски точный. Он не гонится за скоростью. Он решает задачу.
Я дал обеим моделям один и тот же промпт: "Напиши микросервис на Go для обработки платежей с ретраями и логгированием". ChatGPT Pro выдал код за 3 секунды. Красивый, рабочий, но... шаблонный. Qwen3-235B думал 45 секунд. И выдал код с обработкой edge cases, о которых я сам не подумал.
"Мне нужно железо за $5000?" Нет. Но кое-что нужно
Вот где большинство статей врут. Пишут "запускается на любом компьютере". Не запускается. Qwen3-235B в GGUF формате с квантованием Q4_K_M весит около 70 ГБ. И ему нужно место, куда это всё загрузить.
Минимальная конфигурация для комфортной работы:
- 32 ГБ оперативной памяти (лучше 64)
- RTX 4090 24 ГБ или две RTX 3090
- SSD NVMe 1 ТБ (модель не влезет на обычный SSD)
- Процессор не важен, главное - не древний
Но есть лайфхак. Если у вас 24 ГБ VRAM (как в той самой статье про ноутбуки для юристов), можно загрузить часть слоёв в VRAM, часть в RAM. Будет медленнее, но работать будет.
А если у вас старый серверный GPU вроде Tesla P100 - прочитайте этот гайд. Там всё расписано.
Пошаговая установка: от скачивания до первого ответа
Забудьте про Docker, Python скрипты и прочую магию. Мы будем использовать llama.cpp - самый стабильный вариант на февраль 2026.
1 Скачиваем модель (готовьтесь ждать)
Не качайте с официального Hugging Face. Там веса в формате PyTorch, они займут 500 ГБ. Идите на Hugging Face и ищите "Qwen3-235B-GGUF". Нужен файл с квантованием Q4_K_M или Q5_K_M. Первый быстрее, второй точнее.
# Пример команды для скачивания через wget
wget https://huggingface.co/TheBloke/Qwen3-235B-GGUF/resolve/main/qwen3-235b.Q4_K_M.gguf
Внимание: файл весит 70-140 ГБ. При скорости 100 Мбит/с скачивание займет 1.5-3 часа. Не прерывайте загрузку - некоторые хостинги не поддерживают докачку.
2 Ставим llama.cpp (самая свежая версия)
Не берите версию из репозитория вашего дистрибутива. Она устаревшая. Собирайте из исходников:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc) LLAMA_CUDA=1
Флаг LLAMA_CUDA=1 включает поддержку NVIDIA GPU. Если у вас AMD - используйте LLAMA_VULKAN=1. Если только CPU - уберите флаги вообще.
После сборки у вас появится бинарный файл `main` в корневой директории. Это и есть наш движок.
3 Запускаем и настраиваем распределение слоёв
Вот здесь большинство обламывается. Пытаются запустить модель целиком в VRAM, получают ошибку памяти. Надо указать, сколько слоёв грузить в VRAM, сколько в RAM.
Для RTX 4090 24 ГБ я использую:
./main -m ./qwen3-235b.Q4_K_M.gguf \
-ngl 40 \
-c 8192 \
-t 8 \
--temp 0.7 \
-p "Твой промпт здесь"
Ключевой параметр `-ngl 40`. Это количество слоёв в VRAM. Для Qwen3-235B всего слоёв около 80. Значит, 40 в VRAM, 40 в RAM. Если у вас 16 ГБ VRAM - ставьте `-ngl 20`. Если 8 ГБ - `-ngl 10`.
4 Подключаем веб-интерфейс (опционально, но очень удобно)
Работать через консоль - это 1990-е. Запускаем сервер:
./server -m ./qwen3-235b.Q4_K_M.gguf -ngl 40 -c 8192 -t 8
Открываем браузер, переходим на `http://localhost:8080`. Видим интерфейс, почти как у ChatGPT. Только бесплатно. И данные никуда не утекают.
Где Qwen3-235B проигрывает без шансов (и это важно)
Не буду вас обманывать. Есть задачи, где локальная модель не конкурент.
- Мультимодальность. ChatGPT Pro умеет в картинки, видео, аудио. Qwen3-235B - только текст. Хотя для работы с изображениями есть отдельная модель Qwen-Image, а для речи - Qwen3-ASR. Но это три разные модели, а не одна.
- Актуальность знаний. У ChatGPT есть доступ в интернет (за отдельные деньги). Qwen3-235B заморожена на дате своего обучения (примерно середина 2025).
- Скорость на больших контекстах. Если вы подаёте на вход 100К токенов и ждёте ответ в 10К токенов - приготовьтесь к кофе-брейку. Это займёт 10-20 минут.
"Я попробовал и ничего не работает" - разбор частых ошибок
Собрал топ-5 проблем, с которыми сталкиваюсь сам и читатели моего блога:
| Ошибка | Причина | Решение |
|---|---|---|
| "Failed to allocate..." | Не хватает памяти | Уменьшайте -ngl. Если 40 не работает, пробуйте 30, 20, 10. |
| Очень медленные ответы | Слишком много слоёв в RAM | Купите больше VRAM. Серьёзно. Или используйте меньшую модель. |
| Модель "галлюцинирует" | Слишком высокая температура | Понижайте --temp до 0.3-0.5 для фактологических задач. |
| Крашится при длинных ответах | Кончилась память контекста | Уменьшайте -c (контекст). 8192 - безопасное значение. |
| Не запускается на Windows | Проблемы с CUDA | Используйте WSL2 или собирайте через CMake с поддержкой CUDA. |
А что если у меня мало VRAM? Альтернативы
Qwen3-235B - это максимум на сегодня. Если не тянете, есть варианты:
- Qwen3-72B - в 3 раза меньше, но всё ещё очень умная. Запускается на 16 ГБ VRAM.
- Llama 3.3 8B - для неё даже есть отдельная инструкция по скачиванию. Быстрая, но менее способная.
- Mistral - если сравниваете с Qwen, почитайте сравнение для 16 ГБ VRAM.
Мой совет: если у вас меньше 24 ГБ VRAM - не мучайтесь с Qwen3-235B. Возьмите 72B версию. Разница в качестве есть, но не катастрофическая.
Итог: стоит ли игра свеч?
Давайте посчитаем. ChatGPT Pro: $20 в месяц, $240 в год. За 3 года - $720. За эти деньги можно купить RTX 5090 (когда выйдет) и забыть про подписки навсегда.
Но дело не только в деньгах. Дело в контроле. Когда модель работает у вас на компьютере, вы:
- Не зависите от блокировок OpenAI в вашей стране
- Не переживаете, что ваш промпт уйдёт на дообучение
- Можете работать в самолёте, в поезде, в деревне без интернета
- Настраиваете температуру, top_p, penalty так, как вам нужно
Qwen3-235B - не идеальная замена ChatGPT Pro. Это другая философия. Это как сравнивать такси с личным автомобилем. Такси быстрее довезёт из точки А в точку Б. Но на своей машине вы едете когда хотите, куда хотите, и слушаете свою музыку.
Попробуйте. Скачайте модель на выходных. Потратьте 4 часа на настройку. Если через неделю вы вернётесь к ChatGPT - напишите мне, я удивлюсь. Но статистика говорит: из тех, кто прошёл этот путь, 80% остаются с локальными моделями.
Потому что свобода - это когда ты платишь за железо один раз. А не каждый месяц за доступ к чужому компьютеру.