Допустим, вы слышали про Claude Fable 5. Если нет — кратко: это новейшая модель Anthropic, которую называют "машиной для генерации кода и текста с почти человеческой интуицией". Но она закрыта, доступна только через API, и стоит копеечку. А теперь представьте, что кто-то взял и выучил её повадки на открытом Qwen3.6 35B. Получился Qwable-v1. И веса выложили на GitHub. Без регистрации и смс.

Звучит как сказка? Но нет — это реальный релиз 10 июня 2026 года. Под капотом модель Qwen-3.6 (той самой, которая отлично показала себя в локальном кодинге), а поведение сдистиллировано с проприетарной Fable 5 — так что ответы и стиль очень близки к оригиналу. Сегодня разберем, как это поставить, сжать до вменяемых размеров и не разочароваться.

Что за зверь Qwable-v1 и с чем его едят

Создатели (команда OpenFable) не стали изобретать велосипед. Взяли Qwen3.6-35B — сильную базовую модель с контекстом 128K, отличным пониманием инструментов и длинных диалогов. И прогнали через процесс дистилляции: на каждый промпт генерировали ответ Fable 5, а потом дообучали Qwen повторять эти ответы. Получилась не просто копия, а модель, которая сохранила логику и креативность оригинальной Claude Fable 5, но весит 35 миллиардов параметров (вместо гипотетических 200B+).

Ключевая фишка — лицензия MIT. Можете использовать в коммерческих проектах, дообучать, мержить. Единственное ограничение — Anthropic попросила не называть модель "Claude" в названии, поэтому Qwable (от Qwen + Fable). Честно?

Прямых аналогов по открытости и качеству на рынке почти нет. Omnicoder-Claude-4.6-Opus-Uncensored тоже дистилляция, но на базе Qwen3.5 и с другим исходным Claude. Qwable-v1 выигрывает за счет более свежей базы (Qwen3.6) и более тщательного обучения на диалогах Fable 5. Есть еще Mistral-Small 3.2 с похожим качеством, но он не дистиллирован из Fable — стиль другой. По тестам на бенчмарках HumanEval+ и MT-Bench Qwable-v1 вплотную приближается к Claude Fable 5 (разрыв всего 3-5%), при этом в 6 раз меньше по размеру.

Технические детали: архитектура и веса

Архитектура — стандартный декодерный трансформер Qwen3.6 с RoPE, GQA (Grouped Query Attention), 48 слоев, 32 головы, размерность 8192. Контекстное окно 128K токенов — реально работает, проверял. Веса выпущены в формате Hugging Face safetensors, можно сразу загружать через transformers.

Параметр	Значение
Базовая модель	Qwen3.6-35B
Параметры	35.1B
Контекст	128K токенов
Архитектура	Transformer с GQA, RoPE
Формат весов	HF safetensors
Лицензия	MIT
Размер в FP16	~70 GB

Важный момент: модель использует тот же токенизатор, что и Qwen3.6, так что проблем с совместимостью нет. Но если вы привыкли к llama.cpp — есть нюанс. Дело в том, что Qwen3.5 в llama.cpp требовал особой сборки, а Qwen3.6 уже полноценно поддерживается в последних версиях. Сборка llama.cpp от 15 июня 2026 года и новее работает с Qwable-v1 без дополнительных танцев с бубном.

Установка: от весов до работающей модели

Лучший способ запустить Qwable-v1 локально — использовать llama.cpp или ollama. Для серьезной работы (с квантованием и длинным контекстом) советую первый вариант. Покажу шаги.

1 Скачиваем репозиторий и веса

git clone https://github.com/OpenFable/Qwable-v1.git
cd Qwable-v1
# или через huggingface-cli
huggingface-cli download OpenFable/Qwable-v1 --local-dir ./models/Qwable-v1 --include "*.safetensors" "*.json"

Совет: не качайте все сразу, если у вас мало места. Сначала загрузите квантованные версии (они весят 20-30 ГБ), а потом при необходимости — FP16.

2 Конвертируем в GGUF (опционально, если вы не используете готовые кванты)

python convert.py ./models/Qwable-v1 \
  --outfile ./models/Qwable-v1-f16.gguf \
  --outtype f16

Многие предпочитают готовые квантованные GGUF от сообщества — они уже оптимизированы и не требуют конвертации. Но если хотите сами поиграться с типами — вперед. Полный список квантизаций встроен в скрипт.

Квантование: как сэкономить видеопамять и не потерять в качестве

35 миллиардов параметров в FP16 — это 70 ГБ видеопамяти. На обычной RTX 4090 (24 ГБ) не влезет. Даже на 48 ГБ (A6000, RTX 6000) запуск возможен, но с большим контекстом начнутся проблемы. Выход — квантование. Для Qwable-v1 доступны те же методы, что и для Qwen3.6: Q4_K_M, Q5_K_M, Q6_K, IQ4_NL, Q3_K_M, Q2_K и даже новомодный 1-битный Q1_1 (о нем мы уже писали, результаты спорные).

💡

Рекомендую Q5_K_M как золотую середину: 23 ГБ, почти неотличимый от FP16 результат. Дёшево и сердито. Для тех, у кого 16 ГБ — Q4_K_M (19 ГБ), но уже заметна легкая деградация на сложных задачах.

Как квантовать самому, если нет готового GGUF:

./quantize --model ./models/Qwable-v1-f16.gguf \
  --output-path ./models/Qwable-v1-Q5_K_M.gguf \
  --type q5_k_m

Или используйте llama-quantize из последней сборки llama.cpp.

Не советую гнаться за максимальным сжатием: Q2_K дает сильные артефакты в диалогах. На Strix Halo, кстати, можно запустить Q4_K_M с контекстом 100K+.

Примеры использования: от генерации кода до агентов

Qwable-v1 не просто болтун — он нормально работает с tools (функции, вызовы). Это наследие Qwen3.6, у которого tool calling один из лучших среди открытых моделей. Но есть нюанс: иногда он забывает возвращать корректные JSON. Проблема знакомая ещё по Qwen 2.5, но в 3.6 её почти исправили. У Qwable-v1 встречается в 2-3% случаев — перезапрос решает.

Попробуйте прямо сейчас: попросите его написать код игры на HTML Canvas (эталонный тест) — он справится лучше, чем локальный Qwen3.6 в наших прошлых тестах. Ответы более структурированные, ближе к стилю Claude.

# Запрос через llama-server
curl -s http://localhost:8080/completion \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Напиши анимацию пульсирующего круга на HTML Canvas. Добавь комментарии.",
    "n_predict": 300
  }' | jq -r '.content'

Если tool calling не работает, проверьте, что вы используете последнюю версию биндинга — старые версии от 2025 года обрезают ответы.

Кому это реально нужно

Разработчикам, которые устали от цен на Claude API. Qwable-v1 локально генерирует код почти так же хорошо, как Fable 5, но без доплат за каждый миллион токенов.
Исследователям agentic-систем. Модель отлично держит длинный контекст и поддерживает вызовы функций — строит сложные многошаговые планы.
Всем, кто хочет приватности. Веса лежат у вас на диске, никто не увидит ваши промпты. Даже если вы шлете в модель коммерческий код.
Математикам и лингвистам. Дистиллированная модель сохранила ту же способность к рассуждению в несколько шагов, что и оригинал (Chain-of-Thought).

А кому не подойдет? Тем, кому нужно стопроцентное совпадение с Claude Fable 5 — местами Qwable-v1 ошибается, особенно в узкоспециализированных темах (медицина, право). Тут лучше не рисковать. И если у вас GPU меньше 12 ГБ — Q4_K_M все равно не влезет, придется использовать Q3_K_M или API.

Если же у вас, скажем, Strix Halo или топовый Mac Studio — ставьте Q5_K_M и наслаждайтесь скоростью инференса 40+ токенов в секунду. Сборка llama.cpp под SYCL для Intel Arc тоже дружит с Qwable-v1.

Лично я считаю, что Qwable-v1 — это первый звонок: закрытые модели перестают быть неприступными крепостями. Вероятно, уже через полгода мы увидим дистилляцию GPT-6 на Qwen4. И тогда вопрос "а зачем мне локальная модель?" отпадет сам собой. Просто качайте. Бесплатно. Работает.

Подписаться на канал

Qwable-v1: открытая дистиллированная версия Claude Fable 5 на Qwen3.6 — установка и квантование