Допустим, вы слышали про Claude Fable 5. Если нет — кратко: это новейшая модель Anthropic, которую называют "машиной для генерации кода и текста с почти человеческой интуицией". Но она закрыта, доступна только через API, и стоит копеечку. А теперь представьте, что кто-то взял и выучил её повадки на открытом Qwen3.6 35B. Получился Qwable-v1. И веса выложили на GitHub. Без регистрации и смс.
Звучит как сказка? Но нет — это реальный релиз 10 июня 2026 года. Под капотом модель Qwen-3.6 (той самой, которая отлично показала себя в локальном кодинге), а поведение сдистиллировано с проприетарной Fable 5 — так что ответы и стиль очень близки к оригиналу. Сегодня разберем, как это поставить, сжать до вменяемых размеров и не разочароваться.
Что за зверь Qwable-v1 и с чем его едят
Создатели (команда OpenFable) не стали изобретать велосипед. Взяли Qwen3.6-35B — сильную базовую модель с контекстом 128K, отличным пониманием инструментов и длинных диалогов. И прогнали через процесс дистилляции: на каждый промпт генерировали ответ Fable 5, а потом дообучали Qwen повторять эти ответы. Получилась не просто копия, а модель, которая сохранила логику и креативность оригинальной Claude Fable 5, но весит 35 миллиардов параметров (вместо гипотетических 200B+).
Ключевая фишка — лицензия MIT. Можете использовать в коммерческих проектах, дообучать, мержить. Единственное ограничение — Anthropic попросила не называть модель "Claude" в названии, поэтому Qwable (от Qwen + Fable). Честно?
Прямых аналогов по открытости и качеству на рынке почти нет. Omnicoder-Claude-4.6-Opus-Uncensored тоже дистилляция, но на базе Qwen3.5 и с другим исходным Claude. Qwable-v1 выигрывает за счет более свежей базы (Qwen3.6) и более тщательного обучения на диалогах Fable 5. Есть еще Mistral-Small 3.2 с похожим качеством, но он не дистиллирован из Fable — стиль другой. По тестам на бенчмарках HumanEval+ и MT-Bench Qwable-v1 вплотную приближается к Claude Fable 5 (разрыв всего 3-5%), при этом в 6 раз меньше по размеру.
Технические детали: архитектура и веса
Архитектура — стандартный декодерный трансформер Qwen3.6 с RoPE, GQA (Grouped Query Attention), 48 слоев, 32 головы, размерность 8192. Контекстное окно 128K токенов — реально работает, проверял. Веса выпущены в формате Hugging Face safetensors, можно сразу загружать через transformers.
| Параметр | Значение |
|---|---|
| Базовая модель | Qwen3.6-35B |
| Параметры | 35.1B |
| Контекст | 128K токенов |
| Архитектура | Transformer с GQA, RoPE |
| Формат весов | HF safetensors |
| Лицензия | MIT |
| Размер в FP16 | ~70 GB |
Важный момент: модель использует тот же токенизатор, что и Qwen3.6, так что проблем с совместимостью нет. Но если вы привыкли к llama.cpp — есть нюанс. Дело в том, что Qwen3.5 в llama.cpp требовал особой сборки, а Qwen3.6 уже полноценно поддерживается в последних версиях. Сборка llama.cpp от 15 июня 2026 года и новее работает с Qwable-v1 без дополнительных танцев с бубном.
Установка: от весов до работающей модели
Лучший способ запустить Qwable-v1 локально — использовать llama.cpp или ollama. Для серьезной работы (с квантованием и длинным контекстом) советую первый вариант. Покажу шаги.
1 Скачиваем репозиторий и веса
git clone https://github.com/OpenFable/Qwable-v1.git
cd Qwable-v1
# или через huggingface-cli
huggingface-cli download OpenFable/Qwable-v1 --local-dir ./models/Qwable-v1 --include "*.safetensors" "*.json"Совет: не качайте все сразу, если у вас мало места. Сначала загрузите квантованные версии (они весят 20-30 ГБ), а потом при необходимости — FP16.
2 Конвертируем в GGUF (опционально, если вы не используете готовые кванты)
python convert.py ./models/Qwable-v1 \
--outfile ./models/Qwable-v1-f16.gguf \
--outtype f16Многие предпочитают готовые квантованные GGUF от сообщества — они уже оптимизированы и не требуют конвертации. Но если хотите сами поиграться с типами — вперед. Полный список квантизаций встроен в скрипт.
Квантование: как сэкономить видеопамять и не потерять в качестве
35 миллиардов параметров в FP16 — это 70 ГБ видеопамяти. На обычной RTX 4090 (24 ГБ) не влезет. Даже на 48 ГБ (A6000, RTX 6000) запуск возможен, но с большим контекстом начнутся проблемы. Выход — квантование. Для Qwable-v1 доступны те же методы, что и для Qwen3.6: Q4_K_M, Q5_K_M, Q6_K, IQ4_NL, Q3_K_M, Q2_K и даже новомодный 1-битный Q1_1 (о нем мы уже писали, результаты спорные).
Как квантовать самому, если нет готового GGUF:
./quantize --model ./models/Qwable-v1-f16.gguf \
--output-path ./models/Qwable-v1-Q5_K_M.gguf \
--type q5_k_mИли используйте llama-quantize из последней сборки llama.cpp.
Не советую гнаться за максимальным сжатием: Q2_K дает сильные артефакты в диалогах. На Strix Halo, кстати, можно запустить Q4_K_M с контекстом 100K+.
Примеры использования: от генерации кода до агентов
Qwable-v1 не просто болтун — он нормально работает с tools (функции, вызовы). Это наследие Qwen3.6, у которого tool calling один из лучших среди открытых моделей. Но есть нюанс: иногда он забывает возвращать корректные JSON. Проблема знакомая ещё по Qwen 2.5, но в 3.6 её почти исправили. У Qwable-v1 встречается в 2-3% случаев — перезапрос решает.
Попробуйте прямо сейчас: попросите его написать код игры на HTML Canvas (эталонный тест) — он справится лучше, чем локальный Qwen3.6 в наших прошлых тестах. Ответы более структурированные, ближе к стилю Claude.
# Запрос через llama-server
curl -s http://localhost:8080/completion \
-H "Content-Type: application/json" \
-d '{
"prompt": "Напиши анимацию пульсирующего круга на HTML Canvas. Добавь комментарии.",
"n_predict": 300
}' | jq -r '.content'
Кому это реально нужно
- Разработчикам, которые устали от цен на Claude API. Qwable-v1 локально генерирует код почти так же хорошо, как Fable 5, но без доплат за каждый миллион токенов.
- Исследователям agentic-систем. Модель отлично держит длинный контекст и поддерживает вызовы функций — строит сложные многошаговые планы.
- Всем, кто хочет приватности. Веса лежат у вас на диске, никто не увидит ваши промпты. Даже если вы шлете в модель коммерческий код.
- Математикам и лингвистам. Дистиллированная модель сохранила ту же способность к рассуждению в несколько шагов, что и оригинал (Chain-of-Thought).
А кому не подойдет? Тем, кому нужно стопроцентное совпадение с Claude Fable 5 — местами Qwable-v1 ошибается, особенно в узкоспециализированных темах (медицина, право). Тут лучше не рисковать. И если у вас GPU меньше 12 ГБ — Q4_K_M все равно не влезет, придется использовать Q3_K_M или API.
Если же у вас, скажем, Strix Halo или топовый Mac Studio — ставьте Q5_K_M и наслаждайтесь скоростью инференса 40+ токенов в секунду. Сборка llama.cpp под SYCL для Intel Arc тоже дружит с Qwable-v1.
Лично я считаю, что Qwable-v1 — это первый звонок: закрытые модели перестают быть неприступными крепостями. Вероятно, уже через полгода мы увидим дистилляцию GPT-6 на Qwen4. И тогда вопрос "а зачем мне локальная модель?" отпадет сам собой. Просто качайте. Бесплатно. Работает.