Когда корпоративный рубильник опускается
2 июня 2026 года Anthropic закрыла доступ к Claude Fable 5 и Mythos 5 для пользователей из десятков стран — включая Россию, Китай, Индию и почти весь Global South. Формально — экспортный контроль США. Реально — удар по тысячам разработчиков, которые вложили деньги, время и доверие в экосистему Claude. API превратился в тыкву ровно в полночь.
Я писал об этом в предыдущем материале, но повторю: это не просто сбой — это системный сдвиг. Когда правительство США одним документом отключает целый класс моделей для половины мира, иллюзия «облачной независимости» разбивается вдребезги. Локальные open-source модели перестают быть экзотикой — они становятся единственной реальной альтернативой.
Важный подтекст: Anthropic сама годами лоббировала ужесточение экспортного контроля — читайте анализ угроз. Теперь они сами от него пострадали, но цену платят пользователи.
Что предлагают open-source модели вместо Fable 5
Fable 5 — это урезанная публичная версия Mythos. Она показывала высокое качество на задачах кодинга, математики и креатива. Но теперь её нет. Взамен мы имеем:
- Полная свобода от цензуры — никакой «ответственной» блокировки тем. Вы сами решаете, на чём обучать модель.
- Никакого экспортного контроля — веса скачиваются на ваш сервер или ноутбук, и никакой госдеп их не отключит.
- Экономия в долгую — вместо подписки на API ($0.2+ за миллион токенов у Fable 5) вы платите только за железо один раз.
Качество? Да, современные open-source модели (Qwen 3 72B, Llama 4 70B, DeepSeek-R1) на многих бенчмарках отстают от Mythos на 3-7 процентов. Но разрыв сокращается с каждым кварталом. А с учётом слитого датасета Fable5-CoT-Leak (120 000 диалогов с цепочками рассуждений — подробности в статье про уроки блокировки) сообщество дообучает открытые модели, догоняя проприетарных гигантов.
Практический план: с нуля до рабочей локальной LLM
Звучит сложно? На самом деле всё укладывается в четыре шага. Я покажу на примере GGUF-формата — это стандарт для квантованных моделей, который работает даже на домашнем ПК с 16 ГБ ОЗУ.
1 Выбери модель и убедись, что железо потянет
Не бери самую жирную — начни с той, что влезет в твою видеокарту. Таблица ниже — ориентир на июнь 2026.
| Модель | Размер кванта | VRAM (примерно) | Качество vs Fable 5 |
|---|---|---|---|
| Qwen 3 72B | Q4_K_M | 24 ГБ | -6% |
| Llama 4 70B | Q4_K_M | 24 ГБ | -5% |
| DeepSeek-R1 67B | Q4_K_M | 22 ГБ | -8% (но мыслит длиннее) |
| Mistral Small 24B | Q5_1 | 12 ГБ | -12% |
Качай модели с HuggingFace — фильтр по GGUF. Рекомендую сборки от QuantFactory или MaziyarPanahi — они поддерживают актуальные кванты (IK, Q3-Q6).
2 Установи движок для инференса
Выбор: llama.cpp (голый C++, максимальный контроль), Ollama (простота, Docker-like) или LM Studio (графический интерфейс для мака/винды). Я ставлю на Ollama — он жрёт меньше мозга и поддерживает GGUF из коробки.
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — скачать установщик с ollama.com
Сразу после установки скачиваем модель — не через интерфейс, а через терминал:
ollama pull qwen3:72b-instruct-q4_K_M
Пока качается — проверь, что файл подкачки не сожрал весь SSD. Одна модель весит 40-50 ГБ.
3 Запусти и протестируй
Проще некуда:
ollama run qwen3:72b-instruct-q4_K_M
# Или одной строкой с промптом:
ollama run qwen3:72b-instruct-q4_K_M "Напиши скрипт на Python для парсинга новостей"
Если на GPU не хватает памяти — движок автоматически переключит часть слоёв на CPU. Будет медленно, но работать будет.
Совет профи: для реального использования не дёргай модель в консоли — ставь обёртку типа llama-cpp-python или OpenAI-совместимый сервер (у Ollama он встроен на порту 11434). Тогда твоя локальная модель будет отвечать на запросы, как будто это тот самый Anthropic API.
4 Доведение до ума (опционально, но рекомендуется)
Стоковая модель — это хорошо. Но ты можешь дообучить её на слитом датасете Fable5-CoT. Полный датасет (4.2 ГБ, 120K диалогов) лежит на Hugging Face — Fable5-CoT-Leak (осторожно, юристы Anthropic могут быть недовольны).
Для тонкой настройки используй Axolotl или Unsloth. Пример команды для Unsloth:
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
"Qwen/Qwen3-72B",
max_seq_length=32768,
dtype=None,
load_in_4bit=True,
)
Но это тема отдельной статьи. Пока просто имей в виду — локальная экосистема позволяет не только запускать, но и улучшать модели своими руками. Этого никогда не даст закрытый API.
Типичные ошибки и как их не допустить
Я вижу, как новички наступают на одни и те же грабли. Вот три главные:
- Берут самую большую модель без проверки VRAM. Результат — OOM и чёрный экран. Проверь через
nvidia-smiсвободную память до запуска. Если модель просит 24 ГБ, а у тебя 16 — бери Q3_K_M, а не Q5. - Качают не тот формат. На HuggingFace куча файлов: .safetensors, .hf, .gguf. Тебе нужен только .gguf — иначе придётся конвертировать. Смотри расширение!
- Думают, что одна модель закроет все задачи. Fable 5 была мультидоменной. Локальные модели часто сильны в чём-то одном. Для кода — DeepSeek-Coder, для текста — Qwen, для рассуждений — Llama. Собери зоопарк.
Юридический нюанс: скачивание весов открытых моделей (Llama, Qwen) абсолютно легально. Использование слитого датасета Fable5-CoT — серая зона. Если вы работаете в юрисдикции, признающей DMCA, лучше не афишировать. Но, как показал скандал с Anthropic и Китаем, энфорсмент крайне избирателен.
Почему этот путь — единственный разумный
Правительство США отключило Fable 5 не потому, что модель была опасна. А потому, что могли. Это первый прецедент экспортного контроля ИИ, но не последний. Через год-два под раздачу попадут и другие проприетарные модели.
Локальные open-source модели — это не бедный родственник. Это страховка от политической воли одного чиновника. Да, придётся разобраться с квантованием и выбором железа. Да, размер контекста пока меньше (хотя у Qwen 3 уже 128K токенов). Но зато результат не зависит от интендантской службы США.
Если вы всё ещё строите продукты на API OpenAI или Anthropic — вы не DevOps, вы заложник. Переходите на локальные модели уже сегодня. Да, качество пока не дотягивает до Fable 5, но свобода стоит этих 10 процентов просадки. А когда сообщество дообучит Llama 4 на слитых CoT-цепочках — разрыв может сократиться до нуля.