Публикация AiManual

Anthropic Opus 4.8: mid-conversation system, Fast Mode и цены, которые бесят конкурентов

Mid-conversation system, Fast Mode 2.5x, Dynamic Workflows и снижение цен на API. Разбираем, что реально изменилось в Opus 4.8 и как это использовать.

6 мин чтения 31.05.2026

Коротко

Что будет в материале

01
Mid-conversation system: инъекция без боли
02
Fast Mode 2.5x: как Anthropic обманула закон Мура
03
Dynamic Workflows: когда system prompt живёт своей жизнью
04
Цены: Anthropic наконец-то включила режим конкуренции

Полгода назад Anthropic выпустила Opus 4.7 — модель, которую хвалили за глубину, но проклинали за регрессии в SQL. Через месяц подоспел Sonnet 4.6, и разработчики дружно забыли про GPT-5. А теперь май 2026, и на сцену выходит Claude Opus 4.8. Не просто патч — это перезагрузка правил игры. Fast Mode, Dynamic Workflows, mid-conversation system и цена, от которой у DeepSeek V4 начинается нервный тик.

Разберёмся, что из этого реально нужно разработчику, а что — маркетинговая пыль.

Спойлер: если вы ещё не обновили Claude Code до последней версии — ваши rate limits плачут.

Mid-conversation system: инъекция без боли

Главная фича, о которой Anthropic молчала до самого релиза — возможность менять system prompt прямо в середине диалога. Звучит как мелочь, но на практике это убивает кучу граблей.

Раньше: вы стартовали сессию с system prompt «ты — эксперт по Python». Через 20 сообщений задача сменилась на SQL-генерацию. Всё, нужно либо убивать контекст, либо забивать system message в каждое сообщение (и платить за лишние токены). Теперь — одной командой через API или в чате обновляете инструкции, и модель переключает поведение без потери истории.

💡

Разработчики, которые пишут мультиагентные системы, оценят: можно динамически менять роли ассистента, не пересоздавая тред. Экономия токенов — до 40% на длинных сессиях.

Внутренняя реализация — не просто перезапись поля. Anthropic применила технику contextual injection: новое system сообщение встраивается в attention-слой на лету, без сброса кэша. Поэтому latency почти не растёт. Подробнее об этом трюке писали в обзоре Dynamic Workflows.

Fast Mode 2.5x: как Anthropic обманула закон Мура

Fast Mode — это не отдельная модель. Это архитектурное решение: часть вычислений (attention layers) переводится на FP8 квантизацию, а pruned attention heads динамически активируются только когда нужны. Результат: скорость инференса выросла в 2.5 раза, а качество на SWE-bench — 69.2% против 62.1% у Opus 4.7.

Anthropic утверждает, что качество не просело. И это странно: обычно любой acceleration ведёт к потере точности. Но тесты говорят об обратном. Даже в стандартном режиме Opus 4.8 берёт 68.5% — почти догоняет Fast Mode. То есть модель сама по себе стала умнее.

Модель	SWE-bench	Латентность (токен/с)
Claude Opus 4.7	62.1%	~12
Claude Opus 4.8 (стандарт)	68.5%	~15
Claude Opus 4.8 (Fast Mode)	69.2%	~33

Разница в скорости — в 2.2–2.5x. А качество — лучше, чем у предыдущей версии в стандартном режиме. Anthropic сделала невозможное: ускорила модель и одновременно подтянула код. Как — молчат. Но, судя по документации, используется квантизация FP8 и pruned attention heads, которые динамически активируются.

Интересный момент: Fast Mode доступен только через API и в веб-интерфейсе Claude Pro/Team. Enterprise-клиентам придётся подождать до июня. И да, это сознательное ограничение — компания боится перегрузки инференса. Кстати, мы уже писали о Fast Mode 2.5x раньше — там детали про архитектуру.

Dynamic Workflows: когда system prompt живёт своей жизнью

Anthropic не остановилась на mid-conversation. Они добавили Dynamic Workflows — возможность подгружать system prompt из внешнего источника (URL, S3, база данных) прямо во время исполнения. И это меняет подход к построению агентов.

Раньше вы жёстко прописывали system prompt в коде. Если нужно было изменить поведение моделей в проде — деплой, перезапуск, тесты. Теперь можно хранить промпты в отдельном сервисе и менять их на лету. Anthropic позаимствовала идею у prompt cache, который появился ещё в Claude 4.5, но расширила: кеш теперь динамически обновляется при изменении источника.

1Как это выглядит для разработчика

Создаёте JSON-файл с system prompt в S3.
В API-запросе указываете URL этого файла.
Claude подгружает его при каждом новом разговоре.
Изменили файл — модель сразу видит новый prompt без рестарта.

Звучит логично, но есть нюанс: если файл весит больше 10К токенов, Dynamic Workflow включает lazy loading — подгружает только первую часть, а остальное — по мере необходимости. Иначе latency проседает. Как именно это реализовано — Anthropic пока не раскрывает, но тесты показывают, что на практике 95% системных промптов укладываются в 10К.

Для тех, кто использует Extra High режим из Opus 4.7, Dynamic Workflows работают и с ним — можно динамически переключать глубину рассуждений в зависимости от сложности задачи.

Цены: Anthropic наконец-то включила режим конкуренции

Главная боль всех, кто сидел на Opus 4.7 — цена. Стандартный режим стоил $15 за миллион входных токенов и $75 за выходные. Для стартапов — смерть. Теперь Anthropic пересмотрела прайсинг:

Режим	Вход (за 1M токенов)	Выход (за 1M токенов)
Opus 4.8 Standard	$10	$50
Opus 4.8 Fast Mode	$6	$30
Opus 4.8 Fast Mode + Prompt Cache	$3.6	$18

Да, вы не ослышались. Fast Mode дешевле стандартного почти в два раза. А если ещё и используете Prompt Cache (кеш system prompt, который теперь работает и для Dynamic Workflows), цена падает до $3.6 за миллион входных токенов. Это уже уровень DeepSeek V4, но с качеством Opus.

Anthropic явно пытается задавить конкурентов ценой. Учитывая, что на Code with Claude 2026 прозвучали намёки на ещё более дешёвые тарифы для образовательных проектов — возможно, к осени увидим tiers для стартапов.

Что ещё скрывает релиз? (полезные мелочи)

Prompt cache теперь сохраняется между сессиями. Если вы ранее общались с Claude и система промпт не менялся — ответ придёт быстрее на 40% при повторном запуске. Разработчики, у которых боты с долгими сессиями, оценят.
SWE-bench улучшение. 69.2% — это абсолютный рекорд для публичных бенчмарков. Предыдущий держался за GPT-5.3-Codex с 67.8%. Битву быстрых режимов можно считать завершённой — Opus победил.
Dynamic Workflows и FlashAttention-4. Anthropic подтвердила, что в Opus 4.8 используется FlashAttention-4, который даёт ускорение инференса на 27%. Подробности — в отдельном обзоре FlashAttention-4.
Обратная совместимость с Opus 4.7. Старые system prompt'ы продолжают работать, но Anthropic рекомендует переносить их в формат Dynamic Workflows для лучшей производительности.

Совет тем, кто ещё на Opus 4.6

Не советую апгрейдиться, не проверив свои кейсы. Если ваш проект завязан на генерацию SQL или низкоуровневый Python, 4.8 всё ещё может проседать в отдельных задачах — как это было с Opus 4.6 в carwash-тесте. Сравните бенчмарки для вашего домена. Запустите A/B-тест в течение недели. Anthropic дала бесплатный доступ к Fast Mode для всех пользователей API до 15 июня — грех не воспользоваться.

Но если вы пишете кодовые агенты, мультиагентные системы или чат-боты с длинным контекстом — бегите обновляться сейчас. Dynamic Workflows и mid-conversation system срежут затраты на токены вдвое, а скорость ответа вырастет в разы.

В следующем обновлении обещают Native Function Calling 2.0 — но это уже тема для отдельного разговора.

Подписаться на канал