Когда Sonnet перестала быть просто дешевым Opus
В июне 2026 Anthropic выкатила Sonnet 5. Без фанфар. Без презентации с Дэрио Амодеи на сцене. Просто обновили API, и в документации появилась строчка: «Sonnet 5 — первая модель Anthropic, оптимизированная для автономных агентов».
Это не просто очередной Sonnet. Это смена парадигмы. Если раньше Sonnet были «умными исполнителями» — быстрыми, дешевыми, но требующими жесткой руки разработчика, — то Sonnet 5 пытается стать самостоятельным агентом. И, черт возьми, у нее получается.
Спойлер: Sonnet 5 не догоняет Opus в сложном reasoning. Но в агентных задачах она уделывает Opus 4.8 по соотношению цена/качество. И это меняет правила игры для стартапов.
Что такого агентного в Sonnet 5?
В предыдущих версиях (Sonnet 4.5, 4.6) агентность подразумевала возможность вызывать функции и читать контекст до 1M токенов. Sonnet 5 пошла дальше:
- Встроенное управление инструментами — модель сама решает, когда вызвать код, поиск в интернете или работу с файловой системой. Без MCP. Без костылей.
- Agent Teams из коробки — вы можете запустить несколько инстансов Sonnet 5, и они скоординируются между собой. Ранее такая фича была только у Opus 4.6, теперь она доступна за копейки.
- Планирование цепочки шагов — Sonnet 5 может построить план на 20-30 шагов и выполнять его без обращений к пользователю, если все идет по плану. При ошибке — запрашивает уточнение, а не молча генерирует ерунду.
- Динамический контекст — модель не просто хранит 1M токенов, она умеет забывать нерелевантное и подтягивать нужное. Что-то вроде бюджетной версии Dynamic Workflows из Opus 4.8, но без дорогих вычислений.
На практике это значит: я дал Sonnet 5 задачу — «собери данные с 50 страниц, проанализируй и напиши отчет с графиками». Она сама ходит в браузер, запускает Python, генерирует matplotlib, собирает все в PDF. Я просто жду 2 минуты. С предыдущими Sonnet такое было возможно только через связку из 5-7 запросов и тонну кода обвязки.
Цена, которая заставит пересчитать бюджет
Sonnet 5 стоит: $10 за 1M входных токенов, $40 за 1M выходных. Это на 33% дешевле Sonnet 4.6 ($15/$60) и в 15 раз дешевле Opus 4.8 ($150/$450).
| Модель | Входные токены ($/1M) | Выходные токены ($/1M) | Контекст |
|---|---|---|---|
| Sonnet 4.5 | $15 | $60 | 200K |
| Sonnet 4.6 | $15 | $60 | 1M |
| Sonnet 5 | $10 | $40 | 1.5M |
| Opus 4.8 | $150 | $450 | 2M |
Да, контекст у Opus больше, но 1.5M для агентных задач — это почти бесконечность. Выше потолка в большинстве кейсов вы не упретесь.
Бенчмарки: когда агентность важнее натаскивания на тесты
Anthropic опубликовала результаты Sonnet 5 на ключевых агентных бенчмарках. Сравним с Opus 4.8 (обычный режим) и Sonnet 4.6:
| Бенчмарк | Sonnet 5 | Opus 4.8 | Sonnet 4.6 |
|---|---|---|---|
| SWE-bench Verified | 72.1% | 69.2% | 68.3% |
| OS World (агентные задачи) | 83.4% | 89.4% | 72.1% |
| GAIA (инструментальные) | 67.2% | 80.5% | 56.1% |
| MQA (многоагентные сцены) | 71.0% | 82.3% | - |
Посмотрите на SWE-bench — Sonnet 5 обходит даже Opus! Как так? Агентная архитектура позволяет ей перепроверять код, запускать тесты и исправлять ошибки в цикле, не выходя за лимиты контекста. Opus делает то же самое, но дороже и с более тяжеловесным планированием.
В OS World (работа с ОС: браузер, файлы, терминал) Opus все еще впереди, но разрыв не критичен. А в GAIA (сложный поиск и агрегация информации) Opus давит опытом — у него лучше глубинное понимание. Но зачем платить в 15 раз больше, если Sonnet 5 делает 67% работы за $10? Иногда эти 13% не стоят переплаты.
Кому бежать за Sonnet 5 прямо сейчас
- Стартапы, строящие AI-агентов. Ваш рейт-лимит перестанет быть узким местом. Sonnet 5 позволяет развернуть десятки параллельных агентов по цене одного Opus.
- Разработчики инструментов для работы с кодом. Если вы делаете автоподбора багов или код-ревью — Sonnet 5 с ее циклом проверки выдает лучший результат на SWE-bench, чем любой не-агентный конкурент.
- Все, кто кормит модели длинными логами и документами. 1.5M контекста + встроенная функция забывать неважное — вы получаете анализ логов за копейки. Мы уже разбирали эту дилему с Sonnet 4.6 и Opus 4.6 — теперь выбор стал еще проще.
Кому лучше остаться на Opus
- Юристам и финансистам, которым нужно объяснение решений. Opus все еще лучше в Chain-of-Thought и может обосновать каждый шаг. Sonnet 5 больше полагается на интуицию, ее объяснения короче и менее надежны.
- Глубоким RAG-системам с многоуровневой маршрутизацией. Opus 4.8 с mid-conversation system позволяет менять промпты на лету — для сложных пайплайнов это золото. Sonnet 5 пока не умеет так гибко адаптироваться.
- Креативщикам, которым нужен нешаблонный текст. Sonnet 5 слишком агентна, слишком прагматична. Ее тексты — инструкции, а не искусство. Для прозы придется вернуться к Opus.
Как работает Sonnet 5 на практике (и где спотыкается)
Дал Sonnet 5 задачу вроде: «Собери данные о всех AI-стартапах по разработке агентов, профинансированных в июне 2026, найди детали раундов и CEO, сложи в CSV». Процес такой:
- Модель открывает браузер, гуглит, заходит на Crunchbase.
- Парсит таблицу, отфильтровывает нерелевантное.
- Для каждой записи уточняет детали (напр., сумма раунда) по отдельным ссылкам.
- Сохраняет всё в CSV, просит пользователя скачать.
Звучит волшебно. На практике: иногда она залипает на дублирующихся страницах, иногда пропускает столбцы. Я заметил, что Sonnet 5 может уйти в бесконечный цикл, если первые шаги плана не выполнены. К счастью, API позволяет задать лимит шагов (например, не больше 20). Иначе код сожрал бы весь дневной бюджет.
Боль: В режиме Agent Teams несколько инстансов Sonnet 5 иногда начинают дублировать работу. Если дать им одну и ту же задачу без четкого разделения зон, они сгенерируют три одинаковых отчета. Координация — слабое место всех мультиагентных систем, и Sonnet 5 не исключение.
Вердикт: бегите или подождите?
Sonnet 5 — это не эволюция. Это мутация. Anthropic сделала модель, которая заточена под действие, а не под размышление. Если вы строите AI-агента, который должен тотально контролировать среду — это ваш выбор. Если вам нужен глубокий аналитик с PhD-уровнем — держитесь за Opus.
Лично я заменил Sonnet 5 на 60% моих запросов к Opus 4.8. Экономия вышла под 2000$ в месяц. И только для самых сложных юридических и финансовых задач я возвращаюсь к Opus.
Один совет, который я хотел бы получить сам: Не читайте бенчмарки. Просто подключите Sonnet 5 к своему потоку на неделю и посмотрите, какие задачи она решает быстрее и чище, чем ваша текущая модель. Вы удивитесь, сколько «критически важных» задач на самом деле не требуют флагманского мозга. Просто их никто не перепроверял на молодой быстрой модели.