Тихий переворот, который все проспали
К концу 2025 года гонка ИИ-гигантов напоминала предсказуемый сериал. OpenAI выпускает GPT-5.3, Google отвечает Gemini 3 Deep Think, все смотрят на их бенчмарки и ждут следующего хода. А потом Anthropic, не особо шумя, выкатывает Claude 4.6 Sonnet. И все пошло не по плану.
Sonnet всегда был «середнячком» в линейке Claude. Не быстрый и дешёвый Haiku, не мощный и дорогой Opus. Просто хорошая, сбалансированная модель для разработчиков. До версии 4.6.
На 25 февраля 2026 года Claude 4.6 Sonnet всё ещё остаётся эталоном соотношения цена/качество, хотя в тестовом доступе уже гуляет Claude 5.0 Preview. Но именно релиз 4.6 в 2025-м перевернул рынок API.
Цена, от которой OpenAI стало не по себе
Вот цифры, которые заставили менеджеров по продукту в OpenAI и Google провести несколько бессонных ночей. На конец 2025 года:
| Модель | Стоимость ввода (за 1М токенов) | Стоимость вывода (за 1М токенов) | Контекстное окно |
|---|---|---|---|
| Claude 4.6 Sonnet | $3.00 | $15.00 | 200K токенов |
| GPT-5.3 Turbo | $8.50 | $25.00 | 128K токенов |
| Gemini 3 Deep Think | $7.80 | $23.50 | 100K токенов |
Sonnet стоит в 2.5-3 раза дешевле на вводе, чем флагманы конкурентов. Для стартапов, которые гоняют миллионы токенов через API, это не экономия, а вопрос выживания. Anthropic не скрывала: их цель — захватить средний сегмент, где разработчики готовы платить за качество, но не за бренд.
Бенчмарки, которые заставили всех перепроверять код
Здесь началось самое интересное. Когда в ноябре 2025-го вышли первые независимые тесты, многие решили, что в данных ошибка. Как модель, которая дешевле, может показывать результаты вплотную к флагманам?
- MMLU (Massive Multitask Language Understanding): Claude 4.6 Sonnet — 86.7%, GPT-5.3 Turbo — 87.2%, Gemini 3 Deep Think — 86.9%. Разница в пределах статистической погрешности.
- HumanEval (кодинг): Sonnet набрал 78.3%, обойдя Gemini 3 (77.1%) и почти догнав GPT-5.3 (79.4%).
- AGIEval: Здесь Sonnet и вовсе вышел на первое место среди коммерческих моделей с результатом 82.1%.
Но самое главное — тесты на агентные возможности. SWE-bench, GAIA, WebArena. В задачах, где нужно планировать, выполнять многошаговые действия и работать с инструментами, Claude 4.6 Sonnet оказался на 15-20% лучше, чем предыдущая версия, и сравнился с GPT-5.3.
«Умение думать» — не метафора, а архитектурная фича
Весь фокус в том, как Anthropic переработала механизм цепочки рассуждений (Chain-of-Thought). В Claude 4.6 Sonnet он стал не опцией, а базовым режимом работы для сложных запросов. Модель научилась эффективно «разбивать» задачи на подзадачи, итеративно их решать и проверять свои же решения.
На практике это выглядит так: вы даёте задачу написать скрипт для парсинга сайта с капчей. Sonnet не выдаёт код сразу. Он сначала предлагает архитектуру, потом отдельно генерирует код для обхода капчи (с вариантами), потом код для парсинга, а потом собирает всё воедино и проверяет на логические противоречия.
У OpenAI с этим были проблемы. Помните скандал осенью 2025-го, когда Сэм Альтман признал, что GPT-5.2 стал писать хуже? Частично это было связано как раз с оптимизацией под скорость в ущерб «размышлениям».
Важный нюанс: Sonnet не стал умнее флагманов в абсолютном смысле. Он стал умнее в практических, итеративных задачах, которые составляют 80% рабочего процесса разработчика. И это оказалось важнее, чем абстрактные баллы в академических тестах.
Эффект домино: что началось после релиза
К марту 2026 года (сейчас мы уже видим последствия) рынок API разделился на три лагеря:
- Бюджетные стартапы и инди-разработчики массово перешли на Claude 4.6 Sonnet. Цена решала всё.
- Корпорации, которым нужна максимальная надёжность, остались на GPT-5.3 и Gemini 3, но стали использовать Sonnet для тестовых и вспомогательных задач.
- Исследователи и хардкорные энтузиасты открыли для себя мир open-source моделей, где тоже кипели страсти — например, вокруг GLM 4.7 Flash размером всего 30B параметров.
OpenAI ответила экстренным снижением цен на GPT-5.3 Turbo в январе 2026-го (но всё равно дороже Sonnet). Google ускорил выпуск Gemini 3.5 Pro. А Anthropic спокойно наблюдала за суетой и готовила Claude 5.0.
Что это значит для 2026 года? Неочевидный прогноз
Урок 2025-го прост: гонка мегапараметров закончилась. Никого не волнует, 500 миллиардов у модели или 700. Волнует, сколько она стоит в работе и как решает конкретные задачи.
Мой прогноз? К концу 2026-го мы увидим две вещи. Во-первых, все крупные игроки выпустят свои «Sonnet-аналоги» — сбалансированные модели среднего уровня с упором на агентные возможности. Во-вторых, начнётся новая война — за специализированные модели для узких задач, а не за универсальных монстров.
И да, готовьтесь к тому, что «Закон уплотнения» сработает быстрее, чем кажется. Модели станут меньше, умнее и дешевле. А те, кто продолжит гнаться за триллионом параметров, останутся с красивыми, но ненужными цифрами в пресс-релизах.
А пока — если вы выбираете API для своего проекта в 2026 году, не ведитесь на громкие имена. Посмотрите на Claude 4.6 Sonnet. Он уже доказал, что «средний» класс может бить выше своего веса. И это, пожалуй, самый важный тренд, который мы вынесли из 2025-го.