Claude 4.6 Sonnet vs GPT-5.3: почему средняя модель стала угрозой в 2025 | AiManual
AiManual Logo Ai / Manual.
25 Фев 2026 Новости

Claude 4.6 Sonnet: почему 'средняя' модель стала угрозой для GPT и Gemini в 2025 году

Разбор феномена Claude 4.6 Sonnet: как модель среднего уровня от Anthropic бросила вызов GPT-5.3 и Gemini 3 в 2025 году. Анализ бенчмарков, стоимости API и аген

Тихий переворот, который все проспали

К концу 2025 года гонка ИИ-гигантов напоминала предсказуемый сериал. OpenAI выпускает GPT-5.3, Google отвечает Gemini 3 Deep Think, все смотрят на их бенчмарки и ждут следующего хода. А потом Anthropic, не особо шумя, выкатывает Claude 4.6 Sonnet. И все пошло не по плану.

Sonnet всегда был «середнячком» в линейке Claude. Не быстрый и дешёвый Haiku, не мощный и дорогой Opus. Просто хорошая, сбалансированная модель для разработчиков. До версии 4.6.

На 25 февраля 2026 года Claude 4.6 Sonnet всё ещё остаётся эталоном соотношения цена/качество, хотя в тестовом доступе уже гуляет Claude 5.0 Preview. Но именно релиз 4.6 в 2025-м перевернул рынок API.

Цена, от которой OpenAI стало не по себе

Вот цифры, которые заставили менеджеров по продукту в OpenAI и Google провести несколько бессонных ночей. На конец 2025 года:

Модель Стоимость ввода (за 1М токенов) Стоимость вывода (за 1М токенов) Контекстное окно
Claude 4.6 Sonnet $3.00 $15.00 200K токенов
GPT-5.3 Turbo $8.50 $25.00 128K токенов
Gemini 3 Deep Think $7.80 $23.50 100K токенов

Sonnet стоит в 2.5-3 раза дешевле на вводе, чем флагманы конкурентов. Для стартапов, которые гоняют миллионы токенов через API, это не экономия, а вопрос выживания. Anthropic не скрывала: их цель — захватить средний сегмент, где разработчики готовы платить за качество, но не за бренд.

💡
Кстати, о гонке гигантов: в декабре 2025-го было особенно жарко. Если хотите вспомнить, как тогда схлестнулись GPT-5.2 и Gemini 3 Deep Think, у нас есть подробный разбор той битвы.

Бенчмарки, которые заставили всех перепроверять код

Здесь началось самое интересное. Когда в ноябре 2025-го вышли первые независимые тесты, многие решили, что в данных ошибка. Как модель, которая дешевле, может показывать результаты вплотную к флагманам?

  • MMLU (Massive Multitask Language Understanding): Claude 4.6 Sonnet — 86.7%, GPT-5.3 Turbo — 87.2%, Gemini 3 Deep Think — 86.9%. Разница в пределах статистической погрешности.
  • HumanEval (кодинг): Sonnet набрал 78.3%, обойдя Gemini 3 (77.1%) и почти догнав GPT-5.3 (79.4%).
  • AGIEval: Здесь Sonnet и вовсе вышел на первое место среди коммерческих моделей с результатом 82.1%.

Но самое главное — тесты на агентные возможности. SWE-bench, GAIA, WebArena. В задачах, где нужно планировать, выполнять многошаговые действия и работать с инструментами, Claude 4.6 Sonnet оказался на 15-20% лучше, чем предыдущая версия, и сравнился с GPT-5.3.

«Умение думать» — не метафора, а архитектурная фича

Весь фокус в том, как Anthropic переработала механизм цепочки рассуждений (Chain-of-Thought). В Claude 4.6 Sonnet он стал не опцией, а базовым режимом работы для сложных запросов. Модель научилась эффективно «разбивать» задачи на подзадачи, итеративно их решать и проверять свои же решения.

На практике это выглядит так: вы даёте задачу написать скрипт для парсинга сайта с капчей. Sonnet не выдаёт код сразу. Он сначала предлагает архитектуру, потом отдельно генерирует код для обхода капчи (с вариантами), потом код для парсинга, а потом собирает всё воедино и проверяет на логические противоречия.

У OpenAI с этим были проблемы. Помните скандал осенью 2025-го, когда Сэм Альтман признал, что GPT-5.2 стал писать хуже? Частично это было связано как раз с оптимизацией под скорость в ущерб «размышлениям».

Важный нюанс: Sonnet не стал умнее флагманов в абсолютном смысле. Он стал умнее в практических, итеративных задачах, которые составляют 80% рабочего процесса разработчика. И это оказалось важнее, чем абстрактные баллы в академических тестах.

Эффект домино: что началось после релиза

К марту 2026 года (сейчас мы уже видим последствия) рынок API разделился на три лагеря:

  1. Бюджетные стартапы и инди-разработчики массово перешли на Claude 4.6 Sonnet. Цена решала всё.
  2. Корпорации, которым нужна максимальная надёжность, остались на GPT-5.3 и Gemini 3, но стали использовать Sonnet для тестовых и вспомогательных задач.
  3. Исследователи и хардкорные энтузиасты открыли для себя мир open-source моделей, где тоже кипели страсти — например, вокруг GLM 4.7 Flash размером всего 30B параметров.

OpenAI ответила экстренным снижением цен на GPT-5.3 Turbo в январе 2026-го (но всё равно дороже Sonnet). Google ускорил выпуск Gemini 3.5 Pro. А Anthropic спокойно наблюдала за суетой и готовила Claude 5.0.

Что это значит для 2026 года? Неочевидный прогноз

Урок 2025-го прост: гонка мегапараметров закончилась. Никого не волнует, 500 миллиардов у модели или 700. Волнует, сколько она стоит в работе и как решает конкретные задачи.

Мой прогноз? К концу 2026-го мы увидим две вещи. Во-первых, все крупные игроки выпустят свои «Sonnet-аналоги» — сбалансированные модели среднего уровня с упором на агентные возможности. Во-вторых, начнётся новая война — за специализированные модели для узких задач, а не за универсальных монстров.

И да, готовьтесь к тому, что «Закон уплотнения» сработает быстрее, чем кажется. Модели станут меньше, умнее и дешевле. А те, кто продолжит гнаться за триллионом параметров, останутся с красивыми, но ненужными цифрами в пресс-релизах.

💡
Если хотите заглянуть ещё дальше в будущее, посмотрите, какие MoE-гиганты готовят IBM, Arcee и Google (с призрачным Gemma 3) на 2026 год. Там обещают ещё больше сюрпризов.

А пока — если вы выбираете API для своего проекта в 2026 году, не ведитесь на громкие имена. Посмотрите на Claude 4.6 Sonnet. Он уже доказал, что «средний» класс может бить выше своего веса. И это, пожалуй, самый важный тренд, который мы вынесли из 2025-го.

Подписаться на канал