Какая модель лидирует в решении реальных багов (SWE-bench) в феврале 2026?

По данным на 24.02.2026, open-source модель DeepSeek Coder v4.0 показывает лучший результат - 67.3% на SWE-bench Full, опережая GPT-5.3 Codex (64.7%).

Насколько open source модели дешевле closed source в 2026 году?

Разрыв в стоимости значителен. Например, инференс DeepSeek v4.0 стоит $0.80 за 1 млн токенов, тогда как GPT-5.3 Codex - $2.10, а Claude 4.5 Sonnet - $3.25.

Есть ли смысл использовать GPT-5.2 в 2026 году?

GPT-5.2 (базовая) уступает по большинству benchmarks более новым моделям, как открытым, так и закрытым. Её использование оправдано только для задач, где критична совместимость со старыми промптами или стоимость ниже, чем у GPT-5.3.

Benchmarks ИИ 2026: Сравнение GPT-5.3, Claude 4.5, Qwen3.5 | Open Source vs Closed Source

Февраль 2026: когда открытые модели дышат в спину гигантам

Два месяца назад мы писали о гонке агентных моделей между GPT-5.3 Codex и Anthropic. С тех пор мир не стоял на месте. Пока вы читали про утечки промптов, разработчики гнали свежие бенчмарки. И данные, обнародованные на прошлой неделе, меняют расстановку сил.

Спойлер: разрыв между open source и closed source сократился до неприличных 3-5% в ключевых дисциплинах. А в некоторых задачах - исчез вообще.

Важно: все данные актуальны на 24 февраля 2026 года. Мы сравниваем самые последние доступные версии моделей. GPT-5.2 в таблице - для исторического контекста, но фокус на GPT-5.3 Codex, Claude 4.5 Sonnet и новейших open-source релизах.

Таблица-убийца: где кому готовить похороны

Забудьте про синтетические MMLU. Сегодня главные метрики - SWE-bench Verified (реальные баги из GitHub) и стоимость вывода. Вот что показывают свежие замеры.

Модель (Версия)	Тип	SWE-bench Full (%)	HumanEval+ (%)	MMLU Pro	Стоимость (1М токенов)	Контекст
GPT-5.3 Codex	Closed	64.7	91.2	92.8	$2.10	1M
Claude 4.5 Sonnet	Closed	60.1	88.5	90.5	$3.25	200K
GPT-5.2 (базовая)	Closed	59.7	86.0	91.0	$1.50	1M
DeepSeek Coder v4.0	Open	67.3	93.1	87.9	$0.80	2M
Qwen3.5-122B-A10B	Open	63.8	87.4	89.2	$0.52	1.5M
IQuest-Coder V2 42B	Open	58.2	84.3	83.5	$0.18	512K

💡

SWE-bench Full - это обновленная версия теста с верифицированными решениями. HumanEval+ включает сложные модификации базовых задач. Стоимость для open-source моделей приведена для инференса через сервис AITunnel, который предоставляет легальный API-доступ. Локальный запуск может быть дешевле, но требует железа.

DeepSeek v4.0: открытый код бьет по карману OpenAI

Год назад в нашем разборе SWE-bench 2025 DeepSeek v3.2 уже удивлял. Сейчас v4.0 не просто удивляет - он возглавляет таблицу по решению реальных багов. 67.3% против 64.7% у GPT-5.3 Codex.

Почему это важно? Потому что это не абстрактные тесты, а реальные issues из Django и pandas. И открытая модель справляется лучше. (При этом, стоит в четыре раза дешевле).

Аналитики шепчутся: архитектура "иерархического планирования" в DeepSeek оказалась тем самым секретным соусом для долгих reasoning-задач. GPT-5.3 Codex быстрее генерирует код, но чаще ошибается в сложных зависимостях.

Китайский напор: Qwen3.5 догоняет, но не в цене

Мы уже видели, как Qwen3.5-122B бил GPT-5-mini. Сейчас эта модель - самый серьезный open-source конкурент в общих задачах. 63.8% на SWE-bench - всего на процент позади GPT-5.3 Codex. MMLU Pro на уровне 89.2%.

Но вот что бесит: их модель Qwen3.5-Max-Thinking, о которой мы писали в контексте пространственного мышления, в этих бенчмарках не участвует. Alibaba тестирует ее отдельно. Получается, у них есть еще более мощная версия, которую они не выкладывают в open source. (Ирония?).

Claude 4.5: дорого, мало контекста, но стабильно

Anthropic продолжает свою линию: максимальная безопасность, предсказуемость и... консервативность. Claude 4.5 Sonnet не бьет рекордов, но и не падает в обморок на сложных промптах. Его 60.1% на SWE-bench - это надежный середнячок.

Проблема в другом. 200К контекста в 2026 году - это как приехать на велосипеде на гонку Formula 1. И цена в $3.25 за 1М токенов выглядит насмешкой, когда open-source аналоги в разы дешевле.

Практический совет: если ваша задача - анализ документов или чат с ограниченным контекстом, Claude 4.5 по-прежнему хорош. Для всего остального есть более дешевые и емкие варианты. Например, через единый API-шлюз AITunnel можно подключить DeepSeek v4.0 и получить в 10 раз больше контекста за те же деньги.

Так что же выбрать в 2026? Цена против экосистемы

Таблицы - это красиво. Но решения принимаются в конкретных условиях.

Бюджет ноль, есть своё железо: Берите IQuest-Coder V2 42B или GPT-OSS 120B. Качество хуже, но бесплатно.
Нужно фиксить баги в legacy-коде (и есть бюджет): DeepSeek Coder v4.0. Лучшее соотношение цена/качество на SWE-bench.
Разработка с нуля + интеграции с GitHub Copilot: GPT-5.3 Codex. Экосистема OpenAI пока вне конкуренции.
Критически важна безопасность (финансы, медицина): Claude 4.5. Дорого, но предсказуемо.

Главный тренд февраля 2026: открытые модели научились не просто повторять, а опережать закрытые в нишевых задачах. Особенно в кодинге.

Прогноз на основе этих цифр? К концу 2026 года мы увидим, как минимум, два open-source проекта, которые по суммарным метрикам обойдут GPT-5.3. Вопрос не в "если", а в "когда". И тогда цена вопроса для бизнеса упадет в разы. Готовьте свои инференс-серверы.

Подписаться на канал

Open Source vs Closed Source ИИ в 2026: полный разбор свежих benchmarks GPT-5.2, Claude 3.5, Qwen3.5 и других