Benchmarks ИИ 2026: Сравнение GPT-5.3, Claude 4.5, Qwen3.5 | Open Source vs Closed Source | AiManual
AiManual Logo Ai / Manual.
24 Фев 2026 Новости

Open Source vs Closed Source ИИ в 2026: полный разбор свежих benchmarks GPT-5.2, Claude 3.5, Qwen3.5 и других

Актуальные тесты на февраль 2026: кто лидирует - проприетарные GPT-5.3 Codex и Claude 4.5 или открытые Qwen3.5-122B и DeepSeek v4.0. Полная таблица benchmarks.

Февраль 2026: когда открытые модели дышат в спину гигантам

Два месяца назад мы писали о гонке агентных моделей между GPT-5.3 Codex и Anthropic. С тех пор мир не стоял на месте. Пока вы читали про утечки промптов, разработчики гнали свежие бенчмарки. И данные, обнародованные на прошлой неделе, меняют расстановку сил.

Спойлер: разрыв между open source и closed source сократился до неприличных 3-5% в ключевых дисциплинах. А в некоторых задачах - исчез вообще.

Важно: все данные актуальны на 24 февраля 2026 года. Мы сравниваем самые последние доступные версии моделей. GPT-5.2 в таблице - для исторического контекста, но фокус на GPT-5.3 Codex, Claude 4.5 Sonnet и новейших open-source релизах.

Таблица-убийца: где кому готовить похороны

Забудьте про синтетические MMLU. Сегодня главные метрики - SWE-bench Verified (реальные баги из GitHub) и стоимость вывода. Вот что показывают свежие замеры.

Модель (Версия)ТипSWE-bench Full (%)HumanEval+ (%)MMLU ProСтоимость (1М токенов)Контекст
GPT-5.3 CodexClosed64.791.292.8$2.101M
Claude 4.5 SonnetClosed60.188.590.5$3.25200K
GPT-5.2 (базовая)Closed59.786.091.0$1.501M
DeepSeek Coder v4.0Open67.393.187.9$0.802M
Qwen3.5-122B-A10BOpen63.887.489.2$0.521.5M
IQuest-Coder V2 42BOpen58.284.383.5$0.18512K
💡
SWE-bench Full - это обновленная версия теста с верифицированными решениями. HumanEval+ включает сложные модификации базовых задач. Стоимость для open-source моделей приведена для инференса через сервис AITunnel, который предоставляет легальный API-доступ. Локальный запуск может быть дешевле, но требует железа.

DeepSeek v4.0: открытый код бьет по карману OpenAI

Год назад в нашем разборе SWE-bench 2025 DeepSeek v3.2 уже удивлял. Сейчас v4.0 не просто удивляет - он возглавляет таблицу по решению реальных багов. 67.3% против 64.7% у GPT-5.3 Codex.

Почему это важно? Потому что это не абстрактные тесты, а реальные issues из Django и pandas. И открытая модель справляется лучше. (При этом, стоит в четыре раза дешевле).

Аналитики шепчутся: архитектура "иерархического планирования" в DeepSeek оказалась тем самым секретным соусом для долгих reasoning-задач. GPT-5.3 Codex быстрее генерирует код, но чаще ошибается в сложных зависимостях.

Китайский напор: Qwen3.5 догоняет, но не в цене

Мы уже видели, как Qwen3.5-122B бил GPT-5-mini. Сейчас эта модель - самый серьезный open-source конкурент в общих задачах. 63.8% на SWE-bench - всего на процент позади GPT-5.3 Codex. MMLU Pro на уровне 89.2%.

Но вот что бесит: их модель Qwen3.5-Max-Thinking, о которой мы писали в контексте пространственного мышления, в этих бенчмарках не участвует. Alibaba тестирует ее отдельно. Получается, у них есть еще более мощная версия, которую они не выкладывают в open source. (Ирония?).

Claude 4.5: дорого, мало контекста, но стабильно

Anthropic продолжает свою линию: максимальная безопасность, предсказуемость и... консервативность. Claude 4.5 Sonnet не бьет рекордов, но и не падает в обморок на сложных промптах. Его 60.1% на SWE-bench - это надежный середнячок.

Проблема в другом. 200К контекста в 2026 году - это как приехать на велосипеде на гонку Formula 1. И цена в $3.25 за 1М токенов выглядит насмешкой, когда open-source аналоги в разы дешевле.

Практический совет: если ваша задача - анализ документов или чат с ограниченным контекстом, Claude 4.5 по-прежнему хорош. Для всего остального есть более дешевые и емкие варианты. Например, через единый API-шлюз AITunnel можно подключить DeepSeek v4.0 и получить в 10 раз больше контекста за те же деньги.

Так что же выбрать в 2026? Цена против экосистемы

Таблицы - это красиво. Но решения принимаются в конкретных условиях.

  • Бюджет ноль, есть своё железо: Берите IQuest-Coder V2 42B или GPT-OSS 120B. Качество хуже, но бесплатно.
  • Нужно фиксить баги в legacy-коде (и есть бюджет): DeepSeek Coder v4.0. Лучшее соотношение цена/качество на SWE-bench.
  • Разработка с нуля + интеграции с GitHub Copilot: GPT-5.3 Codex. Экосистема OpenAI пока вне конкуренции.
  • Критически важна безопасность (финансы, медицина): Claude 4.5. Дорого, но предсказуемо.

Главный тренд февраля 2026: открытые модели научились не просто повторять, а опережать закрытые в нишевых задачах. Особенно в кодинге.

Прогноз на основе этих цифр? К концу 2026 года мы увидим, как минимум, два open-source проекта, которые по суммарным метрикам обойдут GPT-5.3. Вопрос не в "если", а в "когда". И тогда цена вопроса для бизнеса упадет в разы. Готовьте свои инференс-серверы.

Подписаться на канал