Февраль 2026: когда открытые модели дышат в спину гигантам
Два месяца назад мы писали о гонке агентных моделей между GPT-5.3 Codex и Anthropic. С тех пор мир не стоял на месте. Пока вы читали про утечки промптов, разработчики гнали свежие бенчмарки. И данные, обнародованные на прошлой неделе, меняют расстановку сил.
Спойлер: разрыв между open source и closed source сократился до неприличных 3-5% в ключевых дисциплинах. А в некоторых задачах - исчез вообще.
Важно: все данные актуальны на 24 февраля 2026 года. Мы сравниваем самые последние доступные версии моделей. GPT-5.2 в таблице - для исторического контекста, но фокус на GPT-5.3 Codex, Claude 4.5 Sonnet и новейших open-source релизах.
Таблица-убийца: где кому готовить похороны
Забудьте про синтетические MMLU. Сегодня главные метрики - SWE-bench Verified (реальные баги из GitHub) и стоимость вывода. Вот что показывают свежие замеры.
| Модель (Версия) | Тип | SWE-bench Full (%) | HumanEval+ (%) | MMLU Pro | Стоимость (1М токенов) | Контекст |
|---|---|---|---|---|---|---|
| GPT-5.3 Codex | Closed | 64.7 | 91.2 | 92.8 | $2.10 | 1M |
| Claude 4.5 Sonnet | Closed | 60.1 | 88.5 | 90.5 | $3.25 | 200K |
| GPT-5.2 (базовая) | Closed | 59.7 | 86.0 | 91.0 | $1.50 | 1M |
| DeepSeek Coder v4.0 | Open | 67.3 | 93.1 | 87.9 | $0.80 | 2M |
| Qwen3.5-122B-A10B | Open | 63.8 | 87.4 | 89.2 | $0.52 | 1.5M |
| IQuest-Coder V2 42B | Open | 58.2 | 84.3 | 83.5 | $0.18 | 512K |
DeepSeek v4.0: открытый код бьет по карману OpenAI
Год назад в нашем разборе SWE-bench 2025 DeepSeek v3.2 уже удивлял. Сейчас v4.0 не просто удивляет - он возглавляет таблицу по решению реальных багов. 67.3% против 64.7% у GPT-5.3 Codex.
Почему это важно? Потому что это не абстрактные тесты, а реальные issues из Django и pandas. И открытая модель справляется лучше. (При этом, стоит в четыре раза дешевле).
Аналитики шепчутся: архитектура "иерархического планирования" в DeepSeek оказалась тем самым секретным соусом для долгих reasoning-задач. GPT-5.3 Codex быстрее генерирует код, но чаще ошибается в сложных зависимостях.
Китайский напор: Qwen3.5 догоняет, но не в цене
Мы уже видели, как Qwen3.5-122B бил GPT-5-mini. Сейчас эта модель - самый серьезный open-source конкурент в общих задачах. 63.8% на SWE-bench - всего на процент позади GPT-5.3 Codex. MMLU Pro на уровне 89.2%.
Но вот что бесит: их модель Qwen3.5-Max-Thinking, о которой мы писали в контексте пространственного мышления, в этих бенчмарках не участвует. Alibaba тестирует ее отдельно. Получается, у них есть еще более мощная версия, которую они не выкладывают в open source. (Ирония?).
Claude 4.5: дорого, мало контекста, но стабильно
Anthropic продолжает свою линию: максимальная безопасность, предсказуемость и... консервативность. Claude 4.5 Sonnet не бьет рекордов, но и не падает в обморок на сложных промптах. Его 60.1% на SWE-bench - это надежный середнячок.
Проблема в другом. 200К контекста в 2026 году - это как приехать на велосипеде на гонку Formula 1. И цена в $3.25 за 1М токенов выглядит насмешкой, когда open-source аналоги в разы дешевле.
Практический совет: если ваша задача - анализ документов или чат с ограниченным контекстом, Claude 4.5 по-прежнему хорош. Для всего остального есть более дешевые и емкие варианты. Например, через единый API-шлюз AITunnel можно подключить DeepSeek v4.0 и получить в 10 раз больше контекста за те же деньги.
Так что же выбрать в 2026? Цена против экосистемы
Таблицы - это красиво. Но решения принимаются в конкретных условиях.
- Бюджет ноль, есть своё железо: Берите IQuest-Coder V2 42B или GPT-OSS 120B. Качество хуже, но бесплатно.
- Нужно фиксить баги в legacy-коде (и есть бюджет): DeepSeek Coder v4.0. Лучшее соотношение цена/качество на SWE-bench.
- Разработка с нуля + интеграции с GitHub Copilot: GPT-5.3 Codex. Экосистема OpenAI пока вне конкуренции.
- Критически важна безопасность (финансы, медицина): Claude 4.5. Дорого, но предсказуемо.
Главный тренд февраля 2026: открытые модели научились не просто повторять, а опережать закрытые в нишевых задачах. Особенно в кодинге.
Прогноз на основе этих цифр? К концу 2026 года мы увидим, как минимум, два open-source проекта, которые по суммарным метрикам обойдут GPT-5.3. Вопрос не в "если", а в "когда". И тогда цена вопроса для бизнеса упадет в разы. Готовьте свои инференс-серверы.