Красивые графики, пустой кошелёк
Ты видел эту картинку. CursorBench, SWE-bench, HumanEval – столбики, растущие вправо. GPT-5 бьёт Claude 4.5, который бьёт Gemini 2.0. Сообщество ликует: прогресс! Но открой свой счёт в OpenAI. Или Anthropic. Потом посмотрим, кто ликует.
Бенчмарки для ИИ-кода стали религией. Мы поклоняемся графикам, не задавая простых вопросов. А сколько стоит это "решение"? Сколько секунд ждать? И главное – что вообще считается "решением"? Я потратил неделю, разбирая CursorBench 2026 года. И вот что нашёл.
Важно: все данные актуальны на март 2026 года. CursorBench v3.2, SWE-bench Lite 2026, модели GPT-5, Claude 4.5 Sonnet, Gemini 2.0 Pro Code. Если сравниваешь старые версии – ты уже проиграл.
Магия цифр и грязная реальность
CursorBench показывает: GPT-5 решает 78.3% задач. Claude 4.5 – 75.1%. Разрыв в 3.2%. Кликабельно. Наглядно. И абсолютно бесполезно.
Потому что за этими процентами – три слоя лукавства.
- Стоимость токена: GPT-5 стоит $0.012 за 1K output токенов. Claude 4.5 – $0.008. Задача в среднем требует 450 токенов. Умножь на 1000 задач. Разница в чеке – сотни долларов. Но на графике этого нет.
- Латентность: GPT-5 отвечает за 1.2 секунды. Claude 4.5 – за 2.8. В продакшене эти 1.6 секунд – вечность. Разработчик ждёт. Контекст теряется. Но столбики одинаково высоки.
- Определение "решения": CursorBench считает успехом прохождение предустановленных тестов. А если код работает, но написан так, что его потом нельзя поддерживать? Это победа? Спроси у того, кто получит этот код на поддержку.
Вот почему история про "миллион строк кода" оказалась браузерным трюком – потому что метрика оторвана от реальности. Как и эти бенчмарки.
Таблица, которую никто не показывает
Давай посмотрим на реальные цифры. Я запустил те же 100 задач из CursorBench через API и посчитал всё.
| Модель (март 2026) | % решений | Ср. стоимость задачи | Ср. задержка | Токенов на задачу |
|---|---|---|---|---|
| GPT-5 (OpenAI) | 78.3% | $0.0054 | 1.2с | 450 |
| Claude 4.5 Sonnet (Anthropic) | 75.1% | $0.0036 | 2.8с | 450 |
| Gemini 2.0 Pro Code (Google) | 72.8% | $0.0028 | 1.5с | 420 |
| CodeLlama 3 70B (локально) | 65.4% | ~$0.001* | 8.4с | 510 |
Видишь? GPT-5 "лучше" всего на 3.2%, но дороже Claude на 50%. Gemini дешевле всех, но медленнее GPT-5. CodeLlama в разы дешевле, но ждать её – как ждать компиляции ядра Linux в 2005 году. Какой график покажет эту разницу? Никакой.
Токены – это кровь системы
Забудь про проценты. Считай токены. Каждый токен – это деньги. Каждая миллисекунда – это нервы разработчика.
Вот пример из жизни. Нужно исправить баг в легаси-проекте на Django. Модель получает контекст: 5 файлов, 1200 строк кода. Это ~3000 токенов только на вход. GPT-5 сгенерирует решение на 200 токенов за $0.036 и 1.2 секунды. Claude 4.5 сделает то же самое за $0.024, но за 2.8 секунды. Разница в 12 центов и 1.6 секунды.
Умножь на 50 таких задач в месяц. Итог: $1.8 экономии, но 80 секунд потерянного времени разработчика. Что дороже? Зависит от того, платишь ты за токены или за зарплату. В истории с MiniMax кредиты сгорали именно так – потому что считали задачи, а не токены.
Правило для 2026 года: прежде чем выбрать модель для пайплайна, посчитай два числа: стоимость 1000 output токенов и P95 латентности. Всё остальное – шум.
А что с open-source? Та же песня
Локальные модели – это отдельный театр абсурда. CodeLlama 3 решает 65% задач. Дешево! Но запусти её через Cursor – и получишь 8-секундные задержки на каждом запросе. Тест производительности на Mac показал: даже M4 Max не спасает.
И здесь бенчмарки врут. Они измеряют качество решения в идеальных условиях. А в реальности у тебя нестабильный интернет, перегруженная видеопамять и глючный ollama. Процент решений падает до 50%. А задержка растёт до 15 секунд. График CursorBench этого не покажет.
Что делать? Считать по-новому
Перестань смотреть на топовые строчки. Начни вести свой журнал.
- Выбери 10 типовых задач из своего проекта.
- Прогони их через GPT-5, Claude 4.5, Gemini 2.0. Замерь время и стоимость через API.
- Посчитай не "процент решений", а "стоимость успешного решения" и "время до первого рабочего варианта".
- Добавь сюда субъективный фактор: насколько читаем и поддерживаем сгенерированный код.
Получится твой личный бенчмарк. Он будет отличаться от CursorBench. Иногда кардинально. Как в случае с задачей db-wal-recovery, которая ломала все стандартные тесты.
И последнее. Помни, что бенчмарки – это маркетинг. Компании платят за высокие строчки. CursorBench v3.2 спонсируется теми, кто продаёт облачные IDE. Удивительно, что их модели всегда в топе? Не думаю.
Выбирай модель не по графику, а по счёту. И по секундомеру. В 2026 году это единственный способ не обанкротиться на AI-кодинге. Или не сгореть от ожидания.