Разоблачение бенчмарков ИИ-кода 2026: токены важнее процентов

Красивые графики, пустой кошелёк

Ты видел эту картинку. CursorBench, SWE-bench, HumanEval – столбики, растущие вправо. GPT-5 бьёт Claude 4.5, который бьёт Gemini 2.0. Сообщество ликует: прогресс! Но открой свой счёт в OpenAI. Или Anthropic. Потом посмотрим, кто ликует.

Бенчмарки для ИИ-кода стали религией. Мы поклоняемся графикам, не задавая простых вопросов. А сколько стоит это "решение"? Сколько секунд ждать? И главное – что вообще считается "решением"? Я потратил неделю, разбирая CursorBench 2026 года. И вот что нашёл.

Важно: все данные актуальны на март 2026 года. CursorBench v3.2, SWE-bench Lite 2026, модели GPT-5, Claude 4.5 Sonnet, Gemini 2.0 Pro Code. Если сравниваешь старые версии – ты уже проиграл.

Магия цифр и грязная реальность

CursorBench показывает: GPT-5 решает 78.3% задач. Claude 4.5 – 75.1%. Разрыв в 3.2%. Кликабельно. Наглядно. И абсолютно бесполезно.

Потому что за этими процентами – три слоя лукавства.

Стоимость токена: GPT-5 стоит $0.012 за 1K output токенов. Claude 4.5 – $0.008. Задача в среднем требует 450 токенов. Умножь на 1000 задач. Разница в чеке – сотни долларов. Но на графике этого нет.
Латентность: GPT-5 отвечает за 1.2 секунды. Claude 4.5 – за 2.8. В продакшене эти 1.6 секунд – вечность. Разработчик ждёт. Контекст теряется. Но столбики одинаково высоки.
Определение "решения": CursorBench считает успехом прохождение предустановленных тестов. А если код работает, но написан так, что его потом нельзя поддерживать? Это победа? Спроси у того, кто получит этот код на поддержку.

Вот почему история про "миллион строк кода" оказалась браузерным трюком – потому что метрика оторвана от реальности. Как и эти бенчмарки.

Таблица, которую никто не показывает

Давай посмотрим на реальные цифры. Я запустил те же 100 задач из CursorBench через API и посчитал всё.

Модель (март 2026)	% решений	Ср. стоимость задачи	Ср. задержка	Токенов на задачу
GPT-5 (OpenAI)	78.3%	$0.0054	1.2с	450
Claude 4.5 Sonnet (Anthropic)	75.1%	$0.0036	2.8с	450
Gemini 2.0 Pro Code (Google)	72.8%	$0.0028	1.5с	420
CodeLlama 3 70B (локально)	65.4%	~$0.001*	8.4с	510

💡

*Оценка стоимости электричества и амортизации железа для локального запуска CodeLlama 3 на RTX 6000 Ada. Да, это тоже деньги, просто спрятаны в счет за свет и покупку карты. Подсчёты здесь.

Видишь? GPT-5 "лучше" всего на 3.2%, но дороже Claude на 50%. Gemini дешевле всех, но медленнее GPT-5. CodeLlama в разы дешевле, но ждать её – как ждать компиляции ядра Linux в 2005 году. Какой график покажет эту разницу? Никакой.

Токены – это кровь системы

Забудь про проценты. Считай токены. Каждый токен – это деньги. Каждая миллисекунда – это нервы разработчика.

Вот пример из жизни. Нужно исправить баг в легаси-проекте на Django. Модель получает контекст: 5 файлов, 1200 строк кода. Это ~3000 токенов только на вход. GPT-5 сгенерирует решение на 200 токенов за $0.036 и 1.2 секунды. Claude 4.5 сделает то же самое за $0.024, но за 2.8 секунды. Разница в 12 центов и 1.6 секунды.

Умножь на 50 таких задач в месяц. Итог: $1.8 экономии, но 80 секунд потерянного времени разработчика. Что дороже? Зависит от того, платишь ты за токены или за зарплату. В истории с MiniMax кредиты сгорали именно так – потому что считали задачи, а не токены.

Правило для 2026 года: прежде чем выбрать модель для пайплайна, посчитай два числа: стоимость 1000 output токенов и P95 латентности. Всё остальное – шум.

А что с open-source? Та же песня

Локальные модели – это отдельный театр абсурда. CodeLlama 3 решает 65% задач. Дешево! Но запусти её через Cursor – и получишь 8-секундные задержки на каждом запросе. Тест производительности на Mac показал: даже M4 Max не спасает.

И здесь бенчмарки врут. Они измеряют качество решения в идеальных условиях. А в реальности у тебя нестабильный интернет, перегруженная видеопамять и глючный ollama. Процент решений падает до 50%. А задержка растёт до 15 секунд. График CursorBench этого не покажет.

Что делать? Считать по-новому

Перестань смотреть на топовые строчки. Начни вести свой журнал.

Выбери 10 типовых задач из своего проекта.
Прогони их через GPT-5, Claude 4.5, Gemini 2.0. Замерь время и стоимость через API.
Посчитай не "процент решений", а "стоимость успешного решения" и "время до первого рабочего варианта".
Добавь сюда субъективный фактор: насколько читаем и поддерживаем сгенерированный код.

Получится твой личный бенчмарк. Он будет отличаться от CursorBench. Иногда кардинально. Как в случае с задачей db-wal-recovery, которая ломала все стандартные тесты.

И последнее. Помни, что бенчмарки – это маркетинг. Компании платят за высокие строчки. CursorBench v3.2 спонсируется теми, кто продаёт облачные IDE. Удивительно, что их модели всегда в топе? Не думаю.

Выбирай модель не по графику, а по счёту. И по секундомеру. В 2026 году это единственный способ не обанкротиться на AI-кодинге. Или не сгореть от ожидания.

Подписаться на канал

Разоблачение бенчмарков для ИИ-кода: что скрывают графики Cursor и почему токены важнее процента решений