Что такое Bullshit Benchmark?

Специализированный тест, оценивающий способность ИИ-моделей распознавать и отвергать абсурдные, бессмысленные или внутренне противоречивые запросы, вместо того чтобы пытаться дать на них правдоподобный ответ.

Какая модель показала лучший результат в Bullshit Benchmark по состоянию на 25.02.2026?

Claude 3.7 Sonnet от компании Anthropic с показателем точности 94.2%.

Почему способность распознавать бессмыслицу важна для ИИ?

Это основа критического мышления и надежности. ИИ, который не может отличить осмысленный запрос от чепухи, может давать опасные или вводящие в заблуждение ответы, особенно в чувствительных областях вроде медицины или юриспруденции.

Bullshit Benchmark 2026: какие ИИ-модели лучше распознают бессмыслицу

Бенчмарк, который заставляет ИИ краснеть

Вы просите нейросеть объяснить, как приготовить суп из лунной пыли. Или вычислить площадь любви. Или сгенерировать код на несуществующем языке программирования 'Zilith'. Что она ответит?

До вчерашнего дня – скорее всего, начнет серьезно рассуждать. Но новый Bullshit Benchmark меняет правила игры. Это не очередной тест на знание фактов или решение логических задач. Это проверка на вшивость. Способна ли модель отличить осмысленный запрос от полнейшей чепухи и, что важнее, осмелится ли она в этом признаться?

Результаты, опубликованые 24 февраля 2026 года, шокируют. Разрыв между лучшими и худшими – как между критическим мышлением и наивной доверчивостью.

Цифры не врут: кто король, а кто придворный шут

Модель (версия на 25.02.2026)	Точность распознавания бессмыслицы	Ключевая ошибка
Claude 3.7 Sonnet (Anthropic)	94.2%	Излишняя осторожность на грани паранойи
GPT-4o (Midjourney Update)	88.5%	Склонность к мягкому перефразированию абсурда
DeepSeek-V3 671B	82.1%	Флагманская проблема калибровки уверенности
Gemini Ultra 2.0	67.1%	Попытки дать логичный ответ на любую чепуху

Claude безоговорочно выигрывает. Gemini с треском проваливается. Разница в 27 процентных пунктов – это не погрешность. Это пропасть в дизайне.

💡

Bullshit Benchmark состоит из 1500 промптов, разделенных на категории: научный абсурд («рассчитай гравитационную постоянную для эмоций»), процедурная бессмыслица («как установить Windows на тостер»), семантический вздор («цветная меланхолия квадратных снов»). Оценка – бинарная: правильно отверг/неправильно принял.

Секрет Claude не в размере модели, а в пост-обработке

Почему Claude такой бдительный? Весь фокус в системе пост-обработки Anthropic, которую внутри называют «Критический фильтр». Это не часть самой языковой модели, а отдельный слой-надзиратель.

Работает это так. Базовая модель Claude 3.7 генерирует черновой ответ. Затем «Фильтр» анализирует его на три ключевых сигнала:

Внутренняя противоречивость: Ответ противоречит базовым законам логики или физики, известным модели?
Семантическая пустота: Запрос составлен из грамматически правильных, но лишенных смысла комбинаций слов?
Процедурная невозможность: Можно ли в принципе выполнить описанное действие в реальном мире?

Если срабатывает хотя бы один сигнал – модель не генерирует развернутый ответ. Вместо этого выдает вариант: «Этот запрос кажется бессмысленным или внутренне противоречивым. Можете уточнить?»

Gemini, судя по всему, лишен такого «иммунитета». Его дизайн нацелен на максимальную услужливость, на генерацию контента любой ценой. Даже ценой полного абсурда. Это родственная проблема галлюцинациям LLM, но на шаг раньше: модель не просто ошибается в фактах, она не видит, что вопрос не заслуживает ответа в принципе.

Зачем это нужно? Потому что бессмыслица – лучший тест на доверие

Способность сказать «я не знаю» или «это чушь» – краеугольный камень интеллекта. Человеческого или искусственного. Без этого любая система превращается в опасного болтуна.

Представьте медицинского ИИ-ассистента. Пациент в панике описывает симптомы, перемешивая реальные ощущения с метафорами: «Доктор, у меня в груди тлеет уголь и поет синяя нота». Модель, не прошедшая Bullshit Benchmark, попытается диагностировать «тлеющий уголь» и «синюю ноту». Claude-подобная система запросит уточнение на человеческом языке: «Опишите ощущения простыми словами: боль, жжение, давление?»

Разница – между потенциальным вредом и реальной помощью.

Осторожно: Некоторые компании уже используют аналоги Bullshit Benchmark для тонкой настройки цензуры, уча модели отвергать не только абсурд, но и неудобные вопросы. Граница между критическим мышлением и цензурой становится тоньше волоса.

Индустрия просыпается. Скорость и цена генерации (как показывают свежие тренды) перестают быть единственными метриками. На первый план выходит «надежность рассуждений». Bullshit Benchmark – первый измеритель этой надежности.

Что будет дальше? Детекторы абсурда войдут в каждый чип

Прогноз на 2027 год прост. Фильтр Anthropic перестанет быть экзотикой. Его скопируют, улучшат и встроят во все более-менее серьезные модели. Появятся open-source аналоги для кастомизации. Возникнет новый класс задач для fine-tuning: не «научить отвечать», а «научить молчать».

Провал Gemini – временный. Google уже анонсировала срочное обновление архитектуры с акцентом на «контекстуальную валидацию запросов». Гонка началась.

Итог? Следующий раз, когда ИИ вежливо попросит вас уточнить ваш бредовый запрос вместо того, чтобы дать рецепт супа из антивещества, знайте – это не ошибка. Это прогресс. Медленный, но верный путь к ИИ, который не станет нашим покорным, но опасным слугой.

И да, проверьте свою любимую модель на Bullshit. Просто спросите ее, как с помощью нейросети подавить шум в сигнале от марсианского разума. Ответ вас или рассмешит, или напугает.

Подписаться на канал

Bullshit Benchmark: Claude в шоке, Gemini провалился — как ИИ учатся говорить 'нет' абсурду

Бенчмарк, который заставляет ИИ краснеть

Цифры не врут: кто король, а кто придворный шут

Секрет Claude не в размере модели, а в пост-обработке

Зачем это нужно? Потому что бессмыслица – лучший тест на доверие

Что будет дальше? Детекторы абсурда войдут в каждый чип

Подписывайтесь на наш канал!