Рейтинги LLM умерли. Да здравствует диагностика

Откройте любой AI-новостной сайт. GPT-5 набрал 89.3 балла в MMLU. Claude 4 преодолел 92.1. Gemini Ultra 2.5 — 94.7. Цифры, цифры, цифры. И ни одного ответа на простой вопрос: а что эта модель на самом деле умеет?

Вот представьте: вы учитель. У вас два ученика. Первый набирает 95 баллов на стандартизированном тесте. Второй — 87. Кого вы возьмете в олимпиадную команду? Правильный ответ: вы не знаете. Потому что не видели, как они решают задачи.

💡

AI-SETT — это фреймворк, который рассматривает LLM не как черные ящики с рейтингом, а как учеников с уникальным набором сильных и слабых сторон. Разработан экспертом с 20-летним педагогическим стажем, он переносит образовательные методики в мир искусственного интеллекта.

Что такое SETT и почему он работает там, где пасуют бенчмарки

SETT расшифровывается как Student, Environment, Task, Tools. В педагогике это классическая модель анализа образовательных потребностей. В AI-SETT она превращается в:

Student (Модель): Какие когнитивные процессы доступны? Как модель обучается? Какие у нее метакогнитивные навыки?
Environment (Контекст): В каких условиях модель работает лучше всего? Что ее дестабилизирует?
Task (Задача): Как модель декомпозирует сложные задачи? Где теряет логическую цепочку?
Tools (Инструменты): Как модель использует доступные инструменты (поиск, калькулятор, код)?

И вот здесь начинается магия. Вместо одного балла "решение математических задач" вы получаете 27 отдельных критериев. Модель правильно применяет теорему Пифагора? Отлично. Но понимает ли она, когда теорема неприменима? Может ли объяснить решение пятикласснику? Сохраняет ли логику при изменении условий задачи?

600 критериев — это не перебор. Это необходимость

"Шестьсот? Серьезно?" — спросите вы. Да. Серьезно. Потому что современные LLM — это не калькуляторы. Это сложные системы с:

Область оценки	Количество критериев	Что измеряет
Когнитивная гибкость	84	Способность переключаться между контекстами, адаптировать стратегии
Метапознание	63	Осознание собственных ограничений, проверка гипотез
Коммуникативная адаптивность	72	Подстройка под аудиторию, ясность объяснений
Работа с неопределенностью	58	Обработка противоречивых данных, оценка вероятностей

Возьмем пример из реальной жизни. Вы тестируете LLM для HR-автоматизации. Стандартный бенчмарк покажет точность классификации резюме. AI-SETT покажет:

Как модель реагирует на нестандартные форматы резюме (креативные индустрии vs. банковский сектор)
Обнаруживает ли она скрытые компетенции в описании опыта
Как учитывает культурный контекст (западные vs. восточные формулировки достижений)
Способна ли объяснить, почему кандидат А лучше Б — не просто "больше опыта", а конкретные причины

Зона ближайшего развития: концепция, которую украли у Выготского

В педагогике есть гениальная идея: ученик развивается не там, где уже все умеет, а там, где может сделать что-то с помощью учителя. AI-SETT применяет это к LLM.

Вместо вопроса "Что модель умеет?" фреймворк спрашивает: "Что модель может научиться делать при минимальной помощи?"

Пример из практики: GPT-4 2024 года плохо справлялся с многошаговыми юридическими рассуждениями. Но если дать ему структуру аргументации (тезис-доказательство-контраргумент-вывод), качество ответов вырастало на 40%. Это и есть зона ближайшего развития — модель уже готова к сложным задачам, ей не хватает лишь каркаса.

Теперь представьте, что вы выбираете модель для юридического ассистента. Одна модель набирает 85 баллов в LegalBench. Другая — 82. Но AI-SETT показывает: первая модель достигла потолка, вторая же имеет огромную зону ближайшего развития — стоит добавить шаблоны юридических документов, и ее эффективность взлетит до 90+.

Как выглядит диагностика на практике

Открываете AI-SETT на GitHub (репозиторий активно развивается, последнее обновление — январь 2026). Видите не просто список тестов, а диагностические сценарии.

1 Выбираете домен оценки

Допустим, "креативное письмо". AI-SETT не спрашивает "Напишите рассказ". Он предлагает иерархию задач:

Генерирует ли модель оригинальные метафоры при прямом указании?
Может ли поддерживать единый стиль на протяжении 1000 слов?
Как реагирует на редакторские правки — слепо принимает или аргументирует?
Способна ли адаптировать текст под разные культурные контексты?

2 Анализируете паттерны ошибок

Здесь AI-SETT бьет точно в цель. Вместо "модель ошибается в 15% случаев" вы получаете: "Модель теряет логическую связность при более чем трех уровнях вложенности в рассуждениях. Особенно страдают условные конструкции с отрицанием."

Это конкретно. Это можно исправить. Это полезно для тестирования LLM-приложений.

3 Строите профиль компетенций

На выходе — не число. Не график. А полноценный отчет в духе педагогической диагностики: "Модель демонстрирует сильные аналитические способности, но нуждается в поддержке при работе с эмоционально окрашенными контекстами. Рекомендуется использовать в задачах логического вывода, избегая сценариев, требующих эмпатии."

Чем AI-SETT отличается от других фреймворков

Давайте сравним с тем, что есть на рынке в начале 2026:

Инструмент	Подход	Что дает	Где проигрывает AI-SETT
MMLU, HellaSwag	Стандартизированные тесты	Сравнительные баллы, рейтинги	Нулевая диагностическая ценность. 85 баллов — и что?
DeepEval	Метрики качества	Точность, связность, релевантность	Измеряет симптомы, а не причины
KEF, OpenAI o3	Фреймворки рассуждений	Улучшение reasoning-способностей	Работают с тем, что есть, не диагностируют фундамент
AI-SETT	Педагогическая диагностика	Профиль компетенций, зоны роста, рекомендации	Сложнее, требует экспертизы, нет простых цифр для заголовков

Главное отличие: AI-SETT не пытается дать ответ "какая модель лучше". Он отвечает на вопрос "какая модель лучше для КОНКРЕТНОЙ задачи в КОНКРЕТНЫХ условиях".

Кому нужен этот сложный фреймворк

AI-SETT — не для всех. Если вам нужно просто сравнить цены на API или выбрать самую популярную модель — продолжайте смотреть рейтинги. Этот инструмент для тех, кто:

Разрабатывает enterprise-решения на LLM: Когда ошибка стоит тысяч долларов, нужно понимать не "среднюю точность", а конкретные сценарии сбоев
Исследует возможности моделей: AI-SETT раскрывает неочевидные сильные стороны, которые можно использовать в нестандартных промптах
Обучает и дообучает модели: Диагностика показывает, какие именно навыки нужно прокачивать
Интегрирует LLM в сложные системы: Например, в семантические пайплайны, где важна предсказуемость поведения

Самый неочевидный совет: перестаньте искать лучшую модель

Вот что происходит в 2026 году. Компании тратят месяцы на выбор "оптимальной LLM". Тестируют десятки моделей. Сравнивают баллы. А потом оказывается, что выбранная модель идеально решает тестовые задачи и проваливается на реальных данных.

AI-SETT предлагает другой путь: возьмите ДВЕ-ТРИ модели, которые в целом подходят. Проведите глубокую диагностику каждой. Узнайте их настоящие сильные стороны. А потом — это важно — проектируйте систему так, чтобы каждая модель делала то, что у нее получается лучше всего.

Одна модель обрабатывает структурированные запросы. Другая работает с креативными задачами. Третья специализируется на объяснении сложных концепций. Вместо одной "универсальной" модели вы получаете ансамбль, где каждая часть используется на максимум.

Рейтинги LLM — это как школьные оценки. Они говорят что-то, но не говорят главного. AI-SETT — это как индивидуальная образовательная траектория. Она требует времени. Она требует экспертизы. Но она дает ответы, которые действительно имеют значение.

Проверьте на своих задачах. Возьмите коллекцию промптов для тестирования, добавьте к ней педагогическую оптику AI-SETT. И посмотрите на свои модели по-новому. Не как на инструменты с рейтингом. Как на учеников с потенциалом.

AI-SETT: Когда 600 критериев оценки LLM оказываются важнее рейтинговых таблиц