OpenMythos: как новый бенчмарк оценивает локальные LLM в 2026

Выбор модели без бенчмарка — это лотерея

Есть у локальных LLM одна беда: они умеют притворяться умными. Запускаешь на своём ПК новую 7B-модель, задаёшь пару вопросов — отвечает бойко, складно. А попросишь написать сложный SQL-запрос или разобраться в многостраничном контракте — сливается. Или того хуже: выдаёт чушь, которая выглядит как правда.

Раньше мы спасались коллекциями промптов — логические задачи, тесты на знания, код. Работало, но субъективно. Один и тот же ответ можно интерпретировать по-разному, да и промпты со временем просачиваются в обучающие данные. Нужна была объективная, автоматизированная и, главное, открытая система оценок. В 2026 году такой системой стал OpenMythos.

🧪

OpenMythos — это не монолит, а семейство бенчмарков, собранных сообществом на голосовании. Включает подборки из SWE-bench, GSM8K, HumanEval и десятка других датасетов, адаптированных под форматы запросов, которые реально дают локальным моделям (без проприетарных API-обвязок).

OpenMythos родился из раздражения. В начале 2026 года группа энтузиастов заметила, что рейтинги Hugging Face часто искажены: модель показывает космические баллы на MMLU, но тупит при генерации кода на Python. Причина — в обучении на тестовых вопросах. OpenMythos же использует «холодные» задачи, которых модель гарантированно не видела, и проверяет не память, а реальное понимание.

Как он устроен: не просто сухие цифры

OpenMythos состоит из восьми модулей. Каждый модуль — это отдельный навык. Вот ключевые:

MythLogic — многошаговые рассуждения, задачи типа «кто украл печенье» на 10+ шагов. Отлично отсеивает модели, которые просто угадывают.
MythCode — то же, что SWE-bench, но с обязательной проверкой тестами в песочнице Python 3.13. Модели, которые пишут синтаксически верный, но семантически пустой код, получают 0.
MythRAG — тест на умение работать с контекстом до 128k токенов. Модели получают большой документ и 50 вопросов по нему. Если модель выкидывает контекст после 4k (а такое бывает даже у «продвинутых» 8B-моделей), — провал.
MythAlign — проверка на инструментальное использование: может ли модель вызвать функцию, передать параметры, распарсить JSON. Без этого локальная LLM бесполезна в агентных сценариях.

Модуль	Что тестирует	Формат
MythLogic	Многошаговое рассуждение	Текст + выбор ответа
MythCode	Генерация и отладка кода	Запуск в песочнице
MythRAG	Работа с большим контекстом	QA по документу
MythAlign	Tool calling	JSON + API

Самое вкусное — MythCompress. Он проверяет, как модель справляется с длинными диалогами и суммаризацией. Никакого «я вас услышал, вот краткий пересказ» — только фактические детали. Отсев по этому модулю убил 60% моделей с заявленной длиной контекста 32k. Оказалось, что на практике они теряют нить после 5k токенов. Скандал, да?

Схожие проблемы вскрылись и в тестах на память: в статье про LoCoMo мы уже писали, что старые бенчмарки памяти часто «сломаны» — OpenMythos учел это, используя перекрёстную валидацию с человеческой оценкой.

Кому это нужно и что показывают результаты

OpenMythos уже стал негласным стандартом для выбора локальной модели среди разработчиков. Фреймворки вроде llama.cpp и vLLM начали встраивать скрипты для автоматического прогона Myth-тестов прямо в процессе установки. Вы скачали новую модель — получили оценку по 8 параметрам за 10 минут. Удобно, чёрт возьми.

Самый неожиданный результат за полгода: модели, которые доминировали в MMLU (например, некоторые дообученные варианты LLaMA 3.1), провалили MythLogic. И наоборот — малоизвестная 3B-модель от европейской команды показала топ по MythCode. Прямое доказательство: большая база знаний ≠ умение рассуждать.

⚠️

Важный нюанс: OpenMythos не тестирует скорость инференса и не учитывает размер модели. Если ваша видеокарта тянет только 7B — бенчмарк не скажет, сколько секунд будет генерироваться ответ. Для таких замеров используйте отдельные профилировщики (например, встроенные в Ollama или LM Studio).

Почему это не панацея (и что с этим делать)

OpenMythos объективнее, чем рандомные промпты, но он тоже не идеален. Сообщество уже заметило, что MythCode иногда пропускает банальные синтаксические ошибки, если тесты написаны плохо. Новые модули дорабатываются «на лету».

Другая беда — данные. OpenMythos постоянно обновляется, и если вы сравниваете модель сегодня и через месяц, цифры могут отличаться из-за изменения датасета. Разработчики рекомендуют сверяться с версией бенчмарка (v2.3, v2.4 и т.д.).

Кстати, для тех, кто хочет копнуть глубже, мы подготовили обзор продвинутых приложений для локальных LLM — там есть инструменты для автоматизации прогона бенчмарков и визуализации результатов. А если вы скептик — вот сравнение локальных LLM с классическим машинным переводом.

Куда качнётся маятник

Уже сейчас видно, что OpenMythos вынуждает авторов моделей не просто гнаться за токенами, а доказывать, что их «зверушка» действительно умеет логически мыслить и выполнять команды. Подозреваю, что к концу 2026 года каждое серьёзное дообучение будет сопровождаться отчётом по Myth. А может, и сертификацией.

Пока же советую простой эксперимент: возьмите любую модель, которая вам нравится, прогоните её через бесплатный Myth-раннер (есть в том же Ollama через плагин). Увидите свои любимицы в другом свете. Гарантирую, парочка «гениев» окажется просто болтунами.

Подписаться на канал

OpenMythos: как новый бенчмарк разоблачает хваленые локальные LLM

Выбор модели без бенчмарка — это лотерея

Как он устроен: не просто сухие цифры

Кому это нужно и что показывают результаты

Почему это не панацея (и что с этим делать)

Куда качнётся маятник

Подписывайтесь на наш канал!