Представьте: вы запускаете LLM в продакшн. Первый час — огонь. Ответы точные, задержки низкие. А через 12 часов модель начинает «плыть». Ещё через сутки вы тратите вдвое больше энергии на тот же процент успешных ответов. Знакомо? MELT-1 — это бенчмарк, который измеряет именно то, о чём молчат все остальные: выносливость AI-системы под непрерывной нагрузкой.
Грабли, на которые наступали все
Мы привыкли оценивать модели по точности на статичных датасетах. Это как измерять спортсмена по утренней зарядке. Реальность другая: ИИ в продакшене сталкивается с дрейфом данных, нагревом чипов, ростом latency. Кризис бенчмарков уже показал, что старые метрики не отражают практическую пользу. MELT-1 — попытка поставить диагноз под нагрузкой.
Свежий тренд на секунды и доллары как раз про это: после гонки качества началась гонка эффективности.
MELT-1: что под капотом
Протокол зацикливает систему на специфической задаче (например, агентский кодинг или обработка документов) на 24 часа без перерыва. Каждый час замеряется:
- процент успешно завершённых задач (Success rate)
- общая стоимость — энергия + вычислительные ресурсы (Total Cost)
Итоговая метрика — Cost-to-Competence (CtC) = Total Cost / Success rate. Чем ниже — тем выносливее и дешевле система. Не точность на тестовом стенде, а реальная экономика. По сути, MELT-1 показывает, какой будет себестоимость одного успешного действия после суток работы.
Любопытно, что первые тесты выявили: некоторые модели, блестящие на коротких задачах (например, некоторые открытые модели из AdamBench), к 16-му часу резко деградируют — их CtC взлетает в 3-4 раза. Другие (вроде MiniMax M2.5) держат стабильный уровень, хотя стартуют с чуть более высокой ценой.
Энергопотребление как новый лимит
MELT-1 заставляет взглянуть на железо под новым углом. Недостаточно просто быстрого инференса — нужна устойчивость к перегреву и троттлингу. Microsoft Maia 200 как раз пример чипа, спроектированного с оглядкой на длительные сессии. Но MELT-1 выявил и неприятный эффект: даже на специализированных чипах ПО иногда «разогревает» шину данных так, что цена задачи растёт линейно.
Важный нюанс: MELT-1 пока не учитывает деградацию модели из-за «усталости» весов — есть исследования, что после 100 часов работы LLM могут накапливать ошибки. Но это вопрос следующих версий.
Кому бежать внедрять (а кому — подождать)
Если вы строите чат-бота для техподдержки, который работает 24/7, или агентную систему для автоматизации склада — MELT-1 ваш новый лучший друг. Он сразу покажет, какой кандидат «сломается» в ночную смену. Исследователям же стоит помнить: AI-подхалимство на коротких тестах не равно надёжности в бою.
MELT-2 или стандарт?
Разработчики бенчмарка уже анонсировали расширение до 72-часового цикла и добавление метрики стабильности latency. Если MELT-1 приживётся, через год мы будем смотреть на CtC так же, как на точность — критично, но с привкусом выживания. (Спойлер: выживает не самый умный, а самый экономный.)