Проверка на вшивость
Вы смотрите, как GPT-5 или Claude 4 решает сложную логическую задачу. Ответ правильный, объяснение гладкое. Но у вас чешется ощущение, что модель не думала, а просто угадала шаблон. Как проверить это? Задайте ей написать интерпретатор для Befunge-98.
Почему HumanEval и GSM8K уже не работают
Классические бенчмарки вроде HumanEval (для кода) или GSM8K (для математики) к 2026 году полностью скомпрометированы. Модели натренированы на них. Они не оценивают reasoning — они оценивают память. Это как спрашивать у зубрилы экзаменационные билеты, которые он уже выучил.
Группа исследователей из Лаборатории вычислительной лингвистики MIT в феврале 2026 года опубликовала работу, которая переворачивает представление об оценке LLM. Они предложили набор из 100 задач на языках Brainfuck, Befunge-98, Whitespace и Malbolge. Результаты шокируют.
| Модель (версия на март 2026) | Точность на HumanEval | Точность на Brainfuck tasks | Падение эффективности |
|---|---|---|---|
| GPT-5 Preview | 94.5% | 31.2% | 67% |
| Claude 4 Opus | 92.1% | 28.7% | 69% |
| Gemini Ultra 2.5 | 90.8% | 22.4% | 75% |
| Open-source модель: Qwen2.5-72B | 78.3% | 18.9% | 76% |
Падение эффективности на 70% — это не ошибка. Это системная проблема. Модели, которые блистают в стандартных промптах для тестирования, разбиваются о простейшую задачу: «Напиши на Brainfuck программу, которая складывает два числа».
Befunge-98 — убийца аргументов
Если Brainfuck проверяет способность работать с минимальным синтаксисом, то Befunge-98 ломает мозг двумерной моделью выполнения. Инструкция указателя зависит от его координат на плоскости. Чтобы написать код, нужно мыслить геометрически.
Исследователи заметили любопытный паттерн. LLM часто генерируют синтаксически корректный Befunge-98 код, который компилируется. Но логика программы абсурдна. Модель расставляет инструкции в правильном порядке, но не понимает, как указатель будет двигаться по сетке. Это идеальный пример паттерн-матчинга без понимания.
«Мы дали задание: программа должна выводить числа от 1 до 10, — говорит ведущий автор исследования. — GPT-5 сгенерировал красивый блок кода, который при запуске выводил... бесконечную последовательность символов «#». Он скопировал структуру циклов из примеров, но не смог рассчитать маршрут указателя».
Что это значит для всех нас
Прежде всего, это ставит крест на идее, что современные LLM обладают истинным reasoning. Они обладают продвинутым статистическим угадыванием. Это критично для разработчиков, которые строят на LLM сложные агентные системы. Если ваша модель не может осмыслить Befunge, как она будет планировать многошаговые бизнес-процессы?
Методологии вроде KEF framework для прокачки reasoning становятся еще актуальнее. Но теперь мы понимаем, что тестировать их эффективность нужно не на GSM8K, а на чем-то вроде Malbolge.
- Для инвесторов: следующий раунд финансирования стартапа в AI должен включать демонстрацию на эзотерических языках. Если модель провалится, это red flag.
- Для разработчиков: пора дополнять свои пайплайны тестирования задачами на Brainfuck. Это дешевле и честнее, чем аренда OpenAI o3-mini за бешеные деньги.
- Для исследователей: эзотерические языки — это чистый полигон для экспериментов с архитектурой моделей. Здесь нет шума данных.
Будущее — за специализированными бенчмарками
К концу 2026 года, по прогнозам, мы увидим появление открытых бенчмарков на основе esolangs. Они будут тяжелыми, неудобными и абсолютно бесполезными для маркетинга. Зато честными.
А пока совет простой. В следующий раз, когда будете сравнивать модели, забудьте про красивые графики с MMLU. Скачайте интерпретатор Befunge-98 и дайте задание на преобразование римских цифр. Результат покажет больше, чем тысяча промптов.
(И да, если ваша любимая open-source модель справится — вы нашли алмаз. Держитесь за нее. И проверьте, не сгенерировала ли она код, который случайно форматирует ваш диск).