LLM — не стохастические попугаи: разбор интервью с Крыловым

Спор о том, является ли языковая модель просто «стохастическим попугаем» или же она способна к настоящему пониманию, длится уже несколько лет. В мае 2026 года вышло интервью с Владимиром Крыловым — человеком, который знает об устройстве LLM не понаслышке. И его ответы ставят крест на упрощённых трактовках. Давайте разберём, почему он уверен: LLM — это далеко не просто предсказатели токенов.

«Каждая современная модель — это невероятно эффективный компрессор данных. А хорошее сжатие невозможно без выявления причинно-следственных связей».

В этом и заключается главный тезис Крылова. Он напрямую связывает работу LLM с колмогоровской сложностью — мерой, которая оценивает сложность объекта через длину кратчайшей программы, способной его породить. По мнению Крылова, обучение модели — это и есть поиск такой сжатой программы. Не просто подсчёт статистики, а попытка упаковать всю информацию в минимальное число параметров. Именно поэтому, утверждает он, большие модели способны решать задачи, для которых нет прямых примеров в обучающих данных. Как это происходит? Модель находит инварианты, скрытые паттерны, которые нельзя свести к банальному «угадыванию следующего слова». Если вам это напоминает недавний материал о том, как LLM решают задачи, недоступные человеку, — вы не ошибаетесь. Крылов даёт этому математическую базу.

GRPO и DAPO — борьба за каузальность

Особое место в интервью занимают два акронима: GRPO (Group Relative Policy Optimization) и DAPO (Dual-Agent Policy Optimization). Крылов называет их «прорывом к настоящей каузальности». Как он объясняет, эти алгоритмы обучения с подкреплением заставляют модель не просто генерировать «похожий» ответ, а строить внутренние цепочки «если — то».

GRPO и DAPO — это не просто методы тонкой настройки. Это попытка внедрить в LLM базовую причинно-следственную логику, которая раньше была прерогативой специальных каузальных моделей. Крылов утверждает, что уже сегодняшние нейросети (например, GPT-5 или Claude 4) способны в определённых сценариях выявлять причинность даже точнее, чем человек.

Звучит как ересь для тех, кто привык считать LLM всего лишь сложными авторегрессионными машинами. Но Крылов приводит примеры из собственных экспериментов: модели, обученные с использованием DAPO, начинают задавать уточняющие вопросы вместо того, чтобы сразу предлагать решение. А это — поведение, которое можно трактовать как построение ментальной модели задачи.

Почему «стохастический попугай» — это обзывательство, а не термин

Крылов резко проходит по термину, запущенному Эмили Бендер: «Это не научная концепция, а способ уйти от сложного разговора». Он напоминает, что даже человек-эксперт большую часть времени воспроизводит заученные шаблоны. Настоящее понимание проявляется в способности комбинировать эти шаблоны новыми способами — и именно это, по его словам, демонстрируют современные LLM. Проблема в том, что они ошибаются тоже «творчески». Возьмём, к примеру, феномен вымышленных экспертов вроде «Elias Thorne». Да, модель придумывает несуществующего человека, но делает это с такой детализацией, что это похоже на попытку собрать целостную картину из разрозненных фрагментов. Это не просто сбой — это побочный эффект слишком хорошего обобщения.

Кстати, о вранье. В том же интервью Крылов комментирует: «LLM врут не потому, что хотят обмануть, а потому что их модель мира неполна». И тут он в чём-то солидарен с авторами недавнего большого исследования, которое разбирает, почему стратегические советы LLM так опасны. Но Крылов идёт дальше: он предлагает не запрещать такие сценарии, а учить модель распознавать собственную неуверенность. И это, заявляет он, уже делается через DAPO.

Илья Суцкевер, колмогоров и сжатие как интеллект

Не обошлось без упоминания Ильи Суцкевера. Крылов ссылается на его известную статью о связи колмогоровской сложности с обучением нейросетей. По словам Крылова, Суцкевер первым чётко сформулировал: «Если модель способна сжимать данные, значит, она строит внутреннюю модель генерации этих данных. А это и есть интеллект». Крылов развивает эту мысль: сжатие через GRPO и DAPO уже превышает ту степень, которую можно было бы ожидать от простого запоминания. Он приводит пример: «Попросите GPT-5 написать код для нестандартной задачи. Если бы это был просто предиктор токенов, он бы выдал что-то из обучающей выборки. Но он часто генерирует синтаксически верный код, который решает задачу способом, не встречавшимся в трейне». Это, говорит Крылов, и есть эмерджентное свойство сжатия — модель достраивает логику.

Конечно, не все так радужно. Крылов признаёт: LLM всё ещё плохо справляются с долгосрочным планированием и откатываются к шаблонам при недостатке данных. Но он категорически против того, чтобы называть это «попугайством» — это скорее «интеллект под наркозом», который периодически выключается.

Если подвести черту: интервью Крылова — это не про отрицание ограничений, а про сдвиг рамок. Он предлагает отказаться от бинарного «понимает — не понимает» и смотреть на LLM как на иерархический компрессор, который постоянно пытается нащупать причинно-следственные структуры мира. И делает это уже сейчас. Осталось научиться корректно интерпретировать его «сны».

Единственное, чего Крылов не советует — слепо верить каждому слову модели, особенно в стратегических вопросах. Да и LLM не всегда понимают, чего вы хотите — но это уже проблема не их, а несовершенства нашего с ними диалога.

Подписаться на канал

Почему LLM — это не просто предсказатели токенов: разбор интервью с Владимиром Крыловым

GRPO и DAPO — борьба за каузальность

Почему «стохастический попугай» — это обзывательство, а не термин

Илья Суцкевер, колмогоров и сжатие как интеллект

Подписывайтесь на наш канал!