Утечка GPT-5.5: caveman-мышление для цепных рассуждений

В пятницу вечером анонимный пользователь Reddit выложил gist с логом внутреннего диалога GPT-5.5. Сенсация? Не совсем. Но деталь, которая заставила сообщество AI-исследователей чесать затылки: модель использует примитивный 'caveman'-стиль мышления. Короткие, рубленые фразы. Почти отсутствие грамматики. И — дикий скачок качества в многошаговых рассуждениях.

Осторожно: официального подтверждения от OpenAI нет. Но паттерн слишком узнаваем, чтобы быть случайностью.

"Я — пещерный человек, я решаю задачи"

В логе GPT-5.5 получает сложный вопрос про оптимизацию квантового алгоритма. Вместо многослойного анализа модель начинает бормотать: "big problem. split. step one: find bottleneck. step two: cut it. step three: profit". Никаких "давайте рассмотрим", "с точки зрения", "в контексте". Только огрызки смыслов.

Звучит как баг, но результат — на 18% выше точность по сравнению с предыдущей версией на тестах GSM-8K (math word problems). Официальных бенчмарков GPT-5.5 пока нет, но сливщик клянется, что это не шутка.

Если вспомнить утечку промптов для GPT-5.2, там тоже была ставка на упрощение. Но тогда — только внешний промпт. Теперь, похоже, упрощение зашили в сам процесс мышления модели.

Почему пещерный человек умнее профессора?

В марте 2026 вышло исследование, которое объясняет этот феномен. Ссылки нет, но суть: когда LLM пытается мыслить "красиво" — плавно, грамматически правильно, с оборотами — она тратит до 40% токенов на поддержание формы, а не на суть. "Caveman-мышление" срезает этот слой.

Идея не нова. Ещё в эксперименте с Genesis-152M-Instruct заметили: гибридные модели лучше работают, если им разрешить "думать" короткими вспышками. Но там архитектура была специальной. Здесь — просто новый промпт-инжиниринг, встроенный в развертывание.

Сравните: гибрид Llama 3.3 8B под Claude 4.5 Opus использовал длинные формальные цепочки. А тут — наоборот, ультракороткие шаги. И это работает даже на маленьких моделях.

Дистилляция под caveman: как повторить?

Пока нет готового рецепта. Но слив gist даёт наводку: вероятно, OpenAI нашла способ заставить модель генерировать "внутренний монолог" в стиле телеграфного сообщения, а затем сворачивать его в ответ. Техника напоминает Chain-of-Thought, но с агрессивным pruning.

Если вы хотите попробовать сами — вот моя гипотеза: возьмите любую open-source модель, дообучите её на датасете, где каждый шаг рассуждения выглядит как "problem -> cause -> fix" без воды. Скорее всего, получите такой же эффект. Это дешевле, чем кажется.

Важный нюанс: если переборщить с упрощением, модель начнет генерировать бессвязный шум. Золотая середина — как в шорткатах GPT — делать не более 3-4 смысловых шагов в одной цепочке.

Кому это нужно?

Разработчикам, кто пилит AI-ассистентов для кода. Помните исследование, почему AI-ассистент пишет код как занудный профессор? Там как раз проблема в многословных рассуждениях. Caveman-мышление может это исправить.

А ещё это полезно для научных задач. Gemini 3 Deep Think находит ошибки в статьях — но тратит кучу ресурсов. Если применить caveman-подход, возможно, скорости хватит для real-time анализа.

Что дальше?

Если утечка подтвердится, ждите новый тренд: "недо-мышление" (underthinking) как альтернатива "глубокому мышлению". Парадокс: чтобы решать сложные задачи, нейросети придется научиться думать как варвары. Отбросить вежливость, синтаксис, академичность. Оставить только голые логические цепочки.

А пока — берите пример с пещерного человека. Не усложняйте. Short is the new deep.

Ссылка на оригинальный gist: удалена модерацией Reddit, но кэш может ещё висеть. Если найдёте — скиньте в комменты;)

Подписаться на канал

Утечка подхода GPT-5.5: caveman-мышление как секретный соус для цепных рассуждений

"Я — пещерный человек, я решаю задачи"

Почему пещерный человек умнее профессора?

Дистилляция под caveman: как повторить?

Кому это нужно?

Что дальше?

Подписывайтесь на наш канал!