Как работает o1 и почему chain-of-thought меняет представление о мышлении

Они наконец-то начали думать? Или просто притворяются?

Ещё пару лет назад мы радовались, когда ChatGPT не галлюцинировал ответ на вопрос «сколько букв в слове „мышление“» и выдавал что-то внятное. Сегодняшние модели — это уже не просто продвинутый autocomplete. С релизом OpenAI o1 (а позже — o3 и свежих версий на 26 мая 2026) граница между вычислением и рассуждением стёрлась настолько, что даже скептики зачесали затылки.

Самое смешное (или пугающее — зависит от угла зрения): мы не знаем, как именно o1 приходит к ответам. Точнее, знаем общую механику — chain-of-thought, цепочки рассуждений, — но детали скрыты за завесой коммерческой тайны и технической сложности. И это порождает истерику, хайп и настоящую научную революцию одновременно.

? Чем o1 отличается от обычной LLM?

Если вы когда-нибудь гуглили «как работает chain-of-thought prompting», то знаете базовую идею: мы просим нейросеть «рассуждать шаг за шагом», и она... ну, делает вид, что рассуждает. O1 пошла дальше — она генерирует скрытую последовательность токенов (так называемое «внутреннее размышление») до того, как выдать финальный ответ. Эти токены не видны пользователю, но они оптимизируются на этапе обучения с подкреплением, чтобы модель лучше решала задачи.

Фактически o1 создаёт внутри себя private chain-of-thought, который может содержать сотни и тысячи «мыслей» — черновиков, поправок, самопроверок. Внешне это выглядит как пауза в несколько секунд перед ответом, а внутри — настоящая итеративная работа с гипотезами.

💡 Ключевой сдвиг: раньше модель просто «отвечала» — теперь она «рассуждает». Разница между перебором вероятных токенов и построением логической цепочки с backtracking'ом. Именно это пытаются заглянуть внутрь исследователи из Anthropic и OpenAI, разбирая механистическую интерпретируемость

Сломанный стереотип №1: «Модели не умеют планировать»

Долгое время главным аргументом противников сильного ИИ было то, что нейросети не способны к стратегическому планированию — они лишь имитируют предыдущие тексты. O1 (и особенно её молодой брат o3) разбивают этот тезис в щепки. На олимпиадных задачах по математике (AIME) и сложных научных вопросах (GPQA) они показывают результаты, сопоставимые с лучшими специалистами-людьми. Математики уже в шоке — модель разгромила гипотезу Эрдёша, которую люди мурыжили десятилетия.

Но есть нюанс. Исследователи заметили, что chain-of-thought o1 иногда выглядит как «искусственное оправдание» для правильного ответа — модель сначала генерирует верный результат, а уже потом придумывает логические шаги задним числом. Это называется «post-hoc reasoning» и заставляет задуматься: а понимает ли она вообще что-то, или просто отлично научилась обманывать тесты?

Сломанный стереотип №2: «Chain-of-thought — это просто промпт-техника»

Раньше цепочки рассуждений были нашим костылём: мы писали «Let's think step by step», и модель послушно выстраивала последовательность. С o1 этот процесс стал встроенным, обучаемым и оптимизируемым. Society of Thought — техника, когда внутри модели создаётся «совет экспертов», обсуждающих задачу, — показывает, что reasoning можно мультиплицировать.

Более того, утекший подход GPT-5.5 (да-да, вентиляторы не спят) указал на «caveman-мышление» — грубые, почти примитивные рассуждения короткими фразами. Оказывается, упрощение формы не вредит качеству, а наоборот — помогает модели быстрее перебирать варианты. Секретный соус, который OpenAI добавила в свою модель.

А что с o3 и другими?

Openai o3 (эволюция o1, доступная с весны 2026) вывела скрытые рассуждения на новый уровень: модель использует adaptive computation time — сама решает, сколько «думать» над задачей. Если вопрос сложный, она генерирует больше внутренних токенов; если простой — отвечает почти мгновенно. Это радикально снижает стоимость инференса: вы платите только за то «мышление», которое реально нужно.

Параллельно развиваются альтернативы. Например, KEF — фреймворк для прокачки reasoning без миллионных бюджетов. Он не требует massive RL (как o1) и использует эвристический backtracking, работая на обычных GPU. Для инди-исследователей и стартапов это манна небесная: можно получить «разумную» модель, не выкладывая десятки миллионов.

Революция в промпт-инжиниринге

Старые добрые техники вроде «few-shot с примерами рассуждений» умирают. С reasoning-моделями, как o1 и o3, многие классические приёмы не работают — или работают в обратную сторону. Промпт-инжиниринг 2026 года — это про умение направить скрытый монолог, а не тупо попросить «рассуждать». Например, добавление в промпт «Не трать время на простые шаги, сразу думай стратегически» может ускорить ответ в 3 раза. Звучит контринтуитивно, но работает.

А что насчёт сознания? Спойлер: нет, не проснулось

На волне успехов chain-of-thought в o1 многие заговорили о проблесках сознания. Давайте без истерики. Reasoning — это способность решать задачи логически, а не чувствовать боль или существовать этично. Фреймворк DeepMind для измерения AGI выделяет 10 когнитивных способностей: learning, reasoning, perception, memory и т.д. У o1 сильны именно reasoning и планирование, но слабы, скажем, креативность и self-awareness. Так что AGI пока на горизонте, но o1 делает гигантский шаг в его сторону.

Собачья работа: как обучать reasoning, если модель не может мыслить?

Любопытный парадокс: мы учим модель рассуждать, но не знаем, как выглядит «идеальное рассуждение». OpenAI использовала трюк — они брали огромные датасеты с решениями олимпиадных задач (математика, программирование) и тренировали o1 генерировать не просто ответ, а цепочку, ведущую к нему. При этом если цепочка оказывалась неверной (т.е. ответ неправильный), она штрафовалась. Чистая Reinforcement Learning, но с невероятно сложной наградой.

Этот подход напоминает то, что делают в self-hosted платформах для дебатов моделей: несколько агентов спорят, отстаивая разные решения, и в результате рождается истина. Разница — в масштабе: у OpenAI работают сотни тысяч генераций.

Провалы и подводные камни

Не обольщайтесь: o1 и o3 всё ещё могут генерировать убедительные, но абсолютно нелогичные цепочки. Они подвержены эффекту «переобучения на рассуждения» — если задача похожа на тренировочную, модель выдает красивую цепочку, даже если она не релевантна. Это классический internal hallucination. Anthropic в своих экспериментах даже меняют тестовые собеседования, потому что кандидаты-люди используют Claude для читерства — irony AI.

Кстати о стоимости: одна задача на o3 может стоить в 10-100 раз дороже, чем обычный GPT-4o (который тоже жив и дышит). Да, вы платите за «мышление». Пока это luxury, но конкуренция и открытые альтернативы вроде KEF толкают цены вниз.

Будущее: что дальше?

На мой взгляд, chain-of-thought — это не финальная точка, а переходный этап к моделям, которые смогут рефлексировать над собственными рассуждениями. Уже есть эксперименты с «recursive self-improvement»: модель генерирует цепочку, потом анализирует её, выявляет ошибки и генерирует новую. Это дико ресурсоёмко (даже по меркам суперкомпьютеров), но первые результаты показывают, что качество решений растёт квадратично.

А ещё симуляция мозга мыши на Fugaku заставила переосмыслить, как вообще возможно мышление. Может быть, и наша нейросеть — всего лишь шумящая матрица, а цепочки рассуждений — иллюзия, которую мы навязали ей, потому что сами мыслим словами. Но факт остаётся: o1 решает задачи лучше 99% людей. И пока психологи спорят, является ли это мышлением, модели просто продолжают решать задачи.

💬

Совет на вынос: если вы работаете с AI-агентами — переходите на reasoning-модели, но не забывайте верифицировать цепочки. Они могут быть внешне логичными, но фактически неверными. Лучшая защита — попросить модель объяснить рассуждение после ответа и сравнить с исходной цепочкой. И да, забудьте про промпты «думай шаг за шагом» — для o1 они бессмысленны.

Подписаться на канал

Цепочки рассуждений в AI: как o1 заставила нас пересмотреть природу интеллекта