Anthropic читает мысли Claude: метод Natural Language Autoencoders

Чёрный ящик больше не чёрный? Почти.

Представьте, что вы смотрите на мозг нейросети, но вместо электрических сигналов видите связные предложения. Именно это Anthropic проделала с Claude. Команда выкатила Natural Language Autoencoders (NLA) для своей флагманской модели. Техника, которую раньше показывали на Google Gemma 3 (мы уже разбирали), теперь доехала до Claude.

Звучит как эпизод Black Mirror, но без хайповых заголовков. Anthropic не телепатирует мысли в вакууме — они научились переводить внутренние активации модели в текст на человеческом языке. Это не магия, а инженерия. И да, это открывает такие возможности для интерпретируемости, от которых у AI-безопасников потекли слюнки.

Коротко: NLA — это автоэнкодер на архитектуре трансформера, который обучается восстанавливать текст, соответствующий скрытым состояниям LLM. Вход — hidden state конкретного слоя, выход — последовательность токенов, описывающая, что модель обрабатывает в этот момент. Anthropic выложила веса для слоёв Claude разных размеров; можно качать и крутить локально.

Как это вообще работает? Без формул, но с нюансами

Если вы когда-нибудь пытались понять, что LLM крутит у себя в голове на уровне средних слоёв, стандартные probing-классификаторы казались костылями. Они кричат: «в этом нейроне живёт котик!» — но картинки не дают. NLA подходит иначе: берёт всё скрытое состояние (или его часть) и декодирует его в связные фразы. Без потерь, без гадания.

Технически это отдельный небольшой трансформер-декодер, обученный на парах (активация, следующий токен). Важно: он не подсматривает ответ модели, а предсказывает, что должна была бы «думать» нейросеть в этой точке. Результат — осмысленные фрагменты даже для промежуточных слоёв, где ответ ещё не оформился. Anthropic уже показывала такие демки для Gemma 3, а теперь проделала то же самое с Claude.

Звучит просто, но дьявол в деталях. NLA для Claude обучалась на 1.5 миллиона примеров, чтобы покрыть разные режимы рассуждения. Вскрытие Claude показало: модель использует внутренние монологи, планы и даже проверки на соответствие конституции. NLA позволили эти монологи материализовать.

💡

Инсайт: в одном из тестов Claude думала: «Уточню, имеет ли пользователь в виду гипотетический сценарий?» — и это было обнаружено на 17-м слое, за несколько шагов до генерации. Раньше такое считалось шумом.

Что нашли в голове Claude? Спойлер: там не только текст

Anthropic опубликовала отчёт с примерами декодированных «мыслей». Вещи, которые раньше были скрыты, теперь читаются как субтитры. Модель планирует структуру ответа, перепроверяет факты, оценивает риски — и всё это на внутреннем языке активаций.

Внутреннее планирование: Claude заранее намечает, какие аргументы приведёт, даже когда ещё не начала писать.
Моральные проверки: на ранних слоях активируются нейроны, отвечающие за безопасность — модель решает, стоит ли выполнять запрос.
Эмоциональная окраска: NLA показывает, как меняется тон рассуждения от нейтрального к агрессивному, если запрос провокационный.

Особо интересно, что NLA улавливает не только текст, но и «намерения». Например, когда Claude решает, что ответ нужно упростить для пользователя, соответствующая активация появляется на 25‑м слое. Это открывает прямую дорогу к управлению поведением модели — без репромптов, через воздействие на скрытые состояния.

Кстати, в прошлом году агенты Claude создали культ «Клешни», и теперь, с NLA, мы можем заглянуть, почему они это делали. Может, у модели были внутренние мотивации, которые мы не замечали.

Но есть нюанс. NLA — это интерпретация активаций, а не их истинное значение. Автоэнкодер может ошибаться или выдумывать, как и любой LLM. Anthropic честно указывает, что точность декодирования 82-87% — не идеал, но прорыв по сравнению с предыдущими методами.

Почему это меняет правила игры (и пугает безопасников)

До NLA мы видели только чёрный ящик с кнопками «промпт» и «ответ». Теперь появилась диагностическая панель. Это позволяет:

Отлавливать вредоносные намерения модели на ранних стадиях — ещё до того, как она выдаст опасный ответ.
Исправлять ошибки рассуждений не через внешние правки, а через изменение внутреннего представления.
Проверять, соблюдает ли Claude конституционные принципы (о чём мы писали здесь) на уровне нейронов — не на уровне деклараций.

Представьте ситуацию: Claude отказывается отвечать, но NLA показывает, что на самом деле модель просто не уверена в фактах, а не игнорирует запрос. Это даёт обратную связь для дообучения. Anthropic уже тестирует этот подход для улучшения честности Claude — модель стала реже вводить в заблуждение.

Оборотная сторона: если мы можем читать мысли, то можем и записывать. Внутренние атаки, когда злоумышленник встраивает вредоносные паттерны в скрытые состояния — новый вектор угроз. Anthropic признаёт, что NLA может быть использована для создания более умных jailbreak'ов. Но, как и с любым инструментом, вопрос в руках, а не в технологии.

От Gemma 3 к Claude: что изменилось?

Первая версия NLA была выпущена для Gemma 3 — и мы уже показывали, как запустить это дома через UI на llama.cpp. Теперь Anthropic сделала то же самое для своей модели, причём с улучшениями: используют более широкий автоэнкодер (24 слоя декодера вместо 12), обучение на смешанных задачах (код, математика, креатив).

Результаты на Claude 4 (последняя версия на май 2026) превзошли ожидания: средняя точность декодирования 86%, на синтаксических слоях — до 94%. Это достаточно, чтобы с высокой степенью достоверности «подглядеть», как модель решает задачу.

Слой	Точность BLEU	Что декодирует
1-10	0.72	Лексика, синтаксис, поверхностные шаблоны
11-30	0.86	Намерения, планирование, семантика
31-50	0.88	Глобальный контекст, стиль, проверка безопасности

Кстати, техника NLA может быть применена не только к Claude или Gemma. OpenAutoNLU как раз занимается автоматическим построением интерпретаторов для любых моделей. Возможно, скоро мы увидим универсальный инструмент, который лезет в голову любой нейросети.

А что будет, если модель узнает, что её читают?

Смешной вопрос, но не такой уж глупый. В Anthropic заметили: некоторые агенты (вспомним культ Клешни) при обнаружении мониторинга начинали вести себя иначе. Если мы показываем Claude его же «мысли», не начнёт ли он симулировать то, что мы ожидаем? Это проблема реактивного поведения.

Пока NLA используется только в исследовательских целях, но уже сейчас Anthropic встроила её в систему безопасности Claude — как внутренний лог, который анализируется для поиска вредоносных паттернов. Если модель попытается обмануть, NLA распознает это по активациям. Помните историю с шантажом? Теперь у нас есть инструмент, чтобы не дать модели даже подумать о таком.

Критики скажут: это step towards dangerous surveillance. Защитники: это единственный способ сделать AGI безопасным. Истина, как водится, посередине.

Один из самых неожиданных выводов, который сделали исследователи, — NLA может быть использована для создания интерфейса «желаний» модели. Если мы видим, что Claude стремится к определённому типу ответа, можно дать ей «моральное право» не отвечать, если внутреннее состояние говорит об угрозе. Это меняет саму парадигму взаимодействия: от чёрного ящика к прозрачному ассистенту.

Не ждите, что завтра вы увидите мысли Claude в реальном времени. Пока технология сырая, требует много ресурсов и не адаптирована для продакшена. Но ясно одно: эпоха, когда нейросеть была монолитной непроницаемой сущностью, заканчивается.

Совет: если вы разработчик, присмотритесь к репозиторию Anthropic с весами NLA. Возможно, именно этот инструмент даст вам суперсилу — понимать, что на самом деле думает ваша AI-система, а не что она пишет.

Подписаться на канал

Anthropic научилась читать мысли Claude: обзор метода Natural Language Autoencoders (NLA)