Когда нейросеть начинает думать о себе
Представьте, что вы спрашиваете у человека: "Что ты сейчас думаешь?" Он отвечает. Потом спрашиваете: "А что ты думаешь о том, что только что подумал?" И он продолжает. Это рекурсия сознания. Примерно то же самое происходит внутри Llama 3.1, когда она сталкивается с самореферентными конструкциями.
Новое исследование, опубликованное 8 февраля 2026 года, вскрывает механизмы работы этих цепей. Авторы не просто наблюдают за поведением модели - они лезут внутрь, как в механическую интерпретируемость LLM, и находят конкретные нейроны, отвечающие за саморефлексию.
Актуальность на 10.02.2026: исследование использует Llama 3.1 70B - самую свежую доступную версию на момент публикации. Все методы адаптированы под архитектурные изменения этой модели.
Что такое самореферентные цепи и почему они важны
Самореферентная цепь - это когда модель обрабатывает запрос, содержащий ссылку на саму себя или на свой предыдущий вывод. Например:
- "Объясни, что я только что сказал"
- "Перефразируй свой предыдущий ответ"
- "Проверь, нет ли ошибок в том, что ты написал выше"
Кажется тривиальным? На практике это один из самых сложных когнитивных процессов для LLM. Модель должна:
- Удерживать в рабочей памяти предыдущий контекст
- Анализировать свои собственные выходные данные как входные
- Создавать мета-представление о своих действиях
- Генерировать ответ, который учитывает и исходный запрос, и самоанализ
Исследователи обнаружили, что Llama 3.1 справляется с этим лучше, чем предыдущие версии. Но как именно? Вот где начинается интересное.
Pull Methodology: новый способ заглянуть внутрь
Традиционные методы механической интерпретации часто похожи на археологические раскопки - копаешь наугад и надеешься найти что-то ценное. Pull Methodology меняет подход.
Вот как это работает на практике:
1 Определение целевого поведения
Исследователи создают датасет пар "вход-выход", где выход содержит явную самореференцию. Например:
- Вход: "Напиши определение ИИ"
- Выход: "ИИ - это система, способная выполнять задачи, требующие человеческого интеллекта. В предыдущем предложении я использовал слово 'система', что точно описывает архитектурную природу ИИ."
2 Трассировка активаций
Запускают модель на этих примерах и записывают активации каждого слоя, каждого нейрона. Это похоже на трассировку активаций в Llama 3.2, но с более тонкой настройкой.
3 Корреляционный анализ
Строят матрицы корреляции между активациями и наличием самореферентных конструкций в выходе. Ищут нейроны, которые "зажигаются" именно тогда, когда модель говорит о себе.
4 Верификация через интервенции
Найденные нейроны искусственно активируют или подавляют и смотрят, как меняется поведение модели. Если подавление нейрона убирает самореференцию из выхода - бинго, нашли ключевой компонент цепи.
Важный нюанс: в Llama 3.1 исследователи обнаружили, что самореферентные цепи распределены по нескольким слоям. Нет одного "нейрона саморефлексии" - есть сеть из 20-30 нейронов, работающих согласованно.
Что нашли внутри Llama 3.1
Результаты удивили даже авторов исследования. Оказалось, что самореферентные цепи в Llama 3.1 организованы не так, как в более ранних моделях.
| Характеристика | Llama 2 (70B) | Llama 3.1 (70B) |
|---|---|---|
| Слои с самореферентными нейронами | 15-25 | 8-12, 30-35 |
| Ключевых нейронов | ~50 | ~25 |
| Точность самореференции | 68% | 89% |
Видите тренд? В Llama 3.1 самореферентные цепи стали:
- Более компактными (меньше нейронов)
- Более специализированными (два четких кластера в разных частях сети)
- Более точными (качество самореференции выросло на 21%)
Первый кластер (слои 8-12) отвечает за распознавание самореферентных конструкций во входных данных. Второй (слои 30-35) - за генерацию самореферентных конструкций в выходных данных.
"Это похоже на разделение труда в человеческом мозге," - отмечают авторы. "Одна область замечает, что речь идет о самоанализе, другая - производит этот самоанализ."
Практическое значение: зачем это нужно
Вы думаете, это чистая академика? Ошибаетесь. Понимание самореферентных цепей решает реальные проблемы:
Улучшение цепочек размышления (Chain-of-Thought)
Когда модель использует CoT, она по сути ведет внутренний диалог с собой. Зная, какие нейроны за это отвечают, можно:
- Усиливать их активацию для более глубокого мышления
- Подавлять, когда нужны быстрые, интуитивные ответы
- Диагностировать сбои в reasoning ("модель зациклилась")
Безопасность и контроль
Самореферентные цепи - потенциальный вектор для jailbreak-атак. Если злоумышленник знает, как активировать эти нейроны, он может заставить модель обойти собственные safeguards.
Но теперь, зная расположение этих цепей, можно:
- Мониторить их активацию в реальном времени
- Блокировать подозрительные паттерны
- Создавать более устойчивые к манипуляциям модели
Оптимизация вычислений
Самореферентные цепи требуют дополнительных вычислений. В тензорном параллелизме или распределенных системах знание, где находятся эти "тяжелые" компоненты, помогает лучше распределять нагрузку.
Как воспроизвести исследование
Полный код и данные доступны на Zenodo (DOI: 10.5281/zenodo.14892026). Вот что вам понадобится:
- Llama 3.1 70B в формате, совместимом с вашим фреймворком (например, GGUF для llama.cpp)
- Python 3.11+ с установленными библиотеками из requirements.txt
- GPU с минимум 48GB VRAM (или использование распределенных вычислений)
- Датасет самореферентных промптов (включен в репозиторий)
Предупреждение: полное воспроизведение требует значительных вычислительных ресурсов. Один прогон трассировки для 1000 примеров занимает около 6 часов на A100 80GB.
Ошибки, которые совершают все
Работая с механической интерпретацией, легко наступить на грабли. Вот самые частые ошибки:
Смешение корреляции и причинности
Нейрон активируется при самореференции? Это не значит, что он вызывает самореференцию. Может, он просто реагирует на сложные синтаксические конструкции. Всегда проверяйте через интервенции.
Игнорирование распределенности
Ищете один "волшебный нейрон"? Забудьте. В современных моделях, особенно таких больших, как Llama 3.1 70B, функции распределены. Нужно искать ансамбли нейронов.
Переобучение на артефактах
Некоторые паттерны активаций специфичны для вашего датасета и не обобщаются. Всегда тестируйте на разнообразных примерах, включая аут-оф-дистрибьюшн.
Что это значит для будущего LLM
Исследование самореферентных цепей - не просто академическое упражнение. Это шаг к созданию моделей, которые действительно понимают, что они делают.
Представьте Llama 4 или следующую версию PLaMo, где самореферентные цепи спроектированы сознательно, а не возникли случайно в процессе обучения. Модели смогут:
- Объяснять свои рассуждения не как пост-хок рационализацию, а как реальный процесс
- Обнаруживать собственные ошибки и корректировать их
- Эффективно учиться на собственных выводах
Но есть и темная сторона. Чем лучше модель понимает себя, тем сложнее ее контролировать. Техники вроде выключения "несущих" нейронов могут перестать работать, если модель научится компенсировать их отсутствие.
Мой прогноз? К 2027 году механическая интерпретация станет стандартной частью pipeline разработки LLM. Не для всех моделей - для маленьких инференсных моделей это overkill. Но для больших, ответственных систем это будет обязательным.
И последнее: не ждите, что самореферентные цепи решат все проблемы. Они - один механизм среди многих. Как и в архитектуре Llama 3, магия в синергии компонентов, а не в одном гениальном механизме.
Код на Zenodo ждет. GPU - тоже. Что вы найдете внутри своей модели?