Больше не надо гадать, о чем думает AI

До недавнего времени внутренности большой языковой модели были черным ящиком. Ты даешь ей текст, она выдает текст, а что там происходит между слоями — загадка. Anthropic в 2025 году выложили технику Natural Language Autoencoders (NLAE), которая превращает невнятные активации нейронов в читаемые фразы. А в 2026-м энтузиасты наконец-то упаковали это в инструмент, который можно запустить локально через UI, сервер и llama.cpp. Давай разберемся, что это за зверь и зачем он тебе.

Если ты не читал предыдущий текст про сами автоэнкодеры — вот ссылка. Там подробно объясняется магия преобразования активаций в текст.

Что именно ты будешь запускать?

Весь проект держится на трех китах:

Anthropic NLAE — обученные декодеры, которые переводят вектор состояний слоя в последовательность слов. Они весят около 200-500 МБ (зависит от модели).
llama.cpp — движок для инференса LLM на CPU/GPU. Он умеет не только прогонять текст, но и отдавать raw активации через кастомную сборку.
UI-сервер (обычно React + Python FastAPI) — показывает, какие паттерны активируются в каждом слое, подсвечивает их в исходном тексте и позволяет кликать по нейронам.

В итоге ты открываешь браузер, загружаешь модель (например, Llama 3.2 или Gemma 3), подаешь предложение, а тебе показывают: "Вот в этом месте нейронная сеть подумала про глаголы движения, а здесь — про отрицание". И это не догадки, а реально декодированные фразы из внутренних представлений.

Подготовка: что нужно скачать

Софт собран в один репозиторий (например, nlaserver). Клонируешь, ставишь зависимости — и поехали. Вот минимальный чеклист:

Компонент	Версия/размер	Откуда брать
llama.cpp	b4620+ (с поддержкой hooks)	GitHub
NLAE-декодеры	~300 MB	Hugging Face (Anthropic/claude-nlae-v1)
Frontend	Node 22, npm	В репозитории
Python backend	Python 3.12	Там же

Внимание: стандартная сборка llama.cpp не отдает активации. Нужно скомпилировать с флагом LLAMA_NLAE=1 или скачать готовый бинарник из релизов. В репозитории инструмента уже лежит скрипт сборки.

Запускаем сервер и открываем UI

Допустим, ты уже скачал модель в формате GGUF (например, Llama-3.2-8B-Instruct.Q4_K_M.gguf). Дальше несколько команд:

cd nlaserver
pip install -r requirements.txt
python server.py --model ../models/Llama-3.2-8B-Instruct.Q4_K_M.gguf --nlae-weights ../nlae_weights --port 8080

После этого сервер стартует, а в консоли появится ссылка на http://localhost:8080. Открываешь — видишь поле ввода и визуализацию слоев. Пробуешь фразу:

«Кошка села на коврик и начала умываться»

Тыкаешь на слой 12 — и в правой панели появляются декодированные «мысли»:

Нейрон #457: «животное, движение вниз»
Нейрон #2031: «поверхность, текстура»
Нейрон #88: «начало действия, переход»

Можно кликнуть на любой — исходный текст подсветится, а сервер покажет, какие токены отвечают за эту активацию. Зачем это нужно? Если ты разрабатываешь RAG-агента и хочешь понять, почему модель выбрала не тот контекст — NLAE покажет, что именно она «увидела» во внутренних слоях. В кейсе про перевод RAG-агента на локальную Llama 3 такие инсайты сэкономили месяцы дата-инжиниринга.

Сравнение: одна альтернатива есть, но она грустная

Единственный прямой аналог — Logit Lens (встроен в TransformerLens). Он показывает вероятности токенов на каждом слое, но это не полноценные фразы, а просто списки слов. NLAE выдает именно осмысленные предложения. Другой подход — activation patching (включая тулзы вроде NNsight). Он требует ручного вмешательства и не дает такого наглядного UI.

Из коробочных решений для локального запуска — только наш герой. Если тебе нужен готовый сервер без возни со сборкой — можешь глянуть сравнение Oobabooga, Jan AI и LM Studio, но там интерпретируемость на уровне «посмотри на logits», а не на внутренние представления.

Кому это вообще надо?

Исследователям интерпретируемости — очевидно. Но даже если ты просто ML-инженер, такие тулзы помогают отлаживать «галлюцинации».
Тем, кто строит локальные AI-агенты — когда твой агент выдает странный ответ, можно заглянуть в слой и понять, где он свернул не туда. Статья про встраивание llama.cpp без оберток покажет, как интегрировать сервер NLAE прямо в свой проект на C++.
Security-специалистам — проверить, не активирует ли промпт-инъекция скрытые нейроны.
Любопытным — просто покопаться в мозгах AI. Честно, это залипательно.

Однажды на дебаге я потратил три часа, просто кликая по нейронам, пока не нашел паттерн, отвечающий за отказ отвечать на вопросы про политику. Потом переписал промпт, и модель стала послушней.

DIY: как добавить свой датасет

Скрипт server.py умеет принимать кастомные NLAE-веса. Если ты натренировал свой декодер (например, на русскоязычных данных), просто укажи путь в конфиге. Мы уже писали, как заставить модели парсить JSON — с NLAE можно даже понять, на каком слое она решает, что начинается структурированный вывод.

Недостатки? Спойлер: их хватает

Скорость: на CPU один прогон с декодированием всех слоев занимает 10-20 секунд для короткого текста. GPU (хотя бы RTX 3060) режет до 2-3 секунд.
Обученные декодеры есть только для Llama 3, Gemma 3 и Claude (да, есть версия для Claude, но ее нельзя использовать без API). Если захочешь заменить OpenAI на локальную модель, придется перетренировать декодер под свою архитектуру.
UI местами тормозит при рендеринге больших текстов — оптимизация еще в процессе.

А что, если не хочется возиться с сервером?

Есть готовые сборки в Docker: docker pull nlae/llama-nlae-ui. Все предустановлено, нужно только подключить тома с GGUF и весами. Для тех, кто боится терминала, существует one-click установщик для локальных LLM — его автор добавил поддержку NLAE в последней версии.

Лично я пользуюсь такой связкой каждый день. Когда модель непонятно что отвечает — я не гадаю, а просто захожу в UI и смотрю на ее «мысли». Это превращает разработку AI-приложений из шаманства в инженерию. И да, все работает локально, без отправки данных наружу — как я и люблю.

Подписаться на канал

Natural Language Autoencoders от Anthropic: как разобрать нейросеть на кирпичики и запустить это дома через UI на llama.cpp