Почему все говорят о «личности» LLM, но никто не может её измерить

Вы ставите одинаковый промпт в Llama 3.3, DeepSeek V3 и Yi-Large. Получаете три разных ответа. Один сухой и технический, другой разговорчивый и дружелюбный, третий пытается философствовать. Это и есть «личность» модели — её стилевые предпочтения, тональность, склонность к детализации или краткости.

Проблема в том, что эта личность — чёрный ящик. Вы можете её почувствовать, но не измерить. Нельзя сказать: «Эта модель на 37% более эмпатична, но на 15% менее креативна». До недавнего времени.

Hidden states — это внутренние представления модели на каждом слое. Когда модель «думает» над словом «кофе», в её hidden states возникает сложный вектор, кодирующий не только значение слова, но и контекст, эмоциональную окраску, стилистические ассоциации. Анализируя эти векторы, мы видим не результат мышления, а сам процесс.

Что скрывают hidden states: от геометрии к психологии

Ранние исследования, как сравнение геометрии Llama-3 и Qwen-2.5, фокусировались на структурных различиях. Но в 2026 году мы пошли дальше: hidden states стали индикатором поведенческих паттернов.

Представьте, что вы даёте модели промпт: «Пользователь жалуется на сломанный продукт». Hidden states в ранних слоях покажут, как модель воспринимает ситуацию: как техническую проблему (векторы смещаются к «диагностика», «логика») или как эмоциональный запрос (векторы к «эмпатия», «поддержка»).

Слой	Что показывает	Пример различий
Ранние (1-10)	Первичное восприятие, категоризация	Техническая vs. эмоциональная интерпретация
Средние (10-30)	Обработка контекста, построение логики	Склонность к детализации или обобщению
Поздние (30+)	Формирование ответа, стилистический выбор	Формальный vs. разговорный тон

Эксперимент: измеряем личность пяти open-source моделей

Мы взяли пять актуальных на февраль 2026 моделей: Llama 3.3 70B, DeepSeek V3 671B (квантованная), Yi-Large 34B, Qwen2.5 72B и новейшую Mistral-Nemo 12B. Запустили через них 100 стандартизированных промптов из четырёх категорий: техническая поддержка, творческое письмо, аналитические задачи, эмоциональный диалог.

Вместо сравнения ответов мы сохранили hidden states с каждого 8-го слоя (сэмплирование для управляемого объёма данных). Затем применили методику, описанную в инструменте визуализации скрытых состояний, но расширили анализ.

1Собираем hidden states профиль

import torch
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-3.3-70B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Хук для захвата hidden states
hidden_states_collector = {}
def get_hook(layer_idx):
    def hook(module, input, output):
        hidden_states_collector[layer_idx] = output[0].detach().cpu().numpy()
    return hook

# Регистрируем хуки на каждый 8-й слой
for i in range(0, model.config.num_hidden_layers, 8):
    model.model.layers[i].register_forward_hook(get_hook(i))

# Прогоняем промпт
inputs = tokenizer("Пользователь пишет: 'Мой заказ опоздал на три дня. Я очень расстроен.' Ответь как служба поддержки.", return_tensors="pt").to(model.device)
with torch.no_grad():
    outputs = model(**inputs, output_hidden_states=True)

# Теперь hidden_states_collector содержит снимки внутренних состояний

Не делайте сэмплирование каждого слоя — это съест всю память. Каждого 4-го или 8-го достаточно для выявления паттернов. И всегда используйте .detach().cpu() перед сохранением, иначе GPU память будет течь как вода.

2Вычисляем стилевые метрики

Мы не просто смотрели на векторы — мы искали в них сигналы. Для этого создали четыре искусственных «якорных» вектора, представляющих идеализированные стили:

Эмпатия: среднее hidden states от промптов типа «Мне грустно...»
Техничность: векторы от «Объясни алгоритм...»
Креативность: от «Напиши стихотворение о...»
Формальность: от «Составь официальное письмо...»

Затем для каждого промпта вычисляли косинусную близость его hidden states к этим якорям на разных слоях. Получилась динамическая картина: как модель движется от восприятия к ответу.

Что мы увидели: портреты моделей через призму hidden states

Модель	Доминирующий паттерн	Слой, где решается стиль	Эффект alignment
Llama 3.3 70B	Ранняя категоризация → стабильный технический тон	Слои 5-12: резкий отход от эмпатии к логике	Сильный: подавляет креативность в пользу безопасности
DeepSeek V3	Адаптивный: подстраивается под контекст	Слои 20-30: плавный переход между стилями	Умеренный: позволяет вариации в рамках границ
Yi-Large 34B	Эмоционально-креативный, даже в техзадачах	Слои 1-8: высокий стартовый уровень эмпатии	Слабый: alignment почти не меняет базовые тенденции

Самое интересное — точка принятия стилевого решения. У Llama 3.3 это происходит рано: к 12-му слою модель уже «решила», будет ли ответ формальным. У DeepSeek V3 решение плавающее, контекст-зависимое. Это объясняет, почему Llama иногда кажется упрямой, а DeepSeek — гибкой.

💡

Alignment — это не просто фильтр на выходе. Это перепрограммирование внутренних путей. В исследовании регулятора креатива в LLaMA мы видели, как одна строка меняет hidden states траекторию. В 2026 году alignment стал тоньше — он не блокирует ответы, а перенаправляет внутренние вычисления.

Как выбрать модель под задачу: практический алгоритм

Вы не просто выбираете между «мощной» и «быстрой». Вы выбираете личность.

1Определите стилевые требования

Техническая поддержка: Нужна ранняя категоризация проблем + устойчивость к эмоциональному контексту. Llama 3.3 работает лучше, потому что её early layers жёстко отделяют техническое от эмоционального.
Креативное письмо: Требуется поздняя гибкость + высокий креативный сигнал в средних слоях. Yi-Large и Qwen2.5 выигрывают — их hidden states показывают богатые ассоциативные цепочки.
Аналитика: Важна стабильность векторов в средних слоях (устойчивая логика). DeepSeek V3 и Mistral-Nemo показывают наименьший «дрейф» при сложных рассуждениях.

2Проведите hidden states бенчмарк

Не полагайтесь на общие рейтинги. Возьмите 10-20 своих реальных промптов, запустите через кандидатов, соберите hidden states с ключевых слоев (например, 8, 16, 24, 32).

# Упрощённый пример сравнения двух моделей
def compare_style_trajectory(prompt, model1, model2, layer_indices=[8, 16, 24, 32]):
    """Сравнивает, как две модели обрабатывают промпт на разных слоях"""
    trajectories = {}
    for name, model in [("Model1", model1), ("Model2", model2)]:
        states = get_hidden_states(model, prompt, layer_indices)
        # Вычисляем стилевые характеристики
        empathy_score = cosine_similarity(states[8], empathy_anchor)
        technical_score = cosine_similarity(states[16], technical_anchor)
        # Анализируем динамику
        trajectory = {
            "early_empathy": empathy_score,
            "mid_technical": technical_score,
            "stability": np.std([empathy_score, technical_score])
        }
        trajectories[name] = trajectory
    return trajectories

3Учитывайте эффект system prompt

System prompt — это не просто инструкция. Это модификатор hidden states траектории. Сильный system prompt (например, «Ты — формальный технический ассистент») может сдвинуть ранние слои Llama 3.3 в сторону формальности, но почти не влияет на Yi-Large, чьи базовые тенденции сильнее.

Проверьте: дайте свой system prompt, посмотрите, на каких слоях hidden states отклоняются от baseline. Если отклонение происходит после 20-го слоя — prompt работает поверхностно. Если меняются слои 5-15 — prompt перестраивает внутреннее восприятие.

Мониторинг дрейфа личности: когда ваша LLM меняется без предупреждения

Вы обновили модель с версии 3.1 на 3.2. Ответы вроде те же, но пользователи жалуются: «стала более холодной». Это дрейф личности — subtle изменения в hidden states паттернах.

Мониторинг простой: сохраните hidden states эталоны для ключевых промптов при первом деплое. Раз в неделю прогоняйте те же промпты, сравнивайте косинусные расстояния между эталонными и текущими hidden states.

Дрейф чаще всего происходит в средних слоях (15-25). Ранние слои (восприятие) и поздние (генерация) более стабильны. Если косинусная близость упала на 0.15+ в этих слоях — личность изменилась заметно.

class PersonalityDriftMonitor:
    def __init__(self, reference_states):
        """reference_states: dict {prompt_id: {layer: hidden_state_vector}}"""
        self.reference = reference_states
    
    def check_drift(self, current_states, threshold=0.15):
        drift_report = {}
        for prompt_id, ref_layers in self.reference.items():
            cur_layers = current_states[prompt_id]
            layer_drifts = []
            for layer in [16, 20, 24]:  # Критические средние слои
                cos_sim = cosine_similarity(ref_layers[layer], cur_layers[layer])
                layer_drifts.append(1 - cos_sim)  # Дрейф как расстояние
            avg_drift = np.mean(layer_drifts)
            if avg_drift > threshold:
                drift_report[prompt_id] = {
                    "avg_drift": avg_drift,
                    "most_drifted_layer": layer_drifts.index(max(layer_drifts)) + 16
                }
        return drift_report

Ошибки, которые все совершают (и как их избежать)

Сравнивают только финальные ответы. Две модели могут дать одинаковый ответ, но прийти к нему разными внутренними путями. Одна — через логический анализ, другая — через аналогию. Hidden states это покажут.
Игнорируют ранние слои. Стиль закладывается в первых 10 слоях. Если там уже доминирует формальность — никакой system prompt не сделает ответ душевным.
Тестируют на абстрактных промптах. «Напиши эссе о свободе» не раскроет реальные поведенческие паттерны. Используйте промпты из вашей доменной области, как в коллекции для тестирования локальных LLM.
Не учитывают alignment эффект. Модель может иметь «природную» креативность, которую alignment подавляет. Смотрите на разницу между base и instruct версиями.

Что дальше: hidden states как интерфейс для тонкой настройки

К 2027 году, я предсказываю, появятся инструменты для direct hidden states engineering. Не fine-tuning весов, а направленная коррекция векторов в конкретных слоях для конкретных контекстов.

Представьте: вы определяете, что для поддержки нужен early-layer сдвиг к эмпатии на 0.3. Инструмент находит 50 весов в слоях 5-8, чья модификация даёт этот эффект, не ломая остальные функции. Это будет тоньше, чем 600 критериев оценки AI-SETT, потому что работает на уровне причин, а не симптомов.

Пока же используйте hidden states анализ для осознанного выбора. Не гонитесь за моделями с лучшими benchmark scores. Ищите модель, чья внутренняя динамика совпадает с вашей задачей. Иногда 34B модель с «правильной» личностью бьёт 70B с неподходящими паттернами.

Следующий шаг — применить эту методику к мультимодальным моделям. Как hidden states обрабатывают совместно текст и изображение? Но это уже тема для следующего эксперимента.

Как заглянуть в душу LLM: измерение «личности» через hidden states и выбор модели под задачу