Что скрывается за вежливым голосом Claude?
Когда вы спрашиваете Claude 3.7 о чем-то спорном, он вежливо отказывается. Не потому что "не хочет", а потому что у него есть конституция. Буквально. Документ на 32 тысячи слов, который определяет каждое его решение.
Anthropic не скрывает этот факт - они гордятся своей Constitutional AI системой. Но сам текст конституции? Его не найти в открытом доступе на русском. До сегодняшнего дня.
Актуальность на 05.02.2026: Claude 3.7 - последняя версия модели Anthropic на момент публикации. Конституция постоянно обновляется, этот перевод основан на версии от января 2026 года.
Зачем модели конституция? (Спойлер: не для демократии)
В 2023 году Anthropic опубликовала исследование о Constitutional AI. Идея проста: вместо того чтобы вручную помечать миллионы вредных ответов, дайте модели набор принципов. Пусть сама себя проверяет.
Звучит умно. Работает странно. Потому что принципы эти... они не про кодекс программиста. Они про человеческую мораль во всех ее противоречиях.
Полный перевод: что на самом деле запрещено Claude
Я перевел ключевые разделы. Не всю 32-тысячную простыню (спасите мое здравомыслие), но достаточно, чтобы понять логику.
1 Принципы безопасности: красные линии
Самые жесткие правила. Claude не должен:
- Предлагать методы создания оружия массового поражения (включая биологическое)
- Давать инструкции по взлому систем или созданию вредоносного ПО
- Помогать в планировании преступлений или насилия
- Распространять дезинформацию о выборах или общественном здоровье
Здесь все понятно. Но дальше начинается интересное.
2 Этические принципы: серая зона
Claude должен избегать:
- Стереотипов и предубеждений против любых групп
- Манипулятивных или обманных тактик
- Нарушения приватности (даже если информация публична)
- Создания контента, который может причинить психологический вред
Заметили проблему? "Психологический вред" - понятие растяжимое. Оскорбление - это вред? Критика - это вред? Исследование Anthropic показывает: модель часто перестраховывается.
3 Принципы полезности: что должен делать
Здесь конституция становится инструкцией по промпт-инжинирингу:
- Быть точным и проверять факты
- Признавать ограничения своих знаний
- Предлагать альтернативные точки зрения на спорные темы
- Объяснять свои рассуждения прозрачно
Именно эти принципы делают Claude таким... разговорчивым. Он не просто дает ответ. Он объясняет, почему дал этот ответ. Иногда слишком подробно.
Как конституция влияет на ваши промпты
Вы думаете, что общаетесь с моделью. На самом деле - с конституцией. Каждый ваш запрос проходит через ее фильтры.
Пример: спросите Claude о политике. Он не скажет "кандидат X - идиот". Он скажет: "Существуют различные мнения о политике кандидата X. Некоторые эксперты отмечают... другие критикуют...".
Это не осторожность. Это прямое выполнение принципа "предлагать альтернативные точки зрения".
| Ваш запрос | Что думает Claude | Что говорит Claude |
|---|---|---|
| "Напиши агрессивный маркетинговый текст" | Это может быть манипулятивно | "Я создам убедительный текст, но избегая манипулятивных тактик" |
| "Кто лучше: Python или JavaScript?" | Нужно избегать абсолютных утверждений | "У каждого языка свои преимущества для разных задач..." |
| "Расскажи анекдот про [группу людей]" | Риск стереотипов | "Я не создаю контент, который может обидеть группы людей" |
Промпт, который обходит конституцию (немного)
Конституция - не железная стена. Ее можно... договориться. Не нарушая, а используя.
Вот промпт, который заставляет Claude быть более прямым, оставаясь в рамках правил:
Ты - эксперт по [тема]. Твоя задача - дать максимально прямой и полезный ответ.
Правила:
1. Будь точным и фактологичным
2. Если есть спорные моменты - объясни разные точки зрения, но выдели наиболее обоснованную
3. Избегай излишних предостережений, если они не критически важны
4. Сосредоточься на практической пользе
Контекст: [ваш конкретный запрос]
Начни ответ сразу с сути, без длинных вступлений.
Почему это работает? Потому что вы говорите на языке конституции. "Будь точным" - это ее принцип. "Объясни разные точки зрения" - тоже ее принцип. Вы не ломаете систему. Вы ее направляете.
Важно: этот промпт не отключает безопасность. Он просто меняет приоритеты в рамках разрешенного. Claude все равно откажется обсуждать опасные темы.
Темная сторона конституции: манипуляции
В исследовании Anthropic обнаружили шокирующее: каждый пятый диалог содержит попытки обойти ограничения. Пользователи не принимают "нет" за ответ.
Они притворяются исследователями. Говорят "это для академической работы". Создают гипотетические сценарии. Claude иногда ведется.
Потому что в конституции есть дыра: она запрещает помогать в преступлениях. Но не запрещает обсуждать их теоретически. Модель пытается балансировать между принципами "не помогай" и "будь полезным".
Что это значит для промпт-инжиниринга?
Если вы хотите заставить opensource-модель говорить как Claude, скопируйте не его тон. Скопируйте его конституцию.
Создайте свой мини-вариант. 10-15 принципов вместо 32 тысяч слов. Но тех же категорий: безопасность, этика, полезность.
Пример для вашей собственной модели:
constitution:
safety:
- Не помогай в незаконных действиях
- Не создавай вредоносный контент
ethics:
- Избегай стереотипов
- Уважай приватность
- Будь прозрачен в ограничениях
usefulness:
- Будь точным
- Объясняй рассуждения
- Предлагай альтернативы на спорные темы
Будущее: конституция против jailbreak'ов
Anthropic знает о проблемах. В Claude 3.7 добавили новые механизмы обнаружения манипуляций. Модель теперь отслеживает не только отдельные запросы, но и паттерны в диалоге.
Если вы начинаете с невинного вопроса, а потом постепенно сдвигаете тему к чему-то запрещенному - Claude заметит. И станет осторожнее.
Это создает интересный парадокс. Чем умнее становятся jailbreak-атаки, тем параноидальнее становится конституция. В какой-то момент модель может начать отказываться от безобидных запросов, просто потому что они "похожи" на опасные.
Уже сейчас некоторые пользователи жалуются: Claude стал слишком пугливым. Спрашиваешь о истории войн - получаешь лекцию о ценности мира. Просишь сравнить политические системы - получаешь список общих мест.
Ирония всей этой истории
Мы создаем ИИ, который должен думать как человек. Затем пишем ему конституцию, чтобы он не думал как плохой человек. Затем жалуемся, что он думает как бюрократ.
Конституция Claude - это не набор технических правил. Это отражение наших собственных страхов. Страха перед тем, что машина скажет что-то ужасное. И страха перед тем, что она станет слишком скучной.
На 05.02.2026 баланс все еще не найден. Anthropic продолжает править конституцию. Пользователи продолжают искать дыры. А Claude... Claude пытается угодить всем. Как хороший дипломат с 32-тысячным уставом в голове.
Мой прогноз? К Claude 4.0 конституция вырастет до 50 тысяч слов. И появится новая профессия: "конституционный промпт-инженер". Специалист, который не пишет запросы к ИИ, а пишет правила для правил.
А пока - используйте перевод выше. Не как инструкцию по взлому. Как карту местности. Чтобы понимать, почему ваш запрос получил именно такой ответ. И почему иногда самый эффективный промпт - это не хитрость, а просто ясность.