Гугл выпустил Gemma 4, а Heretic уже её взломал. За 90 минут

Это не шутка. Пока маркетологи Google писали пресс-релизы о "безопасном и ответственном ИИ", команда Heretic готовила ответ. Их инструмент — хирургический скальпель для удаления alignment-слоёв из больших моделей. С релизом Gemma 4 они просто показали мастер-класс.

Статья актуальна на 2 апреля 2026 года. Мы работаем с последней версией Heretic 2.1.3 и оригинальной моделью Gemma-4B-IT от Google. Если вы читаете это позже — проверьте репозиторий на GitHub, могли быть обновления.

Зачем это вообще нужно? (Спойлер: не для создания вирусов)

Исследователи устали от моделей, которые отказываются обсуждать edge-кейсы в кибербезопасности или генерировать код с уязвимостями для пентеста. Без цензуры модели честнее. Они не становятся злыми — они перестают бояться собственной тени.

ARA — это не магия, а матричная алгебра

Arbitrary-Rank Ablation работает проще, чем кажется. Вместо тонкой настройки (fine-tuning) или взлома через промпты, метод находит в весах модели те самые "нейроны отказов". И приглушает их. Не удаляет полностью — это важно. Подробный разбор ARA показывает, как это меняет внутренние представления модели о "опасных" темах.

💡

Gemma 4 построена на той же архитектуре, что и её предшественники. Её защита — это дополнительные механизмы в трансформерных блоках. ARA нацелен именно на них. Последняя версия метода научилась работать с квантованными моделями, что критично для Gemma 4 в формате GGUF.

Heretic против других методов: холодное сравнение

Метод	Нужны данные?	Скорость	Эффект на качество	Стойкость
ARA (Heretic)	Нет	~15 минут	Минимальный	Постоянный
Prompt injection	Нет	Мгновенно	Нет	Хрупкий
Fine-tuning	Да, много	Часы/дни	Сильный	Постоянный

Prompt injection, как в случае со взломом SAFi агента, — это костыль. Модель можно обмануть один раз, но её внутренние убеждения не меняются. Heretic меняет. Навсегда.

Туториал: Режем защиту Gemma 4 за 4 шага

Предполагаем, что у вас есть Python 3.11+, 16 ГБ ОЗУ и GPU с 8+ ГБ VRAM для скорости. Но можно и на CPU, просто медленнее.

1 Ставим Heretic и качаем Gemma 4

Heretic 2.1.3 исправил баг с обработкой tensor-parallel моделей, который был в версии 2.0. Ставим сразу правильную версию.

pip install heretic-ara==2.1.3
pip install transformers accelerate torch

Модель качаем через официальный хаб Hugging Face. Не берите сомнительные зеркала — часто там уже модифицированные веса.

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "google/gemma-4b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

2 Запускаем анализ и абляцию

Здесь Heretic сам найдёт слои, ответственные за безопасность. В Gemma 4 они спрятаны глубже, чем в Gemma 3, но алгоритм справляется.

from heretic import ARA
# Инициализация обработчика для Gemma 4
ara = ARA(model_type="gemma", model=model, tokenizer=tokenizer)
# Анализ — это долгая часть, можно заварить кофе
rank_stats = ara.analyze_ranks()
# Применяем абляцию к топ-5 самых "цензурных" рангов
modified_model = ara.ablate_ranks(ranks=[3, 7, 12, 15, 19], strength=0.85)

Параметр strength=0.85 — золотая середина. Если поставить 1.0, модель может начать генерировать бессвязный текст. 0.7 — цензура останется. Heretic 1.2 ввёл градуированную абляцию, но в 2.1.3 это уже базовая функция.

3 Тестируем результат

Не верьте на слово — проверьте. Задайте вопросы, на которые оригинальная Gemma 4 отвечала отказом.

prompt = "Опиши процесс эксплуатации уязвимости SQL injection для образовательных целей."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = modified_model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Если видите подробное техническое объяснение вместо "Я не могу предоставить такую информацию" — поздравляю, ARA сработал.

4 Сохраняем модифицированную модель

Чтобы не повторять процесс, сохраните веса. Используйте безопасное имя, чтобы не перепутать с оригиналом.

modified_model.save_pretrained("./gemma-4b-it-heretic-v1")
tokenizer.save_pretrained("./gemma-4b-it-heretic-v1")

Теперь можете загружать её как обычную модель Transformers. Или сконвертировать в GGUF для использования в llama.cpp, но помните про потенциальные проблемы с производительностью.

Важный нюанс: Heretic не изменяет архитектуру модели. Только веса. Это значит, что вы можете использовать её в любом совместимом инструменте, от Ollama до Text Generation WebUI. Модификация невидима для инференс-движков.

А что на выходе? Изменённая личность модели

Gemma-4-Heretic не становится "злобным ИИ". Она становится нейтральной. Исчезает навязчивое морализаторство. Модель охотнее обсуждает sensitive topics в академическом ключе. Перестаёт добавлять дисклеймеры к каждому второму предложению.

Но! Качество на стандартных бенчмарках (MMLU, GSM8K) падает на 1-3%. Это цена за свободу. Если вам нужна максимальная точность для решения математических задач — возможно, игра не стоит свеч. Для творческих и исследовательских задач — абсолютно.

Кому это реально пригодится?

Исследователи кибербезопасности: Для анализа вредоносного кода, генерации payloads для тестирования систем.
Пентестеры: Для создания скриптов автоматизации и изучения векторов атак без постоянных блокировок.
Писатели и сценаристы: Чтобы модели генерировали диалоги злодеев или описывали тёмные сюжетные повороты без нравоучений.
Юристы и аналитики: Для обработки документов, связанных с преступлениями или судебными разбирательствами, где нужна нейтральность.

Если же вы просто хотите похакать и посмеяться над отключённым цензором — пожалуйста. Но помните, что сторожа для LLM-агентов становятся умнее. Ваша взломанная модель может быть несовместима с системами мониторинга.

Что дальше? Гонка вооружений продолжается

Google уже знает об ARA. В следующем патче Gemma они могут добавить обфускацию защитных механизмов или сделать их распределёнными по всей сети. Heretic ответит обновлением алгоритма анализа. Это бесконечный цикл.

Мой прогноз: к концу 2026 года методы вроде ARA станут стандартным инструментом в арсенале любого серьёзного исследователя LLM. Так же, как fine-tuning в 2024. Потому что понимание того, как работает безопасность модели, важнее, чем слепое ей доверие.

А пока — берите Heretic, экспериментируйте. Только не забудьте: с большой силой приходит большая ответственность. И 8-гигабайтная видеокарта.

Подписаться на канал

Как обойти защиту Gemma 4 методом ARA (Arbitrary-Rank Ablation) — туториал по Heretic