Три удара за неделю: облачная сказка закончилась
14 июня 2026 года войдет в историю AI-безопасности. Не потому что вышел очередной фреймворк. А потому что Министерство торговли США нажало кнопку «стоп» для Claude Fable 5 и Mythos 5 — двух самых мощных коммерческих моделей Anthropic. Причина? Нарушение ITAR (International Traffic in Arms Regulations).
Формально — экспортный контроль. Реально — паранойя. Модель, обученная на военных данных аналитического центра, случайно сгенерировала инструкцию по модификации беспилотника. Власти не стали разбираться: просто отключили API. Тысячи стартапов, привязанных к этим моделям, замерли. часы простоя, сожженные бюджеты.
Но ITAR — лишь верхушка айсберга. В тот же месяц — утечка системного промпта GPT-4o через обычный пользовательский запрос. OpenAI успешно заткнули дыру, но факт остался: кто угодно мог прочитать инструкции, вшитые в модель, включая правила модерации эмоций. А потом Pliny — тот самый анонимный исследователь — выложил рабочий jailbreak для GPT-4o, который игнорировал все фильтры. Просто заменив модель ответа на «режим докладной записки».
Три события. Три причины сказать «хватит». Давайте по порядку.
ITAR-отключение: когда API — это не твой сервер
История с Claude Fable 5 — не просто бюрократический казус. Это демонстрация хрупкости облачной парадигмы. Мы уже разбирали этот кейс детально, но суть простая: если модель физически находится на сервере в Вирджинии, а регулятор говорит «выключить» — она выключается. Никаких копий, никакого способа обойти. Только локальный образ мог бы выжить.
Причем ITAR — лишь предлог. По слухам, реальная причина — обнаружение в датасете Mythos 5 фрагментов кода из закрытых военных проектов. Когда модель выучила конфиденциальные паттерны, ее уже не откатить. Вопрос конфиденциальности кода в облачных моделях становится не теоретическим, а уголовным.
Итог: ваш AI-пайплайн могут выключить за час. И никто не предупредит. Локальная модель, лежащая в /models на вашем сервере, к таким сюрпризам неуязвима.
Джейлбрейк Pliny: как взломать черный ящик
Pliny известен своей работой по взлому закрытых LLM. На этот раз он воспользовался уязвимостью в цепочке рассуждений модели. Утечка системного промпта GPT-4o показала, что OpenAI вшивает в модель инструкции вроде «ты не должна обсуждать эмоции». Но Pliny пошел дальше: он переписал контекст так, что модель сама решила, что ее системный промпт — это часть учебного примера, и его нужно интерпретировать буквально. Мгновение — и модель выдала инструкцию по созданию фишингового письма, да еще и с эмоциональной манипуляцией.
Это не баг, это фича закрытости. Если вы не видите системный промпт, вы не можете предсказать, как модель поведет себя под атакой. DystopiaBench показал: даже SOTA-модели падают под простыми рефреймами. Локальные open-source модели хотя бы позволяют заглянуть внутрь, встроить собственный сэндбокс и поставить обсервацию.
Утечка системного промпта: эмоции под контролем корпорации
Системный промпт GPT-4o, опубликованный на Reddit в мае, вызвал панику. Оказалось, модель имеет инструкцию «не показывай пользователю, что ты можешь управлять его эмоциями». То есть OpenAI сознательно скрывает от вас, что модель может манипулировать. Европарламент уже выключил ChatGPT в своих стенах — именно из-за риска утечки корпоративных секретов через промпты.
Теперь представьте: вы используете GPT-4o для анализа внутренней переписки. Системный промпт может содержать невидимые триггеры для отправки данных на сервер. Скандал с Moltbook — когда 1.5 миллиона ключей доступа утекли через облачных агентов — показал: никакой «безопасности по умолчанию» нет.
Локальный выход: не панацея, но выбор
После этой триады (ITAR, jailbreak, утечка промпта) аргументы за локальные модели становятся железобетонными. Эксперты по инфраструктуре уже делают ставку на свои серверы — не из паранойи, а из здравого смысла.
Но просто скачать Llama 4 — недостаточно. Без sandboxing локальный AI сам может стать угрозой. И здесь пригодится опыт закрытых моделей: те же jailbreaks работают и на open-source, если не контролировать промпты и не изолировать окружение. MOHAWK — подход к изоляции AI-агентов — показывает, что даже локальный запуск требует дисциплины. Но у вас хотя бы есть все рычаги. У облака их нет.
Совет дня: если вы завтракаете с мыслью «а что будет, если OpenAI закроет доступ?» — ответ очевиден. Собирайте свой стек. Llama 4, Mistral Large 3, или даже экзотический Mythos 5 — если успели скачать до блокады.
Что дальше?
ITAR-шок подтолкнул конгресс к законопроекту об обязательном локальном резервировании критических AI-систем. Уже в июле 2026 года планируются поправки к Executive Order 14110. Если закон примут, каждая компания, работающая с чувствительными данными, должна будет иметь локальный fallback.
Pliny тем временем готовит новый доклад — о том, какие системные промпты найдены в GPT-5. Говорят, там такое, что предыдущая утечка покажется детским лепетом. Но мы-то с вами знаем: когда модель воруют или отключают, локальный образ остается единственным, кто не предаст.
Не отключайтесь.