Safetensors в PyTorch Foundation: безопасность моделей под защитой

24 мая 2026 года стало известно, что формат safetensors, разработанный Hugging Face для безопасной сериализации тензоров, официально переходит под крыло PyTorch Foundation. Если вы никогда не слышали о safetensors — вы наверняка загружали модели, которые его используют. Этот формат уже давно стал де-факто стандартом в индустрии, но его переход в нейтральную управляющую структуру меняет правила игры.

Звучит как бюрократическая мелочь? На деле — это щит от эпидемии вредоносных моделей, которая захлестнула Hugging Face в прошлые годы. Когда каждый второй репозиторий мог оказаться инфостилером под видом нейросети (помните тот случай с privacy-filter?), сообщество поняло: pickle-форматы должны умереть.

Коротко: safetensors — это файл, в котором хранятся веса модели. В отличие от .bin (pickle), safetensors не может содержать произвольный код и не выполняет никаких системных команд при загрузке. Плюс zero-copy — читается быстрее.

Почему это случилось только сейчас?

Hugging Face долго держал формат у себя. Логика понятна: safetensors — гордость команды, конкурентное преимущество. Но после череды скандалов с вредоносными моделями, когда VirusTotal пришлось подключать к модерации, стало ясно — доверие к платформе требует независимой сертификации формата.

Переход в PyTorch Foundation решает три ключевые проблемы:

Политическая нейтральность — теперь формат не привязан к одной компании. Любой вендор может внедрять его без страха, что Hugging Face изменит лицензию.
Стандартизация — Foundation будет выпускать спецификации, проводить аудит и гарантировать обратную совместимость. Больше никаких «а у меня модель не загружается, потому что safetensors 0.8.0 не совместим с 1.0.0».
Безопасность — Foundation берет на себя ответственность за ревью кода и закрытие уязвимостей. В 2025 году при fine-tuning случайное использование pickle-весов могло привести к полной компрометации кластера.

Zero-copy: не просто безопасность, а скорость

Когда говорят о safetensors, обычно вспоминают только отсутствие удаленных вызовов exec(). Но техническое преимущество формата не менее важно. Благодаря memory-mapped I/O, модель можно загрузить напрямую из файла без копирования в ОЗУ. Для больших моделей (Llama 3.5, 70B+ параметров) это экономия минут на каждой итерации.

В PyTorch Foundation обещают интегрировать safetensors в ядро PyTorch уже к осени 2026. Это значит, что torch.load() для safetensors будет работать «из коробки», без отдельной установки библиотеки safetensors. Для тех, кто пишет свой пайплайн на Transformer Lab for Teams, это упростит деплой на порядок.

Важный нюанс: старые модели, сохранённые в формате .bin, не исчезнут. Но PyTorch Foundation рекомендует конвертировать их с помощью утилиты safetensors_convert — её обновили до версии 2.2.0 в мае 2026. Процесс занимает несколько минут даже для 50-гигабайтных чекпоинтов.

А что с сообществом?

Реакция разработчиков — от сдержанного оптимизма до эйфории. Почему сдержанного? Потому что Foundation уже не раз критиковали за медленное принятие решений. Однако в случае с safetensors у них есть чёткий план: до конца 2026 года выпустить RFC на версию 2.0 формата с поддержкой потоковой загрузки и частичной десериализации (нужно для моделей с весами в сотни гигабайт).

Линус Торвальдс однажды сказал: «Безопасность через изоляцию лучше безопасности через сложность». Safetensors — идеальный пример первого подхода. Вместо того чтобы пытаться обезопасить pickle (что невозможно), они просто заменили его на формат, в котором нечего выполнять.

Для экосистемы это означает долгожданное снижение порога входа. Новичкам больше не нужно задумываться: «А не запущу ли я вирус, скачав чужой чекпоинт?». Sentence Transformers уже перешёл на safetensors по умолчанию в версии 3.2. Скоро подтянутся все остальные.

Что будет через год?

Прогноз простой: к 2027 году доля pickle-форматов на Hugging Face упадёт ниже 5%. PyTorch Foundation стимулирует авторов моделей к переходу, вводя «значок безопасности» в карточке модели. Аналогичную программу запустили для TensorFlow Lite — на edge-устройствах это особенно критично, так как патч вредоносной модели на устройстве обнаружить почти невозможно.

Опасность остаётся только одна — человеческая лень. Если разработчики продолжат грузить старые чекпоинты через torch.save() без конвертации, угроза сохранится. Но теперь у сообщества есть формальный аргумент: «Вы что, не видите, что это под управлением Foundation? Конвертируйте, это безопасно».

Safetensors стал частью большой инфраструктуры. И это правильно. Безопасность в ML должна быть не опцией, а стандартом. И похоже, индустрия наконец-то это осознала.

Подписаться на канал

Safetensors присоединяется к PyTorch Foundation: что это значит для безопасности моделей и экосистемы

Почему это случилось только сейчас?

Zero-copy: не просто безопасность, а скорость

А что с сообществом?

Что будет через год?

Подписывайтесь на наш канал!