Новый закон об ИИ в России: обучение на чужом контенте легально

Проблема: обучение ИИ - это воровство?

До 2026 года каждый российский разработчик, собиравший датасет из открытого интернета, балансировал на грани уголовного дела. Скачал тысячу статей с «Хабра» для тренировки GPT-модели? Поздравляю, вы потенциальный нарушитель авторских прав. Использовал код с GitHub для обучения Codex? Авторы могут подать в суд, как это уже происходит на Западе. Ситуация была абсурдной: технологии развивались экспоненциально, а законы писались в эпоху динозавров.

Недавние иски в США, где авторы массово судились с компаниями ИИ, показали масштаб проблемы. В России же неопределенность тормозила вообще все - от стартапов до исследований в вузах.

Что разрешает новый закон: читайте мелкий шрифт

С 1 января 2026 года в России вступила в силу новая глава в законе «Об искусственном интеллекте». Если коротко: обучение ИИ на общедоступных произведениях без цели их воспроизведения теперь легально. Но, как всегда, дьявол в деталях.

Что можно	Что нельзя	Условия
Сбор текстов, изображений, кода из открытых источников	Использование данных, доступных по подписке или паролю	Источник должен быть общедоступным на момент сбора
Тренировка моделей для генерации нового контента	Прямое копирование или репродукция оригиналов	Исключена прямая идентификация исходного произведения
Коммерческое использование обученной модели	Использование персональных данных без согласия	Правообладатель может потребовать исключить свои данные

💡

Ключевое понятие - «общедоступность». Если сайт индексируется поисковиками и не требует авторизации для просмотра контента - он общедоступен. Закрытый форум, Telegram-канал по инвайту или платная статья - нет. Это первое, на что смотрит Роскомнадзор при проверке.

Пошаговый план: как не сесть в тюрьму за датасет

1Аудит источников данных

Составьте таблицу всех источников, из которых собираете данные. По каждому пункту ответьте: требует ли ресурс регистрации, платит ли пользователь за доступ, есть ли в robots.txt запрет на сканирование? Если хотя бы на один вопрос «да» - исключайте источник. Не надейтесь на «авось не заметят». Алгоритмы Роскомнадзора уже умеют находить такие заимствования, о чем подробно писали в статье про ИИ-плагиат.

2Фильтрация персональных данных

Здесь закон непреклонен. ФИО, номера телефонов, адреса электронной почты, паспортные данные должны быть удалены из датасета до начала обучения. Используйте NER-модели (например, навыки работы с которыми дают на курсах для разработчиков) или готовые библиотеки типа Presidio. Хранить «сырые» логи с персональными данными для «потенциального будущего использования» - прямой путь к штрафу по 152-ФЗ.

Ошибка новичков: думать, что публикация данных пользователем в соцсети делает их свободными для использования. Это не так. Согласно позиции РКН на 2026 год, персональные данные остаются под защитой, даже если выложены в открытый доступ.

3Ведение реестра использованных произведений

Закон обязывает вести журнал, где фиксируются URL исходного материала, дата сбора и хеш-сумма контента. Это нужно на случай, если правообладатель предъявит претензию. Технически реализуйте это как часть пайплайна сборки датасета. Не храните это в Excel на ноутбуке разработчика. Используйте базу данных с историей изменений.

4Настройка механизма «забывания»

Если автор книги найдет, что его текст использован для обучения, он имеет право потребовать исключить свое произведение из будущих тренировок. Вы должны предусмотреть техническую возможность удалить данные из уже обученной модели. На практике это сложно, но закон требует. Решение - версионирование моделей и возможность отката до checkpoint, созданного до добавления «спорных» данных.

5Валидация выходов модели

Ваша модель после обучения не должна генерировать куски текста, дословно совпадающие с исходными произведениями. Реализуйте проверку на этапе инференса. Это не только юридическое требование, но и защита от Model Collapse - явления, когда ИИ начинает копировать сам себя, деградируя.

Персональные данные: красная линия, которую нельзя пересекать

Отдельный кошмар разработчика - это 152-ФЗ «О персональных данных». Новый закон об ИИ не отменяет его. Если в вашем датасете есть даже косвенные признаки, позволяющие идентифицировать человека, - это персональные данные. Сюда входят никнеймы в соцсетях, геолокация, история покупок (если их можно привязать к лицу).

Анонимизация - единственный выход. Но не псевдонимизация (замена имени на код), а именно полное удаление или агрегация данных до уровня, когда восстановление личности невозможно. Используйте дифференциальную приватность или синтетическую генерацию данных для тренировки.

Ошибки, которые сделают вас ответчиком в суде

Игнорирование лицензий Open Source кода. Да, закон разрешает обучение, но лицензия MIT или GPL на конкретный репозиторий может накладывать дополнительные ограничения. История с библиотекой chardet - яркий пример. Всегда проверяйте LICENSE файл.
Обучение на «мусорном» контенте. Закон не запрещает использовать низкокачественные данные, но это убьет вашу модель. Феномен загрязнения GitHub уже стал проблемой для всего сообщества.
Отсутствие документации процесса. Если к вам придут с проверкой, а вы не сможете показать, откуда взяли данные и как их очищали, - это трактуется как нарушение. Документируйте каждый шаг пайплайна.
Использование данных после отзыва согласия. Если правообладатель прислал письмо с требованием удалить его контент, а вы проигнорировали - штраф гарантирован. Настройте автоматическую обработку таких запросов.

Частые вопросы от разработчиков

Можно ли обучать модель на статьях с «Хабра» или «VC.ru»?

Да, если статьи доступны без регистрации. Но помните про право автора потребовать исключения его материалов. Технически сложно, но юридически необходимо.

Распространяется ли закон на зарубежные источники?

Да, если ваш проект зарегистрирован в России и использует данные. Но будьте готовы к конфликту юрисдикций. Если вы собираете данные с европейских сайтов, на вас может дополнительно распространяться GDPR.

Что считается «прямым воспроизведением»?

Генерация текста длиной более 7-10 слов подряд, совпадающего с исходником. Или изображение, которое нейросеть скопировала из обучающей выборки. Суды пока не выработали четких критериев, поэтому лучше перестраховаться.

Нужно ли платить правообладателям?

Нет, если соблюдаются все условия закона. Обучение ИИ приравнивается к свободному использованию в информационных, научных, учебных целях. Но если ваша модель затем используется для прямого извлечения прибыли (например, генерация платного контента), могут появиться прецеденты. Следите за судебной практикой.

Главный совет на 2026 год: перестаньте бояться и начните систематизировать. Закон дал зеленый свет, но не отменил необходимость думать головой. Ваш лучший защитник - не адвокат, а хорошо спроектированный пайплайн сбора и обработки данных, где каждый этап логируется и валидируется. И да, это скучно. Но именно скучная, рутинная работа отличает профессиональную разработку от любительской, которая закончится судом.

Подписаться на канал

Как новый закон об ИИ в России разрешит обучение на чужом контенте: разбор для разработчиков