Согласие на использование ПДн для ML
CTO, который отдаёт датасет из продакшн-базы в обучающий контур, рискует не только штрафом: с 11.12.2024 действует ст. 272.1 УК РФ (ФЗ-421), предусматривающая до 10 лет лишения свободы за незаконное использование компьютерной информации с ПДн. Эта статья разбирает, какое согласие нужно для ML, как правильно обезличить данные, как выстроить поручение обработки с облачным провайдером и какой уровень защищённости выставить под SaaS-инфраструктуру.
Какое правовое основание нужно для использования ПДн в ML-пайплайне?
Персональные данные можно обрабатывать только при наличии одного из оснований ст. 6 ФЗ-152. Для ML-обучения на практике применяются два: согласие субъекта (п. 1 ч. 1 ст. 6) и поручение обработки по договору с оператором (п. 3 ст. 6 применительно к обработчику). Исполнение договора с самим субъектом (п. 5) не подходит — субъект не является стороной договора на разработку модели.
С 01.09.2025 согласие обязано быть отдельным документом. Формулировка «нажимая кнопку, вы соглашаетесь с политикой» более не является согласием по ст. 9 ФЗ-152. Обязательные реквизиты согласия: полное наименование оператора, цель обработки (в случае ML — «обучение и валидация алгоритмов машинного обучения» как самостоятельная цель), перечень ПДн, перечень действий, срок, способ отзыва.
Ключевая ошибка — указывать цель «оказание услуг» и обрабатывать данные для ML «заодно». Ст. 5 ФЗ-152 запрещает объединение баз данных с несовместимыми целями. Если ваш сервис собирает данные для доставки, а вы обучаете на них рекомендательную систему — это разные цели и нужны либо два основания, либо обезличивание до начала обучения.
Что такое обезличивание для ML и когда оно заменяет согласие?
Обезличенные данные не являются ПДн по ст. 3 ФЗ-152 — на них не распространяются требования о согласии, уровнях защищённости и уведомлении РКН. Если вы правильно обезличили датасет до передачи в обучающий контур, можно работать без дополнительных правовых оснований.
С 2025 года действует Приказ РКН о методах обезличивания: введение идентификаторов, изменение состава и семантики, декомпозиция, перемешивание и обобщение (агрегация). Для ML-задач чаще всего применяется комбинация первого и пятого методов: замена реальных идентификаторов суррогатными ключами плюс агрегация редких признаков. Важно: псевдонимизация (замена имени на токен, но с сохранением таблицы соответствия) не является обезличиванием — данные остаются ПДн, если таблица доступна хотя бы в одном сервисе инфраструктуры.
Операционный риск: если кто-то из команды ML может де-анонимизировать датасет — регулятор квалифицирует его как содержащий ПДн. Формальный тест: «существует ли разумная возможность идентифицировать субъекта без несоразмерных усилий». Если да — данные не обезличены.
Ваша команда уже использует клиентские данные в ML-пайплайне?
Если CTO не уверен, какие данные в обучающем контуре содержат ПДн и как выстроить корректное обезличивание — аудит покажет слабые места до того, как их обнаружит РКН. Аудит соответствия 152-ФЗ от 100 000 ₽: чек-лист из 38 пунктов, отчёт с приоритизированным планом устранения нарушений.
Заказать аудит 152-ФЗОтветим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru
Как выбрать уровень защищённости ИСПДн для SaaS с ML?
Уровень защищённости определяется по матрице ПП РФ №1119 от 01.11.2012: категория ПДн × тип угроз × число субъектов. Для большинства SaaS-продуктов, работающих с общими ПДн пользователей (имя, email, телефон, поведенческие данные), это УЗ-3 или УЗ-4. Если в датасете есть медицинские, биометрические данные или данные несовершеннолетних — возможен УЗ-2 или УЗ-1.
Пороговое значение по числу субъектов — 100 000. SaaS с аудиторией выше этой отметки автоматически сдвигается на одну ступень вверх при прочих равных условиях. Для мультиарендной платформы (multi-tenant SaaS) важно: данные каждого арендатора образуют отдельную ИСПДн или единую — зависит от архитектуры хранения. Если одна физическая база хранит данные всех тенантов, регулятор рассматривает её как единую ИСПДн со суммарным числом субъектов.
Для ML-инфраструктуры практически всегда нужна отдельная оценка угроз (Модель угроз по методике ФСТЭК 2021). Обучающий контур, если он получает исходные ПДн — часть ИСПДн. Jupyter-сервер с продакшн-дампом — тоже часть ИСПДн, даже если он поднят «на время эксперимента».
Как выстроить поручение обработки при облачном ML-пайплайне?
Если ML-обучение ведётся в облаке — облачный провайдер является лицом, осуществляющим обработку по поручению оператора (п. 3 ст. 6 ФЗ-152). Требования к поручению: письменная форма, перечень ПДн, цели, перечень действий, конфиденциальность, меры защиты по ст. 19 ФЗ-152, обязанность уничтожить данные по завершении поручения.
С 01.07.2025 (ФЗ-233) ужесточились требования к локализации: первичный сбор, систематизация, накопление, хранение, уточнение и извлечение ПДн граждан РФ — только в базах данных на территории РФ (ч. 5 ст. 18 ФЗ-152). Это означает: облачный провайдер, хранящий данные для обучения, должен иметь дата-центр в России. AWS, GCP, Azure — под вопросом, если данные физически хранятся за пределами РФ.
Отдельный вопрос — трансграничная передача. Если вы передаёте данные зарубежному провайдеру MLaaS (например, для инференса или дообучения), это трансграничная передача по ст. 12 ФЗ-152. До передачи в страну без адекватной защиты необходимо уведомить РКН. Уведомление без ответа от РКН в течение разумного срока не означает запрет — но обязанность уведомить безусловна.
Что подготовить CTO перед запуском ML на ПДн
- Карта обработки: какие ПДн попадают в обучающий контур, на каком основании (согласие или обезличивание), кто имеет доступ.
- Договор поручения обработки с облачным провайдером — с перечнем ПДн, целями ML, мерами защиты по ст. 19 ФЗ-152.
- Модель угроз и акт определения уровня защищённости (УЗ-1..4) для ИСПДн, включающей обучающий контур.
- Согласие или протокол обезличивания: для каждого источника данных — либо отдельное согласие с целью «обучение ML», либо акт обезличивания по методам Приказа РКН.
- Журнал логирования доступа к обучающему датасету: события доступа являются частью требований ФСТЭК №21 по группе РСБ.
Какие сценарии ведут к нарушению при использовании ПДн в ML?
Ниже три типичных сценария для IT-компании, разрабатывающей SaaS с ML-функциональностью.
Сценарий 1. Продакшн-дамп в Jupyter без обезличивания. Ситуация: аналитик или ML-инженер получает выгрузку из продакшн-базы для экспериментов. В выгрузке — email, телефоны, поведение. Никакого отдельного согласия на ML нет. Доказательства: логи выгрузки, структура датасета. Вероятный исход: при проверке РКН — протокол по ч. 1 ст. 13.11 КоАП (обработка ПДн в целях, несовместимых с заявленными), штраф 150 000–300 000 ₽; при наличии ПДн в Git или Confluence — риск по ст. 272.1 УК. Стратегия: ввести политику обезличивания до выдачи данных в ML-среду; выгружать только синтетические или псевдонимизированные датасеты с сохранением таблицы соответствия в отдельном защищённом хранилище.
Сценарий 2. Иностранный MLaaS-провайдер без уведомления о трансграничной передаче. Ситуация: компания использует облачный сервис (условно — OpenAI API или Vertex AI) для дообучения или классификации. Данные граждан РФ уходят за рубеж. Уведомление о трансграничной передаче в РКН не подавалось. Вероятный исход: нарушение ст. 12 ФЗ-152 + нарушение ч. 5 ст. 18 (локализация), штраф по ч. 8 ст. 13.11 до 6 000 000 ₽. Стратегия: зафиксировать, какие данные и в каком объёме уходят; подать уведомление о трансграничной передаче; рассмотреть российский облачный аналог или локальный деплой модели.
Сценарий 3. Мультиарендная SaaS: кто оператор? Ситуация: платформа предоставляет ML-сервис B2B-клиентам — те загружают свои датасеты с ПДн своих пользователей. Платформа обрабатывает эти данные «по поручению». Нет договора поручения по ст. 6 ФЗ-152, нет описания мер защиты. Вероятный исход: платформа признаётся самостоятельным оператором по данным, переданным клиентами без надлежащего поручения — штрафы и ответственность переходят к платформе. Стратегия: заключить договор поручения обработки с каждым B2B-клиентом; зафиксировать, что платформа действует строго в рамках поручения; не использовать данные клиентов для обучения собственных моделей без отдельного согласия субъектов.
Если CTO уже столкнулся с запросом РКН или осознал, что в пайплайне есть необезличенные ПДн — время на самостоятельное исправление ограничено. Юристы DATUM проведут DPIA и выстроят корректную документальную цепочку от согласия до поручения обработки.
Провести DPIAКак применяется ст. 272.1 УК РФ к ML-разработке?
Статья 272.1 УК РФ, введённая ФЗ-421 от 30.11.2024 (действует с 11.12.2024), криминализирует незаконное использование, передачу, сбор или хранение компьютерной информации, содержащей ПДн. Для ML это означает: если разработчик использует ПДн для обучения модели без надлежащего правового основания — он формально совершает незаконное использование компьютерной информации с ПДн.
Ч. 5 ст. 272.1 УК предусматривает до 10 лет лишения свободы при тяжких последствиях. Тяжкие последствия — понятие оценочное; крупная утечка обученной модели, содержащей обобщённые ПДн, вполне может быть квалифицирована именно так. Ч. 4 — трансграничная передача незаконно полученных ПДн — до 8 лет.
На практике (по данным СерчИнформ, июль 2025, анализ более 100 решений) 55% уголовных дел об утечках инициируется в отношении сотрудников телекома. ML-инженер, получивший продакшн-дамп без надлежащего оформления, находится в аналогичной зоне риска.
Практика: как это выглядит в реальных делах
Кейс 1. IT-компания (Северо-Западный ФО, осень 2025). CTO передал в ML-команду выгрузку из CRM с email и телефонами 80 000 клиентов для обучения рекомендательной системы. Договор поручения с облачным GPU-провайдером отсутствовал. Согласия на ML не было — только стандартное пользовательское соглашение. После жалобы одного из субъектов РКН возбудил проверку. По итогам: протокол по ч. 1 ст. 13.11 КоАП (несовместимость целей), штраф в диапазоне нижней трети установленного предела. Договор поручения заключили в процессе проверки, что суд учёл как смягчающее обстоятельство.
Кейс 2 (из реестра). В деле о реагировании на утечку — принцип, выработанный арбитражными судами: оператор несёт ответственность за утечку через подрядчика в той же мере, что и за собственную. Применительно к ML: если данные утекли через MLaaS-провайдера без надлежащего договора поручения — ответственность перед РКН и субъектами несёт оператор, а не провайдер.
Услуги DATUM по теме
- DPIA (оценка воздействия) — для ML-систем, обрабатывающих ПДн в масштабе
- Аудит соответствия 152-ФЗ — проверка обучающих контуров и цепочек поручений
- Комплект ОРД под ключ — договор поручения, согласия с целью ML, политики
Частые вопросы
1. Какой уровень защищённости выбрать для SaaS с ML?
Уровень определяется по матрице ПП РФ №1119: категория ПДн × тип угроз × число субъектов. Для SaaS с общими ПДн (email, телефон, поведение) и аудиторией до 100 000 субъектов — как правило УЗ-3 или УЗ-4. При превышении порога 100 000 субъектов уровень сдвигается. Обучающий контур, получающий исходные ПДн, является частью ИСПДн и подпадает под те же требования, что и основная система. Для точного определения необходима Модель угроз по методике ФСТЭК 2021.
2. Можно ли использовать иностранные облака для хранения обучающих данных?
С 01.07.2025 (ФЗ-233) хранение ПДн граждан РФ в зарубежной инфраструктуре нарушает ч. 5 ст. 18 ФЗ-152 в части первичного сбора и хранения. Штраф по ч. 8 ст. 13.11 КоАП — от 1 000 000 до 6 000 000 ₽. Выход: переместить хранение обучающих датасетов в российский облачный сервис (Yandex Cloud, SberCloud, Mail Cloud Solutions и т. д.) или применить обезличивание до передачи зарубежному провайдеру — обезличенные данные не являются ПДн.
3. Что такое обезличивание для ML и чем оно отличается от псевдонимизации?
Обезличивание по методам Приказа РКН — это необратимое или практически необратимое преобразование, после которого идентифицировать субъекта невозможно без несоразмерных усилий. Псевдонимизация (замена имени на токен с сохранением таблицы соответствия) не является обезличиванием: данные остаются ПДн, если таблица доступна в инфраструктуре. Для ML-обучения достаточны методы введения идентификаторов плюс обобщение редких признаков; результат необходимо задокументировать актом обезличивания.
4. Кто является оператором в мультиарендной SaaS?
Если B2B-клиент (арендатор) загружает в платформу ПДн своих пользователей, а платформа обрабатывает их по инструкции клиента — платформа является лицом, осуществляющим обработку по поручению, и обязана заключить договор поручения по п. 3 ст. 6 ФЗ-152. Если договора нет или платформа использует данные клиентов для собственных целей (в том числе для обучения собственных моделей) — она становится самостоятельным оператором со всеми вытекающими обязательствами и ответственностью.
5. Какие СЗИ обязательны для ИСПДн с ML-обучением?
Конкретный набор мер определяется по Приказу ФСТЭК №21 от 18.02.2013 в соответствии с установленным уровнем защищённости. Для УЗ-3 обязательны: идентификация и аутентификация (ИАФ), управление привилегиями доступа (УПД), регистрация событий безопасности (РСБ), антивирусная защита (АВЗ), защита информационной системы (ЗИС). Для обучающего контура критично логирование обращений к датасету — это одновременно требование ФСТЭК по группе РСБ и доказательная база при инциденте.
Итог
Использование ПДн для ML — это не серая зона: каждый этап пайплайна (выгрузка, хранение, передача провайдеру, обучение, валидация) должен иметь надлежащее правовое основание, документально оформленную цепочку поручений и соответствующий уровень защищённости по ПП РФ №1119. С 01.09.2025 согласие с целью «обучение ML» оформляется отдельным документом; с 01.07.2025 хранение обучающих данных — только в российской инфраструктуре.
DATUM сопровождает IT-компании и SaaS-платформы в построении корректной документальной базы для ML-систем: от Модели угроз и определения УЗ до договоров поручения с облачными провайдерами и согласий с целью обучения алгоритмов.
21 февраля 2027 года