Перейти к содержанию
аналитика 21 февраля 2027 По состоянию на 21 февраля 2027

Согласие на использование ПДн для ML

Использование персональных данных для обучения ML-моделей требует отдельного правового основания — согласия по ст. 9 ФЗ-152 или обезличивания по Приказу РКН, если исходные данные содержат ПДн граждан РФ.
С 01.09.2025 согласие на обработку ПДн оформляется отдельным документом (ФЗ-156 от 24.06.2025); объединение с пользовательским соглашением или офертой недействительно. За обучение модели на ПДн без надлежащего основания грозит штраф по ч. 1 ст. 13.11 КоАП — до 300 000 ₽, при повторном нарушении — до 500 000 ₽.
Если ваша IT-команда использует клиентские данные для ML или передаёт их в облачный пайплайн — проверьте правовое основание, уровень защищённости ИСПДн и цепочку поручений прямо сейчас.

CTO, который отдаёт датасет из продакшн-базы в обучающий контур, рискует не только штрафом: с 11.12.2024 действует ст. 272.1 УК РФ (ФЗ-421), предусматривающая до 10 лет лишения свободы за незаконное использование компьютерной информации с ПДн. Эта статья разбирает, какое согласие нужно для ML, как правильно обезличить данные, как выстроить поручение обработки с облачным провайдером и какой уровень защищённости выставить под SaaS-инфраструктуру.

Какое правовое основание нужно для использования ПДн в ML-пайплайне?

Персональные данные можно обрабатывать только при наличии одного из оснований ст. 6 ФЗ-152. Для ML-обучения на практике применяются два: согласие субъекта (п. 1 ч. 1 ст. 6) и поручение обработки по договору с оператором (п. 3 ст. 6 применительно к обработчику). Исполнение договора с самим субъектом (п. 5) не подходит — субъект не является стороной договора на разработку модели.

С 01.09.2025 согласие обязано быть отдельным документом. Формулировка «нажимая кнопку, вы соглашаетесь с политикой» более не является согласием по ст. 9 ФЗ-152. Обязательные реквизиты согласия: полное наименование оператора, цель обработки (в случае ML — «обучение и валидация алгоритмов машинного обучения» как самостоятельная цель), перечень ПДн, перечень действий, срок, способ отзыва.

«Ст. 9 ФЗ-152 в редакции ФЗ-156 от 24.06.2025 — согласие на обработку ПДн не может быть объединено с иными документами. Требование действует с 01.09.2025. Ранее полученные согласия переоформлять не требуется, если они соответствовали действовавшим на момент получения требованиям.»

Ключевая ошибка — указывать цель «оказание услуг» и обрабатывать данные для ML «заодно». Ст. 5 ФЗ-152 запрещает объединение баз данных с несовместимыми целями. Если ваш сервис собирает данные для доставки, а вы обучаете на них рекомендательную систему — это разные цели и нужны либо два основания, либо обезличивание до начала обучения.

Что такое обезличивание для ML и когда оно заменяет согласие?

Обезличенные данные не являются ПДн по ст. 3 ФЗ-152 — на них не распространяются требования о согласии, уровнях защищённости и уведомлении РКН. Если вы правильно обезличили датасет до передачи в обучающий контур, можно работать без дополнительных правовых оснований.

С 2025 года действует Приказ РКН о методах обезличивания: введение идентификаторов, изменение состава и семантики, декомпозиция, перемешивание и обобщение (агрегация). Для ML-задач чаще всего применяется комбинация первого и пятого методов: замена реальных идентификаторов суррогатными ключами плюс агрегация редких признаков. Важно: псевдонимизация (замена имени на токен, но с сохранением таблицы соответствия) не является обезличиванием — данные остаются ПДн, если таблица доступна хотя бы в одном сервисе инфраструктуры.

«Ст. 13.1 ФЗ-152 (введена ФЗ-233 от 28.06.2025) — оператор вправе передавать обезличенные ПДн в ЕИП НСУД по требованию Минцифры. Методы обезличивания — в соответствии с актуальным Приказом РКН.»

Операционный риск: если кто-то из команды ML может де-анонимизировать датасет — регулятор квалифицирует его как содержащий ПДн. Формальный тест: «существует ли разумная возможность идентифицировать субъекта без несоразмерных усилий». Если да — данные не обезличены.

Ваша команда уже использует клиентские данные в ML-пайплайне?

Если CTO не уверен, какие данные в обучающем контуре содержат ПДн и как выстроить корректное обезличивание — аудит покажет слабые места до того, как их обнаружит РКН. Аудит соответствия 152-ФЗ от 100 000 ₽: чек-лист из 38 пунктов, отчёт с приоритизированным планом устранения нарушений.

Заказать аудит 152-ФЗ

Ответим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru

Как выбрать уровень защищённости ИСПДн для SaaS с ML?

Уровень защищённости определяется по матрице ПП РФ №1119 от 01.11.2012: категория ПДн × тип угроз × число субъектов. Для большинства SaaS-продуктов, работающих с общими ПДн пользователей (имя, email, телефон, поведенческие данные), это УЗ-3 или УЗ-4. Если в датасете есть медицинские, биометрические данные или данные несовершеннолетних — возможен УЗ-2 или УЗ-1.

Пороговое значение по числу субъектов — 100 000. SaaS с аудиторией выше этой отметки автоматически сдвигается на одну ступень вверх при прочих равных условиях. Для мультиарендной платформы (multi-tenant SaaS) важно: данные каждого арендатора образуют отдельную ИСПДн или единую — зависит от архитектуры хранения. Если одна физическая база хранит данные всех тенантов, регулятор рассматривает её как единую ИСПДн со суммарным числом субъектов.

«ПП РФ №1119 от 01.11.2012 — четыре уровня защищённости (УЗ-1..УЗ-4). УЗ-3 обязывает применять СЗИ не ниже 6-го класса по классификации ФСТЭК, разграничение доступа, антивирусную защиту, фиксацию событий безопасности. УЗ-2 добавляет обнаружение вторжений и контроль целостности.»

Для ML-инфраструктуры практически всегда нужна отдельная оценка угроз (Модель угроз по методике ФСТЭК 2021). Обучающий контур, если он получает исходные ПДн — часть ИСПДн. Jupyter-сервер с продакшн-дампом — тоже часть ИСПДн, даже если он поднят «на время эксперимента».

Как выстроить поручение обработки при облачном ML-пайплайне?

Если ML-обучение ведётся в облаке — облачный провайдер является лицом, осуществляющим обработку по поручению оператора (п. 3 ст. 6 ФЗ-152). Требования к поручению: письменная форма, перечень ПДн, цели, перечень действий, конфиденциальность, меры защиты по ст. 19 ФЗ-152, обязанность уничтожить данные по завершении поручения.

С 01.07.2025 (ФЗ-233) ужесточились требования к локализации: первичный сбор, систематизация, накопление, хранение, уточнение и извлечение ПДн граждан РФ — только в базах данных на территории РФ (ч. 5 ст. 18 ФЗ-152). Это означает: облачный провайдер, хранящий данные для обучения, должен иметь дата-центр в России. AWS, GCP, Azure — под вопросом, если данные физически хранятся за пределами РФ.

«Ч. 5 ст. 18 ФЗ-152 — локализация обязательна с 01.09.2015, ужесточена с 01.07.2025. Нарушение локализации: штраф по ч. 8 ст. 13.11 КоАП — 1 000 000 – 6 000 000 ₽; повторное — ч. 9, до 18 000 000 ₽.»

Отдельный вопрос — трансграничная передача. Если вы передаёте данные зарубежному провайдеру MLaaS (например, для инференса или дообучения), это трансграничная передача по ст. 12 ФЗ-152. До передачи в страну без адекватной защиты необходимо уведомить РКН. Уведомление без ответа от РКН в течение разумного срока не означает запрет — но обязанность уведомить безусловна.

Что подготовить CTO перед запуском ML на ПДн

  • Карта обработки: какие ПДн попадают в обучающий контур, на каком основании (согласие или обезличивание), кто имеет доступ.
  • Договор поручения обработки с облачным провайдером — с перечнем ПДн, целями ML, мерами защиты по ст. 19 ФЗ-152.
  • Модель угроз и акт определения уровня защищённости (УЗ-1..4) для ИСПДн, включающей обучающий контур.
  • Согласие или протокол обезличивания: для каждого источника данных — либо отдельное согласие с целью «обучение ML», либо акт обезличивания по методам Приказа РКН.
  • Журнал логирования доступа к обучающему датасету: события доступа являются частью требований ФСТЭК №21 по группе РСБ.

Какие сценарии ведут к нарушению при использовании ПДн в ML?

Ниже три типичных сценария для IT-компании, разрабатывающей SaaS с ML-функциональностью.

Сценарий 1. Продакшн-дамп в Jupyter без обезличивания. Ситуация: аналитик или ML-инженер получает выгрузку из продакшн-базы для экспериментов. В выгрузке — email, телефоны, поведение. Никакого отдельного согласия на ML нет. Доказательства: логи выгрузки, структура датасета. Вероятный исход: при проверке РКН — протокол по ч. 1 ст. 13.11 КоАП (обработка ПДн в целях, несовместимых с заявленными), штраф 150 000–300 000 ₽; при наличии ПДн в Git или Confluence — риск по ст. 272.1 УК. Стратегия: ввести политику обезличивания до выдачи данных в ML-среду; выгружать только синтетические или псевдонимизированные датасеты с сохранением таблицы соответствия в отдельном защищённом хранилище.

Сценарий 2. Иностранный MLaaS-провайдер без уведомления о трансграничной передаче. Ситуация: компания использует облачный сервис (условно — OpenAI API или Vertex AI) для дообучения или классификации. Данные граждан РФ уходят за рубеж. Уведомление о трансграничной передаче в РКН не подавалось. Вероятный исход: нарушение ст. 12 ФЗ-152 + нарушение ч. 5 ст. 18 (локализация), штраф по ч. 8 ст. 13.11 до 6 000 000 ₽. Стратегия: зафиксировать, какие данные и в каком объёме уходят; подать уведомление о трансграничной передаче; рассмотреть российский облачный аналог или локальный деплой модели.

Сценарий 3. Мультиарендная SaaS: кто оператор? Ситуация: платформа предоставляет ML-сервис B2B-клиентам — те загружают свои датасеты с ПДн своих пользователей. Платформа обрабатывает эти данные «по поручению». Нет договора поручения по ст. 6 ФЗ-152, нет описания мер защиты. Вероятный исход: платформа признаётся самостоятельным оператором по данным, переданным клиентами без надлежащего поручения — штрафы и ответственность переходят к платформе. Стратегия: заключить договор поручения обработки с каждым B2B-клиентом; зафиксировать, что платформа действует строго в рамках поручения; не использовать данные клиентов для обучения собственных моделей без отдельного согласия субъектов.

Если CTO уже столкнулся с запросом РКН или осознал, что в пайплайне есть необезличенные ПДн — время на самостоятельное исправление ограничено. Юристы DATUM проведут DPIA и выстроят корректную документальную цепочку от согласия до поручения обработки.

Провести DPIA

Как применяется ст. 272.1 УК РФ к ML-разработке?

Статья 272.1 УК РФ, введённая ФЗ-421 от 30.11.2024 (действует с 11.12.2024), криминализирует незаконное использование, передачу, сбор или хранение компьютерной информации, содержащей ПДн. Для ML это означает: если разработчик использует ПДн для обучения модели без надлежащего правового основания — он формально совершает незаконное использование компьютерной информации с ПДн.

Ч. 5 ст. 272.1 УК предусматривает до 10 лет лишения свободы при тяжких последствиях. Тяжкие последствия — понятие оценочное; крупная утечка обученной модели, содержащей обобщённые ПДн, вполне может быть квалифицирована именно так. Ч. 4 — трансграничная передача незаконно полученных ПДн — до 8 лет.

На практике (по данным СерчИнформ, июль 2025, анализ более 100 решений) 55% уголовных дел об утечках инициируется в отношении сотрудников телекома. ML-инженер, получивший продакшн-дамп без надлежащего оформления, находится в аналогичной зоне риска.

Практика: как это выглядит в реальных делах

Кейс 1. IT-компания (Северо-Западный ФО, осень 2025). CTO передал в ML-команду выгрузку из CRM с email и телефонами 80 000 клиентов для обучения рекомендательной системы. Договор поручения с облачным GPU-провайдером отсутствовал. Согласия на ML не было — только стандартное пользовательское соглашение. После жалобы одного из субъектов РКН возбудил проверку. По итогам: протокол по ч. 1 ст. 13.11 КоАП (несовместимость целей), штраф в диапазоне нижней трети установленного предела. Договор поручения заключили в процессе проверки, что суд учёл как смягчающее обстоятельство.

Кейс 2 (из реестра). В деле о реагировании на утечку — принцип, выработанный арбитражными судами: оператор несёт ответственность за утечку через подрядчика в той же мере, что и за собственную. Применительно к ML: если данные утекли через MLaaS-провайдера без надлежащего договора поручения — ответственность перед РКН и субъектами несёт оператор, а не провайдер.

Услуги DATUM по теме

Частые вопросы

1. Какой уровень защищённости выбрать для SaaS с ML?

Уровень определяется по матрице ПП РФ №1119: категория ПДн × тип угроз × число субъектов. Для SaaS с общими ПДн (email, телефон, поведение) и аудиторией до 100 000 субъектов — как правило УЗ-3 или УЗ-4. При превышении порога 100 000 субъектов уровень сдвигается. Обучающий контур, получающий исходные ПДн, является частью ИСПДн и подпадает под те же требования, что и основная система. Для точного определения необходима Модель угроз по методике ФСТЭК 2021.

2. Можно ли использовать иностранные облака для хранения обучающих данных?

С 01.07.2025 (ФЗ-233) хранение ПДн граждан РФ в зарубежной инфраструктуре нарушает ч. 5 ст. 18 ФЗ-152 в части первичного сбора и хранения. Штраф по ч. 8 ст. 13.11 КоАП — от 1 000 000 до 6 000 000 ₽. Выход: переместить хранение обучающих датасетов в российский облачный сервис (Yandex Cloud, SberCloud, Mail Cloud Solutions и т. д.) или применить обезличивание до передачи зарубежному провайдеру — обезличенные данные не являются ПДн.

3. Что такое обезличивание для ML и чем оно отличается от псевдонимизации?

Обезличивание по методам Приказа РКН — это необратимое или практически необратимое преобразование, после которого идентифицировать субъекта невозможно без несоразмерных усилий. Псевдонимизация (замена имени на токен с сохранением таблицы соответствия) не является обезличиванием: данные остаются ПДн, если таблица доступна в инфраструктуре. Для ML-обучения достаточны методы введения идентификаторов плюс обобщение редких признаков; результат необходимо задокументировать актом обезличивания.

4. Кто является оператором в мультиарендной SaaS?

Если B2B-клиент (арендатор) загружает в платформу ПДн своих пользователей, а платформа обрабатывает их по инструкции клиента — платформа является лицом, осуществляющим обработку по поручению, и обязана заключить договор поручения по п. 3 ст. 6 ФЗ-152. Если договора нет или платформа использует данные клиентов для собственных целей (в том числе для обучения собственных моделей) — она становится самостоятельным оператором со всеми вытекающими обязательствами и ответственностью.

5. Какие СЗИ обязательны для ИСПДн с ML-обучением?

Конкретный набор мер определяется по Приказу ФСТЭК №21 от 18.02.2013 в соответствии с установленным уровнем защищённости. Для УЗ-3 обязательны: идентификация и аутентификация (ИАФ), управление привилегиями доступа (УПД), регистрация событий безопасности (РСБ), антивирусная защита (АВЗ), защита информационной системы (ЗИС). Для обучающего контура критично логирование обращений к датасету — это одновременно требование ФСТЭК по группе РСБ и доказательная база при инциденте.

Итог

Использование ПДн для ML — это не серая зона: каждый этап пайплайна (выгрузка, хранение, передача провайдеру, обучение, валидация) должен иметь надлежащее правовое основание, документально оформленную цепочку поручений и соответствующий уровень защищённости по ПП РФ №1119. С 01.09.2025 согласие с целью «обучение ML» оформляется отдельным документом; с 01.07.2025 хранение обучающих данных — только в российской инфраструктуре.

DATUM сопровождает IT-компании и SaaS-платформы в построении корректной документальной базы для ML-систем: от Модели угроз и определения УЗ до договоров поручения с облачными провайдерами и согласий с целью обучения алгоритмов.

АГ
Аналитик · Технологии и ИБ
Аналитик DATUM по технологиям и ИБ. Специализация: УЗ-1..4 (ПП РФ №1119), Приказ ФСТЭК №21, обезличивание ПДн для ML, логирование, SaaS-инфраструктура, реагирование на утечки 24/72 ч, ст. 272.1 УК.

21 февраля 2027 года