Перейти к содержанию
аналитика 5 июня 2026 По состоянию на 5 июня 2026

Аудит ML-pipeline на 152-ФЗ

ML-pipeline, обученный на персональных данных без обезличивания и без определённого уровня защищённости, — самостоятельное основание для штрафа по ст. 13.11 КоАП и уголовного дела по ст. 272.1 УК.
С 30.05.2025 действует ФЗ-420: повторная утечка из ML-систем тянет оборотный штраф 1–3% годовой выручки, не менее 20 млн ₽. С 11.12.2024 незаконное хранение компьютерной информации с ПДн — уголовная статья с санкцией до 10 лет.
Если вы CTO и ML-pipeline работает на реальных данных клиентов — проверьте четыре точки риска до того, как это сделает Роскомнадзор.

Аудит ML-pipeline на 152-ФЗ стал самостоятельной задачей с 2025 года: регулятор выпустил методы обезличивания для машинного обучения, ФСТЭК обновил трактовку Приказа №21 применительно к облачным вычислениям, а суды начали применять новые составы ст. 13.11 КоАП к утечкам через ML-системы. Эта статья разбирает, где именно pipeline нарушает 152-ФЗ, как определить уровень защищённости ИСПДн с ML-компонентой и какие технические меры обязательны по Приказу ФСТЭК №21.

Почему ML-pipeline попадает под 152-ФЗ и что это означает для CTO?

Машинное обучение работает с данными. Если обучающая выборка содержит имена, телефоны, идентификаторы пользователей, геолокацию или поведенческие паттерны — она содержит персональные данные по ст. 3 ФЗ-152. Факт, что данные «переработаны» в веса модели, не освобождает от обязанностей оператора: ФСТЭК и РКН рассматривают обучение модели как отдельную операцию обработки ПДн.

Типичная архитектура pipeline создаёт несколько точек риска одновременно. Первая — хранилище сырых данных (data lake): часто без контроля доступа уровня строк, с ПДн в открытом виде. Вторая — feature store: агрегированные признаки могут деанонимизироваться обратно при наличии внешней таблицы соответствий. Третья — артефакты модели: веса нейросети могут воспроизвести обучающие примеры при атаке model inversion. Четвёртая — эксперименты в MLflow, Weights&Biases: логи экспериментов хранят срезы данных без политики удаления.

«Ст. 19 ФЗ-152 обязывает оператора принимать организационные и технические меры защиты. Конкретный состав мер определяется уровнем защищённости (УЗ-1..4) по ПП РФ №1119 и Приказом ФСТЭК №21 — для каждой информационной системы персональных данных, включая ML-платформы.»

Отдельный вопрос — логирование как ПДн. Если в логи inference-сервиса пишутся входные параметры запроса (например, возраст и доход пользователя для кредитного скоринга), эти логи автоматически становятся частью ИСПДн. Срок хранения логов, права доступа и процедура удаления должны соответствовать политике обработки ПДн.

Ваш ML-pipeline работает на реальных данных клиентов?

Если CTO не проводил формальный аудит ML-инфраструктуры на соответствие 152-ФЗ — вероятно, уровень защищённости не определён, а меры ФСТЭК не задокументированы. Это основание для штрафа по ч. 1 ст. 13.11 КоАП (150–300 тыс. ₽) при первой же проверке РКН. Аудит DATUM по 38-пунктному чек-листу выявит пробелы и выдаст приоритизированный план устранения.

Заказать аудит 152-ФЗ

Ответим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru · Telegram

Как определить уровень защищённости ИСПДн для ML-системы?

Уровень защищённости (УЗ) определяется по матрице ПП РФ №1119 из трёх параметров: категория ПДн, тип актуальных угроз и количество субъектов. Для ML-платформы все три параметра требуют отдельной оценки, потому что обучающая выборка и продакшн-инференс — технически разные системы с разным составом данных.

Категории ПДн в ML-контексте часто смешанные. Рекомендательная система e-commerce работает с общими данными (УЗ-3 или УЗ-4). Кредитный скоринг включает финансовую историю — формально «общие», но де-факто чувствительные. Медицинская диагностическая модель работает со специальными категориями по ст. 10 ФЗ-152 — здесь порог УЗ автоматически выше (УЗ-2 или УЗ-1 при угрозах 1-го типа).

Порог в 100 000 субъектов меняет УЗ на шаг вниз (то есть ужесточает требования). Для ML-систем крупных платформ этот порог почти всегда превышен уже на этапе формирования обучающей выборки. CTO должен считать не только активных пользователей продакшн-сервиса, но и все записи в обучающем датасете.

«ПП РФ №1119 от 01.11.2012 устанавливает 4 уровня защищённости. УЗ-1 — наиболее строгий, применяется при угрозах 1-го типа к любым категориям ПДн. УЗ-4 — базовый, для общих ПДн при угрозах 3-го типа и числе субъектов менее 100 000.»

Тип угроз — ключевой параметр, который чаще всего занижается. Угрозы 1-го типа предполагают наличие недекларированных возможностей в системном ПО. Для ML-платформ, работающих на open-source фреймворках (PyTorch, TensorFlow, Spark), РКН и ФСТЭК склонны рассматривать их как угрозы не ниже 2-го типа из-за отсутствия сертифицированных версий. Это сдвигает УЗ и увеличивает состав обязательных мер.

Какие меры ФСТЭК №21 обязательны для ML-инфраструктуры?

Приказ ФСТЭК №21 описывает 109 мер в 15 группах. Для ML-платформы критически важны несколько групп, которые технически отличаются от классических корпоративных ИСПДн.

Группа ИАФ (идентификация и аутентификация): сервисные аккаунты ML-компонентов (Airflow, Spark, Jupyter) часто используют общий логин или статические токены. Приказ №21 требует индивидуальной идентификации даже для технических учётных записей при УЗ-2 и выше.

Группа УПД (управление правами доступа): feature store и model registry должны иметь разграничение доступа на уровне проекта и роли. Возможность прочитать весь обучающий датасет должна быть у минимального числа сотрудников — принцип минимальных привилегий фиксируется в политике доступа.

Группа РСБ (регистрация событий): все операции чтения/записи из data lake и model registry должны логироваться с сохранением записей не менее установленного срока. Это то самое «логирование как ПДн» — логи сами становятся ИСПДн и требуют защиты.

Группа ЗНИ (защита носителей информации): обучающие датасеты на объектных хранилищах (S3-совместимые) должны быть зашифрованы. При использовании облачных хранилищ в РФ — проверить, что шифрование управляется ключами оператора, а не только провайдером.

«Приказ ФСТЭК №21 от 18.02.2013 формирует базовый набор мер по УЗ. При УЗ-3: ИАФ, УПД, ОПС, ЗНИ, РСБ, АВЗ — обязательны. При УЗ-2 добавляются СОВ (обнаружение вторжений) и АНЗ (анализ защищённости).»

Если CTO получил предписание РКН по ИСПДн, в которую входит ML-платформа — у вас 30 дней на устранение нарушений до повторной проверки. Юристы DATUM проведут DPIA и закроют пробелы в документации по Приказу ФСТЭК №21.

Провести DPIA

Что такое обезличивание для ML и когда оно снимает риски 152-ФЗ?

Обезличивание — это приведение ПДн к состоянию, при котором невозможно определить принадлежность информации конкретному субъекту без использования дополнительных данных. После обезличивания данные выходят из-под режима 152-ФЗ. Это единственный законный способ работы с данными без согласия субъекта в ML-задачах, где согласие технически неосуществимо в нужном масштабе.

С 2025 года РКН утвердил 5 методов обезличивания: введение идентификаторов (псевдонимизация), изменение состава и семантики данных, декомпозиция, перемешивание, обобщение и агрегация. Для ML применимы не все. Псевдонимизация в чистом виде не считается обезличиванием по позиции РКН — таблица соответствий остаётся у оператора, риск деанонимизации сохраняется. Правильная стратегия для обучающей выборки — комбинация обобщения (замена точных значений на диапазоны) и перемешивания (разрыв связи между строками).

Важное ограничение: обезличивание снимает требования 152-ФЗ только если оно необратимо. Если из обученной модели можно воспроизвести исходные записи (атака model inversion или membership inference), данные считаются псевдонимизированными, а не обезличенными. Это означает, что для высокорискованных моделей (медицина, кредит) необходим технический аудит устойчивости к таким атакам.

Практически: для большинства B2B SaaS с рекомендательными и классификационными моделями достаточно применить обобщение на этапе feature engineering и задокументировать метод в политике обработки ПДн. Это снижает УЗ и сокращает состав обязательных мер ФСТЭК.

Мультиарендность SaaS и поручение обработки: кто оператор в ML-системе?

В мультиарендной SaaS архитектуре вопрос о разграничении ролей оператора и обработчика критичен для распределения ответственности по 152-ФЗ. Ст. 6 ФЗ-152 устанавливает конструкцию поручения обработки: оператор (ваш клиент) поручает обработку ПДн обработчику (SaaS-провайдеру) на основании договора.

Проблема возникает, когда SaaS-провайдер дообучает модели на агрегированных данных всех арендаторов. Если данные не обезличены до агрегации — провайдер фактически обрабатывает ПДн нескольких операторов за пределами исходных поручений. Это нарушение ст. 5 ФЗ-152 (принцип совместимости целей) и ст. 6 (выход за рамки поручения).

Облако в РФ: требование локализации по ч. 5 ст. 18 ФЗ-152 распространяется на все операции записи, систематизации, накопления, хранения, уточнения и извлечения ПДн граждан РФ. Если ML-платформа (обучение, инференс, хранение весов) размещена на серверах за пределами РФ и обрабатывает ПДн российских граждан — это нарушение с санкцией по ч. 8 ст. 13.11 КоАП от 1 до 6 млн ₽. Для KII (критической информационной инфраструктуры по 187-ФЗ) требования к размещению ещё жёстче.

«Ст. 6 ФЗ-152, п. 3: оператор вправе поручить обработку ПДн другому лицу на основании договора. Обработчик обязан соблюдать принципы и правила, установленные ФЗ-152. Ответственность перед субъектом несёт оператор.»

Что подготовить CTO перед аудитом ML-pipeline

  • Реестр ИСПДн с указанием ML-компонентов: data lake, feature store, model registry, inference-сервисы — с указанием категорий ПДн и числа субъектов в каждом.
  • Документ об определении уровня защищённости (УЗ) по ПП РФ №1119 с обоснованием типа актуальных угроз для ML-инфраструктуры.
  • Политику или регламент обезличивания обучающих данных с указанием применённых методов из утверждённого перечня РКН.
  • Договоры поручения обработки ПДн с облачным провайдером, MLOps-платформой, сторонними дата-провайдерами — с проверкой на соответствие ст. 6 ФЗ-152.
  • Карту потоков данных (data flow diagram) от источника ПДн до модели и обратно, с указанием точек хранения и логирования.

Типовые сценарии нарушений в ML-pipeline

Сценарий 1. Обучение на сырых данных без обезличивания. IT-компания (Сибирский ФО, весна 2025) обучала модель прогнозирования оттока на выгрузке из CRM: имена, телефоны, история транзакций. Датасет хранился в S3-бакете без шифрования и контроля доступа. РКН обнаружил факт при плановой проверке. Компании выставили протокол по ч. 1 ст. 13.11 КоАП и предписание о приведении ИСПДн в соответствие с Приказом ФСТЭК №21. Срок устранения — 30 дней. Штраф по итогу — в диапазоне сотен тысяч рублей. Стратегия при схожей ситуации: немедленно задокументировать меры обезличивания, которые уже применяются де-факто, и предъявить их инспектору до составления постановления.

Сценарий 2. Мультиарендная SaaS и дообучение на данных клиентов. SaaS-провайдер HR-аналитики (Центральный ФО, осень 2025) использовал поведенческие данные сотрудников всех клиентов для дообучения модели оценки вовлечённости. Договоры поручения обработки не предусматривали такого использования. Один из клиентов-операторов провёл собственный аудит и выявил нарушение. Претензия клиента переросла в уведомление РКН. Риск провайдера — ч. 1 ст. 13.11 КоАП (несовместимость целей по ст. 5 ФЗ-152) и расторжение договоров. Стратегия: прописать в договоре поручения явный запрет на агрегацию данных арендаторов без отдельного согласия и технически изолировать обучающие датасеты по клиентам.

Сценарий 3. Облако за рубежом и требование локализации. Финтех-стартап (Северо-Западный ФО, начало 2026) разворачивал ML-платформу на AWS EU (Франкфурт) для снижения латентности. Данные российских пользователей обрабатывались и хранились за пределами РФ. Нарушение ч. 5 ст. 18 ФЗ-152 — штраф по ч. 8 ст. 13.11 КоАП от 1 до 6 млн ₽. При повторном нарушении — от 6 до 18 млн ₽ по ч. 9. Стратегия: миграция ML-компонентов на российский облачный провайдер или гибридная схема с обезличиванием данных до передачи за рубеж.

Услуги DATUM по теме

Частые вопросы

1. Какой УЗ выбрать для SaaS?

Уровень защищённости для SaaS-платформы определяется по матрице ПП РФ №1119: категория ПДн (общие, специальные, биометрические) × тип актуальных угроз × число субъектов. Большинство B2B SaaS с общими ПДн и числом субъектов менее 100 000 попадают в УЗ-3 при угрозах 2-го типа. При числе субъектов свыше 100 000 или наличии специальных категорий (медицина, финансовое поведение) — УЗ-2. Тип угроз для SaaS с open-source ML-стеком ФСТЭК склонен квалифицировать как 2-й, что следует учитывать при оформлении модели угроз.

2. Можно ли использовать иностранные облака?

Операции записи, хранения и систематизации ПДн граждан РФ обязаны выполняться на серверах в России по ч. 5 ст. 18 ФЗ-152. Иностранные облака (AWS, GCP, Azure) допустимы только для данных, прошедших необратимое обезличивание по утверждённым РКН методам. Передача обезличенных данных за рубеж не считается трансграничной передачей ПДн. Нарушение локализации — штраф по ч. 8 ст. 13.11 КоАП от 1 до 6 млн ₽, при повторном — от 6 до 18 млн ₽.

3. Что такое обезличивание для ML?

Обезличивание — это приведение данных к форме, при которой невозможно установить принадлежность информации конкретному субъекту без дополнительных данных (ст. 3 ФЗ-152). Для ML-задач РКН утвердил 5 методов: введение идентификаторов, изменение состава и семантики, декомпозиция, перемешивание, обобщение. Псевдонимизация в чистом виде обезличиванием не признаётся. После корректного обезличивания обучающая выборка выходит из-под режима 152-ФЗ, что снижает УЗ и сокращает состав мер ФСТЭК.

4. Кто оператор в мультиарендной SaaS?

В мультиарендной SaaS клиент (арендатор) остаётся оператором ПДн своих пользователей, SaaS-провайдер — обработчик по поручению на основании договора (ст. 6 ФЗ-152). Если провайдер использует данные арендаторов для собственных целей (дообучение общих моделей) без явного поручения — он становится самостоятельным оператором и нарушает ст. 5 ФЗ-152 (несовместимость целей). Ответственность перед субъектами остаётся на операторе-клиенте, но провайдер несёт административную ответственность за собственные нарушения.

5. Какие СЗИ обязательны?

Состав обязательных средств защиты информации определяется Приказом ФСТЭК №21 по соответствующему УЗ. При УЗ-3 обязательны: средства идентификации и аутентификации (ИАФ), управления доступом (УПД), регистрации событий (РСБ), антивирусной защиты (АВЗ), защиты носителей (ЗНИ). При УЗ-2 добавляются средства обнаружения вторжений (СОВ) и анализа защищённости (АНЗ). Для ML-инфраструктуры критична группа РСБ: логирование доступа к data lake и model registry при УЗ-2 и выше — обязательный базовый элемент.

Итог

ML-pipeline — полноценная ИСПДн в смысле 152-ФЗ. Четыре точки риска — data lake, feature store, артефакты модели и логи экспериментов — требуют отдельного анализа по матрице ПП РФ №1119 и привязки к конкретному УЗ. Обезличивание снимает требования закона, но только если оно необратимо и выполнено методами, утверждёнными РКН. Мультиарендность и иностранные облака создают самостоятельные составы нарушений.

DATUM сопровождает аудиты ML-инфраструктуры IT-компаний и SaaS-провайдеров: определение УЗ, формирование модели угроз, разработка политики обезличивания, подготовка договоров поручения обработки. Аудит соответствия 152-ФЗ — от 100 000 ₽, DPIA — от 200 000 ₽.

АГ
Аналитик · Технологии и ИБ
Аналитик DATUM по технологиям и ИБ. Специализация — УЗ-1..4 (ПП РФ №1119), Приказ ФСТЭК №21, обезличивание ПДн для ML, реагирование на утечки за 24/72 часа, ст. 272.1 УК.

5 июня 2026 года

Есть вопросы по аудиту ML-инфраструктуры на 152-ФЗ?

Заказать аудит 152-ФЗ

Практика «Ветров и партнёры» по 152-ФЗ с 2014 года · +7 (383) 310-38-76 · +7 (983) 510-38-76 · Telegram