Перейти к содержанию
аналитика 14 января 2029 По состоянию на 14 января 2029

Membership inference атаки на модель

Membership inference атака — это метод восстановления факта участия конкретного субъекта в обучающей выборке модели машинного обучения. Успешная атака доказывает, что ИИ-модель «запомнила» персональные данные, которые по закону должны были быть обезличены или уничтожены.
С 30.05.2025 утечка ПДн свыше 10 000 субъектов влечёт штраф от 5 до 10 млн ₽ (ч. 13 ст. 13.11 КоАП); при повторности — оборотный штраф от 1 до 3% годовой выручки, не менее 20 млн ₽ (ч. 15 ст. 13.11 КоАП). Уголовная ответственность по ст. 272.1 УК РФ наступает с 11.12.2024.
→ Если вы CTO и ваша модель обучена на реальных пользовательских данных — проверьте, не превращается ли она в вектор атаки на ПДн ваших субъектов.

Осень 2025 года: на российский рынок вышли первые коммерческие инструменты аудита ML-моделей на предмет утечки информации. Регулятор пока не предъявляет отдельных требований к архитектуре нейронных сетей, но правовая рамка ФЗ-152 распространяется на любую обработку ПДн — включая обучение моделей. CTO, который не оценил риск membership inference, подставляет компанию под штрафы по ст. 13.11 КоАП и уголовное преследование по ст. 272.1 УК.

Что такое membership inference и почему это проблема для CTO?

Membership inference attack (атака на принадлежность к обучающей выборке) строится на наблюдении: модель, обученная с переобучением, возвращает более уверенные предсказания на данные из обучающей выборки, чем на новые данные. Злоумышленник или исследователь безопасности подаёт запрос к модели и по разнице в уверенности вывода определяет, присутствовал ли конкретный пример в тренировочном наборе.

С точки зрения ФЗ-152 это означает следующее: если атака успешна, модель де-факто хранит и раскрывает персональные данные — даже если оригинальный датасет был удалён. Роскомнадзор квалифицирует такой сценарий как несанкционированный доступ к ПДн, а при наличии умысла — правоохранители применяют ст. 272.1 УК РФ.

«Ст. 19 ФЗ-152 обязывает оператора принимать технические меры, исключающие несанкционированный доступ к ПДн. ПП РФ №1119 от 01.11.2012 устанавливает уровни защищённости ИСПДн (УЗ-1..УЗ-4) в зависимости от категорий ПДн и числа субъектов. Приказ ФСТЭК №21 от 18.02.2013 содержит 109 мер в 15 группах, в том числе требования к контролю целостности и защите от несанкционированного доступа.»

Атака реализуется в трёх сценариях: атака на доступ к интерфейсу модели (black-box), атака при наличии частичного доступа к весам (gray-box) и атака исследователя с полным доступом к весам (white-box). В SaaS-мультиарендных средах наиболее актуален black-box сценарий: арендатор одного тенанта через API потенциально извлекает информацию о данных другого тенанта, которые попали в общую модель.

Ваша ML-модель обучена на пользовательских данных?

Если CTO не провёл оценку membership inference риска до момента, когда модель вышла в production — каждый день эксплуатации накапливает правовую экспозицию. Проверка ИСПДн по Приказу ФСТЭК №21 и оценка воздействия (DPIA) позволяют зафиксировать допустимый уровень риска до того, как РКН поставит этот вопрос сам. По ч. 11 ст. 13.11 КоАП неуведомление об утечке в течение 24 часов — штраф от 1 до 3 млн ₽; срок не восстанавливается.

Провести DPIA

Ответим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru · Telegram

Как membership inference соотносится с требованиями УЗ-1..УЗ-4 и Приказом ФСТЭК №21?

Уровень защищённости ИСПДн определяется по матрице ПП РФ №1119: категория ПДн (общедоступные / специальные / биометрические) × тип актуальной угрозы (1–3) × число субъектов (порог 100 000). Обучающий датасет медицинской или финансовой информации при числе субъектов свыше 100 000 чаще всего попадает в УЗ-2 или УЗ-3.

Приказ ФСТЭК №21 содержит группу мер РСБ (регистрация событий безопасности) и группу АНЗ (анализ защищённости). Для УЗ-3 базовый набор требует реализации мер РСБ.1–РСБ.3 (сбор и хранение логов) и АНЗ.1 (выявление уязвимостей). Membership inference прямо в методологии ФСТЭК не упомянут, но подпадает под угрозы НСД к ПДн — и значит, должен быть закрыт техническими мерами из базового набора по соответствующему УЗ.

«Приказ ФСТЭК №21 от 18.02.2013 — 15 групп мер защиты: ИАФ (идентификация и аутентификация), УПД (управление правами доступа), РСБ (регистрация событий), АНЗ (анализ защищённости), ОЦЛ (обеспечение целостности), ЗИС (защита информационной системы). Конкретный базовый набор мер зависит от установленного УЗ.»

На практике типичная ошибка CTO — определить УЗ-3 для боевой ИСПДн, но не распространить режим защищённости на тестовые среды и пайплайны обучения модели. При этом обучающая выборка формируется именно в dev/staging окружении, которое остаётся за пределами периметра сертифицированных СЗИ. Именно там membership inference наиболее реален.

Что считается обезличиванием для ML и какие методы допускает регулятор?

Обезличивание ПДн для задач машинного обучения — устранение прямых и косвенных идентификаторов из датасета способом, исключающим обратное восстановление личности субъекта без дополнительной информации. С 2025 года применяются 5 методов, закреплённых в подзаконном акте РКН: введение идентификаторов (псевдонимизация), изменение состава и семантики, декомпозиция, перемешивание, обобщение и агрегация.

Membership inference атака на псевдонимизированный датасет остаётся актуальной: если модель обучена на записях с заменёнными идентификаторами, но сохранившейся структурой редких признаков (возраст + диагноз + регион), атака может установить факт участия субъекта в выборке даже без знания имени. Регулятор не формулирует прямого запрета на такую обработку, но ст. 5 ФЗ-152 требует, чтобы объём и состав ПДн соответствовали целям обработки. Использование обогащённых датасетов с редкими признаками для обучения общей коммерческой модели — потенциальная претензия при проверке РКН.

«Ст. 5 ФЗ-152: данные должны быть точными и достаточными, не избыточными по отношению к целям обработки; хранятся не дольше, чем требует цель. Ст. 13.1 ФЗ-152 (введена ФЗ-233 от 08.08.2024) — регулирование обезличенных ПДн с 2025 года, включая передачу обезличенных данных в ЕИП НСУД по требованию Минцифры.»

Технически допустимый минимум для ML-пайплайна: применить хотя бы два метода из пяти (например, псевдонимизацию + обобщение числовых признаков), задокументировать методологию в рамках поручения обработки по ст. 6 ФЗ-152 и зафиксировать результат в отчёте DPIA. Логирование запросов к модели в production — отдельное требование, поскольку сами запросы могут содержать ПДн и тоже подлежат защите.

Что подготовить CTO до аудита ML-пайплайна

  • Определить УЗ для каждой ИСПДн, задействованной в обучении модели, по матрице ПП РФ №1119 с учётом категорий ПДн и числа субъектов в датасете.
  • Документировать методы обезличивания датасета по перечню РКН (введение идентификаторов, изменение состава, декомпозиция, перемешивание, обобщение) и приложить к техническому заданию на ML-проект.
  • Включить пайплайн обучения (dev/staging) в периметр мер защиты по Приказу ФСТЭК №21 наравне с боевой системой.
  • Настроить логирование запросов к модели (в том числе inference API) как событий безопасности по группе РСБ Приказа ФСТЭК №21 и хранить логи не менее трёх лет.
  • При мультиарендной SaaS-архитектуре заключить договор поручения обработки с каждым тенантом по ст. 6 ч. 3 ФЗ-152 и зафиксировать разграничение данных между тенантами в архитектурной документации.

Типовые сценарии: как membership inference превращается в правовой риск

Сценарий 1. Общая рекомендательная модель SaaS-платформы. Платформа обучает единую рекомендательную модель на поведенческих данных всех тенантов. Один из тенантов через adversarial запросы к inference API устанавливает, что пользователи конкурента присутствуют в обучающей выборке. Квалификация: несанкционированный доступ к ПДн по ст. 272 УК и нарушение условий поручения обработки (ст. 6 ФЗ-152). Стратегия: разделить модели по тенантам или применить технику дифференциальной приватности; задокументировать поручение с явным запретом перекрёстного использования данных.

Сценарий 2. Датасет медицинских записей без достаточного обезличивания. Клиника передала агрегатор-стартапу обучающую выборку с псевдонимизированными записями пациентов (диагнозы, возраст, регион). Membership inference на готовой модели позволяет установить факт участия конкретного пациента с редким диагнозом. Квалификация: обработка специальной категории ПДн без надлежащего согласия (ч. 2 ст. 13.11 КоАП, штраф 300 000–700 000 ₽), при повторности — ч. 2.1, штраф 1–1,5 млн ₽. При наличии умысла и масштабе — ст. 272.1 УК. Стратегия: перед передачей применить обобщение редких категорий до уровня, при котором k-анонимность соблюдается, задокументировать в DPIA.

Сценарий 3. Утечка через открытый inference endpoint. Стартап опубликовал demo-версию модели с открытым API без ограничений на частоту запросов. Исследователь за 10 000 запросов восстановил состав ~15 000 субъектов из обучающей выборки и опубликовал результат. Квалификация: утечка ПДн от 10 000 до 100 000 субъектов — ч. 13 ст. 13.11 КоАП, штраф 5–10 млн ₽; неуведомление РКН в 24 часа — ч. 11, штраф 1–3 млн ₽. При повторности — оборотный по ч. 15. Стратегия: rate limiting, authentication, мониторинг аномалий на inference endpoint; регламент реагирования на утечку с 24-часовым таймером.

Если CTO обнаружил признаки membership inference — или хочет исключить этот риск до начала проверки РКН — аудит ИСПДн по чек-листу из 38 пунктов выявит уязвимые места пайплайна до того, как это сделает регулятор. 30 дней до включения в реестр операторов не останавливают уже идущую внеплановую проверку.

Заказать аудит 152-ФЗ

Как это применяется на практике

Кейс 1. IT-компания (Северо-Западный ФО, весна 2026) обнаружила, что исследователь безопасности через публичный inference API её рекомендательного сервиса восстановил факт участия около 12 000 пользователей в обучающей выборке и направил уведомление об уязвимости. Технический директор в течение 20 часов с момента получения уведомления направил первичное сообщение в РКН, через 68 часов — отчёт о расследовании с описанием мер устранения. Компания задокументировала применение трёх методов обезличивания, инвестиции в доработку архитектуры составили более 0,1% выручки за три года. При рассмотрении дела в суде штраф по ч. 13 ст. 13.11 КоАП был снижен до нижней границы диапазона с учётом добросовестного реагирования и применения ст. 4.1 КоАП о смягчающих обстоятельствах.

Кейс 2. Медицинский стартап (Центральный ФО, лето 2025) передал обучающую выборку с псевдонимизированными данными 8 400 пациентов подрядчику ML-разработки без договора поручения обработки. После проверки РКН компания получила протокол по ч. 2 ст. 13.11 КоАП (обработка без надлежащего правового основания) со штрафом в диапазоне нескольких сотен тысяч рублей. Договор поручения обработки и документация DPIA, подготовленные после инцидента, позволили обжаловать постановление и добиться снижения штрафа в судебном порядке.

Частые вопросы

1. Какой УЗ выбрать для SaaS?

Уровень защищённости определяется по матрице ПП РФ №1119 от 01.11.2012: категория ПДн (общедоступные, специальные, биометрические), тип актуальной угрозы (1–3) и число субъектов. Для многопользовательской SaaS-платформы с обработкой общедоступных ПДн более 100 000 субъектов и угрозами 2-го типа — как правило, УЗ-3. При наличии специальных категорий (здоровье, биометрия) — УЗ-2 или УЗ-1. Определение УЗ нужно закрепить в акте классификации ИСПДн и согласовать с ответственным за обработку ПДн по ст. 22.1 ФЗ-152.

2. Можно ли использовать иностранные облака?

С 01.07.2025 требование локализации по ч. 5 ст. 18 ФЗ-152 распространяется на первичный сбор и запись ПДн граждан РФ: эти операции допустимы только в базах данных, физически расположенных в России. Хранение и последующая трансграничная передача возможны при соблюдении требований ст. 12 ФЗ-152 — с предварительным уведомлением РКН. Использование иностранного облака (AWS, GCP, Azure) для хранения обучающих датасетов с ПДн российских пользователей без российской копии — нарушение ч. 8 ст. 13.11 КоАП (штраф 1–6 млн ₽). Обучение модели на иностранной инфраструктуре при наличии локализованной копии — в правовой серой зоне; позиция РКН формируется.

3. Что такое обезличивание для ML?

Обезличивание для ML — это применение методов из перечня РКН (введение идентификаторов, изменение состава и семантики, декомпозиция, перемешивание, обобщение) к обучающему датасету таким образом, чтобы модель не «запоминала» атрибуты конкретных субъектов. Простая псевдонимизация (замена имени на токен) недостаточна: membership inference атака успешна на псевдонимизированных данных с редкими признаками. Технически более надёжны методы дифференциальной приватности (differential privacy), однако российский регулятор пока не признаёт их явно. Минимальный комплаенс: документировать применённые методы по перечню РКН и включить оценку остаточного риска в DPIA.

4. Кто оператор в мультиарендной SaaS?

В мультиарендной SaaS-архитектуре оператором по отношению к конечным пользователям-субъектам выступает, как правило, тенант (клиент платформы), который определяет цели и способы обработки. Платформа действует как лицо, осуществляющее обработку по поручению оператора (ст. 6 ч. 3 ФЗ-152), и обязана заключить договор поручения с каждым тенантом. Если платформа самостоятельно определяет, как использовать агрегированные данные тенантов (например, для обучения общей модели), она становится самостоятельным оператором в этой части и несёт полную ответственность по ФЗ-152 без возможности сослаться на поручение.

5. Какие СЗИ обязательны?

Конкретный набор средств защиты информации определяется базовым набором мер для установленного УЗ по Приказу ФСТЭК №21. Для УЗ-3 к обязательным относятся: средства идентификации и аутентификации (группа ИАФ), разграничение прав доступа (УПД), регистрация событий безопасности (РСБ), защита от вредоносного ПО (АВЗ), анализ защищённости (АНЗ), защита информационной системы (ЗИС). СЗИ должны быть сертифицированы ФСТЭК для УЗ-3 и выше. Для ML-инфраструктуры отдельных обязательных СЗИ не установлено, однако пайплайн обучения должен быть включён в периметр защищённой ИСПДн.

Итог

Membership inference атака — это точка пересечения ML-инженерии и правового регулирования ПДн. Модель, обученная с переобучением на реальных пользовательских данных без надлежащего обезличивания, превращается в вектор утечки — даже если оригинальный датасет физически уничтожен. Правовая рамка ФЗ-152 не делает исключения для ML-пайплайнов: требования УЗ по ПП РФ №1119, меры защиты по Приказу ФСТЭК №21 и обязанность уведомить РКН об утечке за 24 часа применяются вне зависимости от того, как именно были скомпрометированы данные.

DATUM сопровождает IT-компании и SaaS-платформы в оценке рисков ML-систем по ФЗ-152: определение УЗ, DPIA с учётом membership inference угроз, документирование методов обезличивания, договоры поручения обработки для мультиарендных архитектур.

Услуги DATUM по теме

АГ
Аналитик · Технологии и ИБ
Аналитик DATUM по технологиям и ИБ. Специализация — УЗ-1..4 (ПП РФ №1119), Приказ ФСТЭК №21, обезличивание ПДн для ML, реагирование на утечки за 24/72 часа, ст. 272.1 УК.

14 января 2029 года