Перейти к содержанию
аналитика 16 февраля 2029 По состоянию на 16 февраля 2029

Bias в моделях и дискриминация

Bias в ML-моделях — это систематическое отклонение предсказаний, связанное с признаками, которые ФЗ-152 относит к специальным категориям ПДн: расовой и национальной принадлежности, состоянию здоровья, религиозным убеждениям.
С 30.05.2025 повторная утечка обучающей выборки с такими данными влечёт оборотный штраф по ч. 15 ст. 13.11 КоАП — 1–3% годовой выручки, но не менее 20 млн ₽. Ст. 272.1 УК РФ (с 11.12.2024) добавляет уголовную ответственность до 10 лет за незаконное использование ПДн в компьютерных системах.
→ Если CTO строит скоринг, рекомендательную или HR-модель на исторических данных — ниже разбор правовых рисков и технических мер, которые закрывают требования ФЗ-152, Приказа ФСТЭК №21 и ПП РФ №1119.

Алгоритмическая дискриминация перестала быть абстракцией. Российский регулятор в 2023–2025 годах зафиксировал десятки случаев, когда модели принимали решения по признакам, которые закон запрещает использовать без отдельного согласия. Для CTO это означает двойной риск: технический (модель «закрепляет» исторические неравенства) и правовой (обработка спецкатегорий ПДн без оснований). Разбираем, где проходит граница, как её не пересечь и что делать, если модель уже обучена на подозрительных данных.

Почему bias в ML — это вопрос ФЗ-152, а не только этики?

Классический технический подход рассматривает bias как статистическую проблему: модель «подтягивается» к паттернам обучающей выборки и воспроизводит их на инференсе. Правовой подход добавляет к этому другой вопрос: какие признаки попали в выборку и на каком основании они обрабатывались.

По ст. 10 ФЗ-152 обработка специальных категорий ПДн — сведений о расовой и национальной принадлежности, политических взглядах, состоянии здоровья, интимной жизни, судимости — допустима только при наличии явного основания из закрытого перечня п. 2 той же статьи. Если модель обучалась на исторических данных кредитного скоринга, медицинских страховок или отборочных HR-воронок — велика вероятность, что спецкатегории присутствуют неявно: в признаке «район проживания», «название работодателя», «диагноз в анамнезе».

«Ст. 10 ФЗ-152 запрещает обработку специальных категорий ПДн — сведений о расовой принадлежности, состоянии здоровья, судимости и ряда других — без оснований, прямо перечисленных в п. 2 той же статьи. Отсутствие явного поля "национальность" в датасете не означает, что спецкатегория не обрабатывается: прокси-признаки (геолокация, язык общения, история болезни) могут выполнять ту же функцию.»

Проблема усиливается при мультиарендной SaaS-архитектуре. Оператор, который предоставляет ML-платформу нескольким заказчикам, фактически обрабатывает данные нескольких контроллеров в одной инфраструктуре. Роль оператора и обработчика по поручению (п. 3 ст. 6 ФЗ-152) здесь нередко смешиваются, и это прямо влияет на то, кто несёт ответственность за состав обучающей выборки.

Как технический выбор признаков создаёт правовые риски?

В практике аудитов DATUM повторяется одна конфигурация: команда data science убрала «чувствительные» поля из датасета, но оставила признаки, коррелирующие с ними. Модель воспроизводит дискриминацию по полу, возрасту или этнической принадлежности через косвенные переменные. С точки зрения ФЗ-152 это всё равно обработка: именно для квалификации признака как ПДн достаточно, что информация прямо или косвенно относится к определённому физическому лицу (ст. 3 ФЗ-152).

Приказ ФСТЭК №21 в группе мер ОПС (ограничение программной среды) требует контролировать состав обрабатываемых данных на каждом этапе жизненного цикла ИСПДн. Для ML-систем это означает документированный feature registry с пометкой правового основания для каждого признака. Отсутствие такого реестра — типовое замечание при плановых проверках РКН, фиксируемое в актах как нарушение ст. 18.1 ФЗ-152 (не обеспечена возможность демонстрации соответствия).

Уровень защищённости ИСПДн по ПП РФ №1119 зависит от категории данных и числа субъектов. Если в обучающей выборке свыше 100 000 субъектов со спецкатегориями ПДн — модель попадает в УЗ-1 вне зависимости от типа угрозы. Это означает обязательную сертификацию СЗИ и максимальный набор мер из Приказа ФСТЭК №21.

Ваша ML-модель обучена на исторических данных — как оценить правовые риски?

Техническая команда видит признаки и метрики модели, но не всегда — правовое основание для каждого признака в датасете. Если CTO не уверен, есть ли в выборке спецкатегории ПДн или прокси-признаки, — это вопрос аудита, а не рефакторинга. Ошибка в квалификации данных даёт РКН основание для штрафа по ч. 1 ст. 13.11 КоАП (150–300 тыс. ₽) уже при первом нарушении, а при утечке такой выборки — по ч. 12–14 (3–15 млн ₽).

Заказать аудит 152-ФЗ

Ответим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru · Telegram

Что требует закон от оператора, использующего автоматизированные решения?

ФЗ-152 содержит прямую норму об автоматизированных решениях в ст. 16: решения, порождающие правовые последствия для субъекта или существенно затрагивающие его интересы, не могут приниматься исключительно на основе автоматизированной обработки без возможности оспаривания. Норма распространяется на кредитный скоринг, автоматический отказ в найме, динамическое ценообразование по профилю клиента.

Обязанности оператора в этом случае: уведомить субъекта о факте автоматизированного решения, обеспечить право на возражение и пересмотр с участием человека. Отсутствие такого механизма — основание для предписания РКН и штрафа по ч. 5 ст. 13.11 КоАП (50–90 тыс. ₽ за невыполнение требования субъекта), а при повторности — по ч. 5.1 (300–500 тыс. ₽).

Для обезличивания данных, передаваемых в ML-пайплайн, с 2025 года действует регуляторный фреймворк по ст. 13.1 ФЗ-152 (введена ФЗ-233 от 08.08.2024). Приказ РКН определяет пять методов: введение идентификаторов, изменение состава и семантики, декомпозиция, перемешивание, обобщение. Для ML наиболее практичны обобщение (агрегация) и введение псевдонимов — они сохраняют статистические свойства выборки, необходимые для обучения.

Что подготовить CTO перед запуском ML-модели на персональных данных

  • Feature registry: перечень признаков датасета с правовым основанием обработки по ст. 6 или ст. 10 ФЗ-152 для каждого поля.
  • Определение УЗ по ПП РФ №1119: категория ПДн × тип угрозы × число субъектов — документ с расчётом и подписью ответственного.
  • Договор поручения обработки по п. 3 ст. 6 ФЗ-152 с облачным провайдером или ML-платформой, включая требования к локализации (ч. 5 ст. 18 ФЗ-152).
  • Процедура оспаривания автоматизированных решений по ст. 16 ФЗ-152: форма обращения субъекта, срок ответа (10 рабочих дней), назначенный ответственный.
  • Журнал обезличивания: метод по Приказу РКН, дата применения, идентификатор датасета — для демонстрации при проверке.

Как разграничить роли оператора и обработчика в мультиарендной SaaS?

Спор о роли — один из самых частых в IT-комплаенсе. Классическая схема: SaaS-вендор предоставляет инфраструктуру и модель, заказчик загружает данные своих клиентов. По умолчанию заказчик — оператор, вендор — обработчик по поручению (п. 3 ст. 6 ФЗ-152). Но эта схема разрушается, как только вендор начинает использовать данные заказчика для дообучения общей модели: в этот момент он самостоятельно определяет цели и способы обработки и становится соператором или самостоятельным оператором.

Правовые последствия существенны. Соперирование означает солидарную ответственность по ст. 13.11 КоАП. Если утечка произошла из общей обучающей выборки, штраф может быть предъявлен как вендору, так и заказчику. Практика ВС РФ подтверждает: оператор отвечает за утечку через подрядчика, если договор поручения не ограничивал состав передаваемых данных.

Для SaaS-компаний, работающих с несколькими арендаторами, технически необходима изоляция обучающих выборок по арендатору (tenant isolation) и явный запрет в договоре на использование данных одного арендатора для обучения моделей других. Это снижает риск переквалификации роли вендора с обработчика на оператора.

Если CTO строит мультиарендную SaaS на ML и не разграничил роли оператор/обработчик в договорах — проверка РКН может переквалифицировать вас в соператора. DPIA поможет зафиксировать роли до инцидента, а не после. Срок реагирования при утечке — 24 часа (ч. 3.1 ст. 21 ФЗ-152), и договорная неопределённость в этот момент работает против вас.

Провести DPIA

Как это применяется на практике

Кейс 1. IT-компания (Сибирский ФО, осень 2024) разрабатывала HR-платформу с автоматизированным ранжированием кандидатов. Аудит DATUM выявил, что модель использовала признак «учебное заведение» как прокси для социально-экономического статуса, который коррелировал с этнической принадлежностью кандидатов. Данные обрабатывались без правового основания по ст. 10 ФЗ-152. После аудита вендор исключил признак, провёл повторное обучение на обобщённых данных и получил документально подтверждённый feature registry. РКН при плановой проверке не выявил нарушений.

Кейс 2 (из реестра DATUM). Финтех-компания (Уральский ФО, начало 2025) использовала SaaS-платформу зарубежного вендора для скоринга. Договор поручения обработки не ограничивал использование данных для дообучения модели вендора. При утечке части обучающей выборки РКН квалифицировал компанию как соператора. Итог: штраф в сотни тысяч рублей по ч. 1 ст. 13.11 КоАП и предписание о расторжении договора в части, противоречащей ч. 5 ст. 18 ФЗ-152 (локализация). Пересмотр договора и добавление ограничительных условий позволили сохранить сервис.

Услуги DATUM по теме

Частые вопросы

1. Какой УЗ выбрать для SaaS-платформы, обрабатывающей данные нескольких заказчиков?

УЗ определяется по ПП РФ №1119 для каждого арендатора отдельно: берётся максимальный по категории ПДн (общие, специальные, биометрические) и числу субъектов (порог 100 000). Если хотя бы один арендатор передаёт спецкатегории и число субъектов превышает 100 000 — вся инфраструктура должна обеспечивать УЗ-1. На практике для SaaS с изолированными хранилищами по арендатору УЗ можно определять посекционно, если изоляция технически подтверждена и задокументирована.

2. Можно ли использовать иностранные облака для хранения обучающих выборок с ПДн граждан РФ?

Нет. Ч. 5 ст. 18 ФЗ-152 требует, чтобы запись, систематизация, накопление, хранение, уточнение и извлечение ПДн граждан РФ осуществлялись в базах данных, расположенных в России. Хранение обучающей выборки в AWS us-east или Azure Europe — прямое нарушение локализации. Штраф по ч. 8 ст. 13.11 КоАП — 1–6 млн ₽, при повторности (ч. 9) — 6–18 млн ₽. Исключение — передача данных за рубеж после первичного сбора в РФ, и только при соблюдении требований ст. 12 ФЗ-152 о трансграничной передаче.

3. Что такое обезличивание для ML и чем оно отличается от анонимизации?

Обезличивание по ст. 13.1 ФЗ-152 — это обратимое преобразование, при котором связь данных с конкретным субъектом устраняется без уничтожения данных. Приказ РКН закрепляет пять методов: введение идентификаторов, изменение состава/семантики, декомпозиция, перемешивание, обобщение. Анонимизация — необратимое удаление идентификации; после неё данные выходят из-под режима ПДн. Для ML предпочтительны методы обобщения и псевдонимизации: они сохраняют статистические свойства выборки, нужные для обучения, и при этом соответствуют требованиям регулятора.

4. Кто является оператором в мультиарендной SaaS — вендор или заказчик?

По умолчанию заказчик — оператор (он определяет цели и состав обработки), вендор — обработчик по поручению согласно п. 3 ст. 6 ФЗ-152. Роль вендора меняется на оператора, если он использует данные заказчика для собственных целей — в том числе для дообучения общей ML-модели. В этом случае возникает соперирование и солидарная ответственность по ст. 13.11 КоАП. Для корректного разграничения договор поручения должен явно запрещать использование данных за пределами задачи заказчика.

5. Какие СЗИ обязательны для ML-системы по Приказу ФСТЭК №21?

Конкретный набор зависит от определённого УЗ. Для УЗ-3 и УЗ-4 обязательны меры по группам ИАФ (идентификация и аутентификация), УПД (управление доступом), РСБ (регистрация событий — логирование), АВЗ (антивирусная защита), ЗИС (защита информационной системы). Для УЗ-1 и УЗ-2 добавляются сертифицированные ФСТЭК средства криптографической защиты и требования к СОВ (системе обнаружения вторжений). Применение несертифицированных СЗИ при УЗ-1/2 — нарушение ст. 19 ФЗ-152 и основание для предписания.

Итог

Bias в ML-моделях — это не только техническая проблема воспроизведения исторических неравенств. Это правовой риск обработки спецкатегорий ПДн по ст. 10 ФЗ-152 без надлежащего основания, неверного определения УЗ по ПП РФ №1119 и смешения ролей оператора и обработчика в SaaS-архитектурах. С 30.05.2025 цена ошибки при повторной утечке — оборотный штраф по ч. 15 ст. 13.11 КоАП от 20 млн ₽, а с 11.12.2024 — потенциальная уголовная ответственность по ст. 272.1 УК РФ.

DATUM сопровождает IT-компании в определении УЗ для ML-систем, проведении DPIA, разграничении ролей в SaaS-договорах и выстраивании feature registry с правовым обоснованием каждого признака обучающей выборки.

АГ
Аналитик · Технологии и ИБ
Аналитик DATUM по технологиям и ИБ. Специализация: УЗ-1..4 (ПП РФ №1119), Приказ ФСТЭК №21, обезличивание ПДн для ML, реагирование на утечки за 24/72 часа, ст. 272.1 УК.