Перейти к содержанию
аналитика 13 января 2029 По состоянию на 13 января 2029

Дообучение LLM на корпоративных данных

Дообучение (fine-tuning) языковой модели на корпоративных данных — это обработка персональных данных по смыслу ст. 3 ФЗ-152, если в обучающей выборке присутствуют сведения, прямо или косвенно идентифицирующие физических лиц.
С 30.05.2025 утечка ПДн, использованных в ML-пайплайне, влечёт штраф от 3 до 15 млн ₽ по ч. 12–14 ст. 13.11 КоАП; при повторности — оборотный штраф до 500 млн ₽ по ч. 15. Уровень защищённости определяется по ПП РФ №1119: в большинстве корпоративных сценариев это УЗ-3 или УЗ-2.
→ Если вы CTO и запускаете пайплайн дообучения LLM — проверьте, прошли ли обучающие данные через сертифицированное обезличивание и зафиксировано ли поручение обработки с вендором модели.

Корпоративный fine-tuning вошёл в стандартную практику IT-команд: модель адаптируется под внутренние регламенты, тикеты, переписку, клиентские обращения. Ни один из этих источников не является технически «анонимным» по умолчанию. Роскомнадзор квалифицирует систематизацию и извлечение сведений о физических лицах как обработку ПДн вне зависимости от того, является ли конечным продуктом текстовый вывод или веса модели. В этой статье — разбор правового режима дообучения, требований ФСТЭК, порядка обезличивания для ML и типовых рисков мультиарендной SaaS-архитектуры.

Почему дообучение LLM попадает под 152-ФЗ?

Формальный порог прост: если в датасете есть строка вида «Иван Петров, телефон 912-…, жалоба на задержку доставки» — это персональные данные, и их систематизация (создание векторной базы, токенизация, формирование батчей) подпадает под понятие «обработка» из ст. 3 ФЗ-152. Вопрос не в том, хранит ли готовая модель эти строки в явном виде, а в том, что они присутствовали в процессе обработки.

Практически в каждом корпоративном датасете встречаются четыре категории сведений, требующих отдельного правового основания: контактные данные клиентов и сотрудников, содержание переписки и обращений, данные о трудовых отношениях (грейды, оценки, причины увольнений), медицинские или финансовые сведения в тикетах службы поддержки. Последние две категории — специальные по ст. 10 ФЗ-152: их обработка по общему правилу запрещена без прямого основания из ч. 2 ст. 10.

«Ст. 5 ФЗ-152 — принцип соответствия объёма целям: оператор не вправе обрабатывать больше данных, чем необходимо для конкретной задачи. Дообучение LLM — это отдельная цель, и она должна быть явно заявлена в уведомлении оператора (ст. 22 ФЗ-152) и в согласии субъекта, если иного правового основания нет.»

Наиболее распространённая ошибка CTO: использование производственной базы данных (БД клиентов, БД сотрудников) как источника для формирования обучающей выборки без отдельного правового основания. Существующее согласие на «обработку в целях исполнения договора» не покрывает машинное обучение — это иная цель по ст. 5 ФЗ-152. Изменение цели без переоформления согласия или смены правового основания образует состав ч. 1 ст. 13.11 КоАП (штраф для юрлица 150–300 тыс. ₽ при первичном нарушении, 300–500 тыс. ₽ при повторном по ч. 1.1).

Запускаете ML-пайплайн на корпоративных данных?

Типичная схема выглядит так: датасет собирается из продакшн-баз, загружается в облачный GPU-кластер, вендор модели получает доступ к данным через API или выгрузку. Каждый из этих шагов — отдельный риск по ст. 13.11 КоАП и ст. 272.1 УК. Юристы DATUM проводят аудит обработки ПДн по чек-листу из 38 пунктов, выявляют правовые разрывы в пайплайне и выдают приоритизированный план устранения нарушений.

Заказать аудит 152-ФЗ

Ответим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru

Какой уровень защищённости (УЗ) выбрать для ML-инфраструктуры?

Уровень защищённости информационной системы персональных данных (ИСПДн) определяется по матрице ПП РФ №1119 от 01.11.2012: категория ПДн × тип актуальных угроз × численность субъектов. Для ML-системы, которая обрабатывает данные сотрудников и клиентов, характерны следующие варианты.

УЗ-3 — минимальный уровень для систем, обрабатывающих иные (не специальные) категории ПДн более 100 000 субъектов при угрозах 3-го типа. Большинство корпоративных датасетов для дообучения попадают именно сюда: контакты клиентов, история обращений, тикеты поддержки. УЗ-2 требуется, если угрозы 2-го типа актуальны или число субъектов специальных категорий превышает пороговое значение. УЗ-1 обязателен при угрозах 1-го типа — когда нарушитель имеет возможность прямого физического доступа к аппаратуре ИСПДн.

«ПП РФ №1119, п. 10–17 — для каждого УЗ установлен обязательный набор организационных и технических мер. Меры конкретизированы в Приказе ФСТЭК №21 от 18.02.2013 (109 мер в 15 группах: ИАФ, УПД, ОПС, ЗНИ, РСБ, АВЗ, СОВ, АНЗ, ОЦЛ, ОДТ, ЗСВ, ЗТС, ЗИС, УКФ, ОПО).»

Для ML-пайплайна критичны три группы мер из Приказа №21. Первая — РСБ (регистрация событий безопасности): логи обращений к датасету, к весам модели, к API инференса. Вторая — ЗНИ (защита носителей информации): шифрование дисков и резервных копий, содержащих обучающую выборку. Третья — УПД (управление правами доступа): ролевая модель, разграничение между командой MLOps, DevOps и бизнес-аналитиками. Логирование обращений к ПДн в контексте ML имеет самостоятельное правовое значение: журнал событий может быть запрошен РКН в ходе проверки как доказательство выполнения требований ст. 19 ФЗ-152.

Как обезличить данные для ML так, чтобы это было признано законным?

Обезличивание — единственный инструмент, позволяющий вывести датасет из-под действия ФЗ-152 после обработки. Если данные обезличены надлежащим образом, к результирующему датасету нормы о ПДн не применяются. Ключевое слово — «надлежащим образом»: метод должен соответствовать перечню, установленному приказом РКН (пять методов: введение идентификаторов, изменение состава и семантики, декомпозиция, перемешивание, обобщение и агрегация).

Псевдонимизация — замена ФИО и телефонов на суррогатные ключи — сама по себе не является обезличиванием по смыслу ФЗ-152, если обратное сопоставление технически возможно хотя бы для оператора. Это распространённое заблуждение в MLOps-командах. Данные считаются обезличенными только тогда, когда идентификация субъекта невозможна без привлечения дополнительной информации, которая хранится отдельно и не передаётся вместе с датасетом.

«Ст. 13.1 ФЗ-152 (введена ФЗ-233 от 08.08.2024) — регулирование обезличенных ПДн: оператор вправе передавать обезличенные данные в ЕИП НСУД по требованию Минцифры. Методы обезличивания — отдельный приказ РКН. Документация применённого метода хранится у оператора и предъявляется при проверке.»

На практике для ML-пайплайна применяется комбинация методов: обобщение (замена точных дат рождения на год и десятилетие, точных адресов на регион), введение идентификаторов (суррогатные ключи с уничтожением таблицы соответствия), декомпозиция (разделение атрибутов, позволяющих выявить личность, в отдельное хранилище без доступа у ML-команды). Важно зафиксировать применённый метод в акте обезличивания — это документ ОРД, который проверяют при аудите РКН. Без акта — нет доказательства обезличивания, значит данные по умолчанию считаются персональными.

Что подготовить CTO перед запуском ML-пайплайна

  • Оценка категорий ПДн в датасете и определение УЗ по матрице ПП РФ №1119.
  • Акт обезличивания с указанием метода (из перечня приказа РКН) и ответственного лица.
  • Договор поручения обработки с вендором модели и облачным провайдером (п. 3 ст. 6 ФЗ-152) с указанием перечня разрешённых операций.
  • Уведомление РКН об изменении цели обработки, если ML-пайплайн не был заявлен в исходном уведомлении по ст. 22 ФЗ-152.
  • Технические меры защиты по Приказу ФСТЭК №21 в объёме, соответствующем определённому УЗ: шифрование, логирование, ролевая модель доступа.

Поручение обработки: кто несёт ответственность при работе с облачным вендором?

В типовой ML-архитектуре задействованы три стороны: компания-оператор, облачный GPU-провайдер (хранит и обрабатывает датасет) и вендор базовой модели (принимает датасет для fine-tuning). По ст. 6 ФЗ-152, оператор вправе поручить обработку третьему лицу, но ответственность перед субъектами остаётся за оператором. Это означает: если облачный провайдер допустит утечку датасета — штраф по ч. 12–14 ст. 13.11 КоАП получит ваша компания, а не провайдер.

Договор поручения обработки обязателен по п. 3 ст. 6 ФЗ-152. В нём должны быть перечислены: цели обработки, перечень действий (загрузка, хранение, обработка для обучения, уничтожение после завершения), обязанность конфиденциальности, требование уничтожить данные по завершении проекта и сроки. Отдельный вопрос — трансграничная передача: если GPU-кластер физически расположен за пределами России, передача данных туда требует уведомления РКН и оценки адекватности защиты в стране размещения (ст. 12 ФЗ-152).

Мультиарендная SaaS-архитектура создаёт дополнительный риск: если в одной ML-инфраструктуре обрабатываются данные нескольких клиентов-операторов, вендор SaaS сам становится лицом, осуществляющим обработку по поручению каждого из них. Смешение данных разных операторов в одной обучающей выборке — прямое нарушение принципа несовместимости целей (ст. 5 ФЗ-152) и условий поручения. Технически это решается изоляцией датасетов на уровне namespace или отдельных инстансов обучения.

Если вы CTO и облачный вендор или GPU-провайдер уже получили доступ к корпоративным данным без договора поручения — это действующее нарушение ч. 1 ст. 13.11 КоАП. Устранение занимает 3–5 рабочих дней при наличии шаблона. Юристы DATUM подготовят полный пакет ОРД под ваш ML-стек, включая договор поручения и акт обезличивания.

Собрать ОРД под ключ

Как это работает на практике: типовые сценарии для CTO

Сценарий 1. Датасет из производственной БД, GPU-кластер в иностранном облаке. Компания выгружает историю клиентских обращений в AWS или Azure для дообучения внутренней модели. Ситуация: данные содержат ФИО, email, историю покупок — иные категории ПДн, более 100 000 субъектов. Передача за рубеж без уведомления РКН и оценки адекватности страны — нарушение ст. 12 ФЗ-152. Нарушение локализации (ч. 5 ст. 18 ФЗ-152, запись и хранение в РФ) — состав ч. 8 ст. 13.11 КоАП (1–6 млн ₽). Стратегия: перейти на российский облачный провайдер или выстроить гибридную схему с локальным хранением датасета и передачей только обезличенных векторов.

Сценарий 2. Fine-tuning через API вендора без договора поручения. Команда MLOps передаёт батчи обучающих данных через API OpenAI-совместимого сервиса. Договора поручения нет, цель «машинное обучение» не указана в уведомлении РКН. Доказательства: технические логи передачи данных фиксируют факт. Вероятный исход при проверке — протокол по ч. 1 ст. 13.11 (до 300 тыс. ₽) и предписание уведомить РКН об изменении цели в течение 30 дней. Стратегия: заключить договор поручения с вендором API, обновить уведомление в РКН, проверить, не является ли вендор иностранным лицом.

Сценарий 3. Утечка весов модели через уязвимость в ML-платформе. В веса дообученной модели методами инверсии (model inversion attack) может быть частично восстановлена обучающая выборка — это признаётся утечкой ПДн. Ситуация: модель развёрнута на общедоступном инференс-эндпоинте без ограничения запросов. Вероятный исход: если в датасете было 10 000–100 000 субъектов — штраф по ч. 13 ст. 13.11 (5–10 млн ₽) и обязанность уведомить РКН в течение 24 часов с момента обнаружения (ч. 3.1 ст. 21 ФЗ-152). Стратегия: ограничить rate-limiting на инференс-API, внедрить дифференциальную приватность при обучении, провести DPIA до деплоя модели.

Как влияет 187-ФЗ о КИИ на ML-инфраструктуру?

Если компания является субъектом критической информационной инфраструктуры (КИИ) по ФЗ-187, ML-система, обрабатывающая ПДн на объекте КИИ, подпадает под требования безопасности КИИ дополнительно к требованиям ФЗ-152. Это означает обязательное использование средств защиты информации (СЗИ), сертифицированных ФСБ и ФСТЭК, независимо от того, применяется ли облачная инфраструктура или on-premise. Для значимых объектов КИИ 1-й категории требования безопасности по своему уровню перекрывают УЗ-1 ФЗ-152 — то есть устанавливают более высокую планку.

На практике большинство финтех-компаний, телеком-операторов и медицинских организаций, внедряющих ML, обязаны пройти категорирование объектов КИИ до запуска новой системы обработки данных. Отсутствие категорирования — отдельный состав административного правонарушения, не связанный с ФЗ-152 напрямую, но регулярно фиксируемый в ходе комплексных проверок.

Практика: что происходит с компаниями, нарушившими 152-ФЗ в ML-контексте

Кейс 1. IT-компания (Северо-Западный ФО, осень 2025) запустила fine-tuning модели для внутреннего чат-бота службы поддержки. Датасет содержал переписку с клиентами, включая телефоны и email. Договор поручения с облачным GPU-провайдером отсутствовал. В ходе планового аудита безопасности выяснилось, что данные хранились в иностранном облаке без уведомления РКН. После самостоятельного обращения в РКН компания получила предписание: устранить нарушение локализации (ч. 8 ст. 13.11 КоАП), переоформить уведомление и заключить договоры поручения. Штраф не был назначен — компания устранила нарушения до возбуждения дела об административном правонарушении. Стоимость приведения в соответствие составила порядка 200 тыс. ₽ (аудит + ОРД + миграция данных на российский провайдер).

Кейс 2 (из реестра — case_S2_pkr_analitika). В деле АС Санкт-Петербурга и Ленинградской области (дело № А56-4733/2026) оператор — цифровая платформа — допустил утечку около 70 000 субъектов в результате хакерской атаки. Данные включали ФИО, должности, служебные email и телефоны. Квалификация — ч. 14 ст. 13.11 КоАП (утечка более 100 000 — порог не достигнут, применена ч. 13). Суд применил смягчающие обстоятельства. Кейс демонстрирует: даже «нечувствительные» данные (должность, рабочий телефон) при масштабе утечки дают основание для многомиллионного штрафа — в ML-контексте это означает, что датасет из корпоративной адресной книги или LDAP формирует тот же риск.

Услуги DATUM по теме

Частые вопросы

1. Какой УЗ выбрать для SaaS-платформы, которая дообучает модели на данных клиентов?

Уровень защищённости определяется по матрице ПП РФ №1119 индивидуально для каждого оператора-клиента. Если SaaS-платформа обрабатывает данные в рамках договора поручения, она обязана обеспечить не ниже того УЗ, который установлен оператором в техническом задании. На практике при иных категориях ПДн и численности субъектов свыше 100 000 — это УЗ-3 как минимум. Если данные клиентов SaaS включают медицинские или финансовые сведения, актуален УЗ-2. Необходимо также учитывать мультиарендность: изоляция данных разных клиентов должна быть технически подтверждена.

2. Можно ли использовать иностранные облака для хранения датасета при дообучении?

По ч. 5 ст. 18 ФЗ-152 запись, систематизация, накопление, хранение и извлечение ПДн граждан РФ должны осуществляться в базах данных, физически расположенных на территории России. Хранение датасета за рубежом нарушает требование локализации и образует состав ч. 8 ст. 13.11 КоАП (1–6 млн ₽). Трансграничная передача данных для обучения в иностранном облаке дополнительно требует уведомления РКН по ст. 12 ФЗ-152. Технически допустима схема: датасет хранится в российском облаке, передаются только обезличенные векторные представления — но факт обезличивания должен быть подтверждён актом.

3. Что такое обезличивание для ML и чем оно отличается от псевдонимизации?

Обезличивание по смыслу ФЗ-152 — это действия, после которых идентификация субъекта без привлечения дополнительной информации невозможна. Псевдонимизация (замена ФИО на суррогатный ключ при сохранении таблицы соответствия у оператора) не является обезличиванием: данные остаются персональными. Для ML применяются методы, установленные приказом РКН: обобщение, введение идентификаторов (с уничтожением ключа), декомпозиция. Дифференциальная приватность как математический механизм может усилить защиту, но её достаточность в контексте ФЗ-152 на момент публикации статьи регулятором официально не подтверждена.

4. Кто является оператором ПДн в мультиарендной SaaS при дообучении модели?

Оператором по ст. 3 ФЗ-152 является лицо, определяющее цели и состав обработки. В SaaS-сценарии это клиент-компания (тенант), которая решает, какие данные загружать и для каких целей дообучать модель. SaaS-вендор действует как лицо, осуществляющее обработку по поручению (п. 3 ст. 6 ФЗ-152). Если вендор самостоятельно использует данные клиентов для улучшения базовой модели или разработки новых функций — он становится самостоятельным оператором, что требует отдельного правового основания и уведомления РКН.

5. Какие СЗИ обязательны для ML-инфраструктуры под обработку ПДн?

Обязательный состав средств защиты информации определяется по Приказу ФСТЭК №21 в зависимости от установленного УЗ. Для УЗ-3 базовый набор включает: идентификацию и аутентификацию (ИАФ), управление доступом (УПД), регистрацию событий безопасности (РСБ), антивирусную защиту (АВЗ), межсетевое экранирование (ЗИС). При УЗ-2 добавляются обнаружение вторжений (СОВ) и контроль конфигураций (АНЗ). Для объектов КИИ (ФЗ-187) СЗИ должны быть сертифицированы ФСБ или ФСТЭК — это исключает большинство иностранных коммерческих решений для ML-безопасности.

Итог

Дообучение LLM на корпоративных данных — полноценная обработка ПДн, требующая отдельного правового основания, уведомления РКН, договоров поручения с каждым вендором инфраструктуры и документально подтверждённого обезличивания датасета. Уровень защищённости ИСПДн для ML-инфраструктуры в большинстве корпоративных сценариев — УЗ-3, а при специальных категориях или угрозах 2-го типа — УЗ-2. Логирование событий и ролевая модель доступа по Приказу ФСТЭК №21 — обязательны, а не опциональны.

Практика DATUM включает сопровождение CTO и CISO при запуске ML-пайплайнов: аудит датасетов на предмет ПДн, разработку актов обезличивания, DPIA до деплоя моделей и договоры поручения с облачными провайдерами. Взаимодействие с РКН при изменении уведомления — в рамках того же проекта.

Есть ML-пайплайн или готовится запуск — оцените риски заранее

DPIA до деплоя модели занимает 3–4 недели и позволяет устранить правовые разрывы до, а не после проверки РКН. Стоимость DPIA — от 200 000 ₽; стоимость штрафа при утечке датасета с более чем 10 000 субъектов — от 5 млн ₽ по ч. 13 ст. 13.11 КоАП. Юристы и технические эксперты DATUM проводят оценку воздействия, выявляют риски и разрабатывают меры защиты применительно к вашей архитектуре. Практика «Ветров и партнёры» по 152-ФЗ с 2014 года.

Провести DPIA

+7 (383) 310-38-76 · +7 (983) 510-38-76 · Telegram · info@vitveteam.ru

АГ
Аналитик · Технологии и ИБ
Аналитик DATUM по технологиям и информационной безопасности. Специализация — уровни защищённости УЗ-1..4 (ПП РФ №1119), Приказ ФСТЭК №21, обезличивание ПДн для ML, логирование, SaaS-инфраструктура, реагирование на утечки за 24/72 часа, ст. 272.1 УК.