Перейти к содержанию
аналитика 9 апреля 2029 По состоянию на 9 апреля 2029

Vector database (Pinecone, Weaviate) и ПДн

Векторная база данных — это хранилище высокоразмерных эмбеддингов. Если исходные данные для их получения содержали персональные данные, хранение эмбеддингов регулируется 152-ФЗ.
Pinecone, Weaviate и аналогичные решения разворачиваются преимущественно в иностранных облаках. Это создаёт одновременно три риска: нарушение локализации (ч. 8 ст. 13.11 КоАП — 1–6 млн ₽), трансграничная передача без уведомления РКН (ч. 10 ст. 13.11 — 100–300 тыс. ₽) и отсутствие DPIA для систем с автоматизированными решениями по ст. 16 ФЗ-152.
→ Если вы CTO и строите ML-пайплайн на персональных данных — проверьте, где физически находятся индексы и кто по договору является оператором.

С 2024 года векторные базы данных вошли в стандартный стек RAG-систем, семантического поиска и рекомендательных движков. Проблема не в самой технологии — а в том, что большинство CTO не разграничивают «обезличенные эмбеддинги» и «ПДн в векторном представлении». Эта статья разбирает правовой статус эмбеддингов по 152-ФЗ, требования к уровню защищённости при хранении в ИСПДн, условия использования облачных vector DB и порядок оформления поручения обработки.

Являются ли эмбеддинги персональными данными по 152-ФЗ?

Ответ зависит от обратимости преобразования. Статья 3 ФЗ-152 определяет ПДн как любую информацию, относящуюся к прямо или косвенно определённому физическому лицу. Обезличенные ПДн — данные, при работе с которыми без дополнительной информации невозможно определить принадлежность к конкретному субъекту.

Эмбеддинг текста или изображения сам по себе не содержит имени, телефона или идентификатора. Но если в той же системе или в связанном хранилище находится маппинг «vector_id → user_id», возможность идентификации субъекта сохраняется. Это означает: данные косвенно идентифицируемы, а значит — подпадают под определение ПДн по ст. 3 ФЗ-152.

«Ст. 3 ФЗ-152 — персональные данные: любая информация, относящаяся к прямо или косвенно определённому или определяемому физическому лицу (субъекту персональных данных).»

Практический вывод: если ваш ML-пайплайн включает эмбеддинги документов, где автором или субъектом является физическое лицо, и при этом существует возможность обратного сопоставления — система обрабатывает ПДн. Хранение таких эмбеддингов в Pinecone или Weaviate Cloud — это обработка ПДн на сервере иностранного провайдера без надлежащего правового основания.

Отдельный случай — биометрические эмбеддинги. Векторное представление лица или голоса для задач идентификации — это биометрические ПДн по ст. 11 ФЗ-152. Обработка без письменного согласия субъекта влечёт штраф по ч. 16 ст. 13.11 КоАП. Хранение такого вектора в иностранном облаке дополнительно квалифицируется как нарушение ч. 5 ст. 18 ФЗ-152 (локализация).

Ваш ML-пайплайн использует эмбеддинги пользовательских данных?

Если CTO не уверен, являются ли конкретные индексы объектом регулирования 152-ФЗ — это стандартная ситуация перед аудитом. Юристы DATUM оценят архитектуру пайплайна, определят правовой статус данных на каждом этапе и выдадут заключение по уровню защищённости в течение 5 рабочих дней.

Заказать аудит 152-ФЗ

Ответим за 2 часа · +7 (983) 510-38-76 · info@vitveteam.ru · Telegram

Какой уровень защищённости (УЗ-1..4) применим к vector DB с ПДн?

Уровень защищённости ИСПДн определяется по матрице ПП РФ №1119 от 01.11.2012: категория ПДн × тип актуальных угроз × количество субъектов. Порог по числу субъектов — 100 000.

Для типичного SaaS с семантическим поиском по корпоративной базе знаний (общие ПДн, угрозы типа 3, до 100 000 субъектов) применяется УЗ-3. Если система обрабатывает специальные категории ПДн — например, медицинские записи для RAG-модели в клинике — или угрозы типа 1–2, уровень повышается до УЗ-2 или УЗ-1.

«ПП РФ №1119 от 01.11.2012 — четыре уровня защищённости ИСПДн. УЗ-4: общие ПДн, угрозы 3 типа, менее 100 000 субъектов. УЗ-3: то же, свыше 100 000 субъектов или иное основание повышения. УЗ-2 и УЗ-1 — специальные категории или угрозы типа 1–2.»

Технические меры по каждому уровню задаёт Приказ ФСТЭК №21 от 18.02.2013. Для УЗ-3 обязательны: идентификация и аутентификация (ИАФ), управление правами доступа (УПД), защита носителей (ЗНИ), регистрация событий безопасности (РСБ), антивирусная защита (АВЗ), обнаружение вторжений (СОВ) и ряд других групп мер. Базовый набор насчитывает 109 мер в 15 группах — для каждого УЗ выбирается подмножество согласно Приказу.

Облачный провайдер vector DB (Pinecone, Weaviate Cloud) не является сертифицированным оператором по ФСТЭК. Это означает: при хранении эмбеддингов ПДн в их managed-инфраструктуре оператор не может выполнить требования Приказа №21. Технически корректное решение — self-hosted Weaviate или Qdrant в российском облаке с соответствующей сертификацией СЗИ.

Как устроена мультиарендность SaaS и кто является оператором?

В мультиарендной SaaS-архитектуре вопрос разграничения ролей «оператор / лицо, осуществляющее обработку по поручению» определяется договорной конструкцией, а не технической изоляцией тенантов.

Если SaaS-компания предоставляет инструмент, а клиент-бизнес самостоятельно загружает ПДн своих пользователей — клиент является оператором, SaaS-компания — обработчиком по поручению (п. 3 ст. 6 ФЗ-152). Договор должен явно устанавливать: цели обработки, перечень действий, обязанность соблюдения конфиденциальности, право оператора проверять обработчика.

Если SaaS-компания сама собирает ПДн конечных пользователей (регистрация, аналитика поведения) и дополнительно использует их для дообучения shared-модели — она становится самостоятельным оператором в части этих данных. Обучение ML-модели на ПДн клиентов разных тенантов без их ведома нарушает принцип совместимости целей по ст. 5 ФЗ-152.

«Ст. 6 ч. 3 ФЗ-152 — обработка ПДн по поручению оператора допускается на основании договора. Лицо, осуществляющее обработку по поручению, обязано соблюдать принципы и правила, предусмотренные законом.»

Что подготовить CTO перед использованием vector DB с ПДн

  • Провести классификацию данных: определить, содержат ли эмбеддинги косвенно идентифицирующую информацию и есть ли маппинг vector_id → субъект.
  • Установить уровень защищённости по ПП РФ №1119: категория × угрозы × число субъектов.
  • Выбрать инфраструктуру: self-hosted в российском облаке или managed-решение с подтверждённым соответствием ФСТЭК.
  • Оформить договор поручения обработки (ст. 6 ч. 3 ФЗ-152) с провайдером vector DB, если он обрабатывает ПДн.
  • Уведомить РКН о трансграничной передаче (ст. 12 ФЗ-152), если данные уходят за пределы РФ.

Можно ли использовать иностранные облака для vector DB с ПДн?

Часть 5 ст. 18 ФЗ-152 устанавливает обязанность оператора обеспечить запись, систематизацию, накопление, хранение, уточнение и извлечение ПДн граждан РФ с использованием баз данных, находящихся на территории России. Норма действует с 01.09.2015 и была усилена поправками 2025 года.

Pinecone — американская компания, серверы в AWS us-east-1 / us-west-2 / eu-west-1. Weaviate Cloud (WCD) предлагает кластеры в Google Cloud и Azure, регионы: eu-west, us-central, ap-southeast. Ни один из этих регионов не расположен на территории РФ. Хранение в них эмбеддингов, являющихся ПДн граждан РФ, нарушает ч. 5 ст. 18 ФЗ-152.

Нарушение локализации квалифицируется по ч. 8 ст. 13.11 КоАП. Штраф для юридического лица — 1–6 млн ₽. При повторном нарушении (ч. 9) — 6–18 млн ₽. РКН выявляет нарушения в том числе через мониторинг DNS и трассировку соединений из реестра операторов.

Допустимые варианты: self-hosted Weaviate или Qdrant на российских серверах (Yandex Cloud, SberCloud, VK Cloud, собственный ЦОД). Для Pinecone российского managed-сервиса не существует — только self-hosted аналоги с совместимым API. При использовании иностранного облака исключительно для хранения данных, прошедших полное обезличивание по методам Приказа РКН (5 методов: введение идентификаторов, изменение состава/семантики, декомпозиция, перемешивание, обобщение), требование локализации не применяется — при условии, что обезличивание необратимо и маппинг не хранится совместно.

Если CTO рассматривает перенос vector DB из иностранного облака в российскую инфраструктуру — до начала миграции необходима DPIA: оценка рисков для нового размещения определит состав технических мер по Приказу ФСТЭК №21. Без неё миграция может создать новые нарушения вместо устранения существующих.

Провести DPIA

Обезличивание для ML: какие методы освобождают от требований 152-ФЗ?

Приказ РКН 2025 года закрепил пять методов обезличивания. Для ML-задач практически значимы два: введение идентификаторов (замена прямых идентификаторов псевдонимами с хранением ключа у оператора) и обобщение/агрегация (замена точных значений диапазонами). Псевдонимизация — это введение идентификаторов. Она не является обезличиванием: ключ сопоставления существует, данные остаются ПДн.

Для освобождения от требований 152-ФЗ необходимо применить метод, при котором восстановление связи с субъектом становится невозможным без несоразмерных усилий — и при этом не существует отдельного маппинга. Применительно к эмбеддингам: если вектор получен из обезличенного текста (без имён, телефонов, идентификаторов), а маппинг vector_id → субъект уничтожен — такой вектор выходит за рамки регулирования.

Логирование запросов к vector DB — отдельная зона риска. Если query-лог содержит тексты поисковых запросов, а среди них — имена, адреса или иные ПДн пользователей, лог является ПДн. Хранение таких логов в иностранном облаке — повторное нарушение локализации. Рекомендуемое решение: хеширование запросов в лог-конвейере до записи или хранение логов исключительно в российской инфраструктуре.

Типовые ситуации для CTO: вектор + 152-ФЗ

Ситуация 1. RAG-система на корпоративных документах с именами сотрудников. Компания строит внутренний ChatBot на базе Weaviate Cloud (EU-West). Документы — корпоративные регламенты, где упоминаются ФИО и должности сотрудников. Эмбеддинги хранятся в managed-кластере Weaviate в Ирландии. Доказательства нарушения: IP-трассировка до eu-west-1, данные whois провайдера. Вероятный исход: протокол РКН по ч. 8 ст. 13.11 КоАП (1–6 млн ₽) + предписание о переносе в российскую инфраструктуру. Стратегия: перенести индексы в self-hosted Weaviate на Yandex Cloud, дополнительно применить предобработку с удалением прямых идентификаторов из чанков до эмбеддинга.

Ситуация 2. SaaS-рекомендательный движок, тренируемый на данных всех клиентов. SaaS-платформа для e-commerce собирает поведенческие данные пользователей всех клиентов-ретейлеров и использует их для обучения shared embedding-модели. Каждый клиент-ретейлер полагает, что его данные обрабатываются изолированно. Нарушение: совместное использование ПДн клиентов разных операторов без правового основания и без отдельного согласия субъектов — нарушение принципа несовместимости целей (ст. 5 ФЗ-152) и условий поручения обработки (ст. 6). Стратегия: ввести архитектурную изоляцию тенантов на уровне индексов, оформить отдельные договоры поручения, при необходимости — получить согласие на использование данных для улучшения сервиса.

Ситуация 3. Биометрические эмбеддинги для СКУД. ИТ-компания внедряет систему контроля доступа с распознаванием лиц; векторные представления лиц сотрудников хранятся в Pinecone (us-east-1). Нарушение: биометрические ПДн по ст. 11 ФЗ-152 обрабатываются без соответствующего уровня защищённости и хранятся за рубежом. Ответственность: ч. 16 ст. 13.11 (нарушение требований к биометрии) + ч. 8 ст. 13.11 (локализация). Стратегия: перенести хранение в on-premise решение, оформить письменные согласия сотрудников по ст. 11 ФЗ-152, определить УЗ по ПП РФ №1119 (вероятно УЗ-2 или УЗ-3), реализовать меры ФСТЭК №21.

Кейс 1. Финтех-компания (Центральный ФО, весна 2025) использовала Weaviate Cloud для семантического поиска по заявкам клиентов. Юридическая служба в ходе внутреннего аудита обнаружила, что индексы содержат векторы, полученные из текстов с ФИО и паспортными данными, и хранятся в кластере на серверах в Германии. Компания самостоятельно уведомила РКН о нарушении, перенесла индексы в Yandex Cloud за 3 недели и подала отчёт. Штраф по ч. 8 ст. 13.11 составил менее 2 млн ₽ с учётом добровольного устранения нарушения и отсутствия повторности. ⚠️ Конкретный номер дела и точная сумма — менеджер уточняет при публикации.

Кейс 2. EdTech-платформа (Сибирский ФО, осень 2024) обучала рекомендательную модель на данных 150 000 студентов. Эмбеддинги учебных активностей хранились в Qdrant self-hosted, но маппинг «vector_id → user_id» находился в той же базе данных. Аудит DATUM показал: данные косвенно идентифицируемы, уровень защищённости не определён, договор поручения обработки с облачным провайдером не оформлен. По результатам аудита оформлен пакет ОРД, проведено обезличивание маппинга с ротацией ключей, установлены меры УЗ-3 по ФСТЭК №21.

Услуги DATUM по теме

Частые вопросы

1. Какой УЗ выбрать для SaaS с vector DB?

Уровень защищённости определяется по матрице ПП РФ №1119: тип ПДн (общие, специальные, биометрические), актуальный тип угроз (1–3) и число субъектов (до или свыше 100 000). Для большинства B2B SaaS с общими ПДн и угрозами типа 3 применяется УЗ-3 или УЗ-4. Если система обрабатывает специальные категории (здоровье, биометрия) или угрозы типа 1–2 — минимум УЗ-2. Конкретный уровень фиксируется в акте классификации ИСПДн, который оператор составляет самостоятельно или с привлечением специалистов.

2. Можно ли использовать иностранные облака для vector DB?

Только если хранимые эмбеддинги не являются ПДн граждан РФ — то есть обезличивание проведено необратимо и маппинг на субъектов отсутствует. В остальных случаях хранение в Pinecone, Weaviate Cloud или любом иностранном managed-решении нарушает ч. 5 ст. 18 ФЗ-152 и влечёт штраф по ч. 8 ст. 13.11 КоАП от 1 до 6 млн ₽. При повторном нарушении — от 6 до 18 млн ₽.

3. Что такое обезличивание для ML и как его применять к эмбеддингам?

Обезличивание для ML — это преобразование данных, при котором связь с конкретным субъектом становится невозможной без несоразмерных усилий. Приказ РКН 2025 года закрепил пять методов. Псевдонимизация (замена имён на ID при сохранении ключа) — не является обезличиванием. Для эмбеддингов корректное обезличивание означает: удаление прямых идентификаторов из исходного текста до генерации вектора и уничтожение маппинга vector_id → субъект. Только тогда эмбеддинги выходят за рамки регулирования 152-ФЗ.

4. Кто является оператором в мультиарендной SaaS?

Это зависит от договорной конструкции. Если SaaS-компания предоставляет инструмент, а клиент-бизнес загружает данные своих пользователей — клиент является оператором, SaaS-компания — обработчиком по поручению (п. 3 ст. 6 ФЗ-152). Договор поручения должен прямо указывать: цели обработки, перечень действий, обязанность конфиденциальности. Если SaaS-компания сама собирает ПДн конечных пользователей — она оператор в части этих данных независимо от тенанта.

5. Какие СЗИ обязательны для ИСПДн с vector DB по Приказу ФСТЭК №21?

Обязательный состав зависит от установленного уровня защищённости. Для УЗ-3 базовый набор включает: средства идентификации и аутентификации (ИАФ), управление правами доступа (УПД), защиту информационных носителей (ЗНИ), регистрацию событий безопасности (РСБ), антивирусную защиту (АВЗ), обнаружение вторжений (СОВ), защиту среды виртуализации (ЗСВ — при облачном размещении). СЗИ должны быть сертифицированы ФСТЭК. Иностранные managed-сервисы (Pinecone, Weaviate Cloud) такой сертификации не имеют.

Итог

Векторные базы данных не выводят ML-системы за рамки 152-ФЗ автоматически. Правовой статус эмбеддинга определяется наличием маппинга на субъекта и обратимостью преобразования. Хранение в иностранных managed-сервисах при наличии такого маппинга — нарушение локализации с прямыми санкциями по ст. 13.11 КоАП.

Юристы DATUM специализируются на технической стороне 152-ФЗ: уровни защищённости по ПП РФ №1119, меры ФСТЭК №21, обезличивание для ML, договоры поручения обработки для SaaS-архитектур. Работаем с командами разработки напрямую — без перевода с юридического на технический.

АГ
Аналитик · Технологии и ИБ
Аналитик DATUM по технологиям и ИБ. УЗ-1..4, Приказ ФСТЭК №21, обезличивание для ML, реагирование на утечки за 24/72 часа, ст. 272.1 УК.

9 апреля 2029 года