Публикации

В пресс-центр

TAdviser: Опубликован проект постановления по созданию единой базы обезличенных данных россиян

Опубликован проект постановления по созданию единой базы обезличенных данных россиянНа портале обсуждения нормативно-правовых актов опубликован проект постановления правительства РФ «О государственной информационной системе, предназначенной для обработки персональных данных, полученных в результате обезличивания персональных данных…«[1], который предполагается обсуждать до 28 февраля. В нём правительство предлагает зафиксировать возможность обработки обезличенных персональных данных только с помощью государственной информационной системы (ГосИС) «Единая информационная платформа национальной системы управления данными» (ЕИП НСУД). Запланированный срок вступления постановления в силу — 1 сентября 2025 года.

В документе установлены две роли в процессе сбора и обработки обезличенных персональных данных:

  • Поставщики — операторы информационных систем персональных данных
  • Пользователи — государственные органы и подведомственные им организации, муниципальные органы и подведомственные им организации, органы государственных внебюджетных фондов, а также граждане РФ и российские юридические лица.

Из этого определения не совсем понятно, предполагает ли доступ к данным для юридических лиц возможность коммерческого использования собираемых данных. В качестве целей сбора обезличенной информации указано только «повышение эффективности государственного и муниципального управления и иные цели, предусмотренные федеральными законами.

Обезличенные данные — это информация, из которой удалены личные идентификаторы, такие как имя, адрес или номер телефона, что затрудняет определение конкретного человека, — пояснил для читателей TAdviser Павел Карасев, бизнес-партнер «Компьютерные технологии». — Существует риск, что при сочетании различных наборов данных можно восстановить личность человека, особенно если данные будут неправильно обезличены или защищены. Поэтому необходимо обеспечить строгие меры безопасности и четкие процедуры обезличивания, чтобы минимизировать риски повторной идентификации. Обезличивание данных включает методы, которые удаляют или маскируют личные идентификаторы, делая невозможным определение личности без дополнительной информации.

В проекте также вводится такое понятие как «состав данных», которое, похоже, призвано заменить англоязычный термин «датасет». Оно определяется так: «состав персональных данных, полученных в результате обезличивания персональных данных, сгруппированных по определенному признаку, при условии, что последующая обработка таких данных не позволит определить принадлежность таких данных конкретному субъекту персональных данных».

Сбор персональных данных в единую государственную систему не опаснее, чем в обычные ИСПДн, — прокомментировал для TAdviser ситуацию с разработкой постановления Евгений Царев, управляющий RTM Group. — Утечки из ГосИС происходят гораздо реже, чем из коммерческих. Причиной тому является не только достойный уровень защиты, но и невысокий интерес злоумышленников — практически те же самые данные почти всегда можно получить из менее защищенных источников, например, маркетплейсов.

Его мнение разделяют и некоторые другие эксперты. Впрочем, они все-таки ожидают интерес к базе со стороны злоумышленников.

Уровень опасности подобной ГосИС ровно такой, как и при сборе других больших объемов данных, — считает Олег Босенко, директор дирекции кибербезопасности IBS. — На какое-то время эта система будет «привлекательной» для хакеров. С одной стороны как новый ресурс для взлома, с другой — для поиска реальных, а не обезличенных данных. Но при построении и функционировании эффективной защиты системы этот интерес постепенно снизится до обычных статистических параметров атак. Также существенным моментом следует считать необходимость обеспечения безопасности на стыке реальных ИСПДн и указанной системы. Этот стык является критичным в плане кибератак.

Надежду на более качественную защиту ГосИС высказала в разговоре с TAdviser и Марина Александровская, управляющий партнер сервиса 1OPD.ru:

К ГосИС предъявляются высокие требования по информационной безопасности. Эти требования включают в себя: защиту данных от несанкционированного доступа, обеспечение устойчивости к кибератакам, контроль за обработкой и передачей данных, гарантии отказоустойчивости и доступности. При подключении компании к ГосИС она фактически становится частью единой системы защиты данных. Это накладывает соответствующие обязательства по обеспечению безопасности. В настоящее время Минцифры России разрабатывает специальные инструменты, которые будут гарантированно обезличивать ПД. При этом уже действует приказ Роскомнадзора «Об утверждении требований и методов по обезличиванию персональных данных», который устанавливает допустимые методы обезличивания и требования к ним.

Основными методами обезличивания являются маскирование, агрегация, дифференциальная приватность и подмешивание синтетических данных

Ключевым вопросом как для защиты персональных данных, так и для их дальнейшего использования в качестве «составов данных», например, для обучения моделей искусственного интеллекта, являются методы обезличивания.

Важно понимать, что даже обезличенные данные могут представлять риск повторной идентификации при использовании продвинутых аналитических методов, — предупредил TAdviser Дмитрий Лукьянов, генеральный директора сервиса «Скорозвон». — Необходимо обеспечить, чтобы применяемые технологии обезличивания соответствовали международным стандартам (например, GDPR, ISO/IEC 20889) и исключали возможность обратного восстановления личности. В частности, хранение квази-идентификаторов (геолокация, профессия) может повысить риски деанонимизации. В государственных системах такие риски особенно актуальны из-за масштаба данных — утечка может затронуть миллионы граждан.

Неудачные примеры реализации подобных методов обезличивания привел TAdviser Михаил Тевс, руководитель юридической службы «Cистемы управления идентификацией» (IDX):

Известные случаи показывают, что деанонимизировать можно очень многое. Так, в 2006 году Netflix опубликовал обезличенные данные пользователей для конкурса по улучшению рекомендаций. Исследователи сопоставили их с публичными рейтингами (звездами-отзывами) на IMDb, восстановив личности части пользователей. А в 2013 году деанонимизировали данные о передвижениях такси Нью-Йорка, используя время и место посадки/высадки, что позволило идентифицировать водителей и их клиентов. Данные всегда потенциально уязвимы, централизация их хранения делает их более привлекательными как для кибератак, так и для утечек по халатности исполнителей. Так, в 2017 году данные 198 млн американских избирателей, собранные компанией Deep Root Analytics, были утеряны из-за ошибки в настройках облачного хранилища.

Да и сами нормы закона № 152-ФЗ «О защите персональных данных» не являются безупречными. Так, Дамир Садеков, директор юридического департамента компании Rapporto, обратил внимание на следующую выдержку из этого федерального закона:

«Обезличивание персональных данных — действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных». В определении есть оговорка: «без использования дополнительной информации». Само определение закладывает возможность того, что обезличенные персональные данные могут перестать быть обезличенными, быть деаномизированы.

Правда, для этого нужно привлечение дополнительной информации, например, в виде уже утекших баз персональных данных. Если же вспомнить, что количество записей в утекших базах данных уже превышает число граждан России, то, получается, вероятность восстановления данных может оказаться сильно больше нуля.

Для обезличивания данных есть необходимая нормативная база, — заявил TAdviser Дамир Садеков. — Понятие дано в законе «О персональных данных». Методы обезличивания конкретизирует, в частности, приказ Роскомнадзора от 5 сентября 2013 года № 996 «Об утверждении требований и методов по обезличиванию персональных данных». Этот приказ выделяет несколько методов обезличивания данных: например, метод изменения состава или семантики персональных данных (путём замены результатами статистической обработки, обобщения либо удаления части сведений), метод декомпозиции (когда массив данных разбивается на несколько подмножеств, которые хранятся отдельно).

Скорее всего, именно приказ Роскомнадзора и будет основным при выборе методов обезличивания персональных данных. Дело в том, что в проекте постановления в качестве обладателя базы обезличенных персональных данных выступает Минцифры, а Роскомнадзор является его подведомственной службой, которая отвечает за работу с персональными данными. Так что, вполне возможно, приказ № 996 как раз и будет распространен на разработанную в рамках принятого постановления ГосИС.

Дмитрий Лукьянов напомнил, что процесс обезличивания данных может включать в себя выполнение следующих действий:

  • Маскирование (удаление прямых идентификаторов);
  • Генерацию синтетических данных (зашумление на уровне записей);
  • Дифференциальную приватность (добавление «шума» на уровне полей),
  • Агрегацию (предоставление данных в виде статистики).

По данным эксперта, сейчас в России для реализации указанных выше методов обезличивания используются продукты таких компаний как «Крипто Про» (шифрование), «СёрчИнформ» (маскирование) и несколько решений на базе искусственного интеллекта (генерация синтетических данных). Однако их эффективность зависит от настройки и контекста. Например, для медицинских данных требуются более строгие методы, чем для анализа потребительского поведения.

На рынке достаточно давно существуют решения по обезличиванию (маскированию) критичных данных, которые чаще всего применяются для создания тестовых сред, — пояснил рыночную ситуацию для читателей TAdviser Олег Гиацинтов, технический директор DIS Group. — В основном они применяются сейчас коммерческими структурами для ограничения доступа к данным при необходимости новых связанных с ними разработок или доработок ПО. Те же инструменты обычно имеют у себя в составе функции сверки полученных обезличенных данных с реальными на предмет подтверждения невозможности возврата к реальным критичным данным. Эта работа относится к сфере информационной безопасности.

Однако пока непонятно, какие именно инструменты будут использоваться в ЕИП НСУД. Проект постановления только обсуждается, и в него могут быть добавлены требования, которые не сможет из коробки реализовать ни один готовый продукт.

В части обезличивания данных основным фактором являются используемые алгоритмы и инструменты обезличивания, а также выстроенные процессы безопасности, — считает Александр Хонин, руководитель отдела консалтинга и аудита Angara Security. — Исходя из этого, уже можно говорить о существующих рисках ИБ в отношении такой единой базы данных. Какой-то информации о конкретных продуктах сейчас нет, поэтому комментировать что-то конкретно сложно. Но такая база быть востребована при обмене данными между государственными организациями, а также частным сектором в рамках решения их производственных задач.

В то же время методы обезличивания могут повлиять на качество подготовленных в результате составов данных. Например, генерация синтетических данных с помощью ИИ не улучшает качество набора данных для принятия решений на уровне госуправления. Как проверить качество добавленных синтетических данных, сейчас непонятно.

Одна из заявленных целей — обучение отечественных систем искусственного интеллекта, — пояснил читателям TAdviser Александр Метальников, эксперт направления безопасности промышленных предприятий Infosecurity. — Также такие данные могут быть полезны для модернизации транспортной инфраструктуры, градостроительства и других социально значимых задач. Однако существует вероятность, что они будут использованы и для изучения потребительских привычек, что может привести, например, к использованию их в таргетированной рекламе. Важно, чтобы такие данные действительно служили общественным интересам, а не коммерческим или иным целям в ущерб приватности граждан.

Поэтому методы обезличивания при построении такой важной системы должны, с одной стороны, не позволять идентифицировать конкретного человека, а с другой — сохранять общие характеристики выборки для статистического анализа или обучения нейронных сетей. Если транспортная инфраструктура или решение по градостроительству будет принято на основе синтетических данных обезличивания, то весь проект может принести не только пользу.

Для контроля качества обезличивания может применяться, например, аудит по стандартам ISO/IEC 27559, — считает Михаил Тевс. — Кажется, что в ЕИП НСУД необходимо внедрить подобные инструменты и привлечь независимых аудиторов. Но пока мы ничего не слышали и об этом. Проект ЕИП НСУД запрещает выгрузку данных, но отсутствие прозрачности в доступе (например, какие организации и на каких условиях получат информацию) создает риски их использования в непубличных целях. Обезличенные данные в ЕИП НСУД могут применяться для обучения ИИ-моделей, социально-экономического прогнозирования, оптимизации госуслуг. Здесь отметим, что цели усложняют ситуацию еще больше. Во-первых, не все методы обезличивания позволяют использовать затем эти данные в датасетах. Во-вторых, как будет регулироваться модель ИИ, обученная на датасетах с персональными данными, когда она будет выпущена за пределы контура ЕИП НСУД?

Фото: www.tadviser.ru