TAdviser: Опубликован проект постановления по созданию единой базы обезличенных данных россиян
На портале обсуждения
В документе установлены две роли в процессе сбора и обработки обезличенных персональных данных:
- Поставщики — операторы информационных систем персональных данных
- Пользователи — государственные органы и подведомственные им организации, муниципальные органы и подведомственные им организации, органы государственных внебюджетных фондов, а также граждане РФ и российские юридические лица.
Из этого определения не совсем понятно, предполагает ли доступ к данным для юридических лиц возможность коммерческого использования собираемых данных. В качестве целей сбора обезличенной информации указано только «повышение эффективности государственного и муниципального управления и иные цели, предусмотренные федеральными законами.
Обезличенные данные — это информация, из которой удалены личные идентификаторы, такие как имя, адрес или номер телефона, что затрудняет определение конкретного человека, — пояснил для читателей TAdviser Павел Карасев,
В проекте также вводится такое понятие как «состав данных», которое, похоже, призвано заменить англоязычный термин «датасет». Оно определяется так: «состав персональных данных, полученных в результате обезличивания персональных данных, сгруппированных по определенному признаку, при условии, что последующая обработка таких данных не позволит определить принадлежность таких данных конкретному субъекту персональных данных».
Сбор персональных данных в единую государственную систему не опаснее, чем в обычные ИСПДн, — прокомментировал для TAdviser ситуацию с разработкой постановления Евгений Царев, управляющий RTM Group. — Утечки из ГосИС происходят гораздо реже, чем из коммерческих. Причиной тому является не только достойный уровень защиты, но и невысокий интерес злоумышленников — практически те же самые данные почти всегда можно получить из менее защищенных источников, например, маркетплейсов.
Его мнение разделяют и некоторые другие эксперты. Впрочем, они
Уровень опасности подобной ГосИС ровно такой, как и при сборе других больших объемов данных, — считает Олег Босенко, директор дирекции кибербезопасности IBS. — На
Надежду на более качественную защиту ГосИС высказала в разговоре с TAdviser и Марина Александровская, управляющий партнер сервиса 1OPD.ru:
К ГосИС предъявляются высокие требования по информационной безопасности. Эти требования включают в себя: защиту данных от несанкционированного доступа, обеспечение устойчивости к кибератакам, контроль за обработкой и передачей данных, гарантии отказоустойчивости и доступности. При подключении компании к ГосИС она фактически становится частью единой системы защиты данных. Это накладывает соответствующие обязательства по обеспечению безопасности. В настоящее время Минцифры России разрабатывает специальные инструменты, которые будут гарантированно обезличивать ПД. При этом уже действует приказ Роскомнадзора «Об утверждении требований и методов по обезличиванию персональных данных», который устанавливает допустимые методы обезличивания и требования к ним.
Основными методами обезличивания являются маскирование, агрегация, дифференциальная приватность и подмешивание синтетических данных
Ключевым вопросом как для защиты персональных данных, так и для их дальнейшего использования в качестве «составов данных», например, для обучения моделей искусственного интеллекта, являются методы обезличивания.
Важно понимать, что даже обезличенные данные могут представлять риск повторной идентификации при использовании продвинутых аналитических методов, — предупредил TAdviser Дмитрий Лукьянов, генеральный директора сервиса «Скорозвон». — Необходимо обеспечить, чтобы применяемые технологии обезличивания соответствовали международным стандартам (например, GDPR, ISO/IEC 20889) и исключали возможность обратного восстановления личности. В частности, хранение
Неудачные примеры реализации подобных методов обезличивания привел TAdviser Михаил Тевс, руководитель юридической службы «Cистемы управления идентификацией» (IDX):
Известные случаи показывают, что деанонимизировать можно очень многое. Так, в 2006 году Netflix опубликовал обезличенные данные пользователей для конкурса по улучшению рекомендаций. Исследователи сопоставили их с публичными рейтингами (
Да и сами нормы закона №
«Обезличивание персональных данных — действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных». В определении есть оговорка: «без использования дополнительной информации». Само определение закладывает возможность того, что обезличенные персональные данные могут перестать быть обезличенными, быть деаномизированы.
Правда, для этого нужно привлечение дополнительной информации, например, в виде уже утекших баз персональных данных. Если же вспомнить, что количество записей в утекших базах данных уже превышает число граждан России, то, получается, вероятность восстановления данных может оказаться сильно больше нуля.
Для обезличивания данных есть необходимая нормативная база, — заявил TAdviser Дамир Садеков. — Понятие дано в законе «О персональных данных». Методы обезличивания конкретизирует, в частности, приказ Роскомнадзора от 5 сентября 2013 года № 996 «Об утверждении требований и методов по обезличиванию персональных данных». Этот приказ выделяет несколько методов обезличивания данных: например, метод изменения состава или семантики персональных данных (путём замены результатами статистической обработки, обобщения либо удаления части сведений), метод декомпозиции (когда массив данных разбивается на несколько подмножеств, которые хранятся отдельно).
Скорее всего, именно приказ Роскомнадзора и будет основным при выборе методов обезличивания персональных данных. Дело в том, что в проекте постановления в качестве обладателя базы обезличенных персональных данных выступает Минцифры, а Роскомнадзор является его подведомственной службой, которая отвечает за работу с персональными данными. Так что, вполне возможно, приказ № 996 как раз и будет распространен на разработанную в рамках принятого постановления ГосИС.
Дмитрий Лукьянов напомнил, что процесс обезличивания данных может включать в себя выполнение следующих действий:
- Маскирование (удаление прямых идентификаторов);
- Генерацию синтетических данных (зашумление на уровне записей);
- Дифференциальную приватность (добавление «шума» на уровне полей),
- Агрегацию (предоставление данных в виде статистики).
По данным эксперта, сейчас в России для реализации указанных выше методов обезличивания используются продукты таких компаний как «Крипто Про» (шифрование), «СёрчИнформ» (маскирование) и несколько решений на базе искусственного интеллекта (генерация синтетических данных). Однако их эффективность зависит от настройки и контекста. Например, для медицинских данных требуются более строгие методы, чем для анализа потребительского поведения.
На рынке достаточно давно существуют решения по обезличиванию (маскированию) критичных данных, которые чаще всего применяются для создания тестовых сред, — пояснил рыночную ситуацию для читателей TAdviser Олег Гиацинтов, технический директор DIS Group. — В основном они применяются сейчас коммерческими структурами для ограничения доступа к данным при необходимости новых связанных с ними разработок или доработок ПО. Те же инструменты обычно имеют у себя в составе функции сверки полученных обезличенных данных с реальными на предмет подтверждения невозможности возврата к реальным критичным данным. Эта работа относится к сфере информационной безопасности.
Однако пока непонятно, какие именно инструменты будут использоваться в ЕИП НСУД. Проект постановления только обсуждается, и в него могут быть добавлены требования, которые не сможет из коробки реализовать ни один готовый продукт.
В части обезличивания данных основным фактором являются используемые алгоритмы и инструменты обезличивания, а также выстроенные процессы безопасности, — считает Александр Хонин, руководитель отдела консалтинга и аудита Angara Security. — Исходя из этого, уже можно говорить о существующих рисках ИБ в отношении такой единой базы данных.
В то же время методы обезличивания могут повлиять на качество подготовленных в результате составов данных. Например, генерация синтетических данных с помощью ИИ не улучшает качество набора данных для принятия решений на уровне госуправления. Как проверить качество добавленных синтетических данных, сейчас непонятно.
Одна из заявленных целей — обучение отечественных систем искусственного интеллекта, — пояснил читателям TAdviser Александр Метальников, эксперт направления безопасности промышленных предприятий Infosecurity. — Также такие данные могут быть полезны для модернизации транспортной инфраструктуры, градостроительства и других социально значимых задач. Однако существует вероятность, что они будут использованы и для изучения потребительских привычек, что может привести, например, к использованию их в таргетированной рекламе. Важно, чтобы такие данные действительно служили общественным интересам, а не коммерческим или иным целям в ущерб приватности граждан.
Поэтому методы обезличивания при построении такой важной системы должны, с одной стороны, не позволять идентифицировать конкретного человека, а с другой — сохранять общие характеристики выборки для статистического анализа или обучения нейронных сетей. Если транспортная инфраструктура или решение по градостроительству будет принято на основе синтетических данных обезличивания, то весь проект может принести не только пользу.
Для контроля качества обезличивания может применяться, например, аудит по стандартам ISO/IEC 27559, — считает Михаил Тевс. — Кажется, что в ЕИП НСУД необходимо внедрить подобные инструменты и привлечь независимых аудиторов. Но пока мы ничего не слышали и об этом. Проект ЕИП НСУД запрещает выгрузку данных, но отсутствие прозрачности в доступе (например, какие организации и на каких условиях получат информацию) создает риски их использования в непубличных целях. Обезличенные данные в ЕИП НСУД могут применяться для обучения
Фото: www.tadviser.ru