Известия: Обученье — вот чума: почему тренировка нейросетей может быть опасной
На прошлой неделе стало известно, что российское правительство собирается проверять модели искусственного интеллекта, которые обучили на государственных данных, на предмет угрозы безопасности государства и обороны страны. В этой новости интересно само допущение обучения нейросетей на госданных. Вопрос, с какой информацией работать, — не праздный: использование в этих целях реальных документов, персональных данных и чувствительной для компании или государства информации может привести к серьезным последствиям. Как сейчас регулируется обучение искусственного интеллекта и почему за этим нужно внимательно следить, — разбирались «Известия».
Будут ли обучать ИИ на госданных
Правительство РФ в период с 2025 по 2026 год планирует провести
О каких государственных данных идет речь, в Минцифры не сообщили, заявив лишь, что будут «поддерживать развитие ИИ, в том числе в рамках нового нацпроекта».
А до этого
Эксперты уже выразили опасения в связи с возможными утечками госданных при обучении нейросетей.
При этом буквально на дняхпрезидент Владимир Путин подписал два федеральных закона, ужесточающих ответственность за утечки. Теперь санкции для компаний могут достигать 15 млн рублей. Кроме того, возможны оборотные штрафы в зависимости от совокупной годовой выручки компании за предыдущий год. А в Уголовный кодекс введена статья 272.1, которая касается незаконного хранения и распространения персональных данных.
Почему опасно обучать ИИ на реальных данных
Главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин отмечает, что обучение на реальных документах может быть плохой идеей, потому что они так или иначе подгружаются в систему искусственного интеллекта.
— Многие исследования показывают, что данные внутри нейросети сохраняются, и при использовании тех или иных техник — будь то prompting или
Архитектор
Член комитета Госдумы по информационной политике, информационным технологиям и связи Антон Немкин замечает, чтодля минимизации этих рисков необходимо соблюдать строгие меры безопасности и этические стандарты: данные должны быть анонимизированы и зашифрованы перед обучением модели.
— И важно внедрять механизмы, предотвращающие «запоминание» конфиденциальной информации, и разрабатывать методы защиты от атак на приватность, — заявил депутат.
Руководитель
— Однако компании обычно скрывают, какую конкретно информацию задействовали для обучения коммерческих
Руководитель отдела анализа данных и машинного обучения Naumen Татьяна Зобнина, впрочем, уверена, чтони одна серьезная компания не возьмется нарушать ни лицензионные соглашения, ни законодательство в области персональных данных, ни договор с заказчиком. Ведь всё это приведет к репутационным и финансовым рискам.
Как можно обучить ИИ работе с документами
Периодически обвинения в том, что нейросети обучают на персональных данных, звучат в адрес разных компаний. Так, недавно с этими обвинениями столкнулся крупный стартап Dbrain. Утверждалось, что компания якобы не только обучает свои программы на реальных паспортах граждан, переданных микрофинансовыми организациями, но также использует эту информацию для работы сервисов по автоматизированной проверке документов краудсорсеров, то есть живых людей, которые за «копейки» получают чужие паспорта на проверку. В Dbrain обвинения в свой адрес отвергли.
— Хотим подчеркнуть, что эта информация является недостоверной и не соответствует действительности. Мы строго соблюдаем все стандарты обработки персональных данных, в том числе требования №
Между тем, говорит Роман Душкин, краудсорсинг на рынке действительно активно применяется многими компаниями для разметки данных перед обучением ИИ.В последние годы появились отдельные платформы, краудсорсинг вырос в большую индустрию и подотрасль в этой области.
— Кому попадают данные с этих платформ — вообще неизвестно. Поэтомуслужба информационной безопасности на предприятиях должна тщательно отслеживать, как обучаются модели и куда могут передаваться данные. В крупных российских компаниях, например в «Росатоме», за этим очень внимательно следят, — подчеркнул Роман Душкин.
Дмитрий Федотов отмечает, что у промышленных компаний есть свои требования и стандарты в области информационной безопасности, которым должен соответствовать внедряемый подрядчиком продукт. И всегда его проверку проводит служба информационной безопасности.
Алексей Хахунов добавил, что его компания при обучении моделей искусственного интеллекта использует либо синтетические документы, то есть полностью сгенерированные, либо работает в «контуре» заказчика, когда продукт полностью интегрирован в инфраструктуру клиента и данные не покидают ее пределы. Так,
Гендиректор Smart Engines, доктор технических наук Владимир Арлазаров рассказал, что компанияиспользует специально созданные модели поддельных документов на реальном носителе. Такую подделку фотографируют — и уже на основе изображения происходит генерация виртуальных объектов для обучения нейросети.
— Такое решение показывает прекрасные результаты и при этом находится полностью в рамках закона. Единственная задача любой
Как регулируется обучение ИИ сейчас
Профессор кафедры философии, онтологии и теории познания, ведущий эксперт лаборатории цифровых технологий в гуманитарных науках НИЯУ МИФИ, д. ф. н. Катерина Тихомирова, однако, полагает, что синтезированные данные подходят для тренировки модели лишь на первых этапах разработки. Далее придется использоватьнастоящие, считает собеседница «Известий».
По ее словам, данные для обучения не заканчиваются: проблема в том, что нет достаточного количества размеченных текстов, а также появляются
— Если сферу не будут регулировать на государственном уровне, работу будут сопровождать скандалы о сливах данных. Первый закон о защите личных данных уже был принят. Нужен еще один или поправки к первому о запрете передачи информации
При этом она уверена, что создание «русского суверенного ИИ» возможно лишь при обеспечении государством доступа к данным и оплате труда
Академический руководитель магистерской программы «Анализ данных в девелопменте» факультета компьютерных наук НИУ ВШЭ Мария Горденко отмечает, что сейчас в стране есть лишь рекомендации и законодательные инициативы по обучению нейросетей. В частности, в 2021 году был принят Кодекс этики, в котором подчеркивается, что акторы ИИ должны соблюдать законодательство РФ, а также использовать качественные и репрезентативные наборы данных, полученные без нарушения закона. Пока его исполнение не является обязательным. Но сейчас уже ведется разработка государственных стандартов в области ИИ, говорит Роман Душкин. По его мнению, для критических областей такие стандарты должны стать обязательными.
Антон Немкин отмечает, что Россия сейчас изучает опыт ЕС и Китая в регулировании
Однако Владимир Арлазаров замечает, что пока даже законы «О персональных данных», «О коммерческой тайне» и «Об основах охраны здоровья граждан» компании соблюдают не всегда, поэтому и о дополнительной регуляции говорить сегодня нет смысла.
— К тому же любой специальный закон о правилах обучения ИИ через несколько лет после принятия неизбежно устареет, ведь технологии не стоят на месте, — заявил собеседник «Известий». — Чтобы снизить риски, связанные с безопасностью информации, важно не принимать новые законы, а соблюдать и модернизировать действующие.
В то же время Алексей Хахунов из Dbrain уверен, что рынок «стремится к максимальной прозрачности».
Фото: Известия