Научная статья на тему '2020. 01. 017. Белловин ст. М. , Дутта пр. К. , рейтингер Н. Конфиденциальность и искусственные данные. Bellovin St. M. , Dutta PR. K. , reitinger N. privacy and synthetic datasets // Stanford technology law review. - Stanford, 2019. - Vol. 22, n 2. - p. 1-52. - Mode of access: law. Stanford. Edu/wp-content/uploads/2019/01/bellovin_20190129. Pdf (Дата обращения: 15. 12. 2019. )'

2020. 01. 017. Белловин ст. М. , Дутта пр. К. , рейтингер Н. Конфиденциальность и искусственные данные. Bellovin St. M. , Dutta PR. K. , reitinger N. privacy and synthetic datasets // Stanford technology law review. - Stanford, 2019. - Vol. 22, n 2. - p. 1-52. - Mode of access: law. Stanford. Edu/wp-content/uploads/2019/01/bellovin_20190129. Pdf (Дата обращения: 15. 12. 2019. ) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
62
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЕ ДАННЫЕ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / КОНФИДЕНЦИАЛЬНОСТЬ ДАННЫХ / АНОНИМИЗАЦИЯ / ДИФФЕРЕНЦИРОВАННАЯ КОНФИДЕНЦИАЛЬНОСТЬ / НЕПРИКОСНОВЕННОСТЬ ЧАСТНОЙ ЖИЗНИ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Иванова А.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2020. 01. 017. Белловин ст. М. , Дутта пр. К. , рейтингер Н. Конфиденциальность и искусственные данные. Bellovin St. M. , Dutta PR. K. , reitinger N. privacy and synthetic datasets // Stanford technology law review. - Stanford, 2019. - Vol. 22, n 2. - p. 1-52. - Mode of access: law. Stanford. Edu/wp-content/uploads/2019/01/bellovin_20190129. Pdf (Дата обращения: 15. 12. 2019. )»

дартов шифрования. Об этом говорят рекомендации международной торговой ассоциации FIPP, а также Билль о правах потребителей: «Потребители имеют право на безопасную и ответственную обработку персональных данных...» [с. 30] Поэтому на законодательном уровне, считают авторы, необходимо разработать и установить определенные стандарты безопасности.

Таким образом, постоянно активные устройства собирают информацию о том, кто находится дома, о чем они говорят и что делают. В законодательстве в настоящее время существует пробел в регулировании конфиденциальности пользователей данных устройств. Необходимо выработать правила, нормы и стандарты, которые будут защищать частную жизнь людей и позволят закону идти в ногу с развитием технологий.

А.П. Иванова

2020.01.017. БЕЛЛОВИН Ст.М., ДУТТА Пр.К., РЕЙТИНГЕР Н. КОНФИДЕНЦИАЛЬНОСТЬ И ИСКУССТВЕННЫЕ ДАННЫЕ. BELLOVIN St. M., DUTTA Pr. K., REITINGER N. Privacy and Synthetic Datasets // Stanford technology law review. - Stanford, 2019. -Vol. 22, N 2. - P. 1-52. - Mode of access: law.stanford.edu/wp-content/uploads/2019/01/Bellovin_20190129. pdf (Дата обращения: 15.12.2019.)

Ключевые слова: искусственные данные; информационная безопасность; конфиденциальность данных; анонимизация; дифференцированная конфиденциальность; неприкосновенность частной жизни.

Искусственные данные - достаточно перспективное решение проблем конфиденциальности данных на сегодняшний день. С одной стороны, информация пользователей находится в специальной базе, они могут свободно ею делиться с другими людьми; доступ к многочисленным аспектам жизни потребителей также позволяет развиваться различным отраслям науки и техники. С другой стороны, информация от пользователей остается в тайне, поскольку искусственные данные хотя и отражают исходные, однако не являются их абсолютно точной копией.

На сегодняшний день защита конфиденциальности личной информации в США строится на выделении в законодательстве

наиболее деликатных областей жизни, например здравоохранения или финансовой сферы, информация в которых находится под усиленной защитой государства. Данные в таких сферах подпадают под понятие «персонализированной идентифицируемой информации (P II)» [c. 8]. Такой подход вполне обеспечивает защиту частной жизни, но в то же время он препятствует обмену данными.

Базы данных как простые совокупности данных сами по себе не представляют угрозы для конфиденциальности. Появление баз данных не является новшеством последних лет: до распространения компьютеризированной информации данные о людях хранились в материализованном, чаще всего бумажном, виде. Ввиду того, что сам сбор данных, их сопоставление и компиляция были трудноосуществимы, вопрос о неприкосновенности частной жизни не вставал так остро в общественном сознании. Однако по мере того, как социум начал сливаться с цифровым миром, все процессы взаимодействия с информацией стали доступнее, и, несмотря на свои достоинства, наш современный мир больших данных имеет серьезные недостатки.

Крупнейшие компании, такие как Google, Netflix, Amazon, Facebook и Alphabet, на сегодняшний день обладают обширной информацией о своих пользователях вплоть до самых интимных подробностей. Во многом именно за счет этого обеспечивается значительный прирост их прибыли. Главный вопрос сейчас заключается в том, как организациям употреблять пользовательскую информацию, не нарушая при этом право на неприкосновенность частной жизни?

В первое время в большинстве случаев, для того чтобы сохранять конфиденциальность пользователей и при этом давать им возможность делиться своей личной информацией, использовалась анонимизация: все элементы, по которым возможно было идентифицировать пользователя или группу пользователей, удалялись из совокупности данных.

Однако анонимизация оказалась слишком простым средством для решения такой сложной проблемы, как конфиденциальность данных в Сети. Сейчас идентифицировать человека возможно и без использования его уникальных идентификаторов. Кроме того, с учетом быстрого развития науки и социума, сложно опреде-

лить, какая именно информация является наиболее значимой и необходимой в идентификации того или иного пользователя.

С момента создания анонимизации появились иные способы сохранения конфиденциальности, начиная от к-апошш^у в 1990-х годах, создания специальных компьютерных метрик, которые будут определять уровень конфиденциальности, и заканчивая ныне действующим механизмом дифференцированной конфиденциальности [с. 18-20].

Вместе с тем баланс между эффективным использованием данных и неприкосновенностью частной жизни до сих пор не найден. Например, исследование, посвященное дозированию лекарственного препарата варфарин, показало, что применение дифференцированной конфиденциальности существенно снижает эффективность персонализированной медицины: риски смертельных исходов среди пациентов в результате становятся выше допустимых значений

[с. 21].

Авторы предлагают использовать концепцию искусственных данных, составленных через генеративную модель с поддержкой машинного обучения. Такие данные, не являясь абсолютно идентичными исходному набору данных, обладают теми же статистическими свойствами.

Первым шагом в создании искусственных данных является получение исходного, необработанного набора информации. Авторы статьи использовали данные, полученные лабораторией систем по обнаружению вторжений Университета Колумбия, - данные Вест-Пойнт, в которых содержится вся история компьютерных взаимодействий 63 курсантов в течение одного месяца, в том числе редактирование документов, открытие файлов, просмотр вебстраниц.

Следующий шаг - это выбор нейронной сети, которая будет использоваться для машинного обучения. Белловин, Дутта и Рей-тингер для своего исследования выбрали разновидность архитектуры рекуррентных нейронных сетей - долгую краткосрочную память (Ь8ТМ). Этот тип сетей позволяет не только поддерживать некоторую форму памяти, но и запоминать важные события в течение различных периодов времени.

Исследование авторов показало, что искусственные данные являются действительной альтернативой исходным данным. При

сравнении анализов с использованием исходных данных и искусственных данных выяснилось, что их результаты по большей части неразличимы. Это позволило им сделать вывод о том, что «ученые могут быть столь же продуктивными и с синтезированными данными» [с. 36]

Однако искусственные данные не являются волшебной панацеей для решения проблем информационной безопасности. При использовании их без иных средств защиты, таких как дифференцированная конфиденциальность, риск утечки данных сохраняется ввиду уникальности определенных свойств пользователей.

Кроме того, исследования показали, что, если третье лицо будет иметь доступ к модели машинного обучения, а также будет обладать некоторой дополнительной информацией, например именами пользователей, исходные данные с наибольшей вероятностью будут раскрыты [с. 40].

Как и все методы защиты персональных данных, искусственные данные даже с дифференцированной конфиденциальностью не дают абсолютно положительного результата. Возможны ситуации, в которых необходима высокая точность, в результате чего обезличивание данных почти не применяется и третье лицо сможет восстановить исходные данные с точностью до 99%. Дилемма между предельной полезностью персональной информации и ее конфиденциальностью всё же не может быть полностью разрешена с помощью искусственных данных.

С точки зрения права возникают вопросы: являются ли искусственные данные законными? Защищают ли они конфиденциальность информации хотя бы в той же мере, в какой это предусмотрено действующим законодательством? Для ответа на них необходимо выделить две группы искусственных данных: данные «vanilla» и данные с дифференцированной конфиденциальностью.

Когда в обучении генеративной модели используется информация, не прошедшая процедуру обезличивания, полученные искусственные данные могут считаться данными «vanilla». К сожалению, их использование с большой вероятностью может привести к утечке данных.

В соответствии с одним из самых строгих стандартов конфиденциальности HIPAA, конфиденциальность предполагается, если база данных содержит все семнадцать идентификаторов, такие как

имя, почтовый индекс и т.д. Если в базе данных эти идентификаторы отсутствуют, информация может свободно использоваться.

Разумеется, искусственные данные, скорее всего, не будут содержать никаких «реальных» идентификаторов, описанных в HIPAA, находящихся в исходных данных, - все они будут заменены машинными аналогами. Кроме того, даже если часть информации окажется реальной, это не значит, что личность пользователя обязательно будет раскрыта.

По мнению авторов, если информационную безопасность в какой-либо области будет регулировать закон, устанавливающий жесткие рамки использования данных и не допускающий никакой возможности их утечки, данные окажутся неприменимы. Об этом свидетельствует дело Sander v. State Bar of California. Это может привести, считают они, к чрезмерной защите персональных данных [c. 44]. Но, с другой стороны, защита персональной информации, гарантируемая только искусственными данными, может быть переоценена. Авторы полагают, что важно на законодательном уровне установить баланс между чрезмерной и недостаточной защитой данных в свете нового понимания методов конфиденциальности и возможностей идентификации. На сегодняшний день, когда такой баланс еще не найден, подходящим техническим решением является использование искусственных данных с дифференцированной конфиденциальностью: предельная полезность полученных таким образом данных снизится лишь на 10%, в то время как вероятность идентификации будет практически нулевой [с. 49].

Однако даже у этого технического решения есть свои недостатки: когда полезность данных имеет приоритетное значение, ни синтетические данные, ни дифференциальная конфиденциальность, ни даже их комбинация не смогут должным образом разрешить конфликт между эффективным использованием данных и неприкосновенностью частной жизни. Лучшим вариантом для любого анализа всегда были, есть и будут исходные, настоящие данные. Но когда они недоступны, синтетические данные в сочетании с дифференциальной конфиденциальностью представляют собой отличное решение.

Базы данных на сегодняшний день играют ключевую роль в развитии науки. У исследователей есть возможность собирать и обрабатывать огромные объемы информации, однако современное

законодательство вынуждает их действовать осторожно: правовой статус данных на сегодняшний день весьма неоднозначен. Концепция искусственных данных предлагает прогрессивное решение, которое вполне может стать следующим шагом к ответу на вопрос: как обеспечить максимальную полезность данных, сохраняя при этом их конфиденциальность?

А.П. Иванова

2020.01.018. МИЛКАЙТЕ И., ЛИВЕНС Е. ПРАВА ДЕТЕЙ НА КОНФИДЕНЦИАЛЬНОСТЬ И ЗАЩИТУ ДАННЫХ ВО ВСЕМ МИРЕ: ВЫЗОВЫ В ЦИФРОВОМ КОНТЕКСТЕ. MILKAITE I., LIEVENS E. Children's rights to privacy and data protection around the world: Challenges in the digital realm // European journal of law and technology. - Belfast, 2019. - Vol. 10, N 1. -P. 1-24. - Mode of access: http://ejlt.org/article/view/674/913 (Дата обращения 20.10.2019.)

Ключевые слова: права ребенка; конфиденциальность; защита данных; Конвенция ООН о правах ребенка.

Ингрида Милкайте и Ева Ливенс (кафедра права и технологии Университета Гента, Бельгия) задаются вопросом о том, насколько в современном цифровом мире дети могут реализовывать свои права. В качестве одного из прав, более других подверженных нарушениям онлайн, авторы называют право на конфиденциальность, закрепленное в ст. 16 Конвенции ООН о правах ребенка.

Как показывают опросы, дети осознают, что имеют такое право по отношению к своим родителям или сверстникам. У них, однако, отсутствует понимание того, что их конфиденциальность может быть нарушена государством или коммерческими акторами. При этом информация о детях попадает в интернет еще до рождения - когда в социальные сети выставляются снимки УЗИ, подтверждающие беременность, или чуть позже - когда родители делятся фотографиями новорожденных. Значительный и все более растущий объем данных попадает в руки, как правило, частных компаний, которые могут продать его рекламным и страховым компаниям и политическим партиям.

Утверждение, что у каждого есть право на конфиденциальность, не является чем-то новым. Хотя это положение обеспечива-

i Надоели баннеры? Вы всегда можете отключить рекламу.