Новации в проблематике обезличения персональных данных

Кучин Иван Юрьевич

УДК: 355.01: 004.056

НОВАЦИИ В ПРОБЛЕМАТИКЕ ОБЕЗЛИЧЕНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ

аспирант кафедры «Информационная безопасность», Астраханский государственный технический университет (АГТУ).

В статье исследуются проблемы, связанные с реализацией ФЗ № 152 «О персональных данных», в частности недостаточно полно раскрытые термины «обезличение» и «идентификация» и вытекающие из этого проблемы. Автор предлагает свой способ обезличения персональных данных и рассматривает возможности его применения на практике.

Ключевые слова: персональные данные, обезличение, анонимность, идентификация, защита информации.

П

ути достижения намеченных .в ФЗ № 152 «О персональных данных» [1] (далее - Закон) целей обеспечения безопасности в это сфере, к сожалению, пока не достаточно эффективны. Причин этому несколько, среди которых «шаблонный подход» к реализации требований лишь для подготовки к возможной проверке со стороны контролирующих органов.

Усложняет реальное обеспечение безопасности персональных данных также природа информации, особенности её существования и распространения. По мнению автора, невозможно добиться конфиденциальности информации, если она доступна многим. Не помогут ни сертифицированные средства защиты персональных данных, ни «жёсткие» организационные мероприятия. Если информация появилась на свет, избавиться от неё после этого - непростая задача. Этот тезис доказывается тем фактом, что в сети Internet в продаже и свободном доступе находятся базы данных, содержащие персональные данные целых городов.

Описанные выше проблемы были предсказуемы, учитывались при разработке законодательства в области защиты персональных данных и нашли отражение в ст. 5 «Принципы обработки персональных данных» Закона. Обобщённо принципы обработки персональных данных основываются на их минимизации, недопустимости объединения баз данных и уничтожения идентифицирующей информации из баз данных в определённый момент. На эту статью Закона специалисты по защите информации обращают гораздо меньше внимания, чем на ст. 7

«Конфиденциальность персональных данных», что, как показывает практика, неверно.

Проблема идентификации

Кроме смещённых акцентов на сугубо технические проблемы, до сих по не решён главный вопрос - какой набор данных считать «персональными». Часто термин «персональные данные» употребляется в неопределённо широком смысле: к ним относят практически любые сведения, касающиеся человека. Закон даёт определение персональным данным, в котором основная смысловая нагрузка сводится исключительно к вопросу об идентификации [2, с. 22], что является общепринятой концепцией в европейском законодательстве.

Однако ни в одном законодательном акте РФ (Закон, нормативные документы ФСТЭК и ФСБ России, Роскомнадзора) нет методик, позволяющих судить о том, будет ли в конкретной ситуации идентифицировано лицо. На практике это означает невозможность однозначного определения статуса базы данных (база с персональными данными либо база с обезличенной информацией). В Закон периодически вносятся поправки, которые постепенно приводят его к такому виду, который бы устроил все «заинтересованные» стороны, в то же время рассматриваемые в этой статьей проблемы до сих пор не имеют решения.

В качестве примера преодоления аналогичных трудностей в других странах можно привести руководство Национального института стандартов и технологий США по обеспечению конфиденциальности персональных данных для Федеральных правительственных учреждений [3, с. 4], в котором отдельный раздел посвящён

разъяснению термина «персональные данные», приводится их перечень, обсуждаются проблемы идентификации, в частности введён такой фактор, как «идентифицируемость персональных данных», что напрямую влияет на уровень конфиденциальности персональных данных.

Возможности идентификации личности основываются на индивидуальной неповторимости особенностей каждого человека. При этом происходит установление с помощью идентификационных данных из ряда субъектов того, к кому эта информация относится.

Очевидно, что не вся информация имеет одинаковое значение для идентификации того или иного лица. Если, например, фамилия, имя, отчество, дата и место рождения в своей совокупности, как правило, позволяют идентифицировать лицо, то такие сведения, как, например, семейное, социальное, имущественное положение, образование, профессия не позволяют сами по себе этого сделать. Для того чтобы с их помощью идентифицировать лицо, нужно их «привязать» к идентифицирующей информации, например к паспортным данным [2, с. 25].

Любая критичная информация (диагноз, данные о судимости и т. п.) остаётся таковой до тех пор, пока она соотносится с конкретным человеком (существует связка идентификатор - личные данные). Если в базе персональных данных отсутствуют «идентификаторы», либо они недостаточно полные, чтобы отнести определённую запись к конкретному человеку (произвести идентификацию), то независимо от «критичности» атрибутов базы данных, её раскрытие не принесёт никаких негативных последствий для людей, чьи данные в ней обрабатываются. Именно поэтому обеспечения конфиденциальности персональных данных не требуется в случае их обезличения. Необходимо также отметить, что обезличение удовлетворяет принципу минимальности сбора и обработки персональных данных.

Обезличение персональных данных

Одним из наиболее распространённых примеров использования обезличенной информации является использование статистических данных, из которых были предварительно удалены все идентифицирующие данные.

Очевидно, что применение статистической информации крайне ограничено и сводится, в основным, к исследовательским (научным) работам. После такого «обезличения» информация не имеет ценности не только для злоумышленников, но и для её законного обладателя.

Вторым по распространённости примером использования обезличения является практика, которая применяется преимущественно в медицинских учреждениях, когда

идентифицирующие данные пациента заменяются идентификатором либо вместо «полных» идентификационных данных используется «неполный набор» (например, фамилия, имя, отчество заменяются на инициалы). В условиях, когда методики обезличения не разработаны и отсутствуют какие-либо рекомендации со стороны регулирующих органов, каждый оператор использует тот способ, который кажется ему «надёжным». Желание применить «обезличение» понятно и основывается на том факте, что для обезличенных данных не нужно соблюдать требование конфиденциальности и тратить деньги на защиту. В условиях, когда каждый понимает «обезличение» по-своему, большинство таких решений вызывают оправданные опасения.

Проблемы некорректного применения процедуры обезличения и, как следствие, возникновение канала утечки информации исследовались учёными университета Милана V. Стат, S. De Сарйаш di Утегсай, S. Foresti, и Р. Samarati и описаны в серии публикаций, в частности в статье под названием «к-Апопут^» [4]. Следует отметить, что это далеко не единственная работа, связанная с обезличением, которая опубликована в иностранной литературе, в то время как в нашей стране нет ни одного исследования по данной проблематике, хотя на специализированных форумах по защите персональных данных давно идут споры по этому поводу.

На исследование и развитие метода обезличения автора также сподвигли ситуации, которые нередко возникают при проведении работ в области защиты персональных данных. В частности, характерен следующий пример, который в настоящее время не имеет рационального решения:

«Коммерческая организация ведёт клиентскую базу, содержащую персональные данные клиентов и историю совершённых ими покупок. После того, как услуга оказана (например, продан и доставлен в квартиру клиента холодильник) и, скажем, прошёл срок гарантии, коммерческая организация обязана удалить сведения о клиенте из базы, так как Закон требует уничтожать данные «по достижению целей обработки или в случае утраты необходимости в их достижении». Это означает, что в случае обращения клиента вновь через некоторое время его придётся заново регистрировать, кроме того его история покупок в данной фирме будет потеряна. Очевидно, что большинству операторов персональных данных выгодно хранить базу своих клиентов неограниченное время».

«Традиционный» способ обезличения в данной ситуации неприменим в связи с его необратимостью и невозможностью в случае

Информационная безопасность регионов. 2011. № 2 (9)

необходимости вновь связать обезличенную информацию с искомым субъектом.

Обезличение, использующее замену идентифицирующих данных прочим идентификатором (<^»), также неприменимо по ряду причин, среди которых тот факт, что пусть и в защищённом виде, но идентифицирующие данные человека будут продолжать храниться в его информационной системе, что противоречит требованиями Закона.

Автор предлагает оригинальный метод обезличения, опирающийся на описанную ниже функцию обезличения, который развивает идею к-анонимности, позаимствованной из одноимённой статьи [4].

Для описания данного метода и формализации задачи обезличения предлагается разбить персональные данные субъекта на два вида: идентифицирующие данные и общие данные.

Идентифицирующие данные содержат в себе информацию, которая встречается также в других различных базах данных и позволяет выделить субъекта персональных данных из общей массы людей, в то время как общие данные не позволяют этого сделать.

Имеется множество людей Ь, проживающих в конкретном регионе. Рассматривается некая база данных В, содержащая персональные данные множества людей S, являющегося подмножеством L, S£ L. База данных В представляет собой множество строк

В = {14,2А2 ...пАп}

где п - порядковый номер записи (условный). Также п равно количеству людей в базе данных.

Каждая строка Д содержит идентифицирующие данные и общие данные, связанные с конкретным субъектом Sг..

А = Рг С ,

где р - полные идентифицирующие данные субъекта Б;

С г - общие данные, связанные с субъектом Бг..

В свою очередь

Рг = а Ьг ,

где аг - идентифицирующая информация, доступная потенциальному злоумышленнику (доступный идентификатор);

Ь - идентифицирующая информация, недоступная злоумышленнику (недоступный идентификатор).

Учитывая критичность сведений, обрабатываемых в базе данных и соответственно «привлекательность» этой информации для злоумышленника, для каждого конкретного

случая определяется недоступный идентификатор. В качестве доступного идентификатора

аг могут, например, выступать такие данные человека, как фамилия, имя, отчество, дата и место рождения, домашний телефон и т. п. Недоступным идентификатором может быть номер паспорта или пенсионного страхового свидетельства.

Имеется однозначное отображение (би-екция) между множеством Б и множеством В ($ ^ В) . По любой строке А. однозначно восстанавливается один и только один субъект Б...

Функция обезличения F - это отображение множества В в множество Б (биекция)

Р : В ^ Б , что:

1) УД. Р (А) = Р (гаЬс) = Б = ¡а'Ь' с , причём аг отображается в аг так, что соответствующий символ строки аг либо совпадает с символом аг , либо равен символу '*'. Аналогично Ь отображается в Ь ;

2) У/, / :1..п |Д^ > к ,

где А/ = {г : Р(га/) = Р(га{)} - множество «двойников» для г-го субъекта;

к - некоторое натуральное число - «степень обезличения»;

¥ определяется следующим образом: если

Р(¡аЬс) = га'ЬС, то р(¡а) = га';

3) Р(¡аЬ ) Ф Р(¡а/Ь/) , если г ф /, причём Р определяется следующим образом:

если Р (гаЬс) = га^Ьс, то Р (гаЬ) = га 'Ь'.

Первое свойство описывает предлагаемый подход к обезличению информации, а именно «затиранию» некоторых символов в каждой строке базы данных (замена на символ «*»).

Второе свойство определяет то минимальное число строк, удовлетворяющих запросу злоумышленника, которое он получит при попытке найти интересующего его субъекта в обезличенной базе данных. Соответственно, чем больше число к, тем надёжнее защищена обезличенная база данных и меньше вероятность того, что злоумышленник сможет определить, какая конкретно запись в обезличенной базе принадлежит искомому субъекту. Производя обезличение, мы исходим из предположения, что правонарушитель не обладает полным набором идентифицирующих данных субъекта, а лишь некоторыми сведениями, которые

находятся в свободном доступе либо «легко добываются». Для каждой конкретной задачи, в зависимости от её постановки (вероятностный или стоимостной подход), будет определяться набор недоступных персональных данных (недоступный идентификатор).

Третье свойство гарантирует, что в случае предоставлении любым субъектом из обезличенной базы данных всех своих идентифицирующих данных (полного идентификатора) будет однозначно определена конкретная строка, которая «принадлежит» ему.

Реализацию описанной функции обезличения можно продемонстрировать на примере базы данных В, содержащей всего две записи (табл. 1).

Доступным идентификатором а в этом примере будет выступать строка, содержащая фамилию, имя и отчество (а1 = «Иванов Сергей Михайлович»). Недоступным идентификатором являются серия и номер паспорта (Ъ = «1201 128151»). Функция обезличения В (для к=2) отображает множество В во множество D (табл. 2), а именно для строки А: а1 отображается в аг'= «****ов с*р*** ********ич», а Ъ1 отображается в Ъ1'= «**** *2****» таким образом, что «хозяин» персональных данных при предоставлении полного идентифицирующего набора р = аЪ будет однозначно идентифицирован, то есть Иванов Сергей Михайлович, подставив свой полный идентифицирующий набор в обезличенную базу данных, получит только одну запись (запись № 2), в которую могла бы быть обезличена его информация. Аналогично произойдет и с Петровым Сергеем Николаевичем. В то же время злоумышленник, пытающийся получить данные Иванова Сергея Михайловича, обладающий при этом доступным идентификатором:

«Иванов Сергей Михайлович», при попытке поиска его данных в обезличенной базе, получит 2 записи (к=2), в каждую из которых могла бы быть обезличена информация искомого субъекта. В таблице 3 представлен вид, который примет база данных D при подстановке злоумышленником известных ему данных.

В отличие от законного обладателя информации, постороннее лицо при поиске любого субъекта из базы получает всегда не менее к записей (в данном примере к = 2), каждая из которых может относиться к искомому субъекту. Соответственно злоумышленнику, во-первых, остаётся неизвестен недоступный идентификатор, во-вторых, он получает к связок «идентифицирующая информация - общая информация», одна из которых относится к искомому субъекту, но какая именно он не знает. Такой способ обезличения позволяет решить проблему с хранением данных оператором неограниченное время без соблюдения требования конфиденциальности (данные обезличены). В то же время при необходимости (в случае обращения клиента вновь, при предоставлении им своих идентифицирующих сведений), данные из обезличенных вновь превращаются в персональные, соответственно однозначно восстанавливается необходимая связка «идентифицирующие данные - общая информация».

Напротив, предлагаемый способ обезличения развивает идею «к-анонимности» и добавляет к функции обезличения дополнительное требование: при необходимости любая обезличенная запись из базы данных однозначно восстанавливается. Таким образом, выполняется требование законодательства «минимизации персональных данных» и «удаления их по достижению целей обработки». В отличие от

Таблица 1

База данных Б

№ Фамилия Имя Отчество Серия Номер

1 И в а н о в С е р г е й М и х а й л о в и ч 1 2 0 1 1 2 8 1 5 1

2 П е т р о в С е р г е й Н и к о л а е в м ч 1 2 0 4 2 3 2 1 1 0

Таблица 2

База данных Б

№ Фамилия Имя Отчество Серия Номер

1 * * * * о в С * р * * * * * * * * * * * и ч * * * * * 2 * * * *

2 * * * * о в * е * * * * * * * * * * * в * ч * * * * * * * * 1 *

Таблица 3

Подстановка злоумышленника

№ Фамилия Имя Отчество Серия Номер

1 И в а н о в С е р г е й М и х а й л о в и ч * * * * * 2 * * * *

2 И в а н о в С е р г е й М и х а й л о в и ч * * * * * * * * 1 *

Информационная безопасность регионов. 2011. № 2 (9)

«традиционного» способа, оператор после обезличения базы не имеет доступа к персональным данным клиента и не знает, какая запись в базе данных принадлежит конкретному субъекту.

При попытке поиска информации в обезличенной базе данных оператором либо правонарушителем по общедоступным (известным им) идентификаторам человека, и тот, и другой получат, как минимум, к записей, среди которых «спрятана» искомая информация. При таком способе обезличения обеспечивать конфиденциальность базы данных не требуется.

По мере необходимости (например, обращение клиента в коммерческую организацию через некоторое время) любая запись из базы данных может быть восстановлена при предоставлении субъектом полного набора своих идентифицирующих данных, известных только ему.

Библиографический список

1. Федеральный закон РФ от 27.07.2006 г. № 152-ФЗ «О персональных данных» [Текст] // СЗ РФ. - 2006. - № 31.

2. Петрыкина Н. И. Правовое регулирование оборота персональных данных в России и странах ЕС (сравнительно-правовое исследование) [Текст] : дис. ... канд. юрид. наук: 12.00.14. - М., 2007.

3. Guide to Protecting the Confidentiality of Personally Identifiable Information (PII) [NIST Special Publication 800-122, U.S., 2010] [Электронный ресурс]. - URL: http://csrc.nist. gov/publications/nistpubs/800-122/sp800-122. (дата обращения: 27.06.2011).

4. Ciriani V. k-Anonymity [Текст] / V. Ciriani,

5. De Capitani di Vimercati, S. Foresti, P. Samarati // Advances in Information Security. - 2007. -№ 33. - ISSN 1568-2633.

УДК 681.3

ОЦЕНКИ ДОСТУПНОСТИ ИНФОРМАЦИИ В ТЕЛЕКОММУНИКАЦИОННЫХ СИСТЕМАХ

доктор физико-математических наук, профессор, начальник кафедры высшей математики, Воронежский институт МВД России.

И [email protected]

инспектор отделения планирования и контроля качества учебного процесса и практики учебного отдела, Воронежский институт МВД России.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ш [email protected]

Разработана математическая модель оценки доступности информации, основанная на нахождении минимального разреза графовой модели телекоммуникационной системы. Описан пример модели для выбора варианта модернизации телекоммуникационной системы.

Ключевые слова: оценка доступности информации, телекоммуникационные системы, графовая модель, максимальный поток, минимальный разрез.

Развитие общества всё в большей степени стало определяться эффективностью, надежностью и безопасностью информации, представляемой и передаваемой в электронном виде. Современный период

характеризуется повсеместным распространением телекоммуникационных систем различного уровня и назначения, представляющих собой совокупность технических и программных

Новации в проблематике обезличения персональных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кучин Иван Юрьевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кучин Иван Юрьевич

INNOVATIONS IN THE PROBLEM OF PERSONAL RECORD'S ANONYMIZATION

Текст научной работы на тему «Новации в проблематике обезличения персональных данных»