Научная статья на тему 'Анализ способов идентификации пользователя в сети Интернет'

Анализ способов идентификации пользователя в сети Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1691
174
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ / IDENTIFICATION / ИНФОРМАТИВНОСТЬ / ПРИЗНАК / FEATURE / КОРТЕЖ / TUPLE / ПОЛЬЗОВАТЕЛЬ / USER / SELF-DESCRIPTIVENESS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бессонова Екатерина Евгеньевна, Зикратов Игорь Алексеевич, Росков Владислав Юрьевич

Рассматриваются механизмы идентификации пользователей в сети Интернет. Предложен сравнительный анализ способов идентификации на основе регрессионного анализа и энтропийного подхода. Для проверки полученных результатов проведен вычислительный эксперимент.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бессонова Екатерина Евгеньевна, Зикратов Игорь Алексеевич, Росков Владислав Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF INTERNET USER IDENTIFICATION METHODS

The article deals with mechanisms for user identification in the Internet. A comparative analysis of two ways for user identification based on entropy and regression analysis is proposed. A computational experiment was conducted for results verification.

Текст научной работы на тему «Анализ способов идентификации пользователя в сети Интернет»

АНАЛИЗ СПОСОБОВ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ В СЕТИ ИНТЕРНЕТ

УДК 004.931

АНАЛИЗ СПОСОБОВ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ

В СЕТИ ИНТЕРНЕТ Е.Е. Бессонова, И.А. Зикратов, В.Ю. Росков

Рассматриваются механизмы идентификации пользователей в сети Интернет. Предложен сравнительный анализ способов идентификации на основе регрессионного анализа и энтропийного подхода. Для проверки полученных результатов проведен вычислительный эксперимент.

Ключевые слова: идентификация, информативность, признак, кортеж, пользователь.

Введение

Одной из основных задач современной теории и техники автоматического управления является задача идентификации систем, т.е. определение структуры и параметров систем по наблюдениям [1].

В частности, в теории защиты информации актуальной является вопрос идентификации пользователя в сети Интернет. Актуальность данной темы обусловлена целесообразностью идентификации субъектов Сети при построении системы защиты информации для выявления нарушителей.

Целью данной работы является сравнительный анализ способов идентификации пользователей.

Для современных информационных систем применяются способы идентификации, основанные на хранении IP-адресов компьютеров посетителей и записи на компьютер пользователя данных Cookie. Однако оба способа не позволяют в ряде случаев достичь требуемой степени достоверности идентификации [2]. В работе [3] показан способ идентификации, основанный на регрессионном анализе, что позволяет осуществить рациональный выбор признаков, необходимых для повышения степени достоверности идентификации пользователя в сети Интернет. В процессе работы на основании сформированного признакового пространства с помощью регрессионного анализа были выбраны наиболее информативные признаки. Под информативностью признаков понимается степень влияния признака в кортеже идентифицируемого объекта на результат отождествления с имеющимися профилями пользователей.

Проведен сравнительный анализ метода идентификации пользователя по его кортежу путем сравнения его с накопленной базой. Результатом работы является кортеж, состоящий из восьми наиболее информативных идентификаторов: ETag, Supercookie, Cookie, MAC, IP, шрифты через Flash, плагины, шрифты через ActiveX. По сравнению с Cookie, такой кортеж обеспечивает в 6,3 раза большую информативность (4,35 против 0,69).

Кроме способа, основанного на методе регрессионного анализа, авторами исследован также метод формирования признакового пространства, основанный на вычислении количества энтропии [4].

Энтропия - это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения. Для расчета энтропии Шеннон предложил уравнение

H (X) = -£p log P( X,),

i =0

где Х - дискретная случайная величина с диапазоном изменчивости N; P(X) - вероятность i-го уровня X [5]. Количество энтропии, которое содержит в себе признак, можно вычислить по формуле

AS = log 2 PX£X (x) где P(x) - вероятность появления значения x признака X.

Понятие энтропии может быть использовано для оценки признаков профиля пользователя. Значения энтропии отдельных признаков, которые приводит исследование, сделанное Electronic Frontier Foundation, отображены в таблице [6].

Для сравнительного анализа методов, основанных на регрессионном анализе и энтропийном подходе, был проведен эксперимент.

Наименование признака Энтропия, бит

Заголовок Http User-Agent 10,0

Список установленных плагинов 15,4

Список установленных шрифтов 13,9

Поддержка supercookies 2,12

Заголовок Http Accept 6,09

Временная зона 3,04

Включенность cookies 0,353

Таблица. Количество энтропии информативных признаков (по данным Electronic Frontier Foundation)

Научно-технический вестник информационных технологий, механики и оптики,

2012, № 6 (82)

Е.Е. Бессонова, И.А. Зикратов, В.Ю. Росков

Проведение эксперимента

Авторами был сделан сравнительный анализ двух кортежей, полученных в указанных выше работах, по степени их достоверности и скорости идентификации пользователей. Для этого был проведен эксперимент с целью вычисления степени достоверности идентификации и времени работы. В качестве результатов эксперимента получены времен^е характеристики работы двух кортежей, а также зависимость количества идентифицированных пользователей от уровня шума для обоих кортежей.

В качестве входных данных были использованы: учетные записи, выбранные в случайном порядке (эталоны); статистика учетных записей пользователей, заходящих на тестовый сайт не менее двух раз; признаки, упорядоченные по возрастанию информативности.

Целью эксперимента являлось определение степени достоверности работы двух кортежей и их скорости обработки данных. Результаты эксперимента представлены на графиках (рис. 1).

500 450 400 350 300 250 200 150 100 50 0 —

">4 1

78

316

249

122 122

□ Обработка данных

■ Сбор данных

■ Пер вый з апр о с

Энтропийный подход Признаковый кортеж (449 ыс) (462 мс)

Рис. 1. Сравнение временных характеристик процессов обработки кортежей

В представленных на графике результатах можно выделить три временных интервала:

1. первый запрос - сколько времени занимает загрузка страницы, к которой подключен скрипт с данными;

2. сбор данных - время от начала работы скрипта до момента отправки их на сервер;

3. обработка данных - время с момента отправки данных на сервер до получения результата идентификации.

|3

О О

« а н ^

к а

& ^

о^

С к

о

100 80 60

40 20 0

85 90 95

Процент внесенного шума

-Признаковый кортеж

100

Энтропийный подход

Рис. 2. Сравнение достоверности идентификации для различных способов

Данные получены при усреднении 10 000 запросов. Очевидно, что длительность первого запроса к странице во всех случаях одинакова. Так как у энтропийного кортежа меньше признаков, сбор данных происходит быстрее. Подсчет энтропии занимает больше времени, чем предложенный авторами метод идентификации. Таким образом, экспериментально полученная скорость работы обоих методов отличается незначительно. При использовании признакового кортежа время увеличивается на 2,9%.

Эксперимент показал, что при внесенном шуме, составляющем 89%, оба подхода демонстрируют одинаковую эффективность. Однако при внесенном шуме более 90% энтропийный подход резко ухудшает свои результаты и при 95% шума может идентифицировать менее 10% пользователей, тогда как метод идентификации, предложенный в работе [3], позволяет идентифицировать в 6 раз больше пользователей (рис. 2).

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 6 (82)

i Надоели баннеры? Вы всегда можете отключить рекламу.