I влияние эволюции цифровых отпечатков устройств на достоверность идентификации анонимных пользователей
Шелухин О.И.1, Ванюшина А.В.2, Большаков А.С.3, Желнов М.С.4
Цель исследования: оценка эффективности программной идентификации анонимных пользователей в условиях эволюции цифровых отпечатков их устройств.
Методы. Технологии искусственного интеллекта включающие в себя обработку текста на естественных языках NLP( Natural Language Processing), методы латентно-семантического анализа LSA (Latent semantic analysis), а также методы кластеризации и машинного обучения.
Объектами исследования являются теоретические и практические вопросы решения и визуализации задач информационной безопасности .
Полученные результаты. Для исследования влияния эволюции цифровых отпечатков анализируемых устройств, путем поочередного изменения анализируемых параметров оригинального фингерпринта (ФП) (fingerprint — цифровой отпечаток браузера или цифрового устройства) создана база модифицированных ФП. Предложена методика расчета и представлены численные результаты оценки вероятности правильной и ложной идентификации пользователя при эволюции атрибутов его цифровых отпечатков. Показана зависимость эффективности деанонимизации пользователя в зависимости от характеристик и свойств изменяемых атрибутов цифровых отпечатков его устройств.
Область применения предложенного подхода - повышение эффективности систем идентификации анонимных пользователей на основе анализа цифровых отпечатков устройств.
Предлагаемая статья будет полезна как специалистам, разрабатывающим системы защиты информации, так и студентам, обучающимся по направлению подготовки «Информационная безопасность».
Ключевые слова: фингерпринт, модифицированная база данных, набор данных, текстовые данные, категориальные данные, признаки, технологии искусственного интеллекта.
Введение
Для совершения безнаказанного преступления в киберпространстве и сокрытия следов своих преступлений ( несанкционированного доступа и кражи данных, подделки платежных реквизитов, нарушения авторских прав, атак, направленных на отказ в обслуживании и т.д.) нарушители активно используют методы анонимизации.
В связи с нарастающими проблемами организации преступных группировок и террористических актов в отечественное законодательство, нормативно-правовые акты были внесены различные поправки, касающиеся анонимности сетевых пользователей, имеющие непосредственное отношение к деанони-
D0I:10.21681/2311-3456-2022-2-72-86
мизации и информационной безопасности в Интер-
5 6
нете .
Одним из возможных и вполне надежных способов деанонимизации является формирование цифровых отпечатков браузера - уникальных значений, отражающих настройки web-обозревателя пользователя [ 1,2].
5 Федеральный закон «О внесении изменений в Федеральный закон «О противодействии терроризму» и отдельные законодательные акты Российской Федерации в части установления дополнительных мер противодействия терроризму и обеспечения общественной безопасности» от 06.07.2016 N 374-Ф3.
6 Федеральный закон «О внесении изменений в Федеральный закон "Об информации, информационных технологиях и о защите информации"» от 29.07.2017 N 276-ФЗ
1 Шелухин Олег Иванович, доктор технических наук, профессор, заведующий кафедрой «Информационная безопасность», Московский Технический Университет Связи и Информатики (МТУСИ), Москва, Россия. E-mail: [email protected]
2 Ванюшина Анна Вячеславовна, кандидат технических наук, доцент кафедры «Информационная безопасность», Московский Технический Университет Связи и Информатики (МТУСИ), Москва, Россия. E-mail: [email protected]
3 Большаков Александр Сергеевич, кандидат технических наук, доцент кафедры «Информационная безопасность», Московский Технический Университет Связи и Информатики (МТУСИ), Москва, Россия. E-mail: [email protected]
4 Желнов Максим Сергеевич, студент магистратуры, Московский Технический Университет Связи и Информатики (МТУСИ), Москва, Россия. E-mail:
Существует большое количество сервисов, позволяющих осуществлять идентификацию пользователей на основании сведений, получаемых об их браузерах [3.4,5]. Базовая информация о веб-браузере уже давно собирается веб-аналитическими службами с целью точного измерения реального веб-трафика и фильтрации автоматически созданных запросов.
Некоторые из сервисов предназначены для формирования цифрового отпечатка браузера, представляемого в виде некоторого хеш-значения, на основании полученных данных о браузере [6,7,8]. Другие сервисы выводят собранные о браузере пользователя сведения, производят различные вычисления на основании уже имеющихся данных и предоставляют пользователю информацию об уникальности его браузера и, как следствие, возможности его идентификации при высоких показателях уникальности.
С помощью простого сценария, выполняемого внутри браузера, сервер может собирать широкий спектр информации из публичных интерфейсов, называемых интерфейсом прикладного программирования (API, application programming interface) и заголовков HTTP. Идентификация посетителей web-ресурсов является значимой и важной задачей для отслеживания злоумышленников. Самый распространенный механизм уникальной идентификации пользователей — это использование отправленных cookie-файлов web-сервером [3,4].
Цифровой отпечаток может полностью или частично идентифицировать отдельных пользователей или устройства, даже когда файлы cookie и другие данные для отслеживания отключены или недоступны. Цифровые отпечатки устройства весьма полезны, поскольку с их помощью проще обнаруживать и предотвращать кражи личных данных, различные виды мошенничества
Механизм определения цифрового отпечатка устройства подразумевает, что при изменении пользователем браузера, его также можно будет идентифицировать.
Фингерпринтинг веб-браузера (FingerprintlS — 2) -методика отслеживания пользователей при помощи браузера — обеспечивает сбор данных о браузере пользователя, его системе и устройстве 7,8,9
Фингерпринтинг собирает такую информацию, как версия браузера, версия ОС, расширения, часовой пояс, GPU и CPU, разрешение монитора/-ов и размер
7 Fingerprintjs2 — modern flexible open-source browser fingerprinting library. http://valve.github.io/fingerprintjs2/.
8 Fingerprintjs2, modern and flexible browser fingerprinting library, a successor to the original fingerprintjs. https://github.com/Valve/ fingerprintjs2
9 Security/Fingerprinting — Mozilla wiki. https://wiki. mozilla. org/ Security/Fingerprinting. 2018
окна браузера, шрифты, плагины, и прочее стороннее ПО [9,10]. Разработчики браузеров, ученые и органы стандартизации долгое время пытаются бороться с этой проблемой отслеживания пользователей, разрабатывая защитные средства от web-браузера ФП, которые работают точечно и не мешают работе пользователя с браузером. Главная цель атакующего при web-браузер фингерпринтинге - узнать, какую страницу посещает пользователь и какие действия он совершает.
Основная сложность деанонимизации пользователей с помощью цифровых отпечатков браузера, связана с тем, что цифровые отпечатки в следствие
обновлений системы, плагинов, браузеров, установки различных программ, а с ними и шрифтов со временем изменяются [11].
Этот процесс называется эволюцией цифровых отпечатков устройств. Говоря о постоянстве исследуемых характеристик браузера, следует отметить, что многие из них подвержены изменениям с разной частотой.
Некоторые параметры могут меняться довольно часто. Например, разрешение экрана при подключении дополнительного монитора. Какие-то параметры меняются реже, к примеру, версия браузера. Есть параметры, которые меняются очень редко или не меняются вовсе. К таким параметрам относятся те, что содержат информацию об аппаратной составляющей устройства, с которого запускается исследуемый web-обозреватель. Как следствие, при сборе информации необходимо учитывать, как часто для среднестатистического пользователя будет меняться тот или иной параметр, и придавать больший вес тем параметрам, которые дольше остаются неизменными
Целью работы является оценка эффективности программной идентификации анонимных пользователей в условиях эволюции цифровых отпечатков устройств .
Формирование базы данных
Для выполнения задачи сбора информации (ФП устройств) будем использовать выделенный сервер с развернутым сайтом-одностраничником и внедренным в него скриптом сбора информации, а также базу данных MySQL, в которой будет храниться собираемая информация ФП устройств {фпДд^),^ 1,M; 7 = 1,^ для последующего анализа. Здесь j = 1,N объем экспериментально полученных ФП, каждый из которых характеризуется вектором атрибутов A . =(л . , A ...A., . ... A,, . У
^ г J i,orig \ \orig>^.orig I+1 orig M orig J
1 Е 3[
г { "datet-irr.e" 1-2021 -Ol -22 00 15 21" "as er _ip " "37.151.143.53 ","FF hash" :"QeQ3cf43ab7if3bs62ecc3fffccQ6de2fc"
3 { "datetirc.e" "2021 -Ol -22 00 15 2 9" "as er ip- "77.51.70.75", "FF hash":- OeOScf43ab71f3ba62ecc9ffbc0 6de2b"
4 { "datetinr.e" "2021 -Ol -22 00 15 34" " j?ei _ip " "37.151.143.53 ","FF hash" : -dd3£5272flf8dc80950f5d647c:lfdb7f "
5 { "datetirc.e" "2021 -Ol -22 00 15 36" "■.is er _ip " "5.44.163.176" ,"FF hash-: "fdf842d79f79e362b3cca3862364ecl2",
6 { "datetinr.e" "2021 -Ol -22 00 15 ЗЭ" "аз er "77.51.70.75", "FF hash":" dl03 62d5a5ccbl55330e62 3fc633afeb",-
7 { "datetinr.e" "2021 -Ol -22 00 15 43" "■.is er _ip " "5.44.163.176" ,"FF hash": "d2 04t5d4 6ffca3a6ai 3 32 0013d3412cf",
8 { "datetinr.e" "2021 -Ol -22 00 15 44" "■13 er ip- "35.249.45.76" ,"FF hash": "f6f28cbdba07bdd2c4a0235de3bec289",
Э { "datetime" "2021 -Ol -22 00 15 45" "13 er _ip " "133.163.20.37 "t"FF hash" :"10aetb5 601c557aee2ba3fal62 00fcad"
Рис. 1. Фрагмент экспортируемой БД формата JSON
За основу скрипта для сбора информации была взята модификация открытой программной библиотеки fingerprintjs2, представляющей собой открытую программную библиотеку JavaScript, которая может использоваться для извлечения уникальных характеристик браузера и технического устройства.
Универсальным решением для формирования базы данных (БД) является сочетание MySQL и языка программирования PHP.
Из соображений универсальности по отношению к обработчикам информации полученные данные из БД экспортировались в формат JSON ( рис. 1).
Разработанный скрипт позволил зафиксировать 37 параметров, некоторые из которых разделяются на подпараметры. В результате был сформирован набор данных фингерпринтов {ФпДд^),^ 1,M; y = . Объемом записей об устройствах составлял N=6233, каждый из которых содержал М=70 атрибутов
4,ong=(Aong, Aong---4+1 or,g - Ам orig ) как это показано в
таблице 1.
На рис. 2 представлена гистограмма распределения анализируемых признаков по длине. По оси X показан номер признака в таблице 1, а по оси Y - его длина.
Как видно, наибольшей длиной в контексте рассматриваемых ФП являются параметры canvas, window_dump_types, style_dump, webgl.
Оценка важности параметров фингерпринта
Важность исходных атрибутов {Ai orig; ,i = 1 ,М} фингерпринтов {ФпДл^); j = 1N} оценивалась с помощью библиотеки SelectKBest с применением функции chi2 [12], использующей статистические методы для отбора признаков. Процедура оценки важности chi2 параметров иллюстрируется на рис. 3.
Таблица 1
Исходный набор параметров фингерпринтов
i Признак Aiong Описание i Признак A org Описание
1 user-agent Характеристика клиентского приложения 37 document_dump_ functions Список собственных функций и типов реализуемых глобально доступными объектами
2 language Системный язык 38 document_ dump_types
3 color_depth Глубина цвета 39 style_dump
4 device_memory Объем ОЗУ 40 error_messages Список ошибок браузера
5 hardware_concurrency Многозадачность 41 silverlight_installed Наличие SilverLight
6 resolution Текущее разрешение экрана 42 silverlight_supported Поддержка SilverLight
7 available_resolution Доступное разрешение экрана 43 silverlight_versions Версия SilverLight
i Признак A ong Описание i Признак A orig Описание
8 timezone_offset Сдвиг часового пояса 44 ActiveBorder
9 session_storage Наличие API HTML5 (хранение ключей/ значений в браузере) 45 GrayText
10 local_storage Браузерное хранилище 46 ActiveCaption
11 indexed_db Наличие API HTML5 (постоянное хранение данных внутри браузера) 47 AppWorkspace
12 open_database Поддержка OpenDB 48 Background
13 cpu_class Разрядность ЦПУ 49 ButtonFace
14 navigator_platform Платформа устройства 50 ButtonHighlight
15 regular_plugins Список плагинов браузера 51 ButtonShadow Фактическое значение RGB
16 canvas Результат canvas изображения на странице 52 ButtonText цветов CSS элементов, отображаемых
17 webgl Результат рендеринга 3D-графики 53 CaptionText экраном пользователя
18 webgl_vendor Производитель/ модель ГПУ 54 ThreeDShadow
19 adblock Наличие блокировщика рекламы 55 Highlight
20 hasjiedjanguages Факт ложного языка 56 HighlightText
21 has_lied_resolution Факт ложного разрешения экрана 57 InactiveBorder
22 has_lied_os Факт ложной ОС 58 InactiveCaption
23 has_lied_browser Факт ложного браузера 59 InactiveCaptionText
24 touch_support Поддержка тач-пада 60 InfoBackground
25 js_fonts Список установленных шрифтов JS 61 InfoText
26 audio_fp Результат обработки аудио 62 Menu
27 activex_objects Наличие ActiveXObject 63 MenuText
28 ms_components Наличие компонентов MS 64 Scrollbar
29 navigator_dump_functions 65 ThreeDDarkShadow Фактическое значение RGB
30 navigator_dump_types 66 ThreeDFace
31 toolbar_dump_functions Список собственных функций и типов реализуемых 67 ThreeDHighlight цветов CSS
32 toolbar_du m p_types 68 ThreeDLightShadow элементов, отображаемых экраном пользователя
33 crypto_du m p_fu nctions глобально 69 Window
34 crypto_dump_types доступными объектами 70 WindowFrame
35 window_dump_functions 71 WindowText
36 window_du m p_types
Рис.2. Гистограмма распределения признаков данных ФП по длине
Рис. 3. Схема оценки важности chi2 параметров
Функция сЫ2 предусматривает вычисление характеристики хи-квадрат для каждого признака и показывает зависимость между значениями признака и классом и вычисляется по формуле:
О - Еу)2
C F (Г\ Т7 \2
X2 = Y Y
c=1 f=1
E
cf
где C - количество классов, F - количество значений признака, Ocf и Ecf - наблюдаемая и ожидаемая частоты встречи признака f со значением в классе c. Ожидаемая частота вычисляется как вероятность двух независимых событий: Eij = N * P(i = c n f ) = N *(P(c)*P (f )), где N - количество всех записей в наборе данных, P(c) и P(f) - вероятности наличия записи с меткой класса или со значением признака f среди всех записей.
Набор анализируемых атрибутов может содержать как текстовые, так и категориальные значения (в основном не числовые), например такие параметры, как user-agent, webgl, canvas и т.д. Поэтому требуется предварительно произвести кодирование меток классов (LabelEncoding).
Результаты анализа важности атрибутов представлены в виде гистограммы на рис. 4.
Среди наиболее важных атрибутов можно выделить user-agent, webgl_vendor
language, webgl, adblock. Условно, по степени важности анализируемый набор может быть разделен на три группы:
1) высокая — параметры характеризуемые величиной chi2>100 ;
2) средняя — параметры значения chi2 которых лежат в интервале 100 >chi2>20;
3) низкая — параметры характеризуемые величиной chi2 <20.
Наиболее значимыми в контексте рассматриваемых ФП являются параметры со степенью важности "Высокая" - user-agent, webgl, language, canvas и т.д. (табл.1).
Эволюции цифровых отпечатков
Для исследования влияния эволюции цифровых отпечатков устройств на идентификацию анонимных пользователей из базы данных была случайным образом выбрана запись ФП. Путем незначительного по-
Рис. 4. Гистограмма распределения признаков по важности
А A В С D E F G H 1 J К L M N
1 53 user-agent language color depth device memory ware concurr resolution available resolution timezone offset session storage local storage idexed d en databa cpu class ;ator_plat
Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601768 12981758 -180 1 unknown Win32
54 Mozilla/5.0 (Windows NT 6. ru-RU 24 S 4 13601758 12981 758 -ISO 1 unknown Win32
55 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win32
56 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win32
57 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win32
5S Mozilla/5.0 (Windows NT 6. ru-RU 24 S 4 13601758 12981 758 -ISO 1 unknown Win32
59 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win326x3
60 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknownl Win32
61 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 5 unknown Win32
62 Mozilla/5.0 (Windows NT 6. ru-RU 24 S 4 13601758 12981 758 -ISO 1 unknown Win32
63 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win32
64 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win32
65 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 153 1 unknown Win32
66 Mozilla/5.0 (Windows NT 6. ru-RU 24 S 4 13601758 12981 768ZYG -ISO 1 unknown Win32
67 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13б0|7б8(£?эМф1 12981758 -180 1 unknown Win32
68 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 6 13601758 12981758 -180 1 unknown Win32
69 Mozilla/5.0 (Windows NT 6. ru-RU 24 1 4 13601758 12981758 -180 1 unknown Win32
70 Mozilla/5.0 (Windows NT 6. ru-RU 54 8 4 13601758 12981758 -ISO 1 unknown Win32
71 Mozilla/5.0 (Windows NT 6. ru-RUbbir> 24 8 4 13601758 12981758 -180 1 unknown Win32
72 Mozilla/5.0 (Windows NT 6. ru-RU 24 8 4 13601758 12981758 -180 1 unknown Win32
Рис. 5. Фрагмент тестового датафрейма модифицированного ФП
очередного изменения каждого параметра выбранного ФП сформирован тестовый набор модифицированных ФП и записан в базу данных.
На рис. 5 представлен фрагмент полученного тестового датафрейма с отмеченными измененными параметрами.
Процедура получения модифицированных финге-принтов заключается в замене каждого из 70 параметров исходного ( оригинального) ФП{ФЩ (А^), г' = 1,М; у = 1,ЛТ } на значение соответствующего параметра из базы данных. В результате для рассматриваемого Ко фингерпринта формируется модифицированная БД вида {ФЩ (Д*^), ,г = 1,М; = }, в которой значения Ко параметра заменяются ( модифицируются) на отличные от исходного (оригинального) значения.
Учитывая, что рассматриваемый набор данных может содержать текстовые или категориальные зна-
чения (в основном нечисловые значения), например такие параметры, как user-agent, webgl, canvas и т.д. полученные строки ФП рассматривались как некоторые тексты.
Для выявления характерных факторов (тематик), присущих всем документам и терминам встречающихся в ФП использован латентный семантический анализ LSA (англ. Latent semantic analysis) [15,16] анализирующий взаимосвязь между библиотекой документов и встречающимися в них терминами.
На этапе идентификации реализовывался алгоритм кластеризации, ориентированный на группировании данных по схожести, с помощью косинусного расстояния между выборками данных [13,14].
После создания 70 модифицированных ФП с помощью модели LSA были сформированы векторные представления модифицированных и оригинального ФП с различным количеством скрытых тем ( КСТ). Использовались модели с КСТ = 70; 100; 125; 150;
Рис. 6. Визуализация ФП согласно обученной модели LSA (КСТ = 70)
200; 500; 1000 и 2000. После векторизации модифицированных ФП выполнялся пересчет дистанций между оригинальным и модифицированными ФП с использованием библиотеки scipy функции distance. cosine [12,13], а полученные результаты фиксировались. На рис. 6 представлена визуализация ФП относительно скрытых семантических тем с использованием алгоритма стохастического вложения соседей с t-рас-пределением t-SNE, предназначенного для визуализации данных в пространство низкой размерности (двух- или трехмерного) [17,18,19].
В результате обработки каждая скрытая тема может быть представлена в виде самостоятельного кластера. На рис. 6а- красным квадратом выделен один из кластеров относящийся к n-теме, к которой относится группа ФП устройства. При масштабировании рассматриваемого кластера, видно скопление ФП
(Рис. 6Ь). При дальнейшем масштабировании групп ФП внутри рассматриваемого кластера (Рис. 6с - 6d) можно заметить, что данные группы имеют сходство между собой относительно п-темы. Количество тем оценивалось идентификатором пит_Ьор^.
Для измерения схожести между текстами будем использовать косинусную меру (дистанцию). Основным преимуществом косинусного расстояния является то, что данная метрика хорошо работает на разреженных данных, поскольку реальные тексты ключевых фраз могут быть очень длинными и содержать значительные объемы служебной информации ( минус-слова, стоп-слова и т. д.) Ключевым недостатком косинусного расстояния является его зависимость от форм слова.
При нахождении минимального косинусного расстояния использовался метод distance.cosine библиотеки sklearn ( рис. 7).
Вектор оригинального ФП
Модифицирова
Вычисление косинусной дистанции d ¡stance.cosirie(Vec_input,Vec_orig)
ф
Визуализация расположения мод. ФП в
пространстве относительно исходного
Рис. 7. Схема нахождения наиболее похожего фингерпринта и косинусного расстояния
с использованием LSA
Результаты оценки достоверности идентификации пользователя при эволюции цифровых отпечатков пользователя
Для оценки точности идентификации ФП требуется оценить количество вхождений модифицированных {фпДл*»^)» г = 1,70; 7 = 1,.№} в пространственную область заданного порогового радиуса Rпор, как это показано на рис. 8. Вхождение в пороговую область оценивается косинусным расстоянии модифицированных {фпДд*^), I = 1,70; у = 1,Лт} от оригинального ФП {фпДд.^), 7 = .
Искомая дистанция оценивается выражением [14,15]
* В_ Ь
dist \А.,Б.) = 1- cos0 = \-
' l! АБ
' Б
4=\"Ji ji
где ={ФП; (Aiong),i = 1,M; j = 1,;
Bji = {фП, (Д'moi\i = ; j = w}.
Поскольку значение cos(d) находится в диапазоне [-1,1], то значение косинусной дистанции равное 1 указывает на отсутствие сходства, а 0 — на высокое сходство между векторами. Графическое представление оригинальных и модифицированных ФП, а также границы пороговых областей для различных КСТ приведены на рис. 9...11.
На рис. 9 изображено поэтапное уменьшение порогового уровня Рпф и зависящие от этого уровня вероятности правильной Рпф и ложной Рлф фиксации. На рис. 9c изображены модифицированные ФП с максимальным отклонением дистанции с указанием изменяемого в них атрибута, оказывающего наибольшее влияние на изменение косинусной дистанции. В данном случае это атрибуты: «canvas» — dist = 0,0031 ; «webgl» — dist = 0,0007; «activex_objects» — dist = 0,00034.
Рис. 8. Идентификация при модификации i-го атрибута ФП пользователя
* - и "Vv чр h Ж * ----* * * v>% • a 1 I '». -
-ÏJ * "i v: j 'Ai:*. î 4* . ••>• 'Л л * s. * * * SSe ** :* -it- ш ** * / * * * ч * .
Cl) РЛА=0.13, Pnà = 1.0, Япор = 0.3
le-5 / 4 /X / 2 ■ / * * jj X \ * * \ Se * * \
\ i 4
4
* -©rte* у--' •у i * /** * 0.05/ * / Г* * * "х^* * * * \* * \ * • * * * * * * *
-ojio -o.es °°а * у ► _ \ -0.05 * * \ * * * * •0 0.05 0 * * / * / / * * * * ——* * * * * 10 * * * * *
ъ)
рлл=0.00471, рп& = 1.0, Япор = 0.1
ф
OOOJ -оосг JL "Я л
-сма be х ejai оом odoi
?nî.=0.0, pni, = 0.91, Jfnop = 0.00005
с)
рлй=0.0, рпл = 0.986, йпор = 0.001
Рис. 9. Расположение оригинальных и модифицированных векторов ФП; границы порогов (КСТ =25), х - модифицированные; ФП, • - центр оригинальный ФП
На рис. 10 изображено поэтапное уменьшение порогового уровня Pпф и зависящие от этого уровня вероятности правильной Pпф и ложной фиксации Рлф. На рис.10с изображены модифицированные ФП с максимальным отклонением дистанции с указанием изменяемых в них атрибутов, оказывающих наибольшее влияние на изменение косинусной дестанции. ЕВ данном случае это атрибуты: «canvas» — dist с0,0аиа ; «we-bgl» — dist = 0,0028; «activex_objects» — dist = 0,00031 На рис. 11 изображено поэтапное уменьшение порогового уровня Рлф и зависящие от этого уровня вероятности правильной Рпф и ложной фиксации Рлф. На рис.11с изображены модифицидаванн ые ФП с максимальным отклонением дистанции с указанием изменяемого в них атрибута, оказывающего наибольшее влияние на изменение косинусной дистанции. В данном случае это атрибуты «canvas» — dist с е,1Т7; «webgl» — dist = 0,012; « InactiveCaptiooH — tista 0,009.
Анализ полученных результатов показывает, что при изменении наиболее важных параметров ФП — user-agent, webgl, language, canvas , либо атрибутов их наибольшую длину — canvas ; webgl; InactiveCap-tion, модифицированные ФП могут быть достаточно эффекти вноидентифицированы.
С учетом механизма идвнтиЦикации пельзоиитетя при мтдификации отдельных атрибутов его ФП, вероятность правильной фиксации может быть оценена выражением
1 M
P = M 5Z»'
где Z, = ind dist (ФП, (A;mod ), ФЦ (л, ong )); j = 1Mi = ÏM
■ j _ (1пРи distQ) < Rnopj ; )nd ( ')п{0 п pи d)st( ■ ) > Rn op j
Соответственно вероятность ложной идентификации j-го пользователя при попадании в пороговую
Рис.10. Расположение оригинальных и модифицированных векторов ФП; границы порогов (КСТ =100) где: х - модифицированные ФП, • - центр оригинальный ФП
область других ФП ] = 1,n ;к ф ] пользователей можно оценить выражением 1 ^
Ррп = N 5К
к ? ]
где Кк£ = тсЫх^ФЦ (4 ,фп дд ] = 1, N; I = 1,М; к Ф ]
На рис. 12 и 13 показаны зависимости вероятностей правильной Рпф и ложной Рлф фиксации ФП в зависимости от КСТ. Из представленных зависимостей видно, что, например, при дистанции 0.0001 модель с КСТ 25 идентифицирует 70% искомых ФП, а при дис-
танции 0.1 идентифицируется уже 100% модифицированных ФП.
Из рис. 12 следует, что вероятность правильной фиксаций возрастает с уменьшением Rпор и уменьшением КСТ. Однако при этом возрастает вероятность неправильной идентификации — (1-Рпф) ,что иллюстрируется на рис. 9 с и 11 с.
Из рис.13 следует, что при значительном увеличении порогового уровня резко возрастает вероятность ложной идентификации модифицированного ФП из-за попадания в пороговую область «чужих» оригинальных ФП. Чем больше величина КСТ, тем значительнее рост таких событий.
Рис.11. Расположение модифицированных векторов ФП, и границы порогов (КСТ =2000), где: х - модифицированные. ФП, • - центр оригинальный ФП
Рис. 12. Зависимости Рпф модифицированных ФП от косинусной дистанции
Рис. 13. Зависимости вероятностей правильном и ложной фиксации модифицированных ФП от косинусной дистанции
Выводы
Разработан метод, позволяющий идентифицировать пользователя путем отслеживания эволюции цифровых отпечатков цифровых устройств.
Показано, что при изменении наиболее важных параметров ФП ( user-agent, webgl, language, canvas) либо атрибутов имеющих наибольшую длину (canvas, window_ dump_types, style_dump, webgl) модифицированные ФП могут быть эффективно идентифицированы. Показана возможность реализации кластеризации пользователей в рамках задачи идентификации пользователей путем визуализации ФП относительно скрытых семантических тем с помощью модели латентного семантического анализа LSA.
По итогам полученных результатов показано, что основными пунктами реализации предложенного алгоритма идентификации являются:
— выявление характерных факторов (тематик), присущих всем документам и терминам встречающимся в ФП с использованием латентного семантического анализа ;
— векторизация модифицированных ФП, путем пересчета дистанций между оригинальным и модифицированными цифровыми отпечатками с использованием библиотеки scipy функции distance.cosine библиотеки sklearn ;
— визуализация ФП относительно скрытых семантических тем с использованием алгоритма стохастического вложения соседей с ^аспределением ^ИЕ;
— реализация алгоритма кластеризации, ориентированного на группировании данных по схожести , полученных после векторизации с помощью косинусного расстояния.
Достоверность результатов подтверждена вычислительными экспериментами с применением разработанного программного обеспечения, в ходе которых отмечена высокая эффективность предложенного подхода для решения задачи идентификации анонимных пользователей в условиях эволюции цифровых отпечатков их устройств.
Рецензент: Басараб Михаил Алексеевич, доктор физико-математических наук, профессор, заведующий кафедрой «Информационная безопасность» МГТУ им. Н.Э. Баумана. Москва, Россия. E-mail: [email protected]
Литература
1. Liu X., Liu Q., Wang X., and Jia Z. Fingerprinting web Browser for Tracing Anonymous Web Attackers. In IEEE First International Conference on Data Sciencein Cyberspace. DSC 2016. Changsha. China. IEEE Computer Society 2016. June 13-16. P. 222. D0I:10.1109/ DSC.2016.78
2. Luangmaneerote S., Zaluska E., Carr L. Survey of existing Fingerprint countermeasures. In 2016 International Conference on Information Society (i-Society), IEEE Computer Society, October 2016. D0I:10.1109/I-S0CIETY.2016.7854198
3. Vastel A., Laperdrix P., Rudametkin W. Rouvoy R. FP-STALKER: Tracking Browser Fingerprint Evolutions // 39th IEEE Symposium on Security and Privacy (S&P 2018). San Fransisco, United States. DOI: 10.1109/SP.2018.00008
4. Roussev V. Data Fingerprinting with Similarity Digests. In Advances in Digital Forensics VI. Springer, 2010. https://doi.org/10.1007/978-3-642-15506-2_15
5. Bujlow T., Carela-Espanol V., Sole-Pareta J., Barlet-Ros P. A Survey on Web Tracking: Mechanisms, Implications, and Defenses. In Proceedings of the IEEE (2017). D0I:10.1.1109/JPR0C.2016.2637878
6. Laperdrix P., Bielova N., Baudry B., Avoine G. Browser Fingerprinting: A survey. arXiv, Vol. 1, No. 1, Article . Publication date: May 2019.
7. Chen L., Wang G. An Efficient Piecewise Hashing Method for Computer Forensics. In IEEE WKDD, 2008. D0I:10.1109/WKDD.2008.80
8. Шелухин О.И., Желнов М. С. Идентификация анонимных пользователей ВЕБ-ресурса на основе нечетких хэш функций цифровых отпечатков устройств // REDS: Телекоммуникационные устройства и системы. 2021. №2. С. 57-63.
9. Laperdrix P., Baudry B., Mishra V. FPRandom: Randomizing core browser objects to break advanced device fingerprinting techniques. In 9th International Symposium on Engineering Secure Software and Systems (ESSoS Jul. 2017). Bonn, Germany. https://hal.inria.fr/ hal-01527580
10. Alaca F. Oorschot P. C. V. Device Fingerprinting for Augmenting Web Authentication: Classification and Analysis of Methods // Annual Computer Security Applications Conference (ASAC'32), 2016. DOI: http://dx.doi.org/10.1145/2991079.2991091
11. Fifield D., Egelman S. Fingerprinting web users through font metrics. In Proceedings of the 19th international conference on Financial Cryptography and Data Security. Springer-Verlag. Berlin. Heidelberg. 2015. D0I:10.1007/978-3-662-47854-7_7
12. Bolon-Canedo V., Sanchez-Marono N., Alonso-Betanzos A. A review of feature selection methods on synthetic data. Knowl. Inform. Syst., 34 (3) (2013), pp. 483-519
13. Доренская Е. А., Семенов Ю. А. Улучшенный алгоритм вычисления контекстного значения слов в тексте // Современные информационные технологии и ИТ-образование. 2019. Т. 15, № 4. С. 954-960. DOI: 10.25559/SITIT0.15.201904.954-960
14. Carreira-Perpinan M.A. The elastic embedding algorithm for dimensionality reduction. In ' Proceedings of the International Conference on Machine Learning, 2010. Pp. 167-174
15. Шелухин О. И., Осин А.В. Безопасность сетевых приложений / Под ред. О. И. Шелухина. М.: Горячая линия - Телеком, 2021. 224с. ISBN 978-5-9912-0911-3
16. Scott Deerwester et al. Indexing by Latent Semantic Analysis // Journal of the American society for information science. 41(6): pp. 391407. https://doi.org/10.1002/(SICI)1097-4571(199009)41:6<391:AID-ASI1>3.0.CO;2-9
17. Liu S, Maljovec D, Wang B, Bremer PT, Pascucci V. Visualizing high-dimensional data: Advances in the past decade // IEEE Transactions on Visualization and Computer Graphics. 2017. Vol. 23(3). P.1249-1268. DOI: 10.1109/TVCG.2016.2640960
18. L.J.P. van der Maaten, Hinton G.E. Visualizing High-Dimensional Data Using t-SNE // Journal of Machine Learning Research. 2008, vol. 9. P.2579-2605,
19. L.J.P. van der Maaten. Accelerating t-SNE using Tree-Based Algorithms// Journal of Machine Learning Research 2014, vol.15. P.3221-3245.
the impact of digital fingerprint evolution on the authenticity of anonymous user
identification
Sheluhin O.I.10, Vanyushina A.V.11, Bolshakov A.S.12, ZhelnovM.S.13
Purpose of work - is to evaluate the effectiveness of software identification of anonymous users in the context of the evolution of digital fingerprints on their devices.
Research method. Artificial intelligence technologies, including NLP (Natural Language Processing), methods of LSA (Latent semantic analysis), as well as methods of clustering and machine learning.
Objects of study are theoretical and practical issues of solving and visualizing information security problems.
Results of the study. To study the impact of the evolution of digital fingerprints of analyzed devices, by alternately changing the analyzed parameters of the original fingerprint (a digital fingerprint of a browser or digital device), a database of modified fingerprints was created. A calculation technique is proposed and numerical results are presented for estimating the probability of correct and false user identifications during the evolution of the attributes of digital fingerprints. The dependence of the effectiveness of user deanonymization depending on the characteristics and properties of the variable attributes of digital fingerprints of his devices is shown.
Practical relevance relevance. To improve the efficiency of anonymous user identification systems based on the analysis of device digital fingerprints.
The proposed article will be useful both to specialists developing information security systems and to students studying "Information Security" course.
Keywords: fingerprint, modified database, data set, text data, categorical data, features, artificial intelligence technologies.
References
1. Liu X., Liu Q., Wang X., and Jia Z. Fingerprinting web Browser for Tracing Anonymous Web Attackers. In IEEE First International Conference on Data Sciencein Cyberspace. DSC 2016. Changsha. China. IEEE Computer Society 2016. June 13-16. P. 222. D0I:10.1109/ DSC.2016.78
2. Luangmaneerote S., Zaluska E., Carr L. Survey of existing Fingerprint countermeasures. In 2016 International Conference on Information Society (i-Society), IEEE Computer Society, October 2016. D0I:10.1109/I-S0CIETY.2016.7854198
3. Vastel A., Laperdrix P., Rudametkin W. Rouvoy R. FP-STALKER: Tracking Browser Fingerprint Evolutions // 39th IEEE Symposium on Security and Privacy (S&P 2018). San Fransisco, United States. DOI: 10.1109/SP.2018.00008
4. Roussev V. Data Fingerprinting with Similarity Digests. In Advances in Digital Forensics VI. Springer, 2010. https://doi.org/10.1007/978-3-642-15506-2_15
5. Bujlow T., Carela-Espanol V., Sole-Pareta J., Barlet-Ros P. A Survey on Web Tracking: Mechanisms, Implications, and Defenses. In Proceedings of the IEEE (2017). D0I:10.1.1109/JPR0C.2016.2637878
6. Laperdrix P., Bielova N., Baudry B., Avoine G. Browser Fingerprinting: A survey. arXiv, Vol. 1, No. 1, Article . Publication date: May 2019.
7. Chen L., Wang G. An Efficient Piecewise Hashing Method for Computer Forensics. In IEEE WKDD, 2008. D0I:10.1109/WKDD.2008.80
8. Sheluhin O.I., Zhelnov M. S. Identifikacija anonimnyh pol'zovatelej VEB-resursa na osnove nechetkih hjesh funkcij cifrovyh otpechatkov ustrojstv // REDS: Telekommunikacionnye ustrojstva i sistemy. 2021. №2. S. 57-63.
10 Oleg I. Sheluhin, Dr.Sc., Professor, Head of department of Information security , MTUCI, Moscow, Russia. E-mail: [email protected]
11 Anna V. Vanyushina, Ph.D., associate Professor at the Department of Information security, MTUCI, Moscow, Russia, E-mail: [email protected]
12 Alexander S. Bolshakov, Ph.D., associate Professor at the Department of Information security, MTUCI, Moscow, Russia, E-mail: [email protected]
13 Maksim S. Zhelnov, student, MTUCI, Moscow, Russia, E-mail: [email protected]
9. Laperdrix P., Baudry B., Mishra V. FPRandom: Randomizing core browser objects to break advanced device fingerprinting techniques. In 9th International Symposium on Engineering Secure Software and Systems (ESSoS Jul. 2017). Bonn, Germany. https://hal.inria.fr/ hal-01527580
10. Alaca F. Oorschot P. C. V. Device Fingerprinting for Augmenting Web Authentication: Classification and Analysis of Methods // Annual Computer Security Applications Conference (ASAC'32), 2016. DOI: http://dx.doi.org/10.1145/2991079.2991091
11. Fifield D., Egelman S. Fingerprinting web users through font metrics. In Proceedings of the 19th international conference on Financial Cryptography and Data Security. Springer-Verlag. Berlin. Heidelberg. 2015. DOI:10.1007/978-3-662-47854-7_7
12. Bolon-Canedo V., Sanchez-Marono N., Alonso-Betanzos A. A review of feature selection methods on synthetic data. Knowl. Inform. Syst., 34 (3) (2013), pp. 483-519
13. Dorenskaja E. A., Semenov Ju. A. Uluchshennyj algoritm vychislenija kontekstnogo znachenija slov v tekste // Sovremennye informacionnye tehnologii i IT-obrazovanie. 2019. T. 15, № 4. S. 954-960. DOI: 10.25559/SITITO.15.201904.954-960
14. Carreira-Perpinan M.A. The elastic embedding algorithm for dimensionality reduction. In ' Proceedings of the International Conference on Machine Learning, 2010. Pp. 167-174
15. Sheluhin O. I., Osin A.V. Bezopasnost' setevyh prilozhenij / Pod red. O. I. Sheluhina. M.: Gorjachaja linija - Telekom, 2021. 224s. ISBN 978-5-9912-0911-3
16. Scott Deerwester et al. Indexing by Latent Semantic Analysis // Journal of the American society for information science. 41(6): pp. 391407. https://doi.org/10.1002/(SICI)1097-4571(199009)41:6<391:AID-ASI1>3.0.CO;2-9
17. Liu S, Maljovec D, Wang B, Bremer PT, Pascucci V. Visualizing high-dimensional data: Advances in the past decade // IEEE Transactions on Visualization and Computer Graphics. 2017. Vol. 23(3). P.1249-1268. DOI: 10.1109/TVCG.2016.2640960
18. L.J.P. van der Maaten, Hinton G.E. Visualizing High-Dimensional Data Using t SNE // Journal of Machine Learning Research. 2008, vol. 9. P.2579-2605,
19. L.J.P. van der Maaten. Accelerating t-SNE using Tree-Based Algorithms// Journal of Machine Learning Research 2014, vol.15. P.3221-3245.