Научная статья на тему 'СРАВНЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ КЛАССИФИКАЦИИ В РАМКАХ СЕТЕВОЙ ИНФРАСТРУКТУРЫ'

СРАВНЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ КЛАССИФИКАЦИИ В РАМКАХ СЕТЕВОЙ ИНФРАСТРУКТУРЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
14
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
пользователь / данные / обучения / аутентификация / легитимный / user / data / learning / authentication / legitimate

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Уймин Антон Григорьевич, Никитин Олег Рафаилович

Введение: Аутентификация пользователя в настоящее время является стандартной процедурой для доступа к корпоративной или общедоступной сетевой инфраструктуре. Преимуществом биометрической аутентификации является уникальная и однозначная идентификация личности в системе. Методы: Для мониторинга поведения пользователей использовались контролируемые методы машинного обучения, позволяющие идентифицировать законных пользователей. После тестирования всех пользователей, использующих классификаторы, уровень проверки был достигнут на уровне 98%. Результаты могут быть использованы в корпоративных проектах и организации конкурсов. Работа ведется в рамках платформы RemoteTopology. На открытой веб-странице пользователь открывает несколько сеансов протоколов RDP VNC, Telnet, SSH. Данные сеанса собираются расширением браузера и передаются в базу данных. На втором этапе был проведен эксперимент по обучению и тестированию каждого пользователя с использованием определенных выше классификаторов. Если характеристики, которые пользователь демонстрирует в текущий момент времени, совпадают с теми, которые были выявлены при обучении модели, пользователь продолжает работу, в противном случае система блокирует работу пользователя и требует повторной аутентификации. Модель должна обеспечивать постоянное определение пользовательских характеристик на основе динамики мыши. Характеристики собираются и упаковываются на стороне клиента в расширение браузера, затем передаются на сервер и сохраняются в базе данных. После этого каждому надежному действию присваивается значение, а единичный блок работы не является единичным пользователем. Единый блок не является незаконным или незаконным пользователем для блокировки работы. Также можно отметить, что для сценариев 1,2 и 3 с использованием кривой FAR, FRR, EER и ROC: сценарий 1 имел самые низкие значения EER: RF EER: 0,010%.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Уймин Антон Григорьевич, Никитин Олег Рафаилович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF CLASSIFICATION ALGORITHMS PERFORMANCE WITHIN NETWORK INFRASTRUCTURE

Introduction: User authentication is now a standard procedure for access to corporate or public network infrastructure. The advantage of biometric authentication is the unique and unambiguous identification of an individual in the system. Supervised machine learning techniques were used to monitor user behavior to identify legitimate users. After testing all users using the classifiers, the verification rate was achieved at 98%. The results can be used in corporate projects and organizing contests. The work is conducted within the RemoteTopology platform. On the open web page, the user opens several RDP protocol sessions. VNC, Telnet, SSH. Session data is collected by the browser extension and transmitted to the database. In the second stage, an experiment was conducted to train and test each user using the classifiers defined above. If the characteristics that the user exhibits at the current time match those identified by the model training, the user continues to work, otherwise the system locks the user and requires re-authentication. The model must provide constant detection of user characteristics based on mouse dynamics. Characteristics are collected and packaged on the client side in a browser extension, then transmitted to the server and stored in a database. Each reliable action is then assigned a value, and a single block of work is not a single user. A single block is not an illegal or illegal user to block work. It can also be noted that for scenarios 1,2 and 3 using the FAR, FRR, EER and ROC curve: scenario 1 had the lowest EER values: RF EER: 0.010%.

Текст научной работы на тему «СРАВНЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ КЛАССИФИКАЦИИ В РАМКАХ СЕТЕВОЙ ИНФРАСТРУКТУРЫ»

doi: 10.36724/2409-5419-2023-15-2-33-40

СРАВНЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ КЛАССИФИКАЦИИ В РАМКАХ СЕТЕВОЙ ИНФРАСТРУКТУРЫ

УЙМИН

Антон Григорьевич1

НИКИТИН

Олег Рафаилович2

Сведения об авторах:

1 Старший преподаватель кафедры кафедры безопасности информационных технологий ФГАОУ ВО "РГУ нефти и газа (НИУ) имени И.М. Губкина", Москва, Россия Область научных интересов: информационная безопасность; мониторинг информационных ресурсов; сбор и обработка информации

АННОТАЦИЯ

Введение: Аутентификация пользователя в настоящее время является стандартной процедурой для доступа к корпоративной или общедоступной сетевой инфраструктуре. Преимуществом биометрической аутентификации является уникальная и однозначная идентификация личности в системе. Методы: Для мониторинга поведения пользователей использовались контролируемые методы машинного обучения, позволяющие идентифицировать законных пользователей. После тестирования всех пользователей, использующих классификаторы, уровень проверки был достигнут на уровне 98%. Результаты могут быть использованы в корпоративных проектах и организации конкурсов. Работа ведется в рамках платформы RemoteTopology. На открытой веб-странице пользователь открывает несколько сеансов протоколов RDP. VNC, Telnet, SSH. Данные сеанса собираются расширением браузера и передаются в базу данных. На втором этапе был проведен эксперимент по обучению и тестированию каждого пользователя с использованием определенных выше классификаторов. Если характеристики, которые пользователь демонстрирует в текущий момент времени, совпадают с теми, которые были выявлены при обучении модели, пользователь продолжает работу, в противном случае система блокирует работу пользователя и требует повторной аутентификации. Модель должна обеспечивать постоянное определение пользовательских характеристик на основе динамики мыши. Характеристики собираются и упаковываются на стороне клиента в расширение браузера, затем передаются на сервер и сохраняются в базе данных. После этого каждому надежному действию присваивается значение, а единичный блок работы не является единичным пользователем. Единый блок не является незаконным или незаконным пользователем для блокировки работы. Также можно отметить, что для сценариев 1, 2 и 3 с использованием кривой FAR, FRR, EER и ROC: сценарий 1 имел самые низкие значения EER: RF EER: 0,010%.

2 Д.т.н., профессор, заведующий кафедрой радиотехники и радиосистем. Владимирский Государственный Университет имени Александра Григорьевича и Николая Григорьевича Столетовых (ВлГУ), г. Владимир, Россия. Область научных интересов: информационная безопасность; мониторинг информационных ресурсов; сбор и обработка информации

КЛЮЧЕВЫЕ СЛОВА: пользователь, данные, обучения, аутентификация, легитимный.

Для цитирования: Уймин А.Г., Никитин О.Р. Сравнение производительности алгоритмов классификации в рамках сетевой инфраструктуры // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 2. С. 33-40. doi: 10.36724/2409-5419-2023-15-2-33-40

Введение

Аутентификация пользователей является, в настоящее время стандартной процедурой при доступе в сетевую инфраструктуру предприятия или открытого доступа [1]. Аутентификация делится на три класса: на основе знания какого-либо разделяемого секрета, на основе обладание каким-либо уникальным объектом (токеном) и на основе биометрии индивида. Аутентификация на основе знаний характеризуется степенью конфиденциальности информации, и может быть легко скомпрометирована. Аутентификация на основе обладания объектом характеризуется контролем за объектом и может подвергнутся хищению или копированию. Аутентификация на основе биометрии зависит от физиологических и или поведенческих характеристик индивида, т.е. являются его неотъемлемой частью.

Достоинством биометрической аутентификации является уникальная однозначная идентификация индивида в системе. В нашей работе будет рассматриваться толтко поведенческая биометрия, в виду возможности посредством нее организации непрерывной аутентификации пользователя в системе, на протяжении все го сеанса работы [2-4]. В настоящее время получили большое распространение корпоративные порталы, на основе web-технологий. В рамках проекта RemoteTopology [5-6] реализованы основные компоненты корпоративного портала по администрированию сетевой инфраструктуры. Разработано браузерное расширение, обеспечивающее сбор данных на стороне пользователя.

В данной работе основной задачей становится определение производительности алгоритмов машинного обучения в зависимости от временных интервалов сбора данных для идентификации пользователя и анализ областей окна браузера, с которыми работает пользователь для его идентификации и аутентификации на основе данных манипулятора типа мышь, при заданном уровне ошибки.

Обзор литературы

Ниже приведен обзор литературы, в котором рассматриваются аналогичные задачи, в том числе определение модели движения манипулятора, для идентификации и аутентификации пользователя. В соответствии с нашей целью, мы изучили несколько исследовательских работ для того, чтобы найти модель движения мыши и идентифицировать подлинных пользователей.

В работе [7] авторы предлагают новую одномерную сверхточную архитектуру использованием двух наборов данных. Они оценили модель, используя три сценария: (i) ПРОСТЫЕ модели, обученные с нуля с использованием обучающих данных из набора данных Balabit; (ii) модели TRANSFERI, использующие обучение передаче, где модели были предварительно обучены на наборе данных DFL; и (iii) Модели TRANSFER2, которые были получены с помощью обучения передаче, а затем веса были сформированы с использованием обучающих данных из набора данных Balabit. Результаты для количества блоков (300): PLAIN = 0,63, TRANSFERI = 0,50 и TRANSFER2 = 0,66.

Это были результаты для количества блоков (всех): PLAIN = 0,55, TRANSFERI = 0,34 и TRANSFER2 = 0,62. В этом исследовании использовался общедоступный набор данных Balabit; он содержит данные мыши только от 10 пользователей, которых может быть недостаточно для создания надежной и безопасной модели пользователя, основанной на динамике мыши.

В работе [8] авторы предложили систему эмпирического биометрического исследования для идентификации пользователей с использованием различных нейронных сетей в он-лайн-игре League of Legends. Результаты их экспериментов показали, как различные нейронные сети ведут себя с биометрическими данными и базами данных League of Legends. RBF и байесовские сети показали, что можно улучшить результаты, собирая образцы с большей частотой, несмотря на стоимость обработки.

В заключении авторы заявляют, что в будущей работе можно использовать стратегию, в которой анализируются различия между выборками ранней игры, середины игры и поздней игры; этот подход рассматривает профиль пользователя на каждом уровне, поскольку один и тот же игрок проводит игру от начала до конца. Объем собранных данных был недостаточным, чтобы позволить экспериментам более точно проверить, не атакует ли пользователь сам в раамках совместного использования учетных записей.

В работе [9] авторы предложили схему аутентификации пользователя, основанную на динамике мыши. Они собрали данные о поведении мыши у 48 пользователей и применили нечеткую классификацию, основанную на алгоритме обучения для многомерного анализа данных. Они провели оценку и достигли уровня ложного принятия (FAR) 0% и уровня ложного отклонения (FRR) 0,36%. Для их экспериментов требовалось более 2000 событий мыши, чтобы классифицировать пользователя как законного.

В работе [10] авторы представили структуру для проверки пользователей с использованием действий мыши. Структура была разделена на три части: получение, обучение и проверка. Первым шагом является захват действий пользователя из действий мыши пользователей. Затем классифицируется каждый тип событий и сохраняется их в базе данных. На третий этапе заключается в отправке каждого события в избранный классификатор на основе типа действия. Классификатор имеет два уровня: уровень прогнозирования и уровень принятия решений. Исследователи провели тесты много классового классификатора с использованием RF-классификатора. Авторы собрали данные у 25 добровольцев. Они получили одинаковую частоту ошибок (EER) в 1,01% на основе 30 событий.

В работе [11] авторы рассматривают форму поведенческой биометрии, основанную на динамике мыши, которую можно использовать в различных приложениях безопасности. Разработан способ моделирования поведенческих характеристик на основе данных, захваченных искусственными нейронными сетями. Помимо этого, авторы представляют дизайн и реализацию детектора, который охватывает все этапы потоков биометрических данных. Они провели эксперимент, в котором приняли участие 5000 человек, и обнаружили FAR 2.4649% и FRR 2.4614%.

В планах у них расширить размер факторов пользователя и мыши для достижения более высокой производительности

В работе [12] авторы проверяют гипотезу о способе идентификации людей с помощью статистики, рассчитанной для комбинации записанных положений мыши и взгляда. Показанный им подход и эксперименты в этих исследованиях дали некоторые основания полагать, что разработка такого решения возможна. Снятие метрики динамики мыши и взгляда отличается дизайном, методом извлечения признаков. Результаты показывают, что он может быть использован как для авторизации (средний EER 11,2%, Fl-score 90,6%, лучший результат EER4%, лучший Fl-score 99%), так и для идентификации некоторого числа пользователей (средний EER 18%, точность 53%, лучшая точность 96%).

Поэтому данный анализ показал, что применение поведенческой биометрической идентификации как единственного механизма безопасности в настоящее время практически невозможно и требует дальнейшего совершенствования. Анализ показал, что последующие шаги исследования включают: поиск других особенностей идентификации и оптимизацию метода для отдельных участников; а также проверку других сценариев эксперимента, которые запланированы как будущая работа.

В работе [13] авторы демонстрируют, что модель CNNs для биометрической аутентификации на основе динамики нажатия клавиш может значительно повысить надежность паролей против атак грубой силы. Заблокировать вход 100% нелегальных пользователей можно даже если пароль пользователя был украден. Если обучающие данные используются для обучения паролей подозреваемых пользователей, то акка-унт легального человека будет надежно защищен от взлома. Гарантированно! Большинство легальных пользователей имеют 13% FRR. Любой человек может повторно ввести пароль, если его/ее заблокировали для входа в систему.

Кроме того, в случае изменения структуры обучающих данных так чтобы модель CNN была менее чувствительной к отбрасыванию легальных пользователей и FRP нелегалов улучшились до 6%. Точность идентификации модели CNN увеличилась почти на 97% Также они рассмотрели более реалистичный сценарий, в котором данные об использовании клавиш пароля большинства нелегальных пользователей были исключены из обучения. По мнению CNN, модель безопасности по-прежнему может защитить 72% нелегальных пользователей, а точность идентификации CNN модели составляет 80%. Таким образом, понимая важность требований к производительности вычислений при большом объеме данных и количестве тренировок, авторы объединили параллельные вычисления на GPU в нашей CNN-модели и получили ускорение примерно в 4,45 раза. Это делает предложенный подход очень практичным и осуществимым.

В работе [14] авторы описывают способ выработать параметры для снятия данных с компьютерной мыши, рассматривают требования для создания DataSet, определяют эффективность анализа и извлечения основных признаков из необработанных данных. Рассмотрены модели DL для CA и AD, позволяющие верифицировать пользователя, произвести их качественное сравнение. В результате работы определено, что существующие методы, связанные с CA и AD описывают

в основном лабораторные исследования, и носят характер подтверждения гипотез. В рассмотренных исследованиях описаны использованные параметры, по разработке программного обеспечение для снятия данных о действиях мыши. Исследования показывают, что инструменты сбора незначительно влияют на качество получаемых данных, при условии предобработки данных с использованием алгоритмов выделения ключевых признаков.

Большинство исследований рассматривает наборы данных полученных, либо из свободных источников, либо из групп добровольцев в диапазоне от 10 до 60 человек. Необходимо отметить, что количество, превышающее 10 можно считать достаточным для определения репрезентативной выборки. Определено, что наибольшее значение на результат дали признаки, описывающие описывает перемещение мыши между двумя местоположениями экрана. Рассмотрены модели DL для СА и AD, позволяющих верифицировать пользователя, произведено их качественное сравнение. Практическая значимость: проведенное исследование позволяет судить о возможности реализации решения по непрерывной он-лайн-аутентификации и систем обнаружения аномалий для постоянного подтверждения личности пользователя в рамках разработанной ранее системы проведения дистанционных чемпионатов RemoteTopology.

В работе [15] авторы представили первый сравнительный анализ HuMIdb, новой общедоступной базы данных с более 5 ГБ различных мобильных данных, собранных по неконтролируемому сценарию. При этом для каждой модальности была разработана своя LSTM RNN с тройной потерей. По словам авторов исследования они показали, что наиболее эффективным источником являются фиксированные текстовые данные о нажатии клавиш для сенсорного экрана и магнитометра с датчиками фонового излучения. Однако сила различения системы значительно повышается при синтезе, обычно достигая диапазона 4-9% EER в течение примерно 3 с взаимодействия.

Постановка задачи

Биометрическая система позволит с высоким процентом достоверности определить подмену пользователя. Таким образом есть возможность выделить легитимного и не легитимного пользователя на основе данных, полученных при работе с манипулятором [16]. В нашем исследовании для мониторинга поведения пользователей использовались контролируемые методы машинного обучения для возможности выделения легитимных пользователи [17].

В качестве источника данных нами используются данные, полученные в рамках обучения студентов ВУЗ по дисциплине «Сети и системы передачи информации» возрастная категория 18-24 года тендерное соотношение 60% муж. 40% жен. А также Чемпионата по «Информационной безопасности», проходившего в рамках международного чемпионата BRICS Future Skills Challenge 2022 в рамках дистанционной работы участников из 8 стран. Возрастная категория 18-37 года тендерное соотношение 92% муж. 8% жен. Для обеспечения высокой точности метода, необходимо обрабатывать большое количество параметров манипулятора [18].

При этом проблемой будет являться получаемый пользователем опыт. Пользователь систематически улучшает навыки работы с мышью, повышая\изменяя скорость движения и скорость перемещения манипулятора и т.д.

Модель должна обеспечивать постоянное определение характеристик пользователя на основе динамики работы мыши. Характеристики собираются и упаковываются на стороне клиента в браузерном расширении, затем передаются на сервер м хранятся в базе данных. Если характеристики, которые пользователь демонстрирует в текущий момент времени совпадают с теми, которые были выделены при обучении модели пользователь продолжает работу, в противном случае система блокирует работу пользователя и требует повторной аутентификации. Работа модели описывается схемой на рисунке 1.

Рис. 1. Схема работы системы

1 Этап сбора. На данном этапе собираются данные пользователя. Сбор данных осуществляется расширением браузера в пределах окна браузера. Данные сеанса каждого сеанса обрабатываются расширением браузера. Расширение собирает информацию о движениях мыши по осям X, Y, а также о том на каком url находиться пользователь, собирает эти данные в стандартном объекте JavaScript, затем раз в 4 секунды происходит отправка данных в формате JSON на удаленный сервер. Данные хранятся на сервере. Данные записываются в СУБД PostgreSQL. После получения сервером достаточного количества данных, о определенном пользователе, происходит их обработка, а именно вычисление скорости, ускорения и преобразования url в категориальный атрибут, затем данные записываются в новую таблицу (которая создается индивидуально по id пользователя).

2 Фаза извлечения признаков.

Собранные данные, средствами расширения браузера подвергаются обработке, из них мы выделяем шесть основных признаков для формирования набора данных:

- Метка времени: определяется временем с начала сеанса, запись браузерным расширением.

- Статус кнопки: статус кнопки мыши, применяется условие нажатия левой кнопки мыши, правой кнопки мыши, колеса мыши. В настоящий момент не учитывается скорость прокрутки колеса.

- Состояние кнопки мыши: определяется дополнительным атрибутом, таким как нажатие, отпускание, зажатие клавиши.

- Ось X: координата X курсора на экране.

- Ось Y: координата Y курсора на экране.

- Положение области XY: мы определяем экран браузера как полотно, состоящее из 4 областей. Каждая выделенная область рассматривается как отдельное прямоугольное полотно. Для определения областей в рамках окна применяется объект window [19]. Пример показан на рисунке 2.

(1920,1080)

(1920,540)

(1920,0)

(960,1080)

(0,1080)

Region-4 Region-3 (960,540)

Regioti-2 R»í¡on-4 Regk 11-1

ntgion-2

(960,0)

Рис. 2. Области экрана

(0,540)

(0,0)

3 Этап подготовки данных: на этапе обучения все данные пользователей сгруппированы в блоки в рамках серверной части инфраструктуры. После этого Данные были разбиты на две категории, первая категория (80% данных) использовалась для обучения, а вторая категория (20% данных) использовалась для тестирования производительности модели. Для каждого эксперимента процент обучающих и оценочных наборов оставался неизменным, чтобы избежать смещения классификатора.

В дальнейшем данное разделение должно учитываться при непрерывной онлайн аутентификации, т.е. модель замещает старые учебный данные от вновь полученные, прогрессируя в след за пользователем в владении пользователем мышью. Выбор фазы классификатора подробно описан в работе [14], что позволяет определить легитимен ли доступ пользователя в системе. Нами применяются пять алгоритмов классификаций: Random Forest, Decision Tree, KNN, Naïve Bayes and Principal Component Analysis (PCA).

Эффективность методов определяется с использованием трех общих показателей: частота ложного принятия (FAR), частота ложного отклонения (FRR) и равная частота ошибок (EER). FRR - это вероятность того, что легитимный пользователь, не сможет получить доступ к системе. EER - это пороговое значение между частотой ложного принятия и частотой ложного отклонения пользователя. Необходимо получить классификатор со структурой его кривых рабочих характеристик приемника (ROC) так как они определяют успешность прогнозирования модели в рабочих точках возможных пороговых значений. Кривая ROC отображает истинную положительную скорость (TPR) в сравнении с ложноположительной скоростью (FPR).

Для целей оценки производительности использовались следующие выражения: TP: истинно положительный, TN: истинно отрицательный, FP: ложноположительный, FN: ложно-отрицательный, FAR: коэффициент ложного принятия, FRR: коэффициент ложного отклонения и EER: равная частота ошибок:

ACC =

TP + TN

TP + TN + FP + FN TP

TPR =

TNR =■

FPR =

TP + FN

TN TN + FP

FP FP +FN

FN

FAR =

FRR =

fnr = fn + tp

Number o f accepted imposters Total number o f imposters

Number o f rejected genuines Total number o f genuines

FAR+FRR

EER =

каждого пользователя с использованием классификаторов, определённых выше. Целью этапа проверки было проверить, связаны ли данные мыши с данным пользователем. После тестирования всех пользователей с использованием классификаторов был достигнут показатель 98% проверки. Этап аутентификации: на этом этапе каждый пользователи разделяются на два блока: легитимные пользователи и не легитимные пользователи. Действия нелегитимных пользователей подменяют работы легитимных пользователей в системе, путем смены участников за рабочим местом. После чего каждому достоверному действию присваивается единичное значение, а не достоверному нулевое. Классификаторы отвечают за определение вероятности того, что пользователь принадлежит к блоку легитимных или не легитимных пользователей. Результаты работы в сценариях.

Таблица 1

Оценка СА — Сценарий 1 (Действия с учетом движений мыши): FAR, FRR и EER

Нами применяются пять алгоритмов классификаций: Random Forest, Decision Tree, KNN, Naïve Bayes and Principal Component Analysis (PCA). Перед классификацией данные делятся на обучающие и тестовые. 80% данных используются для обучения модели. 20% данных для в качестве тестовых данных. Выборка данных производится случайным образом. Обработка данных данных пяти сессий по 15 секунд и пяти сессий по пять секунд, что позволяет получить баланс между объемом данный и скоростью выявления неавторизованного пользователя. Данные временные интервалы подобраны эмпирическим путем в ходе эксперимента.

4. Этап обучения: процесс обучения начнётся со считывания характеристик всех пользователей из обучающего набора данных и последующей загрузки их классификаторы для обучения модели. Этот шаг определяет паттерн поведения пользователя.

5. Этап тестирования данных: после завершения этапа обучения модель была протестирована на новых данных, которые никогда не использовались для обучения, чтобы определить, является ли пользователь подлинным пользователем или самозванцем.

Эксперимент и анализ результатов

Эксперимент проводился в два этапа: этап проверки и этап аутентификации. Этап проверки: на данном этапе все классификаторы сначала обучаются с использованием данных, которые содержат только подлинные действия легитимного пользователя. Работа ведется в рамках платформы RemoteTopology. В рамках открытой web страницы пользователь открывает несколько сеансов протоколов RDP. VNC, Telnet, SSH. Данные о сеансах собираются расширением браузера и передаются в базу денных. На втором этапе был проведен эксперимент путем обучения и тестирования для

Классификатор KNN DT RF CNN

FAR 0,014 0,016 0,010 0,046

FRR 0,196 0,64 0,072 0,965

ERR 0,105 0,328 0,041 0,506

Таблица 2

Оценка СА - Сценарий 2: (Действия с учетом движений мыши и однократных нажатий): FAR, FRR и EER

Классификатор KNN DT RF CNN

FAR 0,032 0,016 0,011 0,048

FRR 0,475 0,256 0,143 0,869

ERR 0,254 0,136 0,077 0,459

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 3

Оценка СА - Сценарий 3: (Действия с учетом движений мыши и многократных нажатий): FAR, FRR и EER

Классификатор KNN DT RF CNN

FAR 0,028 0,306 0,031 0,054

FRR 0,786 0,488 0,563 0,974

ERR 0,407 0,397 0,297 0,514

Данные эксперименты позволили сформировать нагрузку для системы. Это позволило сравнить производительность алгоритмов в рамках предложенной модели. Выбранные нами 20% (экспериментальные данные) были обработаны в рамках модели классификации и позволили сравнить точность работы алгоритмов.

Таблица 4

Процент региона для каждого пользователя

User 5 сессий по15 секунд 5 сессий по 5 секунд

R-l R-2 R-3 R-4 R-l R-2 R-3 R-4

User-1 56,01 0,86 41,99 6,91 57,43 4,42 47,02 5,37

User-2 62,98 5,18 13,47 1,41 60,17 3,50 17,56 3,86

User-3 60,39 2,04 18,95 2,28 62,28 5,18 38,70 6,88

User-4 71,65 7,50 39,31 3,56 69,91 1,06 30,69 10,64

User-5 98,80 4,85 20,46 2,82 85,92 2,36 48,82 10,43

User-6 69,64 0,32 16,69 1,88 52,09 5,48 30,36 0,30

User-7 90,02 6,02 43,75 7,92 99,39 7,67 28,46 4,66

User-8 81,80 1,22 34,47 10,70 91,78 5,30 10,74 0,70

User-9 70,90 9,30 19,54 4,13 82,99 3,15 35,25 1,98

User-10 87,89 0,08 11,32 4,38 67,10 9,91 29,27 7,96

User-11 84,19 8,88 12,13 10,20 61,16 9,26 20,39 6,17

User-12 68,33 6,97 34,04 0,06 90,92 9,97 26,78 9,04

User-13 99,22 0,51 17,91 2,50 72,18 8,14 18,69 4,01

User-14 50,16 2,97 25,18 8,22 90,04 1,98 30,61 2,12

User-15 70,57 8,20 15,88 7,70 57,99 5,39 14,64 9,86

User-16 77,82 1,17 10,11 5,16 93,04 1,57 49,14 9,56

User-17 59,95 3,40 26,66 2,73 97,63 8,32 29,18 1,74

User-18 88,09 7,08 11,87 2,59 93,18 1,81 36,37 4,72

User-19 51,78 10,69 17,94 10,77 63,38 8,50 11,77 6,01

User-20 66,39 3,50 11,90 2,53 61,71 7,44 12,04 5,83

User-21 71,21 10,25 40,24 2,76 86,55 2,14 20,81 0,13

User-22 65,99 1,32 43,39 10,85 71,51 8,10 34,38 3,17

User-23 56,33 9,98 33,52 1,91 51,55 1,96 49,88 4,87

User-24 84,31 2,31 15,80 3,61 82,14 3,16 17,35 9,69

User-25 96,67 8,60 23,64 10,64 84,29 1,58 34,18 8,44

User-26 58,28 8,02 15,02 2,26 83,30 10,03 28,42 1,06

User-27 63,57 7,58 33,34 6,79 70,47 6,78 10,51 3,37

User-28 66,30 10,68 34,55 6,34 67,05 10,90 26,73 10,89

User-29 95,01 1,32 26,50 2,06 60,25 2,32 28,20 8,28

User-30 77,53 10,99 48,10 3,20 80,21 2,49 44,87 5,12

5 спссий ш> 15 секунд 5 сессий ни 5 СЕКУНД

Рис. 3. Средний процент использования региона пользователями

Ниже приведено сравнение с аналогичными исследованиями других ученых, рассматриваемых нами методов (табл. 5).

Таблица 5

Автор со ссылкой Результаты исследований других авторов Средний результат нашего исследования

ERR ERR

А. Е. Ahmed, I. Traore [10] 1,01 0,0215

Kasprowski, Pawel & Harezlak, Katarzyna [12] авторизация 11,2

Kasprowski, Pawel & Harezlak, Katarzyna [12] идентификация 18

Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolo- sana, Aythami Morales, Alejandro Acien, Gael Le Lan [15] 4-9%

На основе этих данных можно построить гистограмму (рис. 3), позволяющую определить какой регион наиболее часто использует пользователь.

Результаты исследования и выводы

В ходе проведенного обзора источников и проведенного эксперимента можно выделить преимущества random forest над другими четырьмя алгоритмами в сессиях 10 секунд, что позволяет применять его в рамках проектов корпоративного обучения и организации соревнований. Так же можно отметить, что для сценариев 1, 2 и 3 с использованием FAR, FRR, EER и кривой ROC: сценарий 1 имел самые низкие значения EER: KNN EER: 0,014%, DT EER: 0,016%, RF EER: 0,010% и CNN EER: 0,046% по сравнению со сценариями 2 и 3. Результаты по всем сценариям представлены в таблицах 1-3. Можно отметить, что совместное применение данных технологий позволит получить высокую скорость работы решения при малой доле ошибок.

Литература

1. PisaniP.H. et al. Adaptive biometric systems: Review and perspectives //ACM Computing Surveys (CSUR). 2019. T. 52. №.5. C. 1-38.

2. Chong P., Elovici Y., Binder A. User authentication based on mouse dynamics using deep neural networks: A comprehensive study II IEEE Transactions on Information Forensics and Security. 2019. T. 15. C. 1086-1101.

3. Siddiqui N., Pryor L., Dave R. User authentication schemes using machine learning methods - a review II Proceedings of International Conference on Communication and Computational Technologies. Springer, Singapore, 2021. C. 703-723.

4. AntalM., Egyed-Zsigmond E. Intrusion detection using mouse dynamics IIIET Biometrics. 2019. T. 8. №. 5. C. 285-294.

5. Свидетельство о государственной регистрации программы для ЭВМ № 2021619990 Российская Федерация. RemoteTopology-модуль авторизации: № 2021613424: заявл. 09.03.2021: опубл. 21.06.2021 / А. Г. Уймин, С. В. Любкин.

6. Уймин А.Г. Интеллектуальный анализ динамики трехпозици-онного графического манипулятора типа "мышь" как элемента поведенческой биометрии II Системы управления и информационные технологии. 2022. № 2(88). С. 92-96. DOI 10.36622/VSTU.2022.88.2.018.

7. Antal M., Egyed-Zsigmond E. Intrusion detection using mouse dynamics. IET Biom. 2019, 8, pp. 285-294.

8. da Silva V.R.; Costa-Abreu M.D. An empirical biometric-based study for user identification with different neural networks in the online game League of Legends. In Proceedings of the 2018 International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazil, 8-13 July 2018; pp. 1-6.

9. Nakkabi Y., Traore I., Ahmed A.A.E. Improving mouse dynamics biometric performance using variance reduction via extractors with separate features. IEEE Trans. Syst. Man Cybern. Part A: Syst. Hum. 40(6), pp. 1345-1353.

10. Ahmed A.E., Traore I. A New Biometric Technology Based on Mouse Dynamics II IEEE transactions on Dependable and Secure Computing, vol. 4, no. 3, pp. 165-179, July-Sept. 2007.

11. Awad A., Liu Y. Cognitive biometrics for user authentication II Biometric-Based Physical and Cybersecurity Systems. Springer, Cham, 2019. C. 387-399.

12. Kasprowski Pawel, HarezlakKatarzyna. Biometric Identification Using Gaze and Mouse Dynamics During Game Playing: 14th International Conference, BDAS 2018, Held at the 24th IFIP World Computer Congress, WCC 2018, Poznan, Poland, September 18-20,2018, Proceed-ings.10.1007/978-3-319-99987-6_38.

13. Lin C.H., Liu J.C., Lee K. Y. On neural networks for biometric authentication based on keystroke dynamics II Sensors and materials. 2018. T. 30. №. 3. C. 385-396.

14. Уймин А.Г., Морозов И.М. Сравнительный анализ инструментов непрерывной онлайн-аутентификации и систем обнаружения аномалий для постоянного подтверждения личности пользователя II T-Comm: Телекоммуникации и транспорт. 2022. Т. 16. № 5. С. 48-55. DOI 10.36724/2072-8735-2022-16-5-48-55

15. Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana, Ay-thami Morales, Alejandro Acien, Gael Le Lan. Mobile behavioral biometrics for passive authentication, Pattern Recognition Letters. Vol. 157, 2022, pp. 35-41, ISSN 0167-8655, https://doi.Org/10.1016/j.patrec.2022.03.014.

16. Уймин А.Г. Эмпирическая оценка методов машинного обучения в задачах онлайн-аутентификации II Вестник компьютерных и информационных технологий. 2022. Т. 19. № 8(218). С. 49-57. DOI 10.14489/vkit.2022.08, pp. 049-057.

17. Almalki S., Chatterjee P., Roy K. Continuous authentication using mouse clickstream data analysis II International Conference on Security, Privacy and Anonymity in Computation, Communication and Storage. Springer, Cham, 2019. C. 76-85.

18. Lu X., Feng Z., Xia J. An Efficient Man-Machine Recognition Method Based On Mouse Trajectory Feature De-redundancy II Annual Computer Security Applications Conference. 2021. C. 365-374.

19. Описание объекта window II MDN web docs URL: https://de-veloper. mozilla.org/ru/docs/Web/API/Window.

COMPARISON OF CLASSIFICATION ALGORITHMS PERFORMANCE WITHIN NETWORK INFRASTRUCTURE

ANTON G. UIMIN

St. Petersburg, Russia

OLEG R. NIKITIN

St. Petersburg, Russia KEYWORDS: user, data, learning, authentication, legitimate.

ABSTRACT

Introduction: User authentication is now a standard procedure for access to corporate or public network infrastructure. The advantage of biometric authentication is the unique and unambiguous identification of an individual in the system. Supervised machine learning techniques were used to monitor user behavior to identify legitimate users. After testing all users using the classifiers, the verification rate was achieved at 98%. The results can be used in corporate projects and organizing contests. The work is conducted within the RemoteTopology platform. On the open web page, the user opens several RDP protocol sessions. VNC, Telnet, SSH. Session data is collected by the browser extension and transmitted to the database. In the second stage, an experiment was

REFERENCES

1. Pisani P. H. et al. Adaptive biometric systems: Review and perspectives. ACM Computing Surveys (CSUR). 2019. Vol. 52. No. 5, pp. 1-38.

2. Chong P., Elovici Y., Binder A. User authentication based on mouse dynamics using deep neural networks: A comprehensive study. IEEE Transactions on Information Forensics and Security. 2019. Vol. 15, pp. 10861101.

3. Siddiqui N., Pryor L., Dave R. User authentication schemes using machine learning methods-a review. Proceedings of International Conference on Communication and Computational Technologies. Springer, Singapore, 2021, pp.. 703-723.

4. Antal M., Egyed-Zsigmond E. Intrusion detection using mouse dynamics. IET Biometrics. 2019. Vol. 8. No. 5, pp. 285-294.

5. Uimin A.G., Lyubkin S.V. Certificate of state registration of the computer program No. 2021619990 Russian Federation. RemoteTopology-Authorization Module : No. 2021613424 : App. 03/09/2021 : publ. 06/21/2021.

6. Uimin A.G. Intellectual analysis of the dynamics of a three-position graphic manipulator of the "mouse" type as an element of behavioral biometrics. Control systems and information technologies. 2022. No. 2(88), pp. 9296. DOI 10.36622/VSTU.2022.88.2.018.7. Antal, M.; Egyed-Zsigmond, E. Intrusion detection using mouse dynamics. IET Biom. 2019, 8, pp. 285-294.

8. da Silva, V.R.; Costa-Abreu, M.D. An empirical biometric-based study for user identification with different neural networks in the online game League of Legends. In Proceedings of the 2018 International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazil, 8-13 July 2018, pp. 1-6.

9. Nakkabi Y., Traore I., Ahmed A.A.E. Improving mouse dynamics biometric performance using variance reduction via extractors with separate features. IEEE Trans. Syst. Man Cybern. Part A: Syst. Hum. 40(6), pp. 13451353.

10. Ahmed A.E., Traore I. A New Biometric Technology Based on Mouse Dynamics. IEEE transactions on Dependable and Secure Computing, vol. 4,

conducted to train and test each user using the classifiers defined above. If the characteristics that the user exhibits at the current time match those identified by the model training, the user continues to work, otherwise the system locks the user and requires re-authentication. The model must provide constant detection of user characteristics based on mouse dynamics. Characteristics are collected and packaged on the client side in a browser extension, then transmitted to the server and stored in a database. Each reliable action is then assigned a value, and a single block of work is not a single user. A single block is not an illegal or illegal user to block work. It can also be noted that for scenarios 1, 2 and 3 using the FAR, FRR, EER and ROC curve: scenario 1 had the lowest EER values: RF EER: 0.010%.

no. 3, pp. 165-179, July-Sept. 2007.

11. Awad A., Liu Y. Cognitive biometrics for user authentication. Biometric-Based Physical and Cybersecurity Systems. Springer, Cham, 2019, pp. 387-399.

12. Kasprowski, Pawel & Harezlak, Katarzyna. (2018). Biometric Identification Using Gaze and Mouse Dynamics During Game Playing. 14th International Conference, BDAS 2018, Held at the 24th IFIP World Computer Congress, WCC 2018, Poznan, Poland, September 18-20, 2018, Proceedings. 10.1007/978-3-319-99987-6_38.

13. Lin C. H., Liu J. C., Lee K. Y On neural networks for biometric authentication based on keystroke dynamics. Sensors and materials. 2018. Vol. 30. No. 3, pp. 385-396.

14. Uimin A.G., Morozov I.M. Comparative analysis of continuous online authentication tools and anomaly detection systems for permanent confirmation of the user's identity. T-Comm. 2022. Vol. 16. No. 5. S. 48-55. DOI 10.36724/2072-8735-2022-16-5-48-55

15. Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana, Aythami Morales, Alejandro Acien, Gael Le Lan, Mobile behavioral biometrics for passive authentication, Pattern Recognition Letters. Vol. 157, 2022, pp. 35-41, ISSN 0167-8655, https://doi.org/10.1016/j.patrec.2022.03.014.

16. Uimin A.G. Empirical evaluation of machine learning methods in online authentication problems. Bulletin of computer and information technologies. 2022. Vol. 19. No. 8(218), pp. 49-57. DOI 10.14489/vkit.2022.08.pp.049-057

17. Almalki S., Chatterjee P., Roy K. Continuous authentication using mouse clickstream data analysis. International Conference on Security, Privacy and Anonymity in Computation, Communication and Storage. Springer, Cham, 2019, pp. 76-85.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

18. Lu X., Feng Z., Xia J. An Efficient Man-Machine Recognition Method Based On Mouse Trajectory Feature De-redundancy. Annual Computer Security Applications Conference. 2021, pp. 365-374.

19. Description of the window object. MDN web docs URL: https://devel-oper.mozilla.org/ru/docs/Web/API/Window

INFORMATION ABOUT AUTHORS:

Anton G. Uimin, Senior Lecturer of the Department of Information Technology Security Department of the Federal State Autonomous Educational Institution of Higher Education Russian State University of Oil and Gas (NRU) named after I.M. Gubkin, Research interests: information security; monitoring of information resources; collection and processing of information, Moscow, Russia

Oleg R. Nikitin, Doctor of Technical Sciences, Professor, Head of the Department of Radio Engineering and Radio Systems. Vladimir State University named after Alexander Grigorievich and Nikolai Grigorievich Stoletovs (VlSU). Research interests: information security; monitoring of information resources; collection and processing of information, Vladimir, Russia

For citation: Uimin A.G., Nikitin O.R. Comparison of classification algorithms performance within network infrastructure. H&ES Reserch. 2023. Vol. 15. No 2. P. 33-40. doi: 10.36724/2409-5419-2023-15-2-33-40 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.