Научная статья на тему 'МОДЕЛЬ БИЗНЕС-ПРОЦЕССА РАБОТЫ С АЛГОРИТМОМ RANDOM FOREST'

МОДЕЛЬ БИЗНЕС-ПРОЦЕССА РАБОТЫ С АЛГОРИТМОМ RANDOM FOREST Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
21
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
модель / бизнес-процесс / «Случайный лес» / фильтрация / F1-метрика / случайная выборка / HTTP-сессии / model / business process / "Random forest" / filtering / F1-metric / random sampling / HTTP sessions

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Е А. Маркевич, А В. Кукарцев

Стратегия развития информационного общества в Российской Федерации привела к цифровизации ключевых процессов. В нашей статье предложена модель на основе алгоритма машинного обучения «Случайный лес», позволяющая производить распознавание ботов по HTTP-сессиям. Обучение алгоритма было произведено на наборе данных более 5000 сессий. Перспективность данного направления очевидна, поскольку роботизированный трафик составляет более 40% от общего интернет-трафика.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BUSINESS PROCESS MODEL FOR WORKING WITH THE RANDOM FOREST ALGORITHM

The strategy for the development of the information society in the Russian Federation has led to the digitalization of key processes. In our article, we propose a model based on the Random Forest machine learning algorithm, which allows for the recognition of bots by HTTP sessions. The algorithm was trained on a data set of more than 5000 sessions. The prospects of this direction are obvious, since robotic traffic accounts for more than 40% of the total Internet traffic.

Текст научной работы на тему «МОДЕЛЬ БИЗНЕС-ПРОЦЕССА РАБОТЫ С АЛГОРИТМОМ RANDOM FOREST»

УДК 65.011.56

МОДЕЛЬ БИЗНЕС-ПРОЦЕССА РАБОТЫ С АЛГОРИТМОМ RANDOM FOREST

Е. А. Маркевич Научный руководитель А. В. Кукарцев

Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: kempf@sibsau.ru

Стратегия развития информационного общества в Российской Федерации привела к цифровизации ключевых процессов. В нашей статье предложена модель на основе алгоритма машинного обучения «Случайный лес», позволяющая производить распознавание ботов по HTTP-сессиям. Обучение алгоритма было произведено на наборе данных более 5000 сессий. Перспективность данного направления очевидна, поскольку роботизированный трафик составляет более 40% от общего интернет-трафика.

Ключевые слова: модель, бизнес-процесс, «Случайный лес», фильтрация, F1-метрика, случайная выборка, HTTP-сессии.

BUSINESS PROCESS MODEL FOR WORKING WITH THE RANDOM FOREST

ALGORITHM

E. A. Markevich Scientific supervisor - A. V. Kukartsev

Siberian Federal University, Russian Federation, 660041, Krasnoyarsk, pr. Svobodnyy, 79 E-mail: kempf@sibsau.ru

The strategy for the development of the information society in the Russian Federation has led to the digitalization of key processes. In our article, we propose a model based on the Random Forest machine learning algorithm, which allows for the recognition of bots by HTTP sessions. The algorithm was trained on a data set of more than 5000 sessions. The prospects of this direction are obvious, since robotic traffic accounts for more than 40% of the total Internet traffic.

Key words: model, business process, "Random forest", filtering, F1-metric, random sampling, HTTP sessions

Новый цифровой уклад предполагает постепенный переход бизнеса в онлайн пространство. Карантинные меры 2020 года ускорили этот процесс. Появилось понятие «перенос активности в онлайн», таким образом бизнес подвергся цифровой трансформации. Успевшим быстро перестроиться компаниям это помогло не только остаться на плаву, но и забрать аудиторию менее подготовленных конкурентов. Но только ли активность людей выросла в онлайн пространстве? Рассмотрев данные по данным трафика исследовательская лаборатория Imperva's Threat Research Lab [1] сделала отчет по 2020 году, который свидетельствует о повышении сетевой активности автоматических средств взаимодействия с контентом на веб-сайтах. При этом выделяется доля активности человека 62,8%; хороших ботов 13,1% и плохих ботов 24,1%. Нужно отметить, что плохой бот трафик вырос значительно и, на данный момент, это почти четверть всего интернет-трафика. Ущерб

Актуальные проблемы авиации и космонавтики - 2021. Том 3

наносится и бизнесу, и частным лицам. В связи с этим обязательна разработка процессов фильтрации нежелательной активности на веб-сайтах.

Бот - это программное обеспечение, предназначенное для имитации поведения реального пользователя в онлайновых социальных сетях [2]. Предложено множество методов их обнаружения и удаления. Исследования проводят по характеристикам, обнаружению и оценке воздействия ботов.

Существуют разные техники обнаружения веб-ботов в сетевом трафике: лимитирование частоты запросов к узлу; проверка черных списков IP-адресов; анализ значения HTTP-заголовка User-Agent; снятие отпечатков устройства; внедрение CAPTCHA; поведенческий анализ сетевой активности с помощью машинного обучения.

Инструменты анализа бот-трафика стали необходимостью для любого сайта.

Процесс выявления ботов по HTTP-сессии. Сессия — последовательность запросов от одного узла (уникальное значение IP-адреса и поля User-Agent в HTTP-запросе) в фиксированном временном интервале [3]. Оценка сессии будет производиться в режиме offline. Используются выгруженные в файл данные, которые будут поделены на test set и training set.

Данная модель использует ключевые концепции:

1. Случайная выборка образцов из набора данных при построении деревьев.

2. При разделении узлов выбираются случайные наборы параметров.

Оптимизация случайного леса, которую можно выполнить через случайный поиск, используя RandomizedSearchCV в Scikit-Learn. Оптимизация подразумевает поиск лучших гиперпараметров для модели на текущем наборе данных.

Есть существенное отличие от других моделей, в данном случае не используется взвешивание признаков, потому любые однообразные преобразования не повлияют на результат (с точностью до численной погрешности) [4].

Алгоритм построения случайного леса, состоящего из N деревьев, выглядит следующим образом:

Для каждого n=1,.. ,,N:

1. Сгенерировать выборку Xn с помощью Bootstrap;

2. Построить решающее дерево bn по выборке Xn. По заданному критерию мы выбираем лучший признак, делаем разбиение в дереве по нему и так до исчерпания выборки. Дерево строится, пока в каждом листе не более nmin объектов или пока не достигнем определенной высоты дерева. При каждом разбиении сначала выбирается m случайных признаков из n исходных, и оптимальное разделение выборки ищется только среди них.

3. Итоговый классификатор a(x)=1N^i=1Nbi(x), простыми словами — для задачи классификации мы выбираем решение голосованием по большинству, а в задаче регрессии — средним.

Рекомендуется в задачах классификации брать m=n, а в задачах регрессии — m=n3, где n — число признаков. Также рекомендуется в задачах классификации строить каждое дерево до тех пор, пока в каждом листе не окажется по одному объекту, а в задачах регрессии — пока в каждом листе не окажется по пять объектов.

Таким образом, случайный лес — это Bootstrap aggregating над решающими деревьями, при обучении которых для каждого разбиения признаки выбираются из некоторого случайного подмножества признаков [5].

В результате, описан подход к обнаружению web-ботов с помощью алгоритма машинного обучения и использования статистических признаков. Алгоритм машинного обучения «Случайный лес» выбран как наиболее подходящий. Реализация подобия модели для распознавания ботов по сессии на Python, с использованием библиотеки машинного обучения scikit-learn [6]. Для оценки точности используется классическая F мера. Для обучения алгоритма были использованы 11 признаков. На обученном алгоритме было

произведено тестирование на случайном наборе данных и получено значение F-метрики равной 0.98.

Библиографические ссылки

1. https://www.imperva.com/blog/bad-bot-report-2020-bad-bots-strike-back, Bad Bot Report 2020: Bad Bots Strike Back, Edward Roberts.

2. Lyfenko N.D. Virtual users in social networks: myths and reality. Voprosy kiberbezopasnosti [Cybersecurity Issues], 2014, no. 5(8), pp. 17-20 (in Russian).

3. Cabri A. et al. Online Web Bot Detection Using a Sequential Classification Approach. 2018 IEEE 20th International Conference on High Performance Computing and Communications.

4. Chu Z., Gianvecchio S., Wang H. (2018) Bot or Human? A Behavior-Based Online Bot Detection System. In: Samarati P., Ray I., Ray I. (eds) From Database to Cyber Security. Lecture Notes in Computer Science, vol. 11170. Springer, Cham.

5. De Meo P., Ferrara E., Fiumara G., A. Provetti A. On Facebook, most ties are weak // Commu- nications of the ACM. 2014. Vol. 57. No. 11. Pp. 78-84. DOI: 10.1145/2629438

6. Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V., Vanderplas J., Passos A.,. Cournapeau D., Brucher M., Perrot M., Duchesnay E. Scikit-learn: Machine learning in Python // The J. of Machine Learning Research. 2011. Vol. 12. Pp. 2825-2830.

© Маркевич Е. А., Кукарцев А. В., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.