Научная статья на тему 'ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОЙ КЛАССИФИКАЦИИ И МАРШРУТИЗАЦИИ В БИБЛИОТЕКЕ ITIL'

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОЙ КЛАССИФИКАЦИИ И МАРШРУТИЗАЦИИ В БИБЛИОТЕКЕ ITIL Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
243
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / ИТ-CЕРВИС / ИНЦИДЕНТ / ГРАДИЕНТНЫЙ БУСТИНГ / НЕЙРОННАЯ СЕТЬ / ВЕКТОРИЗАЦИЯ / ITIL / ITSM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никулин Владимир Валерьевич, Шибайкин Сергей Дмитриевич, Соколова Мария Сергеевна

Проводится анализ эффективности применения методов машинного обучения для автоматизированной классификации и маршрутизации в библиотеке ITIL. Рассматриваются технология ITSM, библиотека ITIL, дается определение инциденту, ИТ-услуги. Далее выполняется векторизация и выделение ключевых слов в информации, записанной на естественном языке, для этого будет использоваться лемматизация (приведение словоформы к нормальной (словарной) форме) и мера TF-IDF. Приведен сравнительный анализ применения методов машинного обучения, а также сравнение результатов автоматической классификации текстовой информации с помощью градиентного бустинга и сверточной нейронной сети. Рассмотрены различные параметры данных методов. Лучшие результаты для обучающей и тестовой выборки показал градиентный бустинг - 95 % верно классифицированных инцидентов; в случаях с нейронной сетью результат составляет 91 %, у сверточной нейронной сети - 92 %. Точность рукописного классификатора составляет 90 %, т. к. некоторые из инцидентов не подпадают под его условия и остаются неклассифицированными. Результаты применения методов машинного обучения для автоматизированной классификации инцидентов позволяют с высокой точностью выполнять маршрутизацию заявок на восстановление работоспособности ИТ-сервисов, сократить время реагирования и ошибки, связанные с человеческим фактором.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никулин Владимир Валерьевич, Шибайкин Сергей Дмитриевич, Соколова Мария Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF MACHINE LEARNING TECHNIQUES FOR AUTOMATED CLASSIFICATION AND ROUTING IN ITIL LIBRARY

The article analyzes applying the machine learning methods for automated classification and routing in the ITIL library. The ITSM technology and the ITIL library are considered, the definitions to the incident and IT services are given. Further, the vectorization and extraction of keywords in the information written in natural language is carried out, for which lemmatization and the TF-IDF measure will be used. A comparative analysis of the application of machine learning methods, as well as a comparison of the results of automatic classification of text information using gradient boosting and a convolutional neural network is presented. Various parameters of these methods are considered. Gradient boosting showed the best results for the training and test sampling - 95% of correctly classified incidents; in cases with a neural network the result made 91%, a convolutional neural network had 92%. The accuracy of the handwritten classifier is 90%, as some of the incidents do not fall under its terms and remain unclassified. The results of the machine learning methods application for the automated classification of incidents make it possible to route requests for the restoration of the operability of IT services with high accuracy, to reduce the response time and errors associated with the human factor.

Текст научной работы на тему «ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОЙ КЛАССИФИКАЦИИ И МАРШРУТИЗАЦИИ В БИБЛИОТЕКЕ ITIL»

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

COMPUTER SOFTWARE AND COMPUTING EQUIPMENT

Научная статья УДК. 004.75

https://doi.org/10.24143/2072-9502-2022-1-42-52

Применение методов машинного обучения для автоматизированной классификации и маршрутизации в библиотеке

Владимир Валерьевич Никулин1 Сергей Дмитриевич Шибайкин2, Мария Сергеевна Соколова3

1-3Национальный исследовательский Мордовский государственный университет им Н. П. Огарёва, Саранск, Республика Мордовия, Россия, mkuЫnvv@mailruв

Аннотация. Проводится анализ эффективности применения методов машинного обучения для автоматизированной классификации и маршрутизации в библиотеке ITIL. Рассматриваются технология ITSM, библиотека ITIL, дается определение инциденту, ИТ-услуги. Далее выполняется векторизация и выделение ключевых слов в информации, записанной на естественном языке, для этого будет использоваться лемматизация (приведение словоформы к нормальной (словарной) форме) и мера TF-IDF. Приведен сравнительный анализ применения методов машинного обучения, а также сравнение результатов автоматической классификации текстовой информации с помощью градиентного бустинга и сверточной нейронной сети. Рассмотрены различные параметры данных методов. Лучшие результаты для обучающей и тестовой выборки показал градиентный бу-стинг - 95 % верно классифицированных инцидентов; в случаях с нейронной сетью результат составляет 91 %, у сверточной нейронной сети - 92 %. Точность рукописного классификатора составляет 90 %, т. к. некоторые из инцидентов не подпадают под его условия и остаются неклассифицированными. Результаты применения методов машинного обучения для автоматизированной классификации инцидентов позволяют с высокой точностью выполнять маршрутизацию заявок на восстановление работоспособности ИТ-сервисов, сократить время реагирования и ошибки, связанные с человеческим фактором.

Ключевые слова: классификация, ИТ-сервис, инцидент, градиентный бустинг, нейронная сеть, векторизация, ITIL, ITSM

Для цитирования: Никулин В. В., Шибайкин С. Д., Соколова М. С. Применение методов машинного обучения для автоматизированной классификации и маршрутизации в библиотеке ITIL // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2022. № 1. С. 42-52. https://doi.org/10.24143/2072-9502-2022-1-42-52.

Original article

Application of machine learning techniques for automated classification

and routing in ITIL library

Vladimir V. NikulinSergei D. Shibaikin2, Maria S. Sokolova3

1'3National Research Ogarev Mordovia State University, Saransk, Republic of Mordovia, Russian, nikulinvv@mail.ruB

Abstract. The article analyzes applying the machine learning methods for automated classification and routing in the ITIL library. The ITSM technology and the ITIL library are considered, the definitions to the incident and IT services

© Никулин В. В., Шибайкин С. Д., Соколова М. С., 2022

are given. Further, the vectorization and extraction of keywords in the information written in natural language is carried out, for which lemmatization and the TF-IDF measure will be used. A comparative analysis of the application of machine learning methods, as well as a comparison of the results of automatic classification of text information using gradient boosting and a convolutional neural network is presented. Various parameters of these methods are considered. Gradient boosting showed the best results for the training and test sampling - 95% of correctly classified incidents; in cases with a neural network the result made 91%, a convolutional neural network had 92%. The accuracy of the handwritten classifier is 90%, as some of the incidents do not fall under its terms and remain unclassified. The results of the machine learning methods application for the automated classification of incidents make it possible to route requests for the restoration of the operability of IT services with high accuracy, to reduce the response time and errors associated with the human factor.

Keywords: classification, IT-service, incident, gradient boosting, neural network, vectorization, ITIL, ITSM

For citation: Nikulin V. V., Shibaikin S. D., Sokolova M. S. Application of machine learning techniques for automated classification and routing in ITIL library. Vestnik of Astrakhan State Technical University. Series: Management, Computer Science and Informatics. 2022;1:42-52. (In Russ.) https://doi.org/10.24143/2073-5529-2022-1-42-52.

Введение

Information Technology Service Management (ITSM) - это идеология управления ИТ как набором услуг. В рамках этой идеологии ИТ-отдел или аутсорсер предоставляет бизнесу услуги с измеримыми характеристиками. Все параметры этой услуги подробно описаны в специальном соглашении - SLA (англ. Service Level Agreement -соглашение об уровне сервиса), которое составляют обе заинтересованные стороны - и ИТ, и бизнес. Идеология ITSM основана на ITIL (англ. IT Infrastructure Library - библиотека инфраструктуры информационных технологий), библиотеке лучших практик. Библиотека ITIL описывает бизнес-процесс, который позволяет предоставлять услуги в соответствии с требованиями клиентов (предприятий) на основе реального опыта ведения бизнеса. Однако ITSM и ITIL являются различными понятиями. ITSM - это подход, а ITIL -практическое руководство [1-4].

В процессе оказания ИТ-услуг могут возникнуть различные проблемы: услуга может стать недоступной, выполняться с ошибками, может появиться возможность получения несанкционированного доступа к информации и т. д. Возможны отклонения от штатного предоставления услуги. ITIL определяет такие отклонения как инциденты. Таким образом, инцидент - это незапланированное прерывание или снижение качества ИТ-услуги. Сбой конфигурационной единицы (неисправность или вовремя не проведенное техническое облужи-вание аппаратной или программной части ИТ-системы), который еще не повлиял на услугу, также является инцидентом.

Как правило, действия по устранению ИТ-инцидентов оказывают значительное влияние на общее восприятие ИТ пользователем. Чтобы эффективно управлять этой деятельностью, необхо-

димо сформировать соответствующий план действий. В соответствии с рекомендациями 1ТГЬ для ^ этого должен быть построен процесс управления п инцидентами. В большинстве случаев организации . используют собственные рукописные классифика- , торы (программы, написанные на любом языке ц программирования), основанные на поиске опре- к деленных слов в текстах запросов на основе логи- 5' ческих операций (если-то-иначе). Соответственно, а при добавлении ИТ-сервисов приходится вручную 5 добавлять новые логические условия в код класси- 1 фикатора. а Для правильного устранения инцидента крити- . чески важна задача его классификации. Классифи- . кация - это назначение соответствующей катего- Р рии инциденту диспетчерами дежурной службы а инфотелекоммуникационной системы для его О дальнейшей маршрутизации специалистам. ^ В данной работе рассматривается вопрос целе- С сообразности внедрения алгоритмов машинного О обучения в системы 1ТГЬ. Для этого рассмотрим е структуру отдела и предполагаемую эффектив- | ность внедрения данного решения. Схематическая то структура отдела представлена на рис. 1.

Специалисты по системам выполняют роль Ц-

маршрутизатора для инцидентов и перенаправляют $

их специалистам ФГ (функциональных групп), г

отвечающих за функционирование сервисов. 0.

Внедрение методов машинного обучения пред- 3

полагает автоматизацию маршрутизации инциден- &

тов, что уменьшит время реагирования и устранит $

неточность, связанную с человеческим фактором. ц

Также это позволит оптимизировать рабочие места Ц

в отделах, отвечающих за непрерывное функцио- а

нирование ИТ-сервисов, т. к. роль специалистов &

групп будет выполнять алгоритм машинного В

обучения. Л

0

1

1

S

4 ю

5

S S X

со

¡5

S S S

9

И

S -©ф

S

« О

х

Рис. 1. Схематическое представление подразделения информатизации: ФГ - функциональная группа Fig. 1. Schematic representation of the informatization unit: ФГ - functional group

Использование разработанного классификатора, основанного на подходе градиентного бустин-га, позволит уменьшить количество ошибок при классификации и маршрутизации заявок и позволит предсказать категории для инцидентов, которые не попали под рукописный классификатор.

Анализ методов машинного обучения

Машинное обучение - обширный раздел [5], использующий математические, статистические и вычислительные методы для решения задач по определенному алгоритму. Существует множество методов машинного обучения, такие как метод ближайших соседей, дерево решений, случайный лес, байесовский классификатор, нейронные сети, сверточные нейронные сети, адаптивный бустинг, градиентный бустинг и др. [6, 7].

Нейронные сети представляют собой имитацию работы мозга. Они состоят из последовательности нейронов, соединенных между собой синапсами. Сети состоят из входного слоя, скрытого слоя и выходного слоя. Каждый из нейронов получает и обрабатывает данные, которые передаются нейронам на следующем уровне. Так как обработка сигналов у них идентичная, чтобы получить верное решение, необходимо правильно выбрать параметры синапсов, которые связывают нейроны. Существует множество разновидностей нейронных сетей, такие как сверточная нейронная сеть, импульсная нейронная сеть, хаотическая нейронная сеть и др. Пример нейронной сети представлен на рис. 2.

к

Л

С

О

и о

х х

Рис. 2. Пример нейронной сети Fig. 2. An example of a neural network

s

Э

PQ

PQ x

X

к

i

s ffi

В данном примере первый слой (два нейрона) -это входной слой, второй слой (пять нейронов) -скрытый (вычислительный) слой, третий - (один нейрон) - выходной слой. Один из частных случаев нейронной сети - сверточная нейронная сеть. Особенностью сверточной нейронной сети является то,

что в ней в операции свертки используется ограниченная матрица, двигающаяся по входному слою и формирующая после каждого движения сигнал активации нейрона следующего слоя. Для всех нейронов используется одна и та же матрица, которую называют ядром свертки.

Бустинг - это метод, который заключается в обучении слабых классификаторов для получения более сильного классификатора. Обычно при таком методе каждому объекту присваивается определенный вес, который связан с точностью обучения. После того как слабый классификатор добавлен, происходит перерасчет весовых коэффициентов - вес каждого из объектов пересчиты-вается таким образом, что неверно классифицированные объекты получают больший вес, а правильно - меньший вес. Далее идет процесс нормализации, чтобы все веса в сумме были равны единице, и процесс идет заново. Таким образом, в сле-

дующей итерации обучение в большей степени фокусируется на объектах, которые были ошибочно классифицированы.

В данной работе выполнено сравнение различных методов машинного обучения для выяснения наиболее эффективного подхода к задаче автоматической классификации инцидентов. Каждый инцидент состоит из перечня атрибутов, каждый из которых имеет вид «атрибут-значение». Так как список атрибутов очень велик, выбраны только самые основные, количество которых достаточно для эффективной векторизации (табл. 1).

Таблица 1 Table 1

Список выбранных атрибутов с примерами значений List of selected attributes with example values

Статус Критичность Объект Класс объекта Показатель MSG

OPEN MINOR server.ru@vm-16401 server@Proc essor VSM_CPU_CNTR Total CPU Utilization VMware CPU Container Total CPU Utilization >= 80 % for 10 min.

OPEN MAJOR service:[service]: Errorsrequests ZabbixDefaultClass - Apiman: Errors request in API service more than 5 on server.ru

OPEN MAJOR service:[service]: Errorsrequests ZabbixDefaultClass - Apiman: Errors request in API service/account-charges more than 5 on server.ru

OPEN MINOR server.ru@vm-3801 server@Proce ssor VSM_CPU_CNTR Total CPU Utilization VMware CPU Container Total CPU Utilization >= 80 % for 10 min.

OPEN CRITICAL IS: - - Integration Service on ip:port is disconnected.

OPEN CRITICAL IS: - - Integration Service on ip:port is disconnected.

OPEN MAJOR ip|Application27 PIM_Port Portstatus Application ip|port ne dostupennaservere

OPEN MAJOR service:[service]: Errorsrequests ZabbixDefaultClass - Apiman: Errors request in API service more than 5 on server.ru

OPEN MAJOR ip|Application31 PIM_Port Portstatus Application ip|Application31 ne dostupennaservereip

OPEN MAJOR service:[service]: Errorsrequests ZabbixDefaultClass - Apiman: Errors request in API service more than 5 on server.ru

OPEN MAJOR server.ru@vm-8790 vm-ora-odb-22@Processor VSM_CPU_CNTR Total CPU Utilization VMware CPU Container Total CPU Utilization >= 90 % for 10 min.

OPEN MINOR server.ru@vm-2659 infra@Process or VSM_CPU_CNTR Total CPU Utilization VMware CPU Container Total CPU Utilization >= 80 % for 10 min.

i |

В S

i

i

i В

с

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

A

"O "O

Кроме того, перечень данных атрибутов присутствует в пользовательских запросах, которые создаются в консоли инициатора инцидентов помимо систем оповещения, поэтому можно объединять разные системы мониторинга в единую систему с автоматизированной классификацией.

Рассмотрим более подробно атрибуты. «Статус» сообщает, актуален ли на данный момент инцидент или он уже устранен (статусы OPEN, CLOSE). «Критичность» отображает, насколько данный инцидент влияет на предоставляемую услугу или ИТ-сервис в целом. «Объект» настраивается вручную и необходим для уточнения вида

параметра, по которому произошел инцидент, а «Класс объекта» показывает модуль системы, по которому проходит проверка метрики. Показатель - конкретная метрика, по которой возник инцидент. «MSG» (сообщение) отображается в системе и необходим для краткого описания инцидента для лучшего восприятия.

Классификация инцидентов

Каждый инцидент можно классифицировать (категоризировать) по типу (превышение допустимых метрик допустимого значения, неработоспособность оборудования и т. д.), по группам, назна-

в

ченным на устранение инцидента, а также по принадлежности к ИТ-сервису.

Категоризируем сервисы по выполняемой ими роли. Для этого введем иерархическую классифи-

кацию, позволяющую наглядно понять природу возникшего инцидента (рис. 3).

s ч ю s

s s

X

со

is

S

s s

9 «

S

s

Транспортные системы

Операционные системы

Безопасность

Магистраль Коммутаторы

...

г > UNIX Windows

Функциональная доступность

Сетевая доступность V J Права и роли

V J

Рис. 3. Иерархическое представление сервисов Fig. 3. Hierarchical representing of services

Внутренние проблемы системы (самомонитороинг)

Доступность элементов Скорость работы

Работа серверов системы Конфигурация системы

V J

«

о х

В качестве первого уровня выступают основные разделения сервисов по выполняемым ими ролям: транспортные системы, операционные системы, безопасность, функциональная доступность, внутренние проблемы системы (самомониторинг). На втором уровне проблемы начинают конкретизироваться - для операционной системы, к примеру, уточняется, относится ли инцидент к системе UNIX или Windows. Третий уровень необязателен для всех

систем. Обычно он необходим для точного установления источника инцидента, если это возможно. Так, к примеру, если есть проблема в коммутаторе в транспортной системе, 3 уровень будет указывать, какой конкретно коммутатор послужил источником проблемы. Для того чтобы исходные данные можно было использовать в машинном обучении, проведем трехуровневую классификацию инцидентов. Пример представлен в табл. 2.

Таблица 2 Table 2

Трехуровневая классификация инцидентов Three-level classification of incidents

Описание инцидента Web-stranicaurl.ru nedostupna. (Ob''ekt: index.html)

Операционная категоризация (уровень 1) Транспортные системы

Операционная категоризация (уровень 2) Коммутатор

Операционная категоризация (уровень 3) Недоступен коммутатор (адрес)

s л G

О

и о

х х

X

э

PQ

PQ х

X

к

i s G

В качестве операционной категоризации первого уровня служит назначение системы, которое дает общее представление об инциденте (в примере - «Транспортные системы»). В качестве второго уровня - более точный для классификации атрибут «Коммутатор», который указывает на неполадки в работе сетевого оборудования. И в качестве третьего уровня выступает атрибут «Причина и адрес коммутатора», который позволяет точно определить источник неполадки. Таким образом, в решении задачи классификации инцидентов для первого уровня выделено 5 уникальных атрибутов, для второго - 10, для третьего - от 3 до 20.

Также для категоризации инцидентов введем дополнительное поле «ИТ-сервис». Инциденты будут классифицироваться по признаку предоставления услуги или же по принадлежности к какой-либо системе, к примеру, «Личный кабинет Ростелеком», «База данных SystemName», «Бухгалтерская система» и т. д.

В качестве системы, в которой будет проводиться классификация, выбрана BMCProactiveNet 9.6 [8]. Она имеет встроенный коллектор событий, который в реальном времени отображает открытые и закрытые инциденты. На рис. 4 представлен коллектор событий с примерами инцидентов, приходящих в систему.

Modified Occurred

ЩЛ X 18/06/2021 09:37 18/06/2021 09:27

&АВ О 18/06/2021 09:37 18/06/2021 09:25

&АВ 18/06/2021 09:37 18/06/2021 09:36

&АВ 18/06/2021 09:36 16/06/2021 18:53

&АВ 18/06/2021 09:36 18/06/2021 09:23

&АВ ф 18/06/2021 09:35 13/06/2021 18:22

О 18/06/2021 09:34 18/06/2021 09:33

&ÄB О 18/06/2021 09:34 18/06/2021 09:33

О 18/06/2021 09:34 18/06/2021 09:20

&АВ Q 18/06/2021 09:33 18/06/2021 09:26

&АВ ф 18/06/2021 09:32 18/06/2021 09:23

&АВ О 18/06/2021 09:32 18/06/2021 03:32

&АВ 0 18/06/202109:31 18/06/2021 08:18

&АВ О 18/06/2021 09:30 18/06/2021 09:18

&АВ 0 18/06/202109:30 21/05/2021 09:13

Ji в Л п..,г

Na servere proizvoditsya obnovlenie (Discoveryng) dannyh Monitoring Studio.

Status vipolneniya zaprosa ,ru:DBQuery:START_OR_AUDIT = 2,00 zapros ne vipolnyaetsya

VMware CPU Container Total CPU Utilization >= 80% for 10 min.

wAiT IT-servis < > - s ploshchadki v MRF Volga (Saransk)sostoyanie servisa sostavlyaet 44,30%, wAiT IT-servis < > - s ploshchadki v MRF Moskva sostoyanie servisa sostavlyaet 50,83%. Fajlovaya sistema root zapolnena na 77.69%,

wAiT Pokazatel proizvoditelnosti servisa ,RU na ploshchadke <SSZSP00MN002> sostavlyaet 0,00%. wAiT Pokazatel dostupnosti servisa .RU na ploshchadke <SSZSP00MN002> sostavlyaet 0.00%. nedostupen site

VNIMANIEN! Server .ru byl perezagruzhen. (Uptime = 539.00 seconds)

wAiT IT-servis < > - s ploshchadki v MRF Sibir , Dimitrova GPP sostoyanie servisa v predelah normy.

Cannot connect to some of Exchange Servers on port .RU

Total 18 probe results were found in last 3000 seconds, 18 failed (Pass rate OREPLACE_PERCENT_SIGN)<br/>Load failure category information, site dostupen

Fajlovaya sistema run-user-1006 ne smontirovana

Si

&

I

a

I

ш ш

ад ü

,<br/x...

ад

ад

9Rffi

Рис. 4. Коллектор событий с примерами инцидентов Fig. 4 Event collector with examples of incidents

Подготовка обучающей выборки и параметров методов машинного обучения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В качестве обучающей выборки выступает выгрузка из данной системы, содержащей информацию о 10 000 инцидентов, зафиксированных системой и полностью или частично классифицированных. Все они имеют вид, указанный в табл. 1. Перед составлением обучающей выборки необходимо подготовить исходные данные. Для этого используется мера TF-IDF [9], с помощью которой можно получить оценку важности отдельного слова в контексте одного участка (в данном случае -инцидента) для всего остального потока инцидентов. Данная мера работает по следующему прин-

ципу: вес слова, которое несет смысловую нагрузку, пропорционален частоте употребления этого слова в инциденте и обратно пропорционален частоте употребления в остальных документах. Такими словами являются все слова, не являющиеся предлогами, цифрами, местоимениями, междометиями, частицами, именами числительными и т. д. С помощью такого подхода можно преобразовать исходные данные в вектор фиксированной длины. Каждому слову, которое имеет вес, будет присвоен собственный номер, что в итоге позволит получить длину вектора.

В табл. 3 представлены примеры расчета веса для некоторых слов.

Таблица 3 Table 3

i

I в

S i

i i

0 FT

1

<1 p

p

Примеры расчета веса слов Examples of calculating the weight of words

Слово IDF Количество вхождений

web-stranica 1,66 65

VMware 1,81 46

Zapros 1,5 96

Status 1,46 104

Server 0,86 413

Available 2,64 7

Cluster 2,52 8

kod 2,5 9

System 1,88 39

Container 2,9 4

Adapter 2,27 16

После расчета веса слов и последующей векторизации получили вектор длиной 250, который будет подаваться на вход всех исследуемых классификаторов. Это обусловлено количеством ИТ-

сервисов (140 сервисов), а также наличием нескольких интегрированных систем, которые также отсылают инциденты в данную систему.

После того как была выполнена начальная подготовка данных, их можно использовать для обучения алгоритмов машинного обучения, в качестве которых будут выступать ранее описанная нейронная сеть [6, 7], сверточная нейронная сеть (CNN) [10] и градиентный бустинг [11].

Входной слой

(250 х 1)

Операция свертки подразумевает, что каждый фрагмент входа поэлементно умножается на матрицу весов, а результат суммируется. Эта сумма является элементом выхода, который называется картой признаков. Взвешенная сумма входов пропускается через функцию активации.

Слой субдискретизации (пулинга) представляет собой нелинейное уплотнение карты признаков, выполняя нелинейное преобразование. Пулинг интерпретируется как разбиение карты признаков (элементы входного вектора, получившиеся после свертки) на более мелкие матрицы, нахождение из них максимальных элементов, т. е. происходит увеличение глубины значений.

Также используем параметр сategorical_ crossentropy (категориальная перекрестная энтропия между выходным тензором и целевым тензором в библиотеке TensorFlow) [12], применяемый при мультиклассовости меток, который вычисляет потерю кросс-энтропии между метками и прогнозами. Он необходим для измерения сходства между прогнозируемым атрибутом и истинным.

Нейронная сеть построена в 5 слоев. Во входном слое 250 нейронов, во втором, третьем и четвертом скрытом слое по 30 нейронов, и количество нейронов, равное количеству атрибутов на уровне классификации, - в выходном слое.

Для построения сверточной нейронной сети была выбрана следующая архитектура (рис. 5).

Полносвязный Выходной

скрытый слой

слой

(140 х 1)

Для градиентного бустинга применим следующие параметры: максимальная длина древ - 10; о^ес^е-тиШ^о^тах' - установка XGBoost [11] для выполнения мультиклассовой классификации, для которой также необходимо указать количество классов (зависит от уровня классификации, указанного в табл. 2); num_parallel_tree = 1 (увеличение случайного леса); subsample = 0,5 - отношение подвыборки обучающего экземпляра.

После обработки 10 000 инцидентов были построены графики метрик исследованных методов. Также была рассчитана точность рукописного классификатора, на данный момент использующегося в системе. Для оценки точности классификатора использованы метрики F-меры ^^соге) [13], которые являются гармоническим средним между точностью и полнотой. Точность системы в пределах класса - это доля инцидентов, действительно принадлежащих данному классу относительно всех инцидентов, которые система отнесла к этому классу. Полнота системы - это доля найденных классификатором инцидентов, принадлежащих классу, относительно всех инцидентов этого класса

к

ч

VO

к

к к

X

к к к

9

И

К -©ф

к

«

о х

к

Л

с

о

U

U X X

PQ

PQ х

X

к

i к X

(125 х 1)

Рис. 5. Архитектура сверточной нейронной сети Fig. 5. Convolutional neural network architecture

в тестовой выборке. Оценка работы алгоритмов выполнялась с помощью четырех метрик (Accuracy, Sensitivity, Specifity, Precision) [7, 13]:

- Accuracy - определяет долю правильно классифицированных данных на основе обучающей выборки и тестовых данных;

- Sensitivity (recall) - определяет долю правильно классифицированных данных обучающей выборки относительно общего числа всех правильно классифицированных данных;

- Specifity - определяет долю правильно классифицированных тестовых данных к общему числу всех некорректно классифицированных данных;

- Precision - определяет долю правильно классифицированных данных на основе данных обучающей выборки.

Оценка работы классификаторов приведена в табл. 4 и на рис. 6.

Таблица 4 Table 4

Результаты работы классификаторов Classifier performance results

Метрики Градиентный бустинг Нейронная сеть Сверточная нейронная сеть Рукописный классификатор

TN 4 800 4 700 4 750 4 б00

FP 250 450 400 500

FN 200 300 250 400

TP 4 750 4 550 4 б00 4 500

Accuracy 0,955 0,925 0,935 0,91

Sensitivity 0,9б 0,938 0,948 0,918

Specifity 0,95 0,913 0,92 0,902

Precision 0,95 0,91 0,92 0,9

i

i n'

S i

i

i n

с

PS

M

0,9б 0,95 0,94 0,93 0,92 0,91 0,9 0,89 0,88

С?

Accuracy

J?

vs**

J

/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

S

0,9б 0,95 0,94 0,93 0,92 0,91 0,9 0,89 0,88 0,87

Specifity

•у/

ж

#

с/ «4?

>

"O "O

Рис. 6. Оценка работы классификаторов на основе метрик F-меры Fig. 6. Evaluating the performance of classifiers based on F-measure metrics

в H

Sensitivity

Precision

bJ H

s s я

s s s я

a

s -es

0,97 0,96 0,95 0,94 0,93 0,92 0,91 0,9 0,89

/

A&

0,96 0,95 0,94 0,93 0,92 0,91 0,9 0,89 0,88 0,87

<*

/

£

s

Л

S s

«F

jf

Рис. 6 (окончание). Оценка работы классификаторов на основе метрик F-меры Fig. 6 (ending). Evaluating the performance of classifiers based on F-measure metrics

О

и о О

ч и

m

m я

я

&

я К

Лучшие результаты для обучающей и тестовой выборки показал градиентный бустинг - 95 % верно классифицированных инцидентов; в случаях с нейронной сетью этот показатель составляет 91 %, у сверточной нейронной сети - 92 %. Более низкая точность рукописного классификатора, составляющая 90 %, обусловлена тем, что некоторые из инцидентов не подпадают под его условия и остаются неклассифицированными. Это, к примеру, инциденты по метрикам, которые на данный момент находятся на этапе постановки, или же системные оповещения, автоматически приходящие в систему.

Заключение

Результаты исследования демонстрируют возможность практического применения градиентного бустинга для автоматизированного создания заявок на отладку и устранение неисправностей путем интеграции его с такими системами, как OTRS -открытая система обработки заявок. Еще одним перспективным направлением является применение данной технологии для автоматизированного создания проблем (причину или потенциальную причину одного или нескольких возникающих инцидентов) в консоли управления проблемами.

Список источников

1. Ilieva R., Anguelov K., Gashurova D. Monitoring and optimization of e-Services in IT Service Desk Systems // 2016 19th International Symposium on Electrical Apparatus and Technologies (SIELA). № 7543013. DOI: 10.1109/ SIELA.2016.7543013.

2. Hermita E. S., Sucahyo Y. G., Gandhi A. Designing IT Service Management at Indonesia Internet Domain Names Registry Association's Helpdesk Function // ICICM 2020: Proceedings of the 2020 10th International Conference on Information Communication and Management. August 2020. P. 10-15. DOI: https://doi.org/10.1145/3418981.3418987.

3. Jelliti M., Sibilla M., Jamoussi Y., Ghezala H. B. A model based framework supporting ITIL Service IT Management // Enterprise, Business-Process and Information Systems Modeling - 11th International Workshop BPMDS 2010 and 15th International Conference EMMSAD 2010 Held at CAiSE 2010 Proceedings 50 LNBIP. P. 208-219. DOI: 10.1007/978-3-642-13051-9 18.

4. Ahmad N., Tarek Amer N., Qutaifan F., Alhilali A. Technology adoption model and a road map to successful implementation of ITIL // Journal of Enterprise Information Management. 2013. N. 26 (5). P. 553-576. DOI: 10.1108/JEIM-07-2013-0041.

5. Zuev D., Kalistratov A., Zuev A. Machine learning in IT service management // 9th Annual International Conference On Biologically Inspired Cognitive Architectures, BI-CA 2018 (Prague, 22-24 августа 2018 г.). Изд-во: Elsevier B. V. P. 675-679. DOI: 10.1016/j.procs.2018.11.063.

6. Шибайкин С. Д., Егунова А. И., Аббакумов А. А. Анализ применения нейронных сетей, градиентного бустинга и метода ближайших соседей для классификации нормативно-справочной информации // Науч.-техн. вестн. Поволжья. 2020. № 2. С. 54-58.

7. Шибайкин С. Д., Аббакумов А. А., Никулин В. В. Анализ применения методов машинного обучения компьютерных систем для повышения защищенности от мошеннических текстов // Вестн. Астрахан. гос. техн.

ун-та. Сер.: Управление, вычислительная техника и информатика. 2020. № 1. С. 29-40. DOI: https://doi.org/10. 24143/2072-9502-2020-1 -29-4.

8. BMC ProactiveNet 9.6. URL: https://docs.bmc.com/ docs/display/public/proactivenet96/Home?key=proactivenet 96 (дата обращения: 01.10.2021).

9. Shi C. Y, Xu C. J., Yang X. J. Study of TFIDF algorithm // J. Comput. Appl. 2009. N. 29. P. 167-170.

10. Abadi M., Agarwal A., Barham P., Brevdo E., Chen Z., Citro C., Corrado G. S., Davis A., Dean J., Devin M., Ghemawat S., Goodfellow I., Harp A., Irving G., Isard M., Jia Y., Jozefowicz R., Kaiser L., Kudlur M., Levenberg J., Man'e D., Monga R., Moore S., Murray D., Olah C., Schuster M., Shlens J., Steiner B., Sutskever I., Talwar K., Tucker P., Vanhoucke V., Vasudevan V., Vi'egas F., Vinyals O., Warden P., Wattenberg M., Wicke M., Yu Y., Zheng X. Ten-sorFlow: Large-scale machine learning on heterogeneous systems // Preliminary White Paper, November. 2015. N. 9.

19 p. URL: https://arxiv.org/pdf/1603.04467.pdf (дата обращения: 01.10.2021).

11. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD, 2016. P. 785-794. DOI: 10.1145/2939672.2939785.

12. Taherkhani A., Cosma G., McGinnity T. Adaboost-CNN: an adaptive boosting algorithm for convolutional neural networks to classify multi-class imbalanced datasets using transfer learning // Neurocomputing 404. 2020. P. 351366. DOI: 10.1016/ J.NEUC0M.2020.03. 064.

13. Goutte C., Gaussier E. A probabilistic interpretation of precision, recall and F-Score, with implication for evaluation // Conference: Proceedings of the 27th European conference on Advances in Information Retrieval Research. April 2005. Lecture Notes in Computer Science 3408:345-359. DOI: 10.1007/978-3-540-31865-1 25.

References

1. Ilieva R., Anguelov K., Gashurova D. Monitoring and optimization of e-Services in IT Service Desk Systems. 2016 19th International Symposium on Electrical Apparatus and Technologies (SIELA). № 7543013. DOI: 10.1109/SIELA.2016.7543013.

2. Hermita E. S., Sucahyo Y. G., Gandhi A. Designing IT Service Management at Indonesia Internet Domain Names Registry Association's Helpdesk Function. ICICM 2020: Proceedings of the 2020 10th International Conference on Information Communication and Management. August 2020. Pp. 10-15. DOI: https://doi.org/10.1145/ 3418981.3418987.

3. Jelliti M., Sibilla M., Jamoussi Y., Ghezala H. B. A model based framework supporting ITIL Service IT Management. Enterprise, Business-Process and Information Systems Modeling - 11th International Workshop BPMDS 2010 and 15th International Conference EMMSAD 2010 Held at CAiSE 2010 Proceedings 50 LNBIP. Pp. 208-219. DOI: 10.1007/978-3-642-13051-9_18.

4. Ahmad N., Tarek Amer N., Qutaifan F., Alhilali A. Technology adoption model and a road map to successful implementation of ITIL. Journal of Enterprise Information Management, 2013, no. 26 (5), pp. 553-576. DOI: 10.1108/JEIM-07-2013-0041.

5. Zuev D., Kalistratov A., Zuev A. Machine learning in IT service management. 9th Annual International Conference On Biologically Inspired Cognitive Architectures, BICA 2018 (Prague, 22-24 avgusta 2018 g.). Izd-vo: Elsevier B. V. Pp. 675-679. DOI: 10.1016/j.procs.2018.11.063.

6. Shibaikin S. D., Egunova A. I., Abbakumov A. A. Analiz primeneniia neironnykh setei, gradientnogo bustinga i metoda blizhaishikh sosedei dlia klassifikatsii normativno-spravochnoi informatsii [Analysis of using neural networks, gradient boosting and method of nearest neighbors for classification of normative and reference information]. Nauchno-tekhnicheskii vestnikPovolzh'ia, 2020, no. 2, pp. 54-58.

7. Shibaikin S. D., Abbakumov A. A., Nikulin V. V., Analiz primeneniia metodov mashinnogo obucheniia komp'iuternykh sistem dlia povysheniia zashchishchennosti

ot moshennicheskikh tekstov [Analysis of applying machine learning methods of computer systems to improve security against fraudulent texts]. Vestnik Astrakhanskogo gosudar-stvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2020, no. 1, pp. 2940. DOI: https://doi.org/10.24143/2072-9502-2020-1-29-4.

8. BMC ProactiveNet 9.6. Available at: https://docs.bmc.com/docs/display/public/proactivenet96/Ho me?key=proactivenet96 (accessed: 01.10.2021).

9. Shi C. Y., Xu C. J., Yang X. J. Study of TFIDF algorithm. J. Comput. Appl., 2009, no. 29, pp. 167-170.

10. Abadi M., Agarwal A., Barham P., Brevdo E., Chen Z., Citro C., Corrado G. S., Davis A., Dean J., Devin M., Ghemawat S., Goodfellow I., Harp A., Irving G., Isard M., Jia Y., Jozefowicz R., Kaiser L., Kudlur M., Levenberg J., Man'e D., Monga R., Moore S., Murray D., Olah C., Schuster M., Shlens J., Steiner B., Sutskever I., Talwar K., Tucker P., Vanhoucke V., Vasudevan V., Vi'egas F., Vinyals O., Warden P., Wattenberg M., Wicke M., Yu Y., Zheng X. TensorFlow: Large-scale machine learning on heterogeneous systems. Preliminary White Paper, November 2015, no. 9, 19 p. Available at: https://arxiv.org/pdf/1603.04467.pdf (accessed: 01.10.2021).

11. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD, 2016. Pp. 785-794. DOI: 10.1145/2939672.2939785.

12. Taherkhani A., Cosma G., McGinnity T. Adaboost-CNN: an adaptive boosting algorithm for convolutional neural networks to classify multi-class imbalanced datasets using transfer learning. Neurocomputing 404, 2020. Pp. 351366. DOI: 10.1016/ J.NEUCOM.2020.03 . 064.

13. Goutte C., Gaussier E. A probabilistic interpretation of precision, recall and F-Score, with implication for evaluation. Conference: Proceedings of the 27th European conference on Advances in Information Retrieval Research. April 2005. Lecture Notes in Computer Science 3408:345-359. DOI: 10.1007/978-3-540-31865-1 25.

i |

s

i s

>

Статья поступила в редакцию 28.10.2021; одобрена после рецензирования 15.12.2021; принята к публикации 19.01.2022 The article is submitted 28.10.2021; approved after reviewing 15.12.2021; accepted for publication 19.01.2022

в H

Информация об авторах / Information about the authors

Владимир Валерьевич Никулин - кандидат технических наук, доцент; заведующий кафедрой инфокоммуникационных технологий и систем связи; Национальный исследовательский Мордовский государственный университет им. Н. П. Огарёва; Саранск, ул. Большевистская, 68; nikulinvv@mail.ru

Сергей Дмитриевич Шибайкин - кандидат технических наук; доцент кафедры инфокоммуникационных технологий и систем связи; Национальный исследовательский Мордовский государственный университет им. Н. П. Огарёва; Саранск, ул. Большевистская, 68; shibaikinsd@rambler.ru

Соколова Мария Сергеевна - аспирант кафедры инфокоммуникационных технологий и систем связи; Национальный исследовательский Мордовский государственный университет им. Н. П. Огарёва; Саранск, ул. Большевистская, 68; Manunia131313@mail.ru

Vladimir V. Nikulin - Candidate of Technical Sciences, Assistant Professor; Head of the Department of Infocommunication Technologies and Communication Systems; National Research Mordovian State University after N. P. Ogarev; Saransk, Bolshevik street, 68; nikulinvv@mail.ru

Sergei D. Shibaikin - Candidate of Technical Sciences; Assistant Professor of the Department of Infocommunication Technologies and Communication Systems; National Research Mordovian State University after N. P. Ogarev; Saransk, Bolshevik street, 68; shibaikinsd@rambler.ru

Maria S. Sokolova - Postgraduate Student of the Department of Infocommunication Technologies and Communication Systems; National Research Mordovian State University after N. P. Ogarev; Saransk, Bolshevik street, 68; Manunia131313 @mail.ru

s

vo s

s s

X

s s s

9 «

S -©ф

s

«

о X

X Л

G

Ü

U

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и x x

m ffl

x

X

к *

s G

i Надоели баннеры? Вы всегда можете отключить рекламу.