Научная статья на тему 'СЛОЖНЫЕ ВЕКТОРНЫЕ МОДЕЛИ БИЗНЕС-ПРОЦЕССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ'

СЛОЖНЫЕ ВЕКТОРНЫЕ МОДЕЛИ БИЗНЕС-ПРОЦЕССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
25
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
векторное представление процесса / методы векторизации / анализ бизнес-процессов / машинное обучение / process mining / анализ графов / нейронная сеть / vector representation of the process / vectorization methods / analysis of business process / machine learning / process mining / graph analysis / neural network

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Михаил Игоревич Кревский, Александр Сергеевич Бождай

Актуальность и цели. Оптимизация бизнес-процессов является актуальной проблемой в управлении организационными системами. Рассматривается проблема построения векторных моделей бизнес-процессов, позволяющих эффективно анализировать данные протоколов информационных систем о ходе выполнения организационных задач методами машинного обучения. Цель работы состоит в исследовании вопросов анализа и оптимизации бизнес-процессов на основе векторного представления основных ресурсных параметров организационных процессов. Применение методов машинного обучения и технологии Process Mining позволит эффективно решать задачи классификации бизнес-процессов с точки зрения их предметного содержания, сложности и трудоемкости. Материалы и методы. Используются методы анализа бизнес-процессов на основе протоколов информационных систем (Process Mining), методы классического машинного обучения и нейросетевые технологии, методы управления организационными системами. Результаты. В ходе работы выполнен обзор существующих методов создания векторных моделей документов из сфер обработки естественного языка и графов, оценена их применимость к созданию векторов-эмбеддингов бизнес-процессов. Проведен эксперимент по сравнению эффективности применения методов Bag-of-words, Tf-idf, Trace2vec, Graph2vec в задаче векторизации. Выводы. Итоги экспериментов показали эффективность метода trace2vec для процессов малой и средней длины и метода graph2vec для процессов большой длины.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Михаил Игоревич Кревский, Александр Сергеевич Бождай

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPLEX EMBEDDINGS OF BUSINESS PROCESSES IN THE CLASSIFICATION PROBLEM

Background. Optimization of business processes is an important problem in the management of organizational systems. The article is dedicated to the problem of creating business processes’ embeddings that allow to efficiently analyze the logs of information system on the progress of organizational tasks by machine learning methods. The purpose of the work is to study the analysis and optimization of business processes, based on a vector representation of the main parameters of organizational processes. The application of machine learning methods and process mining will efficiently solve the problems of classifying business processes considering their content, complexity and labor intensity. Materials and methods. Business process analysis methods based on information systems logs (process mining), classical machine learning methods and neural network technologies, organizational systems management methods are used. Results. In the course of the work, an overview of existing methods for creating document embeddings from the natural language processing and graphs analysis was carried out, their applicability to the creation of embedding vectors of business processes was evaluated. A number of experiments have been conducted to compare the effectiveness of using Bag-of-words, Tf-idf, Trace2vec, Graph2vec methods in the vectorization problem. Conclusions. The results of the experiments showed the effectiveness of the trace2vec method for short and medium-length processes and the graph2vec method for longlength processes.

Текст научной работы на тему «СЛОЖНЫЕ ВЕКТОРНЫЕ МОДЕЛИ БИЗНЕС-ПРОЦЕССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ»

УДК 004.042

doi: 10.21685/2227-8486-2023-3-10

СЛОЖНЫЕ ВЕКТОРНЫЕ МОДЕЛИ БИЗНЕС-ПРОЦЕССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ

М. И. Кревский1, А. С. Бождай2

1 Государственное казенное учреждение «Информационный город», Москва, Россия 2 Пензенский государственный университет, Пенза, Россия 1 westhemer1@gmail.com, 2 bozhday@yandex.ru

Аннотация. Актуальность и цели. Оптимизация бизнес-процессов является актуальной проблемой в управлении организационными системами. Рассматривается проблема построения векторных моделей бизнес-процессов, позволяющих эффективно анализировать данные протоколов информационных систем о ходе выполнения организационных задач методами машинного обучения. Цель работы состоит в исследовании вопросов анализа и оптимизации бизнес-процессов на основе векторного представления основных ресурсных параметров организационных процессов. Применение методов машинного обучения и технологии Process Mining позволит эффективно решать задачи классификации бизнес-процессов с точки зрения их предметного содержания, сложности и трудоемкости. Материалы и методы. Используются методы анализа бизнес-процессов на основе протоколов информационных систем (Process Mining), методы классического машинного обучения и нейросетевые технологии, методы управления организационными системами. Результаты. В ходе работы выполнен обзор существующих методов создания векторных моделей документов из сфер обработки естественного языка и графов, оценена их применимость к созданию векто-ров-эмбеддингов бизнес-процессов. Проведен эксперимент по сравнению эффективности применения методов Bag-of-words, Tf-idf, Trace2vec, Graph2vec в задаче векторизации. Выводы. Итоги экспериментов показали эффективность метода trace2vec для процессов малой и средней длины и метода graph2vec для процессов большой длины.

Ключевые слова: векторное представление процесса, методы векторизации, анализ бизнес-процессов, машинное обучение, process mining, анализ графов, нейронная сеть

Для цитирования: Кревский М. И., Бождай А. С. Сложные векторные модели бизнес-процессов в задаче классификации // Модели, системы, сети в экономике, технике, природе и обществе. 2023. № 3. С. 142-154. doi: 10.21685/2227-8486-2023-3-10

COMPLEX EMBEDDINGS OF BUSINESS PROCESSES IN THE CLASSIFICATION PROBLEM

M.I. Krevskiy1, A.S. Bozhday2

1 State government institution "Info City", Moscow, Russia 2 Penza State University, Penza, Russia 1 westhemer1@gmail.com, 2 bozhday@yandex.ru

Abstract. Background. Optimization of business processes is an important problem in the management of organizational systems. The article is dedicated to the problem of creating

© Кревский М. И., Бождай А. С., 2023. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

business processes' embeddings that allow to efficiently analyze the logs of information system on the progress of organizational tasks by machine learning methods. The purpose of the work is to study the analysis and optimization of business processes, based on a vector representation of the main parameters of organizational processes. The application of machine learning methods and process mining will efficiently solve the problems of classifying business processes considering their content, complexity and labor intensity. Materials and methods. Business process analysis methods based on information systems logs (process mining), classical machine learning methods and neural network technologies, organizational systems management methods are used. Results. In the course of the work, an overview of existing methods for creating document embeddings from the natural language processing and graphs analysis was carried out, their applicability to the creation of embedding vectors of business processes was evaluated. A number of experiments have been conducted to compare the effectiveness of using Bag-of-words, Tf-idf, Trace2vec, Graph2vec methods in the vectoriza-tion problem. Conclusions. The results of the experiments showed the effectiveness of the trace2vec method for short and medium-length processes and the graph2vec method for long-length processes.

Keywords: vector representation of the process, vectorization methods, analysis of business process, machine learning, process mining, graph analysis, neural network

For citation: Krevskiy M.I., Bozhday A.S. Complex embeddings of business processes in the classification problem. Modeli, sistemy, seti v ekonomike, tekhnike, prirode i ob-shchestve = Models, systems, networks in economics, technology, nature and society. 2023;(3):142-154. (In Russ.). doi: 10.21685/2227-8486-2023-3-10

Введение

Процессы глобальной цифровизации стали одним из ключевых факторов повышения эффективности процессов управления организационными системами в XXI в. Ежедневно в журналах событий информационных систем сохраняются огромные объемы данных. Как эффективный подход к интеллектуальному анализу журналов событий зарекомендовала себя технология process mining, являющаяся одним из направлений науки о данных. Сочетание приемов классического process mining и машинного обучения позволяет значительно расширить инструментарий для анализа процессов, находить новые закономерности и автоматизировать составление аналитических отчетов.

Существует два противоположных подхода к анализу процессов [1]: первый, основанный на формальном регламенте, описывающем идеальный процесс, и второй, основанный на реальном, отраженном в данных поведении системы. Process mining - это технология, использующая для анализа данные реальных журналов событий информационных систем. Модели машинного обучения способны принимать на вход только математические объекты, поэтому важным этапом подготовки данных для машинного обучения является векторизация - преобразование объектов из очищенных данных в векторные представления. При этом, с одной стороны, важно вместить как можно больше ценной информации об объекте, а с другой стороны - затраты памяти и вычислительных мощностей на генерацию векторов должны быть минимизированы.

В наиболее продвинутых сферах машинного обучения - обработке естественных языков и компьютерном зрении - задача построения сложных векторных представлений глубоко изучена и хорошо освещена [2, 3]. Связка машинного обучения и process mining не менее важна для общества и бизнеса, но получила значительно меньше внимания, поэтому остро стоит вопрос

определения наиболее удачных для конкретной задачи методов построения векторных представлений процессов. Данная статья посвящена исследованию существующих подходов к созданию векторов процессов в рамках технологии process mining с применением методов машинного обучения. Для выполнения сравнительного анализа их эффективности в задачах векторизации и классификации бизнес-процессов проведен эксперимент на обезличенных данных журналов событий оказания государственных услуг портала mos.ru [4].

Классические методы векторизации

Тривиальным способом получения машиночитаемого представления последовательности активностей является bag of words, заимствованный из сферы обработки естественного языка. Метод заключается в формировании для каждого процесса словаря из всех уникальных активностей журнала событий. Каждой активности ставится в соответствие подсчитанное число встреч этой активности в процессе. Bag of words отличается простотой и минимальным количеством вычислений, поэтому он хорошо подходит в качестве исходного уровня для сравнения.

Tf-idf - метод, позаимствованный из обработки естественных языков. Изначально tf-idf - это статистическая мера, показывающая важность слова в документе, но она без проблем переносится на область интеллектуального анализа процессов.

Term frequency (1) - это частота активности в процессе:

nt

tf (t, d)=, (i)

n

k

где nt - количество вхождений активности t в процесс; Xknk - общее количество всех активностей в процессе.

Inversed document frequency (2) - мера, обратная логарифму частоты вхождения активности в документы лога:

idf (t, D) = log D у } , (2)

{di e D|te dt} у

где t - активность; di - процесс под номером i; D - множество активностей журнала событий.

Классический вариант векторизации сразу создает нормированный вектор. Tf-idf векторизация требует незначительно больше вычислений и времени, чем Bag of words, но значительно меньше, чем нейросетевые подходы. Метод так же, как и bag of words, не учитывает порядок активностей в цепочке и в полной мере смысл, но, по крайней мере, позволяет расставить акценты на наиболее «важных» активностях процесса.

Нейросетевые методы векторизации процессов из сферы обработки естественного языка

Такие свойства данных журналов событий, как последовательность с внутренней логикой и правилами, конечное число разных видов активностей и объединение активностей в группы - процессы, позволяют проследить

аналогию с естественным языком, где активность соответствует слову, процесс - предложению, а журнал событий - тексту.

Act2vec [5] - это нейросетевой контекстно-ориентированный метод векторизации слов, позволяющий получать векторы процессов заданной фиксированной длины. Act2vec является прямым переносом подхода векторизации слов word2vec, предложенного Томасом Миколовым в [6], на сферу анализа процессов.

Word2vec - метод контекстного представления слова. В его основе лежит гипотеза о том, что похожие по смыслу слова встречаются в похожих контекстах. Исходя из гипотезы, слово можно представить усредненным контекстом, в котором оно встречается. Для word2vec существует две [7] нейросете-вые архитектуры: Continuous Bag of words (CBOW) и Skip-gram. Модели CBOW обучаются определять по контексту слово, которое в нем находится, а Skip-gram пытается предсказывать контекст по слову, которое в нем лежит.

Контекстом слова Wi в предложении w называются слова w-i, w-i+i, ..., Wt-1, wt+1, ..., wt+i-\, wt+i, попавшие в окно с шириной, заданной гиперпараметром i. Применяющаяся для word2vec нейросеть является неглубокой, в ней присутствуют только входной, один скрытый и выходной слои. Далее будет подробнее рассмотрена архитектура CBOW [8], так как именно ее модификация для doc2vec использовалась в эксперименте.

На входной слой нейронной сети подаются полученные быстрой кодировкой [9] (one-hot) вектора слов размерностью 1* V (где V - размер словаря), лежащих в контексте предсказываемого слова. В зависимости от реализации входные векторы либо суммируются, либо конкатенируются. В описываемой реализации используется сложение входных векторов.

Размер скрытого слоя H является гиперпараметром. Во время обучения на этапе прямого распространения данные из входного слоя попадают в скрытый слой путем умножения на матрицу W1 размерностью V*H. Затем скрытый слой Hx1 умножается на матрицу W2 размерностью H* V, результат попадает в выходной слой размерностью 1* V.

Получившийся в выходном слое вектор сравнивается с one-hot вектором слова, находящегося в контексте, который пришел на вход. Далее выполняется обратное распространение ошибки, и изначально заполненные произвольными значениями матрицы Wi и W2 изменяются.

В word2vec обычно применяют метод negative sampling для сокращения времени обучения модели. Negative sampling позволяет сократить вычисления: вместо обновления всех весов матрицы на каждом шаге предлагается обновлять веса только для слов, входящих в контекст, и еще небольшого числа не входящих.

В результате такого обучения нейронная сеть способна предсказывать слово по контексту, в котором оно находится. Однако это не является целью создания сети. Практический смысл имеют только обученные матрицы W1 и W2, в которых и содержатся V векторов длины H. Получившиеся векторы лежат в латентном векторном пространстве и являются отображениями усредненных контекстов, в которых слова находятся. Это позволяет не просто записать в вектор абстрактную обобщенную информацию, но и получить интересное свойство векторных представлений - смысловую векторную алгебру.

Trace2vec - это нейросетевой способ создания векторных представлений процессов. Он основан на подходе doc2vec из сферы обработки естественных языков, впервые представленном Томасом Миколовым в статье [10]. Doc2vec является логическим продолжением и расширением архитектур word2vec, позволяющим обучать не только векторы фиксированной размерности для отдельных слов, но и вектор целого текста любой длины.

Doc2vec аналогично word2vec имеет две архитектуры для получения вектора абзаца - это distributed memory, соответствующий CBOW, и distributed bag of words, соответствующий skip-gram [11].

В работе рассматривается архитектура distributed memory, дополненная вектором распределенной памяти абзаца, который обновляет свои значения в процессе обучения наравне с векторами слов. Каждый вектор абзаца подставляется на места дополнительных строчки и столбца матриц на время обучения на тексте соответствующего абзаца. Таким образом, обучаясь вместе со всеми векторами входящих в абзац слов, вектор самого абзаца накапливает в себе информацию.

Изначально смыслом контекстного представления word2vec был уход от переменной размерности разреженных, малоинформативных векторов быстрого (one-hot) кодирования к коротким, высокоинформативным векторам. Это позволяет сократить длину векторов слов с размера словаря до небольшого фиксированного, заданного гиперпараметром значения. В случае с интеллектуальным анализом процесса проблема размерности значительно менее актуальна.

Учитывая на порядок большие временные и вычислительные затраты на создание нейросетевых векторных представлений по сравнению с классическими, выбор в пользу более технологичной модели векторизации не дает настолько больших и однозначных преимуществ, как в случае обработки естественного языка. Наибольший смысл в применении Trace2vec лежит в скрытой, зашифрованной нейросетью в латентном пространстве информации о зависимостях и закономерностях между активностями и между процессами журнала событий.

Методы векторизации графов

Можно проследить сходство между журналом событий и ориентированным графом. Узлы соответствуют активностям, ребра - переходам между активностями. Веса ребер иногда хранят свойства совершенной активности, лежащей в вершине - начале ребра. Такой подход к рассмотрению графа позволяет применять широкий спектр классических алгоритмов на графах и методов машинного обучения для графов.

Graph2vec [12] является общим названием большого набора алгоритмов, создающих векторные представления для графов. Наиболее распространено применение graph2vec в анализе социальных сетей, разработке молекулярных структур в медицине и в графах знаний (Knowledge graph). Для создания векторов в основном применяют следующие подходы:

- сверточные, выполняющие поиск характерных подграфов графа подобно поиску элементов изображения в задачах компьютерного зрения [13];

- матричные, основанные на разложении и векторизации матрицы смежности графа [14];

- адаптированные для графов нейросетевые способы векторизации из области обработки естественных языков (word2vec, doc2vec) [15].

В работе рассматривается применение только алгоритма deep walks [16]. Он является методом создания векторных представлений из сферы обработки естественных языков, адаптированным для графов, и был выбран потому, что лучше всего подходит под специфику данных. Deep walks является одной из реализаций подхода node2vec [15]. Node2vec - это аналог word2vec для графов. Соответственно, предполагается, что по контексту (окружающим вершинам, с которыми есть ребра) можно предсказать вершину и наоборот; семантически похожие вершины лежат в похожих контекстах; вершина аналогична слову, а граф - абзацу.

Алгоритм deep walks работает в три шага (рис. 1).

Рис. 1. Этапы работы алгоритма deep walks [16]

1. Random walk. На этом этапе происходит случайное семплирование маршрутов в графе. Из произвольно выбранной вершины итератор переходит в случайного соседа с вероятностью, пропорциональной весу ребра, затем аналогично переходит в соседа второй вершины, и так до тех пор, пока не будет достигнута верхняя граница длины маршрута, заданная в виде гиперпараметра. Первый этап призван преобразовать информацию о графе в вид, аналогичный фрагментам текстовых данных.

2. Обучение модифицированной нейронной сети trace2vec на семплиро-ванных маршрутах. Векторы отдельных активностей обучаются точно так же, как и в исходном варианте trace2vec. Отличие deep walks от стандартного trace2vec заключается в том, что если в trace2vec для каждой итерации цикла окно двигалось по всему процессу, то в deep walks окно движется по его сем-плированной части. Соответственно, вместо того чтобы обучать множество векторов отдельных маршрутов в графе, обучается единственный вектор

целого графа. И дополнительный столбец матрицы, зарезервированный под вектор графа, не учится заново каждый раз при переходе от одного маршрута к другому.

3. Извлечение векторных представлений. Получившийся в результате вектор графа извлекается из обученной матрицы, готовый к дальнейшему применению.

В результате получается набор контекстно-ориентированных векторов вершин, обученных по принципу node2vec, и вектор графа.

Результаты

Целью эксперимента являлось определение оптимального сочетания модели и ее параметров для получения векторного представления процесса в зависимости от свойств данных. Векторные представления, получившиеся в результате векторизации следов процессов с помощью bag of words, tf-idf, trace2vec и graph2vec, были подвергнуты сравнительному анализу. Главным критерием сравнения была выбрана способность вектора вмещать в себя информацию о внутреннем устройстве и особенностях процесса, позволяющая провести успешную классификацию процессов. Данные, используемые в работе, обезличены и взяты из базы данных московских государственных услуг. В качестве выборок для обучения использовалось пять журналов событий с данными по разным услугам. Журналы отличны между собой в размерах, средних длинах активностей, наборе встречающихся статусов, их порядке, понятии о корректности процесса и соотношении классов (табл. 1).

Таблица 1

Количественные свойства наборов данных в эксперименте

Свойство набора данных Услуга 1 Услуга 2 Услуга 3 Услуга 4 Услуга 5

Количество активностей 22 854 345 048 724 319 422 911 2 370 892

Количество процессов 3147 50 752 119 338 86 571 149 295

Средняя длина активности 7,26 6,79 6,07 4,89 15,88

Кол-во уникальных активностей 12 13 17 9 25

Доля корректных процессов 0,93 0,71 0,97 0,94 0,96

В данной работе задачей для сравнения качества векторных представлений являлась бинарная классификация. Первый класс - это процессы в норме, второй - процессы с нарушениями. Классификация проводилась несколькими методами для того, чтобы оценивать именно векторизацию, а не классификаторы. Полезным для практики результатом было бы установить лучшую пару: метод векторизации и метод классификации. Будем использовать следующие бинарные классификаторы:

1) метод k-ближайших соседей (KNN);

2) случайный лес (Random Forest);

3) многослойный перцептрон (Multi-Layered Perceptron).

Как видно из табл. 1, в журналах событий классы сильно несбалансиро-ваны и доля корректных процессов далека от 50 %. Этот факт необходимо было учесть при обучении и подборе метрики качества для оценки результирующей классификации. Для того чтобы немного упростить себе задачу,

процент процессов с ошибками был увеличен путем семплирования и методом bootstrap для обучающей выборки.

Наборы данных были преобразованы в векторы следующими методами:

1. Bag of words с последующей нормализацией векторов.

2. Tf-idf векторизация.

3. Trace2vec с размерностями векторов 8, 16, 32.

4. Graph2vec с размерностями векторов 8, 16, 32.

В результате векторизации каждого из пяти журналов восемью способами получилось 40 результирующих наборов данных, хранящих векторные представления с разными свойствами. Эти наборы были подвергнуты классификации тремя способами. Результаты классификации были оценены метрикой ROC-AUC, описанной далее.

Метрика сравнения

В классификации существуют следующие варианты исхода предсказания принадлежности объекта к классу [17]: True positive (TP) - верно предсказано отношение объекта к классу; False positive (FN) - неверно предсказано отношение объекта к классу; True negative (TN) - верно предсказано отсутствие отношения объекта к классу; False negative (FN) - неверно предсказано отсутствие отношения объекта к классу.

Для оценки результатов работы применялась метрика ROC-A UC Score [18]. Данная метрика широко применяется для оценки бинарной классификации. ROC - Receiver Operating Characteristics curve - кривая, где на вертикальной оси откладывается мера False positive rate (она же Recall), а по горизонтальной -мера True positive rate:

TP

TPR =- = Recall, (3)

TP + FN

FP

FPR =-. (4)

FP + TN

ROC-AUC - Area under curve - это площадь под кривой ROC [19], показывающая качество классификатора. Значения метрики могут находиться в диапазоне от 0 до 1. Классификатор, который показал значение 1, считается идеальным. При значении ROC-AUC, равным 0,5, классификатор не предсказывает ничего, и ценность его нулевая. При значении площади под кривой, равном 0, классификатор всегда дает только неправильные ответы, т.е. если перед такими предсказаниями поставить знак отрицания, то снова получится идеальный классификатор.

Причина выбора метрики ROC-AUC заключается в ее способности эффективно оценивать классификацию даже при условии сильно несбалансированных данных. В работе была использована двухклассовая реализация метрики sklearn.metrics.roc_auc_score из библиотеки scikit-learn.

Обсуждение

В результате выполнения эксперимента со 120 комбинациями способов векторизации и классификации были измерены значения ЯОС-ЛиС. Результаты эксперимента представлены в табл. 2.

Таблица 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сводная таблица результатов экспериментов

BOW Tf-idf Trace2vec Graph2vec

Журнал 1 Размер вектора 12 12 8 16 32 8 16 32

KNN 0,523 0,552 0,611 0,679 0,658 0,615 0,648 0,689

RF 0,602 0,654 0,811 0,822 0,841 0,796 0,806 0,778

MLP 0,681 0,670 0,763 0,892 0,826 0,735 0,824 0,773

Журнал 2 Размер вектора 13 13 8 16 32 8 16 32

KNN 0,690 0,709 0,673 0,690 0,653 0,638 0,644 0,682

RF 0,729 0,740 0,783 0,870 0,816 0,777 0,771 0,778

MLP 0,712 0,748 0,806 0,891 0,832 0,786 0,805 0,733

Журнал 3 Размер вектора 17 17 8 16 32 8 16 32

KNN 0,612 0,669 0,726 0,779 0,738 0,596 0,703 0,636

RF 0,621 0,668 0,845 0,887 0,893 0,762 0,749 0,744

MLP 0,624 0,752 0,822 0,861 0,836 0,782 0,813 0,718

Журнал 4 Размер вектора 9 9 8 16 32 8 16 32

KNN 0,512 0,593 0,638 0,708 0,652 0,565 0,662 0,619

RF 0,617 0,678 0,749 0,789 0,789 0,636 0,694 0,687

MLP 0,718 0,719 0,785 0,836 0,796 0,647 0,686 0,639

Журнал 5 Размер вектора 25 25 8 16 32 8 16 32

KNN 0,562 0,646 0,714 0,706 0,703 0,810 0,824 0,832

RF 0,670 0,714 0,786 0,815 0,857 0,891 0,881 0,904

MLP 0,699 0,705 0,820 0,826 0,865 0,882 0,851 0,903

Анализ полученных результатов позволяет сформулировать следующие выводы:

1. KNN как метод классификации показал себя наихудшим образом. Даже хорошо составленные векторные представления, давшие высокий результат по метрике с другими классификаторами, в связке с KNN получили низкую оценку.

2. Случайный лес и многослойный перцептрон проявили себя схожим образом, оценки их работы близки. Для разных результатов векторизации оба классификатора равновероятно могут дать наивысшую оценку.

3. Нормализованный bag of words показал наихудшие результаты из рассмотренных методов векторизации. На некоторых данных ROC-AUC метода сравнима с метрикой tf-idf векторизатора, но в среднем векторизация bag of words оказалась хуже в рамках эксперимента.

4. Векторизатор tf-idf оказался лучшим из классических методов. В сравнении с нейросетевыми векторными представлениями векторы tf-idfстабильно проигрывают в применимости к поставленной задаче.

5. Trace2vec получил хорошие оценки (больше 0,75, в большинстве случаев - больше 0,8) на всех журналах событий и при разных средних длинах процессов (если не использовать метод классификации KNN). Хуже всего метод проявил себя на журнале 4 с самой короткой средней длиной активности, равной 4,89. В журнале 1 с 22 854 активностями хватило данных для обучения модели. Наивысший результат показал вариант trace2vec с длиной вектора, равной 16.

6. Метод graph2vec проявил заметную зависимость от данных. На журнале событий 4 с короткой средней длиной активности метод получил довольно низкие оценки независимо от метода классификации. На журнале 5 с большой средней длиной активности, равной 15,88, метод показал себя наилучшим образом и получил по метрике ROC-AUC оценку выше, чем trace2vec. Для средних длин активностей размерность вектора, равная 16, показала лучшие результаты, но на длинных процессах вектор размерностью 32 оказался предпочтительнее.

Заключение

Анализ результатов эксперимента показал, что наилучшим универсальным способом получения векторных представлений процессов оказался метод trace2vec с размерностью вектора, равной 16. Для больших процессов, включающих длинные цепочки активностей, лучше подойдет метод graph2vec с длиной вектора, равной 32.

В работе показано, что в целях оптимизации управления организационными системами бизнес-процессы можно эффективно преобразовывать в векторный вид для задач классификации. На данный момент результаты работы активно используются отделом мониторинга и анализа государственных услуг ГКУ «Инфогород» для классификации процессов оказания государственных услуг в системе интеллектуального анализа процессов «Нерв» [20]. В будущем планируется исследовать вопросы предиктивного анализа бизнес-процессов и создать предсказательную модель машинного обучения. Предлагается, чтобы модель на основе векторного представления первой половины процесса предсказывала последующие активности и срок завершения процесса.

Список литературы

1. Mueller R., Ali I. Process Mining vs. Business Process Management. URL: https://www.macrosoftinc.com/process-mining-vs-business-process-management (дата обращения: 12.05.2023).

2. Turing. A Guide on Word Embeddings in NLP. URL: https://www.tu-ring.com/kb/guide-on-word-embeddings-in-nlp (дата обращения: 05.05.2023).

3. Beaumont R. Image embeddings. URL: https://rom1504.medium.com/image-embed-dings-ed1b194d113e (дата обращения: 01.05.2023).

4. Mos.ru. Официальный сайт мэра Москвы. URL: https://www.mos.ru (дата обращения: 14.05.2023).

5. De Koninck P., Broucke S. V., De Weerdt J. Act2vec, trace2vec, log2vec, and model2vec: Representation Learning for Business Processes // 16th International Conference on Business Process Management. Sydney, NSW, Australia, 2018. P. 305-321. URL: https://link.springer.com/chapter/10.1007/978-3-319-98648-7_18 (дата обращения: 22.04.2023).

6. Mikolov T., Sutskever I., Chen K. [et al.]. Distributed representations of words and phrases and their compositionality // 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, United States, 2013. P. 3111-3119. URL: https://arxiv.org/abs/1310.4546 (дата обращения: 14.04.2023).

7. Towards Data Science. Ria Kulshrestha. NLP 101: Word2Vec - Skip-gram and CBOW. URL: https://towardsdatascience.com/nlp-101-word2vec-skip-gram-and-cbow-93512ee24314 (дата обращения: 20.04.2023).

8. Weng L. Learning Word Embedding. URL: https://lilianweng.github.io/posts/2017-10-15-word-embedding (дата обращения: 25.04.2023).

9. Капаца Е. Быстрое кодирование (One-Hot Encoding) // Машинное обучение доступным языком. URL: https://www.helenkapatsa.ru/bystroie-kodirovaniie (дата обращения: 01.05.2023).

10. Le Q., Mikolov T. Distributed Representations of Sentences and Documents // Proceedings of the 31th International Conference on Machine Learning (ICML-14). Beijing, China, 2014. P. 1188-1196. URL: https://arxiv.org/pdf/1405.4053.pdf (дата обращения: 15.04.2023).

11. Budhiraja A. A simple explanation of document embeddings generated using Doc2Vec // Medium. URL: https://medium.com/@amarbudhiraja/understanding-document-em-beddings-of-doc2vec-bfe7237a26da (дата обращения: 06.04.2023).

12. Narayanan A., Chandramohan M., Venkatesan R. [et al.]. Graph2vec: Learning Distributed Representations of Graphs. URL: https://arxiv.org/abs/1707.05005 (дата обращения: 25.04.2023).

13. Jiang J., Cui Z., Xu Ch., Yang J. Gaussian-Induced Convolution for Graphs // Proceedings of the 33 th AAAI Conference on Artificial Intelligence and 31th Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, Hawaii, USA, 2019. Р. 4007-4014. URL: https://arxiv.org/abs/1811.04393 (дата обращения: 25.04.2023).

14. Qiu J., Dong Y., Ma H. [et al.]. Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec // Proceedings of the 11th Eleventh ACM International Conference on Web Search and Data Mining. ACM, Los Angeles, California, USA, 2018. Р. 459-467. URL: https://arxiv.org/abs/1710.02971 (дата обращения: 23.04.2023).

15. Grover A., Leskovec J. Node2vec: Scalable Feature Learning for Networks // Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, San Francisco, California, USA, 2016. Р. 855-864. URL: https://arxiv.org/abs/1607.00653 (дата обращения: 30.04.2023).

16. Perozzi B., Al-Rfou R., Skiena S. DeepWalk: Online Learning of Social Representations // Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014. Р. 701-710. URL: https://arxiv.org/abs/1403.6652 (дата обращения: 28.04.2023).

17. Precision and recall // Wikipedia. URL: https://en.wikipedia.org/wiki/Precision_ and_recall (дата обращения: 02.05.2023).

18. Оценка качества в задачах классификации и регрессии // ИТМО. URL: https://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задачах_классифи-кации_и_регрессии (дата обращения: 05.05.2023).

19. Площадь под ROC-кривой // Loginom. URL: https://wiki.loginom.ru/articles/ auc.html (дата обращения: 07.05.2023).

20. Кревский М. И. «НЕРВ» - система интеллектуального анализа процессов оказания государственных услуг // Проблемы информатики в образовании, управлении, экономике и технике : сб. ст. по материалам XXI Междунар. науч.-техн. конф. Пенза, 2022. С. 79-83.

References

1. Mueller R., Ali I. Process Mining vs. Business Process Management. Available at: https://www.macrosoftinc.com/process-mining-vs-business-process-management (accessed 12.05.2023).

2. Turing. A Guide on Word Embeddings in NLP. Available at: https://www.tu-ring.com/kb/guide-on-word-embeddings-in-nlp (accessed 05.05.2023).

3. Beaumont R. Image embeddings. Available at: https://rom1504.medium.com/image-embeddings-ed1b194d113e (accessed 01.05.2023).

4. Mos.ru. Ofitsial'nyy sayt mera Moskvy = Mos.ru. The official website of the Mayor of Moscow. (In Russ.). Available at: https://www.mos.ru (accessed 14.05.2023).

5. De Koninck P., Broucke S.V., De Weerdt J. Act2vec, trace2vec, log2vec, and model2vec: Representation Learning for Business Processes. 16th International Conference on Business Process Management. Sydney, NSW, Australia, 2018:305-321. Available at: https://link.springer.com/chapter/10.1007/978-3-319-98648-7_18 (accessed 22.04.2023).

6. Mikolov T., Sutskever I., Chen K. et al. Distributed representations of words and phrases and their compositionality. 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, United States, 2013:3111-3119. Available at: https://arxiv.org/abs/1310.4546 (accessed 14.04.2023).

7. Towards Data Science. Ria Kulshrestha. NLP 101: Word2Vec - Skip-gram and CBOW. Available at: https://towardsdatascience.com/nlp-101-word2vec-skip-gram-and-cbow-93512ee24314 (accessed 20.04.2023).

8. Weng L. Learning Word Embedding. Available at: https://lili-anweng.github.io/posts/2017-10-15-word-embedding (accessed 25.04.2023).

9. Kapatsa E. Fast coding (One-Hot Encoding). Mashinnoe obuchenie dostupnym yazy-kom = Machine learning in a foreign language. (In Russ.). Available at: https://www.helenkapatsa.ru/bystroie-kodirovaniie (accessed 01.05.2023).

10. Le Q., Mikolov T. Distributed Representations of Sentences and Documents. Proceedings of the 31th International Conference on Machine Learning (ICML-14). Beijing, China, 2014:1188-1196. Available at: https://arxiv.org/pdf/1405.4053.pdf (accessed 15.04.2023).

11. Budhiraja A. A simple explanation of document embeddings generated using Doc2Vec. Medium. Available at: https://medium.com/@amarbudhiraja/understanding-document-embeddings-of-doc2vec-bfe7237a26da (accessed 06.04.2023).

12. Narayanan A., Chandramohan M., Venkatesan R. et al. Graph2vec: Learning Distributed Representations of Graphs. Available at: https://arxiv.org/abs/1707.05005 (accessed 25.04.2023).

13. Jiang J., Cui Z., Xu Ch., Yang J. Gaussian-Induced Convolution for Graphs. Proceedings of the 33 th AAAI Conference on Artificial Intelligence and 31th Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, Hawaii, USA, 2019:4007-4014. Available at: https://arxiv.org/abs/1811.04393 (data obrashcheniya: 25.04.2023).

14. Qiu J., Dong Y., Ma H. et al. Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec. Proceedings of the 11th Eleventh ACM International Conference on Web Search and Data Mining. ACM, Los Angeles, California, USA, 2018:459-467. Available at: https://arxiv.org/abs/1710.02971 (accessed 23.04.2023).

15. Grover A., Leskovec J. Node2vec: Scalable Feature Learning for Networks. Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, San Francisco, California, USA, 2016:855-864. Available at: https://arxiv.org/abs/1607.00653 (accessed 30.04.2023).

16. Perozzi B., Al-Rfou R., Skiena S. DeepWalk: Online Learning of Social Representations // Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014:701-710. Available at: https://arxiv.org/abs/1403.6652 (accessed 28.04.2023).

17. Precision and recall. Wikipedia. Available at: https://en.wikipedia.org/wiki/Preci-sion_and_recall (accessed 02.05.2023).

18. Quality assessment in classification and regression tasks. ITMO. (In Russ.). Available at: https://neerc.ifmo.ru/wiki/index.php?title=Otsenka_kachestva_v_zadachakh_klas-sifikatsii_i_regressii (accessed 05.05.2023).

19. Area under the ROC curve. Loginom. (In Russ.). Available at: https://wiki.loginom.ru/ articles/auc.html (accessed 07.05.2023).

20. Krevskiy M.I. "NERVE" - a system of intellectual analysis of the processes of rendering public services. Problemy informatiki v obrazovanii, upravlenii, ekonomike i tekhnike: sb. st. po materialam XXI Mezhdunar. nauch.-tekhn. konf. = Problems of informatics in education, management, economics and technology : collection of articles based on the materials of the XXI International Scientific and Technical. conf. Penza, 2022:79-83. (In Russ.)

Информация об авторах /Information about the authors

Михаил Игоревич Кревский

старший аналитик отдела мониторинга и анализа государственных услуг, Государственное казенное учреждение «Информационный город» (Россия, г. Москва,

1-й Красногвардейский пр-д, 21, стр. 1) E-mail: westhemer1@gmail.com

Mikhail I. Krevskiy

Senior analyst of the department of monitoring and analysis of public services, State government institution "Info City" (bld. 1, 21 1st Krasnogvardeysky avenue, Moscow, Russia)

Александр Сергеевич Бождай

доктор технических наук, профессор, профессор кафедры систем автоматизированного проектирования, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40) E-mail: bozhday@yandex.ru

Aleksandr S. Bozhday

Doctor of technical sciences, professor, professor of the sub-department of computer-aided design systems, Penza State University (40 Krasnaya street, Penza, Russia)

Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.

Поступила в редакцию/Received 17.05.2023 Поступила после рецензирования/Revised 11.08.2023 Принята к публикации/Accepted 05.09.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.