Научная статья на тему 'Метод Process mining в системе защищенного электронного документооборота'

Метод Process mining в системе защищенного электронного документооборота Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
369
128
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ПРОЦЕССОВ / ДОКУМЕНТООБОРОТ / БИЗНЕС-ПРОЦЕСС / ПРИНЯТИЕ РЕШЕНИЙ / АЛЬФА-ПЛЮС АЛГОРИТМ / ЖИЗНЕННЫЙ ЦИКЛ ДОКУМЕНТА / АНАЛИЗ ЖУРНАЛОВ СОБЫТИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васильев Николай Владимирович, Забродин Олег Вадимович, Куликов Дмитрий Вадимович

Предложен метод анализа журналов событий системы электронного документооборота, основанный на методологии Process Mining (глубинный анализ процессов), позволяющий осуществить реконструкцию проекции потока управления, проекции ресурсов и проекции данных рабочих процессов обработки документов на предприятии. Метод основывается на анализе журналов действий над документами. Предполагается, что на предприятии ставится «пустая» система без описаний рабочих процессов и пользователи выполняют привычные действия в ручном режиме. После обработки нескольких однотипных документов журнал становится «полным», что позволяет реконструировать предполагаемый процесс обработки документа. После рецензии полученного процесса аналитиком и внесения изменений, процесс может быть загружен в систему и назначение прохождения всех инстанций документом будет автоматизировано. В рамках исследования предлагается следующая схема реконструкции перечисленных проекций процесса документооборота: сегментирование журнала событий по типам документов; сегментирование полученных журналов по стадиями жизненного цикла документа; реконструкция проекции потока управления; реконструкция проекции ресурсов; реконструкция проекции данных и принятия решений. Необходимость первого шага обусловлена тем, что с одним типом документов в журнале могут быть связаны несколько типов рабочих процессов. Второй шаг позволяет отделить трассы событий различных процессов обработки одного типа документов. Разбиение производится на основе стадий жизненного цикла типа документа. После выделения множества трасс на следующем шаге проводится реконструкция проекции потока управления рабочего процесса модифицированным альфа-плюс алгоритм, позволяющим получать в качестве результата схему процесса. На следующем шаге для обеспечения реконструкции проекции ресурсов используется дерево организационно-штатной структуры предприятия, в котором промежуточные узлы подразделения организации и должности, а листья должностные лица. Реконструкция осуществляется на основе предложенных эвристических правил. Реконструируемая на следующем шаге проекция данных, описывающая основные атрибуты экземпляра процесса соответствует регистрационной карточке документа. В работе предложена процедура выявления делегатов управления поведением исключающих шлюзов процесса. Для каждого исключающего шлюза, полученного при реконструкции модели управления потоком по журналу, строится пара предикатов на выражениях сравнений атрибутов регистрационной карточки. Указанные предикаты вычисляются алгоритмом автоматического построения деревьев решений. Приведенные выше методы реконструкции проекций моделей процессов были реализованы в виде компонента в составе BPMN редактора процессов документооборота.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод Process mining в системе защищенного электронного документооборота»

doi: 10.24411/2409-5419-2018-10186

МЕТОД PROCESS MINING В СИСТЕМЕ ЗАЩИЩЕННОГО ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА

ВАСИЛЬЕВ

Николай Владимирович1

ЗАБРОДИН Олег Вадимович2

КУЛИКОВ

Дмитрий Вадимович3

Сведения об авторах:

1к.т.н., начальник сектора публичного акционерного общества «Интелтех», г. Санкт-Петербург, Россия, gandvik1984@gmail.com

2инженер публичного акционерного общества «Интелтех», г. Санкт-Петербург, Россия, olegzabrodin@gmail.com

3инженер публичного акционерного общества «Интелтех», г. Санкт-Петербург, Россия, dima kulikov1993@mail.ru

АННОТАЦИЯ

Предложен метод анализа журналов событий системы электронного документооборота, основанный на методологии Process Mining (глубинный анализ процессов), позволяющий осуществить реконструкцию проекции потока управления, проекции ресурсов и проекции данных рабочих процессов обработки документов на предприятии. Метод основывается на анализе журналов действий над документами. Предполагается, что на предприятии ставится «пустая» система без описаний рабочих процессов и пользователи выполняют привычные действия в ручном режиме. После обработки нескольких однотипных документов журнал становится «полным», что позволяет реконструировать предполагаемый процесс обработки документа. После рецензии полученного процесса аналитиком и внесения изменений, процесс может быть загружен в систему и назначение прохождения всех инстанций документом будет автоматизировано. В рамках исследования предлагается следующая схема реконструкции перечисленных проекций процесса документооборота: сегментирование журнала событий по типам документов; сегментирование полученных журналов по стадиями жизненного цикла документа; реконструкция проекции потока управления; реконструкция проекции ресурсов; реконструкция проекции данных и принятия решений. Необходимость первого шага обусловлена тем, что с одним типом документов в журнале могут быть связаны несколько типов рабочих процессов. Второй шаг позволяет отделить трассы событий различных процессов обработки одного типа документов. Разбиение производится на основе стадий жизненного цикла типа документа. После выделения множества трасс на следующем шаге проводится реконструкция проекции потока управления рабочего процесса модифицированным альфа-плюс алгоритм, позволяющим получать в качестве результата схему процесса. На следующем шаге для обеспечения реконструкции проекции ресурсов используется дерево организационно-штатной структуры предприятия, в котором промежуточные узлы - подразделения организации и должности, а листья - должностные лица. Реконструкция осуществляется на основе предложенных эвристических правил. Реконструируемая на следующем шаге проекция данных, описывающая основные атрибуты экземпляра процесса соответствует регистрационной карточке документа. В работе предложена процедура выявления делегатов управления поведением исключающих шлюзов процесса. Для каждого исключающего шлюза, полученного при реконструкции модели управления потоком по журналу, строится пара предикатов на выражениях сравнений атрибутов регистрационной карточки. Указанные предикаты вычисляются алгоритмом автоматического построения деревьев решений. Приведенные выше методы реконструкции проекций моделей процессов были реализованы в виде компонента в составе BPMN - редактора процессов документооборота.

КЛЮЧЕВЫЕ СЛОВА: анализ процессов; документооборот; бизнес-процесс; принятие решений; альфа-плюс алгоритм; жизненный цикл документа; анализ журналов событий.

Для цитирования: Васильев Н. В.,Забродин О.В., Куликов Д.В. Метод Process Mining в системе защищенного электронного документооборота // Наукоемкие технологии в космических исследованиях Земли. 2018. Т. 10. № 6. С. 38-50. doi: 10.24411/2409-5419-2018-10186

В современном мире подавляющий объём информации существует в электронном виде. Для хранения, обработки и управления документами на цифровых носителях широкое распространение получили системы электронного документооборота (СЭД), представляющие собой автоматизированные многопользовательские системы, сопровождающие процесс создания и перемещения по организации документов.

Большинство современных СЭД строится на основе процессного подхода, в соответствии с которым документооборот промышленного предприятия или государственного ведомства представляется в виде формализованного множества описаний последовательности выполняемых сотрудниками операций над документами.

Однако, внедрение подобной системы приводит к чрезмерному увеличению нагрузки на аналитиков и сотрудников служб обеспечения. Это связано с необходимостью формализации процессов движения документов на предприятии. Особенно сложной эта задача становится при изменении структуры организации, штатной численности или при переориентации деятельности предприятия. Вследствие описанных структурных изменений имеющаяся модель процессов теряет актуальность. Порой степень несоответствия модели процессов приводит к необходимости разработки моделей процессов «с нуля».

Актуальность темы работы обусловлена тем, что в настоящий момент в составе СЭД отсутствуют средства, позволяющие автоматизировать процесс создания и корректировки моделей процессов обработки документов на предприятии.

Большинство современных СЭД поддерживают жур-нализацию действий пользователей. В последние годы в зарубежных [1] и отечественных [2] работах получило развитие направление, носящее название «Глубинный анализ процессов» (Process Mining), которое позволяет на основе журналов событий информационных систем реконструировать схемы рабочих процессов (workflow), реализуемые пользователями. Однако в настоящее время данные средства в системах электронного документооборота пока еще не получили широкого распространения.

В работе предпринята попытка разработки инфраструктуры глубинного анализа процессов в структуре защищенного электронного документооборота. Предложенные модели и методы были реализованы в прототипе модуля, позволяющего помочь интеграторам СЭД при решении задачи создания и актуализации бизнес-процессов документооборота предприятия.

Приводится общая характеристика современных систем документооборота, приведен разработанный метод глубинного анализа процессов в СЭД и описан разработанный прототип модуля анализа процессов, реализующий предложенный метод.

Характеристика современных систем

электронного документооборота

За последние 20 лет концепция электронного документооборота получила свое развитие от идеи сканирования и централизованного хранения графических образов документов до идеи управления документами и их карточками от момента создания до регистрации, подписи и сдачи в архив. Необходимость решения задачи маршрутизации документов внутри организации между исполнителями привела к внедрению в СЭД технологии рабочих (бизнес) процессов (БП). СЭД также решают задачу интеграции всех информационных приложений в единую информационную среду, обеспечивающую оперативное взаимодействие всех пользователей при выполнении ими деловых процедур и функций управления необходимой информацией. Русский термин «системы электронного документооборота» является некорректным, так как основным объектом хранения СЭД выступают не документы, а регистрационно-учетные карточки. Документ при этом может храниться в базе данных СЭД, файловой системе или в бумажном виде на полке в папке. В этом отношении англоязычный термин EDRMS (Electronic Document Record Management Systems) является более правильным.

Современные СЭД условно можно разделить на 2 класса: документ — ориентированные (docflow) и процесс — ориентированные (workflow) СЭД. Основой как первого так и второго класса СЭД является подход на основе рабочих процессов. Пример автоматизации деятельности сотрудников на примере процесса огласования документа представлен на рис. 1.

Организация рабочих процессов в docflow — СЭД идет от документа. Для каждого документа, прошедшего систему, создается задача (экземпляр рабочего процесса). Рабочие процессы имеют в docflow — СЭД общий характер, и, как правило, соответствующее название «Согласование», «Утверждение», «Рассмотрение». В то время как в workflow — СЭД с одним экземпляром рабочего процесса могут быть связаны несколько документов. Процессы в этом случае носят специфический характер и название: «Обслуживание заявки на подключение клиента», «Проведение сделки», «Аттестация персонала» и пр. Безотносительно типа СЭД задачи размещаются на сервере баз данных. Задачи характеризуются статусом (выполнена/в процессе/просрочена), прикрепленными документами, маршрутом движения документа, списком пользователей-исполнителей, а также временными параметрами.

Как правило, в СЭД каждый документ характеризуется типом, а тип в свою очередь моделью жизненного цикла. Жизненный цикл определяет, какие стадии и в каком порядке может проходить документ. Например, практически все документы проходят стадии разработки, согласования и утверждения, а также списания в архив.

а

б

Рис. 1. Пример согласования документа в ручном режиме (а) и средствами системы электронного документооборота (б)

Для специфических типов документов могут выделяться специфические стадии.

Современные СЭД [3-4] строятся на основе реляционных баз данных. Более близкая к СЭД концепция документ — ориентированных NoSQL — баз данных не получила пока широкого распространения. Идеологически, в составе СЭД можно выделить набор сервисов:

— сервис справочников, предназначенный для хранения условно-постоянной информации, используемой пользователями СЭД при работе с документами;

— сервис пользователей, предназначенный для управления пользователями и разграничения прав доступа. Он отвечает за авторизацию и аутентификацию пользователей системы по доступу к папкам и файлам, для чего использует как механизмы клиентской составляющей системы, так и встроенные механизмы безопасности базы данных;

— сервис поиска и индексации, предназначенный для реализации механизмов полнотекстового поиска. Сервис производит периодическую индексацию таблиц документов и справочников с сохранением индекса в специальной таблице или на диске;

— объектные сервисы, реализующие базовые операции создания, чтения, обновления и удаления (CRUD) над объектами, включая документы, справочники, задачи и задания рабочих процессов. Для объектов — документов это включает установку и получение свойств и потоков содержимого файлов;

— сервис каталогов, осуществляющий доступ к объектам, размещаемым в иерархии папок путем добавления или удаления объектов из папки. Папки могут содержать другие папки и документы;

— сервис исполнения рабочих процессов, служащий для создания новых экземпляров рабочих процессов документооборота, генерации и назначения заданий исполнителям, поддержки и контроля выполнения созданных экземпляров. Данный сервис использует для своей работы все перечисленные выше сервисы.

Как показано на рис. 2 описание рабочего процесса документооборота может быть представлено как набор из 4 проекций-перспектив.

Перспективе «управление потоком» соответствует маршрут движения документа между исполнителями (схема рабочего процесса).

Перспективе «данные» соответствует документ, над которым выполняется экземпляр процесса, а также набор дополнительных переменных процесса (переменных управления).

Перспективе «ресурсы» соответствует набор ролей и исполнителей, которые могут выполнять действия над документом в узлах схемы рабочего процесса.

Перспективе «операции» соответствует список элементарных действий, совершаемых исполнителями с до-

Управление потоком

Ресурсы 1 Бизнес-процесс I Данные

Операции

Рис. 2. Проекции модели рабочего процесса

кументом в рамках задания. Например, скачать документ, подписать документ, создать новую версию, перенести в другую папку и пр.

В существующей схеме создание и загрузку рабочих процессов в СЭД в виде файлов BPMN (Buisness process management notation) производит администратор с помощью редактора [5]. Подобная схема в силу субъективности и неточности имеет недостатки. В работе далее предлагается метод, который позволяет частично их устранить.

Process Mining в системе

электронного документооборота

Привлечение Process Mining вносит в привычную схему развертывания бизнес-процессов документооборота коррективы. На предприятие ставится система с минимально необходимым набором процессов и пользователи выполняют привычные действия в ручном режиме. Например, при согласовании документа вручную указывают все согласующие инстанции, которые должен пройти данный документ. В процессе согласования факты выполнение всех действий заносятся в журнал. После обработки нескольких однотипных документов журнал становится «полным», что позволяет реконструировать предполагаемый процесс обработки документа. То есть после рецензии полученного процесса аналитиком и внесения изменений процесс может быть загружен в систему и движение документа по организации будет автоматизировано.

Согласно [1-8] для обеспечения реконструкции схемы процесса журнал событий должен иметь как минимум четыре атрибута:

— действие (activity) — действие, выполненное пользователем например, «подпись документа», «наложение резолюции»;

— время регистрации (timestamp) — момент времени, когда произошло события;

— идентификатор последовательности событий (case id) — идентификатор последовательность действий над определенным документом;

— ресурс (resource) — исполнитель, или инициатор действия пользователь или внешняя информационная система).

В рамках СЭД отдельный экземпляр рабочего процесса ассоциируется с документом, поэтому трассы могут быть выявлены по идентификатору документа, который соответствует идентификатору последовательности (case id) рассмотренного журнала. Общая схема метода реконструкции рабочих процессов документооборота показана на рис. 3.

Необходимость шагов 1-2 обусловлена тем, что с одним типом документов в журнале могут быть связаны несколько рабочих процессов, поэтому важно определить признак, по которому трассы одного процесса отличаются от трасс другого. Это может быть сделано исходя из положения, что каждый документ имеет свой тип, а тип в свою очередь характеризуется жизненным циклом. Жизненный цикл (ЖЦ) документа — тип поведения документа от момента формирования до момента передачи в архив (на хранение) или уничтожения.

Жизненный цикл может быть описан в форме графа, в котором вершинами являются стадии жизненного цикла, а ребрами — переходы между стадиями. При выделении

трасс рабочего процесса можно исходить из принадлежности действий к одной стадии ЖЦ. К одному рабочему процессу могут быть отнесены трассы от момента начала до момента окончания стадии ЖЦ. Например, на приведенной на рис. 4 схеме, к рабочему процессу «Согласование документа» будут отнесены все трассы, ведущие из стадии ЖЦ документа «Согласование» (т.е. «документ в процессе согласования») к стадии «Исполнение» и из «Согласование» в «Прекращен». А для процесса «Исполнение документа» все трассы ведущие из стадии ЖЦ документа «Исполнение» в «Исполнен» или «Прекращен».

Рис. 3. Схема процесса реконструкции рабочих процессов документооборота

Рис. 4. Пример жизненного цикла типа документа

Жизненный цикл каждого типа документа должен быть описан. В разработанном прототипе для этих целей был использован справочник «Жизненный цикл документа», связанный со справочником «Типы документов».

После выделения множества трасс может быть проведена реконструкция перспективы «Поток управления» рабочего процесса одним из алгоритмов Process Mining (шаг 3 на рис. 3). При разработке прототипа был использован альфа-плюс алгоритм [9]. Общая схема реконструкции проекции «Поток управления» показана на рис. 5.

Алгоритм на первом этапе на основе журнала событий строит матрицу пар отношений между событиями. Выделяется 4 типа отношений:

— прямая преемственность (a >L b) — шаблонное отношение, наблюдающееся, когда в журнале событий присутствует хотя бы одна трасса, в которой событие b следует сразу же за событием а;

— причинность (a —>L b) — отношение наблюдается в журнале только когда есть хотя бы одна трасса, где (a >L b) и нет ни одной трассы, в которой (a >L b). То есть можно говорить, что причиной появления события b в журнале служит событие a;

— несвязность (a #L b) — шаблонное отношение, наблюдаемое, когда в журнале (a >L b) и (b >L a)

Рис. 5. Схема реконструкции модели потока управления

— параллельность (а ||£ Ь) — отношение, наблюдаемое в журнале, если (а >ь Ь) и (Ь >ь а).

На втором этапе множество событий разбивается на пары множеств (А, Б) по следующему принципу: каждый элемент множества А связан с каждым элементом множества В, при этом внутри А и Б события связаны отношением '#' (несвязность).

Базовая версия альфа-плюс алгоритма использует в качестве целевого представления сеть Петри. Переход к нотации БРМЫ на третьем этапе был осуществлен при помощи таблицы преобразования (табл. 1).

Проекция «Операции» (см. рис. 2) поддерживается на уровне системы электронного документооборота и может в себя включать такие элементарные действия над

Фрагмент в нотации BPMN

Последовательное выполнение

Последовательное выполнение

присутствует пара (А, Б) а е А, Ь е Б, не выполняются другие условия

Условное разделение

присутствует пара (А, Б) а е А, Ь е Б, с е Б

Условное слияние

присутствует пара (А, Б) а е А, Ь е А, с е В. не выполняются другие условия

Параллельное разделение

а е А , а е А , Ь е Б, с е С

и присутствуют пары отношений (А1, Б) (А С)

Параллельное слияние

а е А , а е А , Ь е Б, с е С и присутствуют пары отношений (Б, А1) (С, А2)

Таблица 1

Условия для генерации фрагментов нотации ВРМ^ на основе альфа-алгоритма

документом как: изменение, просмотр, подписание, блокировка, создание и удаление версии. Исполнение каждого действия сопровождается занесением записи в журнал. Кроме этого в модель операций должны быть включены действия исполнителей с данными регистрационных карточек. Предполагается, что в качестве одного действия результирующего журнала рассматривается набор действий по изменению атрибутов карточки, выполняемых последовательно одним пользователем.

На шаге 4 (см. рис. 3) для обеспечения реконструкции проекции «Ресурсы», т.е. модели исполнителей процесса в журнале должно содержаться поле «Исполнитель действия». Указанное поле может быть взято из справочника «Пользователи». Реконструкция роли исполнителя действия может быть осуществлена на основе связанных справочников «Должностные лица» (ДЛ), «Должности» (Д) и «Подразделения организации» (ПО). На основе указанных справочников формируется дерево, в котором промежуточные узлы — подразделения организации и должности, а листья — должностные лица (рис 6).

Назначение исполнителей заданий рабочих процессов может быть осуществлена на основе следующих эвристических правил:

если на множестве трасс действия всегда исполняет одно и то же должностное лицо, то роль может соответствовать только этому ДЛ;

в случае если исполнителем действия выступают разные должностные лица, в качестве роли может быть использован промежуточный узел дерева (наименьшее по численности подразделение или должность), включающий в качестве потомков всех указанных ДЛ.

Рассмотрим заключительный шаг 5 метода (см. рис. 3). В случае электронного документооборота, перспектива «Данные», описывающая основные атрибуты

Рис. 6. Фрагмент дерева организационно-штатной структуры для реконструкции перспективы «Ресурсы»

экземпляра процесса содержится в регистрационной карточке. Карточка, наряду с жизненным циклом описаны в справочнике «Тип документа» куда заносится администратором СЭД. Для заполнения регистрационной карточки используются следующие базовые типы атрибутов: «Дата», «Дробное число», «Признак», «Справочник», «Строка», «Текст», «Целое число».

В разных действиях рабочего процесса документооборота исполнители работают с различными подмножествами атрибутов регистрационной карточки. Как было отмечено, под одним действием предполагается набор изменений реквизитов карточки, выполняемых последовательно одним пользователем.

Полнота описания перспективы «Данные» также обеспечивается заданием модели поведения исключающих шлюзов. То есть условий заданных на значениях реквизитов карточки в зависимости от которых срабатывают исключающие шлюзы, соответствующие условным переходам процесса (рис. 7). Каждый вариант прохождения исключающего шлюза представлен отдельной трассой в журнале событий. Таким образом, для каждого исключающего шлюза, полученного при реконструкции модели управления потоком по журналу должна быть построена пара предикатов вида:

(атрибут1 оп.сравн. значение 1) ИЛИ (атрибут оп.сравн. значение2) ИЛИ...,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где оп.сравн. — операции сравнения: «>», «<», «=».

Каждое из полученных выражений определяет вариант исполнения исключающего шлюза.

Данное построение может быть выполнено алгоритмом автоматического построения деревьев решений С4.5 (см. напр. [10]). Метками классов, соответствующих листьям дерева принятия решений соответствуют пары событий до и после условного перехода (см. рис. 7). Однако реализация для перечисленного набора типов данных налагает свои особенности:

- для атрибутов типа «Признак» и «Справочник» алгоритм используется без модификаций. В процессе построения дерева решений для каждого возможного значения признака или записи справочника создается отдельное поддерево;

- для атрибутов «Целое число» и «Дробное число» производится дискретизация. Для каждого численного реквизита определяется возможный размах значений с последующим разбиением на интервалы — по одному для каждого поддерева;

- на множестве атрибутов типа «Дата» вычисляются все возможные разности (целые числа), после чего задача сводится к классификации целочисленных значений;

Рис. 7. Схема срабатывания условного перехода в рабочем процессе с меткой класса маршрута

— на множестве значений реквизитов типа «Строка» и «Текст» выполняется индексирование и последующее ранжирование алгоритмом PageRank (см. [11]) с формированием групп связанных между собой значений. Данные группы соответствуют поддеревьям узла текстового реквизита.

Рассмотрим пример построения схемы принятия решений (табл. 2). Из регистрационной карточки было взято два атрибута «Срок исполнения» и «Поле резолюции» (X и X2). Первое поле относится к типу «Дата», а второе имеет тип «Текст». Для дальнейшего анализа было введено поле X" и X2". Первое представляет разницу между сроком выполнения и текущей датой (10.10.2018) в днях, а во втором хранится отношение резолюции к одной из групп: possitive(положительное решение), negative (отрицательное решение), null group (без резолюции). Данное отношение было получено с использованием алгоритма ранжирования (см. [11] и табл. 2). Вариант прохождения исключающего шлюза указан в виде столбца Y. На данном наборе данных было построено дерево принятия решений (рис. 8) по алгоритму C4.5. На каждом шаге алгоритм последовательно вычисляет энтропию и прирост информации (см. подробнее [10]) для каждого атрибута регистрационной карточки. Выбор атрибута для текущего узла дерева решения производится на основе критерия максимизации прироста информации. Энтропия приведенного фрагмента до разбиения равна 0,9852.

Энтропия при разбиении по атрибуту Xt = 0,3935.

Прирост информации по атрибуту X" = 0,5917.

Энтропия при разбиении по X2" = 0,6935.

Прирост информации по X2-0,2916

Таким образом на основе приведенного критерия на первом шаге для ветвления должен использоваться Х1'. Фрагмент построенного дерева показан на рис. 8.

Построенные предикаты в виде делегатов хранится в описании рабочего процесса и ассоциируется с конкретным шлюзом.

Рис. 8. Пример дерева принятия решений

Таблица 2

Реквизиты фрагмента регистрационной карточки для реконструкции дерева решений

X1 ^2 К' К Y

20.10.2018 Изменить название пункта 2.2 neg (изменить) 9 AB

18.10.2018 В приказе добавить подпись Иванова В.В. neg (добавить) 7 AB

15.10.2018 Приказ одобрен. Для ознакомления pos (одобрено) 4 AC

09.10.2018 Null Null -1 AB

11.10.2018 Null Null 1 AC

12.10.2018 На счет правок невозрожаю. pos (невозражаю) 2 AC

01.10.2018 Не смотрел Null -9 AB

Реализация инфраструктуры анализа процессов в СЭД

Предложенный метод реконструкции проекций моделей процессов был реализованы в виде компонента в составе редактора рабочих процессов документооборота «Цера» [12]. Отличительной особенностью разработанного модуля от уже существующих решений (см.

напр. [13-15]) является ориентация на анализ процессов документооборота.

Инфраструктура Process Mining в СЭД показана на рис. 9. В процессе функционирования редактор обращается к базе данных и справочникам документооборота. На первом этапе модулем построения модели управления потоком осуществляется процесс сегментирования журнала собы-

Рис. 9. Инфраструктура Process Mining в системе электронного документооборота

тий на основе выбранного пользователем типа документа и стадии его жизненного цикла. После чего производится реконструкция BPMN — графа рабочего процесса. На основании рассмотренной методики модуль построения модели ресурсов производит обращения к справочникам описания организационно-штатной структуры и последующее назначение ролей заданиям схемы рабочего процесса.

Дальнейшую работу выполняет модуль построения модели данных и решений, производящий на основе таблиц «Регистрационная карточка» и «Атрибут карточки», а также json-поля «образ атрибутов» таблицы «Журнал событий» производит создание форм заданий рабочего процесса, а также формирование предикатов для делегатов, обеспечивающих поведение исключающих шлюзов.

Практическая апробация разработанного модуля показала недостаточную эффективность альфа — плюс алгоритма для решения задач анализа реальных журналов СЭД. В случае наличия ошибок в журнале (дублирование или выпадение событий, ошибки ручного выполнения операций) авторами были получены слабо читаемые модели, объем ручных модификаций которых по доводке до рабочих процессов был значителен. В качестве дальнейших исследований авторы предполагают использовать алгоритм индуктивного анализа (Inductive miner), позволяющий, как и альфа-плюс алгоритм создавать бездеффектное (soundness) описание процессов, но не столь чувствительные к ошибкам (см. напр. [15]). Была также определена зависимость результатов анализа от дисциплинированности исполнителей документов, на основе которых действий которых формируется исходный журнал. В случае несвоевременного указания значений реквизитов регистрационной карточки при выполнении действий наблюдалась некорректная проекция данных процесса. В качестве частичной меры преодоления указанного недостатка авторами предлагается привязка групп реквизитов регистрационной карточки к стадиям ЖЦ типа документа. Открытым остается также вопрос оценки степени деградации схемы рабочего процесса при организационно-штатных и нормативных изменениях на предприятии.

Литература

1. Van der Aalst W. M. P. Process Mining: Discovery, Conformance and Enhancement of Business Processes. Berlin: Springer-Verlag, 2011. 352 p.

2. Барсегян А. А., Куприянов М. С., Холод И. И., Тесс М. Д., Елизаров С. И. Анализ данных и процессов. СПб.: БХВ-Петербург, 2009. 512 с.

3. Романченко Е. В. Основные тенденции развития СЭД в России // Современные технологии делопроизвод-

ства и документооборота. 2015. №№ 8. URL: http://e.deloprost. ru/article.aspx?aid=419473 (дата обращения 05.10.2018).

4. Мокрый В. Ю. Системы электронного документооборота. СПб.: Инфо-да, 2018. 48 с.

5. Михеев А. Г. Системы управления бизнес-процессами и административными регламентами на примере свободной программы RunaWFE: учеб. Пособие. Москва: Альт Линукс, 2011. 178 с.

6. Van derAalst W.M.P., Weijters A. J.M.M., MarusterL. Workflow Mining: Discovering process models from event logs // IEEE Transactions on Knowledge & Data Engineering. 2004. Vol. 16. No. 5. Pp. 1128—1142.

7. Van der Aalst W. M.P., van Dongen B. F. Discovering Workow Performance Models from Timed Logs // EDCIS2002: Engineering and Deployment of Cooperative Information Systems. LNCS. Berlin: Springer, 2002. Vol. 2480. Pp. 45—63.

8. Van der Aalst W. M.P., Weijters A. J.M.M. Process mining: a research agenda // Computers in Industry. 2004. No. 53(3). Pp. 231—244.

9. De Medeiros A. K. A, van Dongen B. F., van der Aalst W. M.P., Weijters A. J.M.M. Process Mining: Extending the a-algorithm to Mine Short Loops / Eindhoven University of Technology, Eindhoven, 2004. URL: https://pure.tue.nl/ws/ files/1864325/576199.pdf (дата обращения 05.10.2018).

10.Паклин Н.Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям. СПб.: Питер, 2009. 624 с.

11.МарманисХ., Бабенко Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных. СПб.: Символ-Плюс, 2011. 480 с.

12. Свидетельство о регистрации программы для ЭВМ 2017663083. Российская Федерация. Подсистема защищенного электронного документооборота «Цера» / Васильев Н. В., Компанец А. Н., Сопин Д. С. Заявитель и правообладатель ПАО «Интелтех» (RU). Заявл. 06.10.17; Опубл. 24.11.17. Реестр программ для ЭВМ. 1 с.

13. Van Dongen B., deMedeirosA., VerbeekH., WeijtersA., van der Aalst W. M. P. The prom framework: A new era in process mining tool support // ICATPN2005: Applications and Theory of Petri Nets. LNCS. Springer, 2005. Vol. 3536. Pp. 444—454.

14. Van Dongen B. F., van der Aalst W. M.P. EMiT: A Process Mining Tool // ICATPN2004: Applications and Theory of Petri Nets. LNCS. Springer, 2004. Vol. 3099. Pp. 454—463.

15.Leemans S.J.J., Fahland D., van der Aalst W.M.P. Discovering Block-Structured Process Models from Event Logs — A Constructive Approach // Petri Nets. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer, 2013. Vol. 7927. Pp. 311—329.

PROCESS MINING METHODS IN THE SECURE ELECTRONIC DOCUMENT CONTENT RECORD MANAGEMENT SYSTEMS

NICKOLAY V. VASILIEV

Saint-Petersburg, Russia, gandvlk1984@gmall.com

OLEG V. ZABRODIN

Saint-Petersburg, Russia, olegzabrodln@gmall.com

DMITRY V. KULIKOV

Saint-Petersburg, Russia, gandvik1984@gmail.com

KEYWORDS: Process mining; electronic document record management systems; decision support; alpha- algorithm; document life cycle; event log analysis.

ABSTRACT

The work proposes a process mining method for analysis of EDRMS workflow processes. The method is based on the analysis of document action logs. It is assumed that an "empty" system is put in the enterprise without descriptions of workflows and users perform familiar actions in manual mode. After processing several documents of the same type, the journal becomes "complete", which allows reconstructing the intended document processing process. After reviewing the received process by the analyst and making changes, the process can be loaded into the system and the appointment of the passage of all instances by the document will be automated. The study proposes the following scheme for the reconstruction of the listed projections of the BPMN model - the workflow process: event log segmentation by document type; segmentation of received logs by stages of the document life cycle; reconstruction of the control flow projection; reconstruction of the projection of resources; reconstruction of data projection and decision making. The need for the first step is due to the fact that several types of workflows can be associated with a single type of document in a journal. The second step allows you to separate the event traces of processing a single document. The splitting is based on the life cycle stages of the document type. After selecting a set of traces, in the next step, the projection of the workflow control flow of the modified alpha-plus algorithm is reconstructed, which allows to obtain a BPMN-graph of the process as a result. In the next step, to ensure the reconstruction of the projection of resources, the tree of the organizational structure is used, in which the intermediate nodes are organizational units and positions, and the leaves are officials. Reconstruction is carried out on the basis of the proposed heuristic rules. The data projection reconstructed in the next step, describing the main attributes of the process instance, corresponds to the registration card of the document. The paper proposes a proce-

dure for identifying delegates for controlling the behavior of exclusive process gateways. For each exclusive gateway, obtained during the reconstruction of the flow control model according to the log, a pair of predicates is built on expressions of comparisons of the attributes of the registration card. The construction of these predicates was performed by an algorithm for the automatic construction of decision trees. The above methods for the reconstruction of the projections of process models were implemented as a component in the composition of BPMN - the editor of workflow processes.

REFERENCES

1. Van der Aalst W. M. P. Process Mining: Discovery, Conformance and Enhancement of Business Processes. Berlin: Springer-Verlag, 2011. 352 p.

2. Barsegyan A. A., Kupriyanov M. S., Kholod I.I., Tess M. D., Elizarov S. I. Analyz dannyh I processov [Data mining and process mining]. St. Petersburg: BKhV-Peterburg, 2009. 512 p. (In Russian)

3. Romanchenko E.V. Osnovnye tendentsii razvitiya SED v Rossii [The main trends in the development of EDS in Russia]. Sovremennye tekh-nologii deloproizvodstva i dokumentooborota [Modern technologies of records management and document management]. 2015. No. 8. URL: http://e.deloprost.ru/article.aspx?aid=419473 (date of access 05.10.2018). (In Russian)

4. Mokryy V. Yu. Sistemy elektronnogo dokumentooborota [EDM system]. St. Petersburg: Info-da, 2018. 48 p. (In Russian)

5. Mikheev A. G. Sistemy upravleniya biznes-protsessami i adminis-trativnymi reglamentami na primere svobodnoy programmy RunaW-FE [Business process management systems and administrative regulations on the example of the free RunaWFE program]. Moscow: Al't Linuks, 2011. 178 p. (In Russian)

6. Van der Aalst W. M.P., Weijters A. J.M.M., Maruster L. Workflow Mining: Discovering process models from event logs. IEEE Transactions on Knowledge & Data Engineering. 2004. Vol. 16. No. 5. Pp. 1128-1142.

7. Van der Aalst W. M.P., van Dongen B. F. Discovering Workow Performance Models from Timed Logs. EDCIS2002: Engineering and Deployment of Cooperative Information Systems. LNCS. Berlin: Springer, 2002. Vol. 2480. Pp. 45-63.

8. Van der Aalst W. M.P., Weijters A. J.M.M. Process mining: a research agenda. Computers in Industry. 2004. No. 53(3). Pp. 231-244.

9. De Medeiros A. K. A, van Dongen B. F., van der Aalst W. M.P., Weijters A. J.M.M. Process Mining: Extending the d-algorithm to Mine Short Loops. Eindhoven University of Technology, Eindhoven, 2004. URL: https://pure.tue.nl/ws/files/1864325/576199.pdf.

10. Paklin N.B., Oreshkov V. I. Biznes-analitika: ot dannykh k znani-yam [Business intelligence: from data to knowledge]. St. Petersburg: Piter, 2009. 624 p. (In Russian)

11. Marmanis Kh., Babenko D. Algoritmy intellektual'nogo interneta. Peredovye metodiki sbora, analiza i obrabotki dannykh [Algorithms of the intelligent web. Advanced methods of data collection, analysis and processing]. St. Petersburg: Simvol-Plyus, 2011. 480 p.

12. Certificate of registration of a computer program RF 2017663083.

Podsistema zashchishchennogo elektronnogo dokumentooborota "Tsera" [Subsystem protected electronic document "CERA"]. Vasil'ev N.V., Kompanets A. N., Sopin D. S.; applicant and owner of PJSC "In-teltekh" (EN).Dclared. 06.10.17. Publ. 24.11.17. Register of computer programs. 1 p. (In Russian)

13. Van Dongen B., de Medeiros A., Verbeek H., Weijters A., van der Aalst W. M. P. The prom framework: A new era in process mining tool support. ICATPN2005: Applications and Theory of Petri Nets. LNCS. Springer, 2005. Vol. 3536. Pp. 444-454.

14. Van Dongen B. F., van der Aalst W. M.P. EMiT: A Process Mining Tool. ICATPN2004: Applications and Theory of Petri Nets. LNCS. Springer, 2004. Vol. 3099. Pp. 454-463.

15. Leemans S.J.J., Fahland D., van der Aalst W. M.P. Discovering Block-Structured Process Models from Event Logs - A Constructive Approach. Petri Nets. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer, 2013. Vol. 7927. Pp. 311-329.

INFORMATION ABOUT AUTHORS:

Vasiliev N.V., PhD, Head division of department Joint-Stock Company "Inteltech";

Zabrodin O.V., Engineer of the Joint-Stock Company "Inteltech"; Kulikov D.V., Engineer of the Joint-Stock Company "Inteltech".

For citation: Vasiliev N.V., Zabrodin O.V., Kulikov D.V. Process Mining methods in the secure electronic document content record management systems. H&ES Research. 2018. Vol. 10. No. 6. Pp. 38-50. doi: 10.24411/2409-5419-2018-10186 (In Russian)

i Надоели баннеры? Вы всегда можете отключить рекламу.