УДК 004.415.2
М. Г. Иринархов, К. И. Квятковский
УСТРАНЕНИЕ НЕОПРЕДЕЛЕННОСТИ В ПРОЦЕССАХ ИНТЕГРАЦИИ НЕОДНОРОДНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ
M. G. Irinarkhov, K. I. Kvyatkovskiy
ELIMINATION OF UNCERTAINTY IN INTEGRATION PROCESSES OF HETEROGENEOUS INFORMATION SYSTEMS
Рассмотрены проблемы интеграции информационных систем при предоставлении государственных услуг в электронном виде. Выделены основные сущности и процессы, которые используются при работе информационных систем, а также при их интеграции. Описаны и проанализированы различные архитектуры интеграционных механизмов, которые могут быть использованы для решения проблемы.
Ключевые слова: государственные услуги, интеграция информационных систем, архитектура систем интеграции, консолидация, федерализация, распространение данных.
Problems of information systems integration are considered in the case of state services provision in an electronic form. The main essence and processes that are used in the work of information systems, as well as for their integration, are highlighted. Different architectures of integration mechanisms, which can be used to solve the problem, are described and analyzed in the paper.
Key words: state services, integration of information systems, architecture of integration systems, consolidation, federalization, data distribution.
Введение
Региональная информатизация набирает темпы в сфере организации предоставления государственных услуг в электронном виде. Этот процесс сопровождается созданием новых информационных ресурсов, координацией совместной работы существующих информационных систем (ИС). Появление в регионах «Электронного правительства», в рамках которого происходит комплексная автоматизация предоставления государственных услуг, потребует от органов государственной власти создания собственных новых уникальных информационных ресурсов, построенных на регламентах информационного взаимодействия.
Сдерживающим фактором в развитии региональной информатизации является высокая стоимость новых программно-технологических решений. Практика показывает, что ИС, существующие на местах, не выработали свой ресурс, перестройка сложившейся информационной инфраструктуры нарушит отлаженный механизм управления, исполнения бизнес-процессов, нарушит устоявшуюся координацию управляющих воздействий. В то же время отсутствует возможность объединения бизнес-процессов, построенных на интеграции неоднородных ИС, вследствие ограничений на совмещение различных технологических платформ, отсутствия интерфейсов межведомственного взаимодействия.
Целью исследований являлась разработка формального аппарата, позволяющего определить механизм информационной интеграции для синтеза неоднородных ИС в целях исполнения глобального бизнес-процесса над несколькими предметными областями.
Обязательным этапом процесса проектирования ИС является создание информационных моделей (ИМ) реальных объектов и процессов. Такие модели, построенные в результате анализа предметной области (ПрО), в качестве основных характеристик содержат атрибутивное представление информационных объектов (ИО).
Процесс информационного моделирования является по сути гомоморфизмом, отображающим на входе сущность реального объекта Obj и преобразование его на выходе в информационный объект (ОЬ/)Пр0 посредством представления в тезаурусе предметной области ПрО:
Obj —т—(Ob■) ®(ОЬ/)про [1-3]. Аналитик отделяет свойства объекта, структурирует представ-
тПрО (Obj ) р
ление о нем, наделяя ИО атрибутивными и пространственными характеристиками.
При переходе от процесса создания ИМ к созданию конкретной ИС возникает последующее преобразование формализованного объекта (Obj)прo в тезаурусе информационной системы
ИС: (ObjЬр° ФИС ((Obj)про) ®(Obj)иС .
Естественно предполагать, что оба преобразования, следующие друг за другом, искажают исходное представление объекта, и это допустимо, поскольку моделирование изначально допускает наличие некоторой условности моделей, не позволяющих полностью отождествлять их с реальными объектами. Обязательный процесс идентификации любой модели связан с оценкой ее адекватности путем тестирования ее свойств и выявления степени соответствия реальности, в отдельных случаях выраженной набором эмпирических данных.
Таким образом, мы имеем семейство ИМ, выраженных в тезаурусах различных предметных областей Пр01, Пр02, ... : {Obj,Пр01,(0bj)Пр01}, {Obj,Пр02,(0bj')ПрО2}, ... , созданных
в различное время и с различными целями.
Но если ИМ имеют какое-то сходство, их программная реализация может существенно различаться. На практике это выглядит следующим образом: различные организации одного профиля в целях автоматизации своих основных бизнес-процессов обращались к различным IT-компаниям или решали эту задачу собственными средствами, не полагаясь на существующие типовые решения вследствие их высокой стоимости или отсутствия необходимой функциональности. В качестве примера возможно привести разнообразные ИС «Электронная регистратура», созданные в течение последних 10 лет для каждого медицинского учреждения Астраханской области. Другим примером является программное решение «Операционный день», являющееся ядром любой банковской системы и выполняющее на первый взгляд одинаковые функции в рамках государственных требований к организации банковской деятельности, но имеющие отличные технологические решения для всех банков Астраханской области: собственные разработки инженеров банка с открытым кодом; разработки крупных IT-компаний, внедренные на местах; решения крупных банков, предоставляемые своим астраханским филиалам.
Вместе с тем процесс интеграции всегда связан с искажением сущности ИО. Это связано со стихийным характером информатизации, начавшейся от автоматизации бизнес-процессов на местах, что привело к множественности представления ИО (0bj)прo в различных тезаурусах. Объединение ИС, вследствие неоднородности тезаурусов, скорее описывает группу различных ИО, а не различные свойства одного ИО.
Причиной искажения образа ИО является также потеря информации или ее неправильное истолкование при передаче информации от ИС-источника к ИС-получателю.
Введем понятие автоматизированной предметной области (АПрО), определенной на совокупности тезаурусов ИС (существующих или разрабатываемых), использованных в автоматизации бизнес-процессов одной предметной области. Обозначив тезаурус i-й ИС как y(Obj), имеем представление АПрО в виде АПр0г- = {^^(Ob/), y'nc^Obj), ... yn^Obj)}, где n - количество ИС, которые определены на данной предметной области.
Соответственно, существует т АПрО, которые занимаются предоставлением государственных услуг. А = {АПр01, АПр02, ... АПр0т}, их объединение АПр01 U АПр02 U ... U АПр0т адекватно представлению тезауруса регионального информационного пространства.
Таким образом, можно сказать, что (Obj)А является моделью объекта, который был представлен так, чтобы его свойства совпадали со свойствами реального объекта Obj, но в тезаурусе АПрО (Obj)a с Obj , где Obj представляет множество свойств объекта: явных, неявных, детерминированных, неопределенных, структурируемых и др.:
(ObJ)A = { Obba, ObJb, ---] .
Процесс моделирования, устанавливающий соответствие между реальным и информационным объектом, по факту заключается в отделении необходимых свойств для представления ИО в заданной предметной области. Создание обобщенной модели ИО на основе моделей, реализованных в действующих ИС, и представляет суть информационной интеграции. И здесь возникает противоречие вследствие представления одного ИО в тезаурусе разнообразных ИС нескольких АПрО:
(0*/) а = оь/'ис1 и ОЪ/ИС и^и ОЪ/ИС и... и 0Ъ]ИСп и 0Ъ]ИСП и^и ОЪ/ИСт ,
2 К1 1 2 Кт
где К - количество ИС на /-й АПрО; т - количество АПрО; ИС] -/-я ИС i-й АПрО.
Исходя из вышесказанного, получаем, что автоматизированный объект представляет собой информацию о реальном объекте, выраженном через тезаурусы всех ИС, автоматизирующих процесс, в котором используется данный объект.
Рассмотрим процесс согласования данных при интеграции нескольких ИС. Проблемы информационной интеграции имеют структурный и семантический аспекты [4-6]. Будем предполагать, что структурный аспект, связанный с возможностью согласования модулей ИС, не используется из-за отсутствия кроссплатформенности приложений. Применим семантический аспект интеграции, позволяющий установить соответствие между информационным представлением сущностей ИС. Рассмотрим различные варианты реализации интеграции данных.
Консолидация. Введем понятие хранилища данных - ХД^, представляющего собой региональную базу данных, которая позволяет хранить объединенную информацию. Процесс заполнения ХД данными происходит следующим образом:
ИС/ -ОЪ/) ® (О/ — ((ОЪ/)// ) ® (ОЪ/)с ь((ОЪ/)с) ® ХДк ’
где 0(0Ъ/) представляет собой функцию, которая позволяет получить данные о реальном объекте ОЪ/, хранящиеся в ИС] ; (ОЪ/)с с (ОЪ/)а является частичной или полной информацией об объекте, который был преобразован в тот вид, в котором хранятся данные об (ОЪ/)а в ХДд; С1/ ((ОЪ/)//) е[с/} - набор различного рода интерфейсов или процедурных средств,
которые позволяют преобразовать данные в соответствии с интегрирующей моделью; Ь((ОЪ/ )с) - представляет собой процедуру загрузки данных в хранилище.
При этом следует отметить, что ХД к )(ОЪ/) ®
т. е. "ИС/-ВО(ОЪГ): ХД* -(0!/Л ® (ОЪ/)с .
Данное заключение является подтверждением однонаправленности информационного потока при консолидации данных.
Заметим что $АСКЗв(ОЪ/ ^ ХДК -(ОЪ.) ® (ОЪ/)с -((ОЪ/.- ) ® аск.
АСК в данном случае представляет аналитическую ИС, которая может извлекать информацию, хранящуюся в ХДк, для последующей обработки с целью анализа данных и сбора статистической информации. Данная система является необходимой надстройкой для информационного хранилища данных, позволяющей отделять для анализа целенаправленные выборки, агрегировать данные, использовать многомерный анализ данных.
Федерализация. Федерализация не предполагает перемещения данных из одной ИС в другую, поэтому нет необходимости вводить различного рода хранилища данных или новый вид ИС. Рассмотрим две реализации данной архитектуры: классическую и с использованием медиаторов.
Классическая реализация архитектуры федерализации. Рассмотрим множество интерфейсов, принадлежащих одной ИС-ИС* : {/^/2,..., /1п,/2,!|,--- 1г,---,/П,/т ,---,/т )е ИС*.
При этом —I $// :// е ИС*, другими словами, ИС содержит (т * п - 1) интерфейсов, где т -количество предметных областей; п - количество ИС, а // является связывающим интерфей*
сом, содержащим знания о структуре хранения данных в ИС . Та, в свою очередь, не содержит интерфейс для доступа к своим данным, но при этом «знает» о структуре данных остальных ИС и организации доступа к ним через набор интерфейсов.
Алгоритм запроса о предоставлении информации будет выглядеть следующим образом:
Шаг 1. ИС1 —InterfacA > ИС2 - интерфейс Interface1 формирует запрос из системы ИС1
в систему ИС2 с учетом ее особенностей. Запрос содержит структурированные сведения о запрашиваемом объекте, являясь аналогом модели объекта.
Шаг 2. ИС2 —Functii„ >(Obj)ИС2 - ИС2, посредством собственных функций, формирует
ответ на запрос, генерирует объект в собственном тезаурусе.
Шаг 3. (Obj^^ —Functim >(Obj)ИС1 - ИС2 преобразует полученный объект к виду,
удобному для ИС, которая запросила данные.
Шаг 4. ИС2———— > ИС1 - объект передается в первую ИС1 через Interface2.
Преобразование информации об объекте посредством тезаурусов ИС и их интерфейсов
выглядит следующим образом: Obj — (Пр01) >(Obj) a b (ИС1) >(Obj) a,b —(ИС2) >
—(ИС2) >(Obj)a,b,g 5 (Пр0—) >(Obj)a,b,g,б и напоминает сквозной бизнес-проЦесс, объединяющий либо по вертикали (от инфраструктуры до внешней среды), либо по горизонтали (между различными подсистемами) совокупность бизнес-процессов организации.
Федерализация с медиатором. Медиатор является посредником, который реализует единый пользовательский интерфейс. При этом создается общая модель данных для всех ИС. Для определения медиатора (M) воспользуемся ранее введенным понятием набора интерфейсов CI: CI, ((Obj )j.) e{CI} и обобщим набор интерфейсов до медиатора, т. к. он представляет собой
единый логический объект, реализующий общую модель данных.
Следует выделить две разновидности создания общей модели данных по отношению к ИС:
— Global as View - общая модель данных, формируемая в терминах, которые определены представлениями ИС. Этот метод хорошо работает, когда все ИС уже определены и известны, т. е. CIi(Obj,j) = V((Obj)i1) и V((Obj),2) U.• .иV((Obj),n), где V((Obj),k), ke 1...n является представлением объекта (Obj),k в ИС;
— Lical as View - позволяет определить представление для каждой ИС в терминах единой общей модели данных. Другими словами, "i,i = 1. га ^ V((Obj)ij) e CI, ((Obj)ij). У данного метода есть одно очень важное достоинство: добавление новой ИС возможно как на стадии разработки медиатора, так и в процессе работы всей интегрированной системы.
При запросе данных медиатор выполняет отображение данных из ИС в общую модель данных:
V ((Obj )11) и V ((Obj )12) и.и V ((Obj)1n) > CI1 г V((Obj)21)иV((Obj)22)и.иV((Obj)2n)>ci2
( . )—^(Obj)A
V ((Obj)m1) и V ((Obj )т 2) и.и V ((Obj)mn) > cim
При этом медиатор разбивает запрос на подзапросы к различным ИС, которые содержат информацию об объекте. После выполнения данных подзапросов информация объединяется и представляется уже в общем виде той ИС, которая инициировала запрос.
Распространение данных. Данная архитектура предусматривает копирование данных из одной ИС в другую, но, в отличие от консолидации данных, в процессе обмена информацией имеет место двунаправленный обмен данными между парой ИС. При этом выделяют два вида обновления данных в ИС: синхронное и асинхронное. При синхронной передаче данных необходимо обеспечить одновременный обмен данными между ИС в пределах одной транзакции.
В общем случае процесс обмена данными выглядит следующим образом:
ИС1—^--------> ИС2((0Ь/)ис2)
ИС1______________________________________> ( 1
^(иС2) ИС2 {0/])с^ >ИаО^Г
где lSync(ИС2) является функцией синхронизации текущей ИС1 с ИС2.
При использовании такого вида архитектуры получаем, что
$t,t e Т"(0Ь/)ис : (0Ь/)ис = (Obj)a , т. е. существуют такие моменты времени t, в которых информация об объекте эквивалентна полной информации об объекте в автоматизированной предметной области.
Существует несколько важных достоинств данного подхода:
1. Гарантируется полнота информации об объекте в определенный момент времени.
2. Обеспечивается максимально быстрый доступ к данным, что сокращает затраты ресурсов.
3. Обеспечивается независимость каждой ИС друг от друга при необходимости в кратчайшее время получить информацию об объектах.
Недостатком данной архитектуры, с точки зрения всего парка ИС данной АПрО, для которых производится интеграция, является присутствие избыточности данных в больших объемах, т. к. каждая ИС обладает полной информацией об объектах автоматизации.
Введем понятие региональной ИС - ИСД, объединяющей ИС различных предметных областей данного региона для выполнения нового бизнес-процесса, которые необходимо интегрировать между собой. Ее элементы - совокупность данных, которые получены из ИС и являются обобщенными знаниями об объекте на региональном уровне (Obj)R, а также набор интерфейсов CI, которые реализуют общую модель интеграции данных и предоставляют информацию по запросу любой из ИС, задействованной в интеграции: {(Obj)R, CI}e ф(ИСд)..
При этом необходимым условием является сбор информации из каждой ИС, обработка и агрегирование ее в региональной ИС:
(0Ь/)иС CI (( Ob— )ис ) > (Obj) R.
ИСд представляет собой реализацию механизма интеграции с использованием архитектуры распространения данных. Реализация данной архитектуры аналогична интеграции корпоративных приложений. Для взаимодействия ИСд с остальными ИС используется принцип «хаб-спица», использование которого обусловлено следующими факторами:
1. Доступность ИС. "t3(Obj)R, te T - в любой момент времени t гарантировано наличие достоверной региональной информации о данном объекте, что является одним из главных достоинств данного принципа. Невозможность обеспечить достаточный уровень доступности объекта в ИС не позволяет сделать подобный вывод для ее объектов (0Ь/)ис, который можно представить как Е^З(0Ь/)ис , t e T.
2. Взаимодействие ИС. Обеспечивается наличием в И^ набора интерфейсов {CI}, которые реализуют единую общую модель интеграции данных и позволяют использовать ИСц для запросов данных вида ИС—— —. ——>(Obj)R . Хранение данных в ИС без координации И^
ИСД ((Obj )ИС )
привело бы процесс формирования данных к использованию более сложных алгоритмов.
3. Расширяемость. Связана с появлением новой ИС, которую необходимо интегрировать
в существующую интегрирующую среду. При использовании И^ процесс добавления информации из новой ИС - ИС будет выглядеть следующим образом: (0Ь/)ис* —— —->(Obj)R ,
^ ^ 'ИС* '
*
где (Obj)ИС* ej^C ),(Obj)R ej^CR). Данный процесс представляет собой обновление
информации об объекте в ИС данными, которые содержатся в новой ИС.
Полученная система не является физической реализацией, а лишь представляет собой абстрактную сущность ИС на региональном уровне. Обладание общим набором интерфейсов для всех интегрируемых систем отвергает необходимость физической реализации ИС^ т. к. множество интерфейсов {CI} дает возможность обмена информацией внутри региональной системы без сторонних посредников.
Интеграция данных на основе сопоставления атрибутов. Атрибутивное описание ИО существенно упрощает организацию информационного взаимодействия ИС [7]. Анализируя атрибуты ИО в АПрО, выделим среди них подмножества идентификационных атрибутов, функциональных (процессных), специальных атрибутов: Аг(0Ь/)ис = {Id, Func, Spec}. Сравнение сходства множеств атрибутов ИО в двух ИС позволяет говорить о частичной либо полной интеграции. В частности полная интеграция достигается (0Ь/)ИС\ = (0Ь/)ИС2, когда множества идентификационных и функциональных атрибутов эквивалентны Id(Obj^i) = Id(Obj^i), а подмножества специальных атрибутов отличаются друг от друга.
Частичная интеграция ИС, обусловленная неоднородностью представления ИО в тезаурусах двух ИС, достигается в случае возможности идентификации ИО одного вида для различных ИС, когда подмножества идентификационных атрибутов частично совпадают: Id(ObjnC1)^Id(Obj^C2):0, а подмножества идентификационных и процессных атрибутов отличаются.
Для ИС различных предметных областей допускается частичная интеграция, когда подмножество функциональных и специальных атрибутов одной ИС совпадает с подмножеством идентификационных атрибутов второй ИС: Func(ObjTCi) и Fun^Obj^^cIdObj^^)
или Func(Ob^C2) и Func(0bjw^2)<z!d(0bjw:,1).
Сложность тезаурусов, функций и сервисов ИС, входящих в региональную систему, потребует создания системы управления знаниями. Ее строение должно быть основано на концептах предметной области в качестве структурных узлов, слотами концептов могут назначаться атрибуты разных ИС. Связь между узлами, в зависимости от запроса, должна осуществляться с помощью механизма вывода. В результате концептно-ориентированной интеграции появляется обобщенная модель метаданных предметной области, обеспечивающая поиск компонент в различных ИС.
Заключение
Решение проблемы интеграции ИС при предоставлении государственных услуг представляет собой сложную схему преобразования данных, которую нельзя отнести к какому-то одному виду архитектуры. Предлагаемые варианты решения объединяют основные достоинства нескольких способов интеграции, которые максимально подходят для данной предметной области и поставленной задачи.
СПИСОК ЛИТЕРАТУРЫ
1. Квятковская И. Ю. Разработка методов обеспечения совместимости и интеграции элементов транспортно-логистических систем в зоне технологического процесса грузоперевалки // Вестн. Астрахан. гос. техн. ун-та. Сер.: Управление, вычислительная техника и информатика. - 2009. - № 2. - С. 68-75.
2. Квятковский К. И., Шуршев В. Ф. Проектирование информационных систем для органов государственной власти // Вестн. Астрахан. гос. техн. ун-та. Сер.: Управление, вычислительная техника и информатика. - 2011. - № 1. - С. 172-176.
3. Квятковская И. Ю. Система управления региональным транспортным кластером / Датчики и системы. - 2009. - № 5. - С. 7-11.
4. Галкин Г. Мифы и парадигмы интеграции приложений [Электронный ресурс] // Журнал «Intelligent Enterprise». - 2004. - № 12-13 / http://www.iemag.ru/analitics/detail.php?lD=16050.
5. Добровольский А. Интеграция приложений: методы взаимодействия, топология, инструменты [Электронный ресурс] / http://www.osp.ru/os/2006/09/3776464.
6. Hihpe G., Wiilf B. Enterprise Integration Patterns: Designing, Building, and Deploying Messaging Solutions / Addison-Wesley, 2004.
7. Квятковский К. И., Петраев А. В. Создание интегрированных информационных ресурсов в задачах региональной информатизации // Инновации на основе информационных и коммуникационных технологий: Материалы Междунар. науч.-практ. конф. / под ред. С. У. Увайсова. - М.: МИЭМ, 2011. - С. 439-442.
Статья поступила в редакцию 11.12.2011
ИНФОРМАЦИЯ ОБ АВТОРАХ
Иринархов Максим Георгиевич - Астраханский государственный технический университет; магистрант кафедры «Автоматизированные системы обработки информации и управления»; [email protected].
Irinarkhov Maksim Georgievich - Astrakhan State Technical University; Undergraduate Student of the Department "Automated Information Processing and Control Systems"; [email protected].
Квятковский Кирилл Игоревич - Астраханский государственный технический университет; аспирант кафедры «Информационные системы»; [email protected].
Kvyatkovskiy Kirill Igorevich - Astrakhan State Technical University; Postgraduate Student of the Department "Information Systems"; [email protected].