Научная статья на тему 'Оценка эффективности интеграционных решений на основе хранилищ триплетов'

Оценка эффективности интеграционных решений на основе хранилищ триплетов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
423
133
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Галушка Илона Николаевна, Щербак Сергей Сергеевич

Проводится сравнительный анализ хранилищ триплетов, как основы для построения специализированной системы интеграции данных предприятия. Разрабатывается архитектура системы электронного документооборота на основе хранилищ триплетов и рассматриваются технические аспекты ее внедрения на территориально-распределенном предприятии. Предлагается критерий и методика оценки эффективности интеграционных решений на основе хранилищ триплетов, позволяющие продемонстрировать преимущества и эффективность.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Галушка Илона Николаевна, Щербак Сергей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Evaluation of efficiency of integration solutions based on triplets storages

The paper presents the architecture of information space of geographically distributed enterprise with built-in electronic document flow system based on triplets storages. The process is formalized and the technique for evaluating the effectiveness of integration solutions based on time-consuming criteria to enable tracking of change performance of these solutions based on the use of different types of transaction processing related data sources is proposed. The criterion for evaluating the effectiveness of integration solutions based on linked data based on time spent using indicators to ensure objective evaluation of the performance of these solutions.

Текст научной работы на тему «Оценка эффективности интеграционных решений на основе хранилищ триплетов»

УДК 004.03

И.Н. ГАЛУШКА, С.С. ЩЕРБАК

ОЦЕНКА ЭФФЕКТИВНОСТИ ИНТЕГРАЦИОННЫХ РЕШЕНИЙ НА ОСНОВЕ ХРАНИЛИЩ ТРИПЛЕТОВ

Проводится сравнительный анализ хранилищ триплетов, как основы для построения специализированной системы интеграции данных предприятия. Разрабатывается архитектура системы электронного документооборота на основе хранилищ триплетов и рассматриваются технические аспекты ее внедрения на территориально-распределенном предприятии. Предлагается критерий и методика оценки эффективности интеграционных решений на основе хранилищ триплетов, позволяющие продемонстрировать преимущества и эффективность.

Введение

На сегодняшний день решение проблемы интеграции данных на предприятии приобретает все большую актуальность. Это связано, прежде всего, с увеличением как объемов циркулируемых в информационных системах предприятия данных, так и с увеличением общего числа источников, которые представляют информацию для лиц, принимающих решения. Одним из наиболее эффективных подходов к интеграции корпоративных источников является применение методов и средств парадигмы связанных данных предприятия (Linked Enterprise Data, LED). В рамках этой парадигмы в качестве интеграционных компонентов выступает промежуточное программное обеспечение на основе хранилищ триплетов (Triple Store) или квадов (Quad Store), обеспечивающих унифицированный подход для организации межсистемного взаимодействия и эффективного доступа и обработки иерархически организованных данных.

Современные предприятия для автоматизации своих бизнес-процессов используют различные информационные системы, которые зачастую не интегрированы не только между собой, но и с системой электронного документооборота предприятия, что значительно снижает эффективность работы предприятия в целом, в связи с чем создание эффективных интеграционных решений является задачей актуальной и целесообразной.

Целью работы является повышение эффективности процесса интеграции новых источников корпоративных данных путем разработки архитектуры информационного пространства предприятия на основе хранилищ триплетов и критериев оценки эффективности интеграционных решений с помощью показателей временных затрат. Поэтому к задачам исследования относятся:

- сравнительный анализ хранилищ триплетов, как основы для построения систем электронного оборота и информационного пространства территориально-распределенного предприятия.

- формализация процесса оценки эффективности интеграционных решений на основе критериев временных затрат.

- разработка методики и исследование эффективности интеграционных решений на основе связанных данных.

1. Сравнительный анализ хранилищ триплетов

На сегодняшний день существует множество способов для хранения данных и средств их обработки, начиная с хранения данных в виде текстовых файлов, что быстро в реализации, но неудобно при дальнейшей их обработке, и заканчивая использованием баз данных со своими СУБД. Множество способов организации хранения данных зачастую приводит к тому, что данные, требуемые для управления бизнес-процессами, находятся в различных источниках с разнообразными средствами работы с ними [1].

В современных предприятиях роль промежуточного звена между источниками корпоративных данных и программой их обработки выполняют хранилища данных (ХД), аккумулируя срезы аналитических данных и предоставляя унифицированный интерфейс доступа к

18

ним. Рассмотрим реализацию хранилищ на основе парадигмы связанных данных. В рамках этой парадигмы минимальной единицей хранения информации является триплет, или в более продвинутых версиях соответствующего программного обеспечения четырехэлементная структура - квад.

Триплеты являются основой построения предложенной консорциумом W3C (World Wide Web Consortium) модели представления данных Resource Description Framework (RDF) [2], предназначенной для записи утверждений о ресурсах различной природы в виде, пригодном для машинной обработки. RDF является частью концепции Семантической Паутины (Semantic Web). Для обработки RDF-данных используются различные языки запросов. Языком запросов, рекомендуемым W3C, является SPARQL Protocol and RDF Query Language (SPARQL) [3].

Множество RDF-утверждений создают ориентированный граф, в котором вершины -это субъекты и объекты, а ребра помечены предикатами. Однако RDF-граф, взятый в отдельности, не раскрывает семантику описываемой предметной области. Для этой цели необходимы дополнительные средства. Одним их таких средств является RDF Schema (RDFS) - специальный словарь для RDF, предназначенный для определения таксономий классов, свойств [4].

Исходя из изложенного следует, что RDF и триплетная модель хранения связанных данных предоставляют гибкие и унифицированные средства для хранения распределенных иерархически-организованных данных.

Для хранения триплетов связанных данных применяются специализированные хранилища триплетов [5].

Проведем сравнительный анализ функциональных возможностей этих хранилищ.

Хранилища триплетов можно разделить на две основные группы (рис. 1):

1) реализованные как независимые решения (автономные);

2) являющиеся компонентом комплексной семантической системы хранения распределенных данных.

Примеры автономных решений: AllegroGraph, BigOWLIM и PelletDb.

Система AllegroGraph является наиболее развитым решением этого класса. Она широко используется такими средствами, как TopBraid Composer (редактор онтологий), RacerPro (механизм вывода на языке OWL DL) и другими. Приведем ее характеристику.

Архитектура AllegroGraph включает три уровня: памяти, серверный и клиентский. На уровне памяти находится RDF-хранилище AllegroGraph RDF Store. На серверном уровне находятся компоненты, обеспечивающие доступ различных платформ (Direct, HTTP, Sesame, SPARQL) к RDF-данным через общие серверные сервисы (Common Server Services). Клиентскую часть образуют средства создания интерфейсов (C#, Lisp, Java, Sesame, Jena, Clojure, Python, HTTP). Система AllegroGraph обладает хорошей информационной емкостью. Ее бесплатная версия способна хранить и обрабатывать до 50 миллионов триплетов [6].

Рис. 1. Классификация хранилищ триплетов

19

Примерами второй группы хранилищ являются системы Virtuoso, OpenAnzo и Semantics.Server. Наиболее мощный из масштабируемых представителей этой группы -система Virtuoso [7]. Данная система имеет бесплатную версию. Универсальный сервер Virtuoso состоит из модулей однородных хранилищ и модулей виртуальных баз данных. Модули однородных хранилищ обеспечивают хранение данных в XML-формате, в реляционном виде (SQL-формате), в RDF-формате и в полнотекстовом виде. Модели виртуальных баз данных выполняют роль СУБД и создают на основе данных, хранящихся в однородных хранилищах, полнофункциональные базы данных следующего назначения: XML-базы данных, хранилища триплетов в формате RDF, реляционные базы данных, вебсервисы и полнотекстовые базы. Сервер Virtuoso обеспечивает взаимодействие с компьютерными сетями (Internet/Intranet/Extranet) через большое количество платформ: ODBC, JDBC, OLEDB, NET, HTTP, SOAP, SPARQL и другие [8].

С помощью драйверов ODBC и JDBC универсальный сервер может взаимодействовать с достаточно большим количеством реляционных СУБД: Oracle, SQL Server, Progress, Sybase, CA-Ingress, Informix, DB2 и другими. Наконец, через серверные расширения сервер может взаимодействовать с приложениями, разработанными на платформах Mono, .NET, Java, C, C++ и прочих, в целях импорта/экспорта логики, содержащейся в их классах и функциях. Таким образом, Virtuoso с полным основанием может считаться комплексной системой хранения, так как, помимо RDF-данных, она обеспечивает хранение и интеграцию данных в других наиболее популярных форматах [9].

В этом плане Virtuoso как основа для интеграционного решения выглядит более предпочтительной, чем система AllegroGraph. Кроме того, Virtuoso обладает высокой производительностью при работе с RDF-данными. Это подтверждается тестовыми оценками производительности различных систем хранения при обработке системой SPARQL-запросов, которые периодически проводятся в Берлинском университете Фрая (Berlin Freie University) на наборах тестов Berlin SPARQL Benchmark. Данные тесты являются ориентиром для сравнения производительности различных систем хранения связанных данных, систем отображения реляционных баз данных в RDF и SPARQL-приложений, ориентированных на другие типы данных [10].

Virtuoso позволяет реализовать гибридный подход к организации хранения данных [11], сочетающий реляционные базы данных для отображения нормализованных данных о событиях, XML-документы, отображающие политики безопасности, шаблоны атак, инциденты и т.д., и хранилища триплетов, позволяющие работать с онтологиями [9].

Таким образом, проведенный анализ хранилищ триплетов показал, что Virtuoso, являющаяся комплексной системой хранения разнородных данных, на наш взгляд, является наилучшим выбором для поставленной цели, так как она позволяет обеспечить высокопроизводительную основу для разработки интеграционных решений для совместного использования реляционных баз данных, XML-баз данных и хранилищ триплетов.

2. Архитектура информационного пространства территориально-

распределенного предприятия на основе хранилищ триплетов

Современные предприятия характеризуются территориально-распределенной структурой, что выдвигает к информационным системам предприятия специфические требования по хранению, доступу и обработке корпоративных данных. Рассмотрим унифицированную инфраструктуру предприятия в виде набора унаследованных информационных систем (УИС). Коммуникационный интерфейс взаимодействия либо отсутствует, либо слабо развит и представляет собой точечное решение интеграционной задачи. В рамках такого подхода, в работах [12-13] рекомендуется создавать интеграционное информационное пространство предприятия (ИПП) на основе сервисной шины с разработкой интеграционных брокеров для подключения источников данных различного типа.

С учетом сказанного выше архитектуру информационного пространства предприятия построим на основе хранилищ триплетов.

Пусть XTj,...,XTn - хранилища триплетов, которые обеспечат унифицированное решение для реализации процессов системной интеграции, хранения документов и их индекса, ССИ КД - специализированная система интеграции корпоративных данных, выполняющая

20

функции единого разноформатного и структурного интеграционного брокера, ESB - сервисная шина предприятия, обеспечивающая общую систему сообщений на основе протокола SPARQL, управление доступом и маршрутизацию сообщений, СЭД - система электронного оборота, обеспечивающая обработку и ввод документов. Тогда архитектуру информационного пространства территориально-распределенного предприятия с встроенной системой электронного документооборота на основе хранилищ триплетов представим на рис. 2.

Рассмотрим более подробно специализированную систему интеграции корпоративных данных. Эта система представляет собой множество процедур преобразования данных источников в информационное пространство предприятия на основе шаблонов c адаптивным интерфейсом доступа. В качестве шаблонов используются разрабатываемые специалистом по автоматизации бизнес-процессов предприятия структурно-логические схемы добавляемых в ИПП источников в виде частично-определенных схем RDF с правилами интерпретации структурных компонентов источников.

Рис. 2. Архитектура ИПП со встроенной системой электронного документооборота на основе

хранилищ триплетов

Таким образом, с учетом внедрения в ИПП на основе хранилищ триплетов специализированной системы интеграции корпоративных данных архитектура ИПП может стать формальным базисом для разработки критериев эффективности интеграционных решений в территориально-распределенных предприятиях.

3. Оценка эффективности структурированности корпоративного документа

Для оценки производительности интеграционного решения рассмотрим задачу интеграции (рис. 3) источников данных (ИД) унаследованных информационных систем С в единое интеграционное пространство (ЕИП) предприятия на основе специализированной системы интеграции (СИ) корпоративных данных и показателей временных затрат на выполнение транзакций в УИС t и в СИ t‘. В качестве интегрируемых в ЕИП выступают базы данных некоторого типа, например, реляционные, что не уменьшает общности рассуждений и служит лишь для упрощения рассуждений об оценке производительности.

21

Пусть УИС предприятия осуществляет множество транзакций по обработке данных в ХД, в котором хранятся данные УИС. Тогда УИС представим как множество транзакций по доступу и обработке данных к ХД с помощью следующего выражения:

СХД =< таХД > , (1)

здесь TR = {L1,...,Lm}, где L1Lm - множества операторов языка манипулирования данными, связанных и последовательно выполняемых в рамках одной транзакции доступа к ХД.

Рис. 3. Формальное представление задачи интеграции корпоративных данных на основе специализированной системы интеграции

Производительность транзакций усхд будем рассматривать как сумму времен выполнения t операторов L транзакции TR и представим в виде следующего выражения:

m ^СХД tTR v tLj

1УСХД ^ * j . (2)

j=1

Далее УСХД рассмотрим как источник данных для информационного пространства предприятия, поэтому если это не будет приводить к противоречиям, будем рассматривать

УСХД и ИД как синонимические понятия.

Производительность интеграционного решения (ИР) выразим аналогично (2) как множество единиц времени выполнения аналогичных транзакций через ИР, представленное в виде СИ, на этом источнике данных и определим в виде следующего выражения:

tr

TR

m l±

ИДХД = ^ *j

j=1

ИД

(3)

Общую производительность УИС С выразим как сумму производительностей выполняемых УИС транзакций с помощью следующего выражения:

p С

it trC

(4)

i=1

Общую производительность ИР в виде СИ представим в виде следующего выражения:

22

£ ИР = jptTRHP i=1

(5)

Эффективность решения ИР £g рассмотрим как отношение производительности решений УИС и ИР и представим в виде следующей оценки:

£g =1

УС

ИР

(6)

1

Очевидно, что чем более 1g приближается к единице, тем эффективнее интеграционное решение.

С учетом сказанного выше, критерий оценки эффективности интеграционных решений на основе показателей временных затрат представлен с помощью формулы (6), что с учетом (1)-(5) формально представляет процесс оценки эффективности интеграционных решений на основе связанных данных.

Выводы

Предложена архитектура информационного пространства территориально-распределенного предприятия со встроенной системой электронного документооборота на основе хранилищ триплетов. Данная архитектура позволяет осуществлять межсистемные взаимодействия унаследованных информационных систем предприятия и ориентирована на хранение распределенных корпоративных данных.

Формализован процесс и предложена методика оценки эффективности интеграционных решений на основе критериев временных затрат для обеспечения возможности отслеживания изменения производительности этих решений в зависимости от использования различных типов транзакций по обработке связанных данных источников.

Предложен критерий оценки эффективности интеграционных решений на основе связанных данных, который базируется на использовании показателей временных затрат, для обеспечения объективной оценки производительности этих решений.

Список литературы: 1. ДеревянкоА.В. Концепция хранилищ данных в системе управления нанотехнологическими процессами // Системи обробки інформації. 2010. Вип. 2 (83). C. 78-83. 2. Resource Description Framework (RDF): Concepts and Abstract Syntax. W3C Recommendation 10 February 2004. http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/ 3. SPARQL Query Language for RDF. W3C Recommendation, 15 January 2008. http://www.w3.org/TR/rdf-sparql-query. 4. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Recommendation 10 February 2004. http://www.w3.org/TR/rdf-schema/. 5. Triplestore. Wikipedia. http://en.wikipedia.org/wiki/Triplestore. 6. AllegroGraph 4.9. http://www.franz.com/ agraph/allegrograph/. 7. Virtuoso Universal Server. http://virtuoso.openlinksw.com/. 8. Open Link Software, - http://www.openlinksw.com/Donald E. Knuth, Tracy L. Larrabee, and Paul M. Roberts. Mathematical Writing. Mathematical Association of America, 1989. http://www-csfaculty.stanford.edu/knuth/klr.html. 9. Котенко И. В., И. Б. Саенко, О. В. Полубелова. Перспективные системы хранения данных для мониторинга и управления безопасностью информации, Тр. СПИИРАН. 2013. N° 25. С. 113-134. 10. BSBM V3 Results (February 2011). http://wifo5-03 .informatik.unimannheim.de/bizer/berlinsparqlbenchmark/results/V6/ index.html. 11. Kotenko I., Polubelova O., Saenko I. The Ontological Approach for SIEM Data Repository Implementation // 2012 IEEE International Conference on Internet of Things. Besarnon, France, November 20-23, 2012. Los Alamitos, California. IEEE Computer Society. 2012. P.761-766. 12. Шапелл Д. ESB - Cервисная Шина Предприятия: Пер. с англ. СПб.:БХВ-Перегбург.2008. 368 с. 13. ЗавгороднийВ.В., Щербак С.С. Единое информационное пространство производственных предприятий на основе связанных данных / / Системи обробки інформації. 2013, вип. 2 (109). C. 275-278.

Поступила в редколлегию 25.08.2014

Галушка Илона Николаевна, ассистент кафедры информационно-управляющих систем Кременчугского национального университета им. Михаила Остроградского. Адрес: Украина, 39600, Кременчуг, ул. Первомайская, 20, Е-mail: [email protected], тел.: (05366) 3-01-57.

Щербак Сергей Сергеевич, канд. техн. наук, старший научный сотрудник, доцент кафедры информационно-управляющих систем Кременчугского национального университета им. Михаила Остроградского.Адрес: Украина, 39600, Кременчуг, ул. Первомайская, 20, тел.: (05366) 3-01-57.

23

i Надоели баннеры? Вы всегда можете отключить рекламу.