Научная статья на тему 'ЗАСТОСУВАННЯ ФАКТОЛОГіЧНОї РЕЛЯЦіЙНОї МОДЕЛі ДЛЯ іНТЕГРАЦії НЕОДНОРіДНИХ СТРУКТУР ДАНИХ'

ЗАСТОСУВАННЯ ФАКТОЛОГіЧНОї РЕЛЯЦіЙНОї МОДЕЛі ДЛЯ іНТЕГРАЦії НЕОДНОРіДНИХ СТРУКТУР ДАНИХ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
62
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗЫ ДАННЫХ / ИНТЕГРАЦИЯ ДАННЫХ / РЕЛЯЦИОННАЯ МОДЕЛЬ / ФАКТОЛОГИЧЕСКАЯ СТРУКТУРА ДАННЫХ / НЕОДНОРОДНЫЕ ДАННЫЕ / DATA BASES / DATA INTEGRATION / RELATIONAL DATA MODEL / FACTOLOGICAL DATA STRUCTURE / HETEROGENEOUS DATA

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Берко А. Ю.

Рассмотрены определенные возможности представления неоднородных и слабо структурированных данных. Предложена фактологическая структура данных для решения поставленной задачи

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Any possibilities of presentation of heterogeneous and semi structured data in relation form are considered. Factological relation structure of data has been proposed for solution of this problem

Текст научной работы на тему «ЗАСТОСУВАННЯ ФАКТОЛОГіЧНОї РЕЛЯЦіЙНОї МОДЕЛі ДЛЯ іНТЕГРАЦії НЕОДНОРіДНИХ СТРУКТУР ДАНИХ»

Описано деяк можливостi подання неод-норидних та слабко структурованих даних. Запропоновано фактологiчну реляцшну структуру даних для виршення поставленоiзадачi

Ключовi слова: бази даних, штегращя даних, реляцшна модель, фактологiчна

структура даних, неодноридт дат

□-□

Рассмотрены определенные возможности представления неоднородных и слабо структурированных данных. Предложена фактологическая структура данных для решения поставленной задачи

Ключевые слова: базы данных, интеграция данных, реляционная модель, фактологическая структура данных, неоднородные данные

□-□

Any possibilities of presentation of heterogeneous and semi structured data in relation form are considered. Factological relation structure of data has been proposed for solution of this problem

Key words: data bases, data integration, relational data model, factological data structure, heterogeneous data -□ □-

УДК 004.652

ЗАСТОСУВАННЯ ФАКТОЛОГ1ЧНОТ РЕЛЯЦ1ЙНО1 МОДЕЛ1 ДЛЯ ШТЕГРАЦП НЕОДНОР1ДНИХ СТРУКТУР ДАНИХ

А. Ю. Бе рко

Кандидат техычних наук, доцент Кафедра шформацтних систем та мереж Нацюнальний уыверситет '^bBiBCb^ пол^ехшка" вул. С. Бандери, 12, м. Львiв, УкраТна, 79013 Контактний тел.: 8 (032) 258-25-38 E-mail: BerkoAndriy@Ya.Ru

Вступ

Актуальшсть проблеми штеграцп ресурав шформацшних систем обумовлена, насамперед, такими факторами. По-перше - постшне штенсивне зростання обсяпв даних, як е об'ектом застосування шформа-цiйних технологiй у вирiшеннi задач рiзноманiтних сфер людсько! дiяльностi. По-друге - велика юльюсть i рiзноманiття способiв, форм i форматiв подання даних, а також методiв та засобiв ix опрацювання. По-трете - активний розвиток шформацшних ресурсiв сустль-ного використання, таких як сховища даних, корпо-ративнi системи, електронш бiблiотеки, iнформацiйнi web-системи, системи типу "cloud computing" тощо.

Загалом, об'ектом штеграцп можуть бути рiзнi ресурси шформацшних систем. Розрiзняють такi на-прями iнтеграцii як iнтеграцiя застосувань, штегращя платформ, iнтеграцiя процесiв та штегращя даних. У запропонованш робой розглянуто один iз пiдxодiв до штегрованого подання рiзнорiдниx даних, який Грун-туеться на застосуваннi принцитв реляцiйноi моделi, слабкоструктурованих даних та поняття факту, як одинищ зображення та сприйняття даних.

1. Проблеми та методи штеграцп даних

Основною метою штеграцп даних е формування глобального шформацшного ресурсу на основi мно-

жини локальних ресурив для стльного узгодженого застосування. Iнтеграцiя не е простим мехашчних об'еднанням даних отриманих з рiзних джерел. Проце-дури iнтеграцii передбачають вирiшення щло1 низки завдань вiдбору, перетворення, узгодження, об'еднан-ня, контролю якостi даних та багатьох шших [3].

Задачi спiльного опрацювання даних рiзноi приро-ди та формату сьогодш вирiшують у багатьох сферах застосування шформацшних технологш - корпора-тивних системах, системах комп'ютерного мошторин-гу, в електронному бiзнесi, у системах прийняття рь шень та бiзнес-аналiтики тощо.

Сьогоднi проблемам iнтеграцii даних прид^яеться особлива увага як з боку провщних виробникiв систем i засобiв управлiння базами даних (Microsoft, Oracle, IBM, SAS, SAP, Informática) так i в середовишд мiж-народних некорпоративних структур таких як W3C, OASIS, IntegrationConsortium та шших.

Найсуттевшими проблемами в галузi штеграцп даних е велика юльюсть рiзноманiтних пiдходiв i технологiй, якi часто е несумкними мiж собою та ввдсутшсть единоi теоретичноi моделi та методики штеграцп даних, незалежноi вщ '¿х змiсту, формату, засобiв реалiзацii та призначення. Загалом ситуацiя в сферi iнтеграцii даних е подiбною до ситуацii в галузi баз даних до запровадження реляцiйноi модель

Окремою проблемою е iнтеграцiя структурованих (баз даних) з, так званими, слабкоструктурованими чи натвструктурованими iнформацiйними ресурсами.

Якщо проблема створення единого середовища опра-цювання баз даних е, загалом, достатньо добре дослщ-женою i забезпеченою вiдповiдними методиками та технологiями [3], то спiльне застосування та опрацю-вання даних неоднорiдноi структури сьогодш продо-вжуе залишатися проблемним. Особливктю неодно-рiдних структур е рiзноманiтнiсть iх форми та змкту, способiв i засобiв подання та опрацювання, а також, дуже часто, неповнота, неточшсть i часткова невизна-ченiсть. Використання традицiйних технологiй баз да-них у таких застосуваннях не завжди е ефективним, а часто неприйнятним, а опрацювання структурованих баз даних за принципами слабкоструктурованих при-зводить до втрати значноi частки iх властивостей.

В цьому напрям^ на думку автора, найпродуктив-нiшим е пiдхiд, який поеднуе функщональш i техно-логiчнi можливосп та теоретичний апарат баз даних з в^ьним форматом та широтою спектру подання i застосування слабко-структурованих даних.

2. Сучасш пiдходи до реляцшно! моделi даних

Серед найсуттевших проблем реляцiйних баз даних, як на початку 1990-х роюв дали поштовх розвит-KOBi альтернативних пiдходiв до оргашзацп шформа-цiйних ресурсiв називають, зокрема, такк по-перше, звуження методiв i способiв опрацювання даних до поняття таблищ, яке не е, загалом, е^валентним до початкового поняття вщношення i не завжди адекватно вщображае логiку та семантику даних, по-друге, недостатньо коректне, з погляду змкту i застосування, подання невизначеностей за допомогою тризначно'' логiки та псевдоконстанти Null [1].

Незважаючи на активний розвиток таких нови-шх пiдходiв до органiзацii та опрацювання шфор-мацiйних ресурсiв як об'ектно-орiентованi бази даних, слабкоструктурованi i напiвструктурованi данi, web-ресурси, графiчнi та мультимедшш зображення тощо, реляцiйнi бази даних продовжують залишатися основним засобом збертння i опрацювання даних в шформацшних системах i технологiях рiзноманiтного спрямування. Основними чинниками незмiнноi попу-лярностi реляцiйноi моделi можна назвати такк

rрунтовнi теоретичнi положення та прогре-сивнi iнформацiйнi технологи роботи з реляцшними базами даних забезпечують високу ефективнiсть '¿х опрацювання;

на сьогодш не кнуе методiв i засобiв опрацювання нереляцiйних даних яю забезпечують однако-ву ефектившсть роботи з рiзними iнформацiйними ресурсами, сумiрну з ефективнiстю застосування баз даних;

функщональш можливост реляцiйноi моделi не е вичерпаними, зокрема, вони не обмежеш опрацю-ванням табличних структур '¿х може бути поширено на таю сфери як опрацювання слабкоструктурованих i неоднорщних даних, застосування об'ектно-орiенто-ваних та iнших новiтнiх технологш.

Принциповi положення, щодо додаткових можли-востей реляцiйноi моделi було викладено i обгрун-товано у Третьому машфест К. Дейта та Х. Дарвена [1]. Основною тезою цього документу е твердження, що реляцшна модель у класичному трактуванш (не у

версп SQL) мае достатньо функщональних можливо-стей для виршення проблем роботи з рiзнорiдними, зокрема, нереляцшними слабкоструктурованими да-ними, та застосування об'ектно-орiентованих принци-пiв у межах реляцiйноi структури. Модель даних, яку пропонують у третьому машфеси автори називають '1стино реляцiйною моделлю". Особливiстю реляцш-но'' моделi даних у поданш К. Дейта та Х. Дарвена е те, що ii може бути застосовано для стльного подання, збер^ання та опрацювання як реляцшних так i нере-ляцiйних даних.

Базовими положеннями реляцiйноi моделi, викла-деними в [1] е таю.

Значения i змгнт. Рiзницю мiж поняттями "значен-ня" i "змшна" автори вважають принциповою i фун-даментальноi у процесах зображення та застосування даних.

Скалярний тип даних. Поняття скалярного (або, точшше, шкапсульованого) типу подаеться як певне узагальнення домену, i передбачае зображення оди-ничних елементарних значень даних у такий споаб, який не потребуе втручання користувача у '¿х внутрш-ню структуру при сприйнятп та застосуванш даних. Зпдно з таким поданням, значенням скалярного типу можуть бути як число чи символьний рядок, так i бь нарний файл, текст, XML-документ, web-сторшка або будь яка одиниця, над якою визначено дп, що викону-ють без втручання у ii внутршню структуру. Атрибут визначають як поiменовану визначену множину значень одного скалярного типу.

Генерований тип кортеж. Таки тип [1] застосовую як зааб утворення основно'' одинищ даних реляцшно', призначенням яко'' е подання певних факпв. Розрiз-няють змшш типу кортеж та значення типу кортеж. Значенням типу кортеж е послщовшсть триплепв виду <A, T, v>, де

A - iм'я атрибута,

T - певний скалярний шкапсульований тип,

v - константа вщповщного типу.

Множина впорядкованих пар виду <A, T> утворюе схему (опис складу та структури) кортежу.

Генерований тип вгдношення. Автори [1] вводять поняття "змшно'' типу вщношення" та "значення типу ввдношення". Значенням цього типу е множина значень типу "кортеж", яю мають однакову схему. Схема кожного кортежу при збтеться зi схемою вщношення. Значення типу вщношення застосовують як характеристику стану певно'' множини однотипних факпв, визначених у певнш предметнш областi.

3. Фактологiчна реляцшна структура даних

Поняття факту в реляцшнш моделi не е новим. Вперше факт, як одиницю даних у вщношеннях ре-ляцiйноi бази даних, було визначено у [2]. Зпдно [2], поняття кортежу е занадто формалiзованим i недостатньо вщповщае суп та змкту даних. Це, як наслвдок, створюе низку проблем при робоп з таблицями (вщно-шеннями), зокрема, в операщях вибору та оновлення даних. Саме тому у [2] запропоновано замшити кортеж поняттям факту як лопчно завершеноi достовiрноi змiстовноi одиницi, яка мае власну штерпретащю у визначенш предметнiй областi. Кортеж (чи тдкортеж)

вгдношення вважають константою, яка е зображенням деякого факту [2].

Зггдно такого визначення один кортеж вгдношення може мгстити зображення множини фактiв, кожен з яких мае власну гнтерпретацгю. Така концепцгя цiлком узгоджуеться з положеннями "гстино реляцiйноï мо-делг" у поданнi К. Дейта та Х. Дарвена [1]. Наприклад, кортеж г вгдношення Студент з атрибутами № залгко-во'1, Пр1звище, 1мЯ, Група, Середнш_бал вигляду r=(-12345, Петренко, Сергш, КН-41, 4.72) е зображенням, зокрема, таких фактгв:

■ Петренко Сергш е студентом: /1=(Петренко, Сергш) g Студент,

■ студент Петренко навчаеться в груш КН-41:

/2=(Петренко, КН-41) g Студент,

■ студент Петренко мае середнгй бал 4.72: /^(Петренко, 4.72) g Студент,

■ студент Петренко мае залгкову книжку з номером 12345:

/=(1234, Петренко) g Студент тощо.

Порiвняння концепцгй оргашзацп даних, викла-дених у [1] та [2] дозволяе поеднати ïx у принципово новгй моделi зображення та опрацювання даних. В основу пгдходу, що пропонуеться автором, покладено поняття факту, як множини значень, що подае певнг достовiрнi вгдомостГ, релевантнг щодо деяко'1 предмет-нiй областi.

Множину атрибутiв, значення яких застосовують для зображення деякого факту / будемо називати його схемою i позначати як sch(/) = {An, Ä\2, -, A^}. Схема факту визначае його змгст та склад значень, з допо-могою яких цей факт задано. Реалiзацiею факту / е деякий кортеж

rf=<au, ai2, ..., aik>,

складений з припустимих значень атрибутiв, що входять до схеми цього факту.

На основi такого визначення факту пропонуеться визначити фактологгчне вiдношення (або вгдношення фактiв) як структурну та функцгональну одиницю даних. Попередньо визначимо поняття схеми факто-логiчного вiдношення. Схемою фактолопчного вгдно-шення RF будемо називати вираз вигляду

Sch(RF)=RF(Ai, Ä2,..., An),

де {Ai, A2, ..., An} - множина атрибутiв, якг застосовують для подання певно'1 категори фактiв. На вiдмiну вгд схеми вгдношення у класичнгй реляцшнш моделг, схема фактолопчного вгдношення е не формальним перелгком властивостей класу сутностей, а системою семантичних координат (вимгргв) деякого змгстового простору. Кожен атрибут, в свою чергу, задае позначен-ня вимгру - гм'я, та його метрику - множину значень. У такому просторг можна визначати логгчно завершен змгстовнг одиницг даних (факти) через значення вимг-ргв. При цьому кглькгсть значень, якг застосовують для опису факту може бути ргзною.

Фактологгчним вгдношенням RF зг схемою Sch(RF) будемо називати множину фактгв, схема яких входить до складу схеми вгдношення

RF ={f | sch(f) ç Sch(RF)}

У такий спосгб класичне поняття вгдношення ре-ляцшно'! бази даних значно розширюеться i виходить за межг простого табличного зображення даних. Ко-ристувач отримуе можливгсть за допомогою такого засобу в межах реляцшно'! моделг баз даних оперувати структурами довгльного вигляду, як показано, напри-клад, на рис. 1.

Рис. 1. Приклад фактолопчного вщношення з кортежами р1зноТ розм1рност1

Запропонована фактологгчна реляцгйна структура даних не заперечуе класичну реляцгйну модель, оскгльки стосуеться способгв подання та опрацювання даних на зовнгшньому ргвнг користувача. При цьому на концептуальному ргвнг бази даних зберггаються ре-ляцгйнг принципи роботи з даними, тобто утворюеть-ся комбгнацгя "реляцгйна база даних - фактологгчнг засоби зовнгшнього подання даних".

Джерелом значень для формування фактолопчного вгдношення, у даному випадку, е таблиц (вгдно-шення) бази даних. Об'ект, кортежг якого застосовують для утворення фактгв, будемо називати базовим в{дношенням. Загалом, базове вгдношення може бути як таблицею, так i результатом перетворень однге'! або бгльше таблиць бази даних. Загальну схему формування фактолопчного вгдношення показано на рис. 2.

Як видно з рисунку, зовнгшне фактологгчне вгд-ношення можна розглядати як результат виконання послгдовностг операцгй проекци та селекцп базового вгдношення.

Рис. 2. Загальна схема формування фактолопчного вщношення на основ1 реляцмноТ бази даних

Джерелом даних фактолопчного вгдношення може бути не лише таблиця (вгдношення) реляцшно'! бази даних. В загальному випадку, факт як змгстовно завер-шену одиницю можна утворювати на основг значень,

поданих у шших форматах - тексту, XML-докуменпв, web-ресурмв тощо. При цьому слщ дотримуватися тих самих принцишв, що i у випадку баз даних - ко-жен факт задаеться послiдовнiстю значень, якi можна однозначно штерпретувати у визначенiй предметнш областi.

На вiдмiнy вiд процедури формування факив на основi кортежiв базового вiдношення, утворення фак-пв з даних слабкоструктурованих форматiв е значно складшшим. Ланцюжок значень, яю зображають факт може бути сформовано способом, який враховуе семантику поеднання цих значень у щлшне поняття. Таку процедуру, яка видшяе з джерела даних множину взаемопов'язаних значень та поеднуе 1х у факти будемо називати видобуванням факпв (fact mining). Методи i засоби виршення ще1 проблеми е окремим предметом дослщжень i виходять за межi дано1 роботи.

Порядок та методи видобування факив значною мiрою залежать вщ виду та формату джерела даних. Загалом цей процес можна розглядати як частковий випадок таких методик як text mining, web mining, content mining тощо, яю сьогодш е достатньо вщомими i активно розвиваються. Загальну схему утворення фак-толопчного вiдношення на основi джерел довiльних слабко структурованих формаив показано на рис. 3.

У такий cnoci6 створюеться можливiсть оперува-ти слабкоструктурованими неоднорiдними даними, збертаючи ix у як у структурованш реляцiйнiй формi так i у слабкоструктурованих форматах та даними з високим ступенем невизначеность Окрiм того, факто-логiчна реляцiйна структура може бути легко перетворена до шших формапв (наприклад XML, текстового тощо), виконуючи при цьому функцп промiжноi ланки мiж реляцiйними та слабкоструктурованими даними.

Рис. 3. Загальна схема формування фактолопчного вщношення на основi даних довiльного формату

Рис. 4. Схема виконання операцп об'еднання фактологiчних вiдношень

Висновок

Застосування фактолопчних вiдношень як засобу зовнiшнього зображення рiзнорiдних даних, почат-ково поданих i збережених у реляцiйних структурах, дозволяе отримати таю переваги:

- перейти вщ структурного принципу подання та опрацювання даних до семантичного;

- застосовувати для зображення одиниць даних кортежi рiзноi розмiрностi;

- вщмовитись вiд застосування тризначноi логжи та псевдо-константи Null ;

- поеднати у единому середовишд структуроваш та напiсвтрyктyрованi форми подання даних.

Шдхщ, запропонований автором, може бути за-стосовано у розв'язаннi, зокрема, таких проблем як штегращя шформацшних ресyрсiв, iнтелектyальних аналiз даних, опрацювання неповних i неточних даних, перетворення формаив, створення гетерогенних структур даних тощо.

Можливоси формування фактологiчного вщно-шення на основi структурованих та слабко структурованих джерел дозволяють використати 1х як засiб iнтеграцii рiзнорiдних даних на зовшшньому рiвнi. Результатом такого процесу е деяке фактологiчне вщ-ношення

Rf=Rfs UNЮNf Rfss,

де Rfs - фактологiчне вiдношення утворене на основi базового вiдношення реляцiйноi бази даних,

Rfss - фактологiчне вщношення утворене на основi слабко структурованих джерел даних,

UNЮNf - оператор об'еднання фактолопчних вщ-ношень, який об'еднуе схеми та шформацшне на-повнення двох фактологiчних вщношень. При цьому схема результуючого вiдношення утворюеться об еднанням схем вщношень операндiв, а наповнення - об'еднанням наповнення цих вщношень як показано на рис. 4.

Лиература

1. Date C.J. Foundation for Future Database Systems: The Third Manifesto, 2nd edn./ Date C.J., Darwen H.- Harlow: Addison Wesley Longman, 2000.

2. Desai B.C. Fact structures and its application to updates in Relational Databases./ Desai B.C., Goyal P., Sadri F. // Information Systems Vol. 12, No 2, 1987.- p. 215-221.

3. Калиниченко Л.А. Методы и средства интеграции неоднородных баз данных. / Леонид Калиниченко. - М.-Наука, 1983.- 424 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.