Научная статья на тему 'ПОБУДОВА МУЛЬТИБАЗОВИХ СХОВИЩ ДАНИХ НА ОСНОВі СТРУКТУРОВАНОСТі ДАНИХ ТА ЗАПИТіВ'

ПОБУДОВА МУЛЬТИБАЗОВИХ СХОВИЩ ДАНИХ НА ОСНОВі СТРУКТУРОВАНОСТі ДАНИХ ТА ЗАПИТіВ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
163
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МУЛЬТИБАЗОВЫЕ ХРАНИЛИЩА ДАННЫХ / СТРУКТУРИРОВАННОСТЬ ДАННЫХ / МОДИФИЦИРОВАННЫЙ ГЕНЕТИЧЕСКИЙ АЛГОРИТМЫ С АДАПТАЦИЕЙ / MULTIBASE DATA STORAGES / BUILDING / DATA STRUCTUREDNESS / QUERIES / GENETIC ALGORITHMS / GENE-BASED ADAPTATION OF SEARCH

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Яцишин А. Ю.

В данной работе рассмотрен процесс построения мультибазових хранилищ данных на основе свойств данных, для которых оно строится, и запросов, которые выполняются с этими данными. Проанализированы показатели быстродействия построенного хранилища, в том числе на различных этапах построения. Исследовано влияние параметров двухфазного алгоритма, в частности порога адаптации процесса поиска на основе генов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Development of multibase data storages on the basis of data and queries structuredness

The study focuses on building multibase data storages that consider a correlation between the data properties and performed queries. This type of data storaging has been neither viewed as an approach nor researched before. Lack of attention especially conacerns presentation of data by various models for optimizing query response. We suggest a method of designing multibase data storages on the basis of data structuredness, which allows posting the reference data in storage media the data models of which facilitate performing queries on them. The efficiency of the designed data storage is optimized on the basis of the statistics on queries processing and consists in storing data as well as saving the data in storage media with the help of indexing, materialized submission, fragmentation, and merger. We have studied both the impact of design phases and optimization on storage performance and the parameters of the modified genetic algorithm, including the threshold of gene adaptation.The research has proved that application of the suggested approach increases the integral index of query processing by 10 %. The storage building time can be reduced to 50 %, which significantly impacts data storage building of a huge amount of data. An impor-t tant advantage of the approach is flexibility: any storage media and optimization mechanisms can be used while applying the suggested models.

Текст научной работы на тему «ПОБУДОВА МУЛЬТИБАЗОВИХ СХОВИЩ ДАНИХ НА ОСНОВі СТРУКТУРОВАНОСТі ДАНИХ ТА ЗАПИТіВ»

8. Hernandez, E. Adaptive Sampling for Network Management [Text] / E. Hernandez, M. Chidester, A. George // Journal of Network and Systems Management. - 2001. - Vol. 9, Issue 4. - P. 409-434.

9. Andrey, L. Survey of SNMP performance analysis studies [Text] / L. Andrey, O. Festor, A. Lahmadi, A. Pras, J. Schönwälder // International journal of network management. - 2009. - Vol. 19, Issue 6. - P. 527-548. doi: 10.1002/nem.729

10. Pras, A. Comparing the Performance of SNMP and Web Services-Based Management [Text] / A. Pras, T. Drevers, R. van de Meent, D. Quartel // IEEE: Transactions on network and service management. - 2004. - Vol. 1, Issue 2. - P. 72-82. doi: 10.1109/ tnsm.2004.4798292

11. Айвазян, С. А. Прикладная статистика и основы эконометрики [Текст] / С. А. Айвазян, В. С. Мхитарян. - Юнити. -1998. - 1005 с.

12. Стрижов, В. В. Методы выбора регрессионных моделей [Текст] / В. В. Стрижов, Е. А. Крымова. - Вычислительный центр РАН, 2010. - 60 с.

13. Карабутов, Н. Н. Выбор структуры модели при обработке результатов измерений в системах управления [Текст] / Н. Н. Карабутов // Измерительная техника. - 2008. - № 9. - С. 29-33.

14. Саенко, В. И. Информационные модели наблюдаемых процессов для мониторинга компьютерных сетей [Текст] / В. И. Са-енко, А. И. Гриценко // Вестник национального технического университета «ХПИ». Серия: «Новые решения в современных технологиях». - 2014. - № 48. - С. 55-66.

15. Lavy, M. Windows Management Instrumentation (WMI) [Text] / M. Lavy, A. Meggitt. - New Riders Publishing, 2001. - 432 p.

16. DMTF Std. DSP0004, Specification Version 2.6.0. Common Information Model (CIM) Infrastructure [Text] / March 2010. - 186 p.

-□ □-

У данш роботi розглянуто процес побудови мульти-базових сховищ даних на основi властивостей даних, для яких воно будуеться, i запитiв, як виконуються до цих даних. Проаналiзовано показники швидкоди побу-дованого сховища, зокрема на рiзних етапах побудови. Дослиджено вплив параметрiв двофазного алгоритму, зокрема порогу адаптаци процесу пошуку на основi гетв Ключовi слова: мультибазовi сховища даних, струк-туроватсть даних, модифжований генетичний алгоритм з адаптащею

□-□

В данной работе рассмотрен процесс построения мультибазових хранилищ данных на основе свойств данных, для которых оно строится, и запросов, которые выполняются с этими данными. Проанализированы показатели быстродействия построенного хранилища, в том числе на различных этапах построения. Исследовано влияние параметров двухфазного алгоритма, в частности порога адаптации процесса поиска на основе генов

Ключевые слова: мультибазовые хранилища данных, структурированность данных, модифицированный генетический алгоритмы с адаптацией -□ □-

УДК 004.652

|doi: 10.15587/1729-4061.2015.36646|

ПОБУДОВА МУЛЬТИБАЗОВИХ СХОВИЩ ДАНИХ НА ОСНОВ1 СТРУКТУРОВАНОСТ1 ДАНИХ ТА ЗАПИТ1В

А. Ю. Яцишин

Провщний прикладний програмют ДП «Головфштех» вул. Дегтярiвська, 38-44, м. Кшв, УкраТна, 04119 E-mail: andrew.yatsyshyn@hotmail.com

1. Вступ

На сьогодш шнують рiзнi роботи та лиературш джерела, що описують сховища даних, 1х проекту-вання та штегращю даних. Зокрема, запропоноваш шдходи е у авторiв У. 1нмона [1], Р. Юмболла [2] та Д. Хекш [3]. Для сховищ даних формалiзовано низку моделей що визначають сховище даних i дозволяе описувати процес 1х побудови. Щ моделi будуються на основi схеми «сутшсть-зв'язок» або похщно! вщ не1 схеми <^рка». Також представлена низка роби, що описують рiзнi методики оптимiза-

цп баз даних - побудову шдекив, вибiр матерiалi-зованих представлень, горизонтальну та вертикальна фрагментащю.

Автором у робоН [4] було введено мультибазовi сховища даних, як включать не Нльки реляцшну i багатовимiрну базу даних, а також бази даних з вщсутшстю жорстко'! схеми - XML та NoSQL, i файлове сховище.

Таю сховища даних проектуються для оптимального збертння даних рiзного рiвня структу-рованосН, спрямованого на шдвищення швидкоди виконання запиНв.

©

2. Аналiз шнуючих дослiджень та постановка проблеми

Iснуючi архiтектури сховищ даних будуються на пiдходах, якi передбачають наявнiсть деякого носiя сховища - корпоративна шформацшна фабрика 1н-мона з використанням реляцшних БД як но«я, шина даних Кiмболла з використанням багатовимiрних БД як ноая, i гiбридне сховище Хекнi з використанням як реляцшно1, так i багатовимiрноi БД в якостi но«я даних. Також широко використовуються сховища даних з застосуванням паралельних обчислень, таю як Hadoop [5], яю базуються на вiдсутностi жорст^ схе-ми. Однак рiшення, що пропонуються в цих роботах, пропонують збереження даних на основi деякоi моделi (реляцiйна - для реляцшних БД, вимiрна - для бага-товимiрних БД, ieрархiчна - для БД XML). Шдходи, представленi в цих роботах не передбачають вибору модели у якш краще представити даш для оптимiзацii виконання запипв до неi.

На сьогоднi проектування (визначення схем) сховищ даних здшснюеться здебшьшого вручну, вихо-дячи з предметноi областi, а штегращя даних здшс-нюеться за допомогою автоматизованих засобiв. Крiм того, окремо можна видшити консолiдацiю даних, описану у виглядi просторiв даних у [6], яка також створюе ушфжоване джерело даних, але оптимiзацiя збереження не розглядаеться.

Для оптимiзацii сховищ даних використовуються матерiалiзованi подання [7, 8] та фрагментащя [9, 10]. Оптимiзацiя, як правило, здiйснюеться евристичними алгоритмами. Однак у роботах, що пропонують таю рь шення, розглядаеться лише задача мiнiмiзацii вартостi обслуговування подань i не розглядаеться швидкодiя запитiв.

Крiм того, були описаш рiшення з проектування сховища даних за допомогою механiзмiв iнтеграцii даних [11, 12]. Однак у цих роботах не розглядаеться пи-тання визначення структур даних i проектування схо-вища на основi шформацп про структуровашсть даних.

Грунтуючись на вищесказаному, можна стверджу-вати, що на сьогодш немае робiт, якi одночасно опису-ють i проектування сховища, i оптимiзацiю виконання запипв з врахуванням як структури даних, так i визначень запитiв. Тому це питання е невиршеним i актуальним.

3. Мета та завдання дослщження

Метою роботи е пiдвищення швидкодп виконання запитiв мультибазових сховищ даних та зменшення витрат часу на ïx побудову за рахунок розмщення даних за '¿х структуровашстю i вибору вiдповiдноï моделi для представлення даних на етат проектування сховища, а також використання модифжованого генетич-ного алгоритму з використанням адаптацп за генами.

Для досягнення поставленоï мети вирiшуються таю завдання:

- Розробка мехашзму вибору моделi за структуро-ванiстю.

- Розробка мехашзму адаптацп процесу пошуку за генами.

- Дослщження впливу фаз проектування i оптимь зацп на швидкодж сховища.

- Дослiдження впливу параметрiв генетичного алгоритму на його ефектившсть та збiжнiсть.

4. Матерiали та методи дослiдження процесу побудови мультибазових сховищ даних

4. 1. Схеми даних та запити, на яких проводилося дослщження

Для експерименпв використовувалися даш та запити, що використовуються у впроваджених ршен-нях, зокрема «Системi управлшня державними фшан-сами» (СУДФ) та 1АС «Прозорий бюджет», тобто щ результати експериментiв вiдображають вплив роз-роблених наукових результатiв на роботу реальних систем.

Також використовуеться схема Adventure Works, яка е прикладом схеми корпоративних бiзнес-засто-сувань i мштить даш, представлен як реляцшною, так i багатовимiрною моделями та мае рiзну структу-рованiстю.

Сховище, на якому проводилися експерименти мь стить наступш носiï: реляцiйна БД - Microsoft SQL Server 2014 Database Services, багатовимiрна БД -Microsoft SQL Server 2014 Analysis Services, база даних XML - XBase, база даних NosQl - MongoDB.

Для проведення дослщжень використовуються на-бiр генерованих простих запипв.

Простим запитом q з визначенням

defq =< Wa,T,S,Oa,Ga > ,

називаеться запит наступного вигляду:

(1)

q = 0О пш о, ^ х ^ х и х х t„ , (2)

н О шч Оч Б, 1 ^ 2 3 4 п ' V /

де Шч - множина значень, що повертаються запитом д, якi описуються атрибутами вщповщних стовпчикiв або функцiй на цих атрибутах ,(Ь);Тч - множина та-блиць, до яких виконуеться запит Ц. Заголовки цих таблиць, повинш включати всi атрибути, що повертаються запитом; - множина умов вибору даних для запиту д, визначених на стовпчиках таблиць Тч,

Оч - множина ознак сортування для запиту q, Сч -множина ознак групування для запиту q.

Для оцшки ефективностi виконання запитiв до вихщних баз даних виконано серт запитiв до них. Всього було виконано 3200 запипв, якi належать до 166 клаав запитiв.

4. 2. Методика визначення показниюв процесу побудови сховищ даних

До побудови сховища швидкодiя сховища ощ-нюеться за наступним спiввiдношенням:

1

n.qi

-Е -

Ql=Tts(S)

(3)

де fjs - доля вах запитiв вибору даних класу K по вщ-ношенню до всix запитiв вибору у сховишд за звiтний перюд; f" - доля всix запипв оновлення даних класу Kj по вщношенню до всix запитiв оновлення за звгг-ний перiод; n - розмiр даних для еталонних запипв, визначаеться як кiлькiсть даних, отриманих у резуль-

таи виконання запипв, або, якщо запит не повертае даних, сумарну загальну площу таблиць, що беруть участь у запитг, ^ - час виконання еталонного запиту вибiрки даних;^ - час виконання еталонного запиту оновлення даних.

Для визначення показниюв процесу побудови схо-вищ даних потрiбно виконати його двi фази :

1. Проектування сховища даних, що складаеться iз завдання джерел даних, концептуального, лопчного та фiзичного проектування сховища даних.

1. 1. Концептуальне проектування (формування концептуально! модел^, при якому зпдно метада-них джерел вщбуваеться визначення структури цих джерел, представлення !х у виглядi таблиць (еле-ментiв структуровано! частини), аналiз структуро-ваностi цих таблиць i видiлення файлiв (елементiв неструктуровано! частини), а також при необхщ-ностi можливе визначення додаткових таблиць та файлiв.

1. 2. Лопчне проектування (формування логiчноi моделi), яке полягае у визначенш обмежень щлкност сховища, областей та подань.

На цьому етапi знаходяться елементи сховища :

Ес» = С(Е5гс,М5гс,МСж), LDw = C(LSrc,MSrc,MDw). (4)

Вид^яються областi сховища - множини таблищ, кожна з яких складае зв'язний граф: ( г1Лг2 позначае зв'язшсть вiдношень г1 та Г2 )

А = {а, | а, = {г2}, ^ е а,^ £ а,(г]Лгк),},1 = й;

Vtj,tk еа,3{^}са,(г]ЛГ|1,Г|1 ЛГ|2,...,Г|2Лг^ЛГк). (5)

Для кожно! областi обчислюеться структуро-ванiсть '!'! даних на основi структурованостей вщно-шень. Структуровашсть для вiдношення г визначаеть-ся за формулою:

STr =

т х п П (п - и(а,,г))

т х п

SL(D) = Ds | StSup(St) < St(D).

Для випадку мультибазових сховищ даних з реля-цшною, багатовимiрною БД, БД XML та NoSQL зна-чення тдтримуваност даних StSup наступнi:

StSup(MRe|) < 1, StSup(MMD) < 2, StSup(MxмL) < 3, StSup(MNosQL) < 3.

1. 3. Фiзичне проектування (формування фiзичноi моделi), яке полягае у розмщенш даних таблиць та областей у ноиях сховища ввдповвдно до !х структу-рованостi

На цьому етат знаходяться елементи носив схо-вища :

Еш = C(EDw,MDw,MDS), LDS = C(LDw,MDw,MDs).

(9)

2. Оптимiзацiя сховища, яка полягае в побудовi класiв запитiв, визначення стану сховища, пошук оптимального стану сховища та змша стану сховища.

Знаходиться такий стан сховища S, що наступна функщя приймае максимальне значення

I п,

- т^Д)-

trcs)

г(So,S) < L

(10)

(6)

де тхп- розмiр таблицi, и(а,,г) - невизначенiсть атрибута а1 у вщношенш г (визначаеться як юльюсть кортежiв, на яких цей атрибут приймае невизначене значення).

Структуровашсть зв'язано! обласп STa визна-чаеться за формулою:

Пiсля визначення структурованоси ми можемо визначити розташування даних по ноаях сховища.

При розподШ даних використовуеться принцип достатньо! тдтримки структурованостi. Вiн означае, що для даних О , структуровашсть яких St(D) , виби-раеться джерело Ds , яке мае тдтримку даних з такою структурованiстю.

(7)

при умовi г(S,S0) < L , де S0 - стан сховища перед оп-тимiзацiею.

де т^Д) - умова застосування компоненту штрафу по оновленню; fis - доля в«х запитiв вибору даних класу К, по вщношенню до вах запитiв вибору у сховищi за звггний перiод; fiu - доля в«х запитiв оновлення даних класу К, по вщношенню до вах запитiв оновлення за звиний перiод; п, - розмiр даних для еталонних запипв (визначаеться як юльюсть даних, отриманих у результат виконання запитiв, або, якщо запит не повертае даних, сумарну загальну площу та-блиць, що беруть участь у запип); ^ - час виконання еталонного запиту вибiрки даних; ^ - час виконання еталонного запиту оновлення даних; L - сумарний лiмiт часу на оптимiзацiю.

Для розв'язання дано! задачi використовуеться ге-нетичний алгоритм з наступними параметрами:

- мутащя е одноточковою. Iмовiрнiсть (частота) мутацп е змiнною i залежить вщ довжини хромосоми наступним чином:

якщо N>32, то т=0.8, якщо N<=32, то т=0.15.

- схрещування е одноточковим. Iмовiрнiсть (частота) схрещування е змшною i залежить вщ довжини хромосоми наступним чином:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

якщо N>32, то с=0.8, якщо N<32, то с=0.4.

- селекщя вщбуваеться за методом колеса рулетки.

- порк звiрки (адаптащя процесу пошуку за генами) е змшним i залежить вщ довжини наступним чином:

якщо N<32, то а = [N/4], якщо N > 32 , то а = = И/4].

При застосуванш генетичного алгоритму використовуеться також адаптащя за генами, яка полягае в тому, що для кожного наступного поколшня знаходи-

мо пари хромосом з найб^ьшою юльюстю сшльних i найменшою кiлькiстю змшених генiв та ствстав-ляемо т гени, якi змiнилися вiд 1х батькiв i якщо маемо значення щльово! функцii гiрше, то ощнка цих особин здiйснюеться на основi особин з протилежним геном з певним штрафом. Це вщбуваеться наступним чином.

Нехай на деякому крощ генетичного алгоритму маемо множину ощнених особин, що представляють собою рiзнi стани сховища

1 = {i1,i2,...,ik}, i =< S,e >.

(11)

У результатi кросинговеру або мутацп отримуемо iншi особини та обчислюемо iх придатнiсть.

1' = ^^...Л'^ i' =< S',e' >.

(12)

Поим попарно порiвнюемо особини i та i', визна-чаемо генетичну вщстань d мiж цими особинами як юльюсть генiв, що змшилися мiж ними:

S =< х1,х2,...,хп >, S' =< х'1,х'2,...,х'п >,

d(У') = d(S,S') = £| х', - х,|.

(13)

Якщо знайдена генетична вщстань =1, то ощнюемо придатнiсть особини, що складаеться з гешв початкового стану сховища, а ген, по якому е генетична вщстань (13), встановлюемо у те значення, на якому придатшсть бшьша. Таку особину назвемо «початковою з модифiкацiею ,».

Порiвнюемо рiзницю мiж початковою особи-ною i «початковою з модифжащею ,» j, а та-кож особину без гена , та ощнювану особину ,2, якщо рiзницi мають однаковий знак, то штраф для ощнки «гiршоi» особину встановлюемо як максимум по модулю цих рiзниць.

Якщо знайдене 1 ^<а, де а - параметр, який назвемо порогом звгрки, то для кожного гена, що вiдрiз-няеться, змшюемо значення на протилежне, отримуемо новi значення цiльовоi функцп i фiксуемо параме-три у значеннi «кращоi» цiльовоi функцii.

4. 3. Результати дослщжень впливу фаз проекту-вання та оптимiзащ¡ на швидкодiю сховища

Для ощнки ефективност виконання запитiв до вихщних баз даних виконано серж запипв до них. Всього було виконано 32°° запипв, якi належать до 166 клаив запитiв.

Виконаемо щ ж запити у сховишд. Тодi отримаемо наступнi показники:

Розрахована за цими формулами мжмальна швид-кодiя виконання запитiв складае 421.874 1/мс, се-редня - 517.0587 1/мс, максимальна - 608.1161 1/мс.

Запустимо алгоритм оптимiзацii МСД на побудо-ваному сховищд та наборi запитiв, що використовува-лися рашше.

У результатi виконання алгоритму отримаемо мжмальну швидкодiю виконання запитiв до сховища

480.5466 1/мс. Без використання адаптивност отримуемо значення швидкодп 482.574 1/мс.

Шсля повторного проведення вах запитiв обчислюемо функщю (1°) Розрахованi значення за формулами дають мжмальну швидкодiю виконання запипв до сховища - 464.9081 1/мс, середню - 560.4368 1/мс, максимальну -668.3728 1/мс.

Загальний час без використання адаптивност складае 109720.3 с, з адаптившстю - 53058.47 с.

Узагальнимо отримаш результати у табл. 1.

Таблиця 1

Показники роботи сховища на рiзних етапах його побудови

Виконання запийв Швидкод1я виконання запийв, 1/мс

ММмальна Середня Максимальна

Джерела даних 413.0272 502.6794 587.2584

Сховище даних 421.874 517.0587 608.1161

Оптим1зоване СД 464.9081 560.4368 668.3728

У результат проведення експерименпв також було проведено порiвняння розробленого алгоритму (2) зi стандартним ГА (1), з вщомими методами - плок i границь (3) i методом повного перебору (4). Результати порiвняння приведенi в табл. 2.

Таблиця 2

Порiвняння запропонованого алгоритму з вщомими

№ алг. Результат, 1/мс Час оптим1зацй, мс

N=10 N=20 N=30 N=60 N=10 N=20 N=30 N=60

1 1510 1201 798 468 5106 34 106 64 106 123 106

2 1514 1201 806 478 2 ^ 2 106 1106 83 106

3 1518 1201 810 - 27 ■106 30 106 268 106 -

4 1528 - - - 380 106 - - -

Данi результати обговорюються в п. 4. 4.

Також було проведено дослвдження впливу параме-трiв генетичного алгоритму. Для цього були проведет експерименти з рiзними довжинами хромосом, а саме N = 12,N = 23,N = 28,N = 37, N = 65). Такий вибiр областей дозволяе аналiзувати вплив дослщжуваних показниюв у залежност вiд розмiру хромосоми.

Було отримано наступнi результати:

Поргг звгрки адаптаци процесу пошуку за генами а . При проведенш експерименту для N = 12 бачимо, що при збшьшенш порогу адаптаци ГА зменшуеться час, необхвдний на оптимiзацiю. Однак, швидюадя оптимь зованого сховища суттево зменшуеться при збшьшенш а до 7. Тому для N = 12 дощльно вибирати а = 4, при цьому значенш час виконання алгоритму зменшуеться в 2.5 рази порiвняно зi звичайним ГА, а швидкодiя сховища залишаеться аналогiчною пею самою.

При N = 23 був виявлений невеликий потенщал для оптимiзацii, в цьому випадку досягаеться однако-ве значення швидкодii за набагато менший час (до 30 % вщ початкового результату), а саме при а = 20.

Для N = 28 максимальне значення швидкодп досягаеться при а =6, схожого значення було досягнуто

при а =13 при 40 % часу порiвняно за =6 . Окремо треба ввдзначити, що значення швидкодп мiж а =6 i а =13 та а =13 i а =2 аналопчш, що може казати про кратшсть мiнiмальнiй генетичнш вiдстанi мiж особи-нами 7.

Для N = 37 був виявлений великий дiапазон зна-чень як часу проектування (вщ 1 до 7 мшьйошв мс), так i значень функцп швидкодп (ввд 700 до 820 1/мс). Най-бiльше значення досягаеться при а =1, а найбшьшого значення за менший час можна досягти при а =25.

Для N = 65 найбшьша швидкодiя досягаеться при а =25, в той час як значення функцп придатност ана-логiчно повторюються з кроком 6, виключною ситуа-цiею е значення для а =25.

Мутащя. Аналопчш випробування проводилися й для дослвдження впливу значення iмовiрностi мутацii m на швидкодiю та збiжнiсть алгоритму.

Для N = 12 дослвдження показали, що зi збшьшен-ням iмовiрностi мутацп збiльшуеться й час виконання алгоритму. Це пов'язано з появою особин з бшьшою ге-нетичною вiдстанню. Однак при цьому тдвищуеться й генетичне рiзноманiття, тому алгоритм дае ближчий до оптимуму результат.

Для N = 23 з огляду на низький оптимiзацiйний потенщал значення швидкодп не змшюеться тсля m >0.1, тому дощльно вибрати таке значення.

Для N = 28 значення швидкодп слабо змшюеться тсля m>0.1, тому також дощльно вибрати таке зна-чення.

Для N = 37 вище значення швидкодп досягаеться на m=0.9, що свщчить про необхщшсть час^ мутацп.

Для N = 63 вище значення швидкодп досягаеться на m=0.15. Хоча хромосома е довгою, однак алгоритм е добре збiжним в цьому випадку в силу низького оп-тимiзацiйного потенщалу.

Кросинговер. Аналогiчнi випробування проводилися й для iмовiрностi схрещування c .

Для N = 12 дослщження показали, що найкраще значення досягаеться при iмовiрностi схрещування значенш c =0.9, однак за найдовший час, хоча анало-пчне значення досягаеться й при значенш c =0.35 за набагато менший час.

Для N = 23 з огляду на низький оптимiзацiйний потенщал значення швидкодп не змшюеться i достат-ньою iмовiрнiстю схрещування е значення c =0.05.

Для N = 28 найкраще значення досягаеться при c =0.95, хоча можна досягти схожого значення при c =0.45 за менший час.

Для N = 37 найкраще значення досягаеться при c =0.8, схожий результат з трохи меншим часом отри-муемо при значенш c =0.95.

Для N = 63 найкраще значення досягаеться при c =0.9, схожий результат з трохи меншим часом отри-муемо при значенш c =0.65.

4. 4. Обговорення результат дослщжень показ-иикмв процесу побудови сховищ даних

За результатами проектування сховища бачимо, що завдяки проектуванню сховища приркт швидкодп скла-дае до 5 %, оптимiзацii, до 10 %. Даний результат може бути досягнутий як з використанням адаптивности так i без не^ однак з ii використанням алгоритму потрiбно на 50 % менше часу на досягнення цих результапв.

У порiвняннi з шшими алгоритмами, результати яких також отримано в роботу запропонований алгоритм е найбшьш ефективним серед вищезазначених i дозволяе отримати кращий результат за меншу юль-юсть часу. Зокрема, вiн затрачае у 10 раз менше часу, шж метод плок i границь, i у 100 раз менше, шж метод повного перебору для довжини хромосоми N=10, а на довших хромосомах ще менше, при цьому знаходячи рiшення, близьке до оптимуму.

Окремо визначимо, що на етат проектування сховища приркт швидкодп по областям, що мають слабко-структуроваш данi, оскiльки саме за рахунок виконання запипв на вщповщних носiях (БД XML) i отри-муеться цей прирiст.

Результати дослвдження процесу оптимiзацii сховища для виявлення впливу параметрiв дозволяють зробити наступш висновки щодо окремих параметрiв.

Поргг адаптащг. Можливий виграш ввд викори-стання адаптивностi за генами сильно залежить вщ оптимiзацiйного потенцiалу областi, а точнiше вщ вщ-даленостi оптимальних значень вщ початкових. При малих значеннях N дощльно вибирати малi значеннях а < N / 2 , на великих значеннях - велик значеннях а > N/2

Мутащя. Як показали проведет випробування, iмовiрнiсть мутацп дощльно вибирати невелику, зi значенням близьким до 0.15. Це пояснюеться тим, що при високих ймовiрностях мутацп збшьшуеться генетична вщстань, що призводить до б^ьшого часу виконання алгоритму, однак не забезпечуе краще значення функцп швидкодп. В деяких випадках, зокрема при великих значеннях N, дощльно вибирати m > 0.8 для швидшого дослщження област допусти-мих ршень.

Кросинговер. У результат аналiзу даних можемо стверджувати, що для малих значеннях N дощльно вибирати малу iмовiрнiсть схрещування [0.35,0.45] при великих значеннях N дощльно вибирати велику iмовiрнiсть схрещування [0.8,0.9] , хоча в окремих випадках можливе отримання схожих результапв при значеннях c е [0.45,0.65].

Результати проведених дослщжень дозволяють зробити висновки про тдтвердження наступних гшотез.

Гтотеза про вплив розподшу даних за струк-туроватстю. Розподш даних по структурованост дозволяе пришвидшити виконання запипв до цих даних за рахунок використання ввдповвдних носпв. За рахунок виконання операцш над слабкострукту-рованими даними за допомогою БД XML та MongoDB отримуемо ефектившше виконання операцш над част-ково-структурованими даними (до 5 %).

Гтотеза про вибгр еталонного запиту. Вибiр най-менш швидкодшного запиту в якост еталонного дозволяе оптимiзувати все сховище, тобто оптимiзують-ся ва запити.

Гiпотеза справджуеться, хоча кнуе деяка множина запитiв з низькою швидкодiею, що не мають потенщалу для оптимiзацii. Водночас, як показали результати експерименпв, використовуванi методи оптимiзацii пiдвищують швидкодiю всiх запипв до сховища, що мають такий потенщал, а саме - розмiр даних який пе-ревищуе деяку величину s (у наведених дослвдженнях використовувалося s=100).

Гтотеза про вплив адаптацп за генами на процес по-шуку. Використання адаптивност за генами дозволяе визначити «хворобливЬ» гени \ вщсжти щл1 «тд областЬ» областi допустимих ршень, що спрощуе задачу i дозволяе скоротити час, необхщний на виконання алгоритму. Ппотеза пiдтверджуеться, осюльки завдяки низькiй iмовiрностi мутацii i близькостi особин у поколiннях ми отримуемо малу ввдстань мiж мутованими i нему-тованими особинами, що дае нам можлившть виявити впливи окремих гешв i щвидко зменшити розмiрнiсть задачi за рахунок фжсацп значень. Крiм того, використання схрещування для отримання особин з великою вщстанню дозволяе нам «вщшти» вiд дiлянок з низь-кими значеннями.

Осюльки iншi дослiдження не розглядали питання оптимiзацii функцii iнтегральноi швидкодii виконання запипв до сховища даних, побудовану за класами запипв, порiвняння результатiв дослiджень з iншими дослвдженнями не е можливим.

У подальших дослiдженнях варто проаналiзувати вплив окремих блоюв стану сховища на змшу цiльовоi функцii. Також варто провести описаш в данiй роботi експерименти на великих обсягах даних i з викори-станням iнших оптимiзацiй (розпаралелювання зберь гання даних i обробки запитiв, розмiщення частин сховища даних у оперативнш пам'ятi тощо).

Дослiдження виконувалося на невеликих обсягах даних. Також дослвдження виконувалося без використання паралельних БД.

Це дослщження е продовженням робгг [4, 13-17] автора з проектування та оптимiзацii сховищ даних. Зокрема, воно представляе задачу проектування сховищ даних [13] як задачу перетворення даних.

У роботах [15] було описано використання даних про структуровашсть для побудови сховищ даних. У цш робоп формалiзовано сам мехашзм вибору моделi для представлення даних.

Двофазний алгоритм проектування та оптимiзацii [14] був деталiзований процедурою адаптацп процесу пошуку за генами

Результати дослщжень впроваджеш у виглядi ш-формацшних технологii для iнтегрованоi системи управлшня державними фiнансами, 1нформацшно-

аналiтичнi системи «Прозорий бюджет» [18], а також у 1нформацшних системах пiдвищення компетентност фахiвцiв фiнансовоi сфери та Порталах <^ртуальний ушверситет» [17], 1нституту пiслядипломноi освiти, журналу «Фiнанси Украши».

7. Висновки

1. Розроблено мехашзм вибору моделi за структу-рованiстю, це дае можливкть оптимiзувати сховище даних, коли не вiдомi запити, яю до нього викону-ються. Вибiр здiйснюеться за допомогою порiвняння обчисленоi структурованостi даних, для яких вибира-еться модель, i значення тдтримки структурованостi моделей носiiв даних сховища. Вибираеться та модель, якоi достатньо для збереження даних з такою структу-ровашстю.

2. Розроблено генетичний алгоритм з адаптащею процесу пошуку за генами, яка дозволяе визначити вплив гешв на функщю оптимiзацii пiд час виконання алгоритму. Даний алгоритм вiдрiзняеться вщ класич-ного генетичного алгоритму тим, що тсля селекцii, тсля мутацii i пiсля схрещування ввдбуваеться знахо-дження особин з малою генетичною вiдстанню. Якщо вiдстань не перевищуе так званий порк звiрки, визна-чаеться вплив генiв, що вiдрiзняються в початкових та цих особинах. Якщо виявляеться негативний вплив гену на щльову функцiю, надалi використовуеться обернене значення.

3. У результат дослiдження впливу фаз проектування i оптимiзацii на швидкодiю сховища було виявлено, що проектування сховища з вибором моделi дозволяе тдвищити швидкодiю виконання запипв вiд 5 %. Оптимiзацiя сховища з використанням механiзмiв розмщення, iндексацii, матерiалiзацii, вертикальноi i горизонтальноi фрагментацii та злиття дозволяе тдвищити швидкодт виконання запитiв ввд 10 %.

4. Дослiдження впливу параметрiв генетичного алгоритму на його ефектившсть та збiжнiсть показали, що використання адаптацп процесу пошуку за генами дозволяе скоротити час виконання алгоритму за раху-нок визначення впливу параметрiв до 50 %.

Лиература

1. Inmon, W. H. Corporate Information Factory Components [Electronic resource] / W. H. Inmon. - Inmon Data Systems. - Available at: http://www.inmoncif.com/view/26

2. Kimball, R. The data warehouse toolkit: the complete guide to dimensional modeling [Text] / R. Kimball. - New York, Wiley, 2002. - 436 p.

3. Hackney, D. Architectures and Approaches for Successful Data Warehouses [Electronic resource] / D. Hackney. - Available at: http://www.egltd.com/presents/ArchitecturesApproaches.pdf

4. Томашевський, В. М. Особливост проектування пбридних сховищ даних з врахуванням джерел даних [Текст] / В. М. Тома-шевський, А. Ю. Яцишин // Вюник Нацюнального ушверситету «Львiвська пол^ехшка». 1нформацшш системи та мережк збiрник наукових праць. - 2011. - № 715. - С. 246-254.

5. Thusoo, A. Hive - a petabyte scale data warehouse using Hadoop [Текст] / A. Thusoo, J. S. Sarma, N. Jain, Z. Shao, P. Chakka, N. Zhang et. al. // Data Engineering (ICDE), 2010 IEEE 26th International Conference, 2010. - P. 996-1005. doi: 10.1109/icde.2010.5447738

6. Шаховська, Н. Б. Оргашзащя просторiв даних у складних шформацшних системах [Текст] : автор. ... дис. ... д-р техн. наук : 05.13.06 / Н. Б. Шаховська. - Нацюнальний ушверситет «Львiвська тоштехшка», 2012. - 39 с.

7. Zhou, L. An Improved Approach for Materialized View Selection Based on Genetic Algorithm [Text] / L. Zhou, X. He, K. Li // Journal of Computers. - 2012. - Vol 7, Issue 7. - P. 1591-1598. doi: 10.4304/jcp.7.7.1591-1598

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Mami, I. A survey of view selection methods [Text] / I. Mami, Z. Bellahsene // ACM SIGMOD Record. - 2012. - Vol. 41, Issue 1. - P. 20-29. doi: 10.1145/2206869.2206874

9. Dimovski, A. Horizontal partitioning by predicate abstraction and its application to data warehouse design [Text] / A. Dimovski, G. Velinov, D. Sahpaski // Advances in Databases and Information Systems. Lecture Notes in Computer Science. - 2010. -Vol. 6295. - P 164-175. doi: 10.1007/978-3-642-15576-5_14

10. Elmansouri, R. The fragmentation of data warehouses: An approach based on principal components analysis [Text] / R. Elmansouri, E. Ziyati, O. Elbeqqali, D. Aboutajdine // International Conference on Multimedia Computing and Systems (ICMCS), 2012. -P. 18-23. doi: 10.1109/icmcs.2012.6320319

11. Jarke, M. Architecture and Quality in Data Warehouses [Text] / M. Jarke, M. A. Jeusfeld, C. Quix, P. Vassiliadis // Seminal Contributions to Information Systems Engineering, 2013. - P. 161-181. doi: 10.1007/978-3-642-36926-1_13

12. Siebert, J. C. The Stanford Data Miner: a novel approach for integrating and exploring heterogeneous immunological data [Text] / J. C. Siebert, W. Munsil, Y. Rosenberg-Hasson, M. M. Davis, H. T. Maecker // Journal of Translational Medicine. - 2012. - Vol. 10, Issue 1. - P. 62. doi: 10.1186/1479-5876-10-62

13. Яцишин, А. Ю. Проектування мультибазових сховищ даних на 0CH0Bi двохфазного алгоритму [Текст] / А. Ю. Яцишин // Вю-ник НТУУ «КП1». 1нформатика, управлшня та обчислювальна техшка : збiрник наукових праць. - 2012. - № 55. - С. 125-134.

14. Яцишин, А. Ю. Проектування пбридних сховищ даних з врахуванням структурованост даних [Текст] / А. Ю. Яцишин // Управлшня розвитком складних систем. - 2012. - Вип. 9. - С. 59-65.

15. Роль вiртуального ушверситету у забезпечент прозорост бюджетного процесу в монографй Державний бюджет i бюджет-на стратепя в умовах економiчних реформ: у 4 т. Т. 2 [Текст] / за заг. ред. М.Я. Азарова. - ДННУ «Акад. фш. управлшня». К, 2011. - С. 878-902.

16. Сощальна технолопя «Прозорий бюджет» як шноващя в монографй' Державний бюджет i бюджетна стратепя в умовах економ!чних реформ: у 4 т. Т. 4 [Текст] / за заг. ред. М.Я. Азарова. - ДННУ «Акад. фш. управлшня». К, 2011. - С. 327-381.

-□ □-

Визначено поняття сощально-тформацш-ного ттерфейсу. Видтено стратеги тформа-цшног дiяльностi вищого навчального закладу в сощальних середовищах 1нтернету. Визначено показник важливостi для генератора тформацшного образу. Сформовано задачу про призначення вiдповiдальностi тдрозд^в за генератори та визначено про-гнозовану ефективность тформацшног дiяль-ностi тдроздту у генераторi

Ключовi слова: генератор, ттегрований показник, тдроздыи у генератора, вищий

навчальний заклад (ВНЗ)

□-□

Определено понятие социально-информационного интерфейса. Выделены стратегии информационной деятельности высшего учебного заведения в социальных средах Интернета. Определены показатель важности для генератора информационного образа. Сформирована задача о назначении ответственности подразделений за генераторы и определены прогнозируемую эффективность информационной деятельности подразделения в генераторе

Ключевые слова: генератор, интегрированный показатель, подразделения в генераторах,

высшее учебное заведение (ВУЗ) -□ □-

УДК 004.738.5

|DOI: 10.15587/1729-4061.2015.370311

А. М. Пелещишин

Доктор техычних наук, професор Кафедра сощальних комушкацт та шформацтноТ дiяльностi* E-mail: apele@ridne.net Р. О. Корж Кандидат техычних наук, доцент Кафедра електронних засобiв шформацтно-комп'ютерних технологш* E-mail: korzh@lp.edu.ua *Нацюнальний ушверситет <^bBiBCb^ пол^ехшка» вул. С. Бандери, 12, м. Львiв, УкраТна, 79013

ФОРМУВАННЯ СТРУКТУРИ СОЦ1АЛЬНО-1НФОРМАЦ1ЙНИХ 1НТЕРФЕЙС1В ЯК ВИР1ШЕННЯ ЗАДАЧ1 ПРО ПРИЗНАЧЕННЯ В1ДПОВ1ДАЛЬНОСТ1

1. Вступ

Сощально-шформацшним штерфейсом (С11) на-зиватимемо генератор шформацшного образу ВНЗ, у якому офщшно зареестровано представниюв ВНЗ.

Статус штерфейсу для стльноти означае, що ВНЗ використовуе ü як один з канал1в взаемоди з1 сустль-ством, несе в1дповщальн1сть за його шформацшну тдтримку. Для ВНЗ стльноти, що е визначен1 як штерфейси, повинн1 розглядатися як певного роду

©

i Надоели баннеры? Вы всегда можете отключить рекламу.