УДК 004.
Шаховська Н. Б.1, Болюбаш Ю. Я.2
1Д-р техн. наук, професор, Нацональний унверситет «Львiвська полтехнка», УкраТна, E-mail: [email protected]
2Здобувач, Нацональний унверситет «Львiвська полiтехнiка», УкраТна
ОПРАЦЮВАННЯ НЕВИЗНАЧЕНОСТ1 У ВЕЛИКИХ ДАНИХ
У статт уведено поняття термшу «велию даш» та проаналiзовано причину l'x появи. Показано piBHi виникнення невизначеностi у «великих даних». Сформовано модель сховища даних з невизначенiстю та розроблено операци над ним. Подано метод формування агрегату з врахуванням невизначеноси.
Ключовi слова: великi данi, шформацшний продукт, невизначенiсть.
ВСТУП
Глобалiзацiйнi аспекта розвитку сучасного суспiльства викликають потребу у побудовi складних систем функщ-онування окремих предметних областей. Так, на приклада утверситету - це формування рейтингов виклaдaчiв та кафедр, визначення показнишв успiшностi та якосп на-вчання тощо; на приклада обласно! адштстрацп - це визначення критичних показник1в розвитку репону на ос-новi даних, отриманих вiд органiзацiй рiзноl форми влас-ностi. Проте це складно зробити у зв'язку з неввдповвдтстю мiж вимогами, що ставляться до шфор-мацiйних систем, та необхщшстю оргашзацп (пошуку об'екпв, !х систематизацп, узгодження, штеграци даних) рiзнотипних шформацшних об' екпв у складну шформа-цшну систему, що проявляеться через: слабку структу-ризацiю зв'язк1в мiж об'ектами, потребу включення но-вих об'екпв у систему, недотримання загальних стандартов оргашзаци ведення документообiгу, неможливють проведення систематизацп через велику кшьюсть об' екпв та !х рiзну природу. Актуальнiсть роботи визначаеться такими обставинами.
Опрацювання iнформацiйниx ресурсiв, що викорис-товують рiзнi моделi даних, схеми керування тощо вима-гае розроблення унiфiкованого методу доступу до них для того, щоб надати можливють користувачу вибирати адекватний iнструментарiй для вивчення та використан-ня рiзниx засобiв опрацювання даних. Необxiднiсть у цьо-му виникае в оргатзацш, робота яких полягае в опрацю-ваннi велико1 кiлькостi рiзнотипниx, взаемонезалежних джерел даних, для яких не ва семантичнi взаемозв'язки вiдомi 1 вказаш. У деяких випадках семантичш зв'язки невiдомi через невизначену юльшсть початкових джерел або через брак квалiфiкованиx людей у визначеннi таких зв'язюв. У iншиx випадках, не ва семaнтичнi зв'язки не-обхвдт для класифтацл послуг користувачам. Тому в ко-ристувaчiв немае едино1 схеми, за якою вони можуть ство-рювати запити вiдносно цшьових задач.
Внaслiдок керування рiзнотипними даними з метою розв'язання aнaлiтичниx задач стратепчного рiвня виникае задача якосп даних - ввдповвдносп вимогам користу-вaчiв. На рiвнi задач, для яких використовуеться точкове джерело, як1сть даних цього джерела е достатньою, i за© Шаховська Н. Б., Болюбаш Ю. Я., 2014
довольняе (повнiстю чи частково) потреби осiб, що прий-мають рiшення на !х основi. Проте використання даних з дек1лькох джерел, наперед неузгоджених та з невщоми-ми структурами, призводить до того, що яюсть даних рiзко знижуеться i вже не може задовольняти потреб користу-вача через неузгоджешсть формaтiв, рiзне подання, не-обхвдне для вирiшення проблеми.
Змiнa масшт^в i рiвня задач - ввд оперативного опрацювання до аналогичного, призвела до необхвдносп: опрацювання даних за певною iерaрxiею; забезпечення цшсносп даних - в системах зберпаються метaдaнi, а не сам об'екти; усунення дублювання даних, що надходять з рiзниx джерел, визначення довiри до джерела даних, що е рiзними для рiзниx областей та рiзниx груп користувaчiв.
Проaнaлiзуемо iнформaцiйнi технологах для оргашзацп рiзнотипниx iнформaцiйниx об'ектiв та налагодження обм^ шформацп мiж ними.
1 ОГЛЯД Л1ТЕРАТУРНИХ ДЖЕРЕЛ ТА ПОСТАНОВКА ЗАДАЧ
Опрацюванням рiзнотипниx неузгоджених даних дос-лвдники займалися з 70-х рошв XX ст. Розробленi моделi та метамови опрацювання таких даних. Проте iснуючi на сьогодт моделi та методи стосуються або лише наперед ввдомих тип1в даних (здебiльшого, реляцшних баз даних -прац1 Калшченка Л., Коха К.), або виршують лише час-тковi зaдaчi опрацювання рiзнотипниx даних - наприк-лад, iндексувaння для пришвидшення пошуку (Спакапет-ра С). Тому виникае необхщшсть упрaвлiння розрiзне-ною шформащею, а саме И подання у зрозумшому для користувaчiв виглядi (навиъ якщо вони не знають особ-ливостей оргашзацп структур цього джерела даних) та опрацювання (пошуку, штеграци, видобуванш нових знань тощо).
Одним iз базових завдань опрацювання рiзнотипниx даних е !хня iнтегрaцiя в сховище. Розробленi на сьогоднi методи теграцп даних за своею функцюнальтстю под-iляються на два типи: штегращя веб-застосувань (Лаго-зе К., Ван де Зомпель Г.) та штегращя на основi сховищ даних (Косман Д., Гелевi А.). Проте проведений aнaлiз лiтерaтурниx джерел показав, що для опрацювання шформацп вiд усix об'ектiв гaлузi необхвдно поеднати обидва типи штеграцп та вдосконалити наявш моделi даних у
96 DOI 10.15588/1607-3274-2014-1-14
зв'язку з формуванням нових вимог до джерел даних та !х динам!чному додаванн!.
За yciei' важливост! в!домих результатов, теоретичн! та експериментальн! досл!дження повинн! розвиватися в напрямку розроблення ефективних засоб!в опрацюван-ня даних з р!знотипних шформацшних ресурав та ви-роблення засад i критерпв оц!нювання якост! штегрова-них даних, як1 б тдвищували ефектившсть прийнятих р!шень.
Велик! дан! (Big Data) в шформащйних технологиях -наб!р метод!в та засоб!в опрацювання структурованих i неструктурованих р!знотипних динам!чних даних великих обсяг!в з метою !х анал1зу та використання для тдтрим-ки прийняття р!шень. £ альтернативою традищйним системам управлшня базами даних i р!шеннями класу Business Intelligence. До цього класу в!дносять засоби паралельного опрацювання даних (NoSQL, алгоритми MapReduce, Hadoop) [1].
Визначальними характеристиками для великих даних е обсяг (volume, в сена величини ф!зичного обсягу), швидк1сть (velocity, в сенсах як швидкосп приросту, так i необх!дност! високошвидк!сно! обробки та отримання результапв), р!зноман!ття (variety, в сена можливосп одночасно! обробки р!зних титв структурованих i на-твструктурованих даних).
З одного боку, через свою неоднорщшсть i постшне зростання Big Data вимагають до себе нестандартних п!дход!в у збер!ганн! та опрацюванн!. Для ефективно! роботи необх!дн! комплексн! р!шення мошторингу, фшьтрацп, структурування та пошуку !ерарх!чних зв'язк1в. З !ншого - використовуючи Big Data, можна спостер!гати за величезною множиною змшних, i на основ! надано! шформацп виявляти глобальн! тренди i вис-новки, розглядаючи певну ситуащю в перспектив!.
Одшею з технологш, що доцшьно використовувати для роботи з Великими даними, е проспр даних.
Проспр даних - це блоковий вектор, що м!стить мно-жину шформацшних продукпв предметно! област!, под-шену на три блоки: структурован! дан! (бази, сховища даних), нап!вструктурован! дан! (XML, електронн! таблиц!) та неструктуроват дан! (текст). Над цим вектором та його окремими елементами визначено операцп та предикати, як! забезпечують [1]: перетворення р!зних елемент!в вектора один в одного; об'еднання елемент!в одного типу; пошук в елементах за ключовим словом.
ПОСТАНОВКА ЗАДАЧ ДОСЛДЖЕННЯ
Як було зазначено вище, розглядаеться задача опрацювання даних, що над!йшли з р!зних, наперед неузгод-жених джерел. 1деал!зована схема опрацювання р!зно-типних даних подана на рис. 1.
Як бачимо, певна множина даних може бути в!дсут-ня у джерелах даних, а !нша може перекриватися у р!зних !нформац!йних продуктах. Тому виникае проблема дуб-лювання, ввдсутносп, неповноти та неч!ткост! даних.
Невизначетсть може виникати на р!вн! атрибуту, кортежу та в!дношення (невизначешсть у схем! опису). По-
lнформацiйний
ява невизначеност! на р!вн! атрибута i кортежа у зв'язку з багатовим!рн!стю в!дображення шформацп призводить до поширення невизначеност! на ва прим!рники опису певного концепту. Оск!льки об'еднуються м!льйони даних про об'екти проблемно! област!, то опрацювання невизначеност! традицшними засобами (штервальна математика, багатозначна лопка) стае неефективним через велику к!льк!сть операнд!в.
Розглянемо проблеми подання невизначеностей у Big Data. Вважатимемо, що для тимчасового збер!гання шформащя потрапляе у федеративне сховище даних.
Об'ект, який моделюеться кортежем в!дношення факпв з вадсуттми значеннями зовн!шн!х ключ!в, не мае властивостей, описаних у в!дношеннях метаданих - така невизначен!сть притаманна ! в!дношенням реляц!йних баз даних.
В!домо, що значення за вказаним атрибутом !снуе, але на певний час воно нев!доме, що викликае не-обх!дн!сть застосовувати алгоритми видобування даних для усунення невизначеност! - така невизначен!сть та-кож !снуе у реляц!йних базах даних, але методи !! опра-цювання не можуть застосовуватись у сховищах даних, оск!льки сховищам даних притаманн! не тшьки зв'язки м!ж об' ектами р!зних тип!в, але й м!ж об' ектами одного й того ж типу (виникнення !ерархи об' ект!в).
£ неповна або часткова шформащя про значення, для в!дображення якого використовуеться додатковий атрибут, що характеризуе р!вень !стинност! даних та м!стить значення функц!й розпод!лу, л!нгв!стичних зм!нних, сту-пен!в !стинност! багатозначних лог!к (може вводитися на р!вн! значення атрибута, п!дмножини значень атрибут!в або кортежа). 1снування тако! невизначеност! приводить до появи неч!ткого в!дношення, яке може м!стити супе-речливу !нформац!ю.
Кр!м того, невизначешсть може виникати внасл!док отримання агреговано! !нформац!!, коли необх!дно знати детальн! дан!, наприклад, нев!дом! обсяги продажу у вказаному рег!он! за вказаним товаром.
Отже, специфта Big Data:
- наявтсть множини рiзнотипних джерел;
- дублювання даних;
- неоднознaчнiсть опису джерел даних, приводить до того, що невизначетсть, яка у трaдицiйних реляцiйних базах даних розглядалася у межах одного ввдношення i могла виникати на рiвнi атрибута, кортежа та на рiвнi вiдношення, в цьому випадку поширюеться через сприйняття користувачем шформаци на все феде-ративне сховище даних (гiперкуб даних). Тому для опра-цювання невизнaченостi у гшеркуб даних необх1дно ви-користати яшсно новий шдхвд, потреба застосування яко-го не виникала у релящйних базах даних.
У федеративному сховищi даних невизнaченiсть може виникати i у ввдношеннях метаданих.
Проaнaлiзуемо мюця виникнення невизначеностей у сховищах даних.
1. Невизначетсть у схемi посередника (медаатора).
Посередник (mediator) - програмний компонент, що,
з одного боку, взaемодiе з користувачем штегруючо! системи, та, з шшого боку, з шформацшними джерела-ми. Вiн надае едину «точку входу» (програмний штер-фейс) для запипв користувaчiв та виконуе основнi стада! опрацювання запиту:
- визначення джерел, як1 можуть мютити результат запиту;
- декомпозицiю на запити до конкретних джерел (на основi !хтх описiв);
- ошгашзащю плану виконання.
Схема посередника - це множина схем термiнiв, що зус^чаються у запитах. У термшах сховища даних посе-редником е метод визначення структури джерела. Схемою посередника е множина таблиць метаданих. Вш не обов'язково охоплюе усi атрибути будь-якого з джерел, але метить шформацш про домени джерела даних. Невизначетсть у схемi посередника може виникнути з к1лькох причин. По-перше, якщо схеми посередника автоматично визначаються з даних джерел тд час запуску, виникае невизначетсть з приводу результатов запиту. Подруге, коли домени е широкими, виникае невизначетсть стосовно ввдповвдносп схем даних чи 1х перекриття.
1ншими словами, невизнaченiсть у схемi посередника виникае внаслщок порiвняння структур даних джерел для завантаження з них шформаци. Така невизнaченiсть призводить до неточного ввдображення схеми джерела i е джерелом для шших невизначеностей. Причинами не-визнaченостi зазначеного типу е зовтшт (атаки), про-грaмнi, aпaрaтнi збурення в процеа вiдбору, опрацю-вання та завантаження даних.
2. Невизнaченiсть у схемi вiдобрaження.
Зазвичай виникае у словнику синонiмiв (вщношен-
нях метаданих мюця). Вказаний тип е частковим випад-ком невизнaченостi у схемi посередника. Оск1льки словник синонiмiв визначае семaнтичнi ввдношення м1ж тер-мiнaми в джерелах даних, яю е повнiстю незалежними, а багато первинних вщображень схем будуть автоматично отримат, то отримaнi вщображення можуть бути
неточними. Прикладом тако! невизначеностi може бути випадок, коли одним термшом iдентифiкують рiзнi об'екти (полiсемiя).
3. Невизначенiсть даних сховища консолщованих да-них.
Зрозумiло, що через неструктуроватсть даних, а та-кож через автоматичтсть завантаження даних частина з них може бути невизначеною. Крiм того, системи, яш включають багато джерел, можуть мiстити недостовiрнi або суперечливi данi. Невизначенiсть може виникати навить у тому випадку, коли первинт данi були точними, оск1льки для ввдображення одно! характеристики можуть використовуватись рiзнi домени.
Прикладом предметно! обласп, яка яскраво демонст-руе такий тип невизначеностi, е система перевiрки дос-товiрностi подай. У цьому випадку важливу роль ввдграе ступiнь довiри до джерела даних.
4. Невизначетсть запипв.
Невизначетсть запипв виникае у зв'язку з наявтстю рiзних моделей даних та !х виразно! потужносп, оск1льки система сама трансформуе запит, отриманий вщ корис-тувача, наприклад, на основi ключових слiв. Пiд час пе-ретворення цього типу запиту у 8рЬ-запит до структу-рованого джерела може виникнути невизначетсть з результатами запиту.
Невизначетсть запипв яскраво демонструють пошу-ковi системи, де за запитом користувачевi надаеться над-то багато результапв пошуку i лише частина з них на-справдi задовольняе користувача.
ПОДАННЯ НЕВИЗНАЧЕНОСП У СХОВИЩАХ ДАНИХ
Прокласиф^емо типи невизначеносп за характером !х появи у просторi даних. Однiею з перших робгг у цьому напрямi е робота Л. Заде [2]. Г. Цельмер тдкреслюе, що невизначетсть, будучи об'ективною формою юну-вання оточуючого нас реального свiту, обумовлена, з одного боку, об'ективним юнуванням випадковостi як форми прояву необхвдносп, а з iншого - неповнотою кожного акту вщображення реальних явищ в людськ1й свiдомостi. Причому неповнота воображения принци-пово непереборна через загальний зв'язок вах об'ектiв реального свиу i нескiнченностi !х розвитку. Виражаеть-ся невизначенiсть в рiзноманiттi перетворення можли-востей у дшстсть, в iснуваннi множини (як правило, не-скшченно! кшькосп) станiв, в яких об' ект, що змiнюеться в динамщ, може перебувати в майбутнш момент часу (Цельмер, [3]).
У (Моiсеев, 1975) наводиться така класифжащя невизначеностей [5]:
- за ступенем невизначеносп: iмовiрнiсна, лшгвютич-на, iнтервальна, повна невизначетсть;
- за характером невизначеносп: параметрична, структурна, ситуацшна;
- за використанням одержано! в хода керування шформаци: переборна i невиправна.
У Ддева В. С. 1 Трухачева Р.1. [4, 6] наводиться детальн-ша класиф1кащя невизначеностей в сучасних економ1ч-них системах (Диев, 2001; Трухачов, 1981). У [7] визначе-но типи невизначеностей, природою яких е:
- значения невщоме (вщсутне);
- неповнота шформацп;
- нечитасть (стохастичшсть) - використання розподь лу для встановлення ютинносп знань;
- неточшсть (стосуеться числових даних);
- недетерм1новатсть процедур виведення ршень (ви-падковють);
- ненадштсть даних;
- багатозначтсть штерпретацш;
- лшгвютична невизначетсть: невизначетсть значення слова, невизначетсть змюту речення.
На рис. 2 подано р1вш уведення титв невизначеностей у сховищ1 даних. Невизначеносп на р1вт агрегованих даних виникають на основ1 атак - блокування даних у джерел1, приховуванням частини шформацп тощо. Невизначеносп на р1вт метаданих виникають, в першу чер-гу, на основ1 програмних збо!в, а також через наявшсть атак на р1вш джерел даних (змш структур даних джерел).
Розглянемо детальтше вказат типи невизначеностей та виявимо мюця гх появи у сховищах даних [8]. Анал1зу-ватимемо невизначеносп, що виникають у результат! консолщацп даних у едине джерело (локальне чи в1рту-альне), а, отже, матимемо справу з1 структурованими даними. Для подання единого джерела використовува-тимемо реляцшну модель.
В1дсутшсть даних виникае внаслщок ввдсугносп опи-су необхщно! характеристики у метаданих. В1дсутшсть може виникнути або через те, що необхвдно! характеристики не знайдено у шформащйних продуктах, що е дже-релом для сховища даних, або вона не включена до мета-даних через недостатнш р1вень дов1ри.
т ср
Нев1дом1сть даних зустр1чаеться на р1вт значення характеристики (атрибуту у релящйних базах даних) 1 озна-чае, що значення притаманне об'екту, але невщоме:
8={А, ипк},
де 5 - об'ект, який описуеться кортежем характеристик консолщованих даних, ипк - вщсутне значення, А - реш-ту значень атрибупв характеристик кортежу консолщо-ваних даних, ипк и А = 5,ипк п А = 0.
У випадку появи невщомосп на р1вш метаданих при-зводять до зашумлення ваа шформацп, що отримуеть-ся вщ джерела даних з невщомим атрибутом.
Неповнота е станом об'екту, у якому е щдмножина вщсуттх значень характеристик. Якщо ця тдмножина е порожня 1 ми говорило про реляцшне подання даних, то отримаемо традищйний кортеж. Ввдсутшсть шформацп е також частковим випадком неповноти шформацп, коли к1льк1сть неввдомих значень атрибупв кортежу дор1внюе 1. Неповнота може з'являтися як 1 у ввдношент, у яке штег-руються даш, так 1 у метаданих як результат збо!в роботи методу визначення структури джерела.
ъ={А,{ипк}}, |ипк|<А|.
Невизначеносп тишв 3-8 класиф1кують як неодноз-начшсть даних, що переважно виникають на р1вш об-'екта або шдмножини значень характеристик, 1з яких формуеться кортеж. Вони виникають як результат атак на р1вт джерел даних (шформащйних продукпв).
Нечгткгсть виникае через неповне вивчення або не-однозначне вщображення характеристик сутносп. Мо-делюеться за допомогою доповнення схеми вщношення додатковим атрибутом (атрибутами), значення яких мютять р1вень впевненосп у 1стинносп шдмножини значень неключових атрибупв. Також вона подае р1вень
дов1ри до характеристики Ра11г (/, у).
глибина невизначеностi
I к
а
аат
а ср
о ср
о аб
а ср а
визначення стру ктури даних
вн авог
- М
а
.а §
а
ате
в
^ £2 р
а X ^
пошук нового 1П
Невi до-мi сть
перевиз-начення структури даних
ч т-
пошук пов'язаного 1П
Неповнота
змешення невизначеност1
Дi I
Недетермi нованi сть
Л i нгвютична невизначенi сть
±
Неточ-нi сть
пошуку
штеграцм
пiдвищення якост i даних
Рис. 2. Типи невизначеносп у федеративному сховищi даних та рiвиi 1х введення
задач
II
s={4, unky, unk^,..., unkn}, A e K, A , 1 < n <\A'\,
unkattr = Pattr (i, j), AI — {unky,unk2,...,unkn}
де K - множина значень ключiв, A - тдмножина зна-чень неключових атрибупв. PiBem впевненостi може позначатися за допомогою числово! шкали, лшгветич-них оцшок, нечiткоï величини тощо.
Hemo4Hicmb отримуеться внаслiдок застосування математичних операцiй над числовими даними (цього типу е також невизначетсть, яка виникае внаслщок ро-боти з штервальнимим величинами). Цей тип невизначеносп моделюеться за допомогою додаткового атрибута i може виникати через нечитасть в метаданих. Виникае доволi часто у зв'язку з опрацюванням даних, що зберпались на рiзних платформах, використовувались для вирiшення рiзного класу задач.
s={A,{unk}}, {unk} с A , Desigri(Â) e {unk}.
Недетермтоватсть процедур виведенняршень (ви-падковеть) виникае у тому випадку, коли необхщно збе-рiгати промiжнi або кiнцевi результати процедур виведення або прийняття ршень, а також - у вщношент факпв на рiвнi значень агрегованих атрибyтiв. Моделюеться за допомогою розширення схеми даних та виникае винят-ково у агрегованих даних ( гшеркуб^:
s= s u {unk}, {unk} £ A , Design(s) e {unk}.
Ненадттсть е типом невизначеносп, який вважаеть-ся одшею iз характеристик об'екта. Хоча сама природа ще1 характеристики е невизначеною, у вщношенш як ïï домен використовують традицiйнy числову шкалу та за-стосовують до ïï значень традицшт математичнi операцп. Виникае внаслщок визначення довiри звернення до джерела даних P ( j ). Моделюеться за допомогою доповнен-ня схеми каталогу даних додатковим атрибутом. Значен-ня цього атрибута змiнюеться у резyльтатi роботи простору даних. Представляеться як характеристика, обернена до значення довiри до джерела даних.
s= s u \unkj\, unk i £ A, unk=—1—.
L j ' j p(j)
Багатозначнiсть iнтерпретацiï е одним iз джерел виникнення суперечностей. Такий тип невизначеностi виникае найчаспше на рiвнi детальних даних через отри-мання iнформацiï' iз рiзних джерел i неможливiсть визначення етинносп даних. Для вщображення цього типу невизначеностi схему вщношення доповнюють додатковим атрибутом, який метить стутнь впевненосп у етин-ност1 даних кортежу. В1д типу нечпкеть вiдрiзняеться тим, що вводиться на рiвнi вiдношення.
Лтгвктична невизначетсть пов'язана з використан-ням природно].' мови в iнформацiйних ресурсах (у тек-стових файлах та веб-ресурсах), яш мають як1сний характер, i може виникати внаслщок нерозумшня ( незнання) значення слова або нерозумшня змюту речення. Такий тип невизначеносп зуст^чаеться у системах опрацюван-ня текстовоï' iнформацiï (системи автоматизованого перекладу, системи для самонавчання тощо). У контексп сховищ даних виникае внаслвдок опрацювання на-mвстрyктyрованоï iнформацiï (тексти, веб-сторшки тощо).
Розглянуп типи невизначеностей можуть накладатись або бути джерелом появи одна одно!
МОДЕЛЬ СХОВИЩА ДАНИХ З ШЕВИЗШАНЕШСТЮ
Схема сховища даних з невизначенiстю Cg' -ск1нченна множина iмен атрибyтiв {Ар А , ..., An}, значення яких е чикими; {A unk,, A unk„, A unk } з не' — P — 2' — pJ
чикими або недермшованими значеннями; множина iмен атрибyтiв { Unk , Unk2, ..., Unkm}, доменами яких е числовi данi, що моделюють iмовiрнiснi данi, значення фyнкцiï' приналежностi нечпких множин, стyпiнь етин-ностi багатозначноï логiки, процентнi вiдношення, кое-фщенти, рiзноманiтнi шкали або лiнгвiстичнi ощнки; схеми словника синонiмiв Dic та схему метаданих Cg:
Cg'=<{Cj, C2,...,Cn}, {C unky, C_unk2, C unkp}, {Unky, Unk2, ...,Unkm}, Dic, Cg>.
Невизначеними вважаються значення атрибутов множини C_unk, а рiвень довiри до них зберiгаеться у зна-ченнях атрибyтiв множини Unk.
Для вщображення зв'язк1в мiж атрибутами множин C_unk та Unk використано бшарне вщношення Meta, значення якого визначаються на основi вибiрки представ-лення джерела i в каталозi даних Cg:
Meta = \metaj -CTarg(i)(Cg)| , Vi =1,p,Vj = 1,m,
11, Unk j ö C _ unki л Garg(,) (Dic) metaij =\ .
I 0, в шшому випадку
Сума по рядках бшарного вщношення рiвна 1, оскшь-ки вважатимемо, що стyпiнь довiри до атрибута не вка-зуватиметься двома i бiльше атрибутами iз множини Unk:
_ n
Vi = 1, p, ^ metaij = 1.
1
Введення вщношення Meta дозволить моделювати будь-як1 типи невизначеностей, не розширюючи доменiв атрибупв.
Кортеж консолiдованих даних dc - шформацшний опис об'екта t джерела даних S, поданий у виглядi множини (кортежу) значень характеристик (атрибупв), тдмножина значень атрибупв якого метить дат про об ' ект, джерело даних та синонiмiчнi назви об ' екта, при-
чому щ даш можуть бути неповш, нечита чи недетермь новат. Тобто, об'ект, який моделюеться у джерел1 даних цим кортежем, юнуе, але частина шформацп про нього ввдсугая, нечита, неповна, недетермшована тощо.
Наведемо приклади кортежу консолвдованих даних для р1зних титв шформацшних ресурав.
1. Реляцшна база даних - у цьому випадку використо-вуеться розширений реляцшний кортеж trei:
dc = trei u Unk, trel = {c1,..., cn } u {c _unk1,..., c _ unkm } ,
де {c1,..., cn} - значення ч1тких атрибупв, {c _ unk1,..., c _ unkm} - значення атрибупв з невизначе-тстю.
2. Сховище даних - поеднуе дат з вщгошень факпв та вим1р1в. Множину значень вим1р1в та характеристик факпв подано як кортеж tdw:
dc = tdw u Unk,
tdw = {c11,..., c1n } u ... u {ckl,..., ckn } u {crf 1,..., crfi} u
u {c _unkn,..., c_ unkm } u... u {c_unkk1,..., c_unkfrs } u u {c _ unkrf1,..., c _ unkf^ } ,
де cij - значения ч1тко! j-i характеристики i-го вим1ру, crfj - значення j-i характеристики вщношення факпв,
c _ unkj - значенняj-го атрибупв з невизначешстю i-го вим1ру, c _ unkrfj - значення j-i характеристики з невизначешстю вадношення факпв.
3. Напiвструкгурований текст - описуеться значення вершин семантично! мереж1 та стутнь належност1 цих значень до об'екпв, назви яких описаш у словнику си-ношм1в t.
text ■
dc = ttext u Unk .
ttext = {c1,..., cn} u{c _ unk\,.., c _ unkm}.
Значення атрибупв кортежу консолщованих даних подшимо на групи.
1.Ч1тк1 (в1дом1) - значення первинного ключа, зовшшшх клкшв (можуть бути ввдсутт). Позначимо !х через C.
2. В1дсутш - ф1зично вiдсугия шформашя. Позначимо !х через 1 .
3. Невизначеш - для тдмножин атрибупв введена множина атрибупв Unk, яю вказують стутнь ютинносп значень цих атрибупв. За замовчуванням значенню атрибута Unk присвоюемо значення, яке означае найви-щий стутнь ютинносп. Крайшми випадками введення невизначеносп е:
- додавання атрибупв типу Unk до уах атрибупв, кр1м члких;
- додавання атрибута Unk до уах значень кортежу.
Зауважимо, що, у випадку стовщсотково! дов1ри до кожного значення кортежу, ми отримуемо традицшний реляцшний кортеж та застосовуемо традицшш операцп над ним.
Кортеж консол1дованих даних dc - це множина значень характеристик об'екта сутносп, описана як
dc = <C, C_unk, Unk, {dic},{cg}>,
де C - шдмножина значень атрибупв 1з четкими значен-нями, C = trei u tdw u ttext, C_unk - тдмножина значень атрибупв 1з нечпкими та недетермшованими значення-ми, Unk - тдмножина значень атрибупв 1з ступенями ютинносп значень атрибупв C_unk i meta(C_unk, Unk)= 1, {dic} - множина значень словника даних, {cg} - множина значень метаданих.
Сховище даних з невизначешстю cg' - множина вщношень з1 схемою Cg' та множиною кортеж1в консо-лвдованих даних dc.
РОЗРОБЛЕННЯ ОПЕРАЦ1Й НАД КОНСОЛ1ДО-ВАНИМИ ДАНИМИ МОДЕЛ1 СХОВИЩА
Оск1льки сховище консолвдованих даних е розширен-ням сховища даних, побудованого на основ1 реляцшно! модел1, то дал1 удосконалимо операцп для роботи з ним.
Для опрацювання та анал1зу невизначеностей за допо-могою запиту в реляцшних операторах сл1д здшснювати селекцш кортеж1в за значеннями множини атрибупв Unk. У сховищ1 даних аналопчною до не! е операцгя зр1зу. Не-хай r та s - ввдношення з1 схемою R, r' та s - в1дношення з1 схемою R u Unk u Dic u Cg. Тод1 r n s, r u s i r - s е в1дношеннями з1 схемою R, а r' n s', r' u s' i r' - s' -в1дношеннями з1 схемою R u Unk u Dic u Cg.
Враховуючи ймов1ршсть атак (невизначешсть типу «багатозначн1сть») , вибираемо ii джерела даних, р1вень дов1ри до яких вищий за аналопчш:
' — ' ^ ^ max (P(n(Cg)))(Dic) u Cg.
Доповнення до вщношення r працюватиме коректно у раз1 присвоення вс1м значенням атрибута Unk найниж-чого ступеня дов1ри (апр1ор1 вважаеться, яка ця шформа-ц1я, що заноситься у ввдношення е правдивою та повною, а про решту 1нформац1! нам тчого неведомо). Обрання такого методу подання ступеия 1стинност1 за замовчуван-ням зд1йснено, виходячи з принципу замкненосп
Оператор зр1зу передбачае анал1з нечпкого значення за множиною значень атрибупв Unk.
slice ■ acons(Unk&unk)u(C _unk&c _unk)u (cg') = . !vu°C (Dic)u^C (Cg ) J
t e dc\t(Unk)®unk, t(C _ unk)®c _ unk, metaUnk c unk = 1, | oC (Dic) Is Not NULL,aC (Cg) Is Not NULL,unk = P(cg
где © - множина символ1в (знаюв) б1нарних в1дношень над парами значень домешв. Вважаеться, що до кожного
атрибута C_unk застосовуються операци пор1вняння. Як правило, будуть вживатися лише так1 знаки пор1вняння над одним доменом: =, <, <, >, >.
Твердження: Удосконалений оператор зр1зу, як i оператор виб1рки, зберiгаe властивостi комутативностi та дистрибутивносп ввдносно булевих операцiй.
Доведения
Нехай r' (R') - вщношення, R' ^ R и Unk и Dic и Cg, А i В - атрибути в R', i нехай a е dom(A), b е dom(ß). Тодi мае
мсцерiвHiCIЪ: CTCOnSA=a (ctß=b (r ')) = CTconsß=b (ct A=a (r')).
Удосконалений оператор зрiзу дистрибутивний ввдносно бшарних булевих операцiй:
SA=a (r V) =
_cons , („t\ CT A=a (r )
A=a
(s'),
де Y = n, и або -, а r i s' - вiдношення над одшею i тiею ж схемою.
Аналогом операцп згортання у сховищi даних, побу-дованому на основi реляцiйнiй моделi, е операщя про-екцИ. Здiйснюючи проекцiю вiдношення з кортежами консотдованих даних, слiд ввдслщковувати зв'язок щдмно-жини атрибутiв Unk iз тдмножиною атрибутiв С unk, а також перевiряти, чи для назви атрибута С unk е синошм у словнику синонiмiв Dic. Тому удосконалений оператор згортання подано так:
drill - down: п
X
s (cg') = IIF
ISNULL(CTCg =RuC _ Unk=X (c _ Unk ^ п X u^ (CTcg =meta(C _ unk №k)=l(c _ unk
IIf(ctC uC Unk=X (Dic) nCT
h
CuC Unk=X
(Dic)(r );п X (dc)
)
де IIF(yMoea; дгя 1; дгя 2) - оператор умови. У разi вико-нання умови виконуеться д1я 1, шакше д1я 2; ISNULL(r) -логiчний оператор, результатом якого е 1стина, якщо вiдношення-операнд r не мiститъ кортеж1в, та хиба -у iншому випадку. Також здшснюеться пошук синонiма атрибута у словнику синонiмiв Dic ( ctcuC _Unk=X (Dic)) та замiна за потреби (пстс uC _ Unk=X (Dic)(r)).
Твердження: Удосконалений оператор згортання збе-рпае властивосп традицiйного оператора проекци.
Доведения: Якщо Xj с X2 с.... с Xm с R', то
conn cons
г
nX1 \nX:
cons {nXm (cg
= п X1
s
(cg) •
Оператор з 'еднання використовуеться для зв'язуван-ня вiдношення фактiв та вщношень вимiрiв у сховищi консолвдованих даних, осюльки воно будуеться на основi реляцшно! моделi.
Традицiйний оператор з'еднання не може викорис-товуватися для сховищ та просторiв даних з консолвдова-ними даними, оск1льки для статистичного аналiзу необх-вдне з' еднання вщношення факт1в з вщношеннями вимiрiв, а за наявностi непорожньо! тдмножини атрибутов Unk у вщношеннях факIiв та вимiрiв таке з'еднання буде неко-ректним. Також на оператор з' еднання впливае той факт, що виникае необхщшсть з'еднання не лише за тими атрибутами, що вказаш як вхвдт параметри, але й пере-вiряти наявшсть синонiмiв у словнику синонiмiв Dic.
Для удосконалення оператора з' еднання слад розгля-нути випадки, коли вщношення е повнiстю з'еднуваль-ними або не повшстю з'еднувальними. Для повшстю з'еднувальних вiдношенъ уведення множини атрибупв Unk не впливае на операцш з'еднання. Якщо значення множини атрибупв Unk мiстятъ мiру невизначеносп зов-нiшнъого ключа вщношення, з яким вщбуваеться з'еднан-
ня, то ця Mipa невизначеностi переноситься на BCi решту значень атрибутiв цього вщношення. У випадку непов-но1 з'еднувальносп значення атрибута Unk для кортеж1в пщлегло! таблицi, як1 не потрапляють у вiдношення, будуть вважатися рiвними найвищому ступеня довiри•
across : г х cg = nFl ctcuC Unk=X(Dic); cons V
nCTCuC Unk=X(Dic)(r > < cg');п(R,B,NVL(Unk,min))(r > < cg')j ,
де r - традицiйне вщношення, cg' - вiдношення з консо-лщованими даними, R - множина атрибутов вщношення r, S - множина атрибупв вщношення cg', не включаю-чи тдмножини атрибут1в Unk (Cg' = Cg u Unk), В - множина тих атрибупв з S, яких нема у вщношент r (B с Cg, B ф Cg п R), min - значення, яке означае найнижчий стутнь довiри, NVL(Unk, min) - операщя, яка присвоюе min уйм значенням Unk для нез'еднувальних кортеж1в
в1дношення cg', ^ ^ - л1ве з'еднання.
Спочатку перевiряеться, чи необхiдно здiйснювати з'еднання не за заданими атрибутами, а за синошмами ( ctcuC Unk=X (Dic)). Якщо нi, то виконуеться операщя л1вого з' еднання для вiдношень з схемами S' i R та проек-цiя за атрибутами-синонiмами• У шшому випадку виконуеться операщя лiвого з'еднання за спiльними атрибутами, попм над отриманим з попередньо! операцй' вiдно-шенням здшснюеться операщя проекцп, за якою утвореним у результап з'еднання порожнiм значенням шдмножини атрибутiв Unk присвоюеться значення min.
Слад зазначити, що коли словник синонiмiв порожнiй (Dic = 0) i ймовiрнiсть звернення до джерел даних зага-лом та до 1х характеристик рiвнi одинищ (Unk = 1), то от-римаемо традицiйне реляцiйне з'еднання.
CT
I
Твердження: Удосконалений оператор з'еднання ко-мутативний та асощативний.
Доведения
Для даних вщношень д', г ' 1
( х г') х 5 ' = д ' х (г' х 5 ').
Введемо позначення для деяких багаторазових з' еднань. Нехай ^ ' (^ ') я2 ' ')..., ят' ') - вщношення,
Я' = 51 и 52 и... и Бт i 5 ' - послiдовнiсть
51 ,^2 ,...,5т . Дал1, нехай (2,..., (т- послвдовшстъ кор-
теж1в, в як1й гг е я ,1 < г < т. Кортеж! з'eднювальнi на 5',
якщо iснуe кортеж г е Я', такий, що гг = г (^ < г < т . Кортеж ге результатом з'еднання кортеж1в (1,г2,..., гте 5 '.
АГРЕГАЦ1Я РОЗРЩЖЕНОГО ППЕРКУБА ДАНИХ
Практика розроблення i впровадження реляцiйних систем збирання даних показала, що через рiзнi причини збiр первинних даних здiйснюеться лише частково, а тому не завжди може бути оптимальним для викорис-тання. Це приводить до необхщносп застосування бага-товимiрних баз даних з частковою або слабкою заповне-нiстю. При цьому створенi багатовимiрнi куби даних мають низьку щшьшсть заповнення даними, а тому е розрiдженими. Тому виникають так1 проблеми:
- низька ефективнiсть пошуку i витягання шформацЦ з розрщженого гшеркуба даних;
- некоректнiсть використання отриманих при агрегацЦ значень у розрщжених гшеркубах даних.
Разом з тим, розрщжеш гiперкуби даних мютять по-тенцiйно цiнну iнформацiю, ефективне використання яко! може вiдiграти значну роль при прийняттi рiшення.
Отже, основними проблемами, як1 виникають у задачах аналiзу розрiдження гшеркуба е зниження якостi рiшень та попршення агрегацЦ розрiджених гiперкубiв даних.
У бшьшосп випадк1в при створеннi шформацшних систем, орiентованих на аналiз даних, питання подання шформацЦ в розрщжених гиперкубах даних обходяться стороною. Та методи роботи зi щiльними i розрщжени-ми гiперкубами даних повинш iстотно рiзнитися. Тому, розроблення альтернативних методiв пошуку i агрегацЦ даних, що дозволяють вирiшити вищезгаданi проблеми, е актуальним завданням.
Покажемо, яким чином вплине вiдсутнiсть показни-ка нижнього рiвня на формування агрегату.
Перш за все наведемо методи обчислення агрегату. 1снуе дек1лька традицшних методiв агрегацЦ (табл. 1).
Вибiр того або шшого методу агрегацЦ даних зале-жить вiд конкретного вирiшуваного завдання. Техноло-гiчно процедура пiдрахунку агрегапв виконуеться з ви-користанням т.з. карт агрегацЦ, що включають стандартт
Таблиця 1. Стандартнi методи агрегаци
SUM Додавання деталiзоваиих даних N p = Е ^i i=1
WSUM Зважена сума N P = Е Pixi i=1
MIN (MAX) Мшмальне (максимальне) значення P = min( xi) leN
AVERAGE Середне значення N Е ^ p = i=1 N
WAVERAGE Зважене середне N Е px P = i=1 N Е pi i=1
методи агрегацЦ, вказаш в табл. 1. У багатьох популярних OLAP-системах як метод агрегацЦ «за замовчуванням» використовуеться метод додавання, що передбачае на-явшсть первинних даних на нижньому р1вш 1ерархЦ Про-те, виникае питання про застосовшсть цих метод1в при агрегаци даних в розрщжених гиперкубах.
При виршенш серйозних анал1тичних завдань аналь тику важливо знати не тшьки значения показника, але i те, насшльки вш може дов1ряти набутому значенню. Обчислення агрегата за методом середнього значення за наявносп первинних даних за уйма значеннями нижнього р1вня в 1ерархЦ дае 100 %-ву достов1ршсть, оск1ль-ки немае причин вважати, що це середне значення могло бути чим-небудь спотворене.
Очевидно, що в стандартних методах агрегацЦ не вра-ховуеться сшуащя невизначеносп первинних даних, що вщповщають деяким мггкам нижнього р1вня 1ерарх1чно-го вим1ру. Але ж саме таку ситуацш являе собою агре-гац1я даних у розр1дженому гшеркуба
П1д час виконання агрегацЦ в розрщженому гшеркуб1 за методом обчислення середнього необхщне введення додаткового параметра, що характеризуе р1вень в1ропд-носп отриманого результату. Технолопчно ця операщя може здшснюватися шляхом створення додатково! кар-ти агрегацЦ, що включае розрахунок р1вня в1ропдносп для кожного, отриманого в ход1 агрегацЦ, значення.
Обчислення агрегату на першому р1вш 1ерархЦ (/=1) здшснюеться за формулою:
JJ Г\
Е ag?
Ag) =
1 _ i=1
V,
де Vj - к1льк1сть факпв, яш вщповщають атрибутам, що е доч1ршми по вщношенню до атрибута j.
Узагальнюючи, одержимо формули обчислення агрегата на решп piBHiB iepapxii':
Узагальнюючи, одержимо формули обчислення аг-регат1в на решп р!вшв i^p^i':
V,
Z aSi
l-1
Agj =
l _ /=1
V,
,l = 1,...,N •
Розглянутий метод може бути застосований при по-буцовi карт агрегаци в розрщжених гшеркубах даних i дае можливiсть оц1нити piвень достовipностi одержаних результатов на етапi аналiзу.
Опишемо пропонований метод формально. Нехай ми маемо iеpаpхiчний вимip з N piвнями• Пеpвиннi данi вщиовщають нижньому piвню iеpаpхil (1=0). Поставимо у ввдповщшсть кожнiй /-ш мiтцi нижнього piвня iеpаpхil величину, що характеризуе мipу достовipностi факпв так (рис. 3): tj0 = 1 у випадку, якщо iснуе факт, що вiдповiдае цш мiтцi, i t= 0, якщо такого факту не юнуе.
Обчислення агрегату на певному piвнi iеpаpхil (1=1) здiйснюеться за формулою:
м,
X,1 = j=1
м,
де M, — шльшсть фактiв, як! вiдповiдають мггкам, що е дочipнiми по вщношенню до мткиj.
Обчислення р!вня достов!рносп ввдповвдного агрегату здшснюеться за формулою:
Z
T 1 = /=1 Tj K,
де Т, — юльюсть шток, що е доч!ршми по вщношенню до мпкиj.
i=1
2 X T
X T а X T
Iii
11||t|KlI'll I'.l 'I
Рис. 3. Агрегащя розрщженого гшеркуба даних
Mj
Zх-Xjl = j=1
l-1
M
,l = 1,...,N.
j
Розглянутий метод може застосовуватися для побу-дови карт агрегаци в pозpiджених гiпеpкубах даних i дае можливють ощнки р!вня дост^рносп одержаних резуль-татiв на еташ аналiзу•
ВИСНОВКИ
Визначено поняття терм^ Big Data i пpоаналiзовано причини 1'х появи. Також визначено одну з проблем Big Data — появу невизначеносп.
Побудовано модель сховища консолщованих даних, яка е розширенням моделi вiдношення з невизначенiстю•
Удосконалено операцй' над вiдношенням з невизначе-шстю з метою 1'х застосування до сховища консолiдова -них даних.
Побудовано процедуру попереднього формування агрегату з врахуванням невизначеностi•
СПИСОК ЛГГЕРАТУРИ
1. Шаховська, Н. Б. Анал1з метод1в опрацювання показниюв соцю-еколого-економ1чного розвитку регюну / Н. Б. Шаховська, Ю. Я. Болюбаш // Схщно-европейський журнал передовых технологш. — 2013. — Том 5, № 2(65). — С. 4—8.
2. Заде, Л. Понятие лингвистической переменной и его применение к принятию приближенных решений / Л. Заде. — М. : Мир, 1976. — 166 с.
3. Цельмер, Г. Учет риска при принятии управленческих решений/ Г. Цельмер // Проблемы МСНТИ. — 1980. — № 3. — С. 94—105.
4. Найт, Ф. Х. Риск, неопределенность и прибыль / Ф. Х. Найт. — М. : Дело, 2003. — 358 с.
5. Моисеев, Н. Н. Элементы теории оптимальных систем / Н. Н. Моисеев. — М. : Наука, 1975. — 528 с.
6. Трухачев, Р. И. Модели принятия решений в условиях неопределенности / Р. И. Трухачев. — М. : Наука, 1981. — 151 с.
7. Згуровський, М. З. Основи системного анал1зу / М. З. Згу-ровський, Н. Д. Панкратова. — К. : Видавнича група BHV, 2007. — 544 с.
8. Шаховська, Н. Б. Моделювання невизначеностей у схо-вищах даних реляцшного типу. — Льв1в, 2007. — автореферат дис. на здобуття канд. техн. наук
Стаття надшшла до редакци 27.12.2013.
0
K
Шаховска Н. Б.1, Болюбаш Ю. Я.2
1Д-р техн. наук, профессор, Национальный университет «Львивська политехника», Украина 2Соискатель, Национальный университет «Львивська политехника», Украина ОБРАБОТКИ НЕОПРЕДЕЛЕННОСТИ В БОЛЬШИХ ДАННЫХ
В статье введено понятие «Большие данные» и проанализированы причины их появления. Показано уровни возникновения неопределенности в «Больших данных». Сформирована модель хранилища данных с неопределенностью и разработаны операции над ним. Приведен метод формирования агрегата с учетом неопределенности.
Ключевые слова: большие данные, информационный продукт, неопределенность.
Shakhovska N.1, Bolubash Yu.2
1Doctor of Science, Professor, National University «Lviv Polytechnic», Ukraine 2Candidate for degree, National University «Lviv Polytechnic», Ukraine INDECISION PROCESSING IN BIG DATA
This paper introduced the concept of the term Big Data and analyzes the cause of their appearance. Thus, the specificity of Big data (the presence of diverse set of sources, data doubling, ambiguity describing data sources) leads to the fact that the indeterminacy in traditional relational databases considered within a relationship and could occur at the level of attribute and tuple-level attitude in this case extends through the perception of the user information on the entire data space. Therefore, for processing indeterminacy in the Big data must use a different approach, the need for the use of which has not had in relational databases and data warehouses. There is the level of uncertainty in the Big Data show. There are formed data warehouse model with uncertainty and developed operations on it. There is posted forming unit method, taking into account uncertainty. Keywords: big data, information product, uncertainness.
REFERENCES
1. Shakhovska N. B., Bolubash Yu. Ja. Analis metodiv opratsuvannia pokaznykiv sotsio-ekologo-ekonomichnogo rozvytku regionu, Shidno-yevropeyskij zhurnal peredovyh tehnologj, 2013,Vol. 5, No. 2(65), pp. 4-8
2. Zade L. Ponyatie lingvisticheskoj peremennoj i ego primenenie k priniatiyu reshenij. Moscow, Mir, 1976, 166 p.
3. Tselmer G. Utchet riska pri priniatii upravlencheskih reshenij, Problemu MSNTI, 1980, No. 3, pp. 94-105.
4. Nait Ph., Risk H., Neopredelennost i pribyl. Moscow, Delo, 2003, 358 p.
5. Moiseev N. N. Elementy teorii optialnyh sistem. Moscow, Nauka, 1975, 528 p.
6. Trukhachov R. I. Modeli priniatija reshenij v uslovijah neopredelennosti. Moscow, Nauka, 1981, 151 p.
7. Zgurovskyj M. Z., Pankratova N. D. Osnivy systemnogo analizu. Kiev, BHV, 2007, 544 p.
8. Shakhovska N. B. Modeluvannja nevyznachenostej u chovyshhah danyh reliatsijnogo typu. Lviv, 2007. avtoreferat dys. Na zdobuttia kand. tehn. nauk