Научная статья на тему 'Big Data Analytics Ontology'

Big Data Analytics Ontology Текст научной статьи по специальности «Экономика и бизнес»

CC BY
511
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОНТОЛОГіЯ АНАЛіЗУ BIG DATA / BIG DATA ANALYSIS ONTOLOGY / ДАНі ВіЗУАЛіЗАЦії / іНТЕЛЕКТУАЛЬНИЙ АНАЛіЗ ДАНИХ / TEXT MINING / MAPREDUCE / ДАННЫЕ ВИЗУАЛИЗАЦИИ / VISUALIZATION DATA / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / DATA MINING

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Lytvyn V., Vysotska V., Veres O., Brodyak O., Oryshchyn O.

The object of this research is the Big Data (BD) analysis processes. One of the most problematic places is the lack of a clear classification of BD analysis methods, the presence of which will greatly facilitate the selection of an optimal and efficient algorithm for analyzing these data depending on their structure. In the course of the study, Data Mining methods, Technologies Tech Mining, MapReduce technology, data visualization, other technologies and analysis techniques were used. This allows to determine their main characteristics and features for constructing a formal analysis model for Big Data. The rules for analyzing Big Data in the form of an ontological knowledge base are developed with the aim of using it to process and analyze any data. A classifier for forming a set of Big Data analysis rules has been obtained. Each BD has a set of parameters and criteria that determine the methods and technologies of analysis. The very purpose of BD, its structure and content determine the techniques and technologies for further analysis. Thanks to the developed ontology of the knowledge base of BD analysis with Protege 3.4.7 and the set of RABD rules built in them, the process of selecting the methodologies and technologies for further analysis is shortened and the analysis of the selected BD is automated. This is due to the fact that the proposed approach to the analysis of Big Data has a number of features, in particular ontological knowledge base based on modern methods of artificial intelligence. Thanks to this, it is possible to obtain a complete set of Big Data analysis rules. This is possible only if the parameters and criteria of a specific Big Data are analyzed clearly.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Big Data Analytics Ontology»

DOI: 10.15587/2312-8372.2018.123612

ОНТОЛОГ1Я АНАЛ1ЗУ BIG DATA

Литвин В. В., Висоцька В. А., Верес О. М., Бродяк О. Я., Орищин О. Г.

1. Вступ

При штенсивному розвитку б1знесу, для збереження конкурентоспроможносп тдприемства та опрацювання значних обсяпв накопичених структурованих та не-структурованих даних, допомогу надае шформащйна технологш (IT) Big Data (BD). Актуальним е застосування метод1в i технологш анашзу BD та штегровано! плат-форми для Business Intelligence. BD дають змогу побачити i зрозумпи зв'язки мш фрагментами шформацп. Це безл1ч нових завдань громадсько! безпеки, глобальних економ1чних моделей, недоторканност приватного життя, усталених моральних правил, правових вщносин людини, б1знесу та держави.

У зв'язку з1 швидким поширенням розумних i взаемопов'язаних пристрош i систем, обсяг з1браних даних зростае загрозливими темпами. У деяких галузях близько 90 % даних збер1гаються в неструктурованому виглядц а !х обсяг збтьшуеться понад 50 % щор1чно. Для збереження конкурентоспроможносп, шноващй i швидкого ви-ведення продукпв i послуг на ринок необх1дно мати можливють анашзувати щ дат i отримувати на !х основ1 аналпичну шформащю швидко та економ1чно. Що стосуеть-ся анашзу BD i шших аналпичних завдань, поточш ршення не забезпечують швид-юсть реакцп шформацшно! системи (1С), необхщну для роботи 1з завданнями аналь зу, що знижуе продуктившсть користувача i затягуе процес прийняття ршень [1, 2]. Змшюються споживач1, змшюеться св1т б1знесу. Сьогодт вже недостатньо досль дження тльки даних про продажа Мета розгортання штегровано! платформи для Business Intelligence (BI) i анал1зу BD полягае в тому, щоб копати глибше i краще ро-зумгш - чому, де, що i як - про кшенпв, продукти i компани. Змшюються методи ве-дення б1знесу. Змшюеться поведшка споживач1в. Змшюються сам споживачг Для збереження конкурентоспроможносп пщприемства прагнуть в реальному час д1зна-ватися, коли кшенти щось купують, де вони купують, i нашть що вони думають перед тим, як зайти в магазин або вщвщати Web-сайт. Допомогу в цьому надають BD, анал1з BD та штегрована платформа для BI i анашзу BD [1-4].

2. Обект дослiдження та його технолопчний аудит

Обектом данного дослгдження е процеси анал1зу Big Data.

На вход1 системи е методи та IT анал1зу BD, як описш в [1-5]. На виход1 системи е онтолопчна модель правил анал1зу BD O=<X,R,F>. Таксоном1я понять онтологп'Х задае методику анал1зу Big Data ABD (кореневе поняття онтоло-гн). Оптимальне визначення множини вщношень м1ж цими поняттями R та множини правил F анал1зу BD, формал1зованих за допомогою дескриптивно! лопки DL, дозволить ефективно опрацьовувати BD, тобто: S: RABD^-O.

Одним з найбшьш проблемних м1сць е вщсутнють ч1тко! класифшацн ме-тод1в анал1зу BD, наявнють яко! значно полегшить виб1р оптимального та ефек-тивного алгоритму анал1зу цих даних в залежносл в1д !х структури. Анал1з BD

мають вагоме практичне значення для сучасних IT та слугуе виршенню актуа-льних повсякденних проблем, але при цьому породжуе ще бiльше нових. Ефек-тивний та своечасний анаи BD здатний змiнити наш спошб життя, працi i мис-лення. Одшею з умов успiшного розвитку свггово1 економiки на сучасному ета-пi стае можливiсть фiксувати i аналiзувати величезнi масиви i потоки шформа-цil. Краши, якi оволодшть найбiльш ефективними методами роботи з BD, чекае нова iндустрiальна револющя. Напрямок «Big Data» концентруе зусилля в ор-гашзацп зберiгання, опрацювання, аналiзу величезних масивiв даних. Пошире-ною помилкою навколо великих обсяпв даних е очiкування, що придбання по-тужно! комп'ютерно! iнфраструктури негайно забезпечить переваги для бiзне-су, замють того, щоб IT, шформатика i математична наука йшли рука в руку. 1нфраструктура е необхщною, але отримання користi вiд великих обсяпв даних вимагае також застосування бшьш складних методiв !х анаизу.

3. Мета та задачi дослщження

Мета дослгдження - розроблення програмно! системи S формаизацп правил анаизу Big Data RABD у виглядi онтолопчно1 бази знань (БЗ) з метою li використання для опрацювання та анаизу будь-яких BD.

Для досягнення поставлено1 мети необхщно:

1. Дослiдити особливостi класифжацп методiв i технологiй аналiтики Big Data з врахуванням означення та особливост застосування вщповщних IT.

2. Розробити формальну модель аналiзу BD.

3. Розробити онтолопчну БЗ аналiзу BD.

4. Побудувати правила анаизу Bg ^ ^ta RABD.

4. Дослщження кнуючих рiшень проблеми

Стандартна бiзнес-практика великомасштабного аналiзу даних грунтуеться на понятл EDW (Enterprise Data Warehouse), запити до якого надходять вщ про-грамного забезпечення (ПЗ) BI [1-5]. 1нструменти BI дають змогу створювати звiти та iнтерактивнi штерфейси, узагальнювати данi за допомогою агрегатних функцiй до рiзноманiтних розподiлiв iерархiчних даних на групи.

Ретельно спроектоване EDW вщграе центральну роль при правильному застосуванш IT. Проектування та еволющя детально1 схеми сховища знань (СД) е загальним принципом дисциплшовано1 штеграцп даних великих пiдприемств, удосконалюючи результати та подання всiх бiзнес-процесiв. Ре-зультуюча база даних (БД) вщграе роль репозиторш характеристик критичних бiзнес-функцiй. Крiм того, сервер БД, що збер^ае СД, традицiйно е основним обчислювальним засобом, який слугуе центральним, масштабуючим мехашзмом ключово1 корпоративно1 аналггики. Концептуальне та обчислю-вальне центральне мiсце СД робить його критично важливим дорогим ресурсом, який використовують для продукування звiтiв з великою кшьюстю даних. I щ звiти орiентують на керiвних ошб, якi ухвалюють рiшення. СД традицшно контролюеться спецiально призначеними спiвробiтниками IT, як не тiльки су-проводжують ГС, а й ретельно контролюють доступ до не1, щоб керiвнi особи могли ар^нтовано розраховувати на високий рiвень обслуговування [5].

Хоча в багатьох ситуашях цей ортодоксальний шдхщ СД продовжуе засто-совуватися, ряд факторiв сприяе просуванню зовшм iншоï фiлософiï управлiння великомасштабними даними на тдприемствах. Зберiгання даних тепер обходиться настшьки дешево, що невелик пiдгрупи тдприемства можуть розробити окрему БД астрономiчного масштабу в межах свого власного бюджету. Кшьюсть внутршньо-корпоративних великомасштабних джерел даних значно зростае: великi БД сьогодш виникають навiть на основi единого джерела потоюв даних про вщвщування Web-сайтiв (click-stream), журналiв 1С, архiвiв е-пошти i форумiв тощо. Загальновизнаною стае значимiсть аналiзу даних. Численш компанiï демонструють, що складний анашз даних сприяе скорочен-ню витрат та навпъ прямого зростання доходiв. Результатом цих можливостей е масовий переход до збирання та використання даних в декшькох органiзацiйних одиницях корпорацш. Перевага цього переходу полягае у шдвищенш ефективностi та зростанш культури використання даних, але вш посилюе децентралiзацiю даних, з яко1' покликане боротися СД. У цьому змшному кль матi збирання розрiзнених великомасштабних даних доцiльним е шдхщ MAD (Magnetic, Agile, Deep data analysis) [5].

У сучасному аналiзi BD використовують все бiльш складш статистичнi ме-тоди, що далеко виходять за межi узагальнення (rollup) i детаизацп (drilldown) традицiйних методiв BI. При виконаннi цих алгоритмiв аналiтикам часто потрiбно дослiджувати величезш набори даних, не вдаючись до використання зразюв i вибiрок. Сучасне СД мае служити i грунтовним (глибоким) репозиторiем даних, i мехашзмом пiдтримки виконання складних алгоритмiв. Сьогодш е зростаюча потреба в могутшх аналiтиках даних. Часто вони е висококвашфжованими статистиками, що володiють хорошими знаннями в област ПЗ, але зазвичай фокусуються на грунтовному аналiзi даних, а не на управлшш БД. Для пiдтримки ïхньоï дiяльностi потрiбно застосовувати пiдхiд MAD до проектування СД та створення шфраструктури систем БД. При досягненш даних цшей виникають важливi проблеми вибору методiв та 1Т для анаизу BD. Робота з BD не подiбна на звичайний процес BI, де просте дода-вання вщомих значень приносить результат. При робот з BD результат вихо-дить в процес 1'хнього очищення шляхом послщовного моделювання: спочатку висуваеться гшотеза, будуеться статистична, вiзуальна або семантична модель, на ïï пiдставi перевiряеться достовiрнiсть висунуто!' гiпотези i попм висуваеться наступна. Цей процес вимагае вщ дослiдника або iнтерпретацiï вiзуальних значень, або складання штерактивних запитiв на основi знань, або розроблення адаптивних алгоритмiв ML, здатних отримати потрiбний результат. Причому час життя такого алгоритму часто досить короткий [2, 6]. G п'ять основних пiдходiв до анаизу BD [7]:

1. Discovery ¡нструменти корисш впродовж життевого циклу шформацп для швидкого, iнтуïтивного вивчення та анаизу iнформацiï, отримано1' з будь-яко1' комбiнацiï структурованих i неструктурованих джерел. Даш додатки дають можливють анаизу джерел даних поряд з традицшними системами BI. Вiдсутне попередне моделювання, користувачi швидко залучають новi ще1', формують значущi висновки, i приймають обгрунтоваш рiшення.

2. 1нструменти BI мають важливе значення для звггносл, аналiзу та управ-лiння ефективнiстю, в першу чергу з транзакцшних даних 3i СД та 1С виробницт-ва. Додатки забезпечують широкi можливостi для BI та управлшня ефективнiстю.

3. In-DatabaseAnalytics - методи для пошуку шаблошв i вiдношень в даних. Застосовують в БД, вщсутне перемiщення даних з шших аналггичних серверiв, що прискорюе цикл опрацювання iнформацiï та зменшуе сукупну вартiсть.

4. Hadoop - попередне опрацювання даних для трендiв макро щентичнос-тi або знаходження елеменлв даних значення ОЦТОБ^апазону. Оргашзацп використовують Hadoop як прекурсор для форм аналггики.

5. Управлшня ргшеннями - прогнозне моделювання, бiзнес-правила та са-монавчання для прийняття обгрунтованого рiшення на основi поточного контексту. Створюе процеси прийняття ршень в режимi реального часу.

Вс цi пiдходи застосовуються для виявлення прихованих взаемозв'язмв.

Сьогоднi немае вщмшносл у вживаннi термiнiв Big Data i Big Data Analytics. Ц термши описують як сам данi, так i технологiï управлшня та методи аналiзу [8-10]. Big Data Analytics е розвитком концепцп' Data Mining. Одш i п ж завдання, сфери застосування, джерела даних, методи та IT. З моменту появи концепцп Data Mining до настання ери BD революцшним чином змшилися обсяги даних, що ана-лiзуються, з'явилися 1С високопродуктивних обчислень, новi IT, в тому чи^ MapReduce та ïï численне ПЗ. З появою соцiальних мереж з'явилися i новi завдання. Data Mining е процесом шдтримки ухвалення рiшень, що грунтуеться на пошуку в сирих даних прихованих закономiрностей, ранiше невiдомих, нетривiальних, практично корисних та доступних штерпретацп знань, необхiдних для ухвалення ршень в рiзних сферах людсько!' дiяльностi [10-12].

Data Mining е особливим тдходом до аналiзу даних. Акцент робиться не тшьки на добуванш фактiв, а й на генерацп гiпотез. Створенi в процесi гшотези необхiдно перевiряти за допомогою звичайного аналiзу в рамках звичних схем i/або зi залученням експертiв предметно!' обласл (ПО). В даному rn^^i використовують традицiйнi iнструменти аналiзу, такi як математична статистика (регресшний, кореляцiйний, кластерний, факторний аналiз, аналiз часових рядiв, дерева рiшень тощо). А також тi iнструменти, що пов'язаш зi штучним iнтелектом (Ш1) (ML, нейроннi мережi, генетичнi алгоритми, нечiтка логiка тощо). Якщо шдхщ DataMining доповнити технологiею MapReduce i вимогою 4V (Volume (обсяг), Velocity (швидюсть), Variety ^зномаштнють), Veracity (достовiрнiсть)), то це вiдобразить функцiональнi зв'язки Big Data Analytics. Аналiз великих обсяпв даних i необхщносл зрозумгги значення з iндивiдуальноï поведiнки вимагають методiв опрацювання, якi виходять за рамки традицшних статистичних методiв [10-13]. В [13] запропоновний список методик i методiв аналiзу BD, який не претендуе на повноту, проте в ньому вщображеш найбшьш затребуваш в рiзних галузях пiдходи. Крiм того, деякi з BD даних i можуть з устхом використовуватися для менших за обсягом масивiв (наприклад, A/B-тестування, регресшний аналiз). Безумовно, чим бiльший i диверсифжований масив пiддаеться аналiзу, тим точн^ та релевантнi данi вдаеться отримати на виходг

5. Методи дослщжень

Big Data - cepia щдходав, шструменпв i методш опрацювання структурованих та неструктурованих даних величезних обсяггв. Це також джерело значного piзноманiття для отримання зрозумтих людиною peзультатiв, ефективних в умовах безперервного приросту, розподту по вузлах мepeжi, альтернативних традицшним системам управ-лiння БД i piшeнь класу BI [7]. G три типи завдань пов'язаних з BD [1-4, 6, 7]: зберь гання i управлшня, опрацювання неструктуровано! шформаци, анашз BD (рис. 1).

Рис. 1. Функцюнальш зв'язки аналгтики Big Data Формальна модель BD як IT мае таке подання [8, 9]:

BD=< VoIbd, Ip, Abd, Tbd>,

(1)

де VolBD - множина титв обсяпв; Ip - множина титв джерел даних (шформа-цшних пpодуктiв); ABD - множина методик анаизу Big Data; TBD - множина технологи опрацювання Big Data.

Виходячи з означення BD [9], можна сформулювати оcновнi принципи роботи з такими даними: горизонтальна масштабованють, cтiйкicть до вiдмов та локаль-нicть даних. Уci сучасш засоби роботи з BD так чи iнакшe вiдповiдають цим трьом принципам. Для того, щоб !х дотримуватися, нeобхiдно придумувати якicь методи, способи i парадигми розроблення заcобiв опрацювання даних. Сьогоднi наявна множина Abd={A} piзноманiтних методик аналзу маcивiв даних, в оcновi яких ле-жить шструментарш, запозичений з статистики та шформатики (рис. 2, 3).

Рис. 2. Групи мeтодiв аналгтики Big Data

Рис. 3. Шдкласи класу Big Data analysis засобами Protégé 3.4.7 Групи методв та технолог1й для аналзу BD формально подамо у вигляд кортежу:

ABD {Müata Mining, -MMachine Learning, M-Visualization, TText Mining, TMapReduce,

Tother, Kbd, fdm, fml, fmv, fmt, fmr, fmo),

(2)

де MDataMining - Ha6ip методики видобування даних (Data Mining); MMachine Learning - Ha6ip методики Machine Learning; Mvisuaiization - методи грaфiчного подання aнaлiзу BD; TrextMining - технологи Text Mining; TMapReduce - технологи MapReduce;

Tother - iншi конкретнi методи та технологи для aнaлiзу в BD; fdm - функщя визначення методики Data Mining вщповщно до типу задачц fml - функц1я визначення методики Machine Learning вщповщно до типу зaдaчi; fmv - функщя визн' ^ я м'^о, :ки грaфiчного подання aнaлiзу BD вщпо-вiдно до типу задачу

fmt - функцiя визначення технологи Text Mining вщповщно до типу задачу fmr - функцiя визначення технологи MapReduce вщповщно до типу задачц fmo - функц1я визначення шшо! методики aнaлiзу BD вщповщно до типу зaдaчi. Причому

K-U CI Kßp Та Kß]j Kj}afa Mining U КMachine Learning U КVisualization U U Kjgxf Mining^} ^MapReduce U other

(3)

ge KBD - KpHTepii Ta napaMeTpn aHani3y BD;

Ku - KpHTepii Ta napaMeTpn aHani3y K0HKpeTH0i BD; KData Mining - KpHTepii Ta napaMeipu BH6opy MeTogHKH Data Mining BignoBigHo Ku; KMachmeLeconhg - KpHTepii Ta napaMeipu BH6opy MerogHKH Machine Learning BignoBigHO Ku, K^smiizcition - KpHTepii Ta napaMeTpu BH6opy MeTogHKH Visualization BignoBigHO Ku; KText Mining - KpHTepii Ta napaMerpu BH6opy TexHonorii Text Mining BignoBigHo Ku; KMapReduce - KpHTepii Ta napaMeTpH BH6opy TexHonorii MapReduce BignoBigHo Ku;

Kother - критери та параметри вибору шшо1 методики аналзу BD вщповщно Kv.

Необхщнють в нових засобах для aHani3y BD обгрунтована тим, що даних стае бтьше, бтьше ix зовнiшнiх i внyтрiшнiх джерел, тепер вони склaднiшi та рiзномa-нiтнiшi (стрyктyровaнi, нестрyктyровaнi та слабо структуроваш), використовуються рiзнi схеми щдексацп (реляцiйнi, бaгaтовимiрнi, noSQL). Колишнi способи опрацю-вання даних е неефективними - Big Data Analytics поширюеться на великi i склaднi масиви, в тому чи^ Discovery Analytics i Exploratory Analytics.

Data Mining або штелектуальний aнaлiз даних е виявленням прихованих взаемозв'язюв або зaкономiрностей мiж змiнними у великих масивах неопра-цьованих даних. Вибiр методу Data Mining для анаизу BD залежить вiд типу зaдaчi. Вщповщно, згiдно (2) MData Mining подамо як кортеж:

MData Mining = (TkData Mining, MdData Mining, fdm, KData m g (4)

де TkData Mining зaдaчi видобування даних (Data Mining) при TkData Mining=fdm(MdData Mining, KData Mining); MdData Mining - методи видобування даних (Data Mining).

Застосування методiв Data Mining дае змогу розв'язати таю зaдaчi [14-18]:

TkData Mining CClassification, TClustering, TAssociations, TSequence, TForecasting, TDeviation Detection, TEstimation, TLinkAnalysis, TGraph Mining, TSummarization)? (5)

де TClassification - виявлення ознак, яю описують групи об'ектш нaборiв дослщжуваних даних - класи; за даними ознаками новий об'ект належатиме до того чи шшого класу;

TClustering - клaстеризaцiя (подш) об'ектiв на групи;

TAssociaticms - знаходження зaкономiрностей мгж пов'язаними подями у нaборi даних;

TSequence - виявлення взаемозв'язку мiж пов'язаними у чаш подiями (посль довнiсть вирiзняеться високою ймовiрнiстю ланцюжка пов'язаних у чаш подш);

TForecasting - на грунт особливих властивостей накопичених даних оцшю-ються майбутш значення показниюв;

TDeviation Detection - виявлення й анаиз даних, що найбшьше вiдрiзняються вiд загально! чисельностi даних, виявлення нехарактерних шаблошв;

TEstimation - прогноз безперервних значень ознак;

TLinkAnalysis - знаходження залежностей у нaборi даних;

Toraph Mining - створення грaфiчного образу анаизованих даних для шюстра-цп нaявностi зaкономiрностей в даних;

TSummarZatKn - опис конкретних груп об'ектв за допомогою анал1зованого набору даних.

Так, вщповщно до (3), (4) для розв'язання TClaSsfCatim=ftc(MTData Mining) використовують:

-MTData Mining (CMNearest Neighbor, -Mk-Nearest Neighbor,

M^Baye,sian Networks, -MTree, -^Neural NetworksA (6)

де MNearest Neighbor - метод найближчих сусщв для клaсифiкaцii даних; Mk Nearest Neighbor - метод k-Nearest Neighbor для класифшацп даних; MBayesian Networks - Bayesian Networks для класифкацп даних;

MNeural Networks - Neural Network для класифкацп даних; MTree - щдукщя дерев ршень для класифшацп даних; ftc - функцiя визначення методу Data Mining для задачi класифжацп. Найвiдомiший алгоритм розв'язку TAssoCiati0ns=apriori(Data, Signs, Rules). Data Mining e набором методик, який дае змогу визначити найсприйнятли-вiшi для продукту, що просуваеться, або послуги категорп споживачiв, виявити особливостi найбiльш успiшних пращвниюв, передбачити поведiнкову модель споживачiв тощо [10-12], тобто:

-MdData Mining {MDSupervised Learning, M-DUnsupervised Learning, -MDSt, -MDCb):>

(7)

де MTData Mining - множина методiв Data Mining для задачi класифiкацiï;

MDSLeamnig - множина методв Data Mining навчання з учителем (Supervised Learning); MDULearning - множина методiв навчання без учителя (Unsupervised Learning); MDSt - статистичш методи Data Mining для анаизу BD; MDCb - юбернетичш методи Data Mining для анаизу BD. 1нша класифiкацiя методiв Data Mining грунтуеться на рiзних пiдходах що-до навчання математичним моделям (рис. 4, 5) [14-18].

BDA-ontology-1 (http: www.semanticweb.org/ 7 'BDA-ontoI o i/-i) [[' Documents and Settings'Administrat.., □ H CE3

File Edit View Reasoner Tools Refactor Window Help | < [ | BDA-ontology-1 (http://www.semanticweb.org/administrator/ontologie

2017/

ntology-1)

Search...

Active Ontology x Entities x Individuals by das; x DL Query x Classes x| Class hierarchy Class hierarchy (inferred) Annotations Usage

—i'

Asserted ▼

0ШННВ1 Annotations: Neural.Network;

ашнин

t; & &

▼ Щ owl:Thing

▼ ■ Big_Data_Analytics

▼ Data_Mining_methods

Genetic_Algorithms Ensemble_Learning

Supervised_and_Unsupervised_Learning Machine_Learning Outlier_Analysis Association_Anaiysis Decision_Trees Time_Series_Aanalysis Regression Cluster_Analysis Classification

Association_Rule_Learning Text_Mining_technologies MapReduce_technoiogy Data_visualization

Other_anaiytical_methods_and_technologies

Description: Neural Networks

lEtEHBS

Data_Mining_methods

General class axioms SubClass Of (Anonymous Ancestor) Instances ^^ Target for Key ^y^ Disjoint With

No Reasonerset. Select a reasoner from the Reasoner menu ✓ Show Inferences

Рис. 4. Пщкласи класу Data Mining Methods

Статистичш методи Data Mining мютять: попереднш анамз природи стати-стичних даних, виявлення зв'язюв i закономiрностей, багатовимiрний статисти-чний анамз, динамiчнi моделi i прогноз на oraoBi часових рядiв:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

MDst=(MSj, MS2, MS3, MS)

(8)

де MSi - дескриптивний анашз i опис початкових даних; MS2 - анашз зв'язкiв (ко-реляцiйний i регресiйний, факторний, дисперсiйний); MS3 - бaгaтовимiрний статис-тичний aнaлiз (компонентний, дискримшантний, бaгaтовимiрний регресiйний, ка-нотчт кореляцii); MS4 - aнaлiз часових рядiв (динaмiчнi моделi i прогнозування).

Рис. 5. Методи iнтелектуaльного анаизу Big Data

Для вирiшення завдання кластеризацп на графах застосувують алгоритм Girvanand Newman, методу MLP (Markov Cluster Algorithm). Приклад - сегмен-тування ринку. Регресшний aнaлiз використовують для визначення:

- впливу рiвня зaдоволеностi кменпв на лояльнiсть кменпв;

- зaлежностi кiлькостi опор прийнятих виклиюв вiд прогнозу погоди, з огляду на попереднш день;

- впливу сусщства i розмiру на цшу лiстингу будинкiв;

- сумюност у життi користувача через онлайн сайт знайомств тощо. Анaлiз часових рядiв - вiдстеження ринку цшних пaперiв або захворюва-

ностi пацдетлв. Анaлiз викидiв застосовують для виявлення шахрайства, особи-стого маркетингу, медичного aнaлiзу [19-23]. До кiбернетичних методiв DataMining належать тaкi методи [23-27]:

MDcb=(MCi, MC2, MC3, MC4, MC5, MC6, MC7), (9)

де MC1 - еволюцшне програмування; MC2 - асощативна пам'ять (пошук анало-пв, прототипiв); MC3 - нечiткa лопка; MC4 - дерева рiшень; MC5 - системи опрацювання експертних знань; MC6 - штучнi нейроннi мереж! (розпiзнaвaння, клaстеризaцiя, прогноз); MC7 - генетичш алгоритми (оптим!з'ц!я).

MC6 - це клас моделей, що грунтуються на аналоги з робото^ -оз , лю-дини та призначаються для розв'язання рiзноманiтних задач аналiзу даних пiсля проходження етапу навчання на даних. MC6 - це модель бюлопчних нейронних мереж мозку, в яких нейрони iмiтуються однотипними елементами (штучними нейронами). MC6 застосовують для розв'язання таких задач:

- автоматизащя процешв розшзнавання образiв;

- прогнозування показниюв дiяльностi тдприемства;

- медична дiагностика; прогнозування;

- адаптивне управлшня;

- створення експертних систем;

- оргашзащя асоцiативноï пам'ятi;

- оброблення аналогових та цифрових сигналiв;

- синтез та iдентифiкацiя електронних систем. За допомогою MC6 можна, наприклад, передбачати обсяги продаж, показники фшансового ринку, розпiзнавати сигнали, розробляти самонавчальш системи;

MC7 навiянi природою еволюцшних процесiв, тобто за допомогою таких механiзмiв, як успадкування, мутацн i природного добору. Цi мехашзми вико-ристовують для еволюцiонування корисного виршення проблем, якi вимагають оптимiзацiï. MC7 використовують для розв'язку таких задач:

- формування розкладу лiкарiв для лiкарнi швидкоï допомоги;

- створення комбшацп оптимальних матерiалiв та шженерних методiв, необхiдних для розробки економiчних автомобiлiв;

- генерування штучно творчого контенту, такого як каламбури i жарти;

- прогнозування шдексу фондового ринку за допомогою аналiзу часових рядiв. Для аналiзу ринкового кошика застосовують аналiз прихованих закономiрностей (Association Analysis). Статистичну класифiкацiю використовують для автоматичного призначення категорп документам; класифжацп органiзмiв на групи; розробленння профiлiв студентiв, якi приймають онлайн-курси; цiлеспрямованого пiдбору пращвниюв (focuse dhiring) тощо.

Ще одним щкавим напрямом в штучному штелекл (Ш1) для аналiзу BD е Machine Learning (ML). Це напрям в iнформатицi (iсторично за ним закршилася назва «штучний штеллект»), який мае на метi створення алгоршшв самонавчання на основi аналiзу емшричних даних. ML утворений як результат подшу науки про нейромережi на методи навчання мереж i види топологш архггектури мереж. Вiн також мiстить методи математичноï статистики. Зазначеш нижче способи ML грунтуються на нейромережах. Базовi види нейромереж, а саме, перцептрон та ба-гатошаровий перцептрон (та ïхнi модифiкацiï) можуть навчатися як з учителем, без вчителя, з пiдкрiпленням i активно. Однак, бiльшiсть статистичних методiв i деяю нейромереж1 належать т1льки до одного зi способiв навчання:

MMachineLearning=(ML1, ML2, ML3, ML4, ML5, ML6, ML7,

ML8, MLЪ MLW, fm1, KMachine LearningX (Ю)

де ML1 - методи навчання з учителем; ML2 - методи навчання без учителя;

ML3 - методи навчання з шдкршленням;

ML4 - методи активного навчання;

ML5 - методи навчання з частковим залученням учителя;

ML6 - методи трансдуктивного навчання;

ML7 - методи багатозадачного навчання;

ML8 - методи рiзноманiтного навчання;

ML9 - методи керованого i некерованого навчання;

MLio - методи ансамблю навчання.

ML мютить ПЗ, яке здатне видобувати знання з даних. Це дае 1С можливють вчитися, не будучи явно запрограмованими, та фокусуеться на прогнозуванш на основi вщомих властивостей, видобутих з наборiв навчальних даних. Сьогодш ML використовують:

- для розтзнавання спам i не спаму повщомлень е-пошти;

- для отримання знань про переваги користувача та надання рекомендацш, що грунтуються на данш шформацн;

- для визначення кращого контенту для залучення потенцiйних клieнтiв;

- для отримання ймовiрностi виграшу справи та встановлення юридич-них норм пред'явлених рахунюв.

ML9 дають змогу виявити функщональш взаемозв'язки в аналiзованих ма-сивах даних. MLl0 використовуе множину предикативних моделей за рахунок чого шдвищуеться яюсть зроблених прогнозiв.

Методи графiчного подання результатiв аналiзу BD MVisualization у виглад дiаграм або ашмацп значно спрощують iнтерпретацiю та полегшують розумiння отриманих результатiв [27-31]. Новими прогресивними методами вiзуалiзацiï е:

Mvisualization = <MVh MV2, MV3, MV4, fmv, Kvisualization), (11)

де MVl - хмара тегтв; MV2 - кластерграма; MV3 - iсторичний потк; MV4 - просторовий поттк.

Кожному елементу в MVl присвоюють певний ваговий коефiцieнт, який корелюе з розмiром шрифту [32-36]. У разi аналiзу тексту величина вагового коефщента безпосередньо залежить вiд частоти вживання (цитування) певного слова або словосполучення. Дае змогу читачевi в сти^ термiни отримати уявлення про ключовi моменти ск1льки завгодно великого тексту або набору текств. MV2 показуе як окремi елементи множини даних сшввщносяться з кластерами в мiру змiни ïхньоï кiлькостi. Вибiр оптимальноï кiлькостi кластерiв - важлива складова кластерного аналiзу. MV3 допомагае стежити за еволюцieю документа, над створен-ням якого працюе одночасно велика ктьюсть авторiв. По горизонтальнiй ош вiдкладаeться час, по вертикальнiй - внесок кожного з спiвавторiв, тобто обсяг вве-деного тексту. Кожному ункальному автору присвоюеться певний колiр на дiаграмi. MV4 дае змогу вщстежувати просторовий розподгл iнформацiï. Чим яскравiше лiнLя - тим бтьше даних передаеться за одиницю часу [36-37].

Шдгрунтям TTextMining е статистичний та лшгвютичний аналiз, методи штучного штелекту. Дана технолопя застосовуеться для проведення аналiзу, забез-печення навiгацiï та пошуку в неструктурованих текстах [38-42]. Застосування 1Т класу TTextMining дае змогу користувачам набувати нових знань. Це набiр ме-

тодiв, як призначенi для видобування ведомостей з TeKCTiB на ochobí сучасних IT, що дае змогу виявити закономiрностi, та забезпечити отримання користува-чами корисних даних та нових знань (рис. 6):

TTextMining=(MTi, MT2, MT3, MT4, MT5, MT6, MT7, MT8, MT9, MT10, MT11, ffmt, KTextMining),

(12)

де MT1 - класифшащя (classification); MT2 - кластеризащя (clustering);

MT3 - побудова семантичних мереж або аналiз зв'язюв (Relationship, Event andFact Extraction);

MT4 - здобуття феноменiв, факпв, понять (feature extraction);

MT5 - автоматичне реферування, створення анотацiй (summarization);

MT6 - вщповщь на запити (question answering);

MT7 - тематичне шдексування (thematic indexing);

MT8 - пошук за ключовими словами (keyword searching);

MT9 - засоби тдтримки та створення таксономii (oftaxonomies);

MT10 - засоби тдтримки та створення тезаурушв (thesauri);

MT11 - методи та засоби контент-аналiзу (Content Analysis).

Class hierarchy Class hierarchy (inferred)

Class hierarchy: Automatic Annotation

\4

8

Ass

Annotations Usage

BUT"

eited Annotations

Annotations: Automatic Annotat E Ш В H 0

T f owhThing

▼ Big_Data_Analytics

< Data_Mining_methods ▼ Text_Mining_technologies

Automatic_Annotation

Clustering

Development_and_Maintenance_of_Taxonomies_and_Thesauri. Event_and_Fa ct_E xtraction Feature_Extraction Keyword_Searching Question_Ansv4ering Relationship S e m a nt i c_N et works Summarization Thematic_Indexing MapReduce_technology ▼ Data_visualization Clustergram f < History Flow

Spatial_Information_Flow Tag_Cloud

Other_analytical_methods_and_technologies

ьшгмд m wя ним» *\=ш

tquivaienx i о щр

Subclass Of

Text_Mining_tE

General class axioms ^sj

SubClass Of (Anonymous Ancestor)

IС и

Instances U Target for Key Disjoint With

Disjoint Union Of f ▼

No Reasonerset. Select a reasonerfrom the Reasoner menu ✓ Show Inferences

Рис. 6. Шдкласи класу Text Mining Technologies

TTextMining, як i бiльшiсть когнiтивних технологiй, - це алгоритмiчне вияв-лення ранiше не вщомих зв'язкiв та кореляцiй в уже наявних текстових даних. У TTextMining широко використовують методологш i пiдходи технологii аналiзу

видобування даних, наприклад, MTl чи MT2. TTextMining мають новi можливостг автоматичне реферування текстiв та виявлення феномешв, тобто понять i фак-тiв. Важливим завданням TTextMining е видобування з тексту його характерних елементiв або властивостей, як можуть використовуватися як метаданi документа, ключовi слова, анотацiï. 1ншим важливим завданням е встановлення приналежност документу до певних категорiй зi задано!' схеми 1'хньо1' систематизацп. TTextMining забезпечують новий рiвень семантичного пошуку докуменлв. Можливостi TTextMining застосовують для розв'язання задачi виявлення шаблошв в текстi, автоматичного «виштовхування» або розподiлу даних за профшями, створення оглядiв документiв.

Це шструмент, який дае можливiсть аналiзувати BD у пошуках тенденцiй, шаблошв та взаемозв'язюв, здатних допомог и при хваленш стратегiчних рiшень. Основна мета TText Mining надати аналггику можливiсть працювати з BD за рахунок автоматизацп процесу здобуття потрiбних даних. Як приклад ефек-тивного застосовування технологш TTextMining е MT11, який характеризуеться об'eктивнiстю висновкiв та стропстю пгоцедури. його основою е квантифжа-цiя тексту з подальшою iнтерпретацieю результатiв. Предметом MT11 можуть бути як проблеми сошально1' дшсносл, якi висловлюються чи навпаки прихо-вуються у документах, так i внутршш закономiрностi самого об'екту досль дження [38]. Популярнiсть MT11 грунтуеться на тому, що цей метод дае змогу вимiряти людську поведшку (якщо вважати, що вербальна поведшка е ïï формою). На вщмшу вiд опитувань, контент-аналiз вимiрюe не те, що люди гово-рять, що зробили чи зроблять, а те що вони справдi зробили.

Опишемо декшька технологiй i дисциплш дослiдження даних з погляду технологи BD для Tother (рис. 7) [14-19]:

Tother=(MOi, MÜ2, MO3, MO4, MO5, Mü6, MO7, MO8,

MO9, MO10, MOii, MO12, MOi3, fmo, Kother), (13)

де MOi - методи А/В тестування (A/B testing, Splittesting);

MO2 - методи опрацювання природно1' мови (Natural Language Processing, NLP);

MO3 - методи аналiзу настро1'в (Sentiment Analysis);

MO4 - методи мережевого аналiзу (Network Analysis);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

MO5 - методи ошгашзацн (Optimization);

MO6 - методи розтзнавання образiв (Pattern Recognition);

MO7 - методи прогнозного моделювання (Predictive Modeling);

MO8 - методи опрацювання сигналiв (Signal Processing);

MO9 - методи просторового аналiзу (Spatial Analysis);

MOi0 - методи статистики (Statistics);

MOii - методи моделювання (Simulation);

MOi2 - методи краудсорсшгу (Crowdsourcing);

MOi3 - методи злиття та штеграшя даних(Data Fusion and Data Integration).

Рис. 7. Пщкласи класу Other technologies and research techniques

MOi використовують при оптишзаци Web-cropiHOK вщповщно до задано1 мети. В оснв MO3 лежать MO2. Вони дають змогу виокремити i3 загального шформацшного потоку повщомлення, пов'язанi 3i защкавленим предметом (наприклад, споживчим продуктом). Дат ощнити полярнicIъ судження (позитивне чи негативне), CIупiнь емоцшносп то-що. MO3 допомагае дослщникам визначити наcIроi cпiкерiв або автсрт по вщношенню до теми. Аналз настов використовуеться, щоб допомогти: полшшити якicIъ обслуговування в гоIельнiй мережу аналiзуючи коменIарi гостей; налаштувати стимули i послуги для вирiшення того, що клiенти дiйcно просять; визначити, яю cпоживачi дйсно е пщ впливом cоцiальних меда MO4 е методикою аналзу зв'язюв мгж вузлами в мережах. Стосовно до сощальних мереж дае змогу аналiзувати взаемозв'язок мгж окремими користувачами, ком-панями, спльнотами тощо. MO5 призначений для редизайну складних систем i процесв для полiпшення одного або деклькох показникiв. Допомагае в прийнятп стратепчних рiшень, наприклад, складу виведежл на ринок продукте^' лiнiйки, проведеннi швестицшного аналiзу тощо. MO7 дають змогу створити математичну модель наперед за-даного ймовiрного cценарiю розвитку подш. Наприклад, аналiз бази даних CRM-системи на предмет можливих умов, як т'дттовхнуть абонентiв змiнити провайдера. MOi2 - кате-горизащя та збагачення даних силами широкого, невизначеного кола осб, з метою викори-стання ]хнх творчих здiбноcIей, знань i доcвiду зi застосуванням шформацшно-комункащйних технологiй. MO13 дае змогу анашзувати коменIарi кориcIувачiв cоцiальних мереж i зicIавляти з результатами продажiв в режим реального часу.

TMapReduce - модель розподтених обчислень, представлена компашею Google, яка викор товуеться для паралельних обчислень над дуже великими (кiлька петабайт)

наборами даних в комп'ютерних кластерах [42-47]. З погляду реалiзацii, аналiтична платформа для роботи з ББ мае вмгги використовувати новi ТМарКеаисе. На практищ, аналiз ББ рщко полягае в тому, щоб обчислити статистичш пiдсумки за всша дани-ми. Заметь цього значимють ББ полягае в можливосп подщу даних на мкро-сегменти i за допомогою методiв штелекгуального аналiзу та прогностичного моде-лювання побудувати велику юльюсть моделей для невеликих груп спостережень. С безлiч iнструментiв для проведення такого агрегування даних в розподтенш файловiй системi, що дае змогу легко здiйснювати даний аналiтичний процес.

6. Результати досл1джень

Приведений опис методiв i технологiй аналiзу ББ дае змогу побудувати он-тологш вiдповiдно до подходу МБТНОКТОЬООУ [46-50], який вiдображае процес ггеративного проектування. За методологiею МБТНОКТОЬООУ глосарш те-рмiнiв мiстить всi термши (концепти i iхнi екземпляри, атрибути, дп), важливi для аналiзу ББ, i iхнi природно-мовнi описи. Глосарш термтв онтологii аналiзу ББ мютить означенi вище термiни, якi можна семантично розбити на три групи:

1) структура завдання (групи технологш аналiтики, зв'язки);

2) данi, що наповнюють задачу (методи, що застосовують для кожноi групи);

3) результати обчислень (рекомендацп щодо використання ББ для шдви-щення ефективностi ухвалення рiшень) [50-55].

Розроблена засобами Protëgë-OWL онтологiя аналiзу ББ подана на рис. 8.

Рис. 8. Структура онтологп для аналiзу Б1§ Ба1а у виглядi графу

Кожна BD володiе набором napaMeTpiB та критерпв, якi визначають методики та технологи анаизу Ки. Саме призначення BD, ïï структура та наповнен-ня визначають методики та технологи подальшого аналiзу анализу.

Завдяки розробленш онтологiï БЗ аналiзу BD за допомогою Protégé 3.4.7 та побудованих в них множини правил RABD можна скоротити процес вибору методотик та технолог!й для подальшого анал1зу та полегшити автоматизацию самого процесу анал1зу обрано!' BD. Так, Ки U КВ1) при Ки a KBD дозволить сформувати нову множину Ки для визначення ABD:

К = К' [ I К' [ J К' [ J

U Data Mining ^ MachineLearning ^ Visualization ^

И К' II К' II К'

^ Text Mining ^ Map Re dace ^ other'

Дб К' а К К' а К К' с К

Data Mining — Data Mining ' MachineLearning — MadiineLearning ' Visualization — Visualization '

К' c~ К К' c~ К К' a К

Text Mining — Text Mining' MapReduce — MapReduce ' other — other'

Тодi отримаемо нове значення:

A BD (/1VI Data Mining* -M- Machine Learning, -M- Visualization,

T' T' T' к ^

1 Text Mining, * MapReduce, -I other,

Наприклад, для аналiзу BD соцiальних мереж [55] критерiями та параметрами е склад профшв користувачiв (тексти, гшертексти, вiк, вiдношення, стать, краша, кiлькiсть друзiв, пости, активнiсть тощо). Також критерiем аналiзу е вза-емодiï з iншими користувачами як ще1' соцiальноï мережi, так i поза нею. При-чому користувачами е не лише конкретш особистосл, але можуть бути шфор-мацшш ресурси та агенти. Застосувавши розроблену онтологш БЗ (рис. 9) для BD сощально!' мережi, отримаемо:

M Data Mining~fdlw(Tk Data Mining, Md Data Mining, К Data Mining)?

де Tk Data Mining {TClassification, LClustering, TSequence, TLinkAnalysis, TGraph Mining, ^SummarizationA Data Mining {MBaye,sian Networks, -MTree, MMNeural Networks)5 Md'Data Mining = {MDst, MDa.)

MD'st={MSs, MS4), MDcb={MCs, MC4, MC)

M- Machine Learning=fml ((ML5, K Machine Learning)5 M 'visualization =fmV (MVj, MV2, MV3, MV4, K 'visualization), T 'TextMnn f t (MTj, MT2, MT3, MT6, MT7, MT8,MT9, MTjo, MTn, K'Text Mining) 5

T'other=fmo (MOj, MO2, MO3, MO4, MO9, MOjo, MOj2, MOj3, K'other).

BDA-ontology-1 (http://www.semanticweb.org/administrator/ontologies/20 17/7/BDA-ontology-1) : (D:\Documents and Settings\Administrator

File Edit View Reasoner Tools Refactor Window Help

| < | | ^ BDA-ontology-1 (http://www.semanticweb.org/administrator/ontologies/2017/7/BDA-ontology-l)~ Active Ontology x Entities x Individuals by das; x DL Query x j Classes x I

Search

Class hierarchy Class hierarchy (inferred)

Class hierarchy: Data Minina methods

а

SDDHHIhI

♦ < Big_Data_flnalytics

1 liBEMIIillililnWJililiU

AssociationAnalysis Association_Rule_Learning NeuralNetvvorks Genetic_Algorithms Ensemble_Learning

Supervised_and_Unsuperwised_Learning Machine_Learning Outlier_Analysis Decision_Trees Time_Series_flanalysis Regression Cluster_Analysis Classification Text_Mining_technologies Automatic. Annotation I Clustering

Development_and_Maintenance_of_Taxonomies_and_Thesauri Event_and_Fact_Extraction Feature_Extraction Keyword_Searching Question_Ansivering Relationship S e m a ntic_N etw o rks Summarization Thematic_Indexing MapReduce_technology Datavisualization Clustergram HistoryFloi'j Spatial_Information_Flovv Tag_Cloud

Other_analytical_methods_and_technologies A/B_testing I Crovvdsourcing D ata_F u s i o n_a n d_D ata_I nte g rati o n

Mnripllinn___

Equivalent To Subclass Of Çp

B i g D ata_A n a I y ti cs

General class axioms ^^ Subclass Of (Anonymous Ancestor) Instances

Target for Key ^^ Disjoint With O Disjoint Union Of ^^

laiiiiziaial

No Reasonerset. Select a reasonerfrom the Reasoner menu V Show Inferences

Рис. 9. Iерaрхiя клашв онтологii для аналiзу Big Data

Оптимальне визначення Bcix критерпв та napaMeTpiB aHani3y соцiальноi ме-режi дозволить ефективно застосувати результати анашзу для iдентифiкaцii на-прямiв взаемовщносин мiж людьми в багатьох областях та в комерцiйнiй дiяльно-стi. Вузли е користувачами мереж^ в той час як зв'язки е вiдносинaми мiж ними. Анaлiз соцiaльних мереж використовуеться для розв'язку задач такого типу:

- як люди з рiзних популяцш утворюють зв'язки зi стороннiми;

- знайти значення або стутнь впливу конкретного щдивща в грyпi;

- знайти мимальну кiлькiсть прямих зв'язкiв, пшрбних для подключения двох осiб;

- зрозумгги соцiaльнy структуру клiентськоi бази. Можна прослiдкyвaти попyляризaцiю тематики/товару в залежност вiд вiкy, стaттi, краши проживання, статусу та рiвння освгги множини користyвaчiв конкретноi соцiaльноi мережг

7. SWOT-аналiз результатiв дослiджень

Strengths. Наявнють онтологiчноi БЗ як фундаментального класифшатора для вибору оптимального алгоритму aнaлiзy BD вiдповiдноi до ii стуркутри та ПЗ. Клaсифiкaтор дозволяе визначити множину правил aнaлiзy Big Data RABD

з метою ii використання для опрацювання та aнaлiзy конкретно!' BD на основi ii пaрaметрiв та критерпв.

Weaknesses. Неможливють формування множини правил aнaлiзy Big Data RABD при вщсутност декiлькох критерiiв та пaрaметрiв конкретно1' BD. Нето-чне визначення критерш/параметру конкретно1' BD призведе до формування неефективного алгоритму aнaлiзy BD та збшьшить трyдомiсткiсть обчислення.

Opportunities. Перспективи подальших дослiджень полягатимуть у досль дженнi методiв, моделей та шструменпв для удосконалення онтологii анал^и-ки BD та ефективнiшоi тдтримки розроблення структурних елементiв моделi системи тдтримки прийняття рiшень з керування BD.

Threats. Негативна дiя на об'ект дослщження зовнiшнiх чинникiв флоту-вання множини критерiiв та пaрaметрiв aнaлiзy BD. Вiдсyтнiсть в свт aнaлогiв даного об'екта дослiдження та проведених масштабних експериментiв на основi розроблено1' моделi не дае чггких нaпрямiв подальших дослiджень.

8. Висновки

1. Дослiджено особливостi клaсифiкaцii методiв i технологiй aнaлiтики Big Data з врахуванням означення та особливост застосування вщповщних IT. Особливостi застосування методiв Data Mining, технологiй Tехt Mining, техно-логii MapReduce, вiзyaлiзaцii даних, iнших технологiй та методик aнaлiзy BD дало змогу побудувати онтологш вiдповiдно до пiдходy METHONTOLOGY. Вiн вiдобрaжaе процес iтерaтивного проектування та дозволяе побудувати гло-сарш термiнiв, важливих для aнaлiзy BD, i iхнi природно-мовнi описи. Розроб-лений глосaрiй термiнiв онтологii aнaлiзy BD мiстить необхiднi термiни типу структур завдання, дат зaдaчi та результати обчислень. Чим повтший глоса-рiй, тим ефективнiший отриманий результат у виглядi алгоритму aнaлiзy BD.

2. Розроблено формальну модель aнaлiзy BD. На входi системи е методи та IT aнaлiзy BD. На виходi системи е онтолопчна модель правил aнaлiзy BD.

3. Розроблено онтолопчну БЗ aнaлiзy BD. Taксономiя понять онтологii задае методику aнaлiзy BD. Оптимальне визначення множини вщношень мiж цими поняттями та множини правил aнaлiзy BD, формaлiзовaних за допомогою дескриптивно1' логiки DL, дозволяе ефективно опрацьовувати BD.

4. Побудоват правила aнaлiзy Big Data RABD. Кожна BD володiе набором пaрaметрiв та критерiiв, як визначають методики та технологii aнaлiзy. Саме призначення BD, ii структура та наповнення визначають методики та технологи подальшого aнaлiзy aнaлiзy. Завдяки розробленiй онтологii БЗ aнaлiзy BD за допомогою Protege 3.4.7 та побудованих в них множини правил RABD скорочуеться процес вибору методотик та технологт для подальшого aнaлiзy та автоматизуеться процес aнaлiзy обрано1' BD.

Подяка

Роботу виконано в рамках спшьних наукових до^джень кафедри шфор-мaцiйних систем та мереж (1СМ) Нaцiонaльного yнiверситетy «Льв1вська поль техтка» (Украша) на тему «Дослщження, розроблення i впровадження штелек-туальних розподiлених iнформaцiйних технологiй та систем на основi ресyрсiв

баз даних, сховищ даних, npocTopiB даних та знань з метою прискорення проце-ciB формування сучасного шформацшного суспшьства». Науковi дослiдження провадилися також в рамках шщативно!' тематики дослщжень кафедри 1СМ Нацiонального унiверситету «Льв1вська полгтехшка» на тему «Розроблення ш-телектуальних розподiлених систем на основi онтологiчного пiдходу з метою штеграцп iнформацiйних ресуршв».

Лiтерарура

1. Mayer-Schonberger V., Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. John Murray Publishers, 2013. 256 p.

2. Fekete J. D. Big Data Visual Analytics. 2016. URL: http://www.aviz.fr/wiki/uploads/TeachingVA2016/Lectur-BigDataVA.pdf (Last accessed: 18.09.2017).

3. Raghupathi W., Raghupathi V. Big data analytics in healthcare: promise and potential // Health Information Science and Systems. 2014. Vol. 2, No. 1. doi: 10.1186/2047-2501-2-3

4. Hong S. H., Ma K. L., Koyamada K. Big Data Visual Analytics. NII Shonan Meeting Report No. 2015-147. To^yo, 2017. URL: https://pdfs.semanticscholar.org/45ec/4934ee034a5839f4e657089ac865f0baa8ff.pdf (Last accessed: 18.09.2017).

5. MAD Skills: New Analysis Practices for Big Data / Cohen J. et al. // Proceedings of the VLDB Endowment. 2009. Vol. 2, No. 2. P. 1481-1492. doi:10.14778/1687553.1687576

6. History and evolution of big data analytics. URL: https://www.sas.com/en us/insights/analytics/big-data-analytics.html (Last accessed: 18.09.2017).

7. Mitchell R. L. 8 big trends in big data analytics. URL: http://www.computerworld.com/article/2690856/big-data/8-big-trends-in-big-data-analytics.html (Last accessed: 18.09.2017).

8. Big Data. URL: http://tadviser.ru/a/125096 (Last accessed: 18.09.2017).

9. Inmon W. H. Big Data - getting it right: A checklist to evaluate your environment. Forest Rim Technology LLC. 2014. URL: http://dssresources.com/papers/features/inmon/inmori01162014.htm (Last accessed: 18.09.2017).

10. Analysis of data and processes / Barsegyan A. A. et al. Saint Petersburg: BHV-Petersburg, 2009. 512 p.

11. Paklin N. B., Oreshkov V. I. Business analysis: from data to knowledge. Saint Petersburg: Piter, 2009. 624 p.

12. Duke V., Samoylenko A. Data Mining: training course. Saint Petersburg: Piter, 2001. 368 p.

13. Manyika J. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. 156 p.

14. Zhuravlev J. I., Ryazanov V. V., Senko O. V. Recognition. Mathematical methods. Software system. Practical applications. Moscow: Phasis, 2006. 176 p.

15. Zinovev A. Y. Visualization of multidimensional data. Krasnoyarsk: Publisher Krasnoyarsk State Technical University, 2000. 180 p.

16. Chubukova I. A. Data Mining: A Tutorial. Moscow: Internet University of Information Technologies, BINOM, 2006. 382 p.

17. Stnik V. F., KrasnyukM. T. Data Mining. Kyiv: KNEU, 2007. 376 p.

18. Witten I. H., Frank E., Hall M. A. Data Mining: Practical Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann, 2011. 664 p. doi:10.1016/c2009-0-19715-5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19. Marr B. Big Data: Using SMART Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance. John Wiley & Sons Ltd, 2015. 256 p.

20. Einav L., Levin J. The Data Revolution and Economic Analysis. 2014. URL: http://www.nber.org/chapters/c 12942.pdf (Last accessed: 18.09.2017).

21. Vanyashin A., Klimentov A., Korenkov V. PANDA follows the large data // Supercomputers. 2013. Vol. 3, No. 11. P. 56-61.

22. Serov D. Analytics of «big data» - new perspectives. URL: http://www.storagenews.ru/49/EMC BigData 49.pdf (Last accessed: 18.09.2017).

23. Links that speak: The global language network and its association with global fame / Ronen S. et al. // Proceedings of the National Academy of Sciences. 2014. Vol. 111, No. 52. P. 5616-5622. doi:10.1073/pnas. 1410931111

24. Aflalo Y., Kimmel R Spectral multidimensional scaling // Proceedings of the National Academy of Sciences. 2013. Vol. 110, No. 45. P. 18052-18057. doi: 10.1073/pnas. 1308708110

25. Gadepally V., Kepner J. Big data dimensional analysis // 2014 IEEE High Performance Extreme Computing Conference (HPEC). 2014. doi: 10.1109/hpec.2014.7040944

26. Analyzing Big Data with Dynamic Quantum Clustering / Weinstein M. et al. URL: https://arxiv.org/ftp/arxiv/papers/1310/1310.2700.pdf (Last accessed: 18.09.2017).

27. Paklin N. B., Oreshkov V. I. Business Intelligence: from data to knowledge. Saint Petersburg: Piter, 2013. 702 p.

28. Zelazny D. Speak in the language of diagrams: manual on visual communications for managers. Moscow: Institute for Comprehensive Strategic Studies, 2004. 220 p.

29. Roem D. The practice of visual thinking. An original method for solving complex problems. Moscow: Mann, Ivanov and Ferber, 2014. 396 p.

30. Russom P. Big data analytics. 2011. URL: https://vivomente.com/wp-content/uploads/2016/04/big-data-analytics-white-paper.pdf (Last accessed: 18.09.2017).

31. Yau N. The art of visualization in business. How to present complex information with simple images. Moscow: Mann, Ivanov and Ferber, 2013. 352 p.

32. Iliinsky N., Steele J. Designing Data Visualizations. Sebastopol: O'Reilly, 2011. 110 p.

33. Krum R. Cool infographics: effective communication with data visualization and design. Indianapolis: Wiley, 2014. 348 p.

34. Tukey J. Analysis ofObservation Results: Exploratory Analysis. Moscow: Mir, 1981. 693 p.

35. Alper C., Brown K., Wagner G. R New Sofware for Visualizing the Past, Present and Future. 2006. URL: ^ittp://dssresoiirces.co^^"/papers/featiires/alpertro^^v^"&^vag^ier/alpertro^^v^i&^^vag^ier092120Q6.1iitml (Last accessed: 18.09.2017).

36. Analysis of data and processes / Barsegyan A. A. et al. Saint Petersburg: BHV-Petersburg, 2009. 512 p.

37. Text Mining. URL: http://statsoft.ru/home/textbook/modules/sttextmin.html#index (Last accessed: 18.09.2017).

38. Lande D., Berezin B., Pavlenko O. Postroenie modeli informatsionnogo servisa na baze natsional'nogo segmenta Internet // Informatsionnye tehnologii i bezopasnosf. Materialy XVI Mezhdunarodnoi nauchno-prakticheskoi konferentsii ITB-2016. Kyiv: IPRI NAN Ukrainy, 2017. P. 48-57. URL: http://dwl.kiev.ua/art/itb2016/i4/i4.pdf (Last accessed: 18.09.2017).

39. Data Analysis Technologies. Data Mining, Visual Mining, Text Mining, OLAP / Barsegyan A. A. et al. Saint Petersburg: BHV-Petersburg, 2007. 384 p.

40. Linyuchev P. Text Mining: modern technologies on information mines // PC Week/RE. 2007. Vol. 6 (564). URL: https://www.pcweek.ru/idea/article/detail.php?ID=82081 (Last accessed: 18.09.2017).

41. Pleskach V. L., Zatonatskaya T. G. Information systems and technologies at enterprises. Kyiv: Znannya, 2011. 718 p.

42. MapReduce and Parallel DBMSs: Friends or Foes? / Stonebraker M. et al. // Communications of the ACM. 2010. Vol. 53, No. 1. P. 64. doi: 10.1145/1629175.1629197

43. Berezin A. Map-Reduce on the example of MongoDB. 2013. URL: https://habrahabr.ru/post/184130/ (Last accessed: 18.09.2017).

44. Lebedenko E. Google MapReduce technology: divide and conquer. Kompiuterra, 2013. URL: http://www.computerra.ru/82659/mapreduce/ (Last accessed: 18.09.2017).

45. A comparison of approaches to large-scale data analysis / Pavlo A. et al. // Proceedings of the 35th SIGMOD International Conference on Management of Data -SIGMOD '09. 2009. doi: 10.1145/1559845.15598646. Big Data from A to Ya. Part 1: Principles of working with large data, the

MapReduce paradigm. 2015. URL: https://habrahabr.ru/company/dca/blog/267361/ (Last accessed: 18.09.2017).

47. Big Data from A to Ya. Part 3: Methods and strategies for developing MapReduce applications. 2015. URL: https://habrahabr. ru/company/dca/blog/270453/ (Last accessed: 18.09.2017).

48. Gavrilova T. A., Khoroshevsky V. F. Intelligent Systems Knowledge Base. Saint Petersburg: Piter, 2000. 384 p.

49. Classification Methods of Text Documents Using Ontology Based Approach / Lytvyn V. et al. // Advances in Intelligent Systems and Computing. Springer, 2016. P. 229-240. doi:10.1007/978-3-319-45991-2 15

50. Bisikalo O. V., Vysotska V. A. Identifying keywords on the basis of content monitoring method in Ukrainian texts // Radio Electronics, Computer Science, Control. 2016. Vol. 1, No. 36. P. 74-83. doi:10.15588/1607-3274-2016-1-9

51. Bisikalo O. V., Vysotska V. A. Sentence syntactic analysis application to keywords identification Ukrainian texts // Radio Electronics, Computer Science, Control. 2016. Vol. 3, No. 38. P. 54-65. doi: 10.15588/1607-3274-2016-3-7

52. Lytvyn V., Bobyk I., Vysotska V. Application of algorithmic algebra system for grammatical analysis of symbolic computation expressions of propositional logic // Radio Electronics, Computer Science, Control. 2016. Vol. 4, No. 39. P. 54-67. doi: 10.15588/1607-3274-2016-4-10

53. Alieksieieva K., Berko A., Vysotska V. Technology of commercial web-resource management based on fuzzy logic // Radio Electronics, Computer Science, Control. 2015. Vol. 3, No. 34. P. 71-79. doi:10.15588/1607-3274-2015-3-9

54. Matches prognostication features and perspectives in cybersport / Korobchynskyi M. et al. // Radio Electronics, Computer Science, Control. 2017. Vol. 3, No. 42. P. 95-105. doi: 10.15588/1607-3274-2017-3-11

55. Wolfram S. Data Science of the Facebook World. 2013. URL: http://blog.wollramcom/2013/04/24/data-science-of-the-lacebook-world/ (Last accessed: 18.09.2017).

i Надоели баннеры? Вы всегда можете отключить рекламу.