Научная статья на тему 'Разработка модели анализа сложных данных на основе классификации machine learning'

Разработка модели анализа сложных данных на основе классификации machine learning Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
120
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / СЛОЖНЫЕ ДАННЫЕ / MACHINE LEARNING / СРЕДСТВА ОЦЕНКИ / БИНАРНАЯ КЛАССИФИКАЦИЯ / СПАМ / CLASSIFICATION / COMPLEX DATA / EVALUATION TOOLS / BINARY CLASSIFICATION / SPAM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Титова А. Ю., Иванов Д. Е.

Выполнен анализ методов классификации machine learning и определены этапы обработки сложных данных на основе бинарной классификации. Разработана модель анализа сложных данных на основе классификации machine learning и проведена проверка ее адекватности с использованием различных средств оценки. Выполнена классификация даних на соответствие двум классам: полезной информации и спама. Ил.: 2, Библиогр.: 11 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Development of model analysis of a complex data based on machine learning classification

The analysis of methods of classification of machine learning and defined stages of processing of complex data on the basis of binary classification is performed. A model for analyzing complex data based on machine learning has been developed and a validation of its adequacy has been carried out using various means of evaluation. A classification of dyne has been performed to correspond to two classes: useful information and spam. Fig.: 2, Refs.: 11 titles.

Текст научной работы на тему «Разработка модели анализа сложных данных на основе классификации machine learning»

УДК 004.852 DOI: 10.20998/2411-0558.2018.42.17

А. Ю. Т1ТОВА, канд. техн. наук, Державний ушверситет

телекомушкацш, Кшв,

Д. С. 1ВАНОВ, д-р техн. наук, доц., 1ПММ НАНУ, Слов'янськ

РОЗРОБКА МОДЕЛ1 АНАЛ1ЗУ СКЛАДНИХ ДАНИХ НА ОСНОВ1 КЛАСИФ1КАЦП MACHINE LEARNING

Виконано аналГз методГв класифГкацп machine learning та визначеш етапи обробки складних даних на основi бiнарноi класифiкацii. Розроблено модель аналiзу складних даних на основi класифiкацii machine learning та проведено перевiрку ii адекватностi з використанням рiзних засобiв оцiнки. Виконана класифГкацГя даних на вiдповiднiсть двом класам: корисно1' iнформацii та спаму. 1л.: 2. Бiблiогр.: 11 назв.

Ключовi слова: класифiкацiя; складнi дат; machine learning; засоби оцшки; бшарна класифiкацiя; спам.

Постановка проблеми. Проблема аналГзу даних складно'1 структуры е актуальною у сучасному свт шформацшних технологш для класифшацп даних, прогнозування кшькюних характеристик, виявлення нових закономГрностей та штерпретацп даних. Сучасш методи класифшацп та технологп машинного навчання, яю використовуються для аналГзу та прогнозування [1, 2], дають висок показники точностГ швидкодп, проте виявлення цшних даних, програмна реал1защя та експериментальне впровадження результатГв недостатньо висвгглеш авторами. Для виршення проблеми обробки даних складно! структури слщ розробити модель аналГзу складних даних на основГ класифшацп machine learning та застосовувати прогресивш мови програмування для експериментального дослщження

Анал1з л1тератури. Сучасш програмнi платформи та середовища розробки дозволяють реалiзовувати моделi та методи р1зно'1 складносп для класифшацп, прогнозування даних та розробки шформацшних технологш. Для класифшацп зображень мюцевосп обраш чотири алгоритми класифкацп, а саме: дерева ршень, ншвний метод Байеса (NB), випадковГ люи та машини опорних векторГв (SVM), останнш показав потенщал у платформГ Haddop MapReduce та свою продуктивнють [1]. Розроблено модель на основГ програмного агента, що дозволяе класифГкувати пащент1в Гз захворюванням на цукровий дГабет на групи та прогнозувати необхщну кшькють медичних препаратГв для конкретного випадку [2]. У дослщженнях [3 - 5] розглядаються методи NB та TAN, опорних векторГв (SVM), k-найближчих сусвдв, дерев

© А.Ю. ТГтова, 2018

ршень для прогнозування кредитоспроможносп фiзичних oci6, для керування складними електромехашчними системами, нелшшними об'ектами, а також об'ектами 3i стохастичними параметрами, в задачах класифшацп текстових документiв та обраш методи з достатнiми показниками точност класифшацп для вiдповiдних задач. Проведено дослщження особливостей класифшацп методiв i технологiй аналiтики Великих даних та технологш business intelligence пiд час обробки дiагностичноi шформаци для збереження конкурентоспроможносп пiдприeмств [6, 7].

Визначено основш переваги методiв глибинного навчання над традицшними пiдходами до задач класифшаци, для вiдокремлення ознак iз супутникових даних [8]. Запропонованi тдходи до моделювання кластеризаци та класифшацп функцiональних, 6агатомiрних даних, що мютять неоднорiднiсть, вiдсутнiсть шформаци та динамiчну приховану структуру з декiлькох областей застосування [9].

Iснуючi методи та моделi класифшацп складних даних використовують математичний апарат для конкретно'1 задачi та дають не значш показники точностi, тому в данш ро6отi запропоновано розробити нову модель аналiзу складних даних.

Мета дослщження - розробка моделi аналiзу складних даних на основi класифшацп machine learning для прогнозування кшькюних характеристик, дшсних i придатних до подальшого використання даних.

Для досягнення дано'1 мети нео6хiдно вирiшити наступнi задача

- визначити етапи обробки складних даних на основi 6шарно'1 класифшацп;

- виконати оцiнку адекватностi моделi аналiзу складних даних рiзними засобами на конкретних прикладах.

Матер1али дослщження. Вщомо, що класифiкацiя е популярною задачею машинного навчання, та полягае у побудовi моделей, що виконують вщнесення обраного об'екта до одного з декшькох вiдомих класiв [10]. Одним з головних недолив методу дерев ршень для задач класифшацп текстiв е те, що "позитивш" i мнегативнiм розгалуження у вузлах мають однакову вагу До переваг зазначеного методу слщ вiднести той факт, що побудоване дерево легко пщдаеться аналiзy Результати класифiкацii текспв за допомогою методу опорних векторiв е одними з найкращих, у порiвняннi з iншими методами машинного навчання. Однак, швидкють навчання SVM одна з найнижчих. Для проведення дослщження обрано бшарну класифiкацiю.

Об'ектом даного дослiдження е таблиця даних iз електронних листiв, що мютять спам, котрий розмщений у рiзних комiрках. Такi данi

розмщено у колекци наборГв даних Центру машинного навчання та штелектуальних систем Калiфорнiйського ушверситету (Center for Machine Learning and Intelligent Systems). Необхщно виконати класифшащю даних на вщповщнють двом класам, а саме кориснш шформаци та спаму.

Для цього слщ виконати наступш етапи:

1. Завантажити файл даних для аналiзу у середовище.

2. Роздiлити вихщш данi в спiввiдношеннi 10:1 на навчальну i перевiрочну вибiрки.

3. Використати лопстичну регресiйну модель для класифшацп даних.

4. Виконати рiзними засобами оцшку якостi моделi аналiзу складних даних на конкретних прикладах.

Для бшарно'1 класифшацп табличних даних запропоновано використати лопстичну регресшну модель, що дозволяе на основi отриманих остач вщ прогнозу, визначити кiлькiсть корисних даних та спаму для навчально'1 та перевГрочно'1' вибiрок.

Для оцшки адекватностi моделi аналiзу складних даних використано рiзнi засоби, а саме кшькюш показники прогнозу; ROC-криву для оцшки ймовiрностi спаму; графш щiльностi розподiлу ймовiрностей обох клаав (спаму та корисно'1' iнформацГï).

Для розрахунку кГлькГсних показникiв класифiкацГï табличних даних на корисш та зГ спамом отримано чутливГсть, специфiчнiсть та точнють прогнозу.

Розрахувати чутливГсть (sensitivity), що визначае наскшьки вдало виявлено даш зГ спамом, необхГдно за наступним виразом [11]

де TP - число даних з ютинно позитивним результатом; FN - кшькють даних з хибно негативним результатом прогнозу.

Для представлення ефективносп класифшацп, а саме вщповщносл правильного виявлення спаму вщ корисноï' iнформацГï, необхГдно обчислити специфГчнють (specificity) за наступним виразом:

де FP - число даних з хибно позитивним результатом прогнозу; TN -число даних з ютинно негативним результатом.

НеобхГдно визначити загальну ймовГрнють прогнозу давати правильш результати, для цього розрахувати точнють (accuracy) за виразом [11], що представлено далГ:

SE = TP / (TP + FN),

(1)

SP = FP / (FP + TN),

(2)

AC = (TP + TN) / (TP + FP + FN + TN),

(3)

Пюля проведення експерименту отримано такi значення для кшькюних показникiв прогнозу:

Ж = 0.89; 8Р = 0.86; АС = 0.93.

Для оцшки якостi прогнозу графоаналiтичним методом та штерпретаци перерахованих показникiв необхiдно застосувати ЯОС-аналiз. Побудовано ЯОС-криву (рис. 1) для бшарного вiдгуку (1 - спам, 0 - корисна шформащя), де довшьне значення даних на цьому дiапазонi вважаеться класифшацшним порогом. Чим ближче крива до верхнього лiвого кута, тим вище у моделi здатнiсть до прогнозу.

: : : _ у

/0^1 (0.924, 0.867)

у /

/АиС: 0.942

............../.....•......;.....■......

1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 ЭрссШаГ/

Рис. 1. ROC-крива оцшки класифшацп модел1

Запропонована логiстична регресiйна модель дозволяе отримати прогноз класу кожного iз набору складних даних та повернути оцшену ймовiрнiсть належностi даних вщповщному класу. При пiдборi оптимальних порогових значень класифшатора моделi проаналiзовано графж щiльностi розподiлу ймовiрностей обох клаав, котрий представлений на рис. 2.

Пюля проведення експерименту отримано таю результати показниюв прогнозу:

Ж = 0.8864629; 8Р = 0.8645161; АС = 0.9324324.

1 / \ 1 / 1 / \

/ V \

pred

spam

I non-Sf

Рис. 2. Графш щшьносп розподшу ймовiрностей появи даних двох клашв

Як видно з рис. 2, кривими лЫями показана умовна ймовiрнiсть прогнозу корисно! шформацп та спаму у тестовiй вибiрцi складних даних, де на ос Х вiдображено значення ймовiрностей прогнозу, а на осi Y - щшьшсть розподiлу даних мiж двома класами.

Висновки. Пiд час дослщження проаналiзованi методи класифжацп machine learning, визначеш етапи обробки складних даних на основi бшарно! класифшацп; розроблено модель аналiзу складних даних, виконано експериментальш дослiдження застосування моделi на конкретних прикладах. Отриманi результати свщчать про можливiсть використання моделг

Список лiтератури:

1. Ayma V.A. Classification algorithms for big data analysis, a Map Reduce approach / V.A. Ayma, R.S. Ferreira, P. Happ, D. Oliveira // The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences. - 2015. - T. 40. - № 3.

- Р. 17-21.

2. Alotaibi N.M. Agent-based big data classification / N.M. Alotaibi. M. Abdullah. H. Mosli // Journal of Fundamental and Applied Sciences. - 2018. - Vol. 10. - №. 4. - Р. 258-264.

3. Кириченко В.Е. Застосування на!вного та дереводоповненого байеавських класифiкаторiв для прогнозування кредитоспроможносп фiзичних оаб / В.Е. Кириченко, О.М. Терентъев, И.О. Связшсъка // System analysis and information technology: Proceedings of 18-th International conference SAIT 2016, Kyiv, Ukraine, May 30

- June 2, 2016. - NTUU "KPI", 2016. - C. 364-365.

4. Шеремет О.1. Метод опорних вектор1в (SVM) / О.1. Шеремет, О.В. Садовой // Математичне моделювання. Науковий журнал. Дшпродзержинськ: ДДТУ. - 2013 -№ 1 (28). - С. 13-17.

5. Волосюк Ю.В. Методи класифжацп текстових докуменпв в задачах Text Mining / Ю.В. Волосюк // HayKOBi записки Украшського науково-дослщного шституту зв'язку. -2014. - №. 6. - С. 76-81.

6. Верес О.М. Класифжащя методiв aнaлiзy Великих даних / О.М. Верес, Р.М. Оливко // Вюник Нацюнального ушверситету '^bBiBCbra полггехшка". Серiя: Iнформaцiйнi системи та мережт - Львiв :Видавництво Львiвськоi полiтехнiки, 2017. - № 872. -С. 84-92.

7. ТитоваА.Ю. Анализ технологий business intelligence при обработке диагностической информации / А.Ю. Титова // Материалы Регионального семинара Международного союза электросвязи для стран Европы и СНГ "Цифровое будущее на основе 4G/5G", г. Киев, 14-16 мая 2018. - 2018. - С. 84-85

8. Лавренюк М. С. Огляд методiв машинного навчання для класифжацп великих обсяпв супутникових даних / М.С. Лавренюк, О.М. Новжов // Системш дослщження та шформацшт технологи. - 2018. - №. 1. - С. 52-71.

9. Chamroukhi F. Model-Based Clustering and Classification of Functional Data / F. Chamroukhi, H.D. Nguyen // Cornell University Library: Statistics-Machine Learning. -2018. - 69 P: available at: https://arxiv.org/abs/1803.00276v2 (accessed December 2018).

10. Шитиков В.К., Мастицкий С. Э. Классификация, регрессия, алгоритмы Data Mining с использованием R [Электронный ресурс] - Режим доступа: https://ranalytics.github.io/data-mining/index.html (accessed December 2018).

11. Tiтова А.Ю. Методи та моделi iнформaцiйноi' технологи для автоматизованих систем переробки дiaгностичноi шформацп на основi термограм: автореф. дис. ... канд. техн. наук. - Кшв. - 2017. - 23 с.

References:

1. Ayma, V.A., Ferreira, R.S., Happ, P., and Oliveira, D. (2015), "Classification algorithms for big data analysis, a Map Reduce approach", The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, Vol. 40, No. 3, pp 17-21.

2. Alotaibi, N.M., Abdullah, M., and Mosli, H. (2018), "Agent-based big data classification", Journal of Fundamental and Applied Sciences, Vol. 10, No. 4., pp. 258-264.

3. Kirichenko, V.E., Terentyev, O.M., and Svyazninskaya, N.O. (2016), "Application of naive and wood-based Bayesian classifiers for predicting the creditworthiness of individuals", System analysis and information technology: Proceedings of 18-th International conference SAIT 2016, NTUU "KPI", Kyiv, Ukraine, May 30 - June 2, 2016, pp. 364-365.

4. Sheremet, A.I, and Garden, A.V. (2013), "Support vector machine (SVM)", Mathematical Modeling. Scientific. Journal. Dneprodzerzhinsk: DonSTU, No. 1 (28), pp. 13-17.

5. Volosyuk Yu.V. (2014), "Methods of classification of text documents in tasks Text Mining", Scientific notes Ukrainian Research Institute of Communications, No. 6, pp. 76-81.

6. Veres. O.M., and Olivko, R.M. (2017), "Classification of methods for the big data analytics", Proceedings of the National University "Lviv Polytechnic". Series: Information systems and networks, Vydavnytstvo Lvivskoi politekhniky, Lviv, No 872, pp. 84-92.

7. Titova A.Yu. (2018), "Analysis of business intelligence technologies in diagnostic information processing", Proceedings of Regional Workshop of the International Telecommunication Union for Europe and CIS region "Digital Future Powered by 4G/5G", Kiev, May, 14-16, 2018, pp. 84-85

8. Lavreniuk, M., and Novikov, A. (2018), "Overview of machine learning to classify large volumes of satellite data", System Research & Information Technologies, No. 1, pp. 52-71.

9. Chamroukhi, F., and Nguyen, H.D. (2018), "Model-Based Clustering and Classification of Functional Data", Cornell University Library: Statistics-Machine Learning, 69 P, available at: https://arxiv.org/abs/1803.00276v2 (accessed December 2018).

10. Shitikov, V.K., and Mastitsky, S.E. (2017), "Classification, regression, Data Mining algorithms using R", available at: https://ranalytics.github.io/data-mining/index.html (accessed December 2018).

11. Titova, A.Yu. (2017), Methods and models of information technology for an automated system for processing diagnostic information on the basis of thermal images: Author's thesis. Kiev, 23 p.

Статтю представив д-р техн. наук, проф. ДУТВиштвсъкий В.В.

Иадшшла (received) 06.11.2018

Titova Anastasiya, PhD Tech

State University of Telecommunications

Str. Solomenska, 7, Kyiv, Ukraine, 03110

Tel.: (095) 333-51-01, e-mail: a.titova.wk@gmail.com

ORCID ID: 0000-0002-4803-2090

Ivanov Dmitry, Dr.Sci.Tech, Ass. Professor

Institute of Applied Mathematics and Mechanics

Str. Gen. Batyuka, 19, Slavyansk, 84100

Tel: (063) 559-51-90, e-mail: dmitry.ivanov.iamm@gmail.com

ORCID ID: 0000-0001-9956-6589

УДК 004.852

Розробка моделi ан^зу складних даних на 0CH0Bi класифжацп machine learning / Т^ова А.Ю., 1ванов Д.С. // Вiсник НТУ "ХП1". Серiя: 1нформатика та моделювання. - Харшв: НТУ "ХП1". - 2018. - № 42 (1318). - С. 171 - 178.

Виконано aнaлiз методiв класифжацп machine learning та визначеш етапи обробки складних даних на основi бiнaрноi класифжацп. Розроблено модель aнaлiзy складних даних на основi клaсифiкaцii machine learning та проведено перевiркy ii адекватносп з використанням рiзних зaсобiв оцшки. Виконана класифжащя даних на вщповщтстъ двом класам: корисно1' iнформaцii та спаму. 1л.: 2, Бiблiогр.: 11 назв.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

K™40Bi слова: клaсифiкaцiя; складш дaнi; machine learning; засоби оцшки; бшарна клaсифiкaцiя; спам.

УДК 004.852

Разработка модели анализа сложных данных на основе классификации machine learning / Титова А.Ю., Иванов Д.Е. // Вестник НТУ "ХПИ". Серия: Информатика и моделирование. - Харьков: НТУ "ХПИ". - 2018. - № 42 (1318). - С. 171 - 178.

Выполнен анализ методов классификации machine learning и определены этапы обработки сложных данных на основе бинарной классификации. Разработана модель анализа сложных данных на основе классификации machine learning и проведена проверка ее адекватности с использованием различных средств оценки. Выполнена классификация даних на соответствие двум классам: полезной информации и спама. Ил.: 2, Библиогр.: 11 назв.

Ключевые слова: классификация; сложные данные; machine learning; средства оценки; бинарная классификация; спам/

УДК 004.852

Development of model analysis of a complex data based on machine learning classification / Titova A.Yu., Ivanov D.E. // Herald of the National Technical University "KhPI". Series of "Informatics and Modeling". - Kharkov: NTU "KhPI". - 2018. - № 42 (1318). - P. 171 - 178.

The analysis of methods of classification of machine learning and defined stages of processing of complex data on the basis of binary classification is performed. A model for analyzing complex data based on machine learning has been developed and a validation of its adequacy has been carried out using various means of evaluation. A classification of dyne has been performed to correspond to two classes: useful information and spam. Fig.: 2, Refs.: 11 titles.

Keywords: classification; complex data; machine learning; evaluation tools; binary classification; spam.

i Надоели баннеры? Вы всегда можете отключить рекламу.