Научная статья на тему 'Комплексный подход к обработке разнородных медицинских данных с отсутствующими значениями'

Комплексный подход к обработке разнородных медицинских данных с отсутствующими значениями Текст научной статьи по специальности «Медицинские технологии»

CC BY
67
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗНОРОДНЫЕ МЕДИЦИНСКИЕ ДАННЫЕ / ОТСУТСВУЮЩИЕ ЗНАЧЕНИЯ / ОБРАБОТКА / КОНТРОЛЬНАЯ МОДЕЛЬ / HETEROGENEOUS MEDICAL DATA / МISSING VALUES / DATA PROCESSING / CONTROL MODEL

Аннотация научной статьи по медицинским технологиям, автор научной работы — Белобородова Т.А., Скарга-Бандуровa И.С.

Показана необходимость учета смешанных наборов данных с отсутствующими значениями. Предложен обобщенный подход к обработке разнородных медицинских данных с учетом типа данных, механизма их отсутствия. Проведена обработка трех различных наборов данных с использованием предложенного подхода и контрольной модели. Предоставлено сравнения эффективности обработки данных. Ил.: 2. Табл.: 2. Библиогр.: 12 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A Comprehensive Approach for Processing Heterogeneous Medical Data with Missing Values

The need to take into account mixed data sets with missing values is shown. A generalized approach to the processing of heterogeneous medical data is proposed, taking into account the type of data, the mechanism of their absence. Three different sets of data have been processed using the proposed approach and control model. The comparison of the efficiency of data processing is given. Figs.: 2. Tabl.: 2, Refs.: 12 titles.

Текст научной работы на тему «Комплексный подход к обработке разнородных медицинских данных с отсутствующими значениями»

Bíchuk Нацюнального техшчного ушверситету "ХП1", 2018, № 42 (1318)

ISSN 2079-0031 (Print) ISSN 2411-0558 (Online)

УДК 004.832.34+303.442.3 DOI: 10.20998/2411-0558.2018.42.02

Т. О. Б1ЛОБОРОДОВА, канд. техн. наук, ст. викл., СНУ

ím. В. Даля, Северодонецьк

I. С. СКАРГА-БАНДУРОВА, д-р техн. наук, доц., зав.каф., СНУ

ím. В. Даля, Северодонецьк

КОМПЛЕКСНИЙ П1ДХ1Д ДО ОБРОБКИ Р1ЗНОР1ДНИХ

МЕДИЧНИХ ДАНИХ З В1ДСУТН1МИ ЗНАЧЕННЯМИ

Показана необхщшсть врахування змшаних набор1в даних з вщсутшми значениями. Запропоновано узагалънений шдх1д до обробки р1знор1дних медичних даних з урахуванням типу даних, мехашзму !х вщсутносп. Проведене опрацювання тръох р1зних набор1в даних з використанням запропонованого тдходу та контрольно! модель Надано пор1вняння ефективносп опрацювання даних. 1л.: 2. Табл.: 2. Б1блюгр.: 12 назв.

Ключовi слова: р1знор1дш медичш даш, ввдсутт значення, обробка, контрольна модель.

Опис проблеми та анал1з л1тератури. За даними звггу про тенденци в галузi охорони здоров'я вщ Stanford Medicine [1] майбутне охорони здоров'я залежитъ вщ ряду важливих тенденцш, серед яких видшяють прогнозування та профiлактику захворюваносп. У цъому контекстi, якiсний аналiз даних може потенцiйно полiпшити лжування пацiентiв, знайти невiдомi фактори ризику захворюванъ або виявити супутш захворювання, зробити медичну дiагностику бiлъш точною, покращити управлiння витратами, тощо. Разом з тим, медичш данi е одними з найбшьш складних в дослщженш типов даних [2].

В науковш лiтературi обговорення проблем медичних даних в основному фокусуетъся на наявносп помилок вимiрювання, вщсутшх значенъ, введення некоректних даних й т.i. Найбшьш повний перелж основних недолшв медичних даних надано у [3]. Автори [4] розрiзняють два типи проблем якосп даних: неповш данi (вiдсутнi та зсуненi) i некоректш данi. В дослiдженнi [5] проблемами, що ускладнюють отримання якюних прогнозiв станiв пацiентiв реанiмацiйного вщдшення, визначенi висока розмiрнiстъ даних, !х незбалансованiстъ та часова асинхронiзацiя. В статл [6] також дослiджуютъся даш пацiентiв реанiмацiйного вiддiлення та основною проблемою якюного прогнозування майбутнiх сташв визначенi вiдсутнi данi. Проведений авторами [7] огляд провщних медичних журналiв показав, що вiдсутнi данi е звичайним явищем в рандомiзованих дослщженнях з результатами, отриманими вiд пащенлв. Вiдсутнi значення також е загальною

© Т.О. Бшобородова, 1.С. Скарга-Бандурова, 2018

Всник Нацюнального техшчного ушверситету "ХП1", 2018, № 42 (1318)

ISSN 2079-0031 (Print) ISSN 2411-0558 ^пИМ)

проблемою в дослщженнях з поздовжнiми, просторовими, багаторiвневими або багатовимiрними даними [8]. 1ншою складнiстю медичних даних е !х рiзнорiднiсть. Рiзнорiднi медичнi даш характеризуються неоднорiднiстю, незбалансованiстю та зсувом значень в той чи шший бж вiдносно дослщжувано'1' патологи, що, власне i викликае труднощi для предиктивноi аналiтики. Для неоднорiдних даних з вщсутшми елементами можна практикувати рiзнi пiдходи, але постiйно е ризик застосування неефективно'1' методики, що значно ускладнюе отримання вагомих результат [9]. Очевидно, що моделi, отримаш при використаннi даних незадовшьно'1' якосп, будуть функцiонувати неналежним чином. Таким чином, актуальною задачею е пошук пщходу, який дозволить обирати найкращу модель для обробки рiзнорiдних медичних даних, даних з вщсутшми значеннями.

Метою роботи е розробка ушверсального тдходу до обробки рiзнорiдних даних з вщсутшми значеннями та ощнка його ефективносп.

Основна частина. Пропонований пщхщ до обробки рiзнорiдних даних з вщсутшми значеннями дозволяе врахувати мехашзми вщсутносп, тип i метод обробки i мiстить п'ять основних етатв (рис. 1).

На першому етапi проводиться якiсна оцiнка вщсутшх даних. Визначаються типи змiнних та мехашзм появи вiдсутнiх значень. Другий етап мютить кiлькiсну оцiнку вщсутшх даних за результатами яко'1' приймаеться ршення щодо вiдновлення даних або повного видалення наборiв даних з вщсутшми значеннями. На третьому еташ обираеться метод обробки вiдсутнiх даних. Детальний опис можливих стратегш надано у [10]. Четвертий етап мютить перевiрки зменшення набору даних тсля видалення спостережень або процедур ощнки чутливостi пiсля закiнчення вiдновлення. На останньому еташ проводиться ощнка ефективносп використаного методу обробки вщсутшх даних з використанням формалiзованих параметрiв точносп i мiр ефективностi вiдновлення вщсутшх даних.

Набори даних. Для дослщження переваг запропонованого пщходу до опрацювання вiдсутнiх даних були використанi три рiзних набори даних.

Перший набiр мютить 6 вхщних змiнних (данi переб^у вагiтностi) та вихiдну змiнну (стан новонародженого). Набiр мiстить 186 спостережень, з яких 81 з дiагнозом "патолопя".

Другий набiр даних мютить клЫчш данi та даш мамограм. Набiр мiстить 5 вхщних змшних: 1 кiлькiсну та 4 порядков^ та вихiдну змiнну - вщсутнють або наявнiсть злоякiсного новоутворення молочно'1' залози.

Всник Нацюнального техшчного ушверситету "ХП1", 2018, № 42 (1318)

ISSN 2079-0031 ISSN 2411-0558 ^пИМ)

1 Яккна оцшка «¡¡дортмк даиш

Тип ЗМ1ННИХ Мехашзм вщсутносп

% Чккглредвд % вдеутм ^^О/ЩРШО,

* категадальниц тпзятт % шдсутм вштадков®.

_у_

2 Кшьшсна оцЬма еГ^еут^

юлькосп вддеугмх змам^мь,

> Г

3 Виб"|р методу обробки вщсутжх даних

Методи обробки чладлм носпА Видалення виладк'в * в|дсутжми значеннями Методи | шдновлення эдаутшх даних

_у_

оценка часпвй вихщних дани*

_у_

з Оцшкаефективнослвикористаного методу обробки »¿дедтмсх дан их

• к<эефщ£н:1" гигмамок кдаец^кзмГг

• еереАНкмэкэадаэткмнэ покмлка,

• тонн^ет^ п-рот н<щ-

» ТОНМСТЬ, _

Рис. 1. Запропонована стратепя обробки р1зиорщиих иабор1в даних з вщсутшми

значеннями

Таблиця 1

!иформащя про дослiджуваиi набори даних

Набiр даиих Кiлькiсть спостережень Кшьшсть змiииих Типи змшних Вiдсутиi даиi

Даиi перебiгу вагiтиостi 12-38 тижнiв вагiтиостi 186 6 числовi, порядков^ бiиариi так

Клiиiчиi даиi та результати мамограми пацiеиток [11] 961 5 числовi, порядковi, бiиариi так

Даиi дiагиостики зображень одиночно! протоиио! комп'ютерио! томографii' серця [12] 267 22 бшарш т

Bíchuk Нацюнального техшчного ушверситету "ХП1", 201S, № 42 (131S)

ISSN 2079-0031 (Print) ISSN 2411-0558 (Online)

Третш набip мютить даш дiагнoстики зображень одиночно'1 протонно'1 комп'ютерно'1 томографа серця (SPECT). Виxiдна змiнна пoдiляeться на два класи: нормальш зображення i зображення з патолопею. Данi складаються з oбpoблениx зображень SPECT (пащенпв). Данi 6ули додатково oбpoбленi для отримання 22 бiнаpниx ознак зображення - вxiдниx змiнниx.

Процедура пoрiвняння складалася з настyпниx етапiв (рис. 2): пеpевipка набору даниx на вщсутш данi та, за неoбxiднoстi, введення до 10% вiдсyтнix значень для проведення дослщження, визначення меxанiзмy вiдсyтнoстi; визначення методу опрацювання вiдсyтнix даниx за запропонованою теxнoлoгieю та з використанням контрольно'1 мoделi; класифшащя даниx; oцiнка pезyльтатiв ; пopiвняльний аналiз oтpиманиx pезyльтатiв.

Рис. 2. Процедура пopiвняння пiдxoдiв до опрацювання piзнopiдниx даниx з

вiдсyтнiми значеннями

В oбpаниx набopаx найбiльший вщсоток вiдсyтнix даниx спoстеpiгаeться в ^6opí 1 (до 40%). Cеpеднiй вщсоток - в ^6opí 2 (понад 10%). №6íp 3 не мютив вiдсyтнi данi, отже, для експерименту, до нього штучно введено до 10% вiдсyтнix значень. В якост контрольное мoделi для обробки вiдсyтнix значень використано модель вiднoвлення медiанoю пpилеглиx значень. Змiннi, вiднoвлення якиx не вiдпoвiдають вiднoвленню медiанoю пpилеглиx значень, залишенi вiдсyтнiми.

BiCHUK Нацюнального техшчного ушверситету "ХП1", 2018, № 42 (1318)

ISSN 2079-0031 (Print) ISSN 2411-0558 (Online)

В результат використання контрольно! та запропоновано! в po6oTi моделей отримаш два повних набори даних. Кожен з наборiв випадковим чином роздшено на навчальний набiр (82%) та тестовий набiр (18%). Класифшацш проведено з використанням алгоритму Random Tree. На mдставi кшькосп помилок класифжацп першого та другого роду, кiлькостi ютинно позитивних та iстинно негативних спостережень розраховаш коефiцieнт помилок класифшаци та критери ефективностi класифшацп для контрольно! та розроблено! моделi: чутливiсть, специфiчнiсть, точнiсть.

Результати розрахункiв критерпв та коефщенту помилок класифшацп для трьох дослщжуваних на6орiв даних наведенi в табл. 2. Найбшьша роз6iжнiсть в параметрах якосл отримана при вщновленш набору даних 1, що мютив велику кiлькiсть вiдсутнiх значень.

Таблиця 2

Метрики якосп для трьох иабор1в даних

Модельнаб1р CER (%) Чутли- в1сть (%) Специ- ф1чшсть (%) Точшсть (%)

Контрольна1 45 62.5 52 54.54

Запропонована1 27 70 76.9 72.7

Контрольна2 32 73.19 63.88 68.02

Запропонована2 27 76.76 67.12 72.67

Контрольна3 27 87.8 23 72.1

Запропонована3 25 87.8 30 72.2

За результатами розрахунюв, запропонований пiдхiд дае достатньо висок значення показникiв чутливостi, специфiчностi, точносп та мiнiмальний коефiцiент помилок класифжацп, що е дуже цiнним при вщновленш вщсутшх значень, та ютотно покращуе властивостi даних, що використовуються в подальшому аналiзi.

Висновки. Представлено узагальнений пщхщ до обробки рiзнорiдних даних з вiдсутнiми значеннями, який враховуе множину титв вiдсутнiх значень, множину механiзмiв вiдсутностi даних та множину методiв опрацювання даних з вщсутшми значеннями.

Bíchuk Нацюнального техшчного ушверситету "ХП1", 2018, № 42 (1318)

ISSN 2079-0031 (Print) ISSN 2411-0558 (Online)

Проведена оцшка ефективност показала, шо даний тдхщ дае суттеве покращення показниюв чутливостi, специфiчностi, to4hoctí та мЫмальний коефiцiент помилок класифжацп. Варто вщзначити, що для доведення ефективностi пропоновано'! технологи потрiбно провести ще декшька серiй експериментiв з рiзними наборами даних та рiзними контрольними моделями. Подальшi дослiдження мають бути направлен на бiльш детальний пiдбiр моделей опрацювання даних i органiзацiю зворотного зв'язку мiж реальними, отриманими з шших клiнiчних джерел, i змодельованими результатами.

Список лiтератури:

1. School of Medicine: Stanford Medicine 2017 Health Trends Report Harnessing the Power of Data in Health, 2017. Режим доступу: https://med.stanford.edu/content/dam/sm/sm-news/documents/StanfordMedicine HealthTrendsWhitePaper2017.pdf (дата звернення 30.08.2018).

2. Аврутн О.Г. Сучасш штелектуальш технологи функцюнально! медично! дiагностики: монографгя / О.Г. Аврутн, С.В. Бодянський, М.В. Калашник, В.В. Семенець, В.О. Фглатов. - Харшв: ХНУРЕ, 2018. - 236 с.

3. Esfandiari N. Knowledge discovery in medicine: Current issue and future trend / N. Esfandiari, M.R. Babavalian, A.M.E. Moghadam, V.K. Tabar // Expert Systems with Applications. - 2014. - Vol. 41 (9). - Р. 4434-4463.

4. Wu X. Top 10 algorithms in data mining / X. Wu, V. Kumar, J.R. Quinlan, J. Ghosh, Q. Yang, H. Motoda, G.J. McLachlan, A. Ng, B. Liu, S.Y. Philip, Z.H. Zhou // Knowledge and information systems. - 2008. - Vol. 14 (1). - Р. 1-37.

5. Liu J. Mortality prediction based on imbalanced high-dimensional ICU big data / J. Liu, X.X. Chen, L. Fang, J.X. Li, T. Yang, Q. Zhan, K. Tong, Z. Fang // Computers in Industry. -2018. - Vol. 98. - Р. 218-225.

6. Nagrebetsky A. Missing Data and ICU Mortality Prediction: Gone But Not to Be Forgotten. / A. Nagrebetsky, E.A. Bittner // Critical care medicine. - 2017. - Vol. 45 (12). - Р. 21082109.

7. Scharfstein D. Final Report: Sensitivity Analysis Tools for Randomized Trials with Missing Data, 2017. - 112 p.

8. Ringham B.M. On the distribution of summary statistics for missing data / B.M. Ringham, S.M. Kreidler, K.E. Muller and D.H. Glueck // Communications in Statistics-Theory and Methods, 2018. - Р. 1-17.

9. Magnani M. Techniques for dealing with missing data in knowledge discovery tasks. [Електронний ресурс] / Magnani M. // Режим доступу www URL: http://magnanim. web. cs. unibo. it/index. html (дата звернення 18.09.2018).

10. Skarga-Bandurova I. Strategy to Managing Mixed Datasets with Missing Items / I. Skarga-Bandurova, T Biloborodova., Y. Dyachenko // International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems. Springer, Cham. - 2018. - Р. 608-620.

11. Elter M. The prediction of breast cancer biopsy outcomes using two CAD approaches that both emphasize an intelligible decision process / M. Elter, R. Schulz-Wendtland, T. Wittenberg // Medical Physics. - 2007. - Vol. 34 (11). - Р. 4164-4172.

12. UCI Machine Learning Repository. [Електронний ресурс]. - Режим доступу: www URL: https://archive.ics.uci.edu/ml/datasets/SPECT+Heart (дата звернення 30.07.2018).

Bíchuk Нацюнального техшчного ушверситету "ХП1", 201s, № al (131s)

ISSN 2079-0031 (Print) ISSN 2411-0558 (Online)

References:

1. School of Medicine: Stanford Medicine 2017 Health Trends Report Harnessing the Power of Data in Health (2017), available at: https://med.stanford.edu/ content/dam/sm/sm-news/documents/StanfordMedicine HealthTrendsWhitePaper2017.pdf (accessed 30 Aug 2018).

2. Avrunin, O.H., Bodianskyi, Ye.V., Kalashnyk, M.V., Semenets, V.V. and Filatov, V.O. (2018), Suchasni intelektualni tekhnolohii funktsionalnoi medychnoi diahnostyky, KhNURE, Kharkiv, 236 p.

3. Esfandiari, N., Babavalian, M.R., Moghadam, A.M.E. and Tabar, V.K. (2014), "Knowledge discovery in medicine: Current issue and future trend", Expert Systems with Applications, Vol. 41 (9), pp. 4434-4463.

4. Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y. and Zhou, Z.H. (2008), "Top 10 algorithms in data mining",

Knowledge and information systems, Vol. 14 (1), pp. 1-37.

5. Liu, J., Chen, X.X., Fang, L., Li, J.X., Yang, T., Zhan, Q., Tong, K. and Fang, Z. (2018), "Mortality prediction based on imbalanced high-dimensional ICU big data", Computers in Industry, Vol. 98, pp. 218-225.

6. Nagrebetsky, A. and Bittner, E.A. (2017), "Missing Data and ICU Mortality Prediction: Gone But Not to Be Forgotten", Critical care medicine, Vol. 45 (12), pp. 2108-2109.

7. Scharfstein, D. (2017), Sensitivity Analysis Tools for Randomized Trials with Missing Data, Final Report, 112 p.

8. Ringham, B.M., Kreidler, S.M., Muller, K.E. and Glueck, D.H. (2018), "On the distribution of summary statistics for missing data", Communications in Statistics-Theory and Methods, pp. 1-17.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Magnani, M. (2004), "Techniques for dealing with missing data in knowledge discovery tasks", available at: http://magnanim. web. cs. unibo. it/index. html, (accessed 18 Sept 2018).

10. Skarga-Bandurova, I., Biloborodova, T., and Dyachenko, Y. (2018), "Strategy to Managing Mixed Datasets with Missing Items", Int. Conf. on Information Processing and Management of Uncertainty in Knowledge-Based Systems, Springer, pp. 608-620.

11. Elter, M., Schulz-Wendtland, R. and Wittenberg, T. (2007), "The prediction of breast cancer biopsy outcomes using two CAD approaches that both emphasize an intelligible decision process", Medical Physics, Vol. 34 (11), pp. 4164-4172.

12. UCI Machine Learning Repository, available at: https://archive.ics.uci.edu/ml/ datasets/SPECT+Heart (accessed 30.07. 2018).

Статтю представив д. т.н., проф. Нащонального техтчного утверситету "Харювський полтехтчний тститут " С.Ю. Леонов

Надшшла (received) 13.08.2018

Biloborodova Tetyana, senior lecturer

Volodymyr Dahl East Ukrainian National University

59-a Central avenue, Severodonetsk, Luhansk region, Ukraine, 93400

Tel: (064) 522-89-97, e-mail: beloborodova.t@gmail.com

ORCID ID: 0000-0001-7561-7484

Skarga-Bandurova Inna, Dr. Sci. Tech., Assoc. Professor, Professor Volodymyr Dahl East Ukrainian National University 59-a Central avenue, Severodonetsk, Luhansk region, Ukraine, 93400 Tel: (064) 522-89-97, e-mail: skarga_bandurova@ukr.net ORCID ID: 0000-0003-3458-8730

BiCHUK Нацюнального техшчного ушверситету "ХП1", 2018, № 42 (1318)

ISSN 2079-0031 (Print) ISSN 2411-0558 (Online)

УДК 004.832.34+303.442.3

Комплексний шдхвд до обробки pi3Hop^H^ медичних даних з ввдсутшми значеннями / Бшобородова Т.О., Скарга-Бандурова 1.С. // Вюник НТУ "ХШ". CepiH: 1нформатика та моделювання. - Харшв: НТУ "ХП1". - 2018. - № 42 (1318). - С. 180 -187.

Показана необхщшсть врахування змшаних Ha6opiB даних з вщсутшми значеннями. Запропоновано узагальнений шдхщ до обробки рiзнорiдних медичних даних з урахуванням типу даних, мехашзму !х вiдсутностi. Проведене опрацювання трьох рiзних наборiв даних з використанням запропонованого пiдходу та контрольно! модель Надано порiвняння ефективностi опрацювання даних. 1л.: 2. Табл.: 2. Бiблюгp.: 12 назв.

Ключовi слова: рiзнорiднi медичш данi; вiдсутнi значення; обробка; контрольна модель.

УДК 004.832.34+ 303.442.3

Комплексный подход к обработке разнородных медицинских данных с отсутствующими значениями / Белобородова Т.А., Скарга-Бандуровa И.С. //

Вестник НТУ "ХПИ". Серия: Информатика и моделирование. - Харьков: НТУ "ХПИ". -2018. - № 42 (1318). - С. 180 - 187.

Показана необходимость учета смешанных наборов данных с отсутствующими значениями. Предложен обобщенный подход к обработке разнородных медицинских данных с учетом типа данных, механизма их отсутствия. Проведена обработка трех различных наборов данных с использованием предложенного подхода и контрольной модели. Предоставлено сравнения эффективности обработки данных. Ил.: 2. Табл.: 2. Библиогр.: 12 назв.

Ключевые слова: разнородные медицинские данные; отсутсвующие значения; обработка; контрольная модель.

UDC 004.67:618.3

A Comprehensive Approach for Processing Heterogeneous Medical Data with Missing Values / Biloborodova T.O., Skarga-Bandurova I.S. // Herald of the National Technical University "KhPI". Series of "Informatics and Modeling". - Kharkov: NTU "KhPI". - 2018. - №.42 (1318). - P. 180 - 187.

The need to take into account mixed data sets with missing values is shown. A generalized approach to the processing of heterogeneous medical data is proposed, taking into account the type of data, the mechanism of their absence. Three different sets of data have been processed using the proposed approach and control model. The comparison of the efficiency of data processing is given. Figs.: 2. Tabl.: 2, Refs.: 12 titles.

Keywords: heterogeneous medical data; мissing values; data processing; control

model.

i Надоели баннеры? Вы всегда можете отключить рекламу.