Научная статья на тему 'Сравнение эффективности ансамблей интеллектуальных технологий в задачах медицинской диагностики'

Сравнение эффективности ансамблей интеллектуальных технологий в задачах медицинской диагностики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
86
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
RAPIDMINER / МЕДИЦИНСКАЯ ДИАГНОСТИКА / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / АЛГОРИТМЫ КЛАССИФИКАЦИИ / АНСАМБЛИ / MEDICAL DIAGNOSTICS / DATA MINING / CLASSIFICATION ALGORITHM / ENSEMBLES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Компанченко А.С.

Проведен анализ эффективности различных алгоритмов классификации в системе RapidMiner, а также анализ эффективности ансамблей этих алгоритмов, на примере решения задач медицинской диагностики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EFFICIENCY COMPARISON OF INTELLIGENT TECHNOLOGIES ENSEMBLES IN PROBLEMS OF MEDICAL DIAGNOSTICS

In this study, the effectiveness of various classification algorithms, supported by RapidMiner system, as well as the efficiency analysis of the ensembles of these algorithms, was analyzed.

Текст научной работы на тему «Сравнение эффективности ансамблей интеллектуальных технологий в задачах медицинской диагностики»

Актуальные проблемы авиации и космонавтики - 2017. Том 2

УДК 519.6

СРАВНЕНИЕ ЭФФЕКТИВНОСТИ АНСАМБЛЕЙ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ В ЗАДАЧАХ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

А. С. Компанченко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: nutka.kompanchenko@yandex.ru

Проведен анализ эффективности различных алгоритмов классификации в системе RapidMiner, а также анализ эффективности ансамблей этих алгоритмов, на примере решения задач медицинской диагностики.

Ключевые слова: RapidMiner, медицинская диагностика, интеллектуальный анализ данных, алгоритмы классификации, ансамбли.

EFFICIENCY COMPARISON OF INTELLIGENT TECHNOLOGIES ENSEMBLES IN PROBLEMS OF MEDICAL DIAGNOSTICS

А. S. Kompanchenko

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: nutka.kompanchenko@yandex.ru

In this study, the effectiveness of various classification algorithms, supported by RapidMiner system, as well as the efficiency analysis of the ensembles of these algorithms, was analyzed.

Keywords: RapidMiner, medical diagnostics, data mining, classification algorithm, ensembles.

Исследования проводились с помощью пакета интеллектуального анализа данных RapidMiner [1]. Для проведения исследований были использованы такие базы данных [2], как Hepatitis с количеством экземпляров 155, атрибутов 20 и 2-мя классами; Lung Cancer с количеством экземпляров 32, атрибутов 57 и 3-мя классами; Dermatology с количеством экземпляров 366, атрибутов 34 и 6-ти классами.

В таблицах представлены средние результаты точности (процент правильных ответов) работы каждого алгоритма, а также их ансамблей. Количество итераций - 50. На основе полученных данных производится сравнение оценок эффективности каждого алгоритма классификации с помощью t-критерия Стьюдента.

В таблицах представлены результаты исследования по каждой базе данных, где выделены клетки с наилучшими результатами решения каждой задачи.

На основе полученных результатов работы методов и ансамблей, можно сделать вывод о том, что ансамбль не дает большей эффективности, чем лучший метод в отдельности.

Таблица 1

Результаты классификации

k-nn Decision Tree Naive Bayes W-smo Neural Net

Рак легкого 78,8 % 85,2 % 80,2 % 68,2 % 73,40 %

Гепатит 57,73 % 61,34 % 54,56 % 67,04 % 65 %

Дерматология 79,59 % 94,62 % 93,05 % 96,53 % 96,78 %

Секция «Математические методы моделирования, управления и анализа данных»

Таблица 2

Гепатит. Результаты T-test

Decision Tree Neural Net Naïve Bayes W-smo

k-nn 0,014460509 9,162E-05 0,142608 5,07182E-10

Decision Tree 0,02333153 0,003487 9,98501E-05

Neural Net 3,78E-06 0,260815075

Naïve Bayes 3,24815E-08

Таблица 3

Ансамбли

Ансамбль из 2-х лучших и худшего (nn, smo, nb) Ансамбль из худших (knn, nb, dt) Ансамбль из 2-х худших и лучшего (knn, nb, smo) Ансамбль из всех

67,39 % 61,80 % 64,02 % 67,17 %

Таблица 4

Рак легких. Результаты T-test

Decision Tree Neural Net Naïve Bayes W-smo

k-nn 0,001583739 0,01260421 0,436397 3,73756E-06

Decision Tree 2,8778E-06 0,003394 6,0027E-10

Neural Net 0,001284 0,029955851

Naïve Bayes 1,06348E-08

Таблица 5

Ансамбли

Ансамбль из 2-х лучших и худшего (dt, nb, smo) Ансамбль из худших (knn, smo, nn) Ансамбль из 2-х худших и лучшего Ансамбль из всех

78,82 % 71,76 % 71,96 % 75,29 %

Таблица 6

Дерматология. Результаты T-test

Decision Tree Neural Net Naïve Bayes W-smo

k-nn 3,00089E-30 9,09967E-41 1,08335E-40 7,17154E-38

Decision Tree 3,97049E-12 1,69107E-16 2,3113E-11

Neural Net 0,000442686 0,272159717

Naïve Bayes 8,58145E-08

Таблица 7

Ансамбли

Ансамбль из 2-х лучших и худшего (nn, smo, knn) Ансамбль из худших (knn, dt, nb) Ансамбль из 2-х худших и лучшего (knn, nb, nn) Ансамбль из всех

96,69 % 95,99 % 96,55 % 97,24 %

Также стоит сказать о том, что методы, реализованные в пакете RapidMiner, не позволяют построить достаточно эффективные системы диагностики. От пользователя (в нашем случае, это медик) требуются знания ИАД и способов оптимизации, что не очень удобно.

В таких случаях требуется разработка метода «под задачу», что позволит наилучшим образом добиться поставленной цели.

Библиографические ссылки

1. Rapid Miner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 30.11.2016).

2. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ ml/datasets/ (дата обращения: 15.02.2017).

© Компанченко А. С., 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.