Научная статья на тему 'Сравнение точности работы алгоритмов интеллектуального анализа данных на примере задач медицинской диагностики'

Сравнение точности работы алгоритмов интеллектуального анализа данных на примере задач медицинской диагностики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
114
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ДАННЫХ / RAPIDMINER / ЗАДАЧИ КЛАССИФИКАЦИИ / МЕДИЦИНСКАЯ ДИАГНОСТИКА / DATA ANALYSIS / CLASSIFICATION / MEDICINE DIAGNOSTICS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соляникова В.Н.

Проведено исследование результатов работы нескольких алгоритмов классификации и анализ их эффективности, а также работы ансамблей, построенных на основе этих алгоритмов, в среде RapidMiner.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF THE DATA MINING ALGORITHMS ACCURACY IN MEDICAL DIAGNOSTICS PROBLEMS

In this work the results of several classification algorithms and ensembles based on these algorithms have investigated and their efficiency has analyzed with the RapidMiner package.

Текст научной работы на тему «Сравнение точности работы алгоритмов интеллектуального анализа данных на примере задач медицинской диагностики»

Актуальные проблемы авиации и космонавтики - 2017. Том 2

УДК 519.6

СРАВНЕНИЕ ТОЧНОСТИ РАБОТЫ АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО

АНАЛИЗА ДАННЫХ НА ПРИМЕРЕ ЗАДАЧ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

В. Н. Соляникова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: solyanikovav@mail.ru

Проведено исследование результатов работы нескольких алгоритмов классификации и анализ их эффективности, а также работы ансамблей, построенных на основе этих алгоритмов, в среде RapidMiner.

Ключевые слова: анализ данных, RapidMiner, задачи классификации, медицинская диагностика.

COMPARISON OF THE DATA MINING ALGORITHMS ACCURACY IN MEDICAL DIAGNOSTICS PROBLEMS

V. N. Solyanikova

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: solyanikovav@mail.ru

In this work the results of several classification algorithms and ensembles based on these algorithms have investigated and their efficiency has analyzed with the RapidMiner package.

Keywords: data analysis, RapidMiner, classification, medicine diagnostics.

Вследствие развития компьютерных технологий появляются возможности обработки накопленных данных во многих сферах жизни на новом уровне с использованием методов интеллектуального анализа данных.

Анализ данных представляет собой извлечение практически полезных, нетривиальных знаний из больших наборов накопленных данных [1].

Одним из инструментов анализа данных является классификационный анализ; его основное назначение - разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы.

Техника классификации может применяться в самых различных прикладных областях, в том числе и в медицине, в частности при диагностике различных заболеваний. Применение такого рода анализа позволяет ускорить процесс диагностики, а также учесть большее количество параметров при назначении диагноза пациенту.

В данной работе представлены задачи из области бинарной классификации: выявление наличия или отсутствия сердечнососудистых заболеваний у пациента и определение типа опухоли у пациента (доброкачественная или злокачественная).

Целью данной работы является сравнение результатов работы нескольких алгоритмов классификации и проведение анализа их эффективности, а также работы ансамблей, построенных на основе этих алгоритмов.

Исследование проводилось в системе RapidMiner [2].

Для обработки была выбрана база данных, касающихся диагностики заболевания сердечнососудистой системы. Набор данных содержит информацию о 270 пациентах (объекты), каждый из которых описывается 13 атрибутами различных типов (вещественный, бинарный, номи-

Секция «Математические методы моделирования, управления и анализа данных»

нальный). Также была выбрана база данных рака молочной железы, содержащая информацию о 699 пациентах, каждый из которых описывается 11 атрибутами номинального типа [3].

Для проведения исследования были выбраны алгоритмы, часто используемые для выполнения задач классификации: дерево решений, к-ЫЫ или метод А>ближайших соседей, нейронная сеть, наивный байесовский классификатор, алгоритм случайного леса.

Алгоритмы, допускающие настройку параметров, были оптимизированы с помощью генетического алгоритма, предусмотренного средой Кар1ёМ1пег.

Помимо использования перечисленных алгоритмов, в исследовании также были задействованы ансамбли, составленные из различных комбинаций этих алгоритмов. Точности классификации выбранных наборов данных приведены в таблице в процентах.

Точности работы алгоритмов и ансамблей при работе с каждой из выборок

Метод классификации Сердечнососудистые заболевания Тип опухоли

к-ЫЫ 81,11 95,69

Дерево решений 75,55 93,71

Нейронная сеть 81,82 97,93

Байесовский классификатор 78,86 93,73

Случайный лес 80,98 94,27

Ансамбль из пяти методов 82,93 95,45

Нейронная сеть, байесовский классификатор, к-ЫЫ 82,32 95,90

Дерево решений, к-ЫЫ, нейронная сеть 82,28 95,26

Дерево решений, к-ЫЫ, случайный лес 82,28 95,26

Дерево решений, нейронная сеть, случайный лес 80,51 94,76

С целью доказательства статистической значимости в разнице точностей работы алгоритмов при обработке наборов данных была также проведена оценка с помощью i-теста Стьюдента. В ходе данного этапа исследования было выявлено отсутствие статистически значимых различий в результатах классификации алгоритмом k-NN и нейронной сетью базы данных по сердечнососудистым заболеваниям. При работе с базой данных по опухолям аналогичная ситуация наблюдается при сравнении результатов работы алгоритмов k-NN и случайного леса, а также байесовского классификатора и дерева решений.

На основании полученных результатов можно заключить, что каждый из алгоритмов обладает значительной точностью классификации при работе с приведенными задачами, потому как даже наименьшая точность составляет 75,55 и 93,71 % для первого и второго наборов данных соответственно. Наименее эффективным оказался алгоритм дерева решений, а наиболее эффективно справилась с обработкой данных нейронная сеть (81,82 и 97,93 %). Следует отметить, что использование ансамблей не улучшает результат классификации значительным образом. Более того, в некоторых случаях результат ухудшается. Значительное увеличение точности классификации каждого из представленных алгоритмов и ансамблей при обработке ими второго набора данных можно обусловить разницей в количестве объектов, входящих в выборки (270 и 699 для первого и второго наборов соответственно): объем выборки влияет на обучение алгоритмов.

Несмотря на то, что приведенные в исследовании методы классификации обладают высокой точностью, для решения задач анализа данных из области медицинской диагностики недостаточно использовать настоящую среду RapidMiner. Необходима разработка специальных систем, способных справляться с решением задач подобного уровня с наивысшей точностью.

Библиографические ссылки

1. Макленнен Д., Танг Д., Криват Б. Microsoft SQL Server 2008: Data mining - интеллектуальный анализ данных / пер. с англ. СПб. : БХВ-Петербург, 2009. 720 с.

2. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 26.12.2016).

3. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 13.02.2017).

© Соляникова В. Н., 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.