Научная статья на тему 'Решение задач медицинской диагностики методами интеллектуального анализа данных'

Решение задач медицинской диагностики методами интеллектуального анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
986
105
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕДИЦИНСКАЯ ДИАГНОСТИКА / КЛАССИФИКАЦИЯ / CLASSIFICATION / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / DATA MINING / MEDICINE DIAGNOSTICS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карасева Т. С.

С целью повышения уровня космической медицины необходимо развивать интеллектуальные информационные технологии анализа данных для медицинской диагностики. Рассматриваются возможности решения задач медицинской диагностики различными методами и ансамблями методов с использованием системы RapidMiner.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MEDICINE DIAGNOSTICS PROBLEMS SOLVING WITH DATA MINING TOOLS

It is necessary to develop intelligent information technologies of data analysis for medical diagnosis to increase the level of space medicine. The possibility of medical diagnostics problems solving withvariety of methods and their ensembles using the RapidMiner system is considered.

Текст научной работы на тему «Решение задач медицинской диагностики методами интеллектуального анализа данных»

Решетнеескцие чтения. 2015

УДК 519.87

РЕШЕНИЕ ЗАДАЧ МЕДИЦИНСКОЙ ДИАГНОСТИКИ МЕТОДАМИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ*

Т. С. Карасева

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

С целью повышения уровня космической медицины необходимо развивать интеллектуальные информационные технологии анализа данных для медицинской диагностики. Рассматриваются возможности решения задач медицинской диагностики различными методами и ансамблями методов с использованием системы RapidMiner.

Ключевые слова: медицинская диагностика, классификация, интеллектуальный анализ данных.

MEDICINE DIAGNOSTICS PROBLEMS SOLVING WITH DATA MINING TOOLS

T. S. Karaseva

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

It is necessary to develop intelligent information technologies of data analysis for medical diagnosis to increase the level of space medicine. The possibility of medical diagnostics problems solving withvariety of methods and their ensembles using the RapidMiner system is considered.

Keywords: medicine diagnostics, classification, data mining.

Для реализации проектов пилотируемой космонавтики требуется высокий уровень космической медицины. Одним из главных аспектов космической медицины является диагностика состояния космонавтов до полета и во время него. Интеллектуальные информационные технологии медицинской диагностики могут существенно помочь в этом.

В ходе данной работы были протестированы методы классификации при решении двух задач медицинской диагностики. Первая задача состояла в диагностике патологии сердца, т. е. в определении наличия болезни сердца по известной симптоматике. Вторая задача состояла в диагностике состояния щитовидной железы, т. е. в определении принадлежности обследуемого пациента к следующим классам: здоровый человек (1), гипотиреоз (2), гипертиреоз (3) [1].

Анализ данных осуществлялся с помощью системы RapidMiner [2]. В ходе работы был создан процесс, содержащий методы классификации: наивный байесовский классификатор (NB [3]); метод k ближайших соседей (k-NN, [4]); деревья решений (DT [5]); индукция правил (IR [4]); логистическая регрессия (LR [6]); машина опорных векторов (SVM, [4]); нейронная сеть (ANN [7]); линейный дискриминант-ный анализ (LDA) [8]. С помощью оператора Г-Test проведено сравнение используемых методов, чтобы увидеть, имеется ли между ними статистически значимое различие.

В результате проведенных исследований установлено, что наименьшей эффективностью при диагно-

стировании кардиалгии обладают метод k ближайших соседей и метод деревьев решений. Наиболее эффективен наивный байесовский классификатор, хотя его отличие от других методов несущественно. Наименьшей эффективностью при диагностике заболеваний щитовидной железы обладают следующие методы: линейный дискриминантный анализ, ближайших соседей и метод деревьев решений. Данное отличие статистически достоверно и существенно.

Для увеличения точности был использован оператор Vote, использующий простое большинство голосов нескольких методов классификации, объединенных в ансамбль.

Для задачи по определению типа кардиалгии в ансамбль были включены машина опорных векторов, наивный байесовский классификатор, нейронная сеть, логистическая регрессия и индукция правил, показавшие сопоставимую точность в начальном численном эксперименте. Результат вектора производительности равен 91,19 %. В ансамбль для решения задачи по определению типа состояния щитовидной железы были включены следующие методы: наивный байесовский классификатор, нейронная сеть, логистическая регрессия и индукция правил. Результат вектора производительности равен 100 %.

Можно сделать вывод, что для различных задач медицинской диагностики эффективными оказывают-

Работа выполнена RFMEFI57414X0037.

рамках

проекта

в

Математические методы моделирования, управления и анализа данных

ся различные методы, выбор которых связан со значительными затратами времени специалистов в области анализа данных и не может быть сделан медиками. Это значит, что необходимо использовать методы, которые могут автоматически настраиваться на решаемую задачу, не требуя от медиков экспертных знаний в области интеллектуального анализа данных. Используемая система RapidMiner не предоставляет таких возможностей, поэтому следует использовать другие системы, содержащие, например, такие подходы, как генетическое программирование [9; 10], в том числе самонастраивающиеся методы [11].

Библиографические ссылки

1. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 4.12.2014).

2. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 18.12.2014).

3. Langley P., Iba W., Thompson K. An analysis of Bayesian classifiers // Proceedings of the Tenth National Conference on Artificial Intelligence. San Jose, CA : AAAI, 1992. P. 223-228.

4. Fayyad U. M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. Advances in Knowledge Discovery and Data Mining // The AAAI Press, 1996.

5. Quinlan J. R. Generating production rules from decision trees // Proceedings of the Tenth International Joint Conference on Artificial Intelligence (IJCAI-87). McDermott, John. Milan, Italy, 1987. P. 304-307.

6. Chao-YingJoann Peng; Kuk Lida Lee; Gary M. Ingersoll. An introduction to logistic regression analysis and reporting / // Journal of Educational Research. 2002. 96(1). P. 3-13.

7. Srivastava K., Bhambhu Lekha. Data classification using support vector Machine Durgesh // J. of theoretical and applied information technology. 2009. Р. 67-74.

8. Sparse Discriminant Analysis / Line Clemmensen, Trevor Hastie, Daniela Witten and Bjarne Ersboll // Technometrics. 2011. Vol. 53, № 4. P. 406-413,

9. Семенкин Е. С., Шабалов А. А., Ефимов С. Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. 2011. № 3(36). С. 77-81.

10. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных инфор-

мационных технологий // Вестник СибГАУ. 2007. № 3 (16). С. 27-33.

11. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // IEEE Congress on Evolutionary Computation, CEC-2012. 2012. С. 6256587.

References

1. Machine Learning Repository [Electronic resourse]. URL:http://archive.ics.uci.edu/ml/ datasets.html (date of visit: 4.12.2014).

2. RapidMiner [Electronic resourse]. URL: https://rapidminer.com/ (date of visit: 18.12.2014).

3. An analysis of Bayesian classifiers / Langley P., Iba W., & Thompson K. // Proceedings of the Tenth National Conference on Artificial Intelligence. 1992. Pp. 223-228. San Jose, CA: AAAI.

4. Fayyad U. M., Piatetsky-Shapiro G., Smyth P., and Uthurusamy R. Advances in Knowledge Discovery and Data Mining // The AAAI Press, 1996.

5. Quinlan J. R. Generating production rules from decision trees. In McDermott, John. Proceedings of the Tenth International Joint Conference on Artificial Intelligence (IJCAI-87). Milan, Italy. 1987. Pp. 304-307.

6. An introduction to logistic regression analysis and reporting / Peng Chao-YingJoann; Lee Kuk Lida; Ingersoll GaryM // J. of Educational Research 96(1). 2002. Pp. 3-13.

7. Data classification using support vector Machine Durgesh / K. Srivastava, Lekha Bhambhu // Journal of theoretical and applied information technology. 2009. Рp. 67-74.

8. Sparse Discriminant Analysis / Line Clemmensen, Trevor Hastie, Daniela Witten and Bjarne Ersboll // Technometrics. 2011. Vol. 53, no. 4, pp. 406-413,

9. Semenkin E. S., Shabalov A. A., Efimov S. N. Automated design of intelligent information technologies with genetic programming method // Vestnik SibSAU. 2011. № 3(36). С. 77-81.

10. Semenkin E. S., Semenkina M. E. Application of genetic programming algorithm with modified uniform crossover operator for automated design of intelligent information technologies // Vestnik SibSAU. 2007. № 3 (16). С. 27-33.

11. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC 2012. 2012. С. 6256587.

© Карасева Т. С., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.