УДК 519.87
О ВЫБОРЕ ЭФФЕКТИВНЫХ НАСТРОЕК ГЕНЕТИЧЕСКОГО АЛГОРИТМА ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕ ДИАГНОСТИКИ
КАРДИАЛГИИ
Т. С. Карасева
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Рассматривается применение генетического алгоритма для выбора параметров классификаторов в RapidMiner с целью обеспечения их оптимальной работы в задаче диагностики кардиалгии. Представлены комбинации используемых настроек генетического алгоритма и оценки эффективности классификаторов до и после оптимизации.
Ключевые слова: сердечные боли, классификация, оптимизация параметров, генетический алгоритм, настройка.
ON SELECTION OF EFFICIENT SETTINGS FOR GENETIC ALGORITHM OF CLASSIFIERS PARAMETERS OPTIMIZATION IN CARDIALGIA
DIAGNOSIS PROBLEMS
T. S. Karaseva
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
The paper considers the application of the genetic algorithm for the classifier parameters tuning in RapidMiner to ensuring their optimal operation in the problem of the cardialgia diagnosis. The combinations of the applied settings of the genetic algorithm as well as the estimation of classifiers performance before and after optimization are presented.
Keywords: cardiac pain, classification, parameter optimization, genetic algorithm, setting.
Методы интеллектуального анализа данных применяются для большого числа прикладных задач, в том числе для задач медицинской диагностики [1]. Накопив достаточное количество прецедентов в электронном виде, можно решать различные задачи. Здесь пациенты выступают в роли объектов, а признаки характеризируют результаты обследований, симптомы заболевания и применявшиеся методы лечения. Ценность такого рода систем в том, что они способны мгновенно анализировать и обобщать огромное количество прецедентов - возможность, недоступная специалисту-врачу. Одной из задач медицинской диагностики является задача диагностики кардиалгии [2]. Сложность, с которой сталкиваются специалисты-врачи - это схожесть болей в области сердца с болями, которые указывают на патологии других органов (желудочно-кишечного тракта, опорно-двигательного аппарата). Для решения задачи были выбраны исходные данные, касающиеся диагностики патологии сердца [3]. Задача состоит в определении наличия болезни сердца по известной симптоматике.
В ходе выполнения работы была исследована эффективность следующих методов классификации: искусственная нейронная сеть (ANN, [4]); метод k-ближайших соседей (k-NN, [5]); деревья решений (DT, [6]); индуктивный вывод правил (RI, [7]); случайный лес (RF, [8]), реализованных в системе RapidMiner [9] со стандартными предустановленными параметрами классификаторов. Эффективность данных методов составила: ANN - 73,7 %; k-NN - 66,67 %; DT - 73,33 %; RI - 72,22 %; RF - 78,15 %, т. е. не достаточно удовлетворительна.
Возможно, что стандартные параметры классификаторов, установленные в системе RapidMiner по умолчанию, не всегда обеспечивают оптимальную работу. С целью настройки пара-
Секция «Математические методы моделирования, управления и анализа данных»
метров классификаторов был применен оператор Optimize Parameters (Evolutionary). Этот оператор находит оптимальные значения выбранных параметров, применяя генетический алгоритм (ГА, [10]).
Однако эффективность ГА существенно зависит от точного выбора конфигурации алгоритма, т.е. типов генетических операторов [11]. С целью выбора комбинаций для ГА, встроенного в оператор Optimize Parameters (Evolutionary) была выполнена собственная программная реализация ГА на языке программирования С++ в среде Embarcadero RAD Studio. Данная программа позволяет исследовать эффективность ГА путем перебора его возможных настроек и параметров на тестовых функциях, отражающих возможные свойства целевых функций реальных задач.
Исследование эффективности ГА, т. е. выбора необходимых комбинаций операторов, проводилось на задачах безусловной оптимизации следующих тестовых функций: квадратичная функция, функция Растригина, функция «Лисьи норы» Шекеля. Для дальнейшего исследования были выбраны варианты комбинаций, соответствующие наилучшей, средней и наихудшей эффективности работы ГА.
Таким образом, для оптимизации классификаторов генетическим алгоритмом были выбраны следующие комбинации настроек, представленные в табл. 1.
Таблица 1
Конфигурации настроек ГА
Комбинация Селекция Скрещивание Вероятность скрещивания Мутация
«Лучшая» Турнирная(размер турнира 9) Равномерное 0,95 Средняя
«Средняя» Ранговая Равномерное 0,6 Средняя
«Худшая» Пропорциональная Равномерное 0,6 Сильная
Показатели эффективности всех перечисленных методов классификации с оптимизацией тремя упомянутыми вариантами ГА и без оптимизации представлены в табл. 2.
Таблица 2
Эффективность классификаторов (в % правильных ответов)
ANN k-NN DT RI RF
Без оптимизации 73,7 66,67 73,33 72,22 78,15
«Лучшие» настройки 66,67 68,89 78,52 77,78 79,26
«Средние» настройки 69,26 64,81 76,3 71,11 78,89
«Худшие» настройки 63,7 66,67 74,81 74,07 76,3
Проанализировав полученные результаты, можно сделать вывод о том, что оптимизация улучшила работу не всех классификаторов. Более того, эффективность работы до и после оптимизации имеет статистически значимое улучшение лишь для методов БТ, Ы. В соответствии с полученными результатами можно утверждать, что настройки, которые являются «Лучшими» для тестовых функций не могут считаться таковыми для оптимизации выбранных классификаторов в задаче диагностики кардиалгии.
Возможными причинами могут быть нерепрезентативность множества тестовых функций, а также непереносимость результатов тестирования на реальные практические задачи. Для устранения первой причины необходимо расширять множество тестовых задач за счет использования моделей реальных сложных систем [12; 13]. Во втором случае необходимо переходить к использованию алгоритмов оптимизации автоматически подстраивающихся под решаемую задачу.
Библиографические ссылки
1. Карасева Т. С. Решение задач медицинской диагностики методами интеллектуального анализа данных // Решетневские чтения : материалы XIX Междунар. науч.-практ. конф., посвящ. 55-летию Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева (10-14 нояб. 2015, г. Красноярск). 2015. Ч. 2. С. 46-47.
2. Карасева Т. С. Сравнение эффективности методов интеллектуального анализа данных при диагностике кардиалгии // Актуальные проблемы авиации и космонавтики : материалы Междунар.
науч.-практ. конф., посвящ. 55-летию СибГАУ. (06-10 апр. 2015 г., Красноярск): СибГАУ, 2015. Т. 2. C. 319-321.
3. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 04.12.2014).
4. Regularization theory and neural network architecture / F. Girosi, M. Jones, T. Poggio // Neural Computation. 1995. Vol. 7. Рр. 219-270.
5. Soft k-nearest-neighbour classifiers / Bermejo S. Cabestany J. Adaptive // Pattern Recognition. Vol. 33. Pp. 1999-2005, 2000.
6. Quinlan J. R. Generating production rules from decision trees // McDermott, John. Proceedings of the Tenth International Joint Conference on Artificial Intelligence (IJCAI-87). Milan, Italy. 1987. Pp.304-307.
7. Rule Induction as a Technique of Detecting Severity of Myocardial Infarction / Raquib Ridwan, Md Ibnea Sina Bony and Kamrul Hasan // 4th International Conference on Bioinformatics and Biomedical Technology. 2012. Pp. 34-39.
8. Antipov E. A., Pokryshevskaya E. B. Mass appraisal of residential apartments: An application of Random forest for valuation and a CART-based approach for model diagnostic // Expert Systems with Applications. 2012. Vol. 39. No. 2. P. 1772-1778.
9. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 24.03.2016).
10. Гуменникова А. В., Емельянова М. Н., Семенкин Е. С., Сопов Е. А. Об эволюционных алгоритмах решения сложных задач оптимизации // Вестник СибГАУ. 2003. № 4. С. 14.
11. Бежитский С. С., Семенкин Е. С., Семенкина О. Э. Гибридный эволюционный алгоритм для задач выбора эффективных вариантов систем управления // Автоматизация. Современные технологии. 2005. № 11. С. 24.
12. Медведев А. В., Победаш П. Н., Семенкин Е. С. Математическая модель глобального социально-экономического развития // Вестник СибГАУ. 2010. № 5 (31). С. 137-142.
13. Семенкин Е. С., Клешков В. М. Модели и алгоритмы распределения общих ресурсов при управлении инновациями реструктурированного машиностроительного предприятия // Проблемы машиностроения и автоматизации. 2006. № 3. С. 24-30.
14. Brester C., Semenkin E., Sidorov M., Minker W. Self-adaptive multi-objective genetic algorithms for feature selection // OPT-i 2014 - 1st International Conference on Engineering and Applied Sciences Optimization, Proceedings 1. 2014. С. 1838-1846.
© Карасева Т. С., 2016