Научная статья на тему 'Анализ и интерпретация результатов при автоматизированном формировании деревьев принятия решений методом генетического программирования'

Анализ и интерпретация результатов при автоматизированном формировании деревьев принятия решений методом генетического программирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
77
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕРЕВЬЯ ПРИНЯТИЯ РЕШЕНИЙ / DECISION TREES / МЕДИЦИНСКАЯ ДИАГНОСТИКА / MEDICAL DIAGNOSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Липинский Л.В., Кушнарева Т.В.

Проводится анализ и интерпретация результатов, полученных с помощью алгоритма автоматизированного формирования деревьев принятия решений, на примере медицинской задачи определения степени тяжести перитонита. Данные методы применимы при решении задач ракетно-космической отрасли.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS AND INTERPRETATION OF RESULTS IN THE AUTOMATED DESIGN OF DECISION TREE BY GENETIC PROGRAMMING

The work is carried out an interpretation and analysis of results obtained using the algorithm the Automated Design of Decision Trees in medical problems such as severity definition. These methods can be applied to aerospace problems.

Текст научной работы на тему «Анализ и интерпретация результатов при автоматизированном формировании деревьев принятия решений методом генетического программирования»

Рис. 2. Прогноз выходной переменной при отсутствии помех

Библиографические ссылки

1. Медведев А. В. Теория непараметрических систем. Моделирование // Вестник СибГАУ. 2010. № 4(31). С. 4-9.

2. Мальцева Т. В., Медведев А. В. Исследование алгоритма прогноза выхода комбинированной многосвязной системы // Молодой учёный. 2011. № 6(49). С. 73-79.

3. Медведев А. В. Непараметрические системы адаптации. Новосибирск : Наука, 1983. С. 176.

4. Хардле В. Прикладная непараметрическая регрессия : пер. с англ. М. : Мир, 1993. 327 с.

5. Васильев В. А., Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. М. : Наука, 2004. 508 с.

6. Медведев А. В. Основы теории адаптивных систем : монография / Сиб. гос. аэрокосмич. ун-т. Красноярск, 2015. 525 с.

References

1. Medvedev A. V. Teoria nepаrametricheskih sistem. Modelirovanie [Theory of nonparametricsystems. Simulation] // VestnikSibGAU, 2010. No. 4(31), рр. 4-9.

2. Maltseva T. V., Medvedev A. V. Issledovanie algoritma prognoza vyhoda kombinirovannoj mnogosvyaznoj sistemy [Investigation of combined multiply output for ecast system algorithm] // Molodojuchyonyj. 2011. No. 6(49), рр. 73-79.

3. Medvedev A. V. Neparametricheskie sistemy adaptacii [Nonparametric adaptation system]. Novosibirsk : Nauka, 1983. Pр. 176.

4. Harle V. Prikladnaya neparametricheskaya regressiya [Applied nonparametric regression]. M. : Мir, 1993. 327 p.

5. Vasil'ev V. A., Dobrovidov A. V., Koshkin G. M. Neparametricheskoe ocenivanie funkcionalov ot raspredelenij stacionarnyh posledovatel'nostej [Nonpa-rametric estimation functional of the distribution of stationary sequences]. М. : Nauka, 2004. 508 p.

6. Medvedev A. V. Osnovy teorii adaptivnyh sistem [Fundamentals of the adaptive systems theory] // SibGAU. Krasnoyarsk. 2015. 525 p.

© Кузьмин М. В., Мальцева Т. В.

Медведев А. В., 2015

УДК 004.891.3

АНАЛИЗ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ПРИ АВТОМАТИЗИРОВАННОМ ФОРМИРОВАНИИ ДЕРЕВЬЕВ ПРИНЯТИЯ РЕШЕНИЙ МЕТОДОМ ГЕНЕТИЧЕСКОГО

ПРОГРАММИРОВАНИЯ*

Л. В. Липинский1, Т. В. Кушнарева2

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-таЛ: 1ЫртеЫуЬ@таП.ги, 2гаге-ау18@таП.ги

Проводится анализ и интерпретация результатов, полученных с помощью алгоритма автоматизированного формирования деревьев принятия решений, на примере медицинской задачи определения степени тяжести перитонита. Данные методы применимы при решении задач ракетно-космической отрасли.

Ключевые слова: деревья принятия решений, медицинская диагностика.

*

Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037.

Решетнеескцие чтения. 2015

ANALYSIS AND INTERPRETATION OF RESULTS IN THE AUTOMATED DESIGN OF DECISION TREE BY GENETIC PROGRAMMING*

L. V. Lipinskiy1, T. V. Kushnareva2

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: 1LipinskiyL@mail.ru, 2rare-avis@mail.ru

The work is carried out an interpretation and analysis of results obtained using the algorithm the Automated Design of Decision Trees in medical problems such as severity definition. These methods can be applied to aerospace problems.

Keywords: decision trees, medical diagnosis.

Введение. Авторами был разработан гибридный эволюционный алгоритм автоматизированного формирования деревьев принятия решений (ДПР) методом генетического программирования [1-3]. С помощью ДПР можно эффективно решать задачи диагностики, классификации, кластеризации и принятия решения из различных отраслей знаний, таких как ракетно-космическая отрасль, медицинская и социальная сферы. При этом структура дерева и способ его обхода интуитивно понятны пользователю, не обладающему специализированными знаниями, поэтому удобны в применении на практике. Помимо модели в виде ДПР исследователь получает информацию о взаимосвязях между входами и выходами, которые могут быть причинно-следственными, статистическими, корреляционными [4], и их анализ позволит специалистам предметной области получит новые знания о проблеме. По причине того, что алгоритм является эволюционным, в построенном ДПР с большей вероятностью выбираются те связи, которые оказывают наибольшее влияние на выход, т. е. попутно решается задача сокращения признакового пространства. Анализ отброшенных и, наоборот, включенных в модель входов также дает новые знания о проблеме.

Таким образом, в результате работы алгоритма можно получить не только эффективно работающую модель ДПР, но и новые знания, которые весьма полезны для специалистов предметной области [5].

Дерево принятия решений в задаче определения степени тяжести перитонита

Рассмотрим процесс анализа ДПР на примере медицинской задачи.

Задача определения степени тяжести перитонита. По результатам работы гибридного эволюционного алгоритма было получено дерево принятия решений (см. рисунок).

Данное дерево включает в себя 4 входа из 11 данных в исходной выборке, т. е. выделены только значимые входы. Ошибка при этом по обучающей выборке составляет 7 %, по тестовой - нулевая. Также алгоритмом определены пороговые значения для каждого критерия, позволяющие эффективно разделять выборку на подвыборки. Подбор пороговых значений алгоритмом позволяет не привлекать специалиста предметной области к решению задачи. Показатель ЛИИ2. Нужен для диагностики только 1 и 2 класса, а на 3 его значения не влияют, что несет в себе ценную информацию для предметников. Подробный анализ покажет, является это случайностью или закономерностью, также как анализ отброшенных и используемых выходов.

Библиографические ссылки

1. Кушнарева Т. В., Липинский Л. В. Алгоритм генетического программирования для автоматизированного формирования деревьев принятия решения // Решетневские чтения : материалы XVIII Междунар. науч. конф. / СибГАУ. Красноярск, 2014. Т. 2. С. 84-86.

2. Гибридный эволюционный алгоритм автоматизированного формирования деревьев принятия решения / Л. В. Липинский [и др.] // Вестник СибГАУ.

2014. Вып. 5 (57). С. 85-92.

3. Koza J. R. Genetic Programming: On the Programming of Computers by Means of Natural Selection. MIT Press, 1992.

4. Дейпер Н., Смит Г. Прикладной регрессионный анализ. М. : Диалектика, 2007. 912 с.

5. Кушнарева Т. В. О применении деревьев принятия решения в задачах медицинской диагностики [Электронный ресурс] // Проспект Свободный-2015 : материалы науч. конф. (15-25 апр. 2015, г. Красноярск) / отв. ред. Е. И. Костоглодова ; Сиб. федер. ун-т.

2015. Сер. Естественно-научное направление - математика, информатика: моделирование и оптимизация сложных систем. С. 31-32.

References

1. Kushnareva T. V., Lipinskiy L. V. Algoritm geneticheskogo programmirovaniya dlya avtomatiziro-vannogo formirovaniya derev'ev prinyatiya resheniya [Genetic Programming Algorithm for Automated Decision Tree] // Reshetnev reading : Proceedings of the XVIII International scientific conference. Krasnoyarsk: Siberian State Aerospace University, 2014. Vol. 2. P. 84-86.

2. Gibridnyy evolyutsionnyy algoritm avtoma-tizirovannogo formirovaniya derev'ev prinyatiya resheniya [Hybrid evolutionary algorithm for the automated design of decision trees] / Lipinski L. V., Kushnareva T. V., Popov E. A., etc // Bulletin of the Siberian State Aerospace University. ak. MF Reshetnev. Issue. 5 (57), Krasnoyarsk, 2014, рp. 85-92.

3. Koza J. R. (1992), Genetic Programming: On the Programming of Computers by Means of Natural Selection. MIT Press.

4. Deyper N., Smith G. Prikladnoy regressionnyy analiz [Applied Regression Analysis]. M. : Dialectics. 2007. 912 p.

5. Kushnareva T. V. O primenenii derev'ev prinyatiya resheniya v zadachakh meditsinskoy diagnostiki [The application of a decision tree for purposes of medical diagnosis] P827 Prospectus // Free-2015: scientific materials. Conf., dedicated to the 70th anniversary of the Great Victory (15-25 April 2015) [Electronic resource] / Ed. E. I. Kostoglodova. Electron. dan. Krasnoyarsk. : Sib. Feder. University Press, 2015. Direction of natural science - mathematics, computer science: modeling and optimization of complex systems. S. 31-32.

© HnnHHCKHH .H. B., KymHapeBa T. B., 2015

УДК 004.89

ПРИКЛАДНОЕ ИСПОЛЬЗОВАНИЕ МЕТОДОВ ОБРАБОТКИ ДАННЫХ В ПОЛИТИЧЕСКОМ АНАЛИЗЕ

Ю. С. Ломаев, Ю. В. Сидорина

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: lomaif@rambler.ru

Зачастую актуальной задачей является определение по характерным чертам принадлежности объекта к определённому классу как в промышленной и космической отрасли, так и в социальных сферах. Для этого могут быть использованы такие прикладные методы обработки данных, как кластерный и факторный анализы.

Ключевые слова: классификация, метод ближайших соседей, алгоритм иерархической классификации, метод Варда, метод главных компонент.

USING DATA PROCESSING TECHNIQUES IN POLITICAL ANALYSIS

Yu. S. Lomaev, Yu. V. Sidorina

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: lomaif@rambler.ru

Significant task is often to define characteristic features of accessory to a certain class of object in industrial and aerospace industries, and in social spheres. Such methods of application data as cluster and factor analysis may be used.

Keywords: classification, nearest neighbor, hierarchical classification algorithm, Ward's method, principal component analysis.

Рассматривается задача классификации с применением методов анализа и обработки данных. В качестве примера рассмотрим голосование Конгресса США (1984 год). По результатам голосования конгрессменов необходимо построить классификатор для идентификации принадлежности каждого конгрессмена к политическим партиям. Имеются 16 критериев голосования. Каждый конгрессмен отвечает на

критерий «да» (1), «нет» (0) или «затрудняюсь» (-) [1]. Общее количество конгрессменов О„ i = 1, ..., 435.

Фрагмент голосования Конгресса США приведён на рис. 1.

В качестве метода заполнения пропущенных данных используется метод ближайших соседей [2]. Для пустых ячеек получаем определённые значения.

i Надоели баннеры? Вы всегда можете отключить рекламу.