Автоматизированное формирование деревьев принятия решения для прогнозирования побочных эффектов при лечении эпилепсии

Кушнарева Т.В.; Липинский Л.В.

УДК 004.891.3

АВТОМАТИЗИРОВАННОЕ ФОРМИРОВАНИЕ ДЕРЕВЬЕВ ПРИНЯТИЯ РЕШЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ПОБОЧНЫХ ЭФФЕКТОВ ПРИ ЛЕЧЕНИИ ЭПИЛЕПСИИ

Т. В. Кушнарева Научный руководитель - Л. В. Липинский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected], [email protected]

Рассматривается применение алгоритма генетического программирования в задачах автоматизированного формирования деревьев принятия решения для прогнозирования побочных эффектов при лечении эпилепсии.

Ключевые слова: деревья принятия решений, генетическое программирование, генетический алгоритм.

THE AUTOMATED FORMING DECISION TREES FOR PREDICTING SIDE EFFECTS WITH EPILEPSY

T. V. Kushnareva Scientific supervisor - L. V. Lipinskiy

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected], [email protected]

In this article is considered the applying algorithm of Genetic Programming for automated forming decision trees for predicting side effects with epilepsy.

Keywords: decision trees, Genetic Programming, genetic algorithm.

В настоящее время метод деревьев принятия решений (ДПР) часто применяется на практике при решении задач классификации и прогнозирования. Такая популярность обусловлена простотой интерпретации структуры дерева при его обходе: процедура принятия решения по ДПР аналогична логике суждений эксперта. ДПР представляет собой направленный граф с двумя типами вершин: условиями и выводами (рис.1). Решение по такому дереву принимается следующим образом:

1. Информация поступает на корневой узел дерева.

2. Сравнивается с заданным числовым коэффициентом в условии.

3. Если условие истина, то происходит переход к узлу слева, иначе - к узлу справа.

4. П. 2 и п. 3 повторяются до тех пор, пока не будет достигнут терминальный узел - вывод, который и представляет искомое решение.

При формировании ДПР существует сложности: необходимость настройки числовых коэффициентов в условиях; определение необходимого и достаточного числа условий для корректного нахождения решения задачи. На практике данные сложности решаются путем экспертных оценок, либо полным или частичным перебором всех состояний с помощью оптимизационных процедур.

Для эффективного формирования ДПР удобно применять метод генетического программирования (ГП). ГП осуществляет глобальный поиск и является одним из эффективных процедур поиска в пространстве сложных иерархический структур, какими и являются ДПР [1; 2]. Поэтому он был выбран в качестве алгоритма для создания ДПР.

Алгоритм автоматизированного формирования деревьев принятия решений методом генетического программирования можно представить следующим образом:

Шаг 1. Инициализация стартового поколения. Каждый индивид в популяции представляет собой дерево принятия решений. Для кодирования дерева в качестве функциональных элементов выбираются условные операции, а в качестве терминальных элементов - выводы по задаче.

Секция «Математические методы моделирования, управления и анализа данных»

Шаг 2. Расчет пригодности каждого индивида. Для расчета вызывается генетический алгоритм (ГА), которые подбирает числовые коэффициенты в условия. Лучшая пригодность, полученная ГА становится пригодностью дерева в ГП.

Шаг 3. Проверка критерия останова. Если критерий истинен переход на шаг 8, иначе шаг 4. Шаг 4. Селекция - отбор из поколения некоторых индивидов для последующего скрещивания и мутации.

Шаг 5. Скрещивание - обмен частями структуры между индивидами.

Шаг 6. Мутация - случайное изменение узла в индивиде.

Шаг 7. Формирование нового поколения и переход к шагу 2.

Шаг 8. Выбор лучшего из всех найденных решений. Остановка поиска [3; 4].

Структура ДПР

Подход был реализован в виде программной системы и опробован на задаче прогнозирования побочных реакций при лечении эпилепсии. Входные данные задачи:

1. Место жительства.

2. Пол.

3. Возраст.

4. Результат терапевтического лечебного мониторинга (ТЛМ).

5. Фармакогенетическое исследование (ФГ).

6. Товарная номенклатура (ТН).

7. Суточная доза.

8. Система.

9. Анамнез неблагоприятных побочных реакций (НПР). Выходные данные: НПР.

При первичном анализе данных было выявлено, что только отдельных побочных реакций 80, а также представлены их комбинации. Поэтому было принято решение сделать ДПР по каждому отдельному признаку. В качестве функции пригодности была выбрана функция (1).

1

fitness = ^ £ =l^lYl (X,)-Y*

(1)

Здесь fitness - оценка качества ДПР; N - объем выборки; ю, - вес, определяемый значимостью класса; Yi (Xt) - полученное алгоритмом решение; Xt - вектор входных параметров задачи; Y* -истинное решение.

В ходе осуществления данного подхода была выявлена следующая особенность: при задании веса второго класса менее 0,5 происходило причисление большего числа измерений к первому клас-

су, при весе более 0,5 наблюдалось обратное явление. Это связано с тем, что имеется два класса: 1 класс - объекты, содержащие побочный эффект, 2 класс - не содержащие его. Выборка неравномерно распределена для этих двух классов, так как 1 класса при выборе любой побочной реакции значительно меньше, чем 2, поэтому при обычном подходе к расчету пригодности алгоритму очень удобно настроиться только на один класс и прогнозировать всегда его. Поэтому и была введена взвешенность функции пригодности. При этом ошибка классификации оставалась низкой, поэтому был выполнен анализ полученных ДПР и выявлено, что в основном решение принималось, исходя из такого признака, как возраст, так как с позиции остальных входов классы не различимы. Проведенный анализ позволяет сделать вывод о недостаточности предоставленных данных для диагностики побочных реакций. Предметным специалистам была дана рекомендация пересмотреть структуру данных и включить в нее новые информативные признаки.

Библиографические ссылки

1. Koza J. R. Genetic programming tutorial. Morgan Kaufmann Publishers, 1994.

2. Семенкин Е. С., Липинский Л. В. Применение алгоритма генетического программирования в задачах автоматизации проектирования интеллектуальных информационных технологий // Вестник СибГАУ. Вып. 3 (10), Красноярск, 2006.

3. Кушнарева Т. В., Липинский Л. В. Алгоритм генетического программирования для автоматизированного формирования деревьев принятия решения // Решетневские чтения : материалы XVIII Междунар. науч. конф., посвящ. 90-летию со дня рождения генерального конструктора ракетно-космических систем академика М. Ф. Решетнева / Сиб. гос. аэрокосмич. ун-т. Красноярск, 2014. Т. 2. С. 84-86.

4. Гибридный эволюционный алгоритм автоматизированного формирования деревьев принятия решения / Л. В. Липинский, Т. В. Кушнарева, Е. А. Попов и др. // Вестник СибГАУ. 2014. Вып. 5 (57). С. 85-92.

Аннотация научной статьи по математике, автор научной работы — Кушнарева Т. В., Липинский Л. В.

Похожие темы научных работ по математике , автор научной работы — Кушнарева Т. В., Липинский Л. В.

THE AUTOMATED FORMING DECISION TREES FOR PREDICTING SIDE EFFECTS WITH EPILEPSY

Текст научной работы на тему «Автоматизированное формирование деревьев принятия решения для прогнозирования побочных эффектов при лечении эпилепсии»