Научная статья на тему 'Метод построения логических правил для прогнозирования и диагностики развития многофакторных заболеваний'

Метод построения логических правил для прогнозирования и диагностики развития многофакторных заболеваний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
359
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОФАКТОРНЫЕ ЗАБОЛЕВАНИЯ / ДЕРЕВЬЯ РЕШЕНИЙ / БУСТИНГ / БАЙЕСОВСКИЕ СЕТИ / СКОЛЬЗЯЩИЙ КОНТРОЛЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Конкин А.Ю., Сергиевский М.В.

В настоящее время объем накопленных генетических данных и знаний о процессе передачи наследственной информации позволяют предупредить возникновение болезней, связанных с генетическими модификациями (полиморфизмами). При этом наиболее актуальным направлением исследований является прогнозирование многофакторных заболеваниях, зависящих как от значений различных генов, так и от фенотипических признаков (факторов окружающей среды). В статье рассматривается метод выделения решающих правил и расчета вероятности заболевания на основе всех типов факторов риска. Формально задача заключается в построении классификатора, относящего объект к тому или иному классу с некоторой вероятностной оценкой. Для выделения решающих правил применяется модификация технологии конструирования логических моделей в виде деревьев решений. Полученные правила используются для построения гиперграфа заболевания, который представляет собой байесовскую сеть доверия. Расчет вероятностной оценки выполняется по параметрам сети. Показано, что результаты предложенного метода прогнозирования имеют более точные результаты в сравнении с методом множественной регрессии и классического алгоритма построения деревьев решений (C4.5).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Calculating probability of complex disease with adjusted decision tree algorithm

Whereas the size of genetic data has grown significantly, nowadays the focus of the research shifts to analysis of both genetic and environmental factors to disease or complex disease occurrence. Although a number of computational approaches to calculate the probability of disease are applied, only a few of them recognize decision rules in a form of logical statements. The article reveals new algorithm based on the ideas from Boosted Decision Tree method. First, decision rules are extracted using classical decision trees approach. Next modified boosting methods are involved to reduce the error. Second, the new decision rules are depicted in a form of hyper graph of complex decease. Finally, Bayesian probability is applied to calculate the rate of disease occurrence. Last section provides an experiment to compare the results of the new method and classical approach based on multiple regressions.

Текст научной работы на тему «Метод построения логических правил для прогнозирования и диагностики развития многофакторных заболеваний»

Cloud of Science. 2017. T. 4. № 2 http:/ / cloudofscience.ru

Метод построения логических правил для прогнозирования и диагностики развития многофакторных заболеваний

А. Ю. Конкин*, М. В. Сергиевский*,**

*Национальный исследовательский ядерный университет МИФИ 115409, Москва, Каширское шоссе, 31

**Московский технологический институт 119334, Москва, Ленинский проспект, 38A

e-mail: sermax@yandex.ru

Аннотация. В настоящее время объем накопленных генетических данных и знаний о процессе передачи наследственной информации позволяют предупредить возникновение болезней, связанных с генетическими модификациями (полиморфизмами). При этом наиболее актуальным направлением исследований является прогнозирование многофакторных заболеваниях, зависящих как от значений различных генов, так и от фенотипических признаков (факторов окружающей среды). В статье рассматривается метод выделения решающих правил и расчета вероятности заболевания на основе всех типов факторов риска. Формально задача заключается в построении классификатора, относящего объект к тому или иному классу с некоторой вероятностной оценкой. Для выделения решающих правил применяется модификация технологии конструирования логических моделей в вице деревьев решений. Полученные правила используются для построения гиперграфа заболевания, который представляет собой байесовскую сеть доверия. Расчет вероятностной оценки выполняется по параметрам сети. Показано, что результаты предложенного метода прогнозирования имеют более точные результаты в сравнении с методом множественной регрессии и классического алгоритма построения деревьев решений (C4.5).

Ключевые слова: многофакторные заболевания, деревья решений, бустинг, байесовские сети, скользящий контроль.

1. Введение

В настоящее время наблюдается колоссальный рост молекулярно-биологической информации, которую невозможно осмыслить и переработать без использования специальных компьютерных методов. Наиболее значимой проблемой является оценка рисков развития многофакторных заболеваний, зависящих от значений различных генов и факторов окружающей среды.

Процесс прогнозирования заболевания представляет собой определение принадлежности объекта (индивида) к одному из заранее выделенных классов уровня развития патологии на основании анализа совокупности признаков (факторов риска), которыми обладает пациент. Таким образом, задача сводится к построению классификационных (решающих) правил, представленных на естественном языке.

Отметим, что генетические мутации могут не только способствовать, но и препятствовать возникновению болезни. Основные недостатки существующих методов прогнозирования заключаются в том, что не учитывается ограниченность выборки исходных примеров, с одной стороны, и потенциальная противоречивость данных, с другой. Более того, исход редко может быть представлен как прямое следствие строго детерминированных причин. На практике широко применяется вероятностное описание явлений. Обоснований тому несколько: наличие неустранимых погрешностей в результатах экспериментов и наблюдений, невозможность адекватного описания структурных сложностей предметной области, неопределенности вследствие конечности наблюдений.

Для оценки рисков развития многофакторных заболеваний можно использовать различные подходы. В данной работе предлагается использовать метод построения решающих правил на основе деревьев решений с дальнейшим бустингом. Вероятностная оценка рисков заболевания выполняется с помощью применения Байесовских сетей доверия. Оценка корректности работы предлагаемого метода выполняется на реальных данных пациентов с заболеванием «ишемическая болезнь сердца».

Преимуществом рассматриваемого подхода является применение процедур добавления и преобразования новых данных с использованием весов, которые рассчитываются на основании уже имеющихся правил. Итоговый прогноз представлен в виде вероятностной оценки заболевания.

Следует отметить, что предлагаемый метод может быть использован для решения задачи прогнозирования не только в рассматриваемой предметной области.

2. Постановка задачи

Формально задача классификации заключается в построении некоторого отображения /, определяющего правило соответствия пар < х., с >е Х х С значению буле-

вого типа, где множество Х — множество классифицируемых объектов, а С — множество заранее выделенных категорий или классов. Отображение / имеет

значение истина для пары < х., с1 >, если объект х. принадлежит классу с1 и —

ложь — в противном случае.

Пусть х. е Х — объект генеральной выборки индивидов для определенного заболевания, . = 1,..., т, ^ = {/,,...,/п] — набор признаков, как-либо характеризующих каждый объект из Х. Представим результаты диагностики индивида в виде вектора:

( f Л J\j

xj =

(1)

f

\J nj У

Тогда множество всех объектов генеральной выборки можно представить в виде матрицы:

( f f ^

J\\ Jin

X =

(2)

Г Г

п 1 ^ пт у

Данные медицинских исследований по фактам заболевания индивидов могут быть представлены в виде соответствия х. и с1, где с1 — заданный уровень заболевания (в простом случае с1 е {0,1}, 1 — больной, 0 — здоровый). Таким образом, в качестве обучающей выборки для решения задачи классификации может быть использован словарь:

о -(^ у:, (3)

На данный момент существует множество методов интеллектуального анализа данных, позволяющих решать задачу прогнозирования и классификации новых объектов на основе обучающей выборки:

- искусственные нейронные сети (распознавание, кластеризация, прогноз);

- эволюционное программирование (в т. ч. алгоритмы метода группового учета аргументов);

- генетические алгоритмы (оптимизация);

- ассоциативная память (поиск аналогов, прототипов);

- нечеткая логика;

- деревья решений;

- системы обработки экспертных знаний [1].

Главное внимание в системах поддержки принятия решений в диагностике пациентов должно быть обращено на нахождение и исследование методов, подлежащих восприятию человеком [2]. Одним из них являются деревья решений.

Общий принцип построения деревьев решений заключается в рекурсивном разбиении множества объектов из обучающей выборки на подмножества, содержащие объекты, относящиеся к одинаковым классам.

Алгоритмы данного класса предъявляют следующие требования к исследуемым данным:

- Исходные данные для обучения алгоритмов должны быть представлены в виде некоторой плоской таблицы. Вся информация об объектах из предметной области должна описываться в виде конечного набора атрибутов. Каждый атрибут должен иметь дискретный набор значений. Сами атрибуты не должны меняться от объекта к объекту, и количество атрибутов должно быть фиксированным для всех примеров.

- Каждый объект должен быть ассоциирован с конкретным классом, один из атрибутов должен быть выбран в качестве целевого (метка класса).

- Классы должны быть дискретными, т. е. иметь конечное число значений. Каждый объект должен однозначно относиться к конкретному классу. Случаи, когда объекты принадлежат к классу с вероятностными оценками, исключаются.

Связный ациклический граф с множеством вершин V называется деревом, если имеется одна выделенная вершина у0 е V, в которую не входит ни одно ребро (корень дерева). Вершины, для которых не существует выходящих ребер, называются терминальными или листьями дерева, остальные вершины — внутренними. Дерево называется бинарным, если из любой его внутренней вершины выходит ровно два ребра. Процесс построения дерева решений состоит из двух основных шагов:

- определение способа ветвления;

- выбор момента прекращения ветвлений.

Первый шаг анализа заключается в выборе функции, определяющей признак, по которому будет выполнено ветвление дерева. Такие ветвления выполняются последовательно от корневой вершины к вершинам-потомкам. Иерархическая структура будет построена, когда все «неразветвленные» вершины окажутся терминальными.

Задача построения дерева в общем случае является №-полной задачей. На практике применяют различные эвристики, целью которых является построение как можно более простого дерева, которое дает оптимальный уровень качества класси-

фикации объектов. В настоящее время существует большое количество различных методов синтеза решающих деревьев по обучающей выборке.

Правило для выбора можно сформулировать следующим образом: промежуточный узел должен быть выбран таким образом, что получаемые в итоге подмножества состояли из объектов, принадлежащих одному классу, т. е. количество объектов из других классов в каждом из этих множеств было минимальным.

Существуют бинарные и небинарные алгоритмы построения деревьев. В первом случае каждый узел дерева имеет только двух потомков (CART). Небинарные алгоритмы имеют неограниченное количество потомков узла, но не предназначены для работы с непрерывной целевой переменной (ID3, С4.5).

Учитывая особенности предметной области, для задачи прогнозирования заболевания наиболее целесообразно использовать небинарные алгоритмы деревьев решений, поскольку в них количество потомков при разбиении узла неограничено. Более того, полученное дерево может быть преобразовано в набор правил и на основании построенного классификатора можно выполнять прогноз для новых данных. В данной работе использовался небинарный алгоритм построения деревьев решений С4.5. Описание алгоритма подробно приведено в [2].

Однако, несмотря на широкое применение и простоту, деревья решений имеют ряд существенных недостатков. Во-первых, методы деревьев решений склонны к переобучению и, во-вторых, неустойчивы относительно входных данных. Для решения этих проблем на практике используется идея построения композиций алгоритмов и обучение по случайным подвыборкам.

3. Применение алгоритма бустинга

В бустинге закономерности строятся последовательно. После построения очередной закономерности веса выделенных ею объектов изменяются на основе взвешенного голосования. Рассмотрим процесс вычисления весов объектов и закономерностей на каждом шаге.

В общем виде результат работы математического аппарата можно представить в виде предиката, определенного на множестве объектов Х :

Если ф(х1) = 1, то предикат выделяет объект х1. Предикат называют закономерностью, если он выделяет достаточно много объектов какого-то одного класса и практически не выделяет объекты других.

Интуитивно можно считать, что предикат чем более информативен, тем больше он корректно классифицирует объекты (позитивные объекты) по сравнению с

ф: X ^{0,1}.

(4)

объектами, классифицированными ошибочно (негативные объекты). Введем следующие обозначения:

Рс — число объектов класса с в выборке Х;

рс (ф) — число объектов из Рс, для которых выполняется условие ф(х1) = 1;

Nc — число объектов всех остальных классов в выборке Х;

пс (ф) — из них число объектов из Nc, для которых выполняется условие ф( х ) = 1.

Таким образом, задача определения информативного предиката сводится к задаче оптимизации:

рс (ф) ^ max, пс (ф) ^ min.

Очевидно, что меньший интерес вызывают предикаты, которые либо выделяют небольшое количество объектов или выделяют позитивные и негативные объекты примерно в той же пропорции, в которой они были представлены в обучающей выборке.

Как было показано выше, для формирования решающих правил в виде «если — то» целесообразно использовать методы деревьев решений. В случае добавления новых данных удобно использовать агрегированный классификатор, состоящий из множества деревьев решений:

Т}, z = 1,2,..., Z, (5)

где Z — число деревьев решений.

Для классификации некоторого объекта (индивидуума) х необходимо пропустить его через каждое дерево решений и собрать голоса.

Принцип голосования осуществляется следующим образом. Пусть для каждого класса с е С имеется набор решающих правил, специализирующихся на классификации объектов данного класса:

R ={ф'с: X ^ {0,1} 11 = 1,..., tk}. (6)

Если ф'с (х) = 1, то правило фс классифицирует объект х е Х к классу с. Если ф с = 0, то правило фс не классифицирует объект х.

В алгоритме простого голосования подсчет правил происходит следующим образом:

С (х) = Х фс , с е С. (7)

t=1

Объект х принадлежит к тому классу, который набирает максимальное количество голосов:

a( x) = argmax c. (8)

ceC

Принимая во внимание мнение эксперта и уже имеющиеся данные, решающие правила могут иметь различную ценность. Тогда каждому фс приписывается некоторый вес а'с > 0. При голосовании берется взвешенная сумма голосов:

Ос (х) = £ а'сф'с (х),< > 0. (9)

t=i

Веса а'с принято нормировать:

Z < = 1 (10)

t=i

Для определения правила выставления весов используем алгоритм бустинга. Алгоритм представляет собой процедуру последовательного построения правил, на каждом шаге которого вектор весов пересчитывается.

Пусть имеется tk закономерностей, которые определяют принадлежность к классу с. В случае прогнозирования заболеваний мы имеем два класса: С е{—1;1}. При добавлении еще одной закономерности фс (х) в список Яс взвешенная сумма голосов будет:

ОС (х) = в(х) + афс( х). (11)

Таким образом, задача состоит в расчете веса а, при котором алгоритм допускает минимальное число ошибок на обучающей выборке.

Введем понятие количества ошибок алгоритма:

m

Qt =Z[Oci,)"G_cix,) <0]. (12)

i=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда число ошибок алгоритма после добавления закономерности фс (х):

m

Qt+i =Z[c. = c] G (X) - G_Ci (x,) + афс (x)]< 0

i=1

m

+Z[c * c ] [GCi (x,) - G_Ci (x,) + афc (x)]< 0 . ;=i

Для решения задачи минимизации такого функционала используются верхние аппроксимации пороговой функции потерь г(а) < 0.

Заменим пороговую функцию оценкой сверху. Тогда минимизацию по а можно будет выполнить аналитически. Выбор конкретной аппроксимирующей функции является эвристикой. Наиболее простые выкладки получаются, если воспользоваться экспоненциальной оценкой:

(13)

[г<0]<е\

Запишем верхнюю оценку £)т функционала (2Т '.

<2Т<{%,

I

Е еХР (°с, (X ) " ^с, (X) + аФс (х)) = г(а).

7=1

Как показано в [3], минимум функционала <2г(фс, а) достигается при

а =— 1п

2

Г р(ф) ^ V Пс (Ф) У

где

(14)

(15)

(16)

(17)

< (Ф) * 0.

Как показано в [4], ошибка прогнозирования экспоненциально убывает при увеличении количества деревьев (см. рис. 1). Процедура подбора числа алгоритмов в классификаторе, вообще говоря, является эвристикой.

О 100 200 300 400

Воозйпд ИегаНопэ

Рисунок 1. Зависимость ошибки прогнозирования от количества алгоритмов в композиции

Бустинг является одним из самых мощных алгоритмов распознавания. Важным преимуществом является возможность рассмотрения различных функции потерь. Более того, учитывая, что решающие деревья, в свою очередь, используют базовые

алгоритмы (ID3, C4.5, CART), в результате получается огромное количество вариантов для настройки.

4. Применение байесовой сети доверия для решения задачи прогнозирования многофакторных заболеваний

Байесовская сеть доверия (БСД) является механизмом, позволяющим представить графически причинно-следственные связи между признаками и произвести по ним логический вывод результирующего фактора. В БСД сочетаются эмпирические частоты появления различных значений переменных, субъективные оценки и расчетные вероятности по априорной информации. Каждой вершине графа соответствует случайная переменная, а дуги графа кодируют отношения условной независимости между этими переменными. Байесовская сеть состоит из следующих понятий и компонент:

- Множество факторов риска (случайных переменных) и направленных связей между переменными;

- Каждый фактор может принимать одно из конечного множества взаимоисключающих значений;

- Переменные вместе со связями образуют ориентированный граф без циклов;

- К каждой переменной-потомку А с переменными-предками В1з..., Вп приписывается таблица условных вероятностей Р(А| В1,..., Вп).

Для обучения алгоритма необходимо определить относительные частоты значений всех атрибутов входных данных при фиксированных значениях атрибутов класса. Алгоритм построения сети имеет два этапа:

1) построение направленного ациклического графа, узлы которого соответствуют факторам риска заболевания, а дуги — непосредственным стохастическим связям между ними;

2) применение байесовского подхода (параметры и структура сети — случайные величины с неким априорным распределением) для оценки вероятности развития заболевания.

Классический алгоритм построения семантики сети основывается на знаниях эксперта рассматриваемой предметной области. Однако в условиях неопределенности большую значимость имеют алгоритмы извлечения знаний из имеющихся данных.

Рассмотрим набор правил, полученных на предыдущем этапе построения деревьев решений. В качестве исходной формы зависимостей удобно использовать логические правила вида «если ..., то ...».

Совокупность найденных правил может быть представлена в булевой форме (дизъюнкции конъюнкций литералов):

¿ = иП(афс). (18)

Полученное выражение может быть представлено в виде Байесовской сети. Результирующая переменная является конвергентным узлом по отношению к наборам факторов риска.

Гиперграф представляет собой полную группу гипотез возникновения заболевания.

Для вычисления параметров БСД необходимо для всех узлов-потомков задать распределение его вероятностей при условии наличия факторов в узлах-предков.

Для расчета вероятности используем принцип включений и исключений. Итоговая формула расчета риска заболевания будет иметь вид:

Р( х) = ^а,р ( фС (х)) а,р (ф'с (х)) а ]р (фГ (х)) +

, ¡< ]

+ Е а,Р(Ф'с(х))а]р(фС(х))акр(ф^(х))-... + (19)

'< ]<к

+ а^,р ( ФС( х) ) а 2 р ( Ф2(х) ) а3 р ( Ф3( х) ) ... атр (ФГ (х)).

Таким образом, действия эксперта могут быть представлены в виде повторяющейся последовательности этапов:

- получение информации о состоянии здоровья пациента;

- принятие решения относительно выбора значений неопределенных факторов риска заболевания, по поводу которых у эксперта имеются некоторые ожидания последствий;

- построение решающих правил методом деревьев решений, при выборе критерия разбиения используется следующее эвристическое правило: узел для разбиения выбирается так, что максимум объектов в итоговом подмножестве принадлежит одному классу;

- построение композиции алгоритмов на случайных подвыборках. Подбор оптимального количества деревьев решений;

- применение алгоритма бустинга и расчет весов для решающих правил;

- приведение правил в булевую форму, построение гиперграфа заболевания (конвергентный узел — возникновение заболевания);

- вычисление параметров БСД, задание распределения вероятностей при условии наличия факторов в узлах-предков исхода заболевания. Расчет вероятности заболевания по принципу включений и выключений;

- приобретение опыта путем сопоставления результатов расчета и ожиданий. Возврат к первому этапу.

5. Процедура оценки обучающей способности алгоритма

В общем случае задача обучения по прецедентам заключается в том, чтобы по заданной выборке объектов и соответствующих им классов восстановить функциональную зависимость, т. е. построить алгоритм, способный относить объект к тому или иному заранее предопределенному классу. При выполнении оценки обучающей способности таких алгоритмов исходное множество фиксируется на две под-выборки: обучающую и контрольную. Для каждого разбиения вычисляется частота ошибок на контрольной подвыборке, итоговая оценка определяется как средняя по всем разбиениям.

Методика тестирования методом скользящего контроля основана на повторении разбиения множества N раз на блоки примерно одинаковой длины. Далее каждый блок поочередно объявляется контрольной подвыборкой. Настройка алгоритма выполняется по обучающей выборке, затем алгоритм классифицирует объекты контрольной подвыборки.

Пусть исходная выборка Xn (множество классифицируемых объектов) разбивается N различными способами на две непересекающиеся подвыборки:

X„=XkmUX'k, (20)

где Xm — обучающая выборка длины m ; Xl — контрольная подвыборка длины l = n — m; k — порядковый номер разбиения.

Для каждого разбиения применяется алгоритм прогнозирования Ç и вычисляется значение функционала качества:

Qk = Qk (Ç,Xk). (21)

Оценкой скользящего контроля называется среднее арифметическое значений Qk :

1 N

Q(Ç Xn) = -IQk (Ç, Xk), (22)

N i=0

где N — количество разбиений.

6. Эксперименты на реальных данных

Эффективность рассмотренного метода была проверена на примере данных о ише-мической болезни сердца [5]. Рассмотрены генотипические факторы риска: FV, FII, AGTR, AGT_174, AGT_235, MTHFR, ACE, NOS, LPL73in6, LPL82in6, LPL_HindIII, LPL_S447X, LIPC514, LIPCV155V, CETP_taq, CETP_I405V. Фенотипические фак-

торы риска: возраст, курение, индекс массы тела, употребление алкоголя. Заболевание: ишемическая болезнь сердца.

Набор данных содержит 125 объектов, которые случайно разбиты на X = 100 объектов для обучения и Х1Ы = 25 объектов для контроля. Экспериментально был установлен порог в 200 решающих деревьев для использования бустинга. Тестирование предложенного метода происходило с использованием процедуры скользящего контроля (N = 50). Были получены следующие результаты:

- число верно опознанных больных из контрольного множества:

79% ± 7%;

- число верно опознанных здоровых из контрольного множества: 87% ± 9%.

Отметим, что расчет вероятности заболевания с помощью механизма построения деревьев решений алгоритмом С4.5 показал меньшее число верно опознанных объектов:

- число верно опознанных больных из контрольного множества:

74% ± 7%;

- число верно опознанных здоровых из контрольного множества: 77% ± 5%.

Рассмотрим результаты прогнозирования заболевания на той же выборке с помощью множественной регрессии (для оценки взят метод наименьших квадратов). Имеем следующие результаты:

- число верно опознанных больных из контрольного множества: 68% ± 10%;

- число верно опознанных здоровых из контрольного множества: 61% ± 15%.

7. Заключение

Статья посвящена изучению влияния генетических полиморфизмов на вероятность возникновения и развития многофакторных заболеваний, зависящих также от фе-нотипических признаков. Была рассмотрена технология конструирования логических моделей в виде деревьев решений, использование бустинга, применение байесовских сетей для расчета вероятностных оценок заболевания.

Вычислительный эксперимент на данных о пациентах с заболеванием «ишемическая болезнь сердца» показал, что предложенный подход значительно эффективнее базовых алгоритмов.

В качестве преимуществ нового метода можно выделить особенности:

- результаты работы алгоритма легко интерпретируются экспертом;

- новые данные о предметной области могут быть добавлены без перерасчета накопленных знаний;

- противоречия в исходных данных корректируются за счет расчета вероятностной оценки.

Отметим, что новый метод может быть использован не только для диагностики и прогнозирования многофакторных заболеваний, но и для прочих предметных областей. Однако область его применения должна быть подтверждена экспериментально.

Литература

[1] Arpad K, Vasilakos A., Liang Y. Computational intelligence for genetic association study in complex diseases: review of theory and applications // International Journal of Computational Intelligence in Bioinformatics and Systems Biology. 2009. Vol. 1. No. 1. P. 15-31.

[2] Attwood T. K, Gisel A., Eriksson N.-E., Bongcam-Rudloff E. Concepts, historical milestones and the central place of bioinformatics in modern biology: A European perspective. In book Bioinformatics — Trends and Methodologies. — 1st ed. — Rijeka, Croatia : InTech, 2011. pp. 3-39.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3] Bureau A., Dupuis J, Falls K, Lunetta K. L. Hayward B. et al. Identifying SNPs predictive of phenotype using random forests // Genetic Epidemiology. 2004. Vol. 28. No. 2. P. 171-182.

[4] Farid D, Harbi N, Rahman M. Combining Naive Bayes and Decision Tree for Adaptive Intrusion Detection // International Journal of Network Security & Its Applications. 2010. Vol. 2. No. 2. P. 12-25.

[5] Konkin A., Sergievskiy M. Integrating Bayesian Networks and Decision Trees for Calculating Probabilistic Rate of Complex Diseases' Occurrence // Biology and Medicine. 2015. Vol. 7. No. 3. P. 119-134.

[6] Fielding A., Bell J. A review of methods for the assessment of prediction errors in conservation presence/absence models // Environmental Conservation. 1997. Vol. 24. No. 1. P. 38-49.

[7] Guy R, Santago P., Langelfeld C. Bootstrap Aggregating of Alternating Decision Trees to Detect Sets of SNPs that Associate with Disease // Genetic Epidemiology. 2012. Vol. 36. No. 2. P. 99-106.

[8] Halimova, Muhamedov, Yakobova. Ischemic stroke: clinical and molecular genetic aspects // Ukrainian Medical Almanac. 2008. Vol. 57. No. 2. P. 193-96.

[9] Han B, Chen X.-W, Talebizadeh Z., Xu H. Genetic studies of complex human diseases: Characterizing SNP-disease associations using Bayesian networks // BMC Systems Biology. 2012. Vol. 6. No. 3. P. 14.

[10] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Stanford : Springer, 2009.

[11] Janssens D, Wets G, Birjs T, Vanhoof K. Integrating Bayesian networks and decision trees in a sequential rule-based transportation model // European Journal of Operational Research. 2006. Vol. 175. No. 1. P. 16-34.

[12] Jantawan B, Tsai C.-F. A Classification Model on Graduate Employability Using Bayesian Approaches: A Comparison // International Journal of Innovative Research in Computer and Communication Engineering. 2014. Vol. 2. No. 6. P. 4584-4588.

[13] Malovini A. et al. Phenotype forecasting with SNPs data through gene-based Bayesian networks // BMC Bioinformatics. 2009. Vol. 10. No. 2. P. 1-7.

[14] Manolio T, Collins F. S, Cox N. J., Goldstein D. B, Hindorff L. A. et al. Finding the missing heritability of complex diseases // Nature. 2009. Vol. 461. No. 7265. P. 747-753.

[15] Pawlak Z., Wong S. K. M, Ziarko W. Rough sets: probabilistic versus deterministic approach // International Journal of Man-Machine Studies. 1988. Vol. 29. No. 1. P. 81-95.

[16] Rokach L, Maimon O. Data Mining with Decision Trees: Theory and Applications. — 1st ed. — Singapore : World Scientific Publishing Company, 2008.

[17] Somohvalova L. Ischemic stroke: genetic and age-sensitive // Aging and longevity. 2012. Vol. 21. No. 1. P. 73-97.

Авторы:

Анатолий Юрьевич Конкин — аспирант кафедры «Информационные технологии в социальных системах», Национальный исследовательский ядерный университет МИФИ

Максим Владимирович Сергиевский — кандидат технических наук, доцент, доцент кафедры

«Системный анализ», Национальный исследовательский ядерный университет МИФИ; доцент кафедры информатики и автоматизации, Московский технологический институт

Calculating probability of complex disease with adjusted decision tree algorithm

A. Yu. KonkinM. V. Sergievskiy*,**

National Research Nuclear University MEPhI Kashirskoe highway, 31, Moscow, Russia 115409

"Moscow Technological Institute Leninskiy pr., 38A, Moscow, Russia 119334

e-mail: sermax@yandex.ru

Abstract. Whereas the size of genetic data has grown significantly, nowadays the focus of the research shifts to analysis of both genetic and environmental factors to disease or complex disease occurrence. Although a number of computational approaches to calculate the probability of disease are applied, only a few of them recognize decision rules in a form of logical statements. The article reveals new algorithm based on the ideas from Boosted Decision Tree method. First, decision rules are extracted using classical decision trees approach. Next modified boosting methods are involved to reduce the error. Second, the new decision rules are depicted in a form of hyper graph of complex decease. Finally, Bayesian probability is applied to calculate the rate of disease occurrence. Last section provides an experiment to compare the results of the new method and classical approach based on multiple regressions. Key words: decision rules, decision tree, boosting, bayesian probability, ROC-analysis, complex disease, SNP.

References

[1] Arpad K, Vasilakos A., Liang Y. (2009) International Journal of Computational Intelligence in Bioinformatics and Systems Biology, 1(1): 15—31.

[2] Attwood T. K, Gisel A., Eriksson N.-E., Bongcam-Rudloff E. (2011) Concepts, historical milestones and the central place of bioinformatics in modern biology: A European perspective. In book Bioinformatics — Trends and Methodologies. 1st ed. Rijeka, Croatia, InTech, pp. 3-39.

[3] Bureau A., Dupuis J., Falls K, Lunetta K. L. Hayward B. et al. (2004) Genetic Epidemiology, 28(2):171-182.

[4] Farid D, Harbi N, Rahman M. (2010) International Journal of Network Security & Its Applications, 2(2):12-25.

[5] Konkin A., Sergievskiy M. (2015) Biology and Medicine, 7(3):119-134.

[6] Fielding A., Bell J. (1997) Environmental Conservation, 24(1):38-49.

[7] Guy R, Santago P., Langelfeld C. (2012) Genetic Epidemiology, 36(2):99-106.

[8] Halimova, Muhamedov, Yakobova. (2008) Ukrainian Medical Almanac, 57(2):193-96.

[9] Han B, Chen X.-W, Talebizadeh Z„ Xu H. (2012) BMC Systems Biology, 6(3):14.

[10] Hastie T, Tibshirani R, Friedman J. (2009) The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Stanford, Springer.

[11] Janssens D, Wets G, Birjs T, Vanhoof K. (2006) European Journal of Operational Research, 175(1):16-34.

[12] Jantawan B, Tsai C.-F. (2014) International Journal of Innovative Research in Computer and Communication Engineering, 2(6):4584-4588.

[13] Malovini A., Nuzzo A., Ferrazzi F., Puca A. A., Bellazzi R. (2009) BMC Bioinformatics, 10(2): 1-7.

[14] Manolio T. Collins F. S., Cox N. J, Goldstein D. B, Hindorff L. A. et al. (2009) Nature, 461(7265):747-753.

[15] Pawlak Z, Wong S. K. M, Ziarko W. (1988) International Journal of Man-Machine Studies, 29(1):81-95.

[16] Rokach L, Maimon O. (2008) Data Mining with Decision Trees: Theory and Applications. 1st ed. Singapore, World Scientific Publishing Company.

[17] Somohvalova L. (2012) Aging and longevity, 21(1):73-97.

i Надоели баннеры? Вы всегда можете отключить рекламу.