Научная статья на тему 'Методы синтеза вероятностной модели зависимостей'

Методы синтеза вероятностной модели зависимостей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
69
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы синтеза вероятностной модели зависимостей»

МЕТОДЫ СИНТЕЗА ВЕРОЯТНОСТНОЙ МОДЕЛИ ЗАВИСИМОСТЕЙ

Д.В. Горишний

Ростовский государственный университет путей сообщения, г. Ростов-на-Дону, Россия

Графические вероятностные модели, называемые также байесовскими сетями, представляют собой удобный инструмент описания и исследования зависимостей между различными событиями и процессами, в основе которого лежат базовые понятия теории вероятностей и теории графов [1].

Байесовскую сеть (БС) можно определить как двойку <0, В>, в которой первый компонент О является направленным ациклическим графом, вершины которого соответствуют возможным событиям исследуемой предметной области, а ребра -причинно-следственным связям между этими событиями [2].

Второй компонент двойки - В -представляет собой множество параметров, определяющих сеть - набор таблиц условных вероятностей. Он содержит параметры

0Х’ |ра(х‘ ) = р(Х’ 1 Ра ^Х' )) для каждого возможного значения х, изх и ра (х’) из

обозначает набор

родителей переменной х в О. Каждая

переменная X1 в графе ^ представляется в виде вершины.

Полная совместная вероятность БС вычисляется по формуле:

N

P

(г ), где Ра (г )

N

)=ПРг

г=1

(X |Pa (г ))

С математической точки зрения БС - это модель представления наличия (а также отсутствия) вероятностных зависимостей. При этом связь A ^ B является причинной, когда событие A является причиной возникнове-ния B, т. е. когда есть механизм, в соответствии с которым значение, принятое A, влияет на значение, принятое B. БС, все связи которой являются причинноследственными, называют каузальной (casual) [2].

Графически структура БС может быть представлена в виде дерева, полидерева, решетки либо их комбинации. Дерево - такая структура БС, в которой любая вершина может иметь не более одной вершины-предка (рис. 1, а).

Полидерево - структура БС, в которой любая вершина может иметь более чем одну вершину-предка, но при этом между любыми двумя вершинами должно быть не более одного связывающего их пути (рис. 1, б).

Решетка - сетевая структура, в которой любая вершина может иметь более чем одну вершину-предка; при этом между любыми двумя вершинами может быть более одного связывающего их пути (рис. 1, в).

а) дерево

б) полидерево Рис. 1. Примеры различных типов БС

в) решетка

Существует два метода синтеза структуры БС: экспертный

и алгоритмический [4]. Экспертный метод в ряде случаев полезен, но при его использовании велика роль «человеческого фактора» - возможны ошибки и проявление субъективизма эксперта. Алгоритмический метод основывается исключительно на данных выборки, «человеческий фактор» исключен, существенно расширена область применения, но задача построения структуры по данным в общем случае является NP-сложной [3].

Вне зависимости от используемого метода процедура синтеза структуры модели включает следующие этапы:

1) постановка задачи - на этом этапе выполняется изучение предметной области, определяется объект и цель моделирования;

2) разработка модели - здесь выделяются элементы (переменные) предметной области для включения в структуру модели, определяются наборы возможных состояний переменных, если переменные являются непрерывными -выполняется их дискретизация, строится графическая структура;

3) верификация модели - на данном этапе выполняется оценка качества модели по набору тестовых задач, а также анализ ее структуры независимыми экспертами;

4) адаптация модели под

индивидуальные особенности решаемой задачи.

Перед началом моделирования необходимо решить, какой из методов больше подходит в данном конкретном случае. Ниже приведены особенности экспертного и алгоритмического методов.

При использовании экспертного метода все этапы построения модели выполняются вручную (hand-crafted approach) [4], а единственным критерием являются мнения экспертов, участвующих как при создании модели, так и при ее верификации.

Применение алгоритмического метода предполагает автоматизацию разработки (data-driven approach), наиболее трудоемкого этапа синтеза модели, за счет привлечения методов интеллектуального анализа данных.

В первую очередь, необходимо получить набор эмпирических данных, например данные технического диагностирования устройства. Затем выбирается оценочная функция, которая позволяет сравнивать

5.

генерируемые программно модели по степени соответствия анализируемым данным. Далее, в зависимости от размерности задачи, делается выбор о применении точных (с перебором всех возможных комбинаций зависимостей между переменными) либо приближенных (эвристических) алгоритмов.

В качестве оценочной функции часто применяется метрика Купера-Гершковича (КГ), а также метрика кодового описания минимальной длины (ОМД) [4]. Ниже приведены формулы для расчета метрик КГ (1) и ОМД (2).

n 4L -l) !

', j

pgxn) = P(g)ППл. Л , • П N,jk!

i=i j=i (Ni, j + п -1) ! k=1 j

L(g, xn ) = H (g, xn)+ k(g) • log(n)

(1)

(2)

В случае необходимости применения эвристических алгоритмов, для

упорядочивания причинно-следственных связей между переменными может быть использовано значение взаимной информации (3) (оценка степени взаимозависимости двух переменных) [4].

mi (*, )=zp(x, jiog[ pfy’pjXj)

(3)

Структура модели, полученная на выходе алгоритма, отражает зависимости между переменными и может быть

использована для оценки вероятности означивания переменных предметной области, например реализации определенных событий.

Литература

1. Рассел С., Норвиг П. Искусственный интеллект: современный подход. М., 2006.

2. Тулупьев А.Л., Николенко С.И.,

Сироткин А.В. Байесовские сети. Логико-вероятност-ный подход. СПб., 2006.

3. Chickering D.M., Geiger D., Heckerman D. Learning Bayesian Networks is NP-hard // Technical Report MSR-TR-94-17. Microsoft, 2004.

4. Otenyia L. Bayesian Belief Networks for

dementia diagnosis and other applications: A comparison of hand-crafting and construction using novel data-driven technique // Technical Report CSM-179. University of Stirling, 2008.

i Надоели баннеры? Вы всегда можете отключить рекламу.