Научная статья на тему 'Эвристики и критерии для формирования логических закономерностей в данных'

Эвристики и критерии для формирования логических закономерностей в данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
116
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАКОНОМЕРНОСТЬ / PATTERN / ПОКРЫТИЕ / COVERING / МНОЖЕСТВО ПОСТОЯНСТВА / SET OF CONSTANCY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузьмич Р.И., Масич И.С.

Задача формирования закономерностей рассматривается как задача оптимизации, и предлагаются разные улучшающие эвристики. Приводится эмпирическое подтверждение эффективности оптимизационных моделей на задаче прогнозирования осложнений инфаркта миокарда.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HEURISTICS AND CRITERIA FOR FORMATION OF LOGICAL PATTERNS IN DATA

The task of forming patterns is seen as the task of optimizing and improving various heuristics is proposed. Empirical evidence of the effectiveness of optimization models on the task of predicting complications of myocardial infarction is provided.

Текст научной работы на тему «Эвристики и критерии для формирования логических закономерностей в данных»

УДК 519.854.33

ЭВРИСТИКИ И КРИТЕРИИ ДЛЯ ФОРМИРОВАНИЯ ЛОГИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ В ДАННЫХ

Р. И. Кузьмич Научный руководитель - И. С. Масич

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-шай: kuzrom88@mail.ru

Задача формирования закономерностей рассматривается как задача оптимизации, и предлагаются разные улучшающие эвристики. Приводится эмпирическое подтверждение эффективности оптимизационных моделей на задаче прогнозирования осложнений инфаркта миокарда.

Ключевые слова: закономерность, покрытие, множество постоянства.

The task of forming patterns is seen as the task of optimizing and improving various heuristics is proposed. Empirical evidence of the effectiveness of optimization models on the task of predicting complications of myocardial infarction is provided.

Keywords: pattern, covering, set of constancy.

Имеется выборка данных, состоящая из двух непересекающихся множеств Q+ и Q n-мерных векторов, принадлежащих соответственно положительному или отрицательному классу. Каждый объектX е Q представлен бинарным векторомX = (х1, x2, ..., xn). Задача состоит в том, чтобы для нового наблюдения определить класс, к которому он принадлежит.

В основе рассматриваемого подхода лежит понятие закономерности. Положительной закономерностью называется подкуб пространства булевых переменных B2, который пересекается с множеством Q и не имеет общих элементов с множеством Q .

Положительная ©-закономерность для ю е {0,1} - закономерность, содержащая в себе точку ю. Для каждой точки ю е Q найдем максимальную ©-закономерность, то есть покрывающую наибольшее число точек Q . Соответствующий подкуб зададим с помощью переменных у/.

Позитивное наблюдение с ей+ будет тогда входить в рассматриваемый подкуб, когда переменная уу принимает значение 0 для всех индексов у, для которых су Ф щ. При этом должно выполняться ограничение, говорящее о том, что положительная закономерность не должна содержать ни одной точки О . Для реализации этого необходимо, чтобы для каждого наблюдения р е О переменная уу принимала значение 1 по меньшей мере для одного у, для которых р;- Ф оу. Усиление данного ограничения для повышения устойчивости к ошибкам производится путем замены числа 1 на целое положительное число d. Таким образом, имеем задачу условной псевдобулевой оптимизации с алгоритмически заданными функциями для нахождения положительных закономерностей:

HEURISTICS AND CRITERIA FOR FORMATION OF LOGICAL PATTERNS IN DATA

R. I. Kuzmich Scientific supervisor - I. S. Masich

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: kuzrom88@mail.ru

1, если i-й признак зафиксирован в подкубе; 0, в противном случае.

Секция «Математические методы моделирования, управления и анализа данных»

X П (1 - У]) ^ max, (1)

аеП+ ]=!

а ; ^Ю ;

X У] ^^ для любого реП . (2)

]=1 р ] ]

Аналогично формулируется задача нахождения отрицательных закономерностей. При решении практических задач больших размерностей часто возникает множество постоянства, в котором целевая функция (1) принимает одинаковое значение, причем множество бывает таким, что ему принадлежит большая часть точек допустимой области.

Основная трудность, возникающая при наличии множеств постоянства, состоит в отсутствии информации о том, в каком направлении следует вести поиск для получения оптимальных или субоптимальных решений. Один из способов улучшить ситуацию - использовать информацию не только о покрытии закономерностью объектов выборки, но также использовать данные о расстоянии до непокрытых пока объектов [1].

Рассмотрим множество точек, задаваемое положительной закономерностью Ра (а е О ) и некоторый объект Ь е О \Ра. Величина г(Ра, Ь) определяет степень близости объекта Ь к множеству Ра. Величину г(Ра, Ь) можно вычислить как число фиксированных компонент в закономерности Ра, для которых значение соответствующего признака объекта Ь отличается от значения признака а:

Г (Ра , Ь ) = ¿У; \а1 - ь\ .

;=1

Следовательно, величина Я+ (Ра )= X г (Ра,Ь) показывает суммарную близость объектов

ЬеП+ \ Ра

положительного класса выборки, не покрывающихся закономерностью к этой закономерности, а величина Я- (Ра )= X г (Ра, с) показывает суммарную близость объектов отрицательного класса

сеП- \ Ра

выборки, не покрывающихся закономерностью к этой закономерности.

Величина Я(Ра) может использоваться при выборе направления при поиске. Например, последующую допустимую точку предлагается выбирать исходя из минимума Я (Ра) или Я (Ра)/ Я(Ра). Таким образом, для нахождения положительных закономерностей с учетом информации о расстоянии до непокрытых пока объектов выборки предлагается использовать две оптимизационные модели, состоящие из функции ограничения (2) и целевых функций:

Я + (Ра ) Я + (Ра )

^ тт; (3)

> тт. (4)

я - (Ра)

Аналогично формулируется задача нахождения отрицательных закономерностей.

При объединении всех полученных положительных и отрицательных закономерностей формируется классификатор. Для того чтобы классифицировать новое наблюдение, используют следующее решающее правило:

1) если наблюдение удовлетворяет условиям только одной или нескольких положительных закономерностей, то оно классифицируется как положительное.

2) если наблюдение удовлетворяет условиям только одной или нескольких отрицательных закономерностей, то оно классифицируется как отрицательное.

3) если наблюдение удовлетворяет условиям р' из р положительных закономерностей и д' из q отрицательных, то знак наблюдения определяется как р'/р - д'/д .

4) в случае, если наблюдение не удовлетворяет условиям ни одной закономерности, то оно относится к классу, имеющему наименьшую цену ошибки.

Проведем апробацию моделей, учитывающих информацию о непокрытых пока объектах выборки (3-2), (4-2). Эксперименты проводились на задачи прогнозирования осложнения инфаркта миокарда - фибрилляции желудочков [2]. Для проведения испытаний использовалась выборка данных, состоящая из 70 положительных объектов и 70 отрицательных объектов. При проведении исследований 20 % выборки использовалось для теста. Результаты испытаний приведены в табл. 1 и 2.

Таблица 1

Результаты классификации при использовании оптимизационной модели (3-2)

Номер опыта Множество правил Покрытие отрицательных объектов Покрытие положительных объектов Средняя степень правила Точность классификации, %

1 отр. 17 0 10 76

пол. 0 23 4 82

2 отр. 16 0 10 92

пол. 0 17 7 60

3 отр. 23 0 10 71

пол. 0 19 6 71

4 отр. 22 0 11 79

пол. 0 19 6 65

5 отр. 17 0 10 86

пол. 0 18 6 71

Е/5 отр. 80,8

пол. 69,8

Таблица 2

Результаты классификации при использовании оптимизационной модели (4-2)

Номер опыта Множество Покрытие Покрытие Средняя Точность

правил отрицательных объектов положительных объектов степень правила классификации, %

1 отр. 19 0 8 82

пол. 0 24 6 64

2 отр. 18 0 9 69

пол. 0 21 7 80

3 отр. 25 0 10 73

пол. 0 16 7 65

4 отр. 19 0 8 73

пол. 0 22 7 69

5 отр. 21 0 9 92

пол. 0 18 8 75

Е/5 отр. 77,8

пол. 70,6

Результаты исследований показывают, что использование информации о близости объектов к закономерности позволяет решить проблему, связанную с выбором направления поиска оптимальных и субоптимальных решений при наличии множеств постоянства.

Библиографические ссылки

1. Антамошкин А. Н., Масич И. С. Исследование свойств задач оптимизации при поиске логических закономерностей в данных // Системы управления и информационные технологии : науч.-техн. журнал. 2011. № 4.1 (46). С. 111-115.

2. Осложнения инфаркта миокарда: база данных для апробации систем распознавания и прогноза / С. Е. Головенкин, А. Н. Горбань, В. А. Шульман и др. Красноярск : Вычислительный центр СО РАН : Препринт. 1997. № 6.

© Кузьмич Р. И., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.