Научная статья на тему 'Поиск закономерностей в задаче классификации'

Поиск закономерностей в задаче классификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
230
66
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гулакова Т.К., Кузьмич Р.И., Масич И.С.

Представлен обзор существующих методов выявления закономерностей в многомерных данных и построения на их основе решающих правил в виде булевых функций. Данные методы применяются для решения задач классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Поиск закономерностей в задаче классификации»

Секция «Математическое моделирование управления и оптимизации»

Из результатов видно, что рекомбинация «побитовое сравнение» оказалось эффективной для всех тестовых функций особенно при средней и сильной степени мутации. В то же время новый вид рекомбинации «псевдно-митоз» не оправдал надежд на высокую эффективность.

Библиографическая ссылка

1. Holland J. H. Adaptation in natural and artificial systems. MI: University of Michigan Press, 1975.

© Гулакова Т. К., Бежитский С. С., 2010

УДК 519.68

Т. К. Гулакова, Р. И. Кузьмич Научный руководитель - И. С. Масич Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ПОИСК ЗАКОНОМЕРНОСТЕЙ В ЗАДАЧЕ КЛАССИФИКАЦИИ

Представлен обзор существующих методов выявления закономерностей в многомерных данных и построения на их основе решающих правил в виде булевых функций. Данные методы применяются для решения задач классификации.

Закономерностью называется предикат, определенный на множестве объектов X ф: X ^ {0,1}, если он выделяет достаточно много объектов одного класса с, и практически не выделяет объекты других классов. Всякая закономерность классифицирует лишь некоторую часть объектов. Объединив определённое количество закономерностей в композицию, получим решающее правило, способное классифицировать любые объекты.

Пространство поиска, на котором следует искать информативные закономерности, в случае, если все признаки являются бинарными, легко описать с помощью Булевых функций. Любая такая функция может быть представлена в виде дизъюнктивных нормальных форм (ДНФ). Более того, в качестве закономерностей можно брать только конъюнкции признаков и их отрицаний, а дизъюнкцию реализовать как корректирующую операцию, например, как голосование по большинству или старшинству.

Закономерностями являются предикаты, отвечающие критерию максимума информативности. Критерий информативности может быть представлен в любой из следующих форм: Эвристический критерий. Статистический критерий. Энтропийный критерий. Взвешенная информативность. Для выявления наиболее информативных предикатов пространство поиска следует разбить на области. Наиболее употребительные из них: Гиперпараллелепипеды

Р( х) = [а < / (х) < а']

Шары

ф(х) ^^ х0 )< Г0 ] Полуплоскости

ф(х )=[( х га)<Юо] Области, описываемые ядром

ф(х)=[[ (х, Хо )< Ко ] Методы порождения бинарных предикатов:

- Градиентный алгоритм синтеза конъюнкций. Варьируя параметры алгоритма (информативность и окрестность конъюнкции) можно получать различные алгоритмы поиска или улучшения данных конъюнкций - Жадный алгоритм синтеза конъюнкции, Стохастический локальный поиск, Процедура стабилизации, Процедура редукции.

- Генетический алгоритм синтеза конъюнкций. Генетические алгоритмы отличаются большим разнообразием всевозможных эвристик.

- Поиск информативных конъюнкций как задача отбора признаков. Функционал качества в задачах отбора признаков заменяется на максимум информативности.

- Построение решающих правил на основе выявленных закономерностей: После нахождения множества логических закономерностей в форме конъюнкций строятся решающие правила в виде ДНФ.

1. Решающие списки. Решающий список закономерностей представляет собой частный случай алгоритмической композиции с голосованием по старшинству.

2. Решающие деревья. При синтезе деревьев решений строятся все конъюнкции одновременно.

Классификация a: X ^ Y записывается в виде простого голосования конъюнкций

a(x) = arg max ^ Kv (x), где Т - множество всех

yeY

veT cv = У

терминальных вершин дерева; Kv (x) - конъюнкция, составленная из всех предикатов, приписанных внутренним вершинам дерева на пути от корня v0 до вершины v.

3. Голосование правил

- Алгоритм простого и взвешенного голосования.

- Алгоритм КОРА.

- Алгоритм ТЭМП.

- Алгоритм Бустинга.

Один из алгоритмов логического анализа данных был применен при решении следующей задачи

Актуальные проблемы авиации и космонавтики. Информационные технологии

классификации: прогнозирования осложнения инфаркта миокарда - фибрилляции предсердий. Для проведения испытаний использовалась выборка данных, состоящая из 164 пациентов с осложнением (позитивные объекты) и 193 объектов без указанного осложнения (негативные объекты). Десятая часть из них (16 и 20 пациентов соответственно) использовалась для контроля и в построении решающей модели не участвовала [1].

В алгоритме используется эвристический критерий информативности предиката. Решающие правила строятся с помощью алгоритма КОРА.

Решающее правило состоит из следующих условий, позволяющий однозначно отнести объект к одному или другому классу [1].

1) наблюдение классифицируется как положительное, если оно удовлетворяет одной или нескольким закономерностям положительного подмножества и ни одной отрицательного.

2) наблюдение классифицируется как отрицательное, если оно удовлетворяет одной или нескольким закономерностям отрицательного подмножества и ни одной положительного.

3) если наблюдение удовлетворяет условиям рс из Рс положительных паттернов и пс из Ыс отрицательных, то знак наблюдения определяется как

Рс/Рс -.

4) в случае, если наблюдение не удовлетворяет ни одному из условий, то оно остается неклассифицированным.

Логический анализ данных позволяет построить в явном виде классификационные правила, по которым принимается решение о принадлежности к какому-либо классу. При применении модели классификации к новому пациенту по тому, каким числом паттернов покрываются его данные, можно судить о вероятности возможной ошибки при распознавании.

Библиографическая ссылка

1. Масич И. С. Комбинаторная оптимизация в задаче классификации // Системы управления и информационные технологии. 2009. № 1.2(35). С. 283288.

© Гулакова Т. К., Кузьмич Р. И., Масич И. С., 2010

УДК 519.68

Н. А. Дунаева Научный руководитель - А. В. Медведев Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

МОДЕЛИРОВАНИЕ И УПРАВЛЕНИЕ МНОГОСВЯЗНЫМИ ОБЪЕКТАМИ

ТРУБЧАТЫХ СТРУКТУР

Рассматривается методика моделирования многомерных статических объектов трубчатых структур. Предложен метод определения структуры исследуемой области, основанный на методе Моте-Карло. Рассматривается проблема построения непараметрической системы управления моделируемым объектом.

Одной из важнейших проблем, возникающих при исследовании различных объектов, процессов и систем, является построение моделей этих процессов и систем. Очевидно, различных объектов, с которыми приходится сталкиваться - бесчисленное множество, и одного универсального правила для построения моделей не существует. Существуют лишь некоторые обобщения и рекомендации по построению моделей. Выделены различные способы построения моделей того или иного типа объектов. Один из способов построения моделей основан на применении непараметрических процедур для описания функционирования объекта, описания связи входных, выходных переменных объекта. Зачастую мы имеем не просто объект, а несколько объектов, объединенных в одну систему, и функционирующих как единое целое. При этом выход одного элемента системы может являться входом другого элемента системы, появляется множество промежуточных связей. Если некоторые соотношения, описывающие функционирование объекта известны точно (например, заданы известным уравнением), то применение, лишь непараметрических процедур для описания объекта становится не совсем оправданным. И

впрямь, зачем отбрасывать известные соотношения, зависимости, и строить непараметрические процедуры, сталкиваясь при этом с неизбежным появлением погрешности, как раз и вызванной применением непараметрических процедур. Очевидным становится выбор в пользу сочетания в одной модели известных заранее соотношений и соотношений восстановленных с помощью непараметрических процедур. Построенные таким образом модели называют комбинированными. Применение комбинированных моделей позволяет системному аналитику более адекватные модели, учитывать известные соотношения (например, законы физики и др.), и в то же время, применяя непараметрические процедуры, осваивать синтез моделей, построение которых было невозможно в виду не возможности установления точной связи между, например, входами выходами объекта.

При построении моделей зачастую сталкиваются с проблемой, известной как «проклятие размерности» - при увеличении размерности пространства переменных резко увеличивается объем выборки наблюдений, необходимый для построения адекватной модели. В реальных задачах объем выборки

i Надоели баннеры? Вы всегда можете отключить рекламу.