Научная статья на тему 'Поисковые алгоритмы псевдобулевой оптимизации в задаче классификации данных'

Поисковые алгоритмы псевдобулевой оптимизации в задаче классификации данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
58
13
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Масич И.С., Кузьмич Р.И.

Рассматривается метод классификации данных, основанный на комбинаторике и оптимизации. Решающее правило классификации базируется на модели, получаемой в результате решения ряда задач комбинаторной оптимизации. Для решения этих задач разработаны и исследованы поисковые алгоритмы условной псевдобулевой оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEARCH ALGORITHMS FOR PSEUDO-BOOLEAN OPTIMIZATION IN CLASSIFICATION PROBLEMS

A data classification method based on combinatorics and optimization is considered in the paper. The decision rule bases on the model received by solving combinatorial optimization problems. Search algorithms of pseudo-Boolean optimization are designed and investigated for solving these problems.

Текст научной работы на тему «Поисковые алгоритмы псевдобулевой оптимизации в задаче классификации данных»

Решетневскце чтения

УДК 519.854.33

И. С. Масич, Р. И. Кузьмич

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

ПОИСКОВЫЕ АЛГОРИТМЫ ПСЕВДОБУЛЕВОЙ ОПТИМИЗАЦИИ В ЗАДАЧЕ КЛАССИФИКАЦИИ ДАННЫХ*

Рассматривается метод классификации данных, основанный на комбинаторике и оптимизации. Решающее правило классификации базируется на модели, получаемой в результате решения ряда задач комбинаторной оптимизации. Для решения этих задач разработаны и исследованы поисковые алгоритмы условной псевдобулевой оптимизации.

Основным объектом изучения в проводимой работе является использование алгоритмов комбинаторной оптимизации в задачах классификации данных. Одним из наиболее перспективных направлений в классификации являются логические алгоритмы классификации, принцип работы которых состоит в выявлении закономерностей в данных и формализации их в виде набора логических правил. Процесс формирования решающих правил сопровождается решением задач выбора наилучших альтернатив в соответствии с некоторым критерием. В некоторых логических алгоритмах, в том числе в деревьях решений и решающих списках, это осуществляется неявно, с помощью каких-либо эвристических процедур. Формализация этого процесса в виде ряда задач комбинаторной оптимизации формирует гибкий и эффективный алгоритм логического анализа для классификации данных. Построение эффективных правил и модели классификации является сложной комбинаторной задачей. Результаты ее решения определяются видом сформированных критериев и ограничений, а также используемыми алгоритмами оптимизации. От их эффективности зависит точность и трудоемкость самого метода классификации.

Исследуемый алгоритм классификации данных состоит из этапов, на каждом из которых требуется решение серии задач комбинаторной оптимизации [1]. Критерий и ограничения в задачах заданы псевдобулевыми функциями, характеризующимися наличием свойств унимодальности и монотонности, что выделяет их в особенный класс задач, в которых допустимое множество является связным. Функции эти в общем случае задаются алгоритмически, т. е. вычисляются через определенную последовательность операций.

Поэтому наиболее приемлемыми для решения этой задачи являются так называемые поисковые алгоритмы оптимизации, которые не требуют задания функций в явном виде, с помощью алгебраических выражений, а используют вычисления функций в точках.

Для решения такой задачи ранее был разработан регулярный алгоритм псевдобулевой оптимизации [2], который находит точное оптимальное решение задачи за ограниченное время, причем показано, что этот алгоритм реализует информационную сложность данного класса задач.

В то же время для многократного решения данной задачи с большим числом переменных наиболее целесообразным является использование приближенных алгоритмов [3], разработанных специально для этого класса задач и основанного на поведении монотонных функций, которыми являются критерий и ограничения, в пространстве булевых переменных. Эти алгоритмы оптимизации основаны на поиске граничных точек допустимой области.

Экспериментальное исследование разработанной процедуры классификации и ее сравнение с другими методами классификации данных было проведено на задаче прогнозирования осложнений инфаркта миокарда (ИМ) [4]. Задача заключается в прогнозировании у больных в стационаре ряда осложнений: фибрилляции предсердий (ФП), фибрилляции желудочков (ФЖ), отека легких (ОЛ), разрыва сердца (РС). Для этого используется выборка данных, состоящая из 1700 объектов, информация о которых заключена в 117 признаках.

Сравнение разработанного логического алгоритма классификации проводилось с различными алгоритмами классификации данных: наивный байесовский классификатор, метод ближайших соседей, метод опорных векторов, решающее дерево и другие алгоритмы классификации.

Реализованная процедура классификации на практических задачах прогнозирования не уступает по точности другим алгоритмам классификации данных. Но при этом дает ряд важных преимуществ при практическом использовании. Прежде всего, в явном виде известны правила, по которым принимается решение о принадлежности к какому-либо классу.

* Работа выполнена при финансовой поддержке гранта Президента РФ (код проекта МК-463.2010.9).

Математические методы моделирования, управления и анализа данных

Это делает метод интерпретируемым и дает возможность применять его для решения тех задач, в которых потери от принятия неверного решения могут быть велики, и само решение должно быть обосновано.

Многие методы распознавания образов (например, нейронные сети, метод опорных векторов) хотя и находят решения с хорошей точностью, но не дают касательно них каких-либо объяснений. Но при использовании систем диагностики и прогнозировании в практических задачах (например, задачах медицинской диагностики и прогнозирования) порой требуется знать, почему некое новое наблюдение принадлежит определенному классу, как далеко оно от «границы» классов, насколько это решение обоснованно. В таких случаях требуется метод классификации данных, который помимо самого решения предоставит в явном виде решающее правило, т. е. выявляет знания из имеющихся данных.

Библиографические ссылки

1. Hammer P. L., Bonates T. Logical Analysis of Data: From Combinatorial Optimization to Medical Applications. RUTCOR Research Report 10-2005, 2005.

2. Antamoshkin A. N., Masich I. S. Unimprovable algorithm for monotone pseudo-Boolean function conditional optimization // Engineering & automation problems. Vol. 6. № 1. 2008. P. 71-75.

3. Antamoshkin A. N., Masich I. S. Heuristic search algorithms for monotone pseudo-boolean function conditional optimization //Engineering & automation problems. № 3. 2007. P. 41-45.

4. Осложнения инфаркта миокарда: база данных для апробации систем распознавания и прогноза : препринт № 6 / С. Е. Головенкин, А. Н. Горбань, В. А. Шульман и др. Красноярск: Вычислительный центр СО РАН 1997.

I. S. Masich, R. I. Kuzmich Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

SEARCH ALGORITHMS FOR PSEUDO-BOOLEAN OPTIMIZATION IN CLASSIFICATION PROBLEMS

A data classification method based on combinatorics and optimization is considered in the paper. The decision rule bases on the model received by solving combinatorial optimization problems. Search algorithms of pseudo-Boolean optimization are designed and investigated for solving these problems.

© Масич И. С., Кузьмич Р. И., 2011

УДК 519.8

А. В. Медведев

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

О РЕКУРРЕНТНЫХ НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМАХ АДАПТАЦИИ

Рассматриваются непараметрические оценки кривой регрессии по наблюдениям с помехами. Приводятся для одного частного случая рекуррентные непараметрические алгоритмы управления экстремальным объектом и соответствующие теоремы сходимости.

В теории адаптивных систем развитые ранее непараметрические алгоритмы не допускают рекуррентную запись [1]. Однако, как видно будет ниже, рекуррентное представление непараметрических алгоритмов возможно для одного частного случая. Основанием для этого является непараметрическая оценка плотности вероятности случайной величины х по

наблюдениям X, 1 = 1,5, имеющей вид [2]:

Р5 (х) = 5-1 ^ с-'ф (с- (х - X)), допускающая рекур-

1=1

рентную запись:

Р.5 (х) = Р5-1 (х)- 5-1 (Р_, (х)- с-1ф(с-1 (х - X. ))) , (1)

где колоколообразная функция ф(-) и параметр размытости е, 1 = 1,5 удовлетворяют некоторым условиям сходимости [2].

Используя рекуррентную оценку плотности вероятности (1), можно получить соответствующую оценку функции регрессии по наблюдениям пары случайных величин (х, у), т. е.

y (xbiX'y,Ф I-Zl |/х^Ф

' x - X I

(2)

где (Xt, Yj, i = 1, s) - выборка наблюдений случайных величин (x, y) с помехами. Непараметрическая оцен-

i Надоели баннеры? Вы всегда можете отключить рекламу.