Научная статья на тему 'Отбор информативных признаков при обучении распознаванию образов с упорядоченными признаками'

Отбор информативных признаков при обучении распознаванию образов с упорядоченными признаками Текст научной статьи по специальности «Математика»

CC BY
39
9
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Середин О.С., Моттль В.В.

Рассматривается задача отбора признаков в случае их упорядоченности в задаче обучения распознаванию образов. Большинство подходов к отбору признаков рассматривает вектор признаков объектов, как неупорядоченную совокупность числовых коэффициентов. Однако в ряде задач признаки есть суть последовательных измерений вдоль оси некоторого аргумента, например, упорядоченные отсчеты какого-либо сигнала. В статье предложен способ отбора признаков с учетом априорной информации об одномерной упорядоченности признаков вдоль оси.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Середин О.С., Моттль В.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The task of interrelated features selection is considered. A lot of approaches assume that feature vector is unordered set of numerical coefficients. However in some tasks features are serial measurement along some axes, for example, counts of some kind of signal. The technique of feature selection using a priori information about one-dimensional order is suggested.

Текст научной работы на тему «Отбор информативных признаков при обучении распознаванию образов с упорядоченными признаками»

УДК 004.93

ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ ПРИ ОБУЧЕНИИ РАСПОЗНАВАНИЮ ОБРАЗОВ С УПОРЯДОЧЕННЫМИ

ПРИЗНАКАМИ © Середин О.С.1, Моттль В.В.2

1 Тульский государственный университет, Россия 300600, г.Тула, пр.Ленина, 92 2 Вычислительны и центр РАН, Россия 117967, г.Москва, ГСП-1, ул.Вавилова, 40

e-mail: oseredin@yandex.ru, vmottl@yandex.ru

Abstract. The task of interrelated features selection is considered. A lot of approaches assume that feature vector is unordered set of numerical coefficients. However in some tasks features are serial measurement along some axes, for example, counts of some kind of signal. The technique of feature selection using a priori information about one-dimensional order is suggested.

Введение

Проблема решения задачи обучения распознаванию образов в случае большого числа признаков (по сравнению с количеством объектов в обучающей выборке, так называемая ситуация «проклятия размерности»), как правило, сводится к паре стандартных подходов - сокращение размерности за счет отбора наиболее информативных признаков или наложение на решающее правило априорных ограничений (регуляризация решающего правила распознавания). В статье предложен подход, комбинирующий две эти методики. Рассматривается отбор информативных признаков с учетом их упорядоченности в задаче обучения распознаванию образов. Большинство подходов к отбору информативных признаков рассматривает вектор признаков объектов, как неупорядоченную совокупность числовых коэффициентов, более того, многие методы при своей постановке явно принимают гипотезу о том, что отдельные компоненты вектора признаков являются независимыми. Однако в некоторых задачах признаки - есть суть последовательных измерений вдоль оси некоторого аргумента, например, упорядоченные отсчеты какого-либо сигнала, компоненты спектра и т.п.

В ряде предыдущих статей авторов были предложены как способы регуляризации решающих правил распознавания, так и способы отбора признаков. Так в ранних работах [2, 3] был предложен способ регуляризации решающего правила распознавания, учитывающий априорную информацию о взаимосвязи признаков. Одновременно проводились исследования по способам комбинирования модальностей в задачах интеллектуального анализа данных, которые фактически предложили эффективный инструмент отбора информативных признаков [4, 5, 6]. В этой работе предлагается осуществлять отбор признаков с учетом априорной информации об одномерной упорядоченности признаков вдоль оси. Следует отметить, что в качестве теоретической базы предлагаемых алгоритмов выбран метод потенциальных функций, и вытекающий из него метод опорных векторов [1], как получивший в последнее время распространение и популярность.

Статья построена следующим образом - в первом разделе обосновано использование в качестве базы модельных модификаций популярного метода опорных векторов, в следующих двух разделах отдельно рассматриваются алгоритмы отбора признаков и регуляризации решающего правила распознавания, четвертый посвящен описанию нового правила отбора признаков в случае их упорядоченности в задаче обучения распознаванию образов, В заключении обсуждаются перспективы развития предложенной методики.

1, Метод опорных векторов - основа модификаций

Пусть имеется обучающая выборка -{хг дл}. ] = где

х = (xi,i = 1.....п) = х(ш) Е 1\" - исходный действительнозначный вектор

признаков объекта распознавания ш, д = {±1} - индекс классификации каждого объекта. Направляющий вектор оптимальной разделяющей гиперплоскости а = {ох, 02,..., ап} и её смещение Ь определяются как решение хорошо известного критерия:

N

ата + (" V Л; —» тш(а, Ь, с>1,,,,, 5^),

3=1

gj(атх:г- + Ь) > 1 — <5^, > 0. ./ = 1,,,,, N. Обычно задачу (1) решают в двойственной форме:

N Л Л / п \

Е ^ - | Е Е ( 9з9к Е ЩХгк ) Х^Хк тах(Ль ..., Алг),

г=1 3=1 к=1 \ г=1 /

N

ЕА^- = 0, о < Л; < г/2. з = \, ..., N,

2=1

(1.1)

(1.2)

как задачу квадратичного программирования относительно неотрицательных множителей Лагранжа А;. j = 1......Y. Связь коэффициентов направляющего вектора

разделяющей гиперплоскости с множителями Лагранжа двойственной задачи:

N

<4 = Хд^-'Чг г = 1,--,п. (1.3)

¿=1

Простота алгоритмической и численной реализации этого метода, явное указание на так называемые опорные элементы обучающей выборки (только они, по сути, и формируют разделяющую гиперплоскость), хорошие экспериментальные результаты сделали эту постановку задачи обучения распознавания образов наиболее популярной в последнее время. Именно поэтому такой критерий ляжет в основу построения метода отбора признаков в случае их упорядоченности в задаче обучения распознаванию образов.

Следует отметить, что постановка (1), является наиболее простым, так сказать, академичным из целого множества критериев, объединенных названием support vector machines. В таком варианте решение опирается на скалярные произведения

векторов признаков объектов распознавания и решающее правило является линейным в исходном пространстве. Существуют постановки с другим видом потенциальных функций (kernels), другими способами штрафов для случаев линейной неразделимости подвыборок двух классов, В литературе обсуждаются аспекты связи метода опорных векторов с методом потенциальных функций [1], методами беспризнакового распознавания [3], Мы в наших предложениях для ясности рассуждений будем опираться на простую, ставшую уже канонической постановку (1),

2, Регуляризация в обучении распознавания сигналов с учетом

критерия гладкости решающего правила

Для того, чтобы в процессе обучения предпочтение отдавалось решающим правилам с плавным изменением коэффициентов линейной части, в [2] предлагалось внести в критерий (1) дополнительную аддитивную составляющую /'(а) = V" (>/,; — Нетрудно убедиться, что такая квадратичная функция может быть записана в виде ./'(а) = а7 В а. где матрица В (п х п) имеет вид:"

/

В (п х п)

\

1 -1

О

О

о о

-1

о о о

о -1

2

О

о о

о о о

о о о

2 -1

-1 2 О -1

О \

о о

0 -1

1

/

Тогда целевая функция поиска параметров оптимальной разделяющей гиперплоскости, в отличие от (1), будет включать в себя еще одно слагаемое:

N

(I + - В)а + С ^^ Sj —^ niiiila. h. rt 1.....5дг)

(2.1)

3 = 1

при тех же ограничениях. Здесь и далее коэффициент - > 0 определяет степень, с которой штраф на негладкость последовательности коэффициентов участвует в процессе обучения. Очевидно, что матрица положительно определена.

Критерий в двойственной форме также практически не претерпит изменений, немного подкорректируется подсчет матрицы квадратичной формы:

N N N

Е Aj - \ Е Е (fi,jfi,fcxJ(I + 7B)-1xfc) XjXk max(Ab Ajy) j=i j=i k=l

N

E bj9j = 0, ()<()< Xj < (•/■>. j = 1,..., N. j=i

(2.2)

Направляющий вектор оптимальной разделяющей гиперплоскости будет выражаться следующей формулой:

N

а = (I + 7В)"1 ^ \jgjXj. (2.3)

3=1

3. Отбор признаков, основанный на комбинировании

потенциальных функций

В работах [5, 6] был предложен способ комбинирования потенциальных функций в задачах беспризнакового обучения распознаванию образов и восстановления числовой регрессии. Было показано, что этот механизм может быть перенесен на случай, когда объекты представлены своими векторами признаков, и достаточно эффективно применен как процедура неитерационного отбора информативных признаков.

В этом случае в «классический» критерий В.Н.Ваппика (1) вводятся неотрицательные веса Г\ > 0,..., гп > 0 при каждой компоненте направляющего вектора искомой разделяющей гиперплоскости:

п N

Е [(1/п)а\ + к^] + Г Е тт(а,Ь,гь ..., гп,8г, ...,5дг), ¿=1 ¿=1

9з (^Е <ЬХг{Шу) + >1-6], 8] > 0, 3 = 1, ..., N, г,- > 0, г = 1,,,,, п.

(3.1)

(3.2)

Двойственная задача квадратичного программирования:

N N N / п \

Е ^ - | Е Е ( 9з9к Е ЪХуХу,) Х]Хк тах(Аь ..., Адг),

г=1 ]=1 к=1 \ г=1 /

N

ЕАж; = 0. О < А; < Г/2. 3 = 1, ..., N.

1=1

Для поиска параметров гиперплоскости и весовых коэффициентов используется метод Гаусса-Зайделя: фиксируется одна группа переменных /•< > 0. г = 1.....п.

проводится оптимизация по другой X] j = 1......\ и т.д. Т.о. итерационный процесс

обучения заключается в последовательном решении задачи квадратичного программирования (8) и пересчете весовых коэффициентов:

N N

гпех1 = г2 д3дкхцх1кХ]Хк = О?. (3.3)

3=1 к=1

Направляющий вектор разделяющей гиперплоскости определяется в этом случае как:

N

= У^//;Агг):г г = 1,...,п. (3.4)

3 = 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Такая процедура в ходе экспериментальных исследований продемонстрировала тенденцию к быстрой сходимости и отбору малого, даже порой слишком малого числа

признаков с существенно отличными от нулевых значений весами /•,;. / = 1.....п. В

работе [6] был предложен несколько другой критерий, отличный от (7):

п , ч N

Е VI (1а1 + £ ) + с Е ^ тш(гь ..., гп, оь ..., ап, Ь, 5Ь ..., 5дг),

г=1 7 ¿=1 /д

п / п \ v " /

11 'г = 1 • ( Е у +1>) > 1 ^ ¿Г ^->0, 3 =

г=1 \г=1 /

В такой постановке присутствует параметр пользователя // > 0. позволяющий управлять степенью отбора признаков, названный степенью селективности. Двойственный критерий такой задачи в точности совпадает с (8), а вот пересчете весовых коэффициентов необходимо осуществлять по более сложной формуле:

гГ4 =-(1//д) 1 = 1,...,п. (3.6)

ГС=1 ^ + Ш)

4. Отбор информативных признаков при обучении

распознаванию образов с упорядоченными признаками

В этом разделе представлен критерий построения решающего правила, объединяющий отбор информативных признаков и наложение ограничений на разницу весовых коэффициентов. Возьмем за основу критерий (11), внесем дополнительный квадратичный штраф на разницу соседних весовых коэффициентов /•,; > 0. г = 1.....п.

отнесённую к их произведению. Постановка задачи обучения с отбором признаков в случае их упорядоченности на оси:

{п / \ п _ 2 N

+ ¿1 +7 Е гт^! + С Е ^ тт(оь ..., ап,Ь,гъ ..., г„,5ь ...,5дг),

г=1 * ^ 7 г=2 * * ]=1

п / п \

\\п = 1 • ();, Е »<:•'>: + '>) > 1 - ¿г ^ >0, 7 = 1,..., N.

г=1 \г=1 /

(4.1)

Предлагается решать задачу минимизации критерия (13) методом Гаусса-Зайделя,

разделив переменные на две группы: первая а е Еп,Ь £ К, >0, ] = 1......V. и

вторая /•,; > 0. / = 1.....п. и осуществлять пошаговую минимизацию критерия по

одной группе параметров, при фиксированной второй.

При фиксированных коэффициентах /•,; > 0. г = 1, ....п. задача фактически сводится к классической постановке задачи обучения распознаванию образов методом опорных векторов. Двойственный критерий такой задачи в точности совпадает с (8), Для поиска весовых коэффициентов на каждом шаге метода покоординатного спуска необходимо решить систему нелинейных уравнений относительно параметров ^г > 0, / = 1.....п и фиктивного параметра г/:

( ЫЧйм + 1(п^гЛ+ 0 г = 1 г 1 ' \Г2 Г1 J 1 ' '

« + + + = г = 2,..., n — 1, (42)

И!' ,'-1=0.

Каждое уравнение в этой системе включает всего 3-4 неизвестных, решение возможно осуществить методом простых итераций. Коэффициенты направляющего вектора разделяющей гиперплоскости вычисляются по правилу (10),

Следует отметить, что в таком подходе априорная информация об упорядоченности признаков налагает ограничения на весовые коэффициенты, отвечающие за информативность признаков, а не на сами коэффициенты направляющего вектора разделяющей гиперплоскости в отличие, например как в процедуре, описанной в [7],

Заключение

Статья демонстрирует способ совмещения в одном критерии отбора информативных признаков и наложения априорных, разумных с точки зрения решаемой задачи, ограничений на такой отбор. Сделан обобщающий обзор ранних публикаций авторов, из которых фактически и следует предложенная в статье идея. Выписан критерий и предложена схема его численной оптимизации. Необходимо всесторонне рассмотреть поведение предложенного алгоритма селективного отбора признаков в экспериментах как на модельных, так и на реальных задачах. Работа выполнена при поддержке грантов РФФИ № № 06-07-89249, 06-01-00412, 08-01-00695, 08-01-99003.

список литературы

1. Vapnik, V. Statistical Learning Theory. New York: Wiley, 1998.

2. O.S. Seredin, S.D. Dvoenko, О. V. Krasotkina, and V. V. Mottl Machine Learning for Signal Recognition by the Criterion of Decision Rule Smoothness. Pattern Recognition and Image Analysis, Vol. 11, No. 1, 2001, pp. 87-90.

3. Mottl V. V., Seredin O.S., Dvoenko S.D., Kulikowski C.A, Muchnik I.B. Featureless pattern recognition in an imaginary Hilbert space. In: Proceedings of 16th International Conference Pattern Recognition, ICPR-2002, Quebec City, Canada, August, 2002, vol.11, pp.88-91.

4. Mottl V.V., Seredin O.S., Krasotkina O.V., and Muchnik IB. Fusing of potential functions in reconstructing dependences from empirical data In: Doklady Mathematics, Vol. 71, No. 2, 2005, pp. 315-319. From Doklady Akademii Nauk, Vol. 401, No. 5, 2005, pp. 607-612.

5. Mottl V. V., Seredin O.S., Krasotkina О. V., and Muchnik I.B. Principles of multi-kernel data mining. In: P. Perner and A. Imiya (Eds.), Machine Learning and Data Mining in Pattern Recognition, Springer Verlag, LNAI 3587, 2005, pp. 52-61.

6. Mottl V., Tatarchuk A., Sulimova V., Krasotkina O., and Seredin O. Combining Pattern Recognition Modalities at the Sensor Level Via Kernel Fusion, In: Proceedings of 7th International Workshop Multiple Classifiers Systems, Prague, Czech Republic, 2007, pp. 1-12.

7. O. Seredin, V. Mottl Regularization in image recognition: the principle of decision rule smoothing, Pattern Recognition and Information Processing: Proceedings of the Ninth International Conference - Minsk, 2007. Vol.11., pp. 151-155.

Статья поступила в редакцию 04-05.2008 «Таврюський bichmk ¡нформатики та математики», №2'2008

i Надоели баннеры? Вы всегда можете отключить рекламу.