Научная статья на тему 'Регулируемая селективность в многомодальном распознавании образов'

Регулируемая селективность в многомодальном распознавании образов Текст научной статьи по специальности «Математика»

CC BY
35
13
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Моттль В.В., Татарчук А.И., Елисеев А.П.

В работе рассматривается задача многомодального распознавания образов в рамках концепции метода потенциальных функций. Предлагается вероятностный подход к обучению, обобщающий известные методы отбора признаков, а именно, методы опорных и релевантных потенциальных функций. Приведены результаты экспериментального исследования модификаций методов опорных и релевантных потенциальных функций, наделенных возможностью предварительного задания необходимого уровня селективности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Моттль В.В., Татарчук А.И., Елисеев А.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of multi-modal pattern recognition is considered under the assumption that the kernel-based approach is applied, which assumed that within each particular modality a kernel function can be specified. The danger of over-fitting makes it necessary to truncate the set of initially available modalities. Two known wrapper-based kernel fusion techniques, Relevance and Support Kernel Machines, offer a toolkit of combining patter recognition modalities. In this paper, we propose the modifications of the fusion techniques equipped with the ability to preset the desired level of featureselectivity.

Текст научной работы на тему «Регулируемая селективность в многомодальном распознавании образов»

УДК 681.327.12

РЕГУЛИРУЕМАЯ СЕЛЕКТИВНОСТЬ В МНОГОМОДАЛЬНОМ

РАСПОЗНАВАНИИ ОБРАЗОВ

© Моттль В.В.1, Татарчук А.И.1, Елисеев А.П.2

1ВЦ РАН, Вавилова 40, Москва, Россия 2МФТИ, Институтский переулок 9, г. Долгопрудный, Московская обл., Россия

e-mail: vmottl@yandex.ru, aitech@yandex.ru, andreyel@gmail.com

Abstract. The problem of multi-modal pattern recognition is considered under the assumption that the kernel-based approach is applied, which assumed that within each particular modality a kernel function can be specified. The danger of over-fitting makes it necessary to truncate the set of initially available modalities. Two known wrapper-based kernel fusion techniques, Relevance and Support Kernel Machines, offer a toolkit of combining patter recognition modalities. In this paper, we propose the modifications of the fusion techniques equipped with the ability to preset the desired level of feature-selectivity.

Введение

В задаче обучения распознаванию образов по прецедентам предполагается, что задан тот или иной конструктивный способ выражения доступной информации об объектах реального мира и £ £1, который принято называть модальностью (modality) представления объектов [1, 2]. Модальность может быть выражена в виде признака объекта х(ш) G X с некоторой шкалой измерения X или в виде меры попарного сходства р(ш',ш") Е R+ между объектами Е

Интенсивное развитие беспризнаковой методологии распознавания образов [3,1, 5, 6], основанной на понятии потенциальной функции (kernel) К(ш',ш") Е R, унифицирующей различные представления объектов ш', ш" Е Q в виде элементов гипотетического линейного пространства х(ш'), х(ш") £ Ж со скалярным произведением К(ш',ш"), позволяет использовать фактически весь наработанный арсенал линейных методов анализа данных.

Стремление обеспечить требуемое качество распознавания, недостигаемое на основе какой-либо одной модальности, привело к появлению огромного разнообразия способов представления объектов (х{(и) £ Xj, г = 1,...,п) и созданию многомодальных систем, распознавания, комбинирующих сразу все доступные модальности в единой процедуре распознавания y(xi(u),..., хп(ш)) : Xi х ... х Х„ —>■ {—1,+1}.

Эффект переобучения приводит к проблеме сокращения исходного множества модальностей или отбора признаков (modality or feature selection). Принято разделять все методы отбора признаков на фильтры (filters) и встроенные методы (wrappers) [7]. Фильтры применяются на множестве всех модальностей до обучения независимо от метода дальнейшей классификации, а встроенные методы существенно зависят от его специфики. На практике так же принято дополнительно различать непрерывные методы (continues methods), в которых признакам приписываются некоторые веса, и дискретные методы (binary methods), результатом работы которых является строго выбранное подмножество признаков.

В данной работе рассматриваются две модификации метода опорных векторов (SVM) [1], а именно, метод релевантных потенциальных функций (Relevance Kernel Machine или ЕКМ) [8, 9] и метод опорных потенциальных функций (Support Kernel Machine или SKM) [9, 10], которые являются наиболее яркими представителями, соответственно, непрерывных и дискретных встроенных методов отбора признаков или модальностей, выраженных в терминах потенциальных функций.

Оба метода реализуют байесовское обучение в пространстве параметров разделяющей гиперплоскости по заданной обучающей совокупности при двух разных предположениях об априорных распределениях компонент направляющего вектора гиперплоскости. Однако, не один из методов не обладает механизмом задания требуемого уровня селективности отбора, начиная с обучения сразу на всех доступных признаках и заканчивая выбором только одного признака.

В данной работе предлагается заменить в байесовской модели обучения фиксированные априорные распределения компонент направляющего вектора на параметрические семейства распределений так, чтобы параметр управлял свойством моделей подавлять значения компонент направляющего вектора, ограничивая количество признаков или модальностей, участвующих в распознавании.

Селективность, являясь структурным параметром алгоритма обучения, влияет на сложность обучаемой модели и тем самым представляет собой дополнительный инструмент борьбы с переобучением с целью повышения обобщающей способности при многомодальном распознавании образов. Выбрать подходящий уровень селективности можно одним из стандартных методов, например, по контрольной выборке или скользящим контролем (cross-validation).

Результаты экспериментального исследования на модельных данных наглядно демонстрируют адекватность механизма регулируемой селективности при многомодальном распознавании образов.

1. К В АЗИ-ВЕРОЯТНОСТНЫЙ подход

Будем предполагать, что все объекты а; G О поделены на два класса у(со) б¥ = {—1, +1} и на этом множестве объектов заданы п признаков или модальностей в некоторых шкалах Xi(iv) Е г = 1, ...,п. Однако беспризнаковая концепция распознавания образов фактически полностью стирает грань между различными видами представлений объектов и позволяет, для простоты изложения, рассматривать все исходные модальности Xi(iv) (г X, в виде действительных признаков Xj = R.

Методология обучения распознаванию образов на основе концепции оптимальной разделяющей гиперплоскости, вообще говоря, не предусматривает принятия каких-либо предположений о вероятностной модели генеральной совокупности. Такой концепции соответствует качественная модель в виде линейного пространства признаков (xi,...,xn) е R х ... х R = R", в котором объективно существует некоторая гиперплоскость у(хi, ...,хп\ а |...., a,,, b) = агхг + Ь = 0 такая, что объекты двух разных классов отображаются, в основном, по разные стороны от нее, без количественного уточнения в какой степени это предположение может нарушаться. При этом выбор направляющего вектора (ai,...,an) el" и значения порога ЬеШ

полностью задает некоторую классификацию множества объектов шёПв комбинированном линейном пространстве признаков (2:1(0;),,,,, хп(ш)) £ R".

В данной работе для обобщения известных принципов комбинирования потенциальных функций предлагается квази-вероятностная модель генеральной совокупности, на основании которой из байесовского П ОДХОД с! К *) с! уГХ Й ^ 1 обучения естественным образом вытекает концепция оптимальной разделяющей гиперплоскости. Модель была названа квази-вероятностной поскольку она основана на так называемых несобственных плотностях распределения [11], т.е. некоторых функциях, интерпретируемых как плотности распределения, но для которых не существует конечных интегралов по всем переменным.

Будем предполагать существование плотности распределения в пространстве наблюдаемых признаков и скрытых индексов классов (жх, ...,хп,у) е R х ... х R х Y, а

так же, что элементы обучающей совокупности (X,Y) = {.Г| (......г„г //¡. j = 1,.....Y}.

Xij = Xij(iVj), yj = у(cUj),u)j e О* выбраны независимо.

В качестве модели генеральной совокупности будем рассматривать два параметрических семейства плотностей распределения (p(xi,..., xn\ai,..., ап, b, у) с у е { — 1, +1} связанных с разделяющей гиперплоскостью агхг(^) + b ^ 0 в комбинированном признаковом пространстве:

tf in г I 01 а bv)-i COnSt-' V a,'Xl +

<p (хъ ...,xn\аъ ..., аи, exp t_c (1 _ y (E„=i + щ ^ y (E„=i + 6) < 1.

Очевидно, что такие распределения полностью соответствуют качественной модели генеральной совокупности, являясь равномерными при удалении от разделяющей гиперплоскости и лишь количественно определяя через параметр с > 0 возможность отображения объектов определенного класса в "чужую" часть пространства признаков.

Будем рассматривать направляющий вектор (ai,...,an) разделяющей гиперплоскости aixi + Ь ^ 0 как случайный вектор с априорной плотностью распределения Ф(й1, ..., ап | /х), задаваемой параметром /л. Что же касается величины порога разделяющей гиперплоскости Ь, то будем считать, что отсутствуют какие-либо априорные предположения о его значении, тогда совместная априорная плотность параметров гиперплоскости Ф(ах,..., ап, b \ ¡л) ос Ф(аь ,,,, а„ | ц).

В результате, апостериорная плотность распределения параметров разделяющей гиперплоскости с учетом заданной обучающей совокупности

Ф(Х | Y, аъ .., ап, Ь) = Д (р ...,xnj\ аь ..., ап, Ь, у,) пропорциональна произведению

Р(аъ ..., аП1 Ь | X, Y, /л) ос Ф(аь ..., ап \ ¡л)Ф(Х \ Y, аъ .., ап, Ь).

Принцип максимизации апостериорной плотности распределения P(ai,..., ап, Ъ | X, Y, ц) в пространстве параметров модели (аь ..., ап, Ь) приводит к байесовскому правилу обучения:

(аь ..., ап, b) = argmax [1пФ(аь ..., ап \ ц) + 1пФ(Х | Y, аь .., ап, Ь)]. (1.1)

Нетрудно показать, что при такой постановке задачи обучения (1.1) получим следующий оптимизационный критерий:

— 1п Ф(й1, ...,ап | /х) + с^=183 тт(аь ...,ап,Ь, ...,5М), , ,

Уз (ЕГ=1 ъхц + 6) > 1 - З3, 83 > 0, з = 1,..., N. { ■ }

В частности, если в качестве априорного распределения компонент направляющего вектора Ф(ах, ..., ап \ ц) = Ф(ах,..., ап) принять нормальное распределение с независимыми компонентами, нулевыми математическими ожиданиями и равными дисперсиями г, и обозначить С = 2 г с, то получим классический .метод опорных векторов (ЭУМ) [1] для вещественных признаков х^ £ Х^ = К и вещественных компонентов направляющего вектора ^ е X; = К:

Е"=х а] + С ^=1 тт(аь ...,ап,Ь, ...,5

М), /1 о\

Уз (ЕГ=1 + Ь)> 1 - 53, 53 >0, з = 1,...,М. { ■ >

В терминах потенциальных функций К{(х^,х") : Х^ х Х^ —>■ К, заданных в произвольных шкалах соответствующих модальностей метод опорных векторов (1.3) примет вид:

Е" I "/) +('Е/ I <Ь >'"'"("I.....о,,-1'-<ь.....'Ь )• п 4ч

УЛТ.Пг=1Кг{^Х13)+Ъ)>1~ 831 83 > 0, ,7 = 1,..„Ж. 1 " >

Компоненты направляющего вектора щ могут быть не представлены в исходной шкале значений признаков гц ^ Х^, а принадлежат гипотетическом линейному пространству гц е Х^ Э Х^ в которое исходная шкала значений погружена заданной потенциальной функцией. Однако всегда оказывается, что оптимальный направляющий элемент щ является линейной комбинацией реально существующих объектов из обучающей совокупности сц = Е^-л >о^зУзхч € Х^, а решающее прави-

л0 Е^ а,>о ^зУз ЕГ=1 Хг) +6^0 полностью определяется неотрицательными

множителями Лагранжа Х3 > 0 при ограничениях оптимизационной задачи (1.4), соответствующих опорным, объектам.

В последующих двух главах рассматриваются два вида априорных распределений компонент направляющего вектора разделяющей гиперплоскости Ф(ах,..., а„|/х), приводящих к двум модификациям метода опорных векторов, в которых параметр ц регулирует степень селективности отбора признаков.

2. Метод релевантных потенциальных функций с регулируемой

селективностью

Примем в качестве априорной плотности распределения компонент а^ направляющего вектора разделяющей гиперплоскости у(х 1, ...,хп\ ах, ...,ап,Ь) ^ 0 нормальное распределение с нулевыми математическими ожиданиями и дисперсиями г¿:

ф(аг\гг) = (Ч/г^тг)1/2] ехр (-(1/2гг)а2)) , Ф(ах,..., ап\п,..., гп) ос (Д"=1 ' ехР ("С1/2)

Кроме того, будем предполагать, что и сами величины обратные дисперсиям 1 /г{ имеют априорное гамма распределение

-y((l/n)\a,ß) ос (l/r%)a-lexp(-ß(l/r%))

с равными математическими ожиданиями Е(1/г{) = а/ß и дисперсиями E{{l/ri)2) = a/ß2, а также примем а = (1 + ц)2/2ц и ß = l/2/i. Таким образом получаем параметрическое семейство распределений относительно параметра ¡л > О, такое что E(l/ri) = (1 + ц)2 и Е ((1/fj)2) = 2ц(1 + ц)2. Если ц —^ 0, то значения 1/fj уравниваются 1/г\ = ... = 1 /гп = 1, однако, при увеличении ц величины 1/fj могут значительно различаться, а при /х—^oo=^l/rj—^0.

Апостериорная совместная плотность распределения величин 1 ¡Г{ примет вид:

G(ri,..., rn\fj) ос (JJi=i 1/n) exp (l/rf))

Принцип максимизации совместной апостериорной плотности

7 &Tb7 ^7 7 11'7 ГП | -^"j ^ 7 ос Ф(аь ,,,, ап\гъ ...,rn)G(rь ...,гп\ц)Ф{Х\У, аъ .., ап, Ь)

приводит к критерию обучения:

EIUJ(IM) («I + (1/^)) + (Ш + 1 + ß) lnr<] +

raiü(ai,ri,b,Sj), (2.1)

У3 (ЕГ=1 агХгз +b)<l-s3, S3 > О, j = 1,..., N.

Небольшие значения fj соответствуют небольшим по величине компонентам cii и, следовательно, г-й признак фактически не участвует в решающем правиле aixi + Ь ^ 0, что легко видеть, если записать решающее правило через потенциальные функции Ylj- А >0 riKi(xiji хг) + Ь ^ 0, В КОТОРОМ дисперсии Г г выступают в роли весов соответствующих потенциальных функций.

Для решения оптимизационной задачи (2.1) предлагается проводить поочередную минимизацию по группам переменных (ах,..., ап, Ь) и (ri,..., гп).

При ц = 0 критерий (2.1) примет вид классического SVM (1.3) не обладающего селективностью, но при ц —>■ оо получим критерий [(Vfj)af + l1^nri] + ~~^ min в (2.1), который будет более селек-

тивным чем исходный критерий [(Vfj)a? + ln гг\ + > min RKM

[8, 9], в следствии чего предлагаемый метод отбора признаков был назван методом релевантных потенциальных функций с регулируемой селективностью.

3. Метод опорных потенциальных функций с регулируемой

селективностью

Теперь пусть априорная плотность Ф(аь..., а„\ц) выражена через выпуклую функцию q(a\/i) в виде:

Ф(аь ..., ап| ц) ос exp (- ^ g(af | ß)) .

Очевидно, что общий критерий обучения (1.2) примет вид:

J3

N

Уз (ЕГ= 1 +Ъ) < \-ё31 ё3 > 0,3 = 1,..., N. (ЗЛ)

Для действительных признаков х^ е К предлагается кусочно-линейная квадратичная функция:

п(п | ,л _ / 211\ аесли I ^

Я(<Н а| + /д ^^ (3.2)

В терминах потенциальных функций эквивалентная запись функции имеет вид:

га. | \ = / 2!1 т/Щайъ), если < ц,

\ /л,2 + К^сц, щ), если > ц.

С учетом (3.2) оптимизационная задача (3.1) является задачей выпуклого программирования:

•-V' Е

% (E"=l aiXij + Ъ) < 1 - ^ > °7 J = 1, ■■■7 ^

Параметр 0 < ¡л < оо выполняет роль параметра селективности и при ¡1 = 0 =>- g(aj|/x) = const + а2 оптимизационный критерий (3.3) эквивалентен SVM [1], а при ¡1 —>■ оо =>■ 5(aj|/i) ос ц\гц\ представляет собой метод SKM [9, 10] с увеличивающейся способностью отбора признаков по мере увеличения ц относительно параметра с.

Такой подход был назван методом опорных потенциальны,х функций с регулируемой селективностью, поскольку аналогично методу опорных потенциальных функций (SKM) в результате обучения при заданном значении параметра селективности ¡1 > 0 формируется подмножество I^ С I = {1,...,п} опорных признаков (потенциальных функций) с ненулевыми компонентами а2 > 0 направляющего вектора искомой разделяющей гиперплоскости.

4. Экспериментальное исследование

В качестве модели двух классов объектов использовались два равномерных распределения в соприкасающихся гиперкубах R",n = 100, расположенных по разные стороны относительно заданной гиперплоскости атх ^ 0 и ориентированных вдоль ее направляющего вектора а = (ai = 0.8, <22 = 0.75,...,a5 = 0.6, afi = 0, ...,аюо = 0), в котором первые 5 элементов отличны от нуля. Таким образом только 5 признаков содержат информацию о разделении классов и 95 являются шумовыми. Генерировались обучающие выборки размером N = N+1 = iV_i = 50 + 50 = 100 и тестовые Ntest = 5000 + 5000 = 10000.

Для набора возрастающих значений параметра селективности ц > 0 проводилось обучение по критериям (2.1) и (3.3), и оценивалась обобщающая способность полученных решений на тестовой совокупности (ошибку на тестовой совокупности для больших Ntest можно считать ошибкой на генеральной совокупности), а так же на скользящем контроле (10-fold validation). Результаты экспериментов приведены на рисунке 1.

Рис. 1. Качество обучения па тестовой совокупности и по результатам скользящего контроля (10-fold validation) для возрастающего набора значений параметра селективности 0 —> /1 —> схз.

Ошибка па генеральной совокупности обычного SVM (1.3) па первых 5 "разум-пых" признаках составляет 0.0045, а только па первом самом информативном признаке «1 в отдельности - 0.0245.

При наименьшей селективности /1 = 0 ошибка обоих методов па тестовой совокупности составляет 0.058, что эквивалентно обучению SVM па всех 100 признаках одновременно.

Минимальная ошибка, достигаемая методом RKM, составляет 0.0052, что сравнимо с ошибкой SVM 0.0045 па первых 5 "разумных" признаках. Однако ошибка метода SKM 0.0124 в два раза больше чем у RKM, что можно объяснить недостаточной гибкостью метода с отбором подмножества опорных признаков в сравнении с взвешиванием признаков.

При дальнейшем увеличении селективности /1 —> схз все веса у RKM стремиться к пулю гi —> 0, a SKM сокращает множество опорных признаков до пустого множества. Соответственно, ошибка обучения сначала достигает критического уровня 0.0245, а затем ошибка поднимается до максимального уровня 0.5.

Таким образом, полученные результаты наглядно демонстрируют адекватность механизма регулируемой селективности для повышения обобщающей способности при многомодальном распознавании образов.

Работа выполнена при поддержке РФФИ, проекты Л'а 05-01-00679, 06-01-08042, 06-07-89249.

Список литературы

1. Ross A., Jain A. Multimodal biometrics: An overview. /'/' Proceedings of the 12th European Signal Processing Conference, Vienna, Austria, 2004. - C. 1221.

2. Jannin P, Fleig O.J, Seigneuret E, Grova C, Morandi X, Scarabin J.M. A data fusion environment for multimodal and multi-informational neuronavigation. /'/' Computer Aided Surgery, 2000, Vol. 5, No. 1, pp. 1-10.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. M.A. Aizerman, E.M. Braverman, L.I. Rozonoer. Theoretical foundations of the potential function method in pattern recognition learning. /'/' Automation and Remote Control, 1964, Vol. 25, pp. 821-837.

4. Vapnik V. Statistical Learning Theory. John-Wiley /'/' & Sons, Inc. 1998.

5. Duin, R.P. W, De Bidder, D., Tax, D.M.J. Featureless classification. // Proceedings of the Workshop on Statistical Pattern Recognition, Prague, June 1997.

6. V. Mottl. Metric spaces admitting linear operations and inner product. // Doklady Mathematics 67(1), 2003, 140-143.

7. Guyon I. M., Gunn S. R., Nikravesh M., Zadeh L., Eds. Feature Extraction, Foundations and Applications. // Springer, 2006.

8. Sulimova V., Mottl V., Tatarchuk A. Multi-kernel approach to on-line signature verification. // Proceedings of the 8th IASTED International Conference on Signal and Image Processing. Honolulu, Hawaii, USA, August 14-16, 2006.

9. Mottl V., Tatarchuk A., Sulimova V., Krasotkina 0., Seredin 0. Combining pattern recognition modalities at the sensor level via kernel fusion. // Proceedings of the 7th International Workshop on Multiple Classifier Systems. Czech Academy of Sciences, Prague, Czech Republic, May 23-25, 2007.

10. Sonnenburg S., Ratsch G., Schafer C. A general and efficient multiple kernel learning algorithm. // Proceedings of the 19th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, December 5-8, 2005.

11. Де Гроот M. Оптимальные статистические решения. // Москва: Мир, 1974.

Статья поступила в редакцию 25.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.