Научная статья на тему 'Гибридный алгоритм распознавания образов и его свойства'

Гибридный алгоритм распознавания образов и его свойства Текст научной статьи по специальности «Математика»

CC BY
376
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА / ГИБРИДНЫЕ АЛГОРИТМЫ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / PATTERN RECOGNITION / NONPARAMETRIC STATISTICS / HYBRID ALGORITHMS / ASYMPTOTIC PROPERTIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Саренков Александр Валерьевич

Рассматривается методика синтеза и анализа гибридных алгоритмов распознавания образов, обеспечивающие эффективное использование априорных сведений о виде решающих функций и информации обучающих выборок. Исследуются их свойства аналитически и методом статистического моделирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Саренков Александр Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HYBRID ALGORITHM OF PATTERN RECOGNITION AND ITS PROPER TIES

The technique of synthesis and analysis of hybrid algorithms pattern recognition, providing an effective utilization of aprioristic data on a kind of decision functions and information of training samples is considered. Their properties are investigated analytically by a method of statistical modeling.

Текст научной работы на тему «Гибридный алгоритм распознавания образов и его свойства»

УДК 681.513

А. В. Лапко, В. А. Лапко, А. В. Саренков ГИБРИДНЫЙ АЛГОРИТМ РАСПОЗНАВАНИЯ ОБРАЗОВ И ЕГО СВОЙСТВА

Рассматривается методика синтеза и анализа гибридных алгоритмов распознавания образов, обеспечивающие эффективное использование априорных сведений о виде решающих функций и информации обучающих выборок. Исследуются их свойства аналитически и методом статистического моделирования.

Ключевые слова: распознавание образов, непараметрическая статистика, гибридные алгоритмы, асимптотические свойства.

При решении задач распознавания образов различают два типа исходной информации: априорные сведения о виде уравнения разделяющей поверхности и обучающая выборка, составленная из значений признаков классифицируемых объектов и соответствующих им «указаний учителя». Известные подходы к синтезу решающего правила классификации ориентированы в основном на определенный тип исходных данных, что при условиях, отличающихся от априорных предположений, приводит к снижению их эффективности. Так, в параметрических алгоритмах за основу принимаются сведения о виде уравнения разделяющей поверхности (ее аналитический вид), то для непараметрических процедур достаточно знание лишь ее качественных характеристик и информации обучающей выборки.

Для решения проблемы эффективного использования априорной информации предлагаются гибридные системы распознавания образов, которые обеспечивают сочетание в обобщенном решающем правиле классификации преимуществ параметрических и локальных методов аппроксимаций, основанных на оценках плотности вероятности типа Розенблатта-Парзена [1].

Синтез гибридного алгоритма распознавания образов. Пусть исходную информацию при решении двухальтернативной задачи распознавания образов составляют обучающая выборка V = (х', с( х'), ' = 1, п) и априорные сведения _Р12 (х, а) о виде уравнения разделяющей поверхности /п (х) между классами □1, ^2 в пространстве х 6 Е_к. Знание ^12 (х, а) предполагает наличие решающего правила классификации

Гх еЦ, если Е,(х, а) < 0,

1> (1)

[х ей2, если F12 (х, а) > 0,

по тем или иным причинам не удовлетворяющего исследователя. Информация обучающей выборки V формируется на основании данных о значениях признаков х классифицируемых объектов и соответствующих им «указаний учителя»

|-1, если х 6^!

,(г Ч"1,

если X бП, .

(2)

из условия минимума эмпирической ошибки распознавания образов

і=1

р(а) = п1 ]Гі(с(Xі),а(Xі)); ная функ і(с(Xі ), с(Xі )) :

(3)

где индикаторная функция

11, если с(х’) Ф с(х’) ,

[0, если с(х’) = с(х’); с(х’) - «решение» правила (1) о принадлежности ситуа-ции х’ к тому или иному классу.

По результатам вычислительного эксперимента сформируем выборку расхождений V1 = (х', q(х ), ' = 1, п) между «решениями» а(х') правила (1) и «указаниями учителя» с(х') из обучающей выборки V. При этом значения функции расхождений

0 V с(х') = о(х'), q(х') = (F12(х', а) + д) V с(х') =-1 и с(х') = 1,

-(^2 (х', а) + Д) V о(х'') = 1 и о(х') = -1.

При наличии ошибки, функция расхождения принимает значение обратное по знаку уравнения разделяющей поверхности Еп (х, а) и превышает его на величину Д. Например, если ситуация х принадлежит второму классу (с( х') = 1), а в соответствии с решающим правилом (1) классифицируемый объект с признаками х' б01; т. е. Fu (х', а) < 0, то значение функции расхождения в ситуации х' соответствует д(х') = ^2 (х', а) + Д .

Восстановление функции q (х) по выборке V1 осуществляется на основе непараметрической регрессии [2]:

_ X q( х' Ж- (х)

q( х) = ---------,

X Р, (х)

в, (X)=Пф

(4)

Для использования в полном объеме априорной информации (^12 (х, а), V) воспользуемся принципами гибридного моделирования, которые обеспечивают сочетание в обобщенном решающем правиле классификации преимущества параметрических и локальных методов аппроксимации.

Для этого определим параметры а уравнения разделяющей поверхности ^2(х, а) решающего правила (1)

где Ф(-) - ядерная функция, удовлетворяющая условиям положительности, симметричности и нормированности [1].

Тогда гибридный алгоритм классификации запишется в виде

шп(X):

IX еП1, если /12(X) < 0,

где

ІX єП,, если /12 (X) > 0, /1,( X) = ^,( X, а) + д( X).

(5)

Математика, механика, информатика

Оптимизация алгоритма (5) по параметрам размытости с„, V = 1, к ядерных функций Ф() и А осуществляется из условия минимума статистической оценки ошибки распознавания образов типа (3).

Меняя вид функции д (х), обеспечивающей коррекцию Еи (х, а), можно получить семейство гибридных решающих правил [3].

Асимптотические свойства гибридных решающих функций. Рассмотрим асимптотические свойства гибридных уравнений разделяющих поверхностей /12 (х) V х е Я1 при известной совместной плотности вероятности р (х) распределения х в классах Ц, ^2.

Предположим, что /12(х), Е(х, а), р(х) ограничены и непрерывны со всем своими производными до второго порядка включительно. Эти условия, налагаемые на /12 (х), Е(х, а), р(х), обозначим через 02.

Теорема. Пусть: 1) уравнение разделяющей поверхности /12 (х), ее аппроксимация Е (х, а) и совместная плотность вероятности р(х) распределения х в классах удовлетворяют условиям 02; 2) ядерные функции Ф(и) > 0 в непараметрической статистике (4) являются симметричными и нормированными, причем значение |итФ(и) ёи при т > 2 ограниченно и равно 1 при т = 2; 3) последовательности с = с(п) ® 0,

А = А(п) ® 0 при п , а пс .

Тогда гибридная модель /12(х) (6) обладает свойствами асимптотической несмещенности

" (/2< х) - /„< х)) ~ ^

и сходимости в среднеквадратическом М(/п(х) - /2{х))2 '

х„_

= (х„ )2 - 6ху +10 + с І X є' - 0,5р

(2)

+ Л

(пср(х)) д2(х) Ф(и)| + ((<?(х)р(х))(2)) (4р2(и)) 1 +

( х) р( х))

-с2 Л + Л2

х, = т + с

с ІXє'- 0,5р

V = 1, к,

.'=1 0 л/3р ’

где V є I - множество нечетных чисел меньших к , а = 1,5, Ь = 4,5.

Исходные сведения о виде решающей функции представлялись полиномом

Р (х = а ) = Х xv+1 -(( xv )2 - 6xv + I0,8)].

vєIн

Результаты вычислительных экспериментов представленої на рисунке. По горизонтальной оси отложено относительные (%) отклонения параметров решающей функции Р (х, а) от оптимальных, по вертикальной оси -оценки вероятностей ошибок распознавания образов.

0 5

Г\ л

0,4 ■

03 0,3 11 ■ . 1

■1 Г Г Г1

и -60-50-40-30-20-10 0 10 20 30 40 50 60

р( х)

Здесь (д(х)р(х))(2) - вторая производная по х произведения функций в скобках; М - знак математического ожидания; ||Ф(и)|| =|Ф2 (и) ёи.

Справедливость приведенных утверждений определяет состоятельность статистики / (х).

Доказательство основано на методике, предложенной в работе [4] при исследовании гибридных моделей стохастических зависимостей.

Анализ результатов вычислительных экспериментов. Исследовалась двуальтернативная задача распознавания образов к-мерном пространстве признаков (к = 2,10). Законы распределения признаков в области первого класса формировались в соответствии с датчиком случайных чисел

|

0,4 , 1

0,3 ҐГ И1

шщ 0,1 пгг |г 1

0 -60-50-40-30 -20 -10 0 10 20 30 40 50 60

. I=1 У л/зр

при р = 12; т = 3; е е[0;1] - случайная величина с равномерным законом распределения; с = 1.

Значения признаков второго класса генерировались с использованием датчиков случайных чисел ху = а + е (Ь - а),

б

Зависимость оценок вероятностей ошибок распознавания образов гибридного (столбец 1) и параметрического (столбец 2) алгоритмов отклонений параметров исходной решающей функции от оптимальных. Размерность пространства признаков: к = 2 (а); к = 4 (б)

Из анализа данных на рисунке следует, что гибридный классификатор обладает значительной устойчивостью к отклонениям параметров исходной решающей функции от оптимальных. Например, для к = 2 при отклонении параметров решающей функции от оптимальных на ± 60% оценка вероятности ошибки распознавания образов параметрического алгоритма больше гибридного на 63 %.

Таким образом, гибридные алгоритмы распознавания образов позволяют использовать информацию обучающих выборок и частичные априорные сведения о виде решающих функций на основе сочетания преимуществ параметрических и локальных аппроксимаций,

а

основанных на ядерных оценках плотности вероятности типа Розенблатта-Парзена. Структура гибридных уравнений разделяющих поверхностей между классами в подобных системах формируется на основе параметрической ее аппроксимации, восстанавливаемой с учетом априорных сведений, и корректирующей ее функции непараметрического типа. Вид корректирующей функции и особенности исходной информации порождают семейство изучаемого класса систем.

Г ибридные решающие функции обладают свойствами асимптотической несмещенности и состоятельности, устойчивы к отклонениям параметров исходного уравнения разделяющей поверхности от оптимальных их значений.

Библиографический список

1. Parzen, E. On estimation of a probability densiny function an mode / E. Parzen // Annals of Mathematical Statistics. 1962. Vol. 33. P. 1065-1076.

2. Надарая, Э. А. Непараметрические оценки кривой регрессии / З. А. Надарая // Тр. ВЦ АН ГССР. Вып. 5. 1965. С. 56-68.

3. Lapko, A. V. Hybrid Systems of Pattern Recognition / A. V Lapko, V. A. Lapko // Pattern recognition and image analysis. 2008. Vol. 18. №> 1. P. 7-13.

4. Лапко, А. В. Имитационные модели неопределенных систем / А. В. Лапко. Новосибирск : Наука. 1993.

A. V Lapko, V. A. Lapko, A. V Sarenkov HYBRID ALGORITHM OF PATTERN RECOGNITION AND ITS PROPERTIES

The technique of synthesis and analysis of hybrid algorithms pattern recognition, providing an effective utilization of aprioristic data on a kind of decision functions and information of training samples is considered. Their properties are investigated analytically by a method of statistical modeling.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Keywords: pattern recognition, nonparametric statistics, hybrid algorithms, asymptotic properties.

УДК б30*5б1.24:582.477.б

В. В. Шишов

МЕТОД ЭМПИРИЧЕСКИХ КАТЕГОРИАЛЬНЫХ КОРРЕЛОГРАММ И ЕГО ПРИМЕНЕНИЕ1

Предложен новый спектральный метод к анализу категориальных данных - метод эмпирических категориальных коррелограмм. На базе вычислительного эксперимента проводятся исследования на его статистическую устойчивость к различного рода шумовым воздействиям. Приводится пример анализа дендрохронологичес-ких данных на его основе.

Ключевые слова: спектральный анализ, категориальные данные.

В самом общем случае любая случайная функция натурального аргумента t (или временной ряд) может быть представлена в следующем виде [1]:

X (/) = А(/) Бт(ю(/)/ + у (/)).

В связи с этим, самая большая сложность, встречаемая в спектральном анализе, заключена в оценке параметров А(/) - амплитуды колебаний, ю(/) - их частоты и у(/) - фазового сдвига колебаний, которые являются также функциями времени. Проиллюстрируем эту проблему на примере оценки частоты колебаний.

Проанализируем взаимосвязи спектров циклических компонент, которые обладают примерно одинаковыми частотами. Отметим, что при определенных условиях циклические компоненты с близкими частотами будут линейно-независимыми, в частности, линейные корреляции между ними будут равны 0 [2]. Это вытекает из

свойства, которое широко используется при преобразованиях Фурье, Хартли и различных модификаций этих методов [2]. А именно набор гармоник {зш(2л • ґ -1/ у), где у = 2п/ к, к - целое} образует базис в бесконечно-мерном функциональном пространстве. На практике, в силу жестких ограничений (например, стационарность исходных временных рядов), накладываемых на использование чистого преобразования Фурье [2], широкое распространение получили методы (ББА, МТМ или CWT), для которых такие ограничения не столь критичны.

Существует ряд классических примеров, которые показывают сложность определения при спектральном анализе истинных частот для временных рядов, встречаемых в различных областях естественных наук. Эти ряды, как правило, отличаются наличием нестационарных амплитуды, фазовых сдвигов и «колорированного» шума, кото-

1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 09-05-00900-а, проект № 09-04-00803-а).

i Надоели баннеры? Вы всегда можете отключить рекламу.