Научная статья на тему 'Свойства непараметрической оценки уравнения разделяющей поверхности в задаче распознавания образов при случайных значениях коэффициентов размытости ядерных функций'

Свойства непараметрической оценки уравнения разделяющей поверхности в задаче распознавания образов при случайных значениях коэффициентов размытости ядерных функций Текст научной статьи по специальности «Математика»

CC BY
188
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА / РАСПОЗНАВАНИЕ ОБРАЗОВ / СЛУЧАЙНЫЕ КОЭФФИЦИЕНТЫ РАЗМЫТОСТИ / АСИМПТОТИЧЕСКИЕ СВОЙСТВА / NONPARAMETRIC STATISTICS / PATTERN RECOGNITION / RANDOM FUZZINESS PARAMETERS / ASYMPTOTIC PROPERTIES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко В. А.

Исследуются асимптотические свойства непараметрической оценки уравнения разделяющей поверхности, основанной на рандомизированном методе её оптимизации. Проводится их сравнение со свойствами традиционной непараметрической решающей функции парзеновского типа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко В. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROPERTIES OF A NONPARAMETRIC ESTIMATION OF THE EQUATION OF A SEPARATING SURFACE IN THE PATTERN RECOGNITION TASK AT CASUAL VALUES OF FUZZINESS COEFFICIENTS OF KERNEL FUNCTIONS

Asymptotic properties of nonparametric estimation of the equation of the separating surface grounded on the randomized method of the estimation optimization are researched. Their correlation with properties of traditional nonparametric decision function of type a Rosenblatt-Parzen is made.

Текст научной работы на тему «Свойства непараметрической оценки уравнения разделяющей поверхности в задаче распознавания образов при случайных значениях коэффициентов размытости ядерных функций»

2. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.

3. Лапко В. А., Варочкин С. С., Егорочкин И. А. Разработка и исследование непараметрической оценки плот-

ности вероятности, основанной на принципе декомпозиции обучающей выборки по её объему // Вестник СибГАУ 2009. №> 1(22). Ч. 1. С. 45-49.

A. V. Lapko, V A. Lapko

ANALYSIS OF PROPERTIES OF MIXTURE OF NONPARAMETRIC ESTIMATIONS OF A PROBABILITY DENSITY OF A MULTIDIMENSIONAL RANDOM VARIABLE

Asymptotic properties of mixture of nonparametric estimations of a probability density of a multidimensional random variable are researched. Their correlation with properties of a traditional nonparametric estimation of a probability density of Rosenblatt-Parzen type, in accordance with quantity of components of mixture and dimension of a random variable is arranged.

Keywords: mixture of probability densities, nonparametric estimation, the big samples, asymptotic properties.

© Лапко А. В., Лапко В. А., 2010

УДК 681.513

А. В. Лапко, В. А. Лапко

СВОЙСТВА НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ УРАВНЕНИЯ РАЗДЕЛЯЮЩЕЙ ПОВЕРХНОСТИ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ОБРАЗОВ ПРИ СЛУЧАЙНЫХ ЗНАЧЕНИЯХ КОЭФФИЦИЕНТОВ РАЗМЫТОСТИ ЯДЕРНЫХ ФУНКЦИЙ*

Исследуются асимптотические свойства непараметрической оценки уравнения разделяющей поверхности, основанной на рандомизированном методе её оптимизации. Проводится их сравнение со свойствами традиционной непараметрической решающей функции парзеновского типа.

Ключевые слова: непараметрическая статистика, распознавание образов, случайные коэффициенты размытости, асимптотические свойства.

Существующий парадокс традиционных методов идентификации стохастических моделей состоит в сопоставлении конечной случайной выборке наблюдений переменных изучаемых объектов конкретного набора параметров модели, оптимальных в некотором смысле.

Впервые возможность случайного выбора коэффициентов размытости ядерных функций при синтезе непараметрической оценки плотности вероятности типа Ро-зенблатта-Парзена была реализована в 1975 г. Т. Вагнером [1]. В работе [2] была предложена методика синтеза непараметрических алгоритмов распознавания образов, основанная на рандомизированном методе её оптимизации. Её идея состоит в признании случайного характера коэффициентов размытости ядерных функций в условиях обучающей выборки конечного объёма и выборе параметров закона их распределения при оптимизации непараметрических решающих правил. На основе анализа асимптотических свойств непараметрической оценки

плотности вероятности типа Розенблатта-Парзена со случайными коэффициентами размытости ядерных функций показана возможность нахождения рационального закона распределения в классе степенных функций. Однако исследование соответствующих непараметрических алгоритмов распознавания образов осуществлялось по данным вычислительных экспериментов.

Цель данной работы состоит в установлении асимптотических свойств непараметрической оценки уравнения разделяющей поверхности, основанной на рандомизированном методе её оптимизации, и их количественной зависимости от параметров закона распределения коэффициентов размытости ядерных функций.

Непараметрический алгоритм распознавания образов со случайными коэффициентами размытости ядерных функций. Рассмотрим методику построения непараметрического классификатора на примере двуальтернативной задачи распознавания образов в пространстве непрерывного признака х.

* Работа выполнена при поддержке гранта ФЦП «Научные и научно-педагогические кадры инновационной России» на 20092013 гг., ГК № 02.740.11.0621.

(1)

Известно, что байесовское решающее правило распознавания образов, соответствующее критерию максимального правдоподобия, имеет вид [3]

Е Ц, если /2 (х) < 0 Е О2, если /2 (х) > 0.

Здесь

/12 (х) = Р2 (х)- Р (х) (2)

является уравнением разделяющей поверхности между классами О1, О2; р] (х) - условная плотность вероятности распределения признака х анализируемых объектов в классе О], ] = 1,2.

В условиях априорной неопределённое™ о виде законов распределения Р](х), 1 = 1,2 при статистическом оценивании уравнения разделяющей поверхности используются непараметрические методы статистики.

Пусть V = (х', ст('), ' = 1, п) - обучающая выборка объёма п , составленная из значений признака х' классифицируемого объекта и соответствующего ему «указания учителя» ст (') о его принадлежности к одному из двух классов О1, О2.

Для оценивания плотности вероятности в уравнении разделяющей поверхности (2) будем использовать статистику типа Розенблатта-Парзена [4].

Тогда традиционная непараметрическая оценка уравнения разделяющей поверхности /12 (х) (2) представляется в виде

Л (х )=(п с )-1 Хст1 (' )ф

х - х

Здесь

если х' £^1, если х' 6

ния последовательности коэффициентов размытости ядерных функций в виде

с = к е1+1, (5)

которая следует из решения уравнения

е = { Рк (и ) йи

0

где е 6 [0; 1] - случайная величина с равномерным законом распределения.

На основании процедуры (5) сформируем последовательность с',' = 1, п коэффициентов размытости и сопоставим случайным образом её элементам ядерные функции в статистике (3). Тогда непараметрическая оценка уравнения разделяющей поверхности со случайными коэффициентами размытости ядерных функций для двуальтернативной задачи распознавания образов запишется в виде

¿2 (х) = П £ СТ> (' ) ^ф

х - х

(6)

- п „

Р = — - оценка априорной вероятности принадлежно-

1 п

сти ситуаций обучающей выборки к классу О], ] = 1,2. В статистике (3) ядерные функции Ф(и) удовлетворяют условиям

Ф(и ) = Ф(-и), 0 < Ф(и )<¥ ,

/ф(и )йи = 1, | и2 Ф(и )йи = 1, (4)

|итФ(и)йи <¥, 0 < т <¥; с - коэффициент размытости ядерных функций, значения которого убывают с ростом объёма п обучающей выборки.

Здесь и далее бесконечные пределы интегрирования опускаются.

Основываясь на результатах работы [2], будем искать рациональный закон распределения коэффициентов размытости с в непараметрической оценке уравнения разделяющей поверхности среди функций вида

Рк (с) = “с', а = т+т " с 6[0, к],

Оптимизация непараметрических решающих функций /¡2 (х), /12 (х) осуществляется соответственно по коэффициенту размытости с и параметру к в режиме «скользящего экзамена» из условия минимума оценки вероятности ошибки распознавания образов.

Асимптотические свойства непараметрической оценки уравнения разделяющей поверхности. Асимптотические свойства статистики (6) определяются следующим утверждением.

Теорема. Пусть плотности вероятности (3) Р1 (х), ] = 1,2 распределения х в классах и первые две их производные ограничены и непрерывны; ядерные функции Ф (и) удовлетворяют условиям нормированно-сти, положительности и симметричности (4); последовательность к(п) = к правой границы области определения плотности вероятности Рк (с) коэффициентов размыто-

сти с ядерных функций таковы, что при п1 ,

п2 ,

® 0 . Тогда непараметричес-

значения к ® 0, а —-------

п1 п2 к

кая оценка /12 (х) уравнения разделяющей поверхности /12 (х) обладает свойствами асимптотической несмещенности и состоятельности.

Доказательство.

1. По определению имеем

М (Л (х)) = М (Р2 (х)- Р (х)) =

где к - правая граница интервала изменения с.

Параметр t плотности вероятности Рк (с) априори не определён.

В соответствии с методикой построения датчиков случайных величин [5] определим процедуру формирова-

Рк (с)йс,

где М - знак математического ожидания.

При выполнении данных преобразований учитывается, что элементы статистических выборок, определяющих каждый класс, являются значениями одной и той же случайной величины t с плотностью вероятности р] (), ] = 1,2. Причем элементы последовательности с',' = 1, п формируются в соответствии с плотностью вероятности Рк (с).

Проведём в интегралах последнего выражения замену переменных (х -1)с-1 = и . Разложим функции pj (х - си), 1 = 1,2 в ряд Тейлора в точке х с учётом свойств ядерной функции (4). Тогда при достаточно больших значениях п1, п2 получим

W1 (к)= М (/12 (х)-/2 (х)) ~

1 к

~ 2 (р{(] (Х) - Рі(2) (Х)) I с2Рк (С) ёС : 2 0

= (і +1) к 2 (р«(х)-р(!| (х)),

і + 3

(7)

где р].2) (х) - вторая производная плотности вероятности Р] (х) по х, 1 = 1,2.

Отсюда, из условия к ® 0 при п1 , п2 следу-

ет свойство асимптотической несмещенности непараметрической статистики /12 (х) (6).

2. Для доказательства состоятельности непараметрической оценки /12 (х) исследуем асимптотические свойства среднеквадратического отклонения

к I \

W2 (к) = / (М/ (/12 (х) - /12 (х))йх) Рк (с) йс . (8) Преобразуем выражение М/ (/12 (х) - /12 (х))2йх = М/ (Р1 (х) - Р1 (х)) йх --2М/ (Р1 (х) - Р1 (х)) (Р2 (х) - Р2 (х)) йх +

+М/ (р2 (х) - Р2 (х)) йх. (9)

Известно [6], что в асимптотике среднеквадратическое отклонение Р] (х) от Р] (х) имеет вид

(2)

\\Р]

Г/ \2 ||ф (м )||

МI (Ру (х)- Р] (х)) ёх ~ пс ] = 1,2,

а асимптотическое выражение смещения

М (Р](х)- р](х))~ у Р(р(х),

||ф(м)||2 =|ф2 (м)ём , ||р<2)(х)|| =|(Р<2>(х)) ёх.

где

Тогда при достаточно больших значения п1, п2 асимптотическое выражение для среднеквадратического отклонения (9) представляется в виде

||ф(м)|| (п + П2) С

М\(/п (х)- /і2 (х))2ёх'

где В Р*2) (х) - Р(2) (х)|| .

С учётом (10) вычислим выражение (8):

^ (к) ~ ||Ф(М)\\2 (П1 + П2 )(І + 1) + ^ (і + 1)

+ — В, (10) 4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В

(11)

нии к* правой границы к плотности вероятности рк (с). Из условия минимума W2 (к) получим

к =

||ф(м)|| (п1 + п2) (і + 5)

п1 п21 В

где с* - оптимальный коэффициент размытости ядерных функций непараметрической оценки уравнения разделяющей поверхности (3) в смысле минимума среднеквадратического отклонения /12 (х) от /12 (х) при п .

Тогда минимальное значение асимптотического выражения среднеквадратического отклонения /12 (х) от /12 (х) запишется в виде

||Ф(и)||2 (п1 + п2 ) (с*)4

W2 (к*) =

і +1

(і4 (і + 5))

1/5

В

і +1

\1/5

^2 (*),

* (і4 (і + 5))

где W2 (с*) - минимальное значение асимптотического выражения среднеквадратического отклонения (х) от

І12 ( х) .

Тогда отношение

Я2 =

W2 (с*) = (і4 (і + 5))

15

Ш2 (к*) t+1 • (12)

Сравним главные дисперсионные составляющие Wз (к ) , W3 (с) статистик /2 (х), (х), которые соот-

ветствуют первым слагаемым выражений (11), (10) при оптимальных значениях к и с. Можно показать, что их отношение совпадает с выражением (12).

По аналогии определим отношение минимальных значений смещений для /12 (х), %Х2 (х), которые определяются выражениями (7) и

^ (с) = у (р(2) (х) - Р1(2) (х)).

После несложных преобразований получим

W1 (с*)

і + 3 і і

п1 п2 кt 4( + 5)

Нетрудно заметить, что при выполнении условий

п, + п2 , ,

-> 0 при п] , 1 = 1,2 непараметри-

к ® 0,

п1 п2 к

ческая оценка /12 (х) сходится в среднеквадратическом к байесовскому уравнению разделяющей поверхности (2), а с учётом свойства её асимптотической несмещённости является состоятельной оценкой.

Сравнение свойств непараметрических оценок уравнения разделяющей поверхности. Для анализа эффективности непараметрических оценок/2 (х) и /12 (х) рассмотрим отношения соответствующих им асимптотических выражений среднеквадратических отклонений при оптимальных значениях параметров к и с . Определим минимальное значение Ж2 (к*) при оптимальном значе-

W1 (к*) і +1 І і + 5,

Полученные отношения Я1 и К2 совпадают с результатами исследований непараметрической оценки плотности вероятности со случайными коэффициентами размытости ядерных функций [2]. Это объясняется тем, что статистика /12 (х) является линейным функционалом непараметрических оценок плотности вероятности Р](х), ] = 1,2.

Предлагаемая непараметрическая оценка уравнения разделяющей поверхности /12 (х) имеет меньшее смещение по сравнению с традиционной непараметрической решающей функцией /12 (х) (см. рисунок). С увеличением параметра і плотности вероятности Рк (с) значения отношений Я1 и Я2 стремятся к 1.

В рамках предложенного подхода появляется возможность снижения значений дисперсии статистики /Х2 (х) и её среднеквадратического отклонения путём построения коллектива непараметрических оценок уравнения разделяющей поверхности между классами:

У12(х ) = -1 (х).

ж

]=1

Его составляющие характеризуются одним и тем же оптимальным параметром к правой границы области определения рк (с), но разными случайными последовательностями коэффициентов размытости ядерных фун-

кции

Зависимости отношений Я1 (кривая 1), Я2, Я3 (кривая 2) от параметра t закона распределения рк (с) коэффициента размытости ядерных функций непараметрической оценки уравнения разделяющей поверхности /12 ( х)

Таким образом, непараметрическая оценка уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов, основанная на рандомизированном методе её оптимизации, обладает свойствами асимптотической несмещённости и состоятельности. По сравнению с традиционной непараметрической решаю-

щей функцией парзеновского типа предлагаемая статистика имеет меньшее смещение, но большее значение среднеквадратического отклонения.

Перспективность данного направления исследований состоит в возможности использования принципов коллективного оценивания для повышения аппроксимаци-онных свойств непараметрических оценок уравнения разделяющей поверхности и создания алгоритмических средств их доверительного оценивания.

Библиографические ссылки

1. Деврой Л., Дьерди Л. Непараметрическое оценивание плотности (L1 -подход). М. : Мир, 1988.

2. Лапко А. В., Лапко В. А. Непараметрические алгоритмы распознавания образов при случайных значениях коэффициентов размытости ядерных функций // Автометрия. 2007. №> 5. С. 47-55.

3. Цыпкин Я. З. Основы теории обучающихся систем. М. : Наука, 1970.

4. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.

5. Бусленко Н. П., Шрейдер Ю. А. Метод статистических испытаний. М. : Гос. изд-во физ.-мат. лит., 1961.

6. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.

A. V Lapko, V A. Lapko

PROPERTIES OF A NONPARAMETRIC ESTIMATION OF THE EQUATION OF A SEPARATING SURFACE IN THE PATTERN RECOGNITION TASK AT CASUAL VALUES OF FUZZINESS COEFFICIENTS OF KERNEL FUNCTIONS

Asymptotic properties of nonparametric estimation of the equation of the separating surface grounded on the randomized method of the estimation optimization are researched. Their correlation with properties of traditional nonparametric decision function of type a Rosenblatt-Parzen is made.

Keywords: nonparametric statistics, pattern recognition, random fuzziness parameters, asymptotic properties.

© Лапко А. В., Лапко В. А., 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.