Научная статья на тему 'Непараметрические алгоритмы распознавания образов в задаче проверки гипотезы о распределениях случайных величин'

Непараметрические алгоритмы распознавания образов в задаче проверки гипотезы о распределениях случайных величин Текст научной статьи по специальности «Математика»

CC BY
252
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА / NONPARAMETRIC STATISTICS / РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / ПРОВЕРКА ГИПОТЕЗ / HYPOTHESIS TESTING / РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН / DISTRIBUTIONS OF RANDOM VARIABLES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

Предлагается методика проверки гипотез о тождественности законов распределения случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов и принципов коллективного оценивания. Приводятся результаты сравнения методики с критерием Колмогорова Смирнова.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonparametric Algorithms of Pattern Recognition in the Problem of Hypothesis Testing on Distributions of Random Variables

A new method of hypothesis testing on identity of distributions of random variables is proposed. The method is based on application of nonparametric algorithms of pattern recognition and collective estimation principles. Results obtained with the method are compared with Kolmogorov Smirnov criterion.

Текст научной работы на тему «Непараметрические алгоритмы распознавания образов в задаче проверки гипотезы о распределениях случайных величин»

список литературы

1. Хайнеман Р. PSpice. Моделирование работы электронных схем: Пер. с нем. М.: DMK Пресс, 2001. 336 с.

2. Норенков И. П. Основы автоматизированного проектирования. М.: Изд-во МГТУ им. Н. Э. Баумана, 2002. 336 с.

3. Численные методы, параллельные вычисления и информационные технологии: Сб. науч. трудов / Под ред. Вл. В. Воеводина и Е. Е. Тыртышникова. М.: Изд-во МГУ им. М. В. Ломоносова, 2008. 320 с.

4. Киммел П. UML. Основы визуального анализа и проектирования: Пер. с англ. М.: НТ Пресс, 2008. 272 с.

5. Open Source Erlang [Электронный ресурс, англ.]: <http://www.erlang.org/>.

6. Armstrong J. Programming Erlang: Software for a Concurrent World. Lewisville, USA: Pragmatic Bookshelf (The Pragmatic Programmers, LLC), 2007. 440 с.

Сведения об авторах

Константин Валериевич Богданов — канд. техн. наук, доцент; Сибирский государственный аэрокосмический университет им. акад. М. Ф. Решетнёва, кафедра информатики и вычислительной техники, Красноярск; E-mail: darkstone@rambler.ru

Анатолий Николаевич Ловчиков — д-р техн. наук, профессор; Сибирский государственный аэрокосмический университет им. акад. М. Ф. Решетнёва, кафедра информатики и вычислительной техники, Красноярск; E-mail: lanlov8@mail.ru

Рекомендована СибГАУ Поступила в редакцию

19.11.10 г.

УДК 681.513

А. В. Лапко, В. А. Лапко

НЕПАРАМЕТРИЧЕСКИЕ АЛГОРИТМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ

В ЗАДАЧЕ ПРОВЕРКИ ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИЯХ СЛУЧАЙНЫХ ВЕЛИЧИН

Предлагается методика проверки гипотез о тождественности законов распределения случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов и принципов коллективного оценивания. Приводятся результаты сравнения методики с критерием Колмогорова — Смирнова.

Ключевые слова: непараметрическая статистика, распознавание образов, проверка гипотез, распределения случайных величин.

Проверка гипотез о распределениях случайных величин является одной ключевых задач математической статистики и имеет важное прикладное значение, например, при сравнении эффективности приборов и систем контроля с данными их испытаний. Для проверки гипотез о распределениях случайных величин широко используется критерий согласия Пирсона, который не зависит от распределений случайных величин и их размерности [1]. Однако методика формирования критерия Пирсона содержит трудноформализуемый этап разбиения области возможных значений случайной величины на многомерные интервалы. Данный этап не отражен в критерии Колмогорова — Смирнова, который позволяет проверять гипотезы о распределениях одномерных случайных величин [2].

В работе [3] показана возможность использования непараметрических алгоритмов распознавания образов, соответствующих критерию максимального правдоподобия,

в задаче проверки статистических гипотез о распределениях случайных величин. Результаты использования предлагаемой методики сопоставимы с критерием Колмогорова — Смирнова для одномерных задач в условиях, когда число элементов сравниваемых последовательностей случайных величин различается незначительно. При неравных объемах случайных последовательностей эффективность предлагаемой методики снижается. Данный факт согласуется с результатами исследований [4], где показано значительное ухудшение аппроксимационных свойств непараметрической оценки уравнения разделяющей поверхности между классами при увеличении степени неравномерности распределения элементов обучающей выборки.

Цель исследования, описываемого в настоящей статье, — развитие данной методики на основе использования принципов коллективного оценивания при синтезе непараметрических алгоритмов распознавания образов.

Модифицированная методика проверки гипотезы о распределениях случайных величин. Пусть X и X2 — генеральные совокупности с произвольными законами распре-

деления. Необходимо по независимым выборкам V = х , 1 = 1, щ , и V = х , 1 = 1, П2 , полученным из данных генеральных совокупностей, проверить либо опровергнуть гипотезу

И0 : р (х ) = Р2 (х)

о тождественности функций распределения.

Известно, что если при решении двухальтернативной задачи распознавания образов вероятность ошибки классификации равна 0,5, то законы распределения случайных величин в области определения классов совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения случайных величин к проверке гипотезы Иа о равенстве статистической оценки вероятности ошибки распознавания образов значению 0,5.

При реализации предлагаемой модифицированной методики необходимо выполнить следующие действия.

1. Пусть число элементов сравниваемых последовательностей случайных величин отличается значительно, например щ > П2. Требуется сформировать совокупность сравниваемых

последовательностей У1 (у) = X, г е Iу, У2 = X, г = 1, п2 , у = 1, Т. Элементы выборки У1 (у) объемом п формируются случайным образом из последовательности V; здесь Iу — множество номеров элементов последовательности V, составляющих последовательность V (У) . Присвоим элементам множества Iу значения П2 +1,1 = 1, П2 .

2. На основе множеств V (у), V определить обучающую выборку V(у) = (X, а(), г = 1, 2п2) для решения задачи распознавания образов, где

[-1 V х е0ь [ 1 V х1 еП2

свидетельствует о принадлежности значения х1 к тому либо иному классу 02 . При этом полагаем, что элементы множеств V (у) и V принадлежат соответственно классам 01, 02 .

3. По выборке V (у) осуществить синтез непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия [5]:

ту (х) :

х еЦ V //2 (х )< 0, х е02 V /2 (х )> 0. При формировании оценки уравнения разделяющей поверхности

/\1 (х) = р2 (х)- Р{ (х ) будем использовать непараметрические оценки

(1)

(2)

Р2 (х) = («2 С)-1 2Ф

г'=1

п2

( ' \ х - х

V С У

Р/ (х) = ("2 С)-1 2 Ф

2"2 (

х - х

.гЛ

г'="2 +1 V

плотностей вероятности распределения х в классах 01, 02 типа Розенблатта — Парзена [6]. Ядерные функции Ф(и) удовлетворяют условиям Ф(и) = Ф(-и), 0 < Ф(и) <»,

| Ф(и")йи = 1, а значения их коэффициентов размытости с убывают с увеличением

-с»

Тогда статистика (2) может быть представлена выражением

2"2

п2.

/\2 (х)=("2 С)-1 )Ф

г=1

( Л х - х

V С У

(3)

Выбор оптимального значения с коэффициента размытости непараметрического решающего правила ту (х) осуществляется согласно условию минимума оценки вероятности

ошибки распознавания образов

1 2п2

Ру (с) = ^2),а(г)),

2 г=1

где индикаторная функция

1( (Л-(Л) I0 V °(')=а(');

здесь а (г) — „решение" алгоритма ту (х) о принадлежности значений х1 к тому либо иному классу О1, О2, полученное в соответствии с правилом (1).

При вычислении ру (с) „решение" а(г) алгоритма (1) определяется в соответствии со знаком статистики

2"2

/У () = ("2 с) 2а(г)Ф

( х' - х ^

г=1 г'^г

т.е. значение х исключается.

4. Проверить гипотезу И0 (у) : ру (с ) = 0,5 в соответствии с критерием Колмогорова —

Смирнова. Для этого сравним его пороговое значение [7]

Da =

- lnlOJ 1

2 J 4n2

с отклонением Пу = 0,5 - ру (с ) ; здесь а — вероятность (риск) отвергнуть правильную гипотезу Иа (у).

Если выполняется соотношение Пу < Па, то гипотеза И0 (у) справедлива, иначе — она отвергается.

5. В соответствии с пп. 2—4 проверить гипотезы И0 (у) на основе последовательностей

случайных величин V (]) , , у = 1, Т. По полученным данным рассчитать оценки вероятностей р = Б/Т, Р = Б¡Т справедливости гипотезы И0 и ее отклонения соответственно. Здесь £ — количество „решений" о справедливости гипотез И0 (у) , у = 1, Т, а Б — количество решений об их отклонении.

6. Проверить достоверность отличия оценок Р1 и Р с использованием критерия Колмогорова — Смирнова. Для этого вычислим его пороговое значение

D*=f infA ■

которое сравним с разностью D = |P (T) - P1 (T)| .

Исходная гипотеза И0 подтверждается, если D > Da и P} > P, в противном случае при Pi < P она отвергается.

Анализ результатов экспериментов. Было проведено сравнение эффективности базовой [3] и модифицированной методик проверки гипотезы о распределениях случайных величин и критерия Колмогорова — Смирнова по данным вычислительных экспериментов. Последовательности V = X, i = 1, ni, и V = X, i = 1, П2, случайных наблюдений формировались

на основе датчиков случайных величин с равномерным X = ег и нормальным

, f 12 , ^ _

X = 0,5 + 0,15 ^еJ - 6 , i = 1, n, законами распределения. Случайные величины е с равно-

J

мерным законом распределения определены на интервале [0,1]. При их формировании использовался стандартный датчик псевдослучайных величин среды визуального программирования „Delphi".

При фиксированных условиях исследования было проведено 100 вычислительных экспериментов. По полученным результатам при априори тождественных законах распределения случайных величин оценивалась вероятность P0 справедливости гипотезы И0. Если законы распределения отличались, оценивалась вероятность P отклонения гипотезы И0. Риск а отвергнуть гипотезу И0 принимался равным 0,05.

При синтезе непараметрического классификатора использовались параболические ядерные функции Епанечникова [8].

Результаты вычислительного эксперимента при различных условиях проверки гипотезы о распределениях представлены на рис. 1 и 2: рис. 1 — зависимости оценок вероятностей P0 справедливости гипотезы И0 от объема экспериментальных данных n = П1 + П2

для "1 = 1,2"2 (а) и "1 = 2"2 (б) при сравнении двух априори тождественных нормальных законов распределения случайных величин; кривая 1 получена при использовании критерия Колмогорова — Смирнова, кривая 2 — базовой методики [3], кривая 3 — модифицированной методики при Т = 10; рис. 2 — зависимости оценок вероятностей р отклонения гипотезы И0 от объема экспериментальных данных " = "1 + "2 для "1 = 2"2 при сравнении равномерного и нормального законов распределения (обозначения кривых соответствуют принятым для рис. 1).

а)

б)

р А

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,95

22

110

198

286

374

462 п

Р0 | 1 '

0,9

0,8

0,7 0,6

\

\

N

30

150

270

390

Рис. 1

р >

2 /

0,85- /

/ /

0,65" / /

' V

0,45- // /

0,25"

7

0 05 г

30

150

270

390

Рис. 2

Представленные графики подтверждают эффективность модифицированной методики.

Заключение. Применение рассмотренной модифицированной методики позволяет расширить условия проверки гипотез о распределениях. Эффективность предложенной методики сопоставима с критерием Колмогорова — Смирнова для одномерных задач. Полученные результаты могут быть обобщены для задачи проверки гипотез о тождественности законов распределения многомерных случайных величин.

3

2

п

п

Исследования, результаты которых представлены в настоящей статье, выполнены в рамках Федеральной целевой программы „Научные и научно-педагогические кадры инновационной России" на 2009—2013 гг., гос. контракт № 02.740.11.0621.

список литературы

1. Пугачев В. С. Теория вероятностей и математическая статистика. М.: Наука, 1979.

2. Смирнов Н. В. Оценка расхождения между кривыми распределения в двух независимых выборках // Бюл. Моск. ун-та. 1930. Т. 2, № 2. С. 3—14.

3. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. № 3(41). С. 8—11.

4. Лапко А. В., Лапко В. А. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двухальтернативной задаче распознавания образов // Автометрия. 2010. Т. 46, № 3. С. 48—53.

5. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические системы классификации. Новосибирск: Наука, 2000.

6. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33, N 3. P. 1065—1076.

7. Шаракшанэ А. С., Железнов И. Г., Ивницкий В. А. Сложные системы. М.: Высш. школа, 1977.

8. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, вып. 1. С. 156—161.

Сведения об авторах

Александр Васильевич Лапко — д-р техн. наук, профессор; Институт вычислительного моделирования

СО РАН, Красноярск; E-mail: lapko@icm.krasn.ru Василий Александрович Лапко — д-р техн. наук, профессор; Сибирский государственный аэрокосмический университет им. акад. М. Ф. Решетнёва, кафедра космических средств и технологий, Красноярск; E-mail: lapko@icm.krasn.ru

Рекомендована СибГАУ Поступила в редакцию

19.11.10 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.