Научная статья на тему 'Непараметрический классификатор и критерий Колмогорова в задаче сравнения эмпирической и теоретической функций распределения одномерной случайной величины'

Непараметрический классификатор и критерий Колмогорова в задаче сравнения эмпирической и теоретической функций распределения одномерной случайной величины Текст научной статьи по специальности «Математика»

CC BY
257
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА / РАСПОЗНАВАНИЕ ОБРАЗОВ / ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ / РАСПРЕДЕЛЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН / КРИТЕРИЙ КОЛМОГОРОВА / KOLMOGOROV'S CRITERION / NONPARAMETRIC STATISTICS / PATTERN RECOGNITION / CHECK OF STATISTICAL HYPOTHESES / ALLOCATION OF RANDOM VARIABLES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Струков Иван Иванович, Гусаров Андрей Анатольевич

Рассматривается применение непараметрического алгоритма распознавания образов в задаче сравнения эмпирической и теоретической функций распределения одномерной случайной величины. По результатам вычислительных экспериментов проводится анализ предлагаемой методики и критерия Колмогорова.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Струков Иван Иванович, Гусаров Андрей Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Nonparametric qualifier and Kolmogorovs criterion in the task of matching of empirical and theoretical cumulative distribution functions of an one-dimensional random variable

Application of nonparametric algorithm of pattern recognition in the task of matching of empirical and theoretical cumulative distribution functions of an one-dimensional random variable is considered. By results of computing experiments the analysis of an offered technique and Kolmogorov's criterion is carried out.

Текст научной работы на тему «Непараметрический классификатор и критерий Колмогорова в задаче сравнения эмпирической и теоретической функций распределения одномерной случайной величины»

В заключение необходимо отметить, что научное исследование эффективности реализации какого-либо социального процесса всегда достаточно длительно и плохо поддается статистической обработке, но если опираться на основы теории передачи данных по сети как на упрощенную модель успешности реализации социального процесса, то можно гораздо эффективнее разрабатывать методики достижения поставленной цели как в вопросах коммуникационного взаимодействия, так и в вопросах восприятия любого другого значимого для человека сигнала.

Библиографические ссылки

1. Олифер В. Г., Олифер Н. А. Компьютерные сети. Принципы, технологии, протоколы. СПб. : Питер, 2001.

2. Козлова Ю. Б., Адольф В. А. О методике совершенствования педагогического мастерства // Высш. образование сегодня. 2007. № 9. С. 35-37.

3. Козлова, Ю. Б. Организация совершенствования информационно-педагогического общения // Вестник СибГАУ. 2008. Вып. 4 (21). С. 210-214.

Yu. B. Kozlova

A MODEL FOR INFORMATION COMMUNICATION

In this work the author dwells upon informatics domain knowledge projection on social and pedagogical processes. Besides, the author performs comparative analysis of information signal transmission theory by means of networks and pedagogical influence of information signal during lectures, and identifies potential domain in the global utilization of the information signal formation theory in social systems.

Keywords: data signal, pedagogical process, social systems.

© Козлова Ю. Б., 2011

УДК 519.24

А. В. Лапко, В. А. Лапко, И. И. Струков, А. А. Гусаров

НЕПАРАМЕТРИЧЕСКИЙ КЛАССИФИКАТОР И КРИТЕРИЙ КОЛМОГОРОВА В ЗАДАЧЕ СРАВНЕНИЯ ЭМПИРИЧЕСКОЙ И ТЕОРЕТИЧЕСКОЙ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ ОДНОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Рассматривается применение непараметрического алгоритма распознавания образов в задаче сравнения эмпирической и теоретической функций распределения одномерной случайной величины. По результатам вычислительных экспериментов проводится анализ предлагаемой методики и критерия Колмогорова.

Ключевые слова: непараметрическая статистика, распознавание образов, проверка статистических гипотез, распределение случайных величин, критерий Колмогорова.

Непараметрические алгоритмы распознавания образов, соответствующие критерию максимального правдоподобия, успешно использовались при сравнении эмпирических функций распределения случайных величин [1]. Разработанная на их основе методика позволяет обойти трудно формализуемую проблему разбиения области возможных значений случайной величины на интервалы, которая свойственна критерию согласия Пирсона. Предлагаемая методика при проверке гипотезы о тождественности эмпирических законов распределения одномерных случайных величин имеет результаты, сопоставимые с результатами, полученными с помощью критерия Смирнова [2].

Цель данной работы состоит в развитии методики проверки гипотез о распределениях, основанных на непараметрических алгоритмах распознавания образов, и ее обобщении для решения задачи сравнения эмпирического и теоретического распределения случайных величин.

Критерий Колмогорова. Пусть (х) - известная функция распределения одномерной случайной величины х , предполагаемая непрерывной. Имеется

реализация V =( х' , i = 1, п1) случайной величины,

которая определяет эмпирическое распределение х). Необходимо проверить либо опровергнуть гипотезу

Я0: К2 (х) Ъ (х)

о тождественности законов распределения.

Для проверки статистической гипотезы Н0 на основе критерия Колмогорова оценим по выборке V функцию распределения Ъ (х) случайной величины х:

Ъ (х )=1 ¿1(х - xi),

П i=l

где

1(х - х' ) = |0

О, если х - х' < О; еслих-х' >О.

Анализируя значения эмпирической ^ (х) и теоретической (х) функций распределения, определим максимальное расхождение между ними:

Б12 = тах (х)- ¥г (х) .

В соответствии с критерием Колмогорова [3] сравним полученное максимальное расхождение £>12 с пороговым:

1П 1|1 / (2 "1)

(1)

где а - принятый уровень доверия (риск отвергнуть гипотезу Н0, например, а = 0,05 ).

Если выполняется условие Ц2 < Ба, то гипотеза Н0 справедлива, иначе анализируемые законы распределения различаются.

Непараметрический алгоритм распознавания образов в задаче проверки гипотезы Н0. Известно, что если при решении двуальтернативной задачи распознавания образов вероятность ошибки классификации р равна 0,5, то законы распределения случайных величин в области определения классов совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения случайных величин к проверке гипотезы НО о равенстве вероятности

ошибки распознавания образов значению О,5.

На основании априорной информации осуществим синтез непараметрического распознавания образов, соответствующего критерию максимального правдоподобия [4]:

|х если /12 (х, с)< 0;

т

(х ):■

х е^2, если /12 (х, с)> 0,

(2)

А

1 "1 (х, с)= —£Ф

П1 с и по статистическим

х - х

с

восстанавливаемой V = (х',' = 1, п1). Ядерные функции Ф(и) в статистике (3) удовлетворяют условиям

Ф(и) = Ф(-и), 0<Ф(и)<го, |ф(м ) ёи = 1, | и 2Ф(и )du = 1, |итФ(и)ёи <го, 0 <т ,

а значения их коэффициентов размытости с убывают с ростом количества п1 элементов выборки V . Бесконечные пределы интегрирования в приведенных условиях опускаются.

Выбор оптимального значения с коэффициента размытости непараметрического решающего правила т (х) осуществляется из условия минимума оценки вероятности ошибки распознавания образов

р(с )= " ¿1(), )),

П '=1

где индикаторная функция

(ад)0, если ст«=ст((');

у [1, если ст(')фст('),

где ст (') - «указание» о принадлежности наблюдения х' из выборки V классу ^. При вычислении р(с) «решение» ст(') алгоритма (2) об отнесении наблюдения х' к тому или иному классу определяется в соответствии со знаком статистики

¿2 ( ) = Р2 ( )-^ I Ф| "

( х' - х Л

где /12 (х, с) = р2 (х) - р1 (х, с) - непараметрическая оценка уравнения разделяющей поверхности между классами ^ , ; р2 (х), р1 (х, с) - плотность вероятности распределения х в классе и оценка плотности вероятности х еЦ. При формировании /12 (х, с) используем непараметрическую оценку

плотности вероятности одномерной случайной величины типа Розенблатта-Парзена [5]

(3)

данным

"1 с '=1

' ф'

т. е. ситуация х', которая подается на контроль, исключается из процесса обучения непараметрического алгоритма (2).

В соответствии с критерием Колмогорова проверим гипотезу Н0: р(с) = 0,5 . Для этого сравним его пороговое значение (1) с отклонением Б12 = |0,5-р(с)| при вероятности а отвергнуть правильную гипотезу Н0.

Если выполняется соотношение £>12 < Ба, то гипотеза Н0 справедлива, иначе она отвергается.

Анализ результатов вычислительных экспериментов. Сравнение эффективности предложенной методики проверки гипотезы о распределениях случайных величин и критерия Колмогорова проводилось по данным вычислительных экспериментов. Последовательность случайных наблюдений ^=(х',' = 1, п1) формировалась на основе датчиков случайных величин с равномерным х' =е' и нормальным

равномерным

( 12 Л

х = 0,5 + 0,15

' -6

V 1=

' = 1, п законами распреде-

ления. Случайные величины е с равномерным законом распределения определены на интервале [0,1].

При их формировании использовался стандартный датчик псевдослучайных величин среды визуального программирования Delphi.

Вычислительные эксперименты при фиксированных условиях исследования осуществлялись N = 100 раз. Если сравниваемые законы распределения отличались, то оценивалась вероятность р отклонения гипотезы H0. При априори тождественных законах распределения случайных величин по полученным результатам оценивалась вероятность P2 выполнения гипотезы H0. Риск а отвергнуть гипотезу H0 принимался равным 0,05.

При синтезе непараметрического классификатора m (x) использовались параболические ядерные функции В. А. Епанечникова [6].

Рассмотрим результаты вычислительных экспериментов, когда сравниваемые законы распределения случайных величин разные (рис. 1). При щ > 20 рассматриваемые критерии безошибочно отклоняют гипотезу H0. В интервале малых значений щ < 20 применение сравниваемых критериев приводит к неудовлетворительным результатам, что, возможно, зависит от качества используемого датчика случайных величин.

Если априори законы распределения случайных величин тождественны, то для достаточно широкого интервала изменения объема щ < 200 анализируемой выборки оценки вероятности справедливости гипотезы H0 при использовании критерия Колмогорова и предлагаемой методики сопоставимы (рис. 2). При увеличении щ > 200 наблюдается снижение эффективности исследуемой методики как при сравнении равномерных законов случайных величин (рис. 2, а),

так и, что особенно характерно, при сравнении нормальных законов случайных величин (рис. 2, б).

Л

:/

0,4 -

10 70 130 190 250 310

Рис. 1. Зависимости оценок Р1 вероятностей отклонения гипотезы Н0 от объема п1 выборки V при сравнении равномерного и нормального законов распределения случайных величин. Кривые 1, 2 получены при использовании соответственно критерия Колмогорова и исследуемой методики

Показана возможность использования непараметрического алгоритма распознавания образов, соответствующего критерию максимального правдоподобия, в задаче сравнения эмпирической и теоретической функций распределения случайных величин. Существуют условия, когда использование предлагаемой методики и критерия Колмогорова приводит к сопоставимым результатам. К ним относятся задачи проверки гипотез при разных законах распределения случайных величин; при одинаковых законах распределения, когда объем сравниваемой последовательности принадлежит относительно малым значениям

П < 200.

Перспективность предлагаемой методики заключается в возможности ее обобщения для решения задач проверки гипотез о распределениях многомерных случайных величин с обходом проблемы разбиения области их значений на интервалы.

Рис. 2. Зависимости оценок Р2 вероятностей справедливости гипотезы Н0 от объема п1 выборки У1 в условиях априори одинаковых законах распределения: равномерных (а); нормальных (б). Обозначения кривых соответствуют рис. 1

Библиографические ссылки

1. Лапко А. В., Лапко В. А. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных величин // Автометрия. 2010. Т. 46. № 6. С. 47-53.

2. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. Т. 41. № 3. С. 8-11.

3. Пугачев В. С. Теория вероятностей и математическая статистика. М. : Наука, 1979.

4. Непараметрические системы классификации / А. В. Лапко, В. А. Лапко, М. И. Соколов, С. В. Чен-цов. Новосибирск : Наука, 2000.

5. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33. № 3. P. 1065-1076.

6. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.

A. V. Lapko, V. A. Lapko, I. I. Strukov, А. А. Gusarov

NONPARAMETRIC QUALIFIER AND KOLMOGOROV'S CRITERION IN THE TASK OF MATCHING OF EMPIRICAL AND THEORETICAL CUMULATIVE DISTRIBUTION FUNCTIONS OF AN ONE-DIMENSIONAL RANDOM VARIABLE

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Application of nonparametric algorithm of pattern recognition in the task of matching of empirical and theoretical cumulative distribution functions of an one-dimensional random variable is considered. By results of computing experiments the analysis of an offered technique and Kolmogorov's criterion is carried out.

Keywords: nonparametric statistics, pattern recognition, check of statistical hypotheses, allocation of random variables, Kolmogorov's criterion.

© Лапко А. В., Лапко В. А., Струков И. И., Гусаров А. А., 2011

УДК 681.3

М. А. Масюк

АНАЛИЗ И ВИЗУАЛИЗАЦИЯ ВЗАИМОСВЯЗЕЙ НОРМАТИВНО-ПРАВОВЫХ ДОКУМЕНТОВ

В СПРАВОЧНО-ПРАВОВЫХ СИСТЕМАХ

Рассмотрена сложившаяся в Российской Федерации ситуация, связанная со стремительным ростом количества принимаемых документов законотворческого характера, значительная часть которых носит поправочный характер, т. е. содержит в себе ссылки на другие акты. Анализ множества документов с их взаимосвязями является сложным, но при этом рутинным занятием, которое требует наличия высококвалифицированных специалистов. Автором предложен комплексный подход к совершенствованию справочно-правовых систем и электронных баз данных путем интеграции в них системы, реализующей визуальное отображение взаимосвязей документов и их анализ на соответствие нормам законотворчества.

Ключевые слова: нормативно-правовой документ, анализ, визуализация.

В последние годы в Российской Федерации и ее субъектах наблюдается стремительный рост законотворческой деятельности, который, однако, не свидетельствует о высоком качестве правового регулирования [1]. С развитием законодательной базы существенно возрастает количество производных нормативно-правовых актов: законов, постановлений, указов, значительная часть которых носит поправочный характер, т. е. содержит в себе ссылки на другие документы с описанием вносимых в текст поправок или отменой ранее действующих документов. Такие ссылки одних документов на другие образуют единую связанную структуру - ориентированный граф, который можно рассматривать на множестве документов какой-либо электронной базы данных или справочно-

правовой системы в рамках законодательства Российской Федерации или ее отдельного субъекта. Однако представление общей картины путем анализа текстов является трудоемкой процедурой. Кроме того, существует вероятность возникновения противоречий с формальными правилами и нормами законодательного процесса, закрепленными в виде специальных документов [2; 3].

Автором предлагается комплексный подход к совершенствованию справочно-правовых систем и электронных баз данных путем интеграции в них системы, реализующей визуальное отображение взаимосвязей нормативно-правовых документов и их автоматический анализ на предмет соответствия нормам законотворчества. Рассматриваемый подход облегчает про-

i Надоели баннеры? Вы всегда можете отключить рекламу.