УДК 004.942
ИСПОЛЬЗОВАНИЕ АППРОКСИМАЦИИ РОЗЕНБЛАТТА-ПАРЗЕНА ДЛЯ ВОССТАНОВЛЕНИЯ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ С ОГРАНИЧЕННЫМ ОДНОМОДАЛЬНЫМ ЗАКОНОМ РАСПРЕДЕЛЕНИЯ
Поршнев Сергей Владимирович д.т.н., профессор
Коиосов Александр Сергеевич аспирант
Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Екатеринбург
В статье изложены результаты сравнительного анализа погрешностей аппроксимации функции распределения непрерывной случайной величины с ограниченной областью, вычисляемого методом Парзена-Розенблата и методом мнимых источников, полученные при их сравнении теоретическим законом распределения, и обоснована целесообразность использования в рассматриваемой задаче метода мнимых источников
Ключевые слова: НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, ВОССТАНОВЛЕНИЕ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ, АППРОКСИМАЦИЯ РОЗЕНБЛАТТА-ПАРЗЕНА, ПАРАМЕТР РАЗМЫТОСТИ, МЕТОД МНИМЫХ ИСТОЧНИКОВ
UDC 004.942
USING ROZENBLATT-PARZEN APPROXIMAION FOR RECOVERING A CUMULATIVE DISTRIBUTION FUNCTION OF CONTINUOUS RANDOM VARIABLE WITH A BOUNDED SINGLE-MODE DISTRIBUTION RULE
Porshnev Sergey Vladimirovich Dr.Sc.(Tech.), Prof.
Koposov Alexander Sergeevich Postgraduate student
Ural Federal University named after the first President of Russia B.N. Yeltsin, Ekaterinburg
In this report we have compared an approximation accuracy of distribution function of continuous random variable in a bounded region calculated with Rozenblatt-Parzen method and imaginary sources method. The comparison has been performed with theoretical distribution rule. We have explained the reasonability of using imaginary sources method in case of continuous random variable with single-mode distribution rule
Keywords: NON-PARAMETRIC STATISTICS, DISTRIBUTION FUNCTION RECOVERY, PARZEN-ROZENBLATT APPROXIMATION, FUZZINESS PARAMETER, IMAGINARY SOURCES METHOD
1. Введение
Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является основной задачей математической статистики [1]. Данная задача имеет важное практическое значение, например, при решении задач прочностной надежности элементов и объектов нефтегазового оборудования [2]. Данная задача имеет следующую постановку: по экспериментальной выборке, полученной из
генеральной совокупности значений случайной величины "^г ,/ ^ найти
функцию распределения <у] ^ связанную с плотностью распределения
/(у)
■> ’ интегральным соотношением
F(y)=j/(!;УІ (1)
—оо
Известны два основных подхода к решению этой задачи: параметрический и непараметрический. Параметрический подход предусматривает выбор на основе имеющейся априорной информации вида функции распределения случайной
величины зависящей в общем случае от некоторого набора параметров, и
получении оценок значений этих параметров по имеющейся выборке данных. При этом искомые оценки значений параметров должны обеспечивать максимальную
близость теоретической функции распределения Ну) и эмпирической функций распределения
1 N
(2)
где функция Хэвисайда
[0, при <0,
в соответствие с выбранной мерой близости, зависящей, вообще говоря, от вида распределения [3].
Существование решения обсуждаемой задачи обеспечивает центральная
теорема математической статистики, согласно которой с ростом объема выборки N
В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических распределений в виде некоторых функционалов, независящих от вида неизвестного априорного распределения [6]. Для восстановления неизвестной функции распределения в непараметрической статистике известен ряд методов и алгоритмов [6]: метод гистограмм, «гребенка», метод ближайших соседей, метод разложения по базисным функциям, аппроксимация Розенблатта-Парзена и ряд других.
Работоспособность методов непараметрической статистики и целесообразность их применения при анализе экспериментальных данных подтверждается результатами, полученными различными исследователями (см., например, список литературы к разделу «Введение» в [6]). Отметим, что аппроксимация Розенблатта-Парзена, как показано в [2], что оказывается эффективной в задаче оценки долговечности нефте- и газопроводов на основе анализа накопленной статистической информации. При этом оказывается, что распределение экспериментальных данных, представляющих собой выборку из генеральной совокупности случайной величины, закон распределения которой не может быть описан ни одним из известных теоретических законов.
Напомним, следуя [6], что обсуждаемый метод восстановления плотности распределения экспериментальной выборки основан на предположении о том, что
функция Му)
с вероятностью, равной единице, равномерно приближается к
X
функция плотности распределения оценивается локально в каждой точке ‘ с
X
помощью элементов обучающей выборки из некоторой окрестности >. При этом общая функция вероятности Ну) есть сумма локальных функций
1 (3)
{ Н )
где ^ ~(у Х‘)!^ - ядерная функция, удовлетворяющая следующим условиям:
а) К(1) _ монотонно неубывающая функция, область значений которой принадлежит интервалу
б) ^(0 _ ^ ^(0 - функция, симметричная относительно 0;
\ Иы —у 0 N —>■ со-
в) м при ’
^ - параметр «размытости», определяющий гладкость получаемой оценки. Соответственно, плотности вероятности вычисляется по формуле
N С ,, \
где
Цу)=^;К(у)-
Оценки плотности вероятности (4) предложены Розенблаттом [7] и исследованы Парзеном [8]. На практике наиболее часто в качестве ядерных
функций используются функции, представленные в таблице 1 [2].
Таблица 1. Ядерные функции, наиболее часто используемые на практике
№ Ядро Формула
1 Нормальное 1 --щ)= !—е 2 уПж
2 Лапласа ВД = -е^ 2
3 Фишера т=^~ 2л Г-11 г 2 J Г — <71 2
4 Коши т=- 71 ' 1 ч1+?2 \
5 Логистическое к(,) = < е л' (! + *-)
6 Епанечникова з- но=—^ ц/Г* К*
7 Равномерное т=\, |<|^1
8 Треугольное А:(?) = 1 —1^|, <1
9 Квадратичное Ч1"'2) м т= , |'И
Оптимальные значения ядерной функции и параметра И находятся из условия достижения функционалом
3 = 11п& (?)•/(? )й^ (5)
максимального значения, которое, как очевидно, выполняется при
т=т
При анализе экспериментальных данных, представляющих собой некоторую
{х,},/ = 1,7У, г~п
дискретную случайную последовательность <■ ’> в [2\ рекомендовано
находить оптимальное значения параметра «размытости» в два этапа. На первом этапе для каждой из ядерных функций, представленных в табл. 1, находить
А* т = 1,9
значения
’ из условия
к
а^тах
1 "
—Уіп
N-1 ( у — Г ^
•/V ■ «/V •
т
ф(й”)=Й1п
(лг-і)-й,
кпіу)
М-1
■У к
/—і I
(6)
и далее выбирать ту ядерную функцию п"' ^ ^, для которой значение функции
1
(Л?-!)-/,
м-1 ( г — г ^
V У
(V)
При этом качество аппроксимации функции распределения в
рассматриваемом методе оказывается зависящим от вида ядерной функции значения параметра размытости ^ [6], что иллюстрирует рис. 1.
и
Рисунок 1 - Плотность распределения случайной последовательности
х.,/ 1,100 ^ сгенерИр0ванн0й в соответствие с нормальным законом распределения
#(1,4) , ~ ~ 0 Н = к*
v >: 1 - гистограмма случайной последовательности; 2 - нормальное ядро, п
* 77*77*7*
, где ^ пока не определено; 3 - нормальное ядро, к 1 ~ ^ , где ^ пока не
/ /*/ / * / *
определено; 4 - нормальное ядро, > ^ < ^ , где ^ пока не определено.
Отметим, что формально метод Розенблатта-Парзена позволяет, построить аппроксимацию функции распределения любой конечной случайной последовательности, которая при условии правильного выбора параметра И,
оказывается достаточно гладкой (см. [6]). При ^ оценка (3) является
непараметрической и асимптотически оптимальной оценкой функции распределения в классе непрерывных функций [6]. Однако на практике случайные
последовательности "^г,/ “ для которых ищется функция распределения, имеют
конечную длину. В этой ситуации метод Розенблатта-Парзена, вообще говоря, не гарантирует близости аппроксимирующей функции, найденной с его помощью, и истинной функции распределения. В этой связи представляет практический интерес провести анализ точности восстановления методом Розенблатта-Парзена функции распределения случайных последовательностей конечной длины, теоретический закон распределения которых известен.
В статье изложены результаты анализа точности восстановления функции распределения случайной величины с ограниченной областью рассеяния, основные свойства которой описаны в [3], методом Розенблатта-Парзена [7,8] и методом мнимых источников, в котором параметры аппроксимирующей функции находятся с помощью генетических алгоритмов [9].
2. Методика исследования
Для анализа точности восстановления функции распределения случайной величины с ограниченной областью выбранными методами мы использовали методику, реализующуюся следующей последовательностью действий.
1. В соответствие с заданным законом распределения случайной величины с ограниченной областью рассеяния
X
•^шш
o,vJ)=A
где:
оо оо
Ф(х;х0,а,1)+ Хф1+1 (х;х0,с,1 )+ fao’VJ )>
я=0 и=1
х() - положение центра рассеяния в системе координат с началом в центре
\х ■ ,х 1 отрезка L min’ maxJ,
а - CKO случайного процесса при отсутствии ограничения,
J — ^
max min _ размаха области рассеяния,
А - нормировочный коэффициент, определяемый из условия:
здесь
Х2п+1>Х2п
Лшах
J fteor(^xo,a,/)^ = i,
^min
ф(х;х0,ст,/) = exp —(х-х0)2 jlc52 ФІ(х;х0,о,І) = exp -(х-хі+1)2/2а
Ф*и(х;х0,а,/) = ехр -(х-х*п^/2с2
вычисляются в по формулам:
ХІ„ =±4пІ+х0, х*лн1=±(4и + 2)-х0,
генерировались методом обратного преобразования (см., например, [2]) случайные
{*,}, , = 1JV
последовательности
W-
2. Далее для каждой последовательности <^ находились эмпирические оценки функций распределения и плотностей распределения методом
Розенблатта-Парзена (^ и ^ , соответственно) и методом мнимых
F (х) f (х)
источников ( MSK' ' и Rr v ', соответственно), которые сравнивались далее с
известными теоретическими функциями распределения ^Теог{Х) и ПЛОТНОСТЬЮ f (х)
распределения J teor v '.
Для реализации описанной выше методики в пакете MATLAB было создано соответствующее программное обеспечение.
3. Анализ качества аппроксимации функции распределения случайной последовательности методом Парзена-Розенблатта
Рассмотрим типичные результаты, полученные для следующих параметров блуждания:
- количество элементов в случайной последовательности ^ ~
- размер области рассеяния [“^,5],
- координаты центра распределения М-- [-5,-2.5,0,2.5,5],
- СКО случайной величины а - [1 >3,5,7,10], представленные на рис. 2, 3.
б)
Научный журнал КубГАУ, №92(08), 2013 года
а)
0.9
о.а 0.7 0.6 0.5 0.4 0.3 0.2 0.1 о
-5 -4 -3 -2 -1 0 1 2 3 4 5
0.14 0.12 0.1 0.08 0.06 0.04 0.02
-5-4-3-2-1012345
Рис. 2. Результаты аппроксимации плотности функции распределения случайной
последовательности : а) ^ — — ^ ; б)
ц = 2.5,. о- = 1, в) ц = 5,а = 1;1_
г (гУ Г М
Jteor\ )•> 2--/кр\ /’ ядерная функция № 5, №2, №1 (см. табл. 1), соответственно; 3-
/дж (•*)
б)
в)
Рис. 3. Результаты аппроксимации плотности распределения случайной
последовательности : а) ^ — 0,С> — 5
;6) ц = 2.5,а = 5.в) Ц = 5,а = 5.1_
./геоД-'О’ 2- ядерная функция
№3, №1, №3 (см. табл. 1), соответственно; 3
_ /л ж (*)
В качестве количественной меры отличия эмпирических функций
р (х) р1 (х) р1
распределения № ' от теоретической функции распределения Теог
было использовано среднеквадратическое отклонение остатков моделей
теоретической плотности распределения:
1 N 2
~ ТТ 7^(^Теог (^7 ) _ ^КР (^г )) ’
-/V — 1 г=1
1 N 2
^1МЗ = ТТ 7^(1'гсог (Х1 ) _ (Х1 )) •
— I г=1
представленные в табл. 2, табл. 3.
Таблица 2. Погрешность оценки функции распределения методом
Розенблатта-Парзена
Метод Парзена-Розенблатта Центр распределения, ^
-5 -2,5 0 2,5 5
СКО, а 1 1,432 10- 3 3,531-10- 5 1,389-10- 4 7,225-10- 5 1,428-10- 3
3 2,274-10- 4 2,608-10- 4 8,821-10- 5 1,752-10- 4 5,532-10- 4
5 2,792-10- 4 1,855-10- 4 1,638-10- 4 1,616-ю- 4 2,011-10- 4
7 2,004-10- 4 1,440-10- 4 1,298-10- 4 1,093-10- 4 1,518-10- 4
10 1,431-10- 4 1,316-ю- 4 1,379-10- 4 1,727-10- 4 1,470-10- 4
Таблица 3. Погрешность оценки функции распределения методом мнимых
источников
Метод мнимых источников Центр распределения, ^
-5 -2,5 0 2,5 5
СКО, а 1 6,412-10- 4 3,423-10- 5 1,498-10- 5 7,267-10- 5 1,125-10- 4
3 7,934-10- 5 2,924-10- 5 2,274-10- 5 2,917-10- 5 9,254-10- 5
5 2,315-10- 5 3,184-10- 5 4,368-10- 5 6,254-10- 5 4,132-10- 5
7 3,157-10- 5 8,193-10- 5 2,141-10- 5 5,432-10- 5 6,778-10- 5
10 5,682-10- 5 6,647-10- 5 2,798-10- 5 1,782-10- 5 1,167-10- 5
Из таблиц 2 и 3 видно, что аппроксимация функции распределения непрерывной случайной величины в ограниченной области рассеяния методом мнимых источников для большинства рассмотренных значений параметров оказывается более точной, чем аппроксимация Розенблатта-Парзена. Данный результат, с нашей точки зрения, объясняется следующим: аппроксимация Розенблатта-Парзена при правильном выборе значения параметра размытости Н гарантирует получение гладких оценок функции распределения. Однако данный метод является, в известной мере, формальным, поскольку выбор ядерной функции оказывается независящим от математической модели изучаемого процесса. В то время как в методе мнимых источников математическая модель распределения является решением уравнения случайных блужданий броуновской частицы в ограниченной области рассеяния, а потому более адаптированным к особенностям
- {х }
распределения изучаемых случайных последовательностей <■ 1 > .
Также было проведено сравнение времен, затрачиваемых для вычисления аппроксимаций функций распределения случайных последовательностей каждым из методов. Оказалось, что в методе мнимых источников программной реализации генетического алгоритма, использующегося для поиска параметров распределения (1), одна итерация выполняется «5 с. При этом параметры распределения, обеспечивающие минимальное значение целевой функции генетического алгоритма, находится за 4 итерации. Таким образом, общее время нахождения решения методом мнимых источников составляет «20 с. В методе Розенблатта-Парзена наиболее затратной по времени оказывается операция нахождения максимума информационного функционала (6) для ядер с неограниченной областью определения № 1, 2, 4, 5. Здесь для нахождения значения
^т В соответствие С (6) приходится ВЫЧИСЛЯТЬ значения функции в
соответствие с (7) для нескольких значений ^т’ т.е. для каждого значения
приходится вычислять в (7) двойную сумму по индексам / и /, поэтому в зависимости от типа ядра затрачивается от 140 до 200 с (при условии удачного
7 *
выбора интервала поиска т (см. подробнее [10]). Для ограниченных ядер в [10] получены простые с вычислительной точки зрения аналитические выражения для вычисления оптимального значения параметра размытости искомого значения
7 *
параметра размытости т, поэтому время вычисления является незначительным. Таким образом, общее время нахождения аппроксимации функции распределения
Ы
случайной последовательности <■ 1 > методом Розенблатта-Парзена составляет «640-800 секунд. Таким образом, в рассматриваемой задаче временные затраты при использовании метода мнимых источников оказывают в «32-40 раз меньше, чем у метода Парзена-Розенблата.
4. Выводы
Проведено сравнение точности аппроксимации функции распределения непрерывной случайной величины с ограниченной областью, вычисляемого методом Парзена-Розенблата и методом мнимых источников, с теоретическим законом распределения. Результаты сравнения показывают, что в рассматриваемой задаче метод мнимых источников, основанный на физической модели изучаемого процесса, оказывается предпочтительнее как с точностной, так и вычислительной точек зрения.
Список использованной литературы
1. Крамер Г. Математические методы статистики. -М.: Мир, 1975. -648 с.
2. Сызранцев В.Н. Расчет прочностной надежности изделий на основе методов непараметрической статистики / В.Н. Сызранцев, Я.П. Невелев, С.Л. Голофаст//- Новосибирск:
Наука, 2008. - 218 с.
3. Поршнев С.В. Теория и алгоритмы аппроксимации эмпирических зависимостей и распределений / Е. В. Овечкина, В.Е. Каплан // -Екатеринбург: УрО РАН, 2006. -166 с.
4. Поршнев С.В. О выборе математических моделей распределений ограниченных случайных последовательностей / С.В. Поршнев, А.С. Колосов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2012. - №10(84). - Режим доступа: http://ej.kubagro.ru/2012/10/pdf/53.pdf, 1,000 у.п.л.
5. Поршнев С.В., Колосов А.С. Аналитическое исследование особенностей случайных блужданий броуновской частицы в ограниченной области рассеяния // Фундаментальные исследования. - 2013. - № 4 (часть 1). - стр. 57-64;
6. Симахин В.А. Робастные непараметрические оценки: адаптивные оценки взвешенного максимального правдоподобия в условиях статистической априорной неопределенности/ В.А. Симахин//-Saarbrucken, Germany: LAPLAMBERTAcademicPublishingGmbH&Co. KG, 2011. -292 с.
7. Rozenblatt M. Remarks on some nonparametric estimates of density function// Ann. Math. Statist., 1956, 27, 832-835 p.
8. Parzen E. On estimation of probability density function and mode // Ann. Math. Statist., 33, 3, 162, 1065-1076 p.
9. Гладков JI.A., Курейчик В.В., Курейчик В.М. Генетические алгоритмы / Под ред. В.М. Курейчика. - 2-е изд., исправл. и доп. - М.: ФИЗМАТЛИТ, 2010. - 368 с.
10. Поршнев С.В., Колосов А.С. Об особенностях численных оценок параметра размытости плотностей распределений случайных последовательностей в аппроксимации Розенблатта-Парзена // В мире научных открытий. - 2013. - В печати
References
1. Kramer G. Matematicheskie metody statistiki. -M.: Mir, 1975. -648 s.
2. Syzrancev V.N. Raschet prochnostnoj nadezhnosti izdelij na osnove metodov neparametricheskoi statistiki / V.N. Syzrancev, Ja.P. Nevelev, S.L. Golofast lh- Novosibirsk: Nauka, 2008.-218 s.
3. Porshnev S.V. Teorija i algoritmy approksimacii jempiricheskih zavisimostej i raspredelenij / E. V. Ovechkina, V.E. Kaplan // -Ekaterinburg: UrO RAN, 2006. -166 s.
4. Porshnev S.V. O vybore matematicheskih modelej raspredelenij ogranichennyh sluchajnyh
posledovatel'nostej / S.V. Porshnev, A.S. Koposov // Politematicheskij setevoj jelektronnyj nauchnyj zhumal Kubanskogo gosudarstvennogo agramogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs], - Krasnodar: KubGAU, 2012. - №10(84). - Rezhim dostupa:
http://ej.kubagro.ru/2012/10/pdf/53.pdf, 1,000 u.p.l.
5. Porshnev S.V., Koposov A.S. Analiticheskoe issledovanie osobennostej sluchajnyh bluzhdanii brounovskoi chasticy v ogranichennoi oblasti rasseianiia // Fundamental'nye issledovaniia. -2013. - № 4 (chast' 1). - str. 57-64;
6. Simahin V.A. Robastnye neparametricheskie ocenki: adaptivnye ocenki vzveshennogo maksimal'nogo pravdopodobija v uslovijah statisticheskoj apriomoj neopredelennosti/ V.A. Simahin// -Saarbmcken, Germany: LAPLAMBERTAcademicPublishingGmbH&Co. KG, 2011. -292 s.
7. Rozenblatt M. Remarks on some nonparametric estimates of density function// Ann. Math. Statist., 1956, 27, 832-835 p.
8. Parzen E. On estimation of probability density function and mode // Ann. Math. Statist., 33, 3, 162, 1065-1076 p.
9. Gladkov L.A., Kurejchik V.V., Kurejchik V.M. Geneticheskie algoritmy / Pod red. V.M. Kurejchika. - 2-e izd., ispravl. i dop. - M.: FIZMATLIT, 2010. - 368 s.
10. Porshnev S.V., Koposov A.S. Ob osobennostjah chislennyh ocenok parametra razmytosti plotnostej raspredelenij sluchajnyh posledovatel'nostej v approksimacii Rozenblatta-Parzena // V mire nauchnyh otkrytij. - 2013. - V pechati