Вычислительные технологии
Том 14, № 4, 2009
Применение теории канонических моментов
для оценивания плотности случайной величины,
_ <_» >к
распределенной на отрезке
В. И. Денисов, В. С. Тимофеев, В.Ю. ЩЕколдин Новосибирский государственный технический университет, Россия e-mail: [email protected], [email protected], [email protected]
Рассмотрена задача идентификации случайных величин, распределенных на финитных интервалах. Получено разложение функции плотности искомой случайной величины в ряд по ортогональным полиномам на основе теории канонических моментов (в качестве базовой плотности использовано семейство бета-распределений). Предложен алгоритм оценивания функции плотности случайной величины, распределенной на финитном интервале. Представлены результаты применения алгоритма для оценивания ряда распределений.
Ключевые слова: случайная величина, оценивание плотности распределения, канонические моменты, ортогональное разложение, бета-распределение.
Введение
Во многих практических приложениях, связанных со статистической обработкой экспериментальной информации, возникает задача идентификации распределений исследуемых показателей. На сегодня существует широкий спектр методов, позволяющих решать эту задачу при тех или иных условиях, определяемых спецификой предметной постановки задачи, целей исследования, экспериментальных данных и имеющимися в распоряжении исследователя техническими и технологическими средствами.
На практике при проведении исследований, связанных с решением задачи идентификации распределений, используются, как правило, только стандартные способы оценивания распределений, такие как методы типа хи-квадрат Пирсона, максимального правдоподобия, критерии согласия типа критериев Смирнова, Колмогорова, омега-квадрат и т.д., известные еще по работам [1, 2, 3]. Однако анализ современного состояния рассматриваемой проблемы [4, 5, 6, 7] показывает, что наиболее перспективны специализированные методы, основанные на использовании непараметрических статистик и подходов, базирующихся на теоретических достижениях математической статистики. В этой связи следует отметить работы, посвященные применению теории вероятностных мер и ее приложений, таких как планирование оптимальных экспериментов [5], устойчивое оценивание отдельных характеристик распределений [6], устойчивое оценивание регрессионных моделей в целом [4] и др.
* Работа выполнена при финансовой поддержке Министерства образования и науки РФ (код проекта РНП.2.1.2.43).
© ИВТ СО РАН, 2009.
Один из альтернативных подходов к изучению распределений предоставляет теория канонических моментов, предложенная М. Скибински [8] и развитая впоследствии Х. Детте и В.Дж. Стадденом [5]. Особенность данного подхода состоит в том, что для случайных величин, распределенных на финитном интервале, могут быть применены специальные методы, инвариантные относительно преобразований сдвига и масштаба. В частности, это позволяет рассматривать с одной и той же точки зрения целые семейства случайных величин, обладающих общими свойствами, которые могут быть описаны в терминах канонических моментов.
При решении различных технических задач, связанных с измерениями (наблюдениями) значений случайных величин, соответствующих конкретным техническим показателям, естественно рассмотрение конечных (финитных) интервалов значений этих показателей. Это связано с тем, что, с одной стороны, даже если случайная величина теоретически распределена на неограниченном интервале, ее реально наблюдаемые значения будут конечными. С другой стороны, вследствие своей природы, многие технические показатели изначально не могут принимать бесконечно большие или бесконечно малые значения.
Такие ситуации возникают, например, в задачах статистического контроля качества, теории надежности, в исследованиях медицины, биологии, экологии, сельского хозяйства и др. Следовательно, условие финитности интервала распределения случайной величины является естественно вытекающим из условия решаемой задачи, т. е. скорее необходимым условием получения корректных практических результатов. Но нельзя забывать о том, что при решении экстремальных задач (связанных, например, с теорией катастроф) к выбору финитного интервала распределения нужно подходить с известной осторожностью, основываясь на специфике априорной информации об изучаемом техническом объекте.
Во многих исследованиях, связанных со случайными величинами, распределенными на финитных интервалах, используется бета-распределение. Оно удобно в первую очередь тем, что имеет частными случаями такие широко применяемые на практике распределения, как равномерное, распределение арксинуса, Г-распределение Снедекора— Фишера, гамма-распределение, которое является пределом бета-распределения, и др.
С другой стороны, известен метод оценивания функции плотности распределения, основанный на построении ортогонального разложения, частичные суммы которого с той или иной степенью точности приближают искомую плотность. Первые исследования такого рода относятся к работам К.В.Л. Шарлье [9] начала XX века, в которых было предложено разложение Грама—Шарлье для нормальной плотности. Позднее подход был обобщен в [2] для плотностей произвольного вида.
В представляемой статье предлагается методика оценивания плотностей случайных величин, распределенных на отрезках, на основе синтеза теорий канонических моментов и ортогональных разложений плотностей.
1. Постановка задачи
Пусть по результатам эксперимента получены статистические данные {х1, х2, •••}, суть измерения значений некоторой случайной величины распределенной на финитном интервале. Без потери общности [5] будем считать, что областью допустимых значений £ является отрезок [0,1], поскольку для случайных величин, распределенных на произ-
вольном отрезке, скажем, [а,Ь], при помощи аффинного преобразования = —--
Ь — а
реализаций случайной величины можно получить результаты, полностью аналогичные излагаемым ниже.
Задача идентификации распределения случайной величины £ по значениям полной последовательности ее моментов представляет собой известную задачу Хаусдорфа [10]. В силу финитности задача Хаусдорфа разрешима, следовательно, может быть однозначно определена функция плотности / (-).
Основное внимание в работе будет уделено построению ортогонального разложения плотности в ряд по полиномам Якоби, порожденным бета-распределением. При этом коэффициенты искомого разложения будут выражаться в терминах канонических моментов оцениваемой случайной величины
2. Построение ортогонального разложения функции плотности
Пусть ^ — случайная величина, имеющая бета-распределение на отрезке [0,1], плотность которой имеет вид
(-) = в(а + 1,в +1)(1 — -)а-в, (1)
где а, в > —1.
Последовательность полиномов (—)}к>0 — ортогональна относительно плот-
ности (1), если
1
р^'в)(—)р/а,в)(—К,в (ф— = 0, к = I, (2)
где Р(а'в\—) — полином степени к. Полиномы в (2) являются ортогональными полиномами Якоби. Хорошо известно, что на основе системы ортогональных полиномов могут быть построены разложения произвольных функций (удовлетворяющих некоторым условиям регулярности) в ряды. В рассматриваемой задаче нас будут интересовать разложения функций плотности вида
/ (—)= (—)£ тк Р(а'в\—), (3)
к=0
где (—) — базовая плотность разложения.
Согласно [11, 12], определение коэффициентов г к разложения (3) может быть проведено путем интегрирования этого выражения с соответствующим полиномом степени к. Тогда
1
Гк = 1 Р(а'в)(—)/с (Ф—, к = 0,1, 2,... (4)
о
С другой стороны, полиномы Якоби могут быть представлены линейными комбинациями системы степеней {1,—,—2,...}, а именно в виде
к
Ро(а'в)(—) = 1, Р{ка'в)(—) = Т. ак-—-. (5)
-=о
зо
При подстановке (5) в (4) возникают интегралы вида у которые опреде-
ляют начальные моменты шг случайной величины £. Таким образом, коэффициенты (4) будут однозначно определяться последовательностью моментов искомой случайной величины, а именно
к
Го = 1, Гк = ак0 + акгШг, к = 1, 2,... (6)
г=2
Отметим, что на практике вместо соотношения (6) удобнее использовать его аналог для системы ортонормированных полиномов Якоби и, следовательно, для центрированной случайной величины £ = £ — Ш1. В этом случае (6) имеет вид
Го = 1, Г1 = аю, Г2 = а2о + а22^2, к
Гк = ако + ^ акгк = 3,4,..., (7)
г=3
где ^г — центральные моменты случайной величины £.
Заметим, что для перехода к ортонормированным полиномам Якоби {-Рка'в)(х)}к>о необходимо, следуя [13], провести преобразование
р(",0)(г) = / к!(а + в + 2к + 1) Р («,в)(х) П (Х) у Г(а + к + 1)Г(в + к + 1)П (Х)-
При этом соотношение (2) принимает более общий вид:
1
о
где ^кг — символ Кронекера.
Согласно [5] последовательность обычных моментов случайной величины находится во взаимно-однозначном соответствии с последовательностью канонических моментов этой случайной величины, которая задается следующим образом. Если известно значение Шк для искомой случайной величины £ и значения ш— и ш+, определяемые наименьшим и наибольшим возможными значениями этого же момента у всех случайных величин, первые к — 1 предыдущих моментов которых совпадают, то канонический момент порядка к случайной величины £ определяется соотношением
Шк — ш—
Рк = —---
Шк — Шк
На практике вычисление последовательности канонических моментов строго по определению представляется весьма сложной аналитической задачей [5]. Поэтому применяются специальные процедуры, в частности, Q-D-алгоритм, исследованный, например, в [14]. Он основывается на представлении канонических моментов в терминах определителей Ганкеля Нк и Н_к [15]:
Нк + _ Нк _ НкН к—2
Шк — шк = —-, Шк — Шк = =—, рк = —= _ .
Нк—2 Н к—2 Н к Н к—2 + Н к—2Н к
где H -i = H0 = H-i = Hо = 1, а также
H 2k
mo ■ ■ ■ mk
mk
m2k
H 2k+1
mi
mk+i
mk+i
m2k+i
H
2k
H
2k+1
m1 — m2
mk - mk+i
mo — mi
mk — mk+i
mk — mk+i
m2k-i — m2k
mk — mk+i
m2k — m2k+i
Кроме собственно канонических моментов, для решения проблемы Хаусдорфа часто применяются так называемые ассоциированные £-характеристики случайной величины, определяемые как
Со = 1, (1 = Р1, Сй = (1 - , к = 2, 3,...
Эти характеристики имеют более удобное, чем канонические моменты, представление в терминах определителей Ганкеля, а именно
Zk
H k H k-3 H k-iH k-2
Таким образом, коэффициенты разложения по ортогональным полиномам Якоби (4) могут быть представлены не только как функции обычных моментов (6), но и как функции канонических моментов и/или Z-характеристик. Решение этой задачи может быть получено на основе следующей известной теоремы, доказательство которой можно найти в [15].
Теорема (Скибински). Если mn = (mi, ...,mn) £ Int Mn, то
mn
Sn
[n/2]
E
i=0
S2
n—2i
n<j
г^е S
ij
Si)j-i + ZJ-i+iSi-i>J-, 1 < i < j и Siyj = 0, если 0 < j < i, S0j = 1 при j > 0.
В теореме Скибински для пространства моментов M определена величина Int M = {m £ M : mn £ MnV n £ N}, а Mn является n-мерным подпространством пространства M, определяемым первыми n моментами случайной величины.
Возвращаясь к искомому разложению (3), следует отметить, что вычисление всех его членов не имеет практического смысла, поскольку обычно в распоряжении исследователя имеется информация, позволяющая более или менее точно оценить лишь первые несколько моментов рассматриваемой случайной величины. Известно также, что с увеличением порядка момента резко ухудшается качество его оценивания даже для тех методов, которые отличаются высокой степенью устойчивости [7].
С другой стороны, для исследователя важной составляющей является возможность качественной интерпретации получаемых результатов, что достигается вычислением
основных статистических характеристик, определяющих форму распределения. К ним относятся математическое ожидание, дисперсия, коэффициенты асимметрии и эксцесса. Следовательно, с этой точки зрения в разложении (3) имеет смысл рассматривать члены до четвертого порядка включительно.
Представим выражение (3) в виде
(х) = (х) ^ ГкРк (х)
к=0
= (х) (Фп(х) + Д„(х)) = Ф„(х) + Д„(х), (8)
где Фп(х) — п-я частичная сумма ряда (3), а Лп(х) — п-й остаток ряда, Фп(х) = (х)фп(х), Дп(х) = 'Шав(х)Дп(х). Тогда, пренебрегая остатком ряда, будем считать, что /(х) ~ Фп(х), причем далее будем рассматривать случаи, когда п < 4.
Пользуясь теоремой Скибински, определим выражения для начальных моментов случайной величины £:
т = (1, т = <1«1 + (2), тз = СЖС1 + С2)2 + С2С3), т4 = (1((С1 + С2)3 + С2Сз(2(С1 + С2) + Сз + С4)).
Применив известные соотношения, связывающие начальные и центральные моменты [3], получаем
= 0, ^2 = С1С2, ^з = С1С2(С1 - С2 - Cз), ^4 = Ш(С1 - С2 + Сз)2 + С1С2 - СзС4).
Необходимость в этих соотношениях определяется выбором разложения (6) или (7), при этом последнее применяется, если случайная величина центрирована.
Ортогональные полиномы Якоби вычисляются по рекуррентным соотношениям через С-характеристики:
Р<а'в)(х) = х - <1,
^(х) = (х - С2к - С2к+1)рРк"'в)(х) - <2к—1<2к^(х). (9)
Для перехода от (9) к (5) определим коэффициенты акг в терминах £-характеристик:
а10 = -Съ а20 = С1Сз, а22 = 1
5
аз0 = —С1Сз С5, аз2 = - ^^ Сг, азз = 1
г=1
4 5 / 7 \ 7
а40 = Д С2г— 1, а42 = ^ ( Сг ^ ^ ) , ^з = - ^ а44 = 1.
г=1 г=1 \ ^=г+2 / г=1
Подставляя значения этих коэффициентов в (7) и заменяя соответствующие моменты случайной величины их оценками, вычисленными по выборке, получаем оценку искомой функции плотности в виде п-й частичной суммы ряда (7):
/(п)(х) « ^(х)£Гк^°"в)(х), (10)
?(п)(х) _ „„ ГР("'в)/
к=0
где Гк определяются из соотношений (7), а п может принимать значения 2, 3 или 4.
Следует отметить некоторые закономерности, возникающие в соотношениях, связывающих коэффициенты ортогональных полиномов (5) и канонические моменты случайной величины (и соответствующие определители Ганкеля).
Утверждение 1. При г > 1 верны следующие соотношения:
1) «гг = 1;
г Н
2) «г0 =(-1)гП <2*-1 = (-1)г Н2-1;
к=1 Н 2г-2
2г-1
3) аг,г-1 = - С к;
к=1
2г-3 / 2г-1
4) «г,г-2 = Е Кк Е 0
к=1 \ г=к+2
Доказательство п. 1-4 утверждения 1 проводится непосредственными вычислениями коэффициентов ортогональных полиномов. Кроме того, второе равенство п. 2 получается применением свойств определителей Ганкеля [15].
Далее имеет смысл обсудить вопрос о корректном выборе параметров базовой функции бета-распределения /шав(х). В отличие от рассматриваемого в [3, 11] разложения Грама—Шарлье по симметричной нормальной плотности, в данном случае возникает проблема, связанная с тем, что при разных соотношениях параметров а, в плотность распределения имеет существенно различные формы. При а > в распределение обладает положительной асимметрией, а при а < в — отрицательной. Чтобы учесть этот факт, необходимо при построении разложения (2) соотнести свойства плотности (1) и свойства искомой плотности / (х), определяемые по выборке. Для этой цели авторами предлагается следующее
Утверждение 2. Центральные моменты двух случайных величин п1 и п2, распределенных на отрезке [0,1], со взаимно симметричными функциями плотности /1(х) и /2(х) соответственно, удовлетворяют соотношению
Л2' = (-1М".
Доказательство. Условие взаимной симметричности функций /1(х) и /2(х) означает, что верно
/2(Х) = /1(1 - X). (11)
Тогда центральные моменты случайной величины п1 вычисляются по формулам
1
Лк1' = Е(т - Ещ)к = I (х - т^ /1(х)с1х,
0
(1) „ „ „ тг „ „
где т1 — первый начальный момент случайной величины Пь Для случайной величины П2 в силу (11) этот момент будет иметь вид
т^2' = x/2(x)dx = х/1(1 - х)йх = / (1 - х)/1(х)^х =1 - т^1'.
1
1
1
Пользуясь последним соотношением и (11), определим центральные моменты случайной величины П2:
1 1
42) = E(П2 - EV2)k = J(x - m12))kf2(x)dx = J(x - 1 + m(11))fcfi(1 - x)dx.
0 0
Далее проводя замену переменных y = 1 - x, окончательно получим
0 1
^k2) = / (m12) - y)k f2(y)d(1 - y) = (-1)k/ (y - mi2))k f2(y)dy = (-1)k^, 10
что и требовалось доказать. □
Таким образом, для построения разложения (3) на основе бета-распределения достаточно ограничиться рассмотрением случаев положительной асимметрии, поскольку верно
Wa,f3 (x) = We,a(1 - x),
что удовлетворяет условию утверждения 2.
Далее заметим, что для бета-распределения с фиксированными параметрами а и в оценки плотностей по формуле (10) могут существенно отличаться от искомых плотностей с точки зрения критериев согласия, таких как критерий максимального правдоподобия, хи-квадрат Пирсона, критерий Колмогорова и др. Чтобы получить наилучшие результаты оценивания, естественно проводить оптимизацию по параметрам базовой функции плотности wa,e (x). С учетом этого замечания авторами предлагается следующий MEC-алгоритм (Measure Estimation on Canonical moments) оценивания плотности распределения случайной величины, распределенной на финитном интервале.
Шаг 0. Задать i = 0, выбрать начальные значения параметров базовой плотности (ао,во).
Шаг 1. Вычислить начальные mk и центральные ^k моменты случайной величины £.
Шаг 2. Вычислить Z-характеристики в соответствии с Q-D-алгоритмом.
Шаг 3. Вычислить коэффициенты ортогональных полиномов в (5).
Шаг 4. Вычислить оценку искомой функции плотности с помощью разложения (10).
Шаг 5. Оценить качество разложения (10) на основе выбранного критерия согласия. Если получен удовлетворительный результат, то аппроксимация (10) выбирается в качестве оценки искомой функции плотности. В противном случае производится выбор новых значений параметров а^+1,вг+1 = (а^ + Да, Pi + Дв), где (Да, Дв) определяются на основе выбранного метода оптимизации и заданной точности вычислений. Далее полагаем i := i + 1 и переходим на шаг 4.
Отметим, что качество оценок МЕС-алгоритма определяется, с одной стороны, свойствами оценок Z-характеристик, получаемых на основе Q-D-алгоритма (шаг 2), а с другой — выбираемым критерием согласия. Как показано в [5, 14], оценки Z-характеристик Q-D-алгоритма обладают свойствами состоятельности и несмещенности. Если в качестве критерия согласия используется максимум функции правдоподобия или минимум статистики хи-квадрат, то согласно [3] получаемые оценки обладают свойствами асимптотической нормальности и эффективности.
3. Результаты моделирования
Исследование качества аппроксимации (10) проводилось посредством вычислительных экспериментов, в которых оценивались плотности распределения, соответствующие различным случайным величинам, распределенным на отрезке [0,1]. Эти плотности оценивались при помощи МЕС-алгоритма, причем в качестве базовой плотности выбрана плотность бета-распределения.
Качество аппроксимации искомой функции плотности распределения определялось по критерию хи-квадрат Пирсона [3]. Сравнение получаемых результатов проводилось с точки зрения представления (8) при п = 2, п = 3 и п = 4, что соответствовало двум, трем и четырем слагаемым в разложении (10).
Модель 1. В качестве искомой плотности (1) выберем треугольное распределение с положительной асимметрией. На отрезке [0,1] соответствующая плотность имеет вид
/ (ж) = 2 - 2ж.
Смоделируем выборку из этого распределения объемом N = 1000 и воспользуемся МЕС-алгоритмом для оценивания /(ж). Графики полученных оценок функции плотности /(2)(ж), /3)(ж) и /4)(ж) представлены на рисунке (соответственно тонкой, штриховой и жирной линиями).
Из рисунка видно, что уже самая простая аппроксимация /2)(ж) достаточно хорошо описывает распределение исходных данных. В то же время график наглядно показывает, что увеличение числа слагаемых в разложении (10) для рассматриваемой модели приводит к повышению точности оценивания плотности распределения — оценки функции плотности /3)(ж) и /4)(ж) позволяют улучшить качество аппроксимации. Этот эффект скорее всего объясняется тем, что специфика конкретного распределения в разложении (10) учитывается за счет введения поправок к базовой функции, обеспечиваемых соответствующими ортогональными полиномами.
Кроме представленных результатов, заслуживает внимания исследование статистических свойств оценок, получаемых МЕС-алгоритмом. Для решения этого вопроса в условиях рассматриваемой модели было проведено (^ = 100) вычислительных экспериментов. В качестве характеристик, отражающих свойства МЕС-оценок, были выбраны среднее арифметическое, медиана, среднеквадратическое отклонение и коэффициент вариации. Результаты усреднения по N экспериментам представлены в табл. 1.
Результаты оценивания плотности ЫБО-алгоритмом
Таблица 1. Результаты оценивания плотности распределения при п = 2, п = 3 и п = 4
Статистическая Оценки Х22) х2з) Х(4)
характеристика а в
Среднее 0.85 0.34 19.91 11.46 8.93
Медиана 0.85 0.34 18.95 11.48 8.72
Стандартная ошибка 0.10 0.05 7.33 4.69 4.04
Коэффициент вариации 71.13 7.80 36.83 40.81 45.27
В табл. 1 величины Х(2), Х(з) и Х24) представляют собой значения статистик хи-
квадрат Пирсона при оценивании искомой плотности функциями / 2) (ж), /3) (ж) и /4) (ж) соответственно.
Следует отметить, что близость значений среднего и медианы оценок параметров а и в свидетельствует о симметричности соответствующих (эмпирических) распределений этих оценок. Кроме того, стандартная ошибка оценки параметра а практически в два раза больше, чем для в, что объясняется положительной асимметрией рассматриваемого распределения. Для распределения с отрицательной асимметрией картина обратная.
Модель 2. В качестве искомой плотности /(ж) рассмотрим различные варианты бета-распределения (табл.2). Для каждого из этих распределений смоделирована выборка объемом N = 1000 и произведено оценивание функции плотности / (ж) на основе метода максимального правдоподобия (МХ-оценка) и МЕС-алгоритма. Полученные оценки и соответствующие им значения статистик хи-квадрат Пирсона также представлены в табл. 2.
Анализ данных табл. 2 позволяют сделать следующие выводы. Значения критерия хи-квадрат Пирсона для оценок, получаемых МЕС-алгоритмом, при симметричных распределениях типа бета оказываются существенно выше, чем соответствующие значения для оценок метода максимального правдоподобия. При этом с увеличением значений параметров точность оценивания по обоим методам выравнивается. С другой стороны, при отклонении распределений от симметричных явно просматривается улучшение качества оценок, получаемых МЕС-алгоритмом, причем, чем большей асимметрией обладает моделируемое распределение, тем ощутимее становится преимущество МЕС-алгоритма.
Таблица 2. Результаты оценивания плотности случайных величин с различными законами распределения
Искомое Оценки параметров
распреде- бета-распределения ХМ ь х22) Х23) Х24)
ление Д (х) амь Рмь а в
Арксинус -0.48 -0.50 -0.04 -0.62 3.86 69.21 33.80 17.27
Иау[0,1] -0.01 -0.07 -0.49 -0.17 2.93 42.11 10.47 7.95
Бета(1,1) 0.97 0.97 1.65 0.97 3.68 8.45 5.04 6.04
Бета(1,3) 0.87 2.80 1.07 2.69 12.44 10.42 13.53 12.19
Бета(1,6) 1.19 6.40 1.22 6.36 2.45 2.36 2.36 2.39
Бета(6,6) 6.04 6.03 6.07 5.98 11.77 11.54 12.10 12.05
Бета(1,10) 1.00 10.43 0.98 10.13 3.54 3.11 3.11 3.12
Бета(10,10) 10.70 10.75 10.88 10.95 3.78 3.65 3.65 3.65
Анализ значений оценок параметров, получаемых МЕС-алгоритмом, позволяет говорить об их существенном отличии как от значений параметров моделируемых случайных величин, так и от оценок максимального правдоподобия. Этот факт не должен вводить в заблуждение исследователя, поскольку оценки МЕС-алгоритма на самом деле являются оценками базовой функции плотности, а не искомой, которая в общем случае, естественно, может и не принадлежать семейству бета-распределений. Ситуация такого типа рассмотрена ниже в модели 3.
Модель 3. В качестве искомой плотности /(ж) рассмотрим смесь двух плотностей бета-распределения вида
/(ж) = Аи!аь01 (ж) + (1 - А)^а2;в2(ж),
где А £ [0,1] — параметр смеси. В качестве значений параметров смешиваемых плотностей («1, вО и (а2, в2) выбирались такие, которые обеспечивали существенно различные свойства функций (ж) и иа2(ж) соответственно. Такой выбор обусловливается
желанием исследовать качество оценок, получаемых с помощью МЕС-алгоритма, для плотностей, отличных от плотности бета-распределения как по форме, так и по свойствам. Оценки, рассчитанные на основе МЕС-алгоритма и метода максимального правдоподобия, для выборки объемом N = 1000 и соответствующие им значения статистик хи-квадрат Пирсона представлены в табл. 3 и 4.
Данные табл. 3 и 4 позволяют предположить, что применение метода максимального правдоподобия в большинстве случаев оценивания смесей бета-распределений дает менее точные оценки по критерию хи-квадрат. С другой стороны, в дополнение к результатам модели 2 можно сказать, что при оценивании смешиваемых в разных
Таблица 3. Результаты оценивания плотности случайных величин с различными законами распределения ЫБО-алгоритмом
Параметр смеси Л (тД) («2,^2 ) а в Х22) Х23) Х24)
1/3 (1,12) (1, 1) 0.32 0.41 39.11 4.65 5.86
2/3 (1,12) (1, 1) -0.06 1.17 48.34 56.10 67.05
1/3 (1,12) (3, 3) -0.58 0.86 70.24 38.09 30.96
2/3 (1,12) (3, 3) 0.08 1.48 40.24 38.58 45.81
3/4 (2, 3) (0, 0) 1.33 1.33 28.30 47.32 32.71
7/8 (2, 3) (0, 0) 1.85 1.95 30.35 46.47 35.53
Таблица 4. Результаты оценивания плотности случайных величин с различными законами распределения методом максимального правдоподобия
Параметр
смеси Л (а1,в1) (а2,в2) а в Хмх
1/3 (1,12) (1,1) -0.06 0.61 9.89
2/3 (1,12) (1,1) -0.28 1.20 76.43
1/3 (1,12) (3,3) 0.29 1.16 30.40
2/3 (1,12) (3, 3) -0.13 1.52 52.32
3/4 (2, 3) (0, 0) 0.86 1.44 33.28
7/8 (2, 3) (0, 0) 1.46 2.1 40.18
пропорциях симметричных и несимметричных распределений точность, достигаемая МЕС-алгоритмом, оказывается выше даже при наличии относительно небольшой доли одного из распределений смеси. Этот факт позволяет предположить, что при решении задач оценивания зашумленных распределений (с разным уровнем шума) применение МЕС-алгоритма предпочтительнее общеупотребительных оценок максимального правдоподобия.
Заключение
В работе предложен алгоритм оценивания функции плотности случайной величины, распределенной на конечном интервале, на основе теории канонических моментов. Отмечено, что получаемые оценки параметров функции плотности обладают рядом оптимальных статистических свойств. Проведенные вычислительные эксперименты показали, что полученное ортогональное разложение функции плотности в ряд является достаточно гибким инструментом, учитывающим и вид выбранной базовой функции плотности, и структуру заданной выборки. Этот факт дает возможность рекомендовать данный подход не только для решения задач идентификации распределений случайных величин, но и для построения на их основе алгоритмов оценивания параметров регрессионных зависимостей.
Список литературы
[1] Кендалл М., Стьюдрт А. Теория распределений. М.: Наука, 1966. 587 с.
[2] Крамер Г. Математические методы статистики. М.: Мир, 1975. 648 с.
[3] Фишер Р.А. Статистические методы для исследователей. М.: Госстатиздат, 1958. 268 с.
[4] RoussEEuw P.J. Tutorial to robust statistics // J. of Chemometrics. 1991. Vol. 5. P. 1-20.
[5] Dette H., Studden W.J. Theory of Canonical Moments and its Applications in Statistics, Probability and Analysis. N.Y.: John Wiley & Sons Inc., 1997. 330 p.
[6] RoussEuw P.J., Leroy A.M. A robust scale estimator based on the shortest half // Statistica Neerlandica. 1988. Vol. 42, N 2. P. 103-116.
[7] Welling M. Robust higher order statistics // Proc. of the Tenth Intern. Workshop on Artificial Intelligence and Statistics (AISTATS 2005), Barbados, 2005. P. 405-412.
[8] Skibinski M. Extreme n-th moments for distributions on [0,1] and the inverse of a moment space map // J. App. Probab. 1968. Vol. 5. P. 693-701.
[9] Charlier C.V.L. Researches into the Theory of Probability. Lund: Hakon Ohlsson, 1906.
[10] Shohat J.A., Tamarkin J.D. The problems of moments. Providence: American Mathematical Society, 1963.
[11] Пугачев В.С. Теория вероятностей и математическая статистика. М.: Наука, 1979. 496 с.
[12] Szego G. Orthogonal Polynomials. N.Y.: American Mathematical Society, 1959. 500 p.
[13] Суетин П.К. Классические ортогональные многочлены. М.: Физматгиз, 1976. 328 с.
[14] Григорьев Ю.Д., Щеколдин В.Ю. Канонические моменты вероятностных мер // Сб. научных трудов НГТУ. 2000. № 3(27). C. 17-20.
[15] Иохвидов И.С. Ганкелевы и теплицевы матрицы и формы. М.: Наука, 1974. 264 с.
Поступила в редакцию 8 октября 2008 г., в переработанном виде — 14 мая 2009 г.