УДК 519.2
А.И. Сайкин, Е.Ю. Журавлёва
МЕТОД УТОЧНЕНИЯ ЭФФЕКТИВНЫХ ОЦЕНОК ГЕНЕРАЛЬНЫХ МОМЕНТОВ РАСПРЕДЕЛЕНИЙ СЛУЧАЙНЫХ ВЕЛИЧИН ПО МАЛЫМ ВЫБОРКАМ
Предлагается метод уточнения эффективных оценок генеральных моментов заданных распределений непрерывных случайных величин по малым выборкам. Метод применим в случаях, когда заранее известны пределы погрешности оценок генеральных моментов, полученных тем или иным способом. Метод зависит от величины разброса значений искомых моментов. Дисперсия оценок предлагаемым способом примерно в два раза меньше дисперсии эффективной оценки.
A.I. Saikin, E.Yu. Zhuravleva EFFECTIVE ESTIMATIONS CLARIFICATION METHOD OF DISTRIBUTING GENERAL MOMENTS OF CASUAL VALUES ON SMALL SAMPLES
The method of clarification of effective estimations of general moments of the set distributing of continuous casual sizes is offered on small samples. A method depends on the size of variation of values of the sought after moments. Dispersion of estimations by the offered method there is less dispersion of effective estimation approximately in two times.
Пусть для некоторой стационарной случайной величины Х известна только малая, порядка 20-30 значений, выборка {x1, x2, ..., xn}. В этом случае эффективная оценка центральных моментов случайной величины получается достаточно грубой. Существующие методы позволяют уточнить эту оценку, через системный подход [1], однако этого не всегда бывает достаточно. В данной статье предлагается способ уточнения любых оценок генеральных моментов по малым выборкам.
Преобразуем выборку {x1, x2, ..., xn} в вариационный ряд и разобьём
получившийся вариационный ряд на два ряда, при условии чётности числа его элементов. Все элементы исходного вариационного ряда разобьём на пары в порядке следования, и из каждой пары большие элементы образуют вариационный ряд 1, а меньшие в паре элементы - вариационный ряд 2. Таким образом, получим два вариационных ряда. Число элементов в этих рядах будет вдвое меньше числа элементов исходной выборки. Выборочные моменты для ряда 1 будут всегда больше одноимённых выборочных моментов ряда 2 [2] для случая, когда все значения положительны. Таким образом, мы получим для выборочных моментов одного порядка три значения: из исходной выборки M0, из первого ряда - М1 и из второго ряда - М2. В принятых ограничениях всегда М1>М0>М2 [3], ранее это свойство было определено как модель монотонности выборочных начальных моментов. Нами было проведено исследование полученных выборочных моментов по отношению их к генеральным моментам заданного распределения. В машинном эксперименте было использовано обобщённое распределение Эрланга, с плотностью:
k-1
Л о ^) =(1 - p) Ё ^)+pk -1Л (t), (1)
2=1
где Ък0 (t) - плотность обобщённого распределения Эрланга; Ъ() - плотность
распределения Эрланга порядка к; р - параметр обобщённого распределения.
Коэффициент вариации V (отношение среднего квадратического отклонения к математическому ожиданию) обобщённого распределения изменялся от 0,1 до 1,0 с шагом
0,1 при нормированном математическом ожидании. Оценивалось наилучшее приближение к генеральному моменту выборочного момента М0 по сравнению с лучшим приближением из пары М1 и М2 для выборок объёмом N от 4 до 128. Для каждого случая производилось 10 000 опытов. Данные сведены в табл. 1. Первое значение в табл. 1 означает число событий на 10 000 опытов, когда выбор из пары М1-М2 по отношению к выбору М0 ближе к генеральному моменту. Второе число в клетках таблицы - число событий, когда выбор М0 оказывался лучшим вариантом.
Таблица 1
Число успехов для выбора из пары М1-М2 по отношению к выбору М0
V N=4 N=8 N=16 N=32 N=64 N=128
п л 7 205 7 527 7 943 8 289 8 750 8 986
0,1 2 795 2 473 2 057 1 711 1 250 1 014
П О 7 202 7 537 7 881 8 328 8 759 8 979
0,2 2 798 2 463 2 119 1 672 1 241 1 021
7 274 7 464 7 989 8 317 8 689 8 951
0,3 2 726 2 536 2 011 1 683 1 311 1 049
П А 7 230 7 588 7 941 8 383 8 666 9 012
0,4 2 770 2 412 2 059 1 617 1 334 988
П 7 216 7 587 8 056 8 383 8 762 9 073
0,5 2 784 2 413 1 944 1 617 1 238 927
П Р. 7 410 7 696 8 026 8 402 8 692 8 960
0,6 2 590 2 304 1 974 1 598 1 308 1 040
П 7 7 377 7 588 8 057 8 441 8 878 9 205
0,7 2 623 2 412 1 943 1 559 1 122 765
п я 7 328 7 646 8 030 8 315 8 765 9 095
0,8 2 672 2 354 1 970 1 685 1 235 905
п о 7 387 7 676 8 175 8 594 9 005 9 404
0,9 2 613 2 324 1 825 1 406 995 596
л п 7 446 7 824 8 329 8 814 9 328 9 751
1,0 2 554 2 176 1 671 1 186 672 249
Как видно из табл. 1, в подавляющем большинстве случаев выбор ближайшего к генеральному моменту значения из пары М1-М2 точнее выбора значения М0, которое является, как известно, эффективной оценкой генерального момента.
Но проблема состоит в том, какое из трёх значений следует выбирать в каждом конкретном случае. Ранее [4] предлагался эвристический поход, который в большинстве случаев, с вероятностью 0,78, позволял делать правильный выбор. Но такой результат не всегда приемлем.
Рассмотрим схему, которая всегда будет улучшать оценки генеральных моментов, при условии, что каким-либо иным способом найденная ранее оценка укладывается в допустимый интервал погрешности.
Имеющуюся выборку разбиваем на подвыборки по два, либо по четыре значения. Затем в каждой подвыборке производим операцию прореживания по методике, описанной выше, и для момента одного порядка получаем три различных значения. Среди этих
значении находим величину с наименьшим отклонением от начального момента заданного порядка МО, полученного по исходному объему выборки. Эти действия осуществляем для всех подвыборок. Оценкой метода является среднее арифметическое значение полученных в каждой подвыборке величин. Эта оценка приближенная, и она будет лучше эффективной только в случае принадлежности МО к некоторому интервалу погрешности, образованному относительно генерального момента М.
Чтобы найти интервал, в котором для метода допустимы отклонения МО от М, мы вместо случайного числа МО, для чистоты эксперимента, будем в качестве величины для сравнения брать некоторую постоянную величину. И, таким образом, определим: для какого диапазона значений момента дисперсия погрешности метода будет меньше дисперсии погрешности эффективной оценки, а сам метод - полезен.
Понятно, что чем ближе эта постоянная величина к значению генерального момента, тем точнее будет оценка и меньше значение дисперсии погрешности. Удаление этой величины от М в какую-либо сторону вызовет ухудшение оценки и, соответственно, увеличение значения дисперсии погрешности (см. рисунок).
0,000
0,000 0,500 1,000 1,500 2,000 2,500
0,000 0,500 1,000
1,500 2,000
м*
б
2,500 3,000 3,500
м
*
а
Нормальное распределение. Объем выборки 8 значений. Зависимость величины погрешности от значения исследуемого момента М*: а - математическое ожидание; б - второй начальный момент
Определим допустимые интервалы на примере равномерного и нормального распределений. Количество вариантов рассматриваемых выборок равно 10 000. Так как эти распределения двухпараметрические, проведем определение допустимого интервала для первого и второго начальных моментов.
В исследовании рассматривались выборки объемом 8, 16 и 32 значения для различных параметров распределения.
В таблицах используются следующие обозначения:
N - объем выборки; Дф. - дисперсия погрешности эффективной оценки; н.г. -нижняя граница интервала применимости метода; ист. - истинное значение, генеральный момент; в. г. - верхняя граница интервала применимости метода.
Дисперсия эффективной оценки для начальных моментов определяется нами по общей хорошо известной формуле:
ЩМ, ]=N [М2,. - М2 ]. (2)
В таблицах приведены данные о границах допустимого интервала, в который должна попасть оценка начального момента по исходному объему выборки, чтобы метод был результативным. Указаны значения дисперсии и второго начального момента погрешности оценки на границах интервала и в точке истинного значения. Так как метод использует выборки очень маленького объема, то величина математического ожидания погрешности создает заметное смещение дисперсии погрешности относительно второго
начального момента. Поэтому в таблицах отображены данные и по дисперсии и по второму начальному моменту погрешности оценки.
Результаты исследования по равномерному закону распределения сведем в табл. 2
и 3.
Таблица 2
Равномерное распределение. Измерение показаний для первого начального момента
N Интервал □эф. Дисперсия погрешности для: 2-й нач. мом. погреш. для:
н.г. в.г. н.г. ист. в.г. н.г. ист. в.г.
а=0, Ь=10. М1=5. Коэффициент вариации равен 1,732
8 3,64 6,36 1.042 0,658 0.456 0,660 1,039 0.456 1,038
16 3,98 6,00 0,521 0,282 0,229 0,289 0,519 0,229 0,520
32 4,27 5,70 0,260 0,133 0,115 0,131 0,258 0,115 0,260
а= -5, Ь=7. М1 = 1. Коэф эфициент вариации равен 0,289
8 -0,62 2,64 1,5 0,943 0,656 0,952 1,485 0,656 1,5
16 -0,22 2,20 0,75 0,405 0,329 0,417 0,745 0,329 0,749
32 0,13 1,84 0,375 0,188 0,165 0,192 0,372 0,165 0,371
а= -5, Ь=19. М2=7. Коэффициент вариации равен 1.01
8 3,75 10,27 6 3,777 2,625 3,804 5,957 2,625 5,988
16 4,55 9,40 3 1,624 1,318 1,667 2,992 1,318 2,994
32 5,25 8,69 1,5 0,752 0,661 0,768 1,495 0,661 1,494
Из данных таблицы можно сделать вывод, что с увеличением значения коэффициента вариации интервал применимости метода сужается. Так, для объема выборки в 32 значения и коэффициента вариации от 1,73 до 0,28 границы интервала изменяются от -14,6^+14% («-» означает разброс влево, «+» - разброс вправо относительно истинного значения) до
-87^+84% от истинного значения. Для 8 значений от -27^+27,2% до -162^+164%. Увеличение объема выборки также приводит к сужению интервала: при 32 значениях интервал сужается почти в 2 раза по сравнению с 8 значениями. Наблюдается четкая симметричность границ интервала относительно истинного значения.
Для второго начального момента наблюдается та же ситуация, что и для первого. Только сужение интервала с увеличением коэффициента вариации выражено слабо. В зависимости от объема выборки интервал в пределах от -18^+26 до -28^+26% для 32 значений и от -42^+42,6 до -48^+40% для 8 значений. Симметричность границ интервала нарушается, различие от 0,6 до 13%.
Таблица 3
Равномерное распределение. Измерение показаний для второго начального момента
N Интервал □эф. Дисперсия погрешности для: 2-й нач. мом. погреш. для:
н.г. в.г. н.г. ист. в.г. н.г. ист. в.г.
а = 0, Ь=10. М2=33,3. Коэффициент вариации равен 1,732
8 19,62 47,50 111,11 66,72 51,002 79,47 111,08 51,766 111,01
16 23,50 44,50 55,55 28,609 25,614 35,74 55,54 26,397 55,54
32 27,00 41,9 27,778 13,360 13,079 16,549 27,281 13,833 27,616
а = -5, Ь=7. М2=14. Коэффициент вариации равен 0,289
8 7,20 19,70 20,40 13,937 10,848 16,434 20,306 10,974 20,209
16 8,7 18,65 10,20 6,159 5,408 7,500 10,177 5,539 10,109
32 9,95 17,65 5,10 2,782 2,648 3,414 5,069 2,777 5,077
а = -5, Ь=19. М2=97. Коэффициент вариации равен 1.01
8 51,3 147,5 1406,4 862,674 690,198 1094,1 1404,8 709,618 1406,3
16 63,8 138,8 703,2 375,030 364,199 501,99 701,66 365,807 702,32
32 75,8 131,5 351,6 176,46 177,609 233,00 349,93 195,387 349,56
Результаты исследования по нормальному закону распределения сведем в табл. 4 и
5.
Результат оценки интервала для математического ожидания (м.о.) нормального распределения дал схожие результаты с оценкой интервала для м.о. равномерного распределения.
В зависимости от дисперсии распределения для выборки в 32 значения разброс оценки от истинной величины возможен в пределах от -16^+34% до -31^+71%, для 8 значений от -40^+55% до -65^+96%. Здесь симметричность границ относительно истинного значения отсутствует, так отличие верхней границы от нижней от 15 до 43%.
Таблица 4
Нормальное распределение. Измерение показаний для первого начального момента
N Интервал Оэф. Дисперсия погрешности для: 2-й нач. мом. погреш. для:
н.г. в.г. н.г. ист. в.г. н.г. ист. в.г.
т=1, ст2 = 0,34
8 0,72 1,28 0,0425 0,025 0,016 0,025 0,041 0,016 0,041
16 0,8 1,2 0,0213 0,010 0,008 0,011 0,02 0,008 0,02
32 0,85 1,15 0,0106 0,005 0,004 0,005 0,01 0,004 0,01
т=1, ст2 = 11
8 -0,63 2,63 1,375 0,810 0,527 0,819 1,361 0,527 1,369
16 -0,2 2,2 0,6875 0,341 0,263 0,354 0,67 0,263 0,68
32 0,13 1,85 0,3438 0,155 0,132 0,158 0,336 0,132 0,337
т=1, ст2 = 1
8 0,51 1,49 0,125 0,074 0,048 0,074 0,123 0,048 0,124
16 0,65 1,35 0,0625 0,031 0,024 0,032 0,059 0,024 0,06
32 0,74 1,25 0,0313 0,014 0,012 0,014 0,03 0,012 0,03
Таким образом, данный метод дает уточненную оценку начальных моментов с дисперсией погрешности, примерно в 2 раза меньшей дисперсии погрешности эффективной оценки (2), если оценка, полученная ранее каким-либо способом, достаточно точна и принадлежит допустимому интервалу. Применимость данного метода всецело определяется величиной интервала разброса значений искомых моментов. Но допустимая величина разброса существенно зависит от объема выборки. Чем меньше выборка, тем больше допустимый интервал. Так, например, для выборки объемом 8 значений интервал лежит в пределах от ±30% до ±160%, что для большинства практических случаев более чем достаточно. Для распределений с большей дисперсией величина интервала увеличивается. Оценка этих интервалов должна делаться из опыта предыдущих исследований.
Таблица 5
Нормальное распределение. Измерение показаний для второго начального момента
N Интервал Оэф. Дисперсия погрешности для: 2-й нач. мом. погреш. для:
н.г. в.г. н.г. ист. в.г. н.г. ист. в.г.
т=1, ст2 = 0,34
8 0,8 2,05 0,1989 0,095 0,077 0,147 0,193 0,081 0,195
16 0,98 1,92 0,0994 0,041 0,038 0,066 0,097 0,043 0,098
32 1,12 1,8 0,0497 0,019 0,020 0,029 0,049 0,024 0,048
т=1, ст2 = 11
8 4,1 23,6 35,75 18,00 15,035 30,62 35,60 16,495 35,65
16 7,2 22 17,87 7,51 7,42 13,93 17,65 8,86 17,63
32 8,3 20,5 8,9375 3,521 3,637 6,275 8,902 5,073 8,818
т=1, ст2 = 1
8 0,92 3,5 0,125 0,353 0,298 0,597 0,747 0,325 0,732
16 1,33 3,28 0,0625 0,150 0,149 0,274 0,373 0,176 0,370
32 1,63 3,05 0,0313 0,072 0,076 0,124 0,185 0,103 0,182
ЛИТЕРАТУРА
1. Максимов Д.Ю. Системный метод точечного оценивания числовых характеристик положения и рассеивания распределений / Д.Ю. Максимов // Заводская лаборатория. Диагностика материалов. 1997. № 1. Т. 65. С. 56-61.
2. Сайкин А.И. Оценка конечного числа генеральных моментов по экспериментальным данным методом выбора по сечениям / А. И. Сайкин, А.А. Пошивалов, Е.Ю. Журавлёва // Проблемы управления в социально-экономических и технических системах: сб. науч. статей. Саратов: Научная книга, 2006. С. 65-70.
3. Сайкин А.И. Методика прогноза генеральных моментов по малым выборкам с учётом свойства монотонности / А.И. Сайкин, С.И. Голушко // Динамика технологических систем: сб. тр. VII Междунар. науч.-техн. конф. Саратов: СГТУ, 2004. С. 150-161.
4. Сайкин А.И. Прогноз N моментов генеральной совокупности гиперболической экстраполяцией по ограниченным выборкам / А.И. Сайкин, С.И. Голушко // Сложные системы. Анализ, моделирование, управление: сб. науч. статей. Саратов: Научная книга, 2005. С. 61-66.
Сайкин Александр Иванович -
кандидат технических наук, доцент кафедры «Программное обеспечение вычислительной техники и автоматизированных систем»
Саратовского государственного технического университета
Журавлева Елена Юрьевна -
аспирант кафедры «Программное обеспечение вычислительной техники и автоматизированных систем»
Саратовского государственного технического университета
Статья поступила в редакцию 22.05.07, принята к опубликованию 03.07.07