Вычислительные технологии
Том 3, № 2, 1998
ОБ ОЦЕНИВАНИИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ ПО ИНТЕРВАЛЬНЫМ НАБЛЮДЕНИЯМ
Б. Ю. ЛЕМЕШКО, С. Н. ПОСТОВАЛОВ Новосибирский государственный технический университет, Россия e-mail: [email protected], [email protected]
The questions of distributions’ parameters interval estimation on interval data are considered. The procedures of construction of interval estimates generated by point L-estmation, M-estimation and MD-estimation are proposed. The numerical example is presented.
1. Введение
Интервальную выборку [1] случайной величины X
Хп = {[а*, Ь*] | а* < х* < Ь*, а* е К, Ь* е К, г = 1,..., п}, (1)
в которой наблюдения хг заданы интервалами [а*, Ьг], можно рассматривать как п-мерный параллелепипед в пространстве Кп. Тогда выборку, рассматриваемую в классической статистике
Хп = {х1,Х2,... ,Хп}, (2)
можно интерпретировать как точку, принадлежащую этому параллелепипеду. Частным случаем выборки (1), в которой наблюдались значения хг, фиксируемые с точностью до интервала [аг, Ьг], так, что аг < хг < Ьг, г = 1,... , п, будем называть точечной и обозначать
Хп е Хп.
Пусть все наблюдения независимы и подчинены одному и тому же распределению ^(х,0). По интервальной выборке (1) требуется найти оценку параметра
в = 0(Хп). (3)
По точечной выборке возможно определение как точечных, так и интервальных оценок
параметров. По интервальной выборке также возможно точечное и интервальное оцени-
вание.
© Б.Ю. Лемешко, С.Н. Постовалов, 1998.
2. Точечное оценивание
Если нет никакой априорной информации о распределении ошибок измерений, то известны следующие результаты:
— при оценивании по выборке (1) параметра формы гамма-распределения при близких к нулю значениях е = тах(Ьг-а*) > 0 дисперсия оценки состоит из двух слагаемых, первое
г
из которых зависит от е и не зависит от объема выборки, а второе стремится к нулю при
— при проверке согласия фиксированного распределения с интервальной выборкой
(1) по критерию Колмогорова, с точки зрения “крайнего пессимиста”, можно отвергнуть любую простую гипотезу при увеличении количества наблюдений [1].
Эти два факта говорят о том, что при точечном оценивании по интервальной выборке могут нарушаться статистические свойства оценок, такие, например, как несмещенность и эффективность, и теряет смысл бесконечное увеличение объема выборки, поскольку статистическая погрешность оценки оказывается существенно меньше погрешности, определяемой погрешностью фиксации наблюдений.
Интервальный характер выборки определяет границы для любой точечной оценки: интервал, которому она принадлежит и который определяется погрешностью наблюдений и методом оценивания. Любая точечная оценка, полученная по интервальной выборке, определяет лишь точку, принадлежащую этому интервалу, но не содержит информации о самом интервале.
3. Интервальное оценивание
Введем понятие нестатистической интервальной оценки.
Определение. Пусть имеется некоторая точечная оценка параметра по точечной выборке в* = в* (Хп). Интервальной оценкой параметра в, порожденной точечной оценкой в*(Хп), по интервальной выборке будем называть интервал [в*, в*], границы которого определяются из соотношений
Приведем несколько простых примеров нахождения интервальной оценки параметра по интервальной выборке.
Пример 1. Оценивание параметра сдвига нормального распределения с плотностью
в* = тт в*(Хп), в* = тах в*(Хп).
(4)
f (х,^) = /___е 2(х . Оценка максимального правдоподобия параметра ^ имеет вид
у2п
г=1
Тогда по (4)
Пример 2. Оценивание параметра масштаба нормального распределения с плотно-
1 _ х2
стью /(ж, А) = —== е 2а2. Оценка максимального правдоподобия параметра А имеет вид А у 2п
А* = - V
п / ^
1 ^
1 2 Ж,- .
П . 1
г=1
Тогда по (4)
- П 1 I П П
А* = шЧ, _ X! ж2 = _ \ ^ ь2/ь^<° + X! а2/“;
^ёКА] п п ^ ^
г=1 ^ г=1 г=1
__ 1 п
А* = шах — N ж2 =
^ёКА] п
г=1
1 п п п
= П | ^ а2/Ь^<° + X! ^^° + X! шах{а2, Ь2}/«;<°<Ь;
I .=1 .=1 .=1
где /а = 1, если условие А выполнено, и /а = 0 в противном случае.
В этих двух примерах интервальные оценки имеют аналитически простой вид, но в большинстве случаев определение интервальной оценки в явном виде невозможно. Рассмотрим общие подходы к определению интервальных оценок, порожденных классами точечных Ь-, - и Д-оценок.
3.1. Интервальные Ь-оценки
Ь-оценки формируются как линейные комбинации порядковых статистик:
пп
в* = ^2 с»Ж(ф = 1, (5)
.=1 .=1
где Ж(.) — г-я порядковая статистика. Чтобы найти интервальную оценку, порожденную оценкой вида (5), нужно определить интервалы, в границах которых могут находиться порядковые статистики.
Воспользуемся полученными в [1] границами для эмпирической функции распределения, построенной по выборке (1):
^П(ж) < ^П(ж) < ^П(ж). (6)
Каждый член вариационного ряда
Ж(1) < Ж(2) < ■ ■ ■ < Ж(п) (7)
известен с точностью до интервала
Ж(.) < Ж(.) < ж^, (8)
где Ж(.) и Ж(.) можно определить из (6), так как между вариационным рядом и эмпириче-
ской функцией распределения существует взаимно-однозначное соответствие (см. рис. 1) и ^п(жф) = г/п:
ж(.) = ^{у 1 у = ^П;1^^^ ж^ = ^ир{у 1 у = ^П-1 (г/п)}- (9)
г_
п
Х
Х(г)
Х(г)
Рис. 1. Определение границ і-го члена вариационного ряда.
Подставим (5) в (4) и, учитывая (7) - (9), получим две задачи линейного программирования размерности п, решение которых даст нам верхнюю и нижнюю границы Ь-оценки.
Пример 3. К классу Ь-оценок относится часто используемая для оценивания параметра положения выборочная медиана:
ж((п+1)/2), п — нечетное,
т = < 1
2 (ж(п/2) + ж(п/2+1^ , п — четное.
Соответствующая интервальная оценка будет иметь вид
т
Х((п+1)/2), П — НЄЧЄТНОЄ,
1
Х(п/2) + Х(п/2+1) ) , П — ЧЄТНОЄ
Х((п+1)/2), П — НЄЧЄТНОЄ,
т = < і
2 (Х(П/І!) I ^[П/
(х(п/2) + Х(п/2+1)) , П — ЧЄТНОЄ.
3.2. Интервальные М-оценки
М-оцЄнки получаются в рЄзультатЄ минимизации функционала [3]
п
0*(Хп) = ащ тіп М (Хп,0) = ащ тіпХ^ р(Хг,0)
О О ' ^
ГДЄ р(Хг,0) — функция потЄрь. Пусть
г=1
М(0) = тіп М(Хп, 0) = тіп р(Хг
Хп€Хп ^—^Жг^кгА]
г=1
(10)
(11)
М(0) = шах М(Хп,0) = шах р(Хг,0) —
Хп ЄХ- X - Є[а - Ь -]
г=1
ЖіЄКА]
2
п
соответственно верхняя и нижняя границы М(Хп,0) по всем возможным точечным выборкам Хп € Хп. Тогда
М(0) < М(Хп, 0) < М(0), УХп £ Хп, (13)
и, следовательно,
штМ(0) < штМ(Хп,0) < штМ(0), УХп € Хп. (14)
0 0 о
Обозначим
М = шт М (0) (15)
и
М = шт М (0) (16)
максимальное и минимальное значение М(0).
Зафиксируем какую-нибудь точечную выборку Хп € Хп. Пусть минимум функционала М(Хп,0) достигается при каком-то значении 0*:
М(Хп, 0*) = шт М(Хп, 0). (17)
о
Тогда из (13) и (14) следует, что
М(0*) < М(Хп, 0*) < М. (18)
Отсюда
М(0*) < М. (19)
Таким образом мы получили следующую теорему.
Теорема. Множество
Т = {0 | М(0) < М} (20)
содержит все возможные точечные М-оценки (10) при Хп € Хп.
Точечную оценку, при которой достигается минимум (15)
шт М (0) = М (0песс), (21)
о
можно назвать оценкой “крайнего пессимиста”, а оценку, при которой достигается минимум (16)
шт М (0) = М (0опт), (22)
о
можно назвать оценкой “крайнего оптимиста” (рис. 2).
Теорема описывает допустимое множество оценок параметров, но не дает метода его построения. Рассмотрим случай, когда 0 — скалярный параметр и функционал М(Хп,0) является выпуклым. Тогда множество Т представляет собой замкнутый интервал, границы которого определяются из уравнения М(0) = М (см. рис. 2). Это уравнение можно свести к двум задачам нелинейного программирования:
0* = ащ шт (М(0) — М)2, (23)
0<0опт
0* = ащ ш1п (М(0) — М)2. (24)
0>0опт
Частным случаем М-оценок являются оценки максимального правдоподобия, когда функция потерь имеет вид
р(ж, 0) = — 1п /(ж, 0), где /(ж, 0) — функция плотности распределения.
М
М
\ /ш)
>
^оттт ^
опт ^песс
Рис. 2. Нахождение интервальной М-оценки.
3.3. Интервальные МД-оценки
^-оценки получаются, если в выражении (10) в качестве минимизируемого функционала взять расстояние между эмпирической функцией распределения Еп (х) и теоретической ^(х,9). Интервальные М^-оценки получаются аналогично интервальным М-оценкам, если учесть выражение (6), задающее границы возможного расположения эмпирической функции распределения. В качестве меры близости эмпирической и теоретической функций распределения можно использовать статистики непараметрических критериев согласия. Оценки границ М(9) и М(9) для статистик критериев Колмогорова, Смирнова, и2 и П2 Мизеса получены в [4].
4. Свойства интервальных оценок
Различные точечные оценки параметров порождают в общем случае различные интервальные оценки. Естественным критерием для сравнения различных интервальных оценок является длина интервала А9 = 9 — 9.
Пример 4. Выборка, состоящая из 200 интервальных наблюдений, была смоделирована следующим образом: середины интервалов определялись по реализациям трех случайных величин £г, и уг
хг = (1 + 0 )уг + £г5
где 0 распределена равномерно на интервале [—6, 6], распределена равномерно на интервале [—е,е], уг распределена по нормальному закону с параметром сдвига ц = 0 и параметром масштаба а = 1. Границы интервалов определялись по формулам
аг = хг — 6|х*| — е, Ь = хг + 6|хг | + е, (25)
где е = 0.01 — абсолютная, а 6 = 0.01 — относительная погрешности наблюдения.
Интервальная гистограмма для полученной выборки приведена на рис. 3. Высота каждого столбца гистограммы является интервалом, так как при группировании выборки число наблюдений, попадающих в интервал группирования, не однозначно. В то же время ни
нижняя, ни верхняя граница интервальной гистограммы не удовлетворяют условию нормировки, а лишь задают миноранту и мажоранту для гистограммы с теми же граничными точками, построенную по любой точечной выборке Хп Е Хп.
Ж
0.36 .........:.........}.........I.........|.........:
0.32 ..........;........|...1^=^= ...|.........;..
0.28 ...........|........|... ...............|.........|..
0.24 ..........!........|... ...|.........!..
0.2 ............:........|... ...............!.........:..
0.16 ..........;....... ...I.........;..
0.12 ...........|........ .............................|
0. 08 ..........|........ .............................|
0. 04 .........Г|........ .......| |
о ----------- ------------------------------------- —
-4.8 -3.2 -1.6 О 1.6 3.2
Рис. 3. Интервальная гистограмма для интервальной выборки объемом 200 наблюдений.
По интервальной выборке оценивался параметр масштаба нормального распределения по трем методам: максимального правдоподобия, минимума статистики Колмогорова и минимума статистики и2 Мизеса. Полученные точечные и интервальные оценки приведены в таблице. Наихудшим из трех методов оказался метод максимального правдоподобия, так как длина интервала оценки получилась наибольшей, а наилучшим оказался метод минимума статистики Колмогорова. Отметим, что все три интервальные оценки накрыли “истинное” значение параметра, то есть то значение параметра, при котором моделировалась выборка.
Свойства интервальных оценок во многом зависят от свойств точечных оценок, по которым они строятся. Если точечная оценка робастна, т. е. нечувствительна к наличию аномальных наблюдений в выборке [5], то следует ожидать, что соответствующая ей ин-
Оценивание параметра масштаба нормального распределения по интервальной выборке объемом 200 наблюдений
-—> 4.8
Метод оценивания Класс оценки Точечные оценки Интервальная оценка Длина интер- вала
по серединам интервалов “край- него опти- миста” “край- него песси- миста”
Метод максимального правдоподобия М - оценка 1.0680 1.0493 1.0867 [0.8798,1.2811] 0.4013
Метод минимума статистики Колмогорова МБ- оценка 1.0276 1.0272 1.0278 [0.9774,1.0946] 0.1172
Метод минимума статистики ^2 Мизеса МБ- оценка 1.0897 1.0809 1.0965 [0.9544,1.2323] 0.2779
тервальная оценка будет иметь меньшую длину, чем интервальная оценка, порожденная точечной оценкой, не обладающей свойством робастности. Исследование функций влияния Хэмпела показало, что оценки максимального правдоподобия по негруппированным данным для большинства используемых на практике распределений не являются робастными [6]. Этим можно объяснить тот факт, что в рассмотренном примере метод максимального правдоподобия оказался наихудшим.
Длина интервала ДО слабо зависит от объема выборки и не стремится к нулю при увеличении числа наблюдений. Нетрудно показать, что если интервальные наблюдения получены по (25), а интервальная оценка максимального правдоподобия параметра масштаба
8^.2
нормального распределения вычисляется так же, как в примере 2, то ДО > - > 0.
1 — о
5. Заключение
По интервальной выборке можно находить как точечные, так и интервальные оценки. Интервальные оценки параметров отражают интервальную неопределенность в задании исходных данных. В случае одного параметра интервальное оценивание сводится к решению задач линейного (при поиске Ь-оценок) и нелинейного (при поиске М-оценок и МД-оценок) программирования. Длина интервала (О — О) существенно зависит от метода оценивания и слабо зависит от объема выборки.
Список литературы
[1] ЛЕМЕШКО Б. Ю., ПОСТОВАЛОВ С. Н. О решении задач статистического анализа по интервальным наблюдениям. Вычисл. технологии, 2, №1, 1997, 28-36.
[2] Орлов А. И. О влиянии погрешностей наблюдений на свойства статистических процедур (на примере гамма-распределения) В “Стат. методы оценивания и проверки гипотез: Межвуз. сб. науч. трудов”. Пермский ун-т, Пермь, 1988, 45-55.
[3] Леман Э. Теория точечного оценивания. Наука, М., 1991.
[4] Лемешко Б.Ю., ПостовАлов С.Н. Статистический анализ наблюдений, имеющих интервальное представление. В “Сб. науч. трудов НГТУ”, Новосибирск, №1, 1996, 3-12.
[5] Хъюбер П. Робастность в статистике. Мир, М., 1984.
[6] Лемешко Б. Ю., ПостовАлов С. Н. К вопросу о робастности оценок по группированным данным. В “Сб. науч. трудов НГТУ”, Новосибирск, №2, 1996, 9-18.
Поступила в редакцию 31 октября 1997 г.