Вычислительные технологии
Том 2, № 1, 1997
О РЕШЕНИИ ЗАДАЧ СТАТИСТИЧЕСКОГО АНАЛИЗА ИНТЕРВАЛЬНЫХ НАБЛЮДЕНИЙ*
Б. Ю. Лемешко, С. Н. ПостовАлов Новосибирский государственный технический университет
Россия
Рассмотрены модели порождения интервальных наблюдений. Предложена процедура проверки гипотез о согласии теоретического закона распределения с интервальной выборкой. Сформулирована и доказана теорема об асимптотических свойствах границ вероятности согласия.
Рассмотрим следующую модель порождения исходных данных. Пусть в результате эксперимента наблюдаются значения уг одномерной непрерывной случайной величины £
где хг — точное значение, а — погрешность наблюдения. Если погрешность не превышает по модулю некоторого числа ¿г, то об истинном значении хг можно сказать, что оно принадлежит интервалу [аг,Ьг], где
Таким образом, интервал [аг,Ьг] содержит всю информацию об г-й реализации случайной величины
Определение 1. Интервальным наблюдением называется интервал, содержащий не известное точно значение реализации случайной величины.
Определение 2.Интервальной выборкой объема п называется множество из п интервальных наблюдений:
Такие модели в [1] называются реалистическими.
Замечание 1. К подобной математической модели могут привести процедуры группирования и цензурирования данных, хорошо известные в классической статистике. Отличие заключается в том, что интервалы группирования задаются априори, а в модели (1) границы интервалов связаны с наблюдениями. Тем не менее, несмотря на различные порождающие механизмы, все выводы, полученные для интервальной выборки (2), можно перенести на случай группированных, цензурированных и частично группированных выборок [2, 3].
Замечание 2. Интервалы [аг, Ьг] в модели (2) могут быть бесконечными. Эта ситуация может возникнуть, например, в случае, когда стрелка измерительного прибора зашкаливает, и поэтому установить точное значение границы не представляется возможным.
*© Б. Ю. Лемешко, С. Н. Постовалов, 1997
(1)
аг = Уг - ¿г и Ь = уг + ¿г
Хп = {[аг,Ьг] | аг < хг < Ьг, аг € К, Ьг € К, г = 1, ..., п}.
(2)
Основную информацию о распределении случайной величины £ исследователь получает по эмпирической функции распределения или гистограмме, на которые опираются статистические методы анализа. Однако для интервальной выборки построение этих функций, в общем случае, неоднозначно. Действительно, для построения гистограммы область определения случайной величины разбивается на к непересекающихся интервалов точками Хо < Х1 < ... < Хк и подсчитывается количество наблюдений, попавших в интервалы (Xj,Х^+1], ] = 0, ... , к — 1. Если интервальное наблюдение [апокрывает точку разбиения Xj•, то точное значение наблюдения можно отнести как к интервалу [Xj-1,Xj], так и к интервалу [Xj ,Х.,+1]. Множество всех допустимых гистограмм можно получить простым перебором. Мощность этого множества резко возрастает с ростом объема выборки, поэтому использование гистограммы для наглядного представления данных и статистического анализа затруднительно.
Более простым оказывается построение множества всех допустимых эмпирических функций распределения. Упорядочим граничные точки интервалов:
а(1) < а(2) < • • • < а(га), 6(1) < 6(2) < • • • < 6(га)-
Предположим, что все точные значения наблюдений х совпали с левыми границами интервалов. Тогда эмпирическая функция распределения будет иметь следующий вид:
{0, х < а(1),
П а(г) < х < й(г+1), г =1, • • • , П — 1, 1, X > а(„).
Аналогично, если все точные значения совпали с правыми границами интервалов, эмпирическая функция распределения примет вид
0, х < 6(1),
Щ < X < «(¿+1),
^П(х) = ^ -, «(¿) < х<6(4+1), г =1, ...,п — 1, п
1, х > 6(п).
В общем случае эмпирическая функция распределения будет принадлежать множеству, ограниченному сверху ^га(х) и снизу ^га(х):
^к(х) < ^ (х) < Ж(х) Ух е К. (3)
Следующий пример иллюстрирует вид ^П(х) и ^П(х) в зависимости от формы представления данных.
Пример 1. Была сгенерирована обычная выборка объемом 100 наблюдений. Ее эмпирическая функция распределения приведена на рис. 1, а. Рис. 1, б соответствует предположению, что наблюдения фиксировались с абсолютной погрешностью, а рис. 1, в - с относительной погрешностью в исходных данных. Наконец, в последнем случае (рис. 1, г) исходная выборка сгруппирована в 10 интервалов. На рис. 1, б - 1, г показаны графики функций ^П(х) и ^п(х).
Применение классических методов статистического анализа к интервальным выборкам в явном виде невозможно. Для адаптации известных методов обычным приемом может
Рис. 1. Эмпирическая функция распределения обычной (а) и интервальных (б-г) выборок.
служить построение интервала неопределенности [4] интересующей исследователя статистики. В частности, множества допустимых гистограмм и эмпирических функций распределения, рассмотренные выше, построены в соответствии с этим принципом. В самом деле, если исходные данные известны с точностью до интервала, то естественным является описание статистики также с помощью интервала. При этом статистические выводы становятся менее определенными, но более надежными.
Далее рассмотрим процедуры проверки гипотез о согласии теоретического закона распределения случайной величины с интервальной выборкой. Аналогичные результаты были получены в [5, 6]. Сая1аЫ1 в [5] нашел верхнюю и нижнюю границы статистики Колмогорова в случае, когда выборка задана с пропусками данных, но при этом известно количество пропущенных наблюдений на интервалах между членами вариационного ряда (аналог частично группированной выборки). Орлов в [6] сформулировал общие подходы к проверке гипотез в случае интервального представления выборки и в качестве одного из примеров рассмотрел критерий Смирнова однородности двух выборок.
При проверке гипотез о согласии для найденного значения соответствующей статистики Б* вычисляется вероятность
с»
р = р{Б > Б*} = I д(в)(1в,
я*
где д(в) — плотность распределения статистики при условии истинности нулевой гипотезы. При заданном уровне значимости а гипотеза о согласии не отвергается, если р > а.
В дальнейшем вероятность Р{Б > Б*} будем называть вероятностью согласия. Когда выборка задана неточно, то статистика принадлежит интервалу [Б*, Б*], где на основании (3) границы определяются следующим неравенством:
S* = inf _S*(Fra,F) < S*(Fra,F) < sup _S*(Fra,F) = S*. (4)
Fn < Fn < Fn Fn < Fn < Fn
Вероятность P{S > S*} будет принадлежать интервалу [pmin,pmax], где
oo oo
Pmin = J g(s)ds, Pmax = J g(s)ds.
Si Si
Тогда, при заданном уровне значимости а, гипотезу о согласии следует отклонить, если pmax < а; гипотезу о согласии не следует отвергать, если pmin > а.
Рассмотрим использование этого подхода на примере критерия Колмогорова. Статистика критерия имеет вид
D = sup |Fn(x) - F (x)|,
x
где — эмпирическая функция распределения, F(ж) — теоретическая, согласие с ко-
торой проверяется, п — объем выборки. Преобразуем неравенство (3) к виду
^(ж) - F(ж) < Fra(ж) - F(ж) < *Цж) - F(ж),
F(ж) - ¿Цж) < F(ж) - Fra(ж) < F(ж) - ^п(ж). Эти неравенства выполняются для всех , поэтому они сохраняются при взятии супремума:
вир^ж) - F(ж)) < sup(Fra(ж) - F(ж)) < 8ир(^П(ж) - F(ж)),
X __X X
вир^(ж) - Fn(ж)) < sup(F(ж) - Fn(ж)) < sup(F(ж) - Fn(ж)).
Объединим эти неравенства в одно и, учитывая, что статистика Дп не может быть отрицательной, получим:
Рп = тах{зир^п(ж) - F(ж)), sup(F(ж) - Fn(ж)), 0} <
X X
< = max{sup(Fn(ж) - F(ж)), sup(F(ж) - Fn(ж))} < (5)
X X
< Дп = max{sup(Fn(ж) - F(ж)), sup(F(ж) - ^п(ж))}.
X X
Аналогичные оценки верхней и нижней границ получены для статистик критериев согласия Смирнова, ш2 и П2 Мизеса [7]. Следующий пример иллюстрирует применение рассмотренного подхода.
Пример 2. Была сгенерирована выборка из 100 наблюдений с абсолютной погрешностью е = 0.05, и проверено согласие с нормальным распределением с параметрами ц = -0.0786 и а = 0.9916 (рис. 2).
На диаграмме в правом верхнем углу цифрами обозначена вероятность согласия по критериям: 1 — отношения правдоподобия, 2 — х2 Пирсона, 3 — Колмогорова, 4 — Смирнова, 5, 6 — ш2 и П2 Мизеса. Заштрихованные области показывают интервалы неопределенности вероятности согласия.
x
x
x
Рис. 2. Проверка согласия интервальной выборки с нормальным распределением.
На основании проверки гипотез можно сделать следующие выводы.
При уровне значимости а = 0.3 гипотеза о согласии не отвергается по критериям отношения правдоподобия, х2 Пирсона, Колмогорова, Смирнова, и2.
При уровне значимости а = 0.5 гипотеза о согласии не отвергается по критериям отношения правдоподобия, х2 Пирсона, Смирнова.
При уровне значимости а = 0.9 гипотеза о согласии отвергается по критериям отношения правдоподобия, х2 Пирсона, Смирнова.
По остальным критериям однозначного вывода сделать невозможно.
Очевидно, что чем меньше интервал неопределенности [ртш,ртах], тем более определенные выводы можно сделать. На длину интервала неопределенности Ар = ртах — ртщ влияют неопределенность в задании исходных данных, выбранная модель, критерий согласия и количество наблюдений. О том, как увеличение объема выборки влияет на Ар, говорит следующая теорема об асимптотических свойствах оценок границ статистики критерия Колмогорова по интервальной выборке.
Теорема. Пусть задана последовательность интервальных выборок Хп, для которых нижняя и верхняя границы эмпирической функции распределения Еп(х) и Fn(x) сходятся в равномерной метрике соответственно к F(х) и F(х) со скоростью 0(1/и), и 8ир(Ё(х) — Е(х)) > с > 0.
х
Пусть также Т — это множество всех функций распределения, непрерывных справа, Ртаж(Е, Хп) и ртш(Е, Хп) — соответственно верхняя и нижняя границы вероятности согласия по критерию Колмогорова.
Тогда при п ^ то:
1. УЕ е Т, таких что Ух (£(х) < Е(х) < Е(хм,
а) Ртах^, Хп) ^ 1, б) Хп) ^ 0;
2. VF € Т, таких что Зж (ж) < Е(ж)^ V (F(ж) > F(ж))^,
а) Ртах(^ Хп) ^ 0, б) Ртт^, Хп) ^ 0.
Доказательство. Статистика Б = (-—— при достаточно большом п имеет рас-
18п
пределение
Р{Б > Б*} = 1 - * ,
где К (у) = (-1)к е-2к2у2 — функция распределения Колмогорова [8].
к=—<х
Для оценок границ Дп и Дп статистики Дп, определенных в (5), при п ^ то имеем:
/6П^ + 1 \ _
Рш1и = 1 - К ( ) ^ 0, если ЗА > 0 : £п > Л; (6)
p = 1 K(6nDn + П f 1, если (Dn = 0) V (Dn = O(1/n)); (7)
Pmax б^П У 1 0, если 3A> 0: Dn > A. (7)
Теперь для доказательства теоремы достаточно исследовать асимптотическое поведение оценок границ Dn и Dn.
1. Пусть F(ж) — произвольная функция распределения, проходящая между F(ж) и
F (ж).
а) Согласно (5) оценка снизу для нижней границы Dn имеет вид
Dn = max< sup(Fn(x) — F(ж)), sup(F(ж) — Fn(x)), 0
^ x x
Если неравенство строгое: Vx F(ж) < F(ж) < F(ж), то первые две величины в фигурных скобках будут отрицательными и Dn = 0. Если F(ж) совпадает с F(ж) на множестве A С R и с F(ж) на множестве B С R, то
Dn = max < sup(Fra^) — F(ж)), sup(F(ж) — Fra^)) > < [xeA xeB J
< ma^< sup |^га(ж) — F(ж)|, sup |F(ж) — Fra^)| > = O(1/n).
[xeA xeB J
б) Пусть жо — точка, в которой
sup(F(ж) — F(ж)) > F(ж0) — F(ж0) > c > 0.
x
Обозначим а = F(ж0) — F(ж0) > 0 и b = F(ж0) — F(ж0) > 0. Тогда а + b = F(ж0) — F(ж0) > c > 0 и max{a, b} > c/2. Используя оценку сверху для верхней границы Dn и введенные обозначения, получим:
Dn = max < sup(Fn(ж) — F(ж)), sup(F(ж) — Fra^))
I x x
= max < sup(Fn(x) — F(ж)) + sup(F(ж) — F(ж)), sup(F(ж) — F(ж)) + sup(F(ж) — ^П(ж)) f >
^ x x x x J
> max {O(1/n) + a, b + O(1/n)} . Тогда ЗА > 0 и Зпо : Vn > по
D > max{a, b} + O(1/n) > c/2 + O(1/n) > А> 0.
2. Так как pmax > pmin, то (а) ^ (б), и достаточно показать, что pmax ^ 0.
Пусть ж0 — точка, в которой F(ж) > F(ж) (аналогично рассматривается случай, когда F(x) < F(ж)). Обозначим d = F(жо) — F(жо) > 0.
Тогда ЗА > 0 и 3n0 : Vn > n0
Dn = ma^< sup(Fn^) — F(ж)), sup(F(ж) — Fn^)), 0 > >
[ x x J
> F(жо) — Щжо) = F(жо) — F(жо) + F(жо) — Щжо) >
> d + O(1/n) > А > 0.
Теорема доказана.
Поведение pmax и pmin иллюстрирует следующий пример.
Пример 3. Были сгенерированы три интервальные выборки c абсолютной погрешностью е = 0.05, подчиненные одному и тому же закону распределения, объемом 100, 500 и 1000 наблюдений. Затем исследовано поведение pmin и pmax при проверке согласия по критерию Колмогорова с нормальным распределением, у которого параметр ^ зафиксирован, а параметр а изменялся от 0.5 до 1.5 (рис. 3). Хорошо видно, что с ростом количества наблюдений верхняя кривая согласия (pmax) становится более крутой, а нижняя (pmin) становится ближе к нулю. Это означает, что множество распределений, не отвергаемых по критерию согласия, уменьшается при одном и том же уровне значимости, но неопределенность при принятии решений о согласии для этих распределений увеличивается.
Из доказанной теоремы и рассмотренного примера вытекают два следующих практических соображения. С одной стороны, очевидно, что, опираясь на критерий Колмогорова, в случае интервальной выборки можно отсеять определенное множество законов распределения, не согласующихся с выборкой. С другой стороны, в этой же ситуации невозможно с точностью до параметров идентифицировать закон распределения, наиболее хорошо согласующийся с выборкой, если, например, для двух различных оценок параметров pmin = 0 и Pmax = 1.
Таким образом, очевидно, что получение точечных оценок параметров распределений является процедурой, в значительной степени зависящей от степени оптимизма исследователя относительно соответствия выбранной модели исходным интервальным данным [9]. Действительно, нижнюю границу вероятности согласия можно рассматривать как случай
наихудшего расположения точных значений наблюдений в интервалах ("крайний пессимизм"), а верхнюю — как случай наилучшего расположения точных значений наблюдений ("крайний оптимизм").
Если исследователем априорно задана некоторая параметрическая модель F(ж,0), то верхняя и нижняя границы искомой функции распределения также должны принадлежать этой модели:
F(ж) = F(ж, 0i), F(ж) = F(ж, 02).
Р
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
...............................\.....1......р........................
шш \
]
/ /
' у
О
0.5
0.6667
0.8333
1.0
1.167
1.333
1.5
Рис. 3. Согласие интервальных выборок разного объема с нормальным распределением: а — 100 наблюдений, б — 500 наблюдений, в — 1000 наблюдений.
В случае скалярного параметра 0, используя Еп(х,0) и Ега(х,0), мы можем естественным образом получить интервальную оценку параметра, а в случае векторного параметра — оценить область его допустимых значений Т = {0 £ П | Уж Е(х, 0х) < Е(х, 0) < Е(х, 02)}.
Заметим, что использование параметрической модели для описания интервальной выборки может оказаться не всегда приемлемым, так как верхняя и нижняя границы эмпирической функции распределения могут сходиться в общем случае к законам из разных параметрических семейств.
С учетом всего вышеизложенного можно сделать следующие выводы. При увеличении объема интервальной выборки для целого множества априори допустимых для описания данной случайной величины распределений длина интервала неопределенности вероятности согласия растет и стремится к единице. Это значит, что функцию распределения случайной величины, наблюдения которой фиксируются с неустранимой погрешностью, невозможно определить точно, даже при очень большом числе экспериментов. Для описания такой случайной величины лучше либо использовать интервальные оценки параметров функции распределения, либо по отдельности аппроксимировать верхнюю и нижнюю границы эмпирической функции распределения.
Список литературы
[1] Орлов А. И. О развитии реалистической статистики. В "Стат. методы оценивания и проверки гипотез". Межвуз. сб. науч. трудов, Пермский ун-т, Пермь, 1990, 89-99.
[2] Лемешко Б. Ю., Постовллов С. Н. Статистический анализ одномерных наблюдений по частично группированным данным. Изв. высших учебных заведений. Физика 38, №9, 1995, 39-45.
[3] Лемешко Б. Ю., Постовллов С. Н. К использованию непараметрических критериев по частично группированным данным. В "Сб. науч. трудов НГТУ". Новосибирск, №2, 1995, 21-30.
[4] Клнторович Л. В. О некоторых новых подходах к вычислительным методам и обработке наблюдений. Сиб. мат. журн. 3, №5, 1962, 701-709.
[5] GASTALDI T. A Kolmogorov-Smirnov test procedure involving a possibility censored or truncated sample. Communications in statistics. Theory and methods 22, №1,1993,31-39.
[6] Орлов А. И. Некоторые алгоритмы реалистической статистики. В "Стат. методы оценивания и проверки гипотез. Межвуз. сб. науч. трудов". Пермский ун-т, Пермь, 1991, 77-86.
[7] Лемешко Б.Ю., Постовллов С.Н. Статистический анализ наблюдений, имеющих интервальное представление. В "Сб. науч. трудов НГТУ". Новосибирск, №1, 1996, 3-12.
[8] Большев Л. Н., Смирнов Н.В. Таблицы математической статистики. Наука, М., 1965.
[9] Кузнецов В. П. Интервальные статистические модели. Радио и связь, М., 1991.