Научный вестник НГТУ. -2013. -№ 1(50)
ОБРАБОТКА ИНФОРМАЦИИ
УДК 519.2
Модифицированные критерии согласия Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга
и«
для случайно цензурированных выборок. Ч. 2
Б.Ю. ЛЕМЕШКО, Е.В. ЧИМИТОВА, М.А. ВЕДЕРНИКОВА
Методами компьютерного моделирования исследуются распределения статистик модифицированных критериев Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга при различных объемах выборок и распределениях моментов цензурирования. Рассматриваются случаи проверки простых и сложных гипотез о согласии. Формулируется алгоритм моделирования случайно цензурированных выборок в случае неизвестного распределения моментов цензурирования. Описывается пример проверки сложной гипотезы о согласии по случайно цензурированной выборке с использованием рассматриваемых критериев.
Ключевые слова: случайное цензурирование, модифицированные критерии согласия типа Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, оценка Каплана-Мейера.
ВВЕДЕНИЕ
Важнейшим этапом при построении вероятностной модели является проверка принадлежности наблюдаемой случайной величины предполагаемому закону распределения вероятностей. Проверка такого рода гипотез осуществляется с использованием критериев согласия. Положительный результат проверки позволяет утверждать, что использование построенной модели в дальнейшем не приведет к существенным ошибкам.
Проверяемые гипотезы могут быть простыми и сложными. Простая проверяемая гипо-
Т
теза имеет вид Н0 : ^(х) = (х;б), где значения параметров б = (б1,б2,---бт) закона (х;б) известны. Сложная гипотеза имеет вид Н0 : -Р(х) е (х;б), б е . Применение критерия согласия в случае проверки сложной гипотезы отличается от случая проверки простой гипотезы, если оценки неизвестных параметров вычисляются по той же выборке, по которой проверяется гипотеза о согласии.
В задачах анализа данных типа времени жизни наиболее часто возникает необходимость обработки выборок, цензурированных справа. Появление цензурированных наблюдений является естественным и порождается спецификой проведения экспериментов. Цензурированная справа выборка может быть представлена в виде
(ад), (ад), (ад),
где X1 =тт(7^,Сг ) - значение наблюдения, Т1 - момент наступления системного события
(отказа), Сг - момент цензурирования,
6 _ [1, если <С{, Х{ - 7]
¡0, если > С,, X1 - С,
- индикатор цензурирования, который равен единице, если /-с наблюдение полное (наблюдался отказ), нулю - если цензурированное. Выборка называется случайно цензурированной или
Статья получена 10 августа 2012 г. Исследование выполнено при поддержке Министерства образования и науки Российской Федерации, соглашение 14.В37.21.0860.
цензурированной III типа, если Tt и Сг- представляют собой независимые случайные величины, причем Tt принадлежит закону распределения вероятностей с функцией ,
а С, - закону Fc (х) .
В настоящей работе исследуются модифицированные критерии согласия типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга, применяемые для проверки простых и сложных гипотез в условиях цензурирования. Модификации рассматриваемых критериев для проверки гипотез по выборкам с цензурированием I и II типа предложены в работах [1], [2], [3]. Результаты исследования распределений статистик таких модификаций критериев при проверке простых и сложных гипотез с использованием методики компьютерного моделирования представлены в [4]. Там же обсуждается влияние на распределения статистик критериев степени цензурирования и приводится сравнительный анализ мощности критериев относительно близких конкурирующих гипотез.
Модификации критериев Колмогорова и Крамера-Мизеса-Смирнова для проверки гипотез по случайно цензурированным выборкам предложены в работах [5], [6], [7], [8]. В данных модификациях при вычислении статистики критерия вместо эмпирической функции распределения используется непараметрическая оценка Каплана-Мейера, строящаяся по случайно цензурированной выборке. Верхние процентные точки предельных распределений статистик таких модифицированных критериев для проверки простых гипотез о согласии с законами нормальным, экспоненциальным и Вейбулла при заданном распределении моментов цензурирования приведены в [7].
Несмотря на то, что модификациям критериев согласия для случайно цензурирован-ных выборок посвящено достаточно много публикаций, применение данных критериев на практике вызывает серьезнейшие затруднения. Во-первых, предельные распределения статистик рассматриваемых критериев зависят от распределения моментов цензурирования и неизвестны. Поэтому как при проверке простой, так и сложной гипотезы по случайно цензурированной выборке распределение статистики применяемого критерия при справедливости проверяемой гипотезы может быть найдено только в результате компьютерного моделирования. Во-вторых, в реальных ситуациях распределение моментов цензурирования, как правило, оказывается неизвестным. И возникает вопрос: каким образом моделировать распределение статистики критерия при неизвестном распределении моментов цензурирования?
В данной работе распределения статистик модифицированных критериев при проверке простых и сложных гипотез по случайно цензурированным данным при различных объемах выборок, степенях цензурирования и распределениях моментов цензурирования исследуются с использованием методов компьютерного моделирования. Предложен алгоритм моделирования распределений статистик рассматриваемых критериев в случае неизвестного распределения моментов цензурирования. Приводится пример проверки сложной гипотезы о согласии с использованием исследуемых критериев.
1. КРИТЕРИИ СОГЛАСИЯ ТИПА КОЛМОГОРОВА, КРАМЕРА-МИЗЕСА-СМИРНОВА И АНДЕРСОНА-ДАРЛИНГА
При случайном цензурировании вместо эмпирической функции распределения hn (х] в
критериях согласия Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга в [5], [6], [7], [8] предлагается использовать оценку Каплана-Мейера. Без потери общности будем предполагать, что областью определения случайной величины является интервал [0, оо). Однако значения статистик рассматриваемых модифицированных критериев вычисляются на наблюдаемом интервале [0, т], где т - время последнего полного наблюдения. Обозначим
через ¿/| < а-1 <... < ак = т, к <п, моменты времени, в которые были зафиксированы системные события ( Х¡ , ¿1 =1). Тогда оценку Каплана-Мейера можно вычислить по формуле
A (X) =
О, x < h,
1 - П
Г. а .: < X
r JЛ
1 - —L
V ri У
x > ai,
(1)
где = ^ 8j , гг- - количество наблюдений, для которых Xj > а{, у = 1 ,...,п . у.Х]-а,
В модифицированном критерии Колмогорова для случайно цензурированных выборок в качестве расстояния между эмпирическим и теоретическим законами распределения используется величина
Dn 2 sup i^„(x)-F(x;0)
О< x<T
(2)
где
Нп (х) - оценка Каплана-Мейера, б) - теоретическая функция распределения,
ветствукяцая проверяемой гипотезе.
В модифицированном критерии Колмогорова будем использовать статистику вида
соот-
S8 =
6nDn +1
(3)
К 6\/й
с поправкой Большева, где Оп — тах{/3);, Оп | , Оп = тах |1:п (а1 ] - 1'~(а,; 0) |,
D- 2 к^ (a00)- An (ai-i)}
1<г< £
В модифицированном критерии Крамера-Мизеса-Смирнова в качестве расстояния между распределениями используется величина
ш2 2 j(/n (х)- F(x; 0))2 qa(x;0)-
Статистика модифицированного критерия Крамера-Мизеса-Смирнова с оценкой Каплана-Мейера имеет вид
2П• F(ai;0) + n
x-1
j=i
Ft (aj )(F(aj+i; 0) - F(a,-; 0))-
-F„ (a, )(F 2 (a,+i;0)-F 2 (a,; 0)) + )(F 3( a,+i;0)-F 3 (a,;0))
В модифицированном критерии Андерсона-Дарлинга в качестве меры рассматривается величина
х -¡с. С)-А С0»2 )№)) •
Соответственно, статистика модифицированного критерия Андерсона-Дарлинга принимает вид
к-1
т£ = иа («1; е) + х
А (; е)- А (+1; е) + АП (а.) ( А (+; е)- 1п А (; е)) -
(-К ( ) ( (-А (; е))- 1п (-А (; е)))1- 1п (-А (; е))|. (5)
Проверяемая гипотеза о согласии отвергается при больших значениях статистик. Аналитические выражения для распределений статистик рассматриваемых критериев неизвестны. Поэтому вычисление критических значений статистик (или достигнутых уровней значимости) при проверке гипотез с использованием данных критериев может опираться только на распределения статистик, полученные в результате статистического моделирования.
2. ИССЛЕДОВАНИЕ ОЦЕНОК КАПЛАНА-МЕЙЕРА
Распределения статистик рассматриваемых критериев согласия зависят от свойств оценок Каплана-Мейера, на основе которых вычисляются значения статистик. В первую очередь выясним, какое влияние оказывают на оценки Каплана-Мейера степень цензурирования (процент цензурированных наблюдений в выборке) и распределение моментов цензурирования.
В качестве примера распределения отказов А(х) рассмотрим закон Вейбулла с функцией распределения
А (х; е) = X (, е2, е3 ) = 1 - ехр
/ ( а Л ез ^
х -е1
V е2 ,
V У
и значениями параметров б1 = 0, б2 = 2, б3 = 2 . В качестве распределений моментов цензурирования Ас (х) выбраны два семейства:
1) семейство бета-распределений 1-го рода с функцией распределения
А (х; е) = р1 (, е2, е3, е4)
1
(х-е
/ ч 1 *е"-1 (1 - *)е#-1 * >
где Р(а,й) - бета-функция;
2) семейство распределений Вейбулла.
Значения параметров распределений моментов цензурирования были подобраны методами имитационного моделирования таким образом, чтобы средняя степень цензурирования была равна заданному значению. Полученные законы распределения моментов цензурирования приведены в табл. 1.
Теоретические функции распределения моментов цензурирования С,, соответствующие закону Вейбулла и бета-распределению 1 -го рода со значениями параметров, приведенными в табл. 1, представлены на рис. 1 и 2. На этих же рисунках отображена функция распределения Вейбулла, рассматриваемая в качестве функции распределения отказов Т-, / = 1,2,...,п.
Таблица 1
Распределения моментов цензурирования
Средняя степень цензурирования, % Распределение моментов цензурирования
10 0!(0,7,1.81,1) Х(0,3.44,6.88)
20 0! (0,7,1.19,1) Х(0,2.87,5.74)
30 0! (0,7,1,1.24) Х(0,2.48,4.96)
40 01 (0,7,1,1.83) Х(0,2.16,4.32)
50 01 (0,7,1,2.58) Х(0,1.87,3.74)
60 01 (0,7,1,3.58) Х(0,1.59,3.18)
70 01(0,7,1,5.01) Х(0,1.31,2.62)
80 01(0,7,1,7.36) Х(0,1.00,2.00)
Рис. 1. Функция распределения отказов и функции распределения моментов цензурирования по законам бета 1-го рода
Рис. 2. Функция распределения отказов и функции распределения моментов цензурирования по законам Вейбулла
Как видим, взаимное расположение закона распределения отказов и распределений моментов цензурирования для разных семейств распределений оказывается различным. Следовательно, при одной и той же степени цензурирования расположение моментов цензурирования в вариационных рядах соответствующих выборок будет существенно отличаться. В частности, в случае принадлежности моментов цензурирования распределениям Вейбулла цензурирован-
ные наблюдения, как правило, оказываются в конце вариационного ряда моделируемых выборок. В случае же бета-распределений 1-го рода со значениями параметров, представленными в табл. 1, цензурированные наблюдения с большей вероятностью оказываются в начале вариационного ряда. Естественно, это будет отражаться на значениях статистик (3), (4), (5).
В табл. 2 представлены значения расстояния Оп между оценками Каплана-Мейера и теоретической функцией распределения Вейбулла, соответствующей истинному распределению отказов (при справедливости проверяемой гипотезы), усредненные по N = 100000 экспериментам •
Таблица 2
Отклонения оценок Каплана-Мейера от теоретической функции распределения
Объем выборки, п 100 200
Семейство распределений А (') Вейбулла Бета 1-го рода Вейбулла Бета 1-го рода
Средняя степень цензурирования, % 0 0^0854 0^0606
10 0^0865 0^0882 0^0616 0^0627
20 0^0908 0^0935 0^0655 0^0664
30 0^0975 0^0994 0^0724 0^0707
40 0Л062 0Л077 0^0814 0^0768
50 0Л164 0Л198 0^0922 0^0857
60 0Л272 0Л369 0Л040 0Л000
70 0Л383 0Л613 0Л176 0Л216
80 0Л521 0Л899 0Л351 0Л539
Объем выборки, п 500 1000 2000
Семейство распределений Ас (') Вейбулла Бета 1-го рода Вейбулла Бета 1-го рода Вейбулла Бета 1-го рода
0 0^0385 0^0273 0^0193
10 0^0392 0^0397 0^0279 0^0282 0^0197 0^0199
20 0^0430 0^0422 0^0311 0^0299 0^0231 0^0213
30 0^0496 0^0449 0^0374 0^0319 0^0290 0^0227
40 0^0584 0^0491 0^0460 0^0346 0^0369 0^0246
50 0^0691 0^0549 0^0557 0^0389 0^0463 0^0275
60 0^0813 0^0649 0^0677 0^0461 0^0571 0^0329
70 0^0954 0^0817 0^0806 0^0596 0^0691 0^0433
80 0^1143 0Л118 0Л006 0^0865 0^0871 0^0657
Как и следовало ожидать, отклонение оценок Каплана-Мейера от теоретической функции распределения отказов уменьшается с ростом объема выборки. В данном случае интересно различие в том, как уменьшается отклонение при разных распределениях моментов цензурирования. Например, когда в качестве (х) рассматривалось бета-распределение 1-го рода, среднее отклонение Оп уменьшалось быстрее, чем в случае, когда моменты цензурирования принадлежали распределению Вейбулла и концентрировались в правой части области определения моментов отказа.
При отсутствии в выборке цеизурированных наблюдений оценка Каплана-Мейера сводится к эмпирической функции распределения.!} этом случае статистика -1п9п при п ^да подчиняется закону Колмогорова [9] и, начиная с некоторого п, математическое ожидание данной статистики становится практически независящим от объема выборки. На рис. 3 показаны изменения оценки математического опадания статистики *Шоп с ростом объема выборки при степени цензурирования около 50 % и различных законах распределения моментов цензурирования.
Рис. ^.Зависимость средних отклонений \[пОп от объема выборки при различных распределениях моментов цензурирования
Как видим на рис. 3, в случае принадлежности моментов цензурирования бета-распределению 1 -го рода оценка математического ожидания практически не зависит от объема выборки. В случае же принадлежности моментов цензурирования распределению Вейбулла исследуемая величина с ростом объема выборки заметно увеличивается. То есть распределение моментов цензурирования существенно влияет на степень близости оценок Каплана-Мейера к истинной функции распределения отказов.
3. ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИИ СТАТИСТИК МОДИФИЦИРОВАННЫХ КРИТЕРИЕВ СОГЛАСИЯ
3.1. Исследование распределений статистик с ростом объема выборки
Методами компьютерного моделирования была исследована зависимость распределений статистик модифицированных критериев от объема выборок.
На рте. 4представлены эмпирические распределения С () статистики модифицированного критерия Андерсона-Дарлинга при справедливости простой проверяемой гипотезы Н{] о принадлежности выборки распределению Вейбулла с параметрами (0, 2, 2). Распределения статистики получены при моделировании Дг = 1 ()()()()() случайно цеизурированных выборок в случае принадлежности моментов цензурирования бета-распределению 1-го рода с параметрами (0, 7, 1, 1.24) при средней степени цензурирования 30 %. В данном случае распределения статистики критерия практически не зависят от объема выборок п.
На рис. 5 показаны эмпирические распределения статистики критерия Андерсона-Дарлинга, полученные при тех же условиях проведения эксперимента, но в случае принадлежности моментов цензурирования распределению Вейбулла с параметрами (0, 2.48, 4.96). Средняя степень цензурирования также равна 30 %. Однако в данном случае мы видим существенную зависимость распределения статистики от п.
Рис. 4. Распределения статистики модифицированного критерия Андерсона-Дарлинга при проверке простой гипотезы в случае принадлежности моментов цензурирования бета-распределению 1-го рода при различных
объемах выборок
Рис. 5. Распределения статистики модифицированного критерия Андерсона-Дарлинга при проверке простой гипотезы в случае принадлежности моментов цензурирования распределению Вейбулла при различных объемах выборок
Таким образом, в общем случае распределения статистики модифицированного критерия Андерсона-Дарлинга зависят от объема выборки и от закона распределения моментов цензурирования. Если при степени цензурирования порядка 30 % и принадлежности моментов цензурирования бета-распределению 1-го рода распределения статистики с ростом объема выборок практически не меняются, то с увеличением степени цензурирования (более 60 %) распределения статистики становятся зависящими от объема выборок. И с ростом п область определения статистики смещается в сторону больших значений (при любых из рассмотренных законах распределения моментов цензурирования). Такую зависимость распределений статистики можно легко объяснить, опираясь на результаты исследования математического ожидания
величины у[пОп (см.рис. 3).
Аналогичные результаты были получены для распределений статистик модифицированных критериев Колмогорова и Крамера-Мизеса-Смирнова при проверке как простых, так и сложных гипотез.
3.2. Исследование распределений статистик модифицированных критериев при различных степенях цензурирования
Результаты исследований распределений статистик модифицированных критериев от степени цензурирования демонстрируются на примере проверки простых гипотез о принад-
На рте. 6 представлены распределения В () статистики модифицированного критерия Андерсона-Дарлинга при проверке простой гипотезы в случае принадлежности моментов цензурирования бета-распределению 1-го рода для степеней цензурирования 10-70 % (см. табл. 1). Для сравнения на рисунке показано распределение ¡з2(5), являющееся предельным для критерия Андерсона-Дарлинга в случае полных выборок.
1.00
10.0 5
Рис. 6. Распределения статистики модифицированного критерия Андерсона-Дарлинга при проверке простой гипотезы в случае принадлежности моментов цензурирования бета-распределению 1-го рода при различных степенях цензурирования
Как можно видеть,с увеличением степени цензурирования распределения В(5|#0)
статистики модифицированного критерия Андерсона-Дарлинга смещаются в область больших значений статистики. Понятно, что при проверке простых гипотез по случайно цензурирован-ным выборкам распределение а2(Л*) уже не является предельным распределением.
Вместе со степенью цензурирования на распределения статистик модифицированных
критериев оказывает влияние и вид закона распределения моментов цензурирования - (х).
На рис. 7 показаны распределения статистики модифицированного критерия Андерсона-Дарлинга в случае принадлежности моментов цензурирования закону Вейбулла при степенях цензурирования 10-70 % (см. табл. 1). На рисунке для сравнения приведено также распределение Как видим, в данном случае зависимость распределения статистики от степени цензурирования выражена менее ярко.
При цензурировании I и II типа моделирование распределений статистик критериев согласия и построение для них приближенных моделей не вызывает принципиальных трудностей как при проверке простых, так и сложных гипотез [4]. Но при случайном цензурировании показанные зависимости распределений статистик модифицированных критериев согласия от объемов выборок и, главное, от закона распределения моментов цензурирования ставят под вопрос возможность построения приближенных моделей распределений статистик даже для проверки конкретной простой гипотезы. Проблема заключается в том, что в реальных приложениях закон распределения моментов цензурирования, как правило, неизвестен.
В общем случае при проверке сложных гипотез распределения статистик непараметрических критериев согласия зависят от закона/^ (х;б) , с которым проверяется согласие, от числа и типа оцениваемых параметров этого закона, от метода оценивания и, возможно, от значения
или значении конкретных параметров. При случайном цензурировании на это накладывается зависимость от закона распределения моментов цензурирования (и объема выборки).
Рис. 7. Распределения статистики модифицированного критерия Андерсона-Дарлинга при проверке простой гипотезы в случае принадлежности моментов цензурирования распределению Вейбулла при различных степенях цензурирования
Таким образом, для проверки как простых, так и сложных гипотез с использованием модифицированных критериев согласия типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга необходимо иметь (знать) распределение статистики соответствующего критерия при справедливости проверяемой гипотезы (в конкретных условиях, соответствующих характеру регистрируемых наблюдений). Такие распределения могут быть найдены только в результате моделирования. Для моделирования распределений статистик необходимо подобрать распределение моментов цензурирования. Для построения параметрической модели распределения моментов цензурирования необходимо иметь некоторую априорную информацию, а после построения убедиться в адекватности этой модели. Поэтому для моделирования
распределений статистик С (Т|Н0 ) модифицированных критериев,необходимых при проверке гипотезы для определения достигнутого уровня значимости Р > Т |Н0 - = 1 - С ^Т |Н01 ,где Т - вычисленное по выборке значение статистики критерия, авторами был предложен и реализован следующий непараметрический алгоритм моделирования случайно цензурированных выборок.
3.3. Непараметрический алгоритм моделирования случайно цензурированной выборки
Для того чтобы смоделировать случайно цензурированную выборку в соответствии с механизмом цензурирования исходной (анализируемой, эталонной) выборки, необходимо выполнить следующую последовательность действий.
1. Смоделировать методом обратной функции полную выборку объемом п по закону,
соответствующему проверяемой гипотезе: Т1 — У 1 (С,;0), где С, - псевдослучайная величина, равномерно распределенная на интервале (0,1), I — 1,2,...,/?.
2. Инвертировать исходную цензурированную выборку, изменив значения индикаторов цензурирования 5, на 1 - 8,.
3. Построить оценку Каплана-Мейера (1) функции распределения (х) по инвертированной выборке.
4. Смоделировать , равномерно распределенные на интервале (0,1), и вычислить значения Сг-, I = 1,2,...,п:
а) если Ъ<Рс{сх), то С{= С1 '
Ъ) если ^ е (с]), #с (суЧ1)
, то
С 2 сг + / ч Л / ч\ , 7 2 1,2, — ,г >
с) если >#с(сг),то С,-=сг+сг(^-#с(сг)),где съ...,сг
упорядоченные по
возрастанию различные моменты цензурирования в исходной выборке, г - количество различных моментов цензурирования в исходной выборке.
5. 1-тт(Т^С,.), 5,- =1{?;.<С1-}, / = 1,2,...,и.
Работоспособность алгоритма исследовалась проверкой однородности случайно цензу-рированных выборок, генерируемых параметрическим методом (с известными законами/^(х; 6), /^(х)) и в соответствии с предложенным алгоритмом (с известным законом Н{] (х; б) и механизмом цензурирования, извлекаемым из выборки, полученной параметрическим методом). Проверка гипотез об однородности получаемых выборок (при различной степени цензурирования) по критериям Гехана, Кокса-Мантела и логранговому [10] показала, что с высокими значениями достигнутых уровней значимости гипотеза об однородности не должна отклоняться. Достигнутые уровни значимости при проверке однородности генерируемых выборок объемом п = 1000 приведены в табл. 3.
Таблица 3
Достигнутые уровни значимости при проверке однородности генерируемых выборок
Распределение моментов цензурирования Критерий Степень цензурирования, %
0 10 20 30 40 50
Бета 1-го рода Логранговый 0.79 0.96 0.98 0.87 0.62 0.43
Гехана 0.81 0.88 0.84 0.72 0.60 0.48
Кокса-Мантела 0.87 0.91 0.90 0.82 0.62 0.58
Вейбулла Логранговый 0.79 0.59 0.59 0.68 0.45 0.56
Гехана 0.81 0.47 0.48 0.47 0.36 0.52
Кокса-Мантела 0.87 0.51 0.47 0.53 0.49 0.59
Использование предложенного алгоритма моделирования случайно цензурированных выборок позволяет моделировать и исследовать распределения статистик модифицированных критериев согласия по цензурированным данным.
Замечание. На распределения статистик существенное влияние оказывает степень цензурирования, которая, в свою очередь, определяется сочетанием распределений (х] и
Ь'с (х) . Если распределение, соответствующее гипотезе Н{), достаточно близко к всегда неизвестному истинному распределению отказов, то средняя степень цензурирования в моделируемых выборках будет близка к степени цензурирования в исходной выборке, по которой проверяется согласие.
4. ПРИМЕР ПРОВЕРКИ СЛОЖНОЙ ГИПОТЕЗЫ О СОГЛАСИИ ПО СЛУЧАЙНО ЦЕНЗУРИРОВАННОЙ ВЫБОРКЕ
Рассмотрим пример проверки гипотезы о согласии с вероятностной моделью надежности по случайно цензурированной выборке, содержащей наработки до отказа одного из элементов газотурбогенераторов в течение продолжительного времени эксплуатации [11]. Объем выборки - 15 наблюдений, 6 из которых являются цензурированными, значения наблюдений - количество часов до наступления отказа. Данные представлены в табл. 4.
Таблица 4
Вариационный ряд наработок элемента газотурбогенератора
Порядковый номер, / Значение наблюдения, Индикатор цензурирования, 8i
1 0 0
2 200 1
3 400 1
4 650 1
5 700 0
6 900 0
7 1200 0
8 1400 1
9 1550 1
10 1650 1
11 1800 0
12 1950 0
13 2000 1
14 3570 1
15 3700 1
В [11] в качестве модели надежности было предложено распределение Вейбулла. По исходной выборке получены оценки максимального правдоподобия: для параметра масштаба
б2 = 2286.4613 и параметра формы б3 = 1.5644, параметр сдвига равен нулю.
На рис. 8 представлена оценка Каплана-Мейера, построенная по рассматриваемым данным, и теоретическая функция надежности, соответствующая распределению Вейбулла.
Рис. 8. Функция надежности Вейбулла и оценка Каплана-Мейера функции надежности, построенная по выборке
Проверим сложную гипотезу о согласии с распределением Вейбулла. Зафиксируем уровень значимости а = 0.1.
Полученные по выборке отказов значения статистик модифицированных критериев Колмогорова (3), Крамера-Мизеса-Смирнова (4) и Андерсона-Дарлинга (5):
SF 2 0.7909,
S8 2 0.0768, SX 2 0.4818.
Для вычисления достигнутых уровней значимости необходимо найти распределение статистик при справедливости сложной проверяемой гипотезы. Для этого в соответствии с предложенным алгоритмом моделировалось /V = 1 CP случайно цензурированных выборок, по каждой выборке оценивались параметры распределения Вейбулла и вычислялись значения статистик рассматриваемых критериев. При этом не наблюдалось существенного отличия между количеством цензурированных наблюдений в генерируемых выборках (среднее число цензурированных наблюдений равно 7) и в исходной выборке (см. табл. 4).
На основе построенных эмпирических распределений статистик критериев Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга получены следующие достигнутые уронен С С ни значимости: ак — 0.28, а(|) = 0.23, а о = 0.24. Поскольку вычисленные уровни значимости больше заданного а = 0.1, то нет причин для отклонения проверяемой гипотезы.
ЗАКЛЮЧЕНИЕ
Основное внимание в данной работе уделено проблеме применения модифицированных непараметрических критериев согласия в условиях, когда распределение моментов цензурирования неизвестно. Предложен алгоритм моделирования случайно цензурированных выборок, основанный на использовании оценки Каплана-Мейера для описания распределения моментов цензурирования.
Применение рассмотренных модифицированных критериев согласия для анализа случайно цензурированных выборок возможно при наличии программного обеспечения, позволяющего найти необходимое для проверки гипотезы распределение статистики критерия при справедливости проверяемой гипотезы в результате моделирования, осуществляемого в интерактивном режиме. При этом моделирование случайно цензурированных выборок с законом распределения моментов цензурирования, соответствующим анализируемой выборке при справедливости H{], может осуществляться в соответствии с предложенным алгоритмом.
Предложенный алгоритм моделирования случайно цензурированных выборок реализован в программной системе статистического анализа данных типа времени жизни LiTiS (дистрибутив которой доступен по адресу http://amsa.conf.nstu.ru/amsa2011/Litis.msi). Данная программная система позволяет проверять простые и сложные гипотезы о согласии по цензуриро-ванным выборкам относительно широкого спектра законов распределения с использованием модифицированных критериев типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга.
Тем не менее, вопрос о возможности применения модифицированных критериев согласия в задачах идентификации вероятностных моделей надежности остается открытым. Для выбора закона распределения, наилучшим образом описывающего исходные данные, желательно использование критериев согласия, распределения статистик которых были бы в меньшей степени чувствительны к типу и степени цензурирования данных.
СПИСОК ЛИТЕРАТУРЫ
[1] Barr D.M. A Kolmogorov-Smirnov test for censored samples / D.M. Barr, T. Davidson II Technometrics, 1973. -V. 15. №4.
[2] Pettitt A.N. Modified Cramer von Mises statistics for censored data / A.N. Pettitt, M.A. Stephens // Biometrika. -1976.-V. 63. №.2.
[3] Мания Г.М. Статистическое оценивание распределений / Г.М. Мания. - Тбилиси: Изд-во ТГУ, 1974. -
237 с.
[4] Лемешко Б.Ю. Проверка простых n сложных гипотез о согласии по цензурированным выборкам / Б.Ю. Лемешко, Е.В. Чимитова, Т.А. Плешкова // Научный вестник НГТУ. - 2010. - № 4(41). - С. 13-28.
[5] Hjort N.L. On Inference in Parametric Survival Data / N.L. Hjort // International Statistical Review. - 1992. -V. 60. №3,- P. 355-387.
[6] Koziol J.A. A Cramer-von Mises statistic for randomly censored data / J.A. Koziol, S.B. Green // Biometrika. -1976. - V. 63. № 3. - P. 465-474.
[7] Nair V. Plots and tests for goodness of fit with randomly censored data / V. Nair // Biometrika. - 1981. - V. 68. -P. 99-103.
[8] Reineke D. Estimation of Hazard, Density and Survival Functions for Randomly Censored Data / D. Reineke, J. Crown // Journal of Applied Statistics. - 2004. - V. 31. - № 10. - P. 1211-1225.
[9] Большее Л.Н. Таблицы математической статистики / Л.Н. Болынев, Н.В.Смирнов. - М.: Наука, 1983. -
416 с.
[10] Lee Е.Т. Statistical methods for survival data analysis / E.T. Lee, J.W. Wang. - NJ: John Wiley & Sons, Inc., 2003. -
535 P.
[11] Рыбалко B.B. Математические модели контроля надежности объектов энергетики / В.В. Рыбалко. - СПб.: ГОУВПО СПбГТУРП., 2010. - 151 с.
Лемешко Борис Юрьевич, доктор технических наук, профессор кафедры прикладной математики НГТУ. Основное направление научных исследований - компьютерные технологии анализа данных и исследования статистических закономерностей. Имеет более 300 публикаций, в том числе 5 монографий. E-mail: 1е[email protected]
Чимитова Екатерина Владимировна, кандидат технических наук, доцент кафедры прикладной математики НГТУ. Основное направление научных исследований - статистические анализ данных типа времени жизни. Имеет более 50 публикаций. E-mail: [email protected]
Ведерникова Мария Александровна, аспирант кафедры прикладной математики. Основное направление научных исследований - статистические методы анализа цензурированных данных. E-mail: [email protected]
Lemeshko B.Yu., Chimitova E.V., Vedernikova M.A.
Modified goodness-of-fit tests ofKolmogorov, Cramer-von Mises-Smirnov and Anderson-Darlingfor randomly censored samples
The distributions of modified Kolmogorov, Cramer-von Mises-Smirnov and Anderson-Darling goodness-of-fit test statistics have been studied by means of computer simulation methods for various sample sizes and distributions of censoring times. Testing simple and composite hypotheses has been considered. The algorithm for simulation of a randomly censored sample when the distribution of censoring times is unknown has been developed. The example of testing the composite goodness-of-fit hypothesis with considered modified tests for randomly censored data is given.
Key words: random censoring, modified goodness-of-fit tests ofKolmogorov, Cramer-von Mises-Smirnov and Anderson-Darling, Kaplan-Meier estimate.