_ДОКЛАДЫ АН ВШ РФ_
2016_апрель-июнь_№ 2 (31)
- ТЕХНИЧЕСКИЕ НАУКИ -
УДК 519.2
РАЗРАБОТКА И ИССЛЕДОВАНИЕ КРИТЕРИЕВ СОГЛАСИЯ ДЛЯ ПАРАМЕТРИЧЕСКИХ РЕГРЕССИОННЫХ МОДЕЛЕЙ НАДЕЖНОСТИ НА ОСНОВЕ ОЦЕНКИ БЕРАНА
В.А. Демин
Новосибирский государственный технический университет
В данной статье предлагаются критерии согласия, в основе которых лежит расстояние Колмогорова между условной функцией надежности, соответствующей проверяемой гипотезе, и непараметрической оценкой функции надежности, предложенной Бераном для различных планов эксперимента. Оценка Берана является обобщением хорошо известной оценки Каплана-Мейера. При расчете оценки Берана используется ранее предложенный алгоритм выбора адаптивного параметра размытости. Методами компьютерного моделирования проведено исследование зависимости распределений статистик критериев от объема выборки, а также числа точек плана эксперимента. В статье также предложено несколько статистик критериев в зависимости от плана эксперимента. Получено практическое подтверждение теоретических предположений о характере сходимости статистик критериев. В результате сравнительного анализа мощности показано, что для рассмотренных пар конкурирующих гипотез предложенные критерии предпочтительней классического критерия типа Колмогорова, применяемого к выборкам остатков, а также критерия типа хи-квадрат для модели пропорциональных интенсивностей. На примере анализа данных о стойкости электроизоляционных жидкостей при различных величинах напряжения построена параметрическая модель ускоренных испытаний и с использованием предложенного критерия проверена гипотеза о виде полученной модели.
Ключевые слова: данные типа времени жизни, критерий согласия, оценка Берана, параметрическая регрессионная модель, мощность критерия, план эксперимента.
Б01: 10.17212/1727-2769-2016-2-43-56
Введение
Построение статистической модели, описывающей зависимость функции надежности (выживаемости) от объясняющих переменных (ковариат), в качестве которых могут выступать воздействия различного типа, например, температура, давление, возраст пациентов, тип лечения больных, напряжение и другие, является одной из важнейших задач в теории надежности (выживаемости). К наиболее широко используемым на практике регрессионным моделям надежности можно отнести модели ускоренных испытаний [1] и пропорциональных интенсивностей Кокса [2], а также их обобщения [3].
При построении параметрической регрессионной модели привлекается априорная информация о характере зависимости функции надежности от объясняющих переменных, а также о виде распределения отказов. В случае отсутствия какой-либо априорной информации логично использовать непараметрические методы оценивания. К таким методам относится предложенное Р. Бераном обобщение оценки Каплана-Мейера [4] на случай построения регрессионных моделей
Исследование выполнено при поддержке Министерства образования и науки Российской Федерации в рамках проектной части государственного задания в сфере научной деятельности № 2.541.2014К от 17.07.2014.
© 2016 В.А. Демин
надежности [5]. В [6] проведено исследование скорости сходимости оценки Бера-на к истинной условной функции надежности для случайного плана эксперимента. В [7-10] проведено исследование статистических свойств оценки Берана и предложен метод выбора оптимального параметра сглаживания в случае детерминированных дискретных планов эксперимента.
Основной проблемой, возникающей при построении параметрической регрессионной модели надежности, является проверка справедливости предположения о виде регрессионной зависимости и распределении отказов, для чего используются критерии согласия. Подробное исследование распределений статистик и мощности критериев согласия, применяемых к выборкам остатков, для AFT-модели и модели Кокса представлено в работах [11-15]. В частности, в [11] исследуются критерии согласия в случае полных и цензурированных I и II типа выборок, в [14] сформулированы алгоритмы моделирования распределений статистик критериев типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга для случайно цензурированных выборок. Непараметрические критерии согласия для модели ускоренных испытаний наряду с примерами их применения представлены в [12]. Более полный обзор литературы, посвященной критериям согласия для регрессионных моделей надежности и выживаемости, можно найти в [15]. Вместе с тем существует и другой подход к построению критериев согласия для параметрических регрессионных моделей, который заключается в использовании непараметрической регрессии. Например, в [16-17] рассматривается критерий согласия для классической регрессионной модели с аддитивной ошибкой.
В настоящей работе предлагается универсальный критерий проверки гипотезы о виде параметрической регрессионной модели надежности, базирующийся на использовании оценки Берана. Основная идея заключается в том, чтобы оценить расстояние между теоретической условной функцией надежности, соответствующей проверяемой гипотезе, и непараметрической оценкой Берана при различных значениях ковариаты. В качестве такого расстояния в работе рассматривается статистика типа Колмогорова. В статье дается также пример построения параметрической регрессионной модели надежности для времени жизни изоляционных жидкостей в зависимости от напряжения.
1. Непараметрическая оценка Берана
Обозначим через Tx время безотказной работы исследуемых технических изделий, которое зависит от скалярной ковариаты, диапазон значений которой определяется условиями эксперимента и представляет собой отрезок числовой прямой. Без потери общности будем считать этот отрезок равным [0;1]. Функция
надежности определяется соотношением
Sx (t) = P(Tx > t) = 1 - F(t | x), (1)
где F(t | x) - условная функция распределения случайной величины Tx. В результате испытаний на надежность n объектов получена выборка отказов вида:
7 = {{, xO,^, x2),...,(Yn, xn )},
где Yi - время отказа i-го объекта; xi - значение ковариаты, при котором наблюдался i-й объект.
План эксперимента, при котором значение ковариаты xi представляет собой
реализацию случайной величины из некоторого распределения, будем называть случайным планом. Вместе с тем на практике план эксперимента чаще представ-
ляет собой дискретный детерминированный план, в котором объекты отобранной выборки разбиваются на группы, в каждой из которых определено значение кова-риаты.
В условиях отсутствия предположений о виде регрессионной зависимости условная функция надежности может быть построена с помощью непараметрической оценки Берана [5]:
\ п
7(0 *
1 --
К (х; Ьп)
1 -Г-К' (х; Ьп )|
где х - значение ковариаты, при которой оценивается функция надежности; К (х;Ьп), I = 1,...,п - веса Надарая-Уотсона; Ьп - параметр размытости, который определяется в соответствии с алгоритмом, предложенным в [7].
В [6] для случайного плана эксперимента и фиксированного значения х пока-
пЬ5
зано, что если —— = 0(1), то при п ^го 1п п
Бир|!5Ь (г1 х) - ¿х(г)| = 0
г >0
(2)
Проверим справедливость уравнения (2) с помощью методов компьютерного моделирования. Для этого можно аппроксимировать зависимость расстояния между оценкой Берана и истинной функцией надежности от объема выборки:
/ \ 0,5 ' 1п п л
Вп = Бир|§Ь (Г | х) - ^х (/)| = а1
г >0
V пЬп ;
+ е,
(3)
где е - случайная ошибка модели, которая удовлетворяет условиям: М(е) = 0 ,
Т 2
М(ее ) = ст , а1 - параметр, который следует оценить.
Чтобы оценить параметр а1, смоделируем N = 2000 выборок размером от 20 до 500 наблюдений при случайном плане. В качестве истинной модели рассмотрим модель Кокса [2]:
¿х (г) = (,(/) )г (х; Р)
с функцией от ковариат вида г (х; Р) = 1п(1 + ерх), Р = 2 и логнормальным базовым распределением с функцией плотности:
Л(*) =
1
ехр
20!
о ^
V0 2;
с параметрами 01 = 21,5, 02 = 1,6. Значения ковариаты моделировались в соответствии с равномерным распределением на интервале [0,1].
По сгенерированным выборкам считалось расстояние Вп между истинной условной функцией надежности и оценкой Берана при х = 0,5. В результате получена выборка вида {(В^,п1,Ь^ ),..., (ВП1,щ,ЬП1), по которой методом
наименьших квадратов оценивался параметр а^, входящий в (3). На рис. 1 в зависимости от объема выборки показаны средние значения статистики Оп и полученная аппроксимация зависимости (3) с оценкой параметра са1 = 0,55 .
0.35 0.3 0.25 0.2 0.15 0.1 0.05
П
О 100 200 300 400 500 600 700
Рис. 1 - Аппроксимация статистики (3) при случайном плане эксперимента для различных объемов выборки
Fig. 1 - Approximation of statistic (3) for different sample sizes for the random plan of experiment
Как видно на рис. 1, функция (3) достаточно точно описывает скорость сходимости оценки, при этом коэффициент детерминации R = 0,988 . Таким образом, результат, полученный в [6], хорошо подтверждается результатами компьютерного моделирования.
2. Критерий согласия на основе оценки Берана
В теории надежности условная функция надежности обычно параметризуется с учетом предположений о виде зависимости функции распределения отказов от наблюдаемой ковариаты. Обязательным этапом построения параметрической регрессионной модели надежности является проверка гипотезы вида
Hо : Sx(t) е {G(So(t;6),х,Р);р,9 е Q}, (4)
где G( So (t; 9), х, Р) - некоторая параметрическая регрессионная модель, которая определяет зависимость базовой функции надежности So(t; 9) от ковариаты х; 9 - вектор параметров базового распределения; р - вектор регрессионных параметров.
В данной работе для проверки гипотезы (4) предлагается непараметрический критерий согласия на основе оценки Берана. Основная идея заключается в использовании расстояния между теоретической функцией надежности и непараметрической оценкой Берана при различных значений ковариаты.
Одной из наиболее популярных статистик, применяемых для оценки расстояния между функциями надежности, является статистика типа Колмогорова. В случае проверки гипотезы (4) статистика принимает вид
sup |Sxi (t; 9, Р) - Sbn (tlx )| , (5)
i=1..и, t >0
где Sx, (t; 9, Р) - условная функция надежности, соответствующая гипотезе Ho .
Используя результаты исследования сходимости оценки Берана к истинной функции надежности, полученные в предыдущем разделе, можно построить критерий согласия на основе следующей статистики:
Sb =«i [-^1 sup S (t\x) ~sx (t)|, (6)
Ilnn) i=l..„, f>o' 1
распределение которой быстро сходится к некоторому предельному закону.
Однако статистика (6) имеет два существенных недостатка. Во-первых, она применима только для случайного плана. В случае дискретного плана необходимо учитывать количество групп и количество элементов в группе. В качестве демонстрации зависимости распределения статистики (6) от количества групп на рис. 2 показаны распределения статистики Sb при проверке гипотезы относительно описанной в предыдущем разделе модели Кокса (объем выборок n = 120, количество групп m = 4, 10, 20, 40, 60).
Рис. 2 - Распределения статистики (6) при различном числе групп плана эксперимента Fig. 2 - The distributions of statistic (6) for different groups number of experimental design
Как следует из рис. 2, распределение статистики (6) существенно зависит от числа групп в плане. То есть при дискретном плане распределения статистики (6) при различных значениях ковариаты с ростом объема выборок не сходятся к одному предельному распределению.
Вторым недостатком данной статистики в контексте построения критерия является то, что она учитывает только одно значение ковариаты. Другими словами, при построении статистики не используются все данные, представленные в выборке, и, следовательно, теряется часть информации об исследуемом явлении. Кроме того, остается открытым вопрос о том, как выбрать значение ковариаты, для которого необходимо рассчитать статистику. Мощность критерия, построенного по одному значению ковариаты, будет заведомо ниже, чем по всем ковариатам.
Следовательно, для построения критерия целесообразно учитывать все значения ковариаты. Поэтому в данной работе при построении критерия согласия для дискретного плана с большим числом элементов в группе (более 6) будем использовать статистику вида
\0,5
sup|SXi (t; 0, ß) - Sbn (t | xt )| . (7)
SB = sup
i=l..n
nbn
ln n ) t>0'
Если количество элементов в каждой группе меньше 6, предлагается использовать статистику вида
Sb =
nbn
ln n
0,5
sup \S}q (t;9,P) -Sbn (t | xj]
i=1..n, t >0
(8)
где у | х^) - оценка Берана при значении ковариаты х¡-.
Такое разделение позволяет использовать особенности каждого из видов плана эксперимента: дискретного детерминированного или случайного. Статистика (7) предназначена для дискретного плана, так как в этом случае информации о каждом значении ковариаты в плане эксперимента достаточно для того, чтобы использовать супремум. При случайном же плане, либо при планах, в которых количество наблюдений для каждого значения ковариаты невелико, критерий согласия со статистикой (7) будет иметь низкую мощность. Поэтому в этом случае необходимо использовать усредненное расстояние вида (8).
3. Исследование распределений статистик и мощности критериев
Исследуем поведение распределений статистик предложенных критериев в зависимости от объема выборки и количества групп. В качестве истинной модели рассмотрим модель ускоренных испытаний [18]:
Sx(.)(t) = S0
t
r (x; P)
с логарифмически линейной функцией от ковариат г(х; Р) = 1п(1 + еРх) и базовой
функцией надежности, соответствующей экспоненциальному распределению.
На рис. 3 и 4 приведены распределения статистик (7) и (8) с объемами выборок п = 20, 40, 80, 120, 200, 300 для количества групп т = 10.
едя.)
n=12 0 / / ///и=20
n=200 л=40
\
n=300 / n=&0
Л
0.00 0 .20 0 .60 .00 .40 .80 У
Рис. 3 - Распределения статистики (7) при различных объемах выборки для количества групп m = 10
Fig. 3 - The distributions of statistic (7) for different sample sizes with fixed groups number m = 10
Рис. 4. Распределения статистики (8) при различных объемах выборки для количества групп m = 10
Fig. 4. The distributions of statistic (8) for different sample sizes with fixed groups number m = 10
Как видно на рис. 3 и 4, распределения обеих статистик зависят от объема выборки и сдвигаются влево с увеличением объема выборки.
Теперь рассмотрим поведение распределений статистик (7) и (8) в зависимости от числа групп. На рис. 5 и 6 представлены распределения исследуемых статистик для фиксированного объема выборок n = 120 с различным числом групп: m = 4,10,20,30,40,60 . Количество наблюдений в каждой группе одинаково.
Рис. 5 - Распределения статистики (7) для различного количества групп при объеме выборки n = 120
Fig. 5 - The distributions of statistic (7) for different numbers of groups with fixed sample size n = 120
Как показано на рис. 5, с увеличением количества групп распределения статистики (7) оказываются правее. Однако распределения статистики (8) с ростом количества групп смещаются влево, как видно на рис. 6. Это связано с тем, что статистика (7) соответствует максимальному расстоянию между теоретической функцией надежности и оценкой Берана при значении ковариаты с наихудшей
оценкой. Таким образом, с увеличением количества различных значений ковариа-ты информация об одном значении уменьшается. В то же время статистика (8) соответствует среднему максимальному расстоянию по всем значениям ковариа-ты, поэтому с увеличением количества различных значений ковариаты вклад наихудшей оценки уменьшается, и усреднение происходит в большем количестве групп.
едяо)
Рис. 6 - Распределения статистики (8) для различного количества групп при объеме выборки n = 120
Fig. 6- The distributions of statistic (8) for different numbers of groups with fixed sample size n = 120
Далее исследуем мощность предложенного критерия и сравним ее с мощностью классических критериев на основе остатков. Для этого проведем те же эксперименты, что и в [15], и сравним результаты, полученные в случае полных данных для критерия Колмогорова, применяемого к выборкам остатков [11], и для критерия хи-квадрат в случае модели Кокса [15]. В качестве проверяемой гипотезы Hо рассмотрим модель пропорциональных интенсивностей Кокса с экспоненциальным базовым распределением с параметром масштаба 61 = 21,6147 и параметром ß = 0,2. Моделируемые выборки случайных величин объемом n = 100 содержат одну бинарную объясняющую переменную. В качестве конкурирующих гипотез рассмотрим два типа обобщенных моделей с базовым экспоненциальным законом:
H : модель Ксая
t
Лх (t; ß, у) = exp(ßTx) ^(t)}exp(y x) с параметрами ß = 0,2, у = 0,5;
H2: SCE модель
I l T \ 4exp(-yT-x)
Лx (t; ß, у) = (1 + exp ((ß + y)T x) Л0 (t)) -1
с параметрами ß = 0,2, у = 0,8.
Оценки мощности, полученные при уровне значимости а = 0,1, представлены в табл. 1.
Таблица 1 / Table 1
Оценки мощности критериев согласия Estimation of power of the tests
Конкурирующая гипотеза / Competing hypothesis Предложенный критерий (7)/ Proposed test (7) Предложенный критерий (8)/ Proposed test(8) Критерий Колмогорова/ Kolmogorov test Критерий хи-квадрат/ Chi-square test
я1 0,94 0,88 0,77 0,74
Hi 0,81 0,76 0,65 0,65
Как следует из результатов табл. 1, предложенный критерий согласия на основе оценки Берана способен различить гипотезы о виде регрессионной зависимости с большей мощностью, чем критерий Колмогорова, основанный на остатках. Кроме того, критерий со статистикой (7) обладает большей мощностью, чем критерий со статистикой (8). Это объясняется тем, что в данном эксперименте количество наблюдений в группе достаточно велико (в каждой группе 50 наблюдений), и статистика (7) была специально разработана для таких случаев.
Алгоритм проверки гипотезы об адекватности построенной модели с помощью предложенных критериев можно сформулировать следующим образом.
1. В соответствии с построенной моделью О (So(t; 0), х, р), где 0,р - ОМП параметров модели по исходной выборке, смоделировать выборку отказов 7 = {(71, Х1), (72, х2),..., (¥„, хп)}.
2. По полученной выборке оценить параметры модели методом максимального правдоподобия.
3. Вычислить значение статистики (7), либо (8) в зависимости от вида плана эксперимента: статистики (7) для дискретного плана, статистики (8) для случайного плана.
4. Повторить пункты 1-3 N раз, получив в результате эмпирическое распределение статистики критерия ОN(Sв | Но).
5. Проверяемая гипотеза Но об адекватности построенной модели отклоняется, если ап = 1 - ОN (в | Но) < а, где Sв - значение статистики соответствующего критерия согласия по исходной выборке.
4. Пример построения параметрической модели по реальным данным
В данном разделе покажем, как работает критерий согласия на примере построения вероятностной модели надежности электроизоляционной системы, в которой отказом считается пробой электроизоляционных жидкостей. Результаты ускоренных испытаний приведены в [19]. В данных испытаниях все объекты были разбиты на семь групп. Внутри каждой группы объекты наблюдались под постоянным повышенным напряжением от 26 до 38 кУ. Цель ускоренных испытаний заключалась в оценке функции надежности электроизоляционной системы под «нормальным» напряжением в 20 кУ. План испытаний и моменты отказов приведены в табл. 2.
Таблица 2 / Table 2
План испытаний и моменты отказов Plan of trials and failures times
Напряжение, kV / Voltage, kV Количество объектов/ Number of objects Моменты отказов [мин]/ Failures times [min]
26 3 5,79; 1579,52; 2323,7
28 5 68,85; 426,07; 110,29; 108,29; 1067,6
30 11 17,05; 22,66; 21,02; 175,88; 139,07; 144,12; 20,46; 43,40; 194,90; 47,30; 7,74
32 15 0,40; 82,85; 9,88; 89,29; 215,10; 2,75; 0,79; 15,93; 3,91; 0,27; 0,69; 100,58; 27,80; 13,95; 53,24
34 19 0,96; 4,15; 0,19; 0,78; 8,01; 31,75; 7,35; 6,50; 8,27; 33,91; 32,52; 3,16; 4,85; 2,78; 4,67; 1,31; 12,06; 36,71; 72,89
36 15 1,97; 0,59; 2,58; 1,69; 2,71; 25,50; 0,35; 0,99; 3,99; 3,67; 2,07; 0,96; 5,35; 2,90; 13,77
38 8 0,47; 0,73; 1,40; 0,74; 0,39; 1,13; 0,09; 2,38
В [12] проблема выбора базового распределения решена с помощью критериев, основанных на распределении остатков [3,14]. Наиболее подходящим базовым распределением был выбран обобщенный закон Вейбулла. Мы проверили аналогичную гипотезу с использованием критерия согласия со статистикой (8). В результате наиболее подходящим базовым распределением также оказался обобщенный закон Вейбулла.
Вследствие того, что предложенный критерий по сравнению с классическими при проверке гипотезы о виде функции от ковариат обладает большей мощностью, логично для проверки такой гипотезы применить разработанный критерий. В качестве возможных функций от ковариаты рассмотрим следующие:
r1(x) = epo +р1х , r2(x) = Л +P^x, r3(x) = epo +p!ln x .
В табл. 3 показаны результаты проверки гипотезы о виде функции от ко-вариаты.
Таблица 3 / Table 3
Результаты проверки гипотезы о виде функции ковариаты The results of testing the hypothesis of a covariate function
Вид функции от ковариат/ Type of covariate function Достигнутый уровень значимости/ p-value
r1( x) 0,665
r2( x) 0,005
r3( x) 0,680
Так как при проверке гипотезы о функции от ковариат вида г3(х) получен наибольший достигнутый уровень значимости, то функция г3 (х) наилучшим образом описывает данные. Однако для функции г1 (х) достигнутый уровень значимости лишь незначительно меньше значения, полученного для г3(х). Поэтому использование функции г_(х) также допустимо.
Определив вид базового закона и функции от ковариат, мы можем оценить, за какое время работы при напряжении 20 кУ с заданными вероятностями наступит пробой изоляционных жидкостей и изоляционная система выйдет из строя (табл. 4).
Таблица 4 / Table 4
Вероятность пробоя в зависимости от времени работы Probability of breakdown in time
Вероятность пробоя / Probability of breakdown 0,15 0,30 0,45 0,60 0,75 0,90
Время работы [мин] / Operating time [min] Г3 (x) 11 900 29 450 55 000 94 150 162 250 327 350
Время работы [мин] / Operating time [min] r\ (x) 2570 6550 12250 21 000 35 900 71 250
Как видно из табл. 4, использование различных функций от ковариат приводит к разным прогнозам. Это связано с тем, что модели с функциями Г3 (х) и г (х) существенно отличаются друг от друга при значениях ковариаты менее 26. Тогда как в исходном эксперименте объекты при напряжениях менее 26 кУ не исследовались, а под напряжением 26 кУ наблюдалось всего 3 объекта.
Из результатов экспериментов также видно, что с уменьшением напряжения закономерности возникновения отказов меняются нелинейно. Таким образом, вытекает необходимость проведения дополнительных исследований при напряжениях, близких к «нормальному» напряжению в 20 кУ, например, при 24 кУ и/или при 26 кУ.
Если это невозможно, следует рекомендовать работать с жидкостями (производить диагностику, делать замену и пр.) в соответствии с функцией от ковариат Гз(х) до 12 250 минуты. Однако если к 12 250 минуте ни один объект не
будет заменен в результате пробоя или неудовлетворительного технического состояния либо количество таких объектов окажется значительно меньше 50 %, то дальнейшие расчеты, план диагностики и прочее следует производить с учетом модели с функцией от ковариат Г3 (х).
Заключение
Таким образом, в статье предлагается критерий согласия, основанный на использовании оценки Берана и расстояния Колмогорова. В зависимости от плана эксперимента рекомендуется применение различных модификаций статистики. Показано, что мощность предложенного критерия превосходит мощность классических критериев, применяемых для проверки гипотезы о виде параметрической модели. Применение предложенного критерия предполагает нахождение требуемого для принятия решения распределения статистики, соответствующего справедливости проверяемой гипотезы Н0 , в результате компьютерного моделирования. В работе сформулирован и реализован алгоритм проверки сложных гипотез об адекватности построенной функции надежности, зависящий от вида плана эксперимента. На примере подбора модели для зависящей от напряжения функции надежности изоляционных систем показаны возможности применения предложенного критерия.
ЛИТЕРАТУРА
1. Meeker W.Q., Escobar L.A. Statistical methods for reliability data. - New York: John Wiley and Sons, 1998. - 680 p.
2. Cox D.R., Roy J. Regression models and life tables (with Discussion) // Journal of the Royal Statistical Society. - 1972. - Vol. 34. - P. 187-220.
3. Bagdonavicius V., Nikulin M. Accelerated life models: modeling and statistical analysis. -Boca Raton, FL: Chapman & Hall/CRC, 2002. - 334 p.
4. Kaplan E.L., Meier P. Nonparametric estimation from incomplete observations // Journal of the American Statistical Association. - 1958. - Vol. 53. - P. 457-481.
5. Beran R. Nonparametic regression with randomly censored survival data: technical report. -Berkeley: University of California, Department of Statistics, 1981.
6. Keilegom I. van. Nonparametric estimation of the conditional distribution in regression with censored data: dissertation. - Diepenbeek, 1998. - 206 p.
7. Demin V., Chimitova E. An adaptive method for selecting an optimal bandwidth parameter in nonparametric estimate of the conditional reliability function // Proceedings of the International Workshop "Applied methods of statistical analysis. Nonparametric approach -AMSA'2015", Novosibirsk, Belokurikha, 14-19 September 2015. - Novosibirsk: NSTU Publ., 2015. - P. 176-185.
8. Демин В.А., Чимитова Е.В., Щеколдин В.Ю. Исследование метода выбора оптимального параметра сглаживания при непараметрическом оценивании регрессионных моделей надежности // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2014. - № 2 (27). - С. 10-18.
9. Демин В.А., Чимитова Е.В. Выбор оптимального параметра сглаживания для непараметрической оценки регрессионной модели надежности // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. -2013. - № 1. - С. 59-65.
10. Chimitova E., Demin V. A method for selection of the optimal bandwidth parameter for Beran's nonparametric estimator // Topics in Statistical Simulation: Research Papers from the 7th International Workshop on Statistical Simulation. - New York: Springer, 2014. -P. 139-147. - (Springer Proceedings in Mathematics and Statistics; vol. 114).
11. Testing goodness-of-fit of parametric AFT and PH models with residuals / N. Balakrishnan, E. Chimitova, N. Galanova, M. Vedernikova // Communications in Statistics - Simulation and Computation. - 2013. - Vol. 42, N 6. - P. 1352-1367.
12. Галанова Н.С., Лемешко Б.Ю., Чимитова Е.В. Применение непараметрических критериев согласия к проверке адекватности моделей ускоренных испытаний // Автометрия. - 2012. - № 6. - С. 53-68.
13. Чимитова Е.В., Семенова М.А. Проверка адекватности параметрических регрессионных моделей надежности по усеченным слева и цензурированным справа данным // Доклады Академии наук высшей школы Российской Федерации. - 2015. - № 1 (26). -С. 104-120.
14. Чимитова Е.В., Ведерникова М.А., Галанова Н.С. Непараметрические критерии согласия в задачах проверки адекватности моделей надежности по цензурированным данным // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2013. - № 4 (25). - С. 115-124.
15. Семенова М.А. Разработка алгоритмического обеспечения и исследование обобщенных моделей пропорциональных интенсивностей: дис. ... канд. техн. наук: 05.13.17. -Новосибирск, 2015. - 154 с.
16. Keilegom I. Van, Gonzalez-Manteiga W., Sellero C.S. Goodness-of-fit tests in parametric regression based on the estimation of the error distribution // Test. - 2008. - Vol. 17, iss. 2. -P. 401-415.
17. Pardo-Fernandez J.C., Keilegom I. van, Gonzalez-Manteiga W. Goodness-of-fit tests for parametric models in censored regression // The Canadian Journal of Statistics. - 2007. -Vol. 35, N 2. - P. 249-264.
18. Nelson W. Accelerated testing: statistical models, test plans, and data analysis. - New York: John Wiley and Sons, 2004. - 601 p.
19. Lawless J.F. Statistical models and methods for lifetime data. - Hoboken, NJ: John Wiley and Sons, 2002. - 664 p.
RESEARCH AND DEVELOPMENT OF GOODNESS-OF-FIT TESTS BASED ON THE BERAN ESTIMATOR FOR THE PARAMETRIC REGRESSION RELIABILITY MODEL
Demin V.A.
Novosibirsk State Technical University, Novosibirsk, Russia
In this paper, a new goodness-of-fit test based on the Kolmogorov distance between the conditional reliability function, corresponding to the tested hypothesis, and the nonparametric estimator proposed by Beran is introduced. The nonparametric Beran estimator is a generalization of the well-known Kaplan-Meier estimate. In the paper goodness-of-fit tests are suggested for different experimental designs. Distributions of statistics of the proposed test are studied by computer simulation methods depending on the sample size and the number of points of the experimental design. Comparative analysis of the power of test has shown that for the considered pairs of competing hypotheses the proposed tests are preferable to the classical Kolmogorov test applied to samples of residues, and the chi-square test for the proportional hazard model.
Keywords: lifetime data; goodness-of-fit test; the Beran estimator; parametric regression model; power of test; experimental design.
DOI: 10.17212/1727-2769-2016-2-43-56
REFERENCES
1. Meeker W.Q., Escobar L.A. Statistical methods for reliability data. New York, John Wiley and Sons, 1998. 680 p.
2. Cox D.R., Roy J. Regression models and life tables (with Discussion). Journal of the Royal Statistical Society, 1972, vol. 34, pp. 187-220.
3. Bagdonavicius V., Nikulin M. Accelerated life models: modeling and statistical analysis. Boca Raton, FL, Chapman & Hall/CRC, 2002. 334 p.
4. Kaplan E.L., Meier P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 1958, vol. 53, pp. 457-481.
5. Beran R. Nonparametic regression with randomly censored survival data: technical report. Berkeley, University of California, Department of Statistics, 1981.
6. Keilegom I. van. Nonparametric estimation of the conditional distribution in regression with censored data. Dissertation. Diepenbeek, 1998. 206 p.
7. Demin V., Chimitova E. An adaptive method for selecting an optimal bandwidth parameter in nonparametric estimate of the conditional reliability function. Proceedings of the International Workshop "Applied methods of statistical analysis. Nonparametric approach — AMSA'2015", Novosibirsk, Belokurikha, 14-19 September 2015, pp. 176-185.
8. Demin V.A., Chimitova E.V., Shchekoldin V. Yu. Issledovanie metoda vybora optimal'nogo parametra sglazhivaniya pri neparametricheskom otsenivanii regressionnykh modelei nadezhnosti [The research of optimal choice method of bandwidth parameter for nonparametric estimation of reliability regression models]. Vestnik Tomskogo gosudarstvennogo uni-versiteta. Upravlenie, vychislitel'naya tekhnika i informatika — Tomsk State University Journal of Control and Computer Science, 2014, no. 2 (27), pp. 10-18.
9. Demin V.A., Chimitova E.V. Vybor optimal'nogo parametra sglazhivaniya dlya nepa-rametricheskoi otsenki regressionnoi modeli nadezhnosti [The choice of the bandwidth parameter for nonparametric regression reliability model]. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika — Tomsk State University Journal of Control and Computer Science, 2013, no. 1, pp. 59-65.
10. Chimitova E., Demin V. A method for selection of the optimal bandwidth parameter for Beran's nonparametric estimator. Topics in Statistical Simulation: Research Papers from the 7th International Workshop on Statistical Simulation. Springer Proceedings in Mathematics and Statistics. New York, Springer, 2014, vol. 114, pp. 139-147.
11. Balakrishnan N., Chimitova E., Galanova N., Vedernikova M. Testing goodness-of-fit of parametric AFT and PH models with residuals. Communications in Statistics - Simulation and Computation, 2013, vol. 42, no. 6, pp. 1352-1367.
12. Galanova N.S., Lemeshko B.Yu., Chimitova E.V. Using nonparametric goodness-of-fit tests to validate accelerated failure time models. Optoelectronics, Instrumentation and Data Processing, 2012, vol. 48, iss. 6, pp. 580-592. Translated from Avtometriya, 2012, no. 6, pp. 53-68.
13. Chimitova E.V., Semenova M.A. Proverka adekvatnosti parametricheskikh regressionnykh modelei nadezhnosti po usechennym sleva i tsenzurirovannym sprava dannym [Testing goodness-of-fit of parametric reliability regression models with left truncated and right censored data]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii - Proceedings of the Russian higher school Academy of sciences, 2015, no. 1 (26), pp. 104-120.
14. Chimitova E.V., Vedernikova M.A., Galanova N.S. Neparametricheskie kriterii soglasiya v zadachakh proverki adekvatnosti modelei nadezhnosti po tsenzurirovannym dannym [Non-parametric goodness-of-fit tests in testing adequacy of reliability models for right censored data]. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitel'naya tekhni-ka i informatika - Tomsk State University Journal of Control and Computer Science, 2013, no. 4 (25), pp. 115-124.
15. Semenova M.A. Razrabotka algoritmicheskogo obespecheniya i issledovanie obobshchen-nykh modelei proportsional'nykh intensivnostei: diss. kand. tekhn. nauk [Development and research of algorithmic support of generalized proportional hazards models. PhD eng. sci. diss.]. Novosibirsk, 2015. 154 p.
16. Keilegom I. van, Gonzalez-Manteiga W., Sellero C.S. Goodness-of-fit tests in parametric regression based on the estimation of the error distribution. Test, 2008, vol. 17, iss. 2, pp. 401-415.
17. Pardo-Fernandez J.C., Keilegom I. van, Gonzalez-Manteiga W. Goodness-of-fit tests for parametric models in censored regression. The Canadian Journal of Statistics, 2007, vol. 35, no. 2, pp. 249-264.
18. Nelson W. Accelerated testing: statistical models, test plans, and data analysis. New York, John Wiley and Sons, 2004. 601 p.
19. Lawless J.F. Statistical models and methods for lifetime data. Hoboken, NJ, John Wiley and Sons, 2002. 664 p.
СВЕДЕНИЯ ОБ АВТОРАХ
Демин Виктор Андреевич - родился в 1988 году, аспирант кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Область научных интересов: непараметрические регрессионные модели надежности. (Адрес: 630073, Россия, г. Новосибирск, пр. Карла Маркса, 20. E-mail: [email protected]).
Demin Victor Andreevich (b. 1988) - Ph.D. student of the department of theoretical and applied informatics in the Novosibirsk State Technical University. Research interests are currently focused on nonparametric regression reliability models. (20, Karl Marx Av., Novosibirsk, 630073, Russia. E-mail: [email protected]).
Статья поступила 07 апреля 2016 г.
Received April 07, 2016
To Reference:
Demin V.A. Razrabotka i issledovanie kriteriev soglasiya dlya parametricheskikh regressionnykh modelei nadezhnosti na osnove otsenki Berana [Research and development of goodness-of-fit tests based on the Beran estimator for the parametric regression reliability model]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii - Proceedings of the Russian higher school Academy of sciences, 2016, no. 2 (31), pp. 43-56. doi: 10.17212/1727-2769-2016-2-43-56