ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2013 Управление, вычислительная техника и информатика № 1(22)
УДК 519.2
В.А. Демин, Е.В. Чимитова ВЫБОР ОПТИМАЛЬНОГО ПАРАМЕТРА СГЛАЖИВАНИЯ ДЛЯ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ РЕГРЕССИОННОЙ МОДЕЛИ НАДЕЖНОСТИ
Рассматривается один из популярных подходов к непараметрическому оцениванию регрессионной модели надежности, предложенный Бераном. Оценка Берана позволяет оценить функцию надёжности регрессионной модели. Показаны результаты исследования зависимости точности оценки Берана от различных факторов, и предлагается универсальный метод для подбора параметра сглаживания.
Ключевые слова: функция надёжности, регрессионная модель, непараметрическая оценка Берана, параметр сглаживания.
В задачах статистического анализа данных типа времени жизни, например, времени безотказной работы технических изделий в теории надежности, времени жизни пациентов в анализе выживаемости, типичной задачей является исследование зависимости функции надежности (выживаемости) наблюдаемой случайной величины от объясняющих переменных. В теории надежности в качестве объясняющих переменных обычно выступают воздействия (нагрузки), оказывающие влияние на продолжительность безотказной работы, такие, как температура, давление, напряжение, механические нагрузки и другие. Для описания зависимости функции надежности от объясняющих переменных, или, как их принято называть в анализе данных типа времени жизни, - ковариат, используют различные параметрические модели, наиболее популярными из которых являются модель ускоренных испытаний и модель пропорциональных интенсивностей. Однако построение любой параметрической модели требует выполнения определенных предположений. На практике же априорные предположения о функциональной зависимости функции надежности от ковариат обычно отсутствуют. В такой ситуации целесообразно применение непараметрических методов, которые позволяют не только оценить функцию надежности при различных значениях ковариа-ты, но и могут использоваться для построения статистического критерия согласия с некоторой параметрической моделью надежности.
Одним из наиболее популярных подходов к непараметрическому оцениванию регрессионной модели надежности является оценка, предложенная Бераном [1]. Исследования статистических свойств данной оценки для случайного плана эксперимента, когда значение ковариаты не фиксировано, представлены в [2-5]. В [6] исследованы свойства оценки для неслучайного плана, когда значения кова-риат определяются заранее.
В литературе, посвященной непараметрическим оценкам, широко представлены различные методы выбора оптимального параметра сглаживания для случая ядерного оценивания функции плотности распределения, например в [7]. В [8] описываются основные подходы к выбору параметра сглаживания при построении непараметрических оценок регрессионных моделей, для которых имеются
значения отклика и факторов, от которых он зависит. К сожалению, в известной авторам литературе проблема выбора оптимального параметра сглаживания для оценки Берана не рассматривается. Тогда как от значения этого параметра существенно зависит качество получаемых оценок. В данной работе предлагается алгоритм выбора оптимального параметра сглаживания при построении непараметрической оценки Берана для регрессионных моделей надежности.
1. Непараметрическая оценка Берана
Обозначим через Тх время безотказной работы исследуемых технических изделий, которое зависит от скалярной ковариаты х. Функция надежности определяется соотношением
5 (Г | х) = Р(Тх > t) = 1 - F(Г | х), (1)
где F(Г | х) - условная функция распределения случайной величины Тх .
Главной особенностью данных типа времени жизни является наличие цензурированных справа наблюдений, которые можно представить в виде
(Г,, х1,51),(Г2, х2, 82),...,(Ги , хп, Ъп ^ где п - объем выборки, х/ - значение ковариаты для /-го объекта, - время на-
работки до момента отказа или цензурирования, 8/ - индикатор цензурирования,
который принимает значение 1, если наблюдение полное, и 0, если цензурированное.
Оценка Берана имеет следующий вид [1]:
1 - К (x; hn)
1 -Е "К (х; hn)
(2)
Л / —1
ч
где х - значение ковариаты, для которой оценивается функция надёжности; W1n (х;Ип),/ = 1,...,п - веса Надарая - Ватсона, которые можно вычислить по формуле [5]
,гп1х^=^Шк^пг\ (3)
x - x.
где K ^-----l-j - ядерная функция, удовлетворяющая условиям регулярности:
K(у) = K(-у) ,0 < K(у) <ж, | K(y)dy = 1, hn > 0 - параметр сглаживания та-
—Ж
кой, что lim hn = 0 , lim nhn = ж.
n—ж n——ж
Следует отметить, что при значениях весов Надарая - Ватсона Wn (x; hn) = n-
оценка Берана сводится к оценке Каплана - Мейера [5].
С использованием методов компьютерного моделирования и исследования статистических закономерностей нами подтверждены свойства оценки Берана: с увеличением объема выборки точность получаемых оценок растет. В результате
проведенных исследований показано, что точность оценок существенно зависит от значения параметра сглаживания и практически не зависит от вида ядерной функции. При этом выбор параметра сглаживания должен осуществляться, в первую очередь, на основании разницы предполагаемых функций надежности, соответствующих разным значениям ковариаты, тогда как влияние объема выборки и плана эксперимента оказывается несущественным при выборе параметра сглаживания. Проиллюстрируем данный результат на примере.
Рассмотрим следующий план эксперимента: все испытуемые объекты разделены на 10 групп по пі = 15 , і = 1,..., 10, объектов. Каждая группа объектов тестируется при воздействии х равном 0, 0,11, 0,22, 0,33, 0,44, 0,56, 0,67, 0,78, 0,89, 1, соответственно. На основе данного плана эксперимента смоделируем 2 выборки в соответствии с моделью ускоренных испытаний вида
вая выборка моделировалась при значении регрессионного параметра равном Р = 2, вторая выборка - при Р = 5 .
На рис. 1 представлены оценки Берана для функции надежности при х = 0 и х = 0,56 , полученные по первой выборке. Для сравнения также приведены соответствующие истинные функции надежности (4). Оценки Берана, построенные по второй выборке, и соответствующие истинные функции надежности изображены на рис. 2. Параметр сглаживания Нп при построении оценки Берана в обоих случаях взят равным 0,5.
Как видно из рис. 1, оценки Берана достаточно близки к соответствующим функциям надежности, однако, как показано на рис. 2, при таком же плане эксперимента наблюдается существенное отклонение оценок Берана от истинных функций в случае, когда влияние воздействия х более значимо (при большем значении регрессионного параметра).
где Г(•, д) - неполная гамма-функция, функция от воздействий г(х, Р) = евх. Пер-
S(t)
0,8-
0,6
0,4-
0,2 -
0 5 10 15 20 І
Рис. 1. Функции надёжности и оценки Берана, Нп = 0,5 , р =2
0 10 20 30 40 г
Рис. 2. Функции надёжности и оценки Берана, кп = 0,5 , р =5
2. Выбор оптимального параметра сглаживания
Параметр сглаживания определяет, какие наблюдения будут участвовать в построении оценки Берана, а какие нет: чем больше параметр сглаживания, тем больше наблюдений будет участвовать в построении оценки. Таким образом, меняя параметр сглаживания, мы можем отсеивать «лишние» наблюдения.
В данной работе предлагается алгоритм выбора оптимального параметра сглаживания кп для оценки Берана, основанный на минимизации среднеквадратического отклонения времен отказов У1,У2,...,Уп от непараметрической оценки обратной функции надежности 5'-1 (р) . Обозначим обратную функцию надежности через g (р | х). Тогда модель (1) можно переписать в виде
Тх = g ( Р 1 Х) + е , (5)
где р е (0,1), е - ошибка наблюдения, которая в общем случае может зависеть от р и х.
Ядерная оценка для модели (5) имеет вид
^ (р 1 X )= -(р )• ,
п}=1 ;
где - это уже известные нам веса Надарая - Ватсона, которые в данном случае вычисляются следующим образом:
№«(р-)=к ^ Vх «=к (^ )•
Вероятности pi вычисляются с использованием оценки Берана по формуле (2):
р г = \ (|Хг )
параметр сглаживания Ьп можно рассчитать, например, по формуле [7]
Ь = 1,059 -ст • п
1 » ( 1 » Ч~Е Рі Р.
К" ¿=1V " і=1
Таким образом, получить оптимальный параметр сглаживания можно в результате минимизации:
А°р‘ = агя тіп1 £ 5,. • ( (рі \ хг) - У, )2 .
¿=1
Исследуем точность получаемых оценок с использованием предложенного алгоритма выбора оптимального параметра сглаживания. В качестве оценки точности получаемых оценок будем рассчитывать среднее отклонение вида
N п
= N ЕЕ
г=1 і=1
()
где N - число моделируемых выборок, соответствующих модели £ (/ | X).
В таблице приведены средние отклонения (6) в случае моделирования N = 2000 выборок в соответствии с моделью ускоренных испытаний (4) при различных значениях регрессионного параметра и объемах выборок п . Значения ко-вариаты в моделируемых выборках генерировались из равномерного на отрезке [0, 1] распределения.
Зависимость точности оценки Берана от параметра сглаживания
р Объём выборки(п) К = 0,1 К = 0,5 К = 0,9 К/
50 0,083 0,066 0,087 0,063
4,5 75 0,067 0,063 0,085 0,053
100 0,058 0,061 0,083 0,048
50 0,061 0,096 0,131 0,057
7 75 0,048 0,095 0,130 0,047
100 0,043 0,094 0,129 0,041
Из таблицы видно, что применение алгоритма выбора оптимального параметра сглаживания позволяет получать более точные оценки Берана: значение отклонения (6) в случае заданных значений параметра сглаживания Ип больше, чем в случае использования оптимального параметра ИПр1 при всех рассмотренных объемах выборок и значениях регрессионного параметра.
Вернемся к рассмотренному выше примеру построения оценки Берана для двух выборок, смоделированных в соответствии с моделью ускоренных испытаний (4). Построим по ним оценки Берана с использованием оптимального параметра сглаживания ИПр1. На рис. 3 и 4 представлены теоретические функции надежности и оценки Берана с использованием оптимального параметра сглаживания, полученные по тем же выборкам, для которых на рис. 1 и 2 соответственно представлены оценки Берана с заданным значением параметра сглаживания.
Как видно из рис. 3, оценки Берана достаточно близки к соответствующим функциям надежности, впрочем, как и на рис. 1. Однако на рис. 4 оценки Берана значительно ближе к соответствующим теоретическим функциям надежности,
чем на рис. 2, что свидетельствует о том, что применение алгоритма выбора оптимального параметра сглаживания позволяет существенно повысить точность оценок Берана по сравнению с подходами к выбору параметра сглаживания, основанными на объеме выборки и особенностях плана эксперимента.
Рис. 3. Функция надёжности и оценки Берана с параметром й°р4, Р =2
Рис. 4. Функция надёжности и оценки Берана с параметром й°р4, Р = 5
Заключение
В работе рассматриваются вопросы построения непараметрической оценки Берана для регрессионной модели надежности. Основным фактором, влияющим на точность получаемых оценок, является выбор параметра сглаживания. На примере выборок, смоделированных в соответствии с параметрической моделью ускоренных испытаний, показано, что выбор параметра сглаживания должен осуществляться, в первую очередь, на основании разницы предполагаемых функций надежности, соответствующих разным значениям ковариаты, тогда как влияние
объема выборки и плана эксперимента оказывается несущественным при выборе параметра сглаживания.
В работе предложен алгоритм выбора оптимального параметра сглаживания для построения непараметрической оценки Берана регрессионной модели надежности. Алгоритм основан на минимизации среднеквадратического отклонения времен отказов от непараметрической оценки обратной функции надежности. Оценки Берана, построенные с использованием оптимального параметра сглаживания, оказываются точнее, чем при использовании фиксированного параметра сглаживания, во всех рассмотренных случаях.
ЛИТЕРАТУРА
1. Beran R. Nonparametic Regression with Randomly Censored Survival Data. Technical report. Department of Statistics. University of California. Berkeley, 1981.
2. Dabrowska D.M. Nonparametric quantile regression with censored data // Sankhya Ser. A. 54. 1992. P. 252-259.
3. Gonzalez M.W., Cadarso S.C. Asymptotic properties of a generalized Kaplan-Meier estimator with some application // J. Nonparametric Statistics. 1994. No. 4. P. 65-78.
4. McKeague I.W., Utikal K.J. Inference for a nonlinear counting process regression model // Ann. Statist. 1990. V. 18. P. 1172-1187.
5. Van Keilegom I., Akritas M.G., Veraverbeke N. Estimation of the conditional distribution in regression with censored data: a comparative study // Computational Statistics & Data Analysis. 2001. V. 35. P. 487-500.
6. Akritas M.G. Nearest neighbor estimation of a bivariate distribution under random censoring // Ann. Statist. . 1994V. 22. P. 1299-1327.
7. Расин Д. Непараметрическая эконометрика: вводный курс // Квантиль. 2008. № 4. С. 7-26.
8. Хардле В. Прикладная непараметрическая регрессия. М.: Мир, 1993. C. 6-45.
Демин Виктор Андреевич Чимитова Екатерина Владимировна
Новосибирский государственный технический университет
E-mail: [email protected]; [email protected] Поступила в редакцию 28 апреля 2012 г.
Demin Victor A., Chimitova Ekaterina V. (Novosibirsk State Technical University). Choice of optimal smoothing parameter for nonparametric estimation of regression reliability model.
Keywords: reliability function, regression model, nonparametric Beran estimator, smoothing parameter.
The problem of nonparametric estimation of regression reliability model is considered. We consider nonparametric estimates, suggested by Beran. The main factor influencing the quality of estimates is the choice of smoothing parameter. On the example of samples, simulated from the accelerated failure time model it has been shown that the choice of smoothing parameter should be based on the difference between reliability functions corresponding to different values of the covariate, whereas the influence of the sample size and plan of experiment is not significant in the choice of smoothing parameter.
In this paper we propose the algorithm of the choice of optimal smoothing parameter for non-parametric Beran estimate of regression reliability model. The algorithm is based on the minimization of standard deviation of lifetimes from nonparametric estimate of the inverse reliability function. In all considered examples the Beran estimates, obtained with the optimal smoothing parameter, turn out to be more accurate than in the case of using fixed parameter.