Математическое моделирование. Оптимальное управление Вестник Нижегородского университета им. Н.И. Лобачевского, 2010, № 4 (1), с. 141-145
УДК 519.2
ОЦЕНИВАНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ ВЕЙБУЛЛА ПО СЛУЧАЙНО ЦЕНЗУРИРОВАННЫМ ВЫБОРКАМ
© 2010 г. М. С. Тихое, В.В. Агеев, Т. С. Бородина
Нижегородский госуниверситет им. Н.И. Лобачевского [email protected]
Поступила в редакцию 23.09.2009
Распределение Вейбулла является важным распределением, особенно для анализа надежности и ремонтопригодности. В статье представлены некоторые методы оценивания параметров распределения Вейбулла, именно параметра формы а и масштабного параметра а . Доказана состоятельность и асимптотическая нормальность полученных оценок.
Ключевые слова: распределение Вейбулла, случайно цензурированная выборка, параметрическое оценивание, метод наименьших квадратов.
Введение
Распределение Вейбулла является одним из важнейших в теории надежности. Оно имеет функцию распределения
Е (х) = 1 - ехр
/ \ а
Л
(1)
х > ц, а > 0, а > 0.
Это распределение является также одним из трех предельных распределений нормированных разностей минимума (максимума) независимых и одинаково распределенных случайных величин. Статистическому анализу распределения Вейбулла и его параметров посвящены две большие недавно вышедшие монографии (см. [1, 2]), список цитируемых статей которых насчитывает свыше тысячи источников. Основной метод оценивания параметров этого распределения - метод максимального правдоподобия. Однако ввиду аналитической сложности получаемых при этом уравнений для нахождения значений параметров распределения Вейбулла он используется в совокупности с численными методами, что вносит дополнительную погрешность в определение значений оценок. Другим способом оценивания является довольно простой и аналитически удобный метод спрямления, который сводится к следующему нелинейному функциональному преобразованию уравнения (1) (полагая ц = 0) :
г = а у -X , (2)
где г = 1п(- 1п(1 - Е(х))), у = 1пх, X = а 1па .
Таким образом, в системе координат у0г уравнение (2) есть уравнение прямой и оценку
параметров а и X , а значит, и а можно производить по методу наименьших квадратов. Для полных, цензурированных по типу I и типу II, прогрессивно цензурированных выборок такие оценки предложены в работах [1-5] и были исследованы в основном численными методами. Однако в литературе совсем не представлены подходы к построению и не исследовано поведение оценок по случайно цензурированным выборкам, что важно для практических приложений. В данной работе мы рассматриваем задачу построения оценок параметров распределения Вейбулла по случайно цензурированным выборкам. В преобразовании (2) мы используем, в основном, множительные оценки Каплана-Мейера [6] и оценки Нельсона-Аалена [7-9], а также метод наименьших квадратов. Мы показываем, что полученные оценки являются состоятельными и асимптотически нормальными. Рассмотрены и другие, важные в теории надежности и эконометрике, распределения, для которых применим предложенный подход.
1. Построение оценок
Мы рассматриваем случайно цензурированную выборку, когда вместо величин X,,1 < , < п , наблюдаются только пары (2^, 5^ , (22, 82), • ■ ■ , (2п,8п), 3 = тВД,Т), 5,- = IX <Т,), , = 1,2,..., где {Т,, 1 <, < п} есть цензурирующие величины, I(А) обозначает индикатор события А . Оценки параметров распределения Вейбулла будем строить по случайно цензурированным данным {(г,, 5, ),1 <, < N}.
Имея в виду практическое применение модели случайного цензурирования, будем считать, что X , 1 <, < п , и Т,■, 1 < / < п, являются
17 J
неотрицательными и независимыми случайными величинами, кроме того, каждая из случайных величин Т/ не зависит от каждой из величин Х1, где Х1 имеет функцию распределения Е(х) = 1 - ехр(-(х / а)а ). Цензурирующие величины Т1 , Т2 , • предполагаются независимыми, одинаково распределенными случайными величинами с известной или неизвестной функцией распределения О(х). В таком случае
функция распределения величины г, равна Н(х) = Р (г, < х) = 1 - (1 - Е(х))О(х) =
= 1 - 5 (х)О (х), где 5(х) = 1 - Е(х), О (х) = Р (Т > х) .
Хорошо известно, что наилучшей в определенном смысле оценкой функции распределения Е(х) по выборке (г,, 5;),1 <,< п, является оценка Каплана-Мейера (КМ) [6], определенная следующим образом:
Бп (х) = 1 - Рп (х) =
п
і = 1
1-
Я Л1 (^і:п - х)
8[і:п]
п — І + 1
(3)
п
и - хЧ
dN (и)
1----=------
у(и)
= %} , т0 5[і:п] = ; N(О = Nj (і) ,
п
место соотношение:
/
Р
/
\
вир I ^ (х) - F (х)| = О
-ГО<х<+ГО
1п п
= 1,
тическои дисперсиеи
Б 2( х) хг_^(у)_ п о 5 2(У)с (У)
Оценки параметров распределения ВеИбулла будем находить из условия минимума по а и X выражения
ГО
о. = о(ах) = о(1п(—1п(1 - рп(х))) -0
2 л
- а 1п х + X ) dFn (х).
Исходя из необходимого условия экстремума (для квадратичноИ функции оно является и достаточным), получаем систему уравнении:
01п х •1п (- 1п (1 - Рп (х))) ^п (х) =
го го
= а 01п 2 х dFn (х) - X 01п х dFn (х), о о
01п (- 1п (1 - FN (х))) ^п (х) =
ГО
= а 01п х dFn (х) - X.
(4)
где есть ,-я порядковая статистика, построенная по выборке г1, г2,..., 2п, а 5^] - ,-я сопутствующая порядковая статистика: если
Положим:
ОТ
V1 = |1п (- 1п (1 - Еп (х))) <^Еп (х),
0
ОТ
V 2 = 11п х • 1п (- 1п (1 - Еп (х))) dЕn (х), 0
ОТ ОТ
Т1 = 11п xdЕn (х), т 2 = 11п2 xdЕn (х). 00
Тогда система (4) примет вид:
| 2 = т2а-т1Х,
[V] = ^а-Х,
решением ее будет
а=
У1Т1 -у 2
т 2 Т т 1 -т2
х =
У1Т2-У 2 Т1 Т2 Т т 1 -т2
Nj (і) = I (X] - і, 8 ] = 1) , У (і) = X п=1 У] (I), У](і) = I(X] >і).
Известно (см. [10]), что для оценки (3) имеет
2. Состоятельность оценок
Имеет место следующий результат. Теорема 1. Предположим,
что
Б (х) = ехр(—(х / а)а ), а Є(х) - непрерывная
Р - р
функция. Тогда а ^ а, X ^ X.
п^го п ^го
Доказательство. Учитывая представление
т.е. почти наверное Еп (х) равномерно сходится к истинной функции распределения Е(х).
Известно также, что эти оценки асимптотически нормальны с ожиданием Е(х) и асимпто-
го
V! = 01п(- 1п(1 - Рп (х))) ^п (х) =
= 01п( - 1п(1 - F (х ))) dFn (х ) +
+ 01п (- 1п (1 - Рп (х)) - 1п (- 1п (1 - Р (х))) dFn (х)
о
и что при п ^ го
о
п
п
о
го
о
sup |ln (-ln(1 - Fn (x))) - ln(-ln(1 - F(x)))|<
x< ^0
й C1 sup |ln(1 - Fn (x)) - ln(1 - F (x)) | й
x й x0
(б)
й C2 sup | Fn (x) - F (x)| ,
x й x0
используя результаты работ [11, 12], получа-
P
ем: V1 - v1 — 0, где
V1 = Jln( - ln(1 - F (x))) dF (x) = 0
да
= J (а ln x + Х ) dF (x).
Аналогично,
да P
V2 = Jlnx•ln(- ln(1 - Fn (x)))dFn (x) — V2 ’
„ n—да
где
V2 = J ln x ln(- ln(1 - F (x))) dF (x) =
0
да
= J ln x (а ln x +Х ) dF (x),
да p да
T = J lnx dFn (x) — т = JlnxdF(x),
T2 = f ln2 x dFn(x) — T2 = fln2 xdF(x). 0 n—o 0
Из этих соотношений следует, что
а —
V1T1 -V2 т2 -т2
= а и Х —— Х.
th
Jф dFn - Jф dF 0
—— N (0, а^),
а12
= TH ^ dF (x) -
G (x)
Нф (x) dF (x)
т H
Н Т-Н1) [ Нф (у) dЕ(у)} ^
где измеримая функция ф: Я ^ Я такова, что |ф2 dЕ < да .
Из этого результата следует, например, что л/й(V) -V!) и л/й(т -Т1) асимптотически нормальны N(0, а2) и N(0, а2), если в качестве функции ф(х) взять ф2(х) = 1п(- 1п(1 -Е(х))) и ф3(х) = 1п х соответственно.
Из разложения
^т1- V1т1 = ^ (т1- т1) + т1 (^1- V1) в ы в о д и м , что п о с л е д о в а т е л ь н о с т ь
4п (V1T1 ^^1) при п ^-да будет асимптотически нормальна N(0,04), где С4 =а2 +03 +2а23,
а23 = ^т т/п Е ((V1 -V1)(T1 -т1)).
N ^да
Аналогично, 4п (V1T2 - у^), 4п (V2T1 - v2т1) и 4п (т2 -т2) будут асимптотически нормальны N(0, а2), N(0, а2) и N(0, а2).
Далее, пусть 4п (Т1п - Т1) и л/п (Т2п - Т2) асимптотически нормальны N(0,а2), N(0,а2). Имеем представление (см. [14]):
2n
T2 = Тщ - T2 T2(T1n - T1)
T1 n
З. Асимптотическая нормальность
Поскольку Н(x) есть функция распределения величины Zt = min (Xi, T), то положим
Н = 1 - Н и определим тН = inf {x > 0 :H(x) = 1}.
Теорема 2. При условиях теоремы 1 ■sfn(а-а) и Vn(Х-Х) асимптотически (при n — да ) нормальны.
Доказательство. Для установления сходимости нормированных разностей оценок
л/п (а-а) и л/п (Х-Х) к нормальным случайным величинам воспользуемся результатами работ [11-13], в которых показано, что
+O
Tn - TjXTin - T1)
+O
Ґ " т\
T (Tin - T1)2 Л
гтЗ
ч Т1 У из которого следует асимптотическая нормальность последовательностей 4п (а - а) и
4п (X - X). Теорема доказана.
В представленных рассуждениях вместо 1п (1 - Fn (х)) можно взять другие оценки функции распределения (например, оценки Нельсо-на-Аалена Ап (х) [7-9]) и мы получим те же предельные распределения оценок параметров
n—да
2
0
n—да
0
0
0
0
да
да
2
+
2
а и X , когда используются статистики An (x),
поскольку Fn и exp(-An) имеют одни и те же предельные распределения. Однако оценка SП = exp(-An) , являясь асимптотически несмещенной, при конечных n имеет смещение, и в некоторых случаях ее значения могут сильно отличаться от оценки Sn (x), поэтому для уменьшения этого смещения предлагается воспользоваться аппроксимациями Паде (см. [15]) для функции ln (1 - x) . Эти аппроксимации можно найти, воспользовавшись пакетом символьной математики Maple 12. Именно, находим, что
Pade [1,1] = -2x /(2 - x),
Pade [2,2] = (3x2 -x)/(6-6x + x2) .
Для демонстрации точности аппроксимации рассмотрим следующий пример.
Дана выборка объема N = 80 на интервале [0,4],в которой
zj dj Cj
1 З8 1
2 1б 2
З 10 2
4 8 З
(1) (2) (З) (4) (5)
1 0.5250 0.б219 0.5Зб4 0.525З
2 0.З200 0.4210 0.ЗЗ0З 0.З204
З 0.1809 0.2725 0.1895 0.1811
4 0.0494 0.1З17 0.0б04 0.0502
дельными для нормированных разностей экстремальных порядковых статистик (см. пп. 4.1 и 4.2), а также для распределений 4.3 и 4.4.
4.1. Распределение Фреше (обратное распределение Вейбулла (см. [2], 3.3.3, с. 129):
F1(x) = exp
-а
x
а
, x > 0, а> 0, а > 0. Здесь
необходимое преобразование есть ln( - ln Fj(x)) = -а (ln x - ln а ) .
4.2. Распределение Гнеденко-Гумбеля (лог-распределение Вейбулла) (см. [2], 3.3.4, с.131)
F2 (x) = 1 - exp (- exp (a (x - ln а))).
Преобразование:
ln(-ln(1-F2(x))) = -a (ln x-lna).
4.3. Распределение Парето - при больших значениях переменной x является аппроксимацией распределения Фреше:
Fз( x) = 1 -
-а
x і
— I , x >а, а> 0, а> 0.
Vа]
где dj - число отказов в момент г. (наблюдалась величина X/ и 5 . = 1), с. - число приостановок в момент г / (наблюдалась величина Т/ и 5 / =0 ).
Результаты расчетов приведены в таблице.
Таблица
Преобразование:
1п(1 - Е3( х)) = -а (1п х - 1п а ).
4.4. Логистическое распределение. Является сверткой двух распределений 4.2:
1
F4( x) = -
1 + exp
| x |
у
• sign x
Здесь в первом столбце приведены значения переменной х, во втором - значения оценки Каплана-
Мейера Б (х), в 3-м - значения функции ехр(-Ап (х)), в 4-м - значения функции ехр(-Pade [1,1]), в 5-м - значения функции ехр(-Pade [2, 2]). Таким образом, представленный пример говорит о том, что уже аппроксимация [2/2] достаточно хорошо приближает оценку КМ.
4. Другие распределения и оценивание их параметров
Подход, аналогичный представленному, можно использовать и для других распределений: распределения, которые являются пре-
а
-да < x <<х>, а> 0, а> 0.
Преобразование:
ln (signx • ln)—1-----11 = a(ln|x| - a).
g ' F(x) J V 1 1 '
Список литературы
1. Dobson B. The Weibull analysis handbook. ASQ Quality Press, 2006. 167 p.
2. Rinne H. The Weibull distribution. A Handbook. CRC Press, 2009. 762 p.
3. Cohen A.C. Maximum likelihood estimation in the Weibull distribution based оп complete and оп censored samples // Technometrics. 1965. V. 7, No. 4. P. 579-588.
4. Al-Fawzan M.A. Methods for estimating the parameters of the Weibull distribution. URL: http:/interstat.statjoumals.net/YEAR/2000/articles/00100 01.pdf.
5. Romeu J.L. Empirical assessment of Weibull distribution // RAC START. V. 10, No. 3. URL: http:// src.alionscience.com/pdf/WEIBULL.
6. Kaplan E.L., Meier P. Nonparametric estimation from incomplete observations // J. Amer. Statist. Assoc. 1958. V. 53. P. 457-481.
а
7. Nelson W. Hasard plotting for incomplete failure data // J. Qual. Tech. 1969. V. 1. P. 27-52.
8. Aalen O. Nonparametric inference in connection with multiple decrement models // Scandinavian J. Statist. 1976. P. 15-27.
9. Aalen O. Nonparametric inference for a family of counting process // Ann. Statist. 1978. V. 6, No. 4. P. 701-726.
10. Foldes A., Rejto L. Strong uniform consistency for nonparametric survival curve estimators from randomly censored data // Ann. Statist., 1981. V. 9, No. 1. P. 122-129.
11. Stute W. The statistical Analysis of Kaplan-Meier integrals // LectureNotes. 1995. V. 27. P. 231-254.
12. Stute W. The central limit theorem under random censorship // Ann. Statist. 1995. V. 23, No. 2. P. 422-439.
13. Suzukawa A. Asymptotic properties of Aalen-Johansen integrals for competing risk data // J. Japan Statist. Soc. 2002. V. 32, No. 1. P. 77-93.
14. Tikhov M.S. Statistical estimation on the basis of interval-censored data // Journal of Math. Sciences. 2004. V.119, No. 3. P. 321-335.
15. Бейкер Дж., Грейс-Моррис П. Аппроксимации Паде. М.: Мир, 1986. 502 с.
16. Breslow N.E. Discussion of professor Cox’s paper // Journal of the Royal Statistical Sоciety, Series B. 1972. V. 34. V. 216-217.
17. Тихов М.С. Линейные функции индуцированных порядковых статистик и непараметрическое оценивание распределений в зависимости доза-эффект // Обозрение прикл. и промышл. мат. 1999. T.
6, № 1.C. 244.
RANDOMLY CENSORED SAMPLE ESTIMATION OF WEIBULL DISTRIBUTION PARAMETERS
M.S. Tikhov, V. V. Ageev, T.S. Borodina
The Weibull distribution is an important distribution for reliability and maintainability analysis. Some methods for estimating Weibull parameters, namely, shape parameter a and scale parameter a are presented. Consistency and asymptotic normality of the estimations obtained have been proved.
Keywords: Weibull distribution, randomly censored sample, parametric estimation, least-square method.