Научная статья на тему 'ОЦЕНКА ПАРАМЕТРОВ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ С УЧЕТОМ УСЕЧЕННЫХ СЛЕВА И ЦЕНЗУРИРОВАННЫХ СПРАВА ДАННЫХ'

ОЦЕНКА ПАРАМЕТРОВ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ С УЧЕТОМ УСЕЧЕННЫХ СЛЕВА И ЦЕНЗУРИРОВАННЫХ СПРАВА ДАННЫХ Текст научной статьи по специальности «Математика»

CC BY
93
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник кибернетики
ВАК
Область наук
Ключевые слова
МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ / МОДЕЛИРОВАНИЕ ДАННЫХ / ПОЛНЫЕ ДАННЫЕ / ЦЕНЗУРИРОВАННЫЕ ДАННЫЕ / УСЕЧЕННЫЕ ДАННЫЕ / MAX LIKEHOOD METHOD / DATA MODELING / COMPLETE DATA / CENSORED DATA / TRUNCATED DATA

Аннотация научной статьи по математике, автор научной работы — Николаев Д.А., Антонов А.В., Чепурко В.А.

На современном этапе развития энергетики возникает необходимость в решении задач, направленных на повышение безопасности, надежности и эффективности функционирования энергоблоков. В последние десятилетия развивается аппарат математической и статистической теории надежности, помогающий в решении подобных задач. Разрабатываются математические модели, описывающие поведение систем во времени. Оценку показателей надежности объектов осуществляют на основании информации, полученной в процессе специальным образом организованных испытаний или эксплуатации. Эксплуатационная информация более объективна для определения характеристик надежности элементов. Она отражает: специфику функционирования объектов, комплексы, воздействующие на объект, анализ факторов и другие особенности эксплуатации. В данной статье рассматриваются статистические данные, полученные в ходе эксплуатации объектов, их особенности и способы моделирования. В качестве примера приведен метод моделирования полных данных, цензурированных справа данных и усеченных слева данных, т. к. на практике такая комбинация встречается довольно часто. Приведен вид функций правдоподобия для экспоненциального распределения, гамма распределения и распределения Вейбулла. Рассмотрен тестовый пример, в котором с помощью метода максимального правдоподобия находится оценка параметра экспоненциального закона распределения тестовой выборки, содержащей полные, усеченные слева и цензурированные справа данные. Исследовано изменение значений оценок параметра экспоненциального закона распределения, его точности в зависимости от доли усеченных и от доли цензурированных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Николаев Д.А., Антонов А.В., Чепурко В.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DISTRIBUTION LAW PARAMETERS EVALUATION CONSIDERING LEFT-TRUNCATED AND RIGHT-CENSORED DATA

At the present stage of power industry development there is a need to improve nuclear power unit safety, reliability, and efficiency. To solve these problems, the mathematical and statistical reliability theory has been under development for the last couple of decades. The mathematical models representing the system behavior vs. time are being created. The reliability indicators are assessed with the information available through special tests or obtained in actual operation. The most objective information to determine the component reliability is the performance data since they reflect the actual unit operation, the factors it is affected to, and other features. The paper considers various statistical data obtained in service, their features, and modeling approaches. As an example, a complete, left-truncated and right-censored data modeling method is used because it is quite common in real life. A number of likelihood functions for the exponential, gamma, and Weilbull distribution are presented. A case study is included. The max likehood method is applied to evaluate the exponential distribution law parameters for a test sample that contains complete, left-truncated and right-censored data. The changes in the exponential distribution law parameter and its accuracy vs. the share of truncated/censored data have been studied.

Текст научной работы на тему «ОЦЕНКА ПАРАМЕТРОВ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ С УЧЕТОМ УСЕЧЕННЫХ СЛЕВА И ЦЕНЗУРИРОВАННЫХ СПРАВА ДАННЫХ»

УДК

ОЦЕНКА ПАРАМЕТРОВ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ С УЧЁТОМ УСЕЧЕННЫХ СЛЕВА И ЦЕНЗУРИРОВАННЫХ СПРАВА ДАННЫХ

Д. А. Николаев, А. В. Антонов, В. А. Чепурко

АО "Русатом Автоматизированные системы управления", Москва dafanday@gmail.com, a. v. antonov-54@yandex. ru, v. a. chepurko@mail.ru

На современном этапе развития энергетики возникает необходимость в решении задач, направленных на повышение безопасности, надежности и эффективности функционирования энергоблоков. В последние десятилетия развивается аппарат математической и статистической теории надежности, помогающий в решении подобных задач. Разрабатываются математические модели, описывающие поведение систем во времени.

Оценку показателей надежности объектов осуществляют на основании информации, полученной в процессе специальным образом организованных испытаний или эксплуатации. Наиболее объективной информацией для определения характеристик надежности элементов является эксплуатационная информация, потому что она отражает специфику функционирования объектов, комплекс воздействующих на объект анализа факторов и другие особенности эксплуатации.

В данной статье рассматриваются различные статистические данные, получаемые в ходе эксплуатации объектов, их особенности и способы моделирования. В качестве примера приведен метод моделирования полных данных, цензурированных справа данных и усеченных слева данных, т.к. на практике такая комбинация встречается довольно часто. Приведен вид функций правдоподобия для экспоненциального распределения, гамма распределения и распределения Вейбулла. Рассмотрен тестовый пример, в котором с помощью метода максимального правдоподобия находится оценка параметра экспоненциального закона распределения тестовой выборки, содержащей полные, усеченные слева и цензурированные справа данные. Исследовано изменение значений оценок параметра экспоненциального закона распределения и его точности в зависимости от доли усеченных и от доли цензурированных данных.

Ключевые слова: метод максимального правдоподобия, моделирование данных, полные данные, цензурированные данные, усеченные данные.

PARAMETER ESTIMATION FOR DISTRIBUTION LAWS TAKING INTO ACCOUNT LEFT TRUNCATED AND RIGHT CENSORED DATA

D. A. Nikolaev, A. V. Antonov, V. A. Chepurko

JSC «Rusatom Automated Control Systems», Moscow dafanday@gmail.com, a. v. antonov-54@yandex. ru, v. a. chepurko@mail.ru

At the present stage of energetics development there is a need in tasks solution aimed at improving safety, reliability and efficiency of power units. In recent decades, the mathematical and statistical reliability theory are being developed to help in solving such problems. Mathematical model describing the behavior of systems in time are developed.

Evaluation of dependability ratio of the objects is carried out based on information obtained during specially organized tests or operations. The most objective information to determine the reliability behavior of components is the operational information, because it reflects the specifics of objects functionality, the complex of factors affecting the analysis object and other operation features.

This article discusses the various statistical data obtained during objects operation, their

features and simulation methods. For illustrative purposes, a method of modeling of complete data, right censored data and left truncated data is provided. In practice, this combination occurs quite often. Form of likelihood functions for exponential distribution, gamma distribution and Weibull distribution are presented. The test example, in which estimation of parameter of exponential distribution is found using the maximum likelihood method tacking into account complete, left truncated and right censored data, is given. The values variation of estimates of exponential distribution parameter and accuracy depending on the proportion of truncated and censored data has been studied.

Keywords: maximum likelihood, data modeling, complete data, censored data, truncated

data.

Введение

Рассмотрим основные понятия, касающиеся информации, получаемой в ходе проведения наблюдений. Под данными, применительно к задачам надежности, понимают фиксированные значения наработок изделий, полученные по результатам испытаний или эксплуатационных наблюдений. Множество наблюдений определяется конкретно для каждого этапа наблюдения за i-м объектом из совокупности N объектов, отобранных для проведения эксплуатационных наблюдений или испытаний. Если момент отказа объекта принадлежит интервалу его наблюдения, то соответствующий элемент выборки будем называть наработкой до отказа, в противном случае наработкой до цензурирования. Данные, для которых имеется неопределенность в наблюдениях за реализацией исследуемого признака (отказа объекта), называются цензурированными данными. Данными цензурированной выборки являются как наработки отказавших объектов, так и наработки не отказавших объектов, а также интервалы времени, в течение которых объект отказал, но момент отказа точно неизвестен.

Рассмотрим понятия, касающиеся цензурирования [1, 2]. Интервал неопределенности - интервал наработки, внутри которого произошел либо произойдет отказ объекта, причем точное значение наработки до отказа неизвестно. Этот интервал может быть неограниченным справа, тогда говорят о цензурировании справа, либо ограниченным справа, тогда говорят о цензурировании слева. Если интервал неопределенности момента отказа ограничен слева и справа, то говорят о цензурировании интервалом. Следует отметить, что в задачах надежности при цензурировании слева левая граница интервала неопределенности равна нулю, а при цензурировании интервалом больше нуля. Индивидуальные значения наработок при этом не наблюдаются.

Для обоснования выбора метода анализа цензурированных данных необходимо четко представлять статистическую структуру анализируемых данных.

В качестве механизма генерации данных будем рассматривать классический механизм, предполагающий наличие случайной величины i, являющейся исследуемой переменной, с распределением F(t). Получаемые при этом данные представляют собой последовательность независимых одинаково распределенных случайных величин ;,...,;„.

Обратим внимание на механизм генерации цензурирующей переменной и механизм взаимодействия цензуры и данных, так как именно они вносят в выборку специфические особенности. В качестве случайной величины ; будем рассматривать наработку до отказа.

Цензурированная выборка будет представлять собой множество, состоящее из N пар (zi,Ii ), i = 1,...,n, где I является индикатором, принимающим значение 1, когда z{ является

наработкой до отказа, и значение 0, когда z является наработкой до цензурирования.

При цензурировании справа в ходе наблюдений фиксируется пара {Z,Ij}, j=1,...,n, элементы которой удовлетворяют соотношениям:

Д. А. Николаев, А. В. Антонов, В. А. Чепурко Оценка параметров законов распределения с учётом усеченных слева и цензурированных справа данных

\1, если Z = £

Z = min(£,Y); Г = J " " 1 1, 1 [0_если _Zj = Y/

где Ij - индикатор события, n - объем выборки.

При цензурировании слева наблюдается случайная величина:

Z = max(£,Y).

Таким образом, цензурирование можно определить как событие, приводящее к замене наработки до отказа наработкой до цензурирования в соответствии с описанной выше процедурой, определяющей механизм цензурирования.

Следующая возможная схема наблюдений - пропущенные данные. При проведении статистического анализа приходится сталкиваться с ситуацией, когда на некоторых временных интервалах наблюдения за функционированием объекта не осуществлялось. Известным является факт, что оборудование в данные периоды находилось в эксплуатации, но информации о поведении оборудования в наличии не имеется. Причины такой ситуации могут быть различные. Например, промышленная установка находилась в эксплуатации с некоторого момента времени, а инструкции о необходимости сбора информации о поведении оборудования появились спустя определенный период времени после начала функционирования. Возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально количеству пропусков. Механизм формирования данных с пропусками называется усечением (в иностранной литературе «truncated data»). Естественно предположить, что учет информации о периодах функционирования на этапах, где наблюдения не осуществлялись, позволил бы повысить достоверность итоговых оценок надежности. Задача, таким образом, состоит в разработке метода оценки надежности объектов с учетом полных, цензурированных и усеченных данных.

Представление полных, цензурированных справа и усеченных слева наработок

Положим, что в нулевой момент времени в эксплуатацию вводится промышленная установка, в составе которой работают элементы, являющиеся объектами исследования. Пусть момент начала работы каждого элемента системы известен. Обозначим его д.. Предположим, что наблюдения за работой элементов и фиксация отказов началась не с нулевого момента времени, а с некоторого более позднего момента T0 и продолжается до некоторого момента времени T (рисунок 1).

Рисунок 1 - Возможные виды наработок до отказа

Обычно Т - это момент времени, на который осуществляется анализ характеристик надежности. Будем считать, что дальнейшее поведение объектов неизвестно.

Рассмотрим иллюстрацию возможного функционирования объектов, приведенную на рисунке 1:

Случай А. Объект начал функционировать в момент пуска промышленной установки и отказал до начала фиксации отказов;

Б. Ситуация, согласно которой объект введен в эксплуатацию после начала функционирования промышленной установки, и отказал до начала фиксации отказов;

1. Известен момент начала эксплуатации объекта - . Принимая во внимание, что

/их + тх = Т можно найти хх - промежуток времени, который система уже проработала до начала фиксации отказов. В момент времени /их+ ^ система отказала. В данном случае имеет место усеченная слева наработка до отказа.

2. Известен момент начала эксплуатации объекта - /и2. Система наблюдалась не от начала эксплуатации и на момент завершения наблюдений продолжает функционировать, то есть имеем цензурированную справа наработку. По формуле /^+г2 = Т0 можно найти т2 -промежуток времени, который система проработала к моменту начала наблюдений. По формуле ц2 + с2 = Тк можно найти с2 - промежуток времени, который система проработала к

моменту окончания наблюдения. Поскольку система продолжает работать, с2 является усеченной слева цензурированной справа наработкой.

3. В момент времени объект начал функционировать и в момент времени +

объект отказал. Таким образом, имеем полную наработку.

4. В момент времени ¿и4 объект начал функционировать и проработал без отказа до момента завершения наблюдений Т. Наработка объекта равна с4. В данном случае имеем цензурированную справа наработку.

Д. А. Николаев, А. В. Антонов, В. А. Чепурко Оценка параметров законов распределения с учётом усеченных слева и цензурированных справа данных

Описанные результаты наблюдений можно изобразить в виде, представленном на рисунок 2.

Рисунок 2 - Альтернативная диаграмма типов наработок

Применение метода максимального правдоподобия для оценки параметров законов распределения наработки до отказа

Пусть под наблюдением находится п объектов. Для каждого объекта имеются данные о его времени работы такого типа, как это показано на рисунке 1.

Определим функцию правдоподобия параметра в как неотрицательную вещественную функцию Ь(9,$), заданную на множестве 0 *Т, пропорциональную функции плотности распределения [1, 2, 3, 4]:

=П I (0>&), г=1,-

п,

(1)

¿—1

где 0 - область определения вектора параметров в;

Т - область определения наблюдаемой величины I, по результатам наблюдения за которой производится оценивание параметров в; % - реализация случайной величины %; в - в общем случае вектор параметров закона распределения.

Оценкой максимального правдоподобия для заданной функции правдоподобия Ь(в,%) является вектор параметров 0(Т).

Учтем наработки цензурированные справа. Отметим, что выборка объема п = г + V содержит ряд наблюдений за функционированием объектов с реализовавшимся признаком %...$ (полные наработки), и ряд наблюдений с не реализовавшимся признаком с --С

(цензурированные справа наработки). При этом известен закон распределения времени до реализации наблюдаемого признака Е(в,е). Функция правдоподобия для выборки содержащей цензурированные справа наработки имеет следующий вид:

1(01ВЛТЛ) — ПI(0,$)П(1 -р(0С)).

(2)

]=1

Рассмотрим методику учета усеченных данных слева [4, 5, 6].

Значения наблюдаемой величины могут фиксироваться только тогда, когда они больше, чем значение заданной нижней границы Т0. Все значения, которые не достигли

!=1

границы, никогда не наблюдаются. Это приводит к появлению усечения слева в распределении случайной величины.

Если случайная величина 7 является усеченной слева в точке т1 (реализации

случайной величины наблюдаются только тогда, когда они превысят т1), то плотность вероятности случайной величины усеченной слева будет иметь вид:

At (7) = г^ 7>Tl,

1 - F(T )

а соответствующая функция распределения будет обозначаться как:

Лт (7)=^^

1 - F(т )

Введем следующие обозначения. Пусть 7 обозначает время жизни /-го объекта

(время от постановки объекта на эксплуатацию и до момента его отказа). Здесь i=1,...,n, где n

- число объектов в выборке. Пусть тгL - усеченные слева наработки, (время от постановки

объекта на эксплуатацию до момента времени, когда данные о функционировании объекта начали фиксироваться).

Пусть V/ - индикатор усечения (truncation indicator):

Vi = 0, если наработки содержат интервалы, на которых не производились наблюдения, Vi = 1, если наработки не содержат интервалы, на которых не производились наблюдения.

Пусть ci наработки, цензурированные справа, характеризуется тем, что наблюдения за функционированием объекта прекратилось, объект при этом не отказал. Пусть St - индикатор цензурирования:

Si = 0, если наблюдение цензурировано справа,

St =1, если наблюдение завершилось фиксацией отказа.

Функция правдоподобия для результатов наблюдений, содержащих полные наработки, цензурированные справа данные и наработки усеченные слева, будет иметь вид:

(1-Si )(l-v)

n -

L(0 | DATA) = П f {07 Y

f(07) ' 1 - F (0T ).

f (1-v,)

r ,(1-5 )v.

[1 - F (0, c,)]

1 - F (0, c,)

.1 - F (0,т L ).

(3)

где в - вектор параметров распределения.

В работе решалась задача оценки параметров законов распределения для ряда распределений, а именно: экспоненциального распределения, распределения Вейбулла и гамма распределения.

Запишем для указанных законов распределения функцию правдоподобия: • экспоненциальное распределение:

" Т т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-Ц, -Щ: Т К (1-У: ), -Ц . (1^ ) V, , -Щ Т Х^, )

L(X | DATA) = Пf (Ae~M7))f(1-v)(e~Ac' )(1-f)v (e"^))(1-f)(1-v) . (4) i=1

• распределение Вейбулла:

n

L((k ;Л) | DATA) = П {Afv (Б f(1-v,) (C )(1-f )v, (D)(1-f )(1-v,),

i=1

k

где A =(Л ft] " ^ e^'

б=( k yiL I <k-1' e да

Л\Л)

i=1

C - e

n

D - e

• гамма распределение:

L((k ;Л) | DATA) - ПЙ)^' (B f(1~v>) (C )(1-f )v> (D )(1-f)

где A - tk

k-i e

B -

Г& в'

Д-1 e

г Г(& )в1

k -i X

f L /\ h /

в

V У

1 7!

B -

д-i e

Г (£ в

^ L /Л-1 h /

k -1 X

V_

7-1 J!

C-X

k -11 с/в

J -1

~ J!

D -

X

k-1 1 %

J--

1 J!

h /

k-н /в

X

J-1

L Л1

У

-|-1

J!

Оценкой максимального правдоподобия для заданной функции правдоподобия L(e(3) является функция в(Т), удовлетворяющая соотношению: L{e(TШ - supL([в,$).

ве@

Для нахождения оценки вектора параметров в решают уравнение:

дв

- о.

Поскольку 1п Ь(в,£) при фиксированных %достигает максимума при том же значения в, что и Ь(в,£), значения в можно определить, решая уравнение: 51п 1(в$)

дв

- 0.

(5)

Для величины 1п Ь(в,£) используется обозначение /(в,£).

Уравнение (5) можно решить напрямую, применив один из методов поиска оптимального значения функции (например, метод деления отрезка пополам, метод прямого поиска и т.п.).

Для определения точности оценки параметра, например, для двухпараметрического закона распределения с параметрами в и к составляется информационная матрица Фишера [1]:

k

n

i-1

e

e

e

-h

e

e

а21 а22.

5 21

где ац ^ 2, ^12

дв2'

дк2

е2^ _ _ 2

а

11

а22

Проводя указанные вычисления, получаем оценки параметров закона распределения и точность выполненной оценки.

Рассмотрим тестовый пример решения поставленной задачи.

Тестовый пример

Пусть набор данных, используемый в исследовании, содержит 400 наблюдений, часть наблюдений завершились отказами (соответствующая наработка до отказа - ^). Часть

наблюдений цензурированы справа (с/). Имеются также усеченные слева данные (гг-1).

Для того чтобы смоделировать цензуру и усечение данных выбирался регулярный массив моментов начала работы /- го изделия ^¿=10*/, /=1,2,...,400 (рисунок 1). Для моделирования времен жизни взят экспоненциальный закон распределения с параметром Я{ = 0.003. Таким образом, в среднем в момент времени 10*400+1/0,003=4333,3 все объекты

откажут. Момент начала наблюдения возьмем равным Т0 = 0, 200, 400, 600, 800, 1000, а момент окончания Тк = 100000 (с большой вероятностью все уже отказали), 5000, 3000.

Понятно, что чем больше Т0 тем больше усечение слева и чем меньше Тк тем больше доля цензурированных справа данных.

Оценка параметра закона распределения находится путем решения уравнение (4). Данное уравнение решается с помощью метода поиска оптимального значения функции, а именно методом деления отрезка пополам [1]. Для определения точности оценки параметра А составляется информационная матрица Фишера [1]:

I = [аи], д2/ „ ^ 1

где ап —дл2, = ^ =~Ъа .

Для экспоненциального распределения дисперсия оценки Я имеет вид: ^ дЛ2 •

В таблицах 1, 2, 3 приведены результаты исследований, в ходе которых производилось оценивание параметра закона распределения в зависимости от количества усеченных данных в выборке.

Таблица 1 - Результаты оценки параметра интенсивность отказа экспоненциального закона распределения в зависимости от момента начала наблюдения Тр. Тк = 100000.

То Х*10-3 о*10-3

0 3,092 0,108

200 2,912 0,215

400 3,221 0,314

600 3,169 0,415

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

800 2,523 0,516

1000 4,100 0,719

Таблица 2 - Результаты оценки параметра интенсивность отказа экспоненциального закона распределения в зависимости от момента начала наблюдения Т0. Тк = 5000.

ТО Х*10-3 о*10"3

а11 а12

0 3,492 0,508

200 2,110 1,223

400 3,821 3,394

600 2,194 2,454

800 1,532 3,561

1000 5,104 2,391

Таблица 3 - Результаты оценки параметра интенсивность отказа экспоненциального закона распределения в зависимости от момента начала наблюдения То. Тк = 3000.

T0 o*10"3

0 2,432 1,528

200 1,140 3,249

400 3,282 7,841

600 5,196 21,153

800 9,533 33,551

1000 1,103 42,721

По результатам моделирования можно сделать вполне ожидаемый вывод:

Чем позже мы начали наблюдать за объектами (больше усечение слева), тем больше дисперсия оценки. Чем позже мы прервали наблюдения (меньше глубина цензурирования), тем меньше дисперсия.

В результате показана возможность получения оценок характеристик надежности с учетом не только полных наработок объектов, но и наработок, цензурированных справа и усеченных слева. Выполнены исследования изменения значений оценок параметра закона распределения и точности в его оценке в зависимости от объема усеченных данных и глубины цензурирования.

Дальнейшим развитием работы является доработка алгоритма расчета с целью повышения точности исследуемой оценки параметров закона распределения.

Литература

1. Антонов А. В. Системный анализ. М. : Высшая Школа, 2004. 454 с.

2. Антонов А. В., Никулин М.С. Статистические модели в теории надежности: Учебное пособие. М. : Абрис, 2012. 390 с.

3. Кокс Д. Р., Оукс Д. Анализ данных типа времени жизни. М. : Финансы и статистика, 1988. 191 с.

4. Meeker W. Q., Escobar A. Statistical Methods for Reliability Data. New York : JOHN WILEY & SONS, Inc., 1998. 701 p.

5. Balakrishnan N., Debanjan M. Likelihood inference for left truncated and right censored data // Computational Statistics and Data Analysis. September 2011. P. 58.

6. Hong Y. Q., Meeker W. Q., Mccalley J. D. Prediction of remaining life of power transformers based on left truncated and right censored lifetime data // The Annals of Applied Statistics. 2009. Vol. 3, № 2. P. 857-879.

i Надоели баннеры? Вы всегда можете отключить рекламу.