Научная статья на тему 'Построение вероятностных моделей выживаемости по усеченным слева и цензурированным справа данным'

Построение вероятностных моделей выживаемости по усеченным слева и цензурированным справа данным Текст научной статьи по специальности «Математика»

CC BY
649
122
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УСЕЧЕННЫЕ СЛЕВА ДАННЫЕ / ЦЕНЗУРИРОВАННЫЕ ДАННЫЕ / МОДЕЛЬ ПРОПОРЦИОНАЛЬНЫХ ИНТЕНСИВНОСТЕЙ КОКСА / КРИТЕРИЙ ВАЛЬДА / НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СОГЛАСИЯ / ФУНКЦИЯ ВЫЖИВАЕМОСТИ / ОБОБЩЕННОЕ ГАММА-РАСПРЕДЕЛЕНИЕ / LEFT TRUNCATED DATA / CENSORED DATA / COX PROPORTIONAL HAZARD MODEL / WALD TEST / NONPARAMETRIC GOODNESS-OF-FIT TESTS / SURVIVAL FUNCTION / GENERALIZED GAMMA DISTRIBUTION

Аннотация научной статьи по математике, автор научной работы — Чимитова Екатерина Владимировна, Митрофанов Игорь Михайлович

В задачах анализа данных типа времени жизни, полученные выборки наблюдений, как правило, являются цензурированными справа. Кроме того, часто возникает ситуация, когда в выборку попадают только те объекты (индивидуумы), продолжительность жизни которых удовлетворяет некоторому условию. В этом случае полученные данные являются усеченными. Рассматривается задача построения модели пропорциональных интенсивностей Кокса по усеченным слева и цензурированным справа данным. На основе полупараметрической модели, в которой распределение продолжительности жизни предполагается неизвестным, проводится отбор факторов, оказывающих статистически значимое влияние на функцию выживаемости. Для проверки гипотезы о равенстве регрессионных параметров данной модели нулю используется критерий Вальда. Методами компьютерного моделирования исследуется сходимость распределения статистики критерия Вальда к соответствующему предельному χ2-распределению при различной степени цензурирования. Предлагается подход к проверке гипотезы о согласии с параметрической моделью пропорциональных интенсивностей по усеченным слева и цензурированным справа выборкам на основе остатков Кокса Снелла, которые, в случае верности нулевой гипотезы, подчиняются стандартному экспоненциальному распределению. Для проверки гипотезы предлагается воспользоваться модифицированными критериями согласия Колмогорова, Крамера Мизеса Смирнова и Андерсона Дарлинга. Приводится пример применения полученных результатов для статистического анализа выживаемости некоренного населения в районах промышленного освоения Севера. На основе полупараметрической модели пропорциональных интенсивностей Кокса выявляются прогностические факторы, значимо влияющие на продолжительность жизни людей. Далее вводится параметризация базовой функции интенсивности, соответствующая обобщенному гамма-распределению. Проверяется статистическая гипотеза об адекватности полученной параметрической модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Чимитова Екатерина Владимировна, Митрофанов Игорь Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONSTRUCTION OF PROBABILISTIC SURVIVAL MODELS FROM LEFT TRUNCATED AND RIGHT CENSORED DATA

In the lifetime data analysis, the obtained samples of observations turn out to be censored, as a rule. Moreover, there is often such a situation when selection of devices (or individuals) into a sample is carried out according to some condition on the lifetime. In this case, the obtained lifetime data are truncated. In this paper, the problem of construction of parametric proportional hazards model, introduced by Cox, on the basis of left truncated and right censored data has been considered. Selection of factors, influencing significantly on the survival function, is carried out on the basis of the semiparametric model, in which the lifetime distribution is supposed to be unknown. The Wald test is used for testing hypothesis on equality of regression parameters to zero. By means of computer simulation methods, the distributions of Wald statistic for testing the parametric hypotheses for the Cox model from left truncated and right censored data have been studied. The convergence of the distributions of the Wald statistic to the corresponding chi-squire distribution has been analyzed for various censoring degrees. An approach for testing goodness-of-fit of the parametric Cox model from left truncated and right censored data on the basis of Cox Snell residuals, which under true hypothesis belong to the standard exponential distribution, has been proposed. For testing the hypothesis of exponential distribution of residuals, the modified Kolmogorov, Cramer von Mises Smirnov and Anderson Darling goodness-of-fit tests are suggested to be used. On the basis of the obtained statistical regularities, we have carried out the statistical survival analysis of nonnative-born population in the north regions of industrial development. On the basis of semiparametric proportional hazards model, the predicting factors, significantly influencing on the lifetime of people in the North are determined. Then, the baseline hazard rate function corresponding to the generalized gamma distribution is parameterized. The goodness-of-fit of the obtained parametric Cox model is tested.

Текст научной работы на тему «Построение вероятностных моделей выживаемости по усеченным слева и цензурированным справа данным»

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

УДК 62-83:519.2

Е. В. Чимитова, И. М. Митрофанов

ПОСТРОЕНИЕ ВЕРОЯТНОСТНЫХ МОДЕЛЕЙ ВЫЖИВАЕМОСТИ ПО УСЕЧЕННЫМ СЛЕВА И ЦЕНЗУРИРОВАННЫМ СПРАВА ДАННЫМ

В задачах анализа данных типа времени жизни, полученные выборки наблюдений, как правило, являются цензурированными справа. Кроме того, часто возникает ситуация, когда в выборку попадают только те объекты (индивидуумы), продолжительность жизни которых удовлетворяет некоторому условию. В этом случае полученные данные являются усеченными. Рассматривается задача построения модели пропорциональных интенсивностей Кокса по усеченным слева и цензурированным справа данным. На основе полупараметрической модели, в которой распределение продолжительности жизни предполагается неизвестным, проводится отбор факторов, оказывающих статистически значимое влияние на функцию выживаемости. Для проверки гипотезы о равенстве регрессионных параметров данной модели нулю используется критерий Вальда. Методами компьютерного моделирования исследуется сходимость распределения статистики критерия Вальда к соответствующему предельному х2-распределению при различной степени цензурирования. Предлагается подход к проверке гипотезы о согласии с параметрической моделью пропорциональных интенсив-ностей по усеченным слева и цензурированным справа выборкам на основе остатков Кокса -Снелла, которые, в случае верности нулевой гипотезы, подчиняются стандартному экспоненциальному распределению. Для проверки гипотезы предлагается воспользоваться модифицированными критериями согласия Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга. Приводится пример применения полученных результатов для статистического анализа выживаемости некоренного населения в районах промышленного освоения Севера. На основе полупараметрической модели пропорциональных интенсивностей Кокса выявляются прогностические факторы, значимо влияющие на продолжительность жизни людей. Далее вводится параметризация базовой функции интенсивности, соответствующая обобщенному гамма-распределению. Проверяется статистическая гипотеза об адекватности полученной параметрической модели.

Ключевые слова: усеченные слева данные, цензурированные данные, модель пропорциональных интенсивностей Кокса, критерий Вальда, непараметрические критерии согласия, функция выживаемости, обобщенное гамма-распределение.

Введение

В задачах анализа данных типа времени жизни, когда изучаемой случайной величиной является время до наступления некоторого системного события, полученные выборки наблюдений нередко являются усеченными слева и (или) цензурированными справа [1].

Для объяснения понятия «усечение слева» рассмотрим следующий пример. Пусть имеется генеральная совокупность людей, страдающих определенной болезнью. Обозначим как Е(г) функцию распределения случайной величины Т - времени с начала болезни до смерти. Предположим, что в момент времени г0 началось обследование п пациентов с данной болезнью. Отметим, что люди из этой же генеральной совокупности, которые умерли до наступления момента времени г0, не включены в выборку. Обозначим как Т1, Т2, ..., Тп независимое время жизни с начала болезни до смерти пациентов, включенных в выборку. Необходимо отметить, что если рассматривать данную выборку как обычную выборку из распределения Е (г) , то полученный результат будет слишком оптимистичным, поскольку чем больше продолжительность жизни пациента, тем больше

у него шансов попасть в выборку, в то время как пациенты с малой продолжительностью жизни в выборку не попадают. Обозначим символом Д время с начала болезни г-го пациента до начала обследования г0. Тогда условное распределение случайной величины Т имеет вид

е. )=, , > 0.

гг 1 - Е (Д) г

Цензурирование возникает в случае, когда на момент окончания эксперимента системное событие для некоторых объектов исследуемой выборки еще не наступило либо объект выбыл из эксперимента до наступления системного события.

Для вычисления оценок максимального правдоподобия параметров распределений по усеченным слева и цензурированным справа данным в [2-4] используется ЕМ-алгоритм. В случае отсутствия априорной информации о виде распределения строят непараметрическую оценку Каплана -Мейера функции выживаемости [1, 5] или непараметрическую оценку функции плотности [6].

При анализе выживаемости типичной задачей является исследование зависимости вероятности дожития до некоторого момента времени от различных ковариат (факторов). В качестве ковариат могут выступать такие показатели, как возраст пациента, продолжительность болезни, схема лечения и др. Наиболее часто используемой моделью в анализе выживаемости является модель пропорциональных интенсивностей, предложенная Д. Р. Коксом [7]. Вопросам проверки гипотезы о согласии с параметрической моделью Кокса по цензурированным справа данным посвящены, в частности, работы [8-10]. В случае усеченных слева и цензурированных справа данных в [11] предложен параметрический критерий согласия для проверки гипотезы о согласии с моделью Кокса против обобщенной модели пропорциональных интенсивностей.

В данной работе предлагается подход к проверке гипотезы о согласии с параметрической моделью пропорциональных интенсивностей Кокса по усеченным слева и цензурированным справа данным, основанный на формировании выборки остатков и использовании непараметрических критериев согласия Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга. Методами компьютерного моделирования исследуются распределения статистик критериев согласия, а также распределения статистики критерия Вальда при проверке гипотезы о равенстве нулю параметров модели пропорциональных интенсивностей Кокса. Рассматривается задача анализа выживаемости некоренного населения Крайнего Севера в зависимости от наблюдаемых факторов.

Модель пропорциональных интенсивностей Кокса

Обозначим символом Тх случайное время жизни пациента, которое зависит от вектора ко-вариат х = (х1, х2,..., хк)т . Функция выживаемости определяется соотношением

^ (г) = Р(Тх > г) = 1 - Е (г), а кумулятивная функция риска выражением

I

Л х (г) = | к х Ши = - 1п(5х (г)),

0

где кх(г) = fx(г)/Бх(г) - функция интенсивности отказов; fx(г) - функция плотности распределения случайной величины тх .

Модель пропорциональных интенсивностей Кокса имеет вид [7]:

Лх (г; в) = г(х; в) Ло(г), (1)

где в - вектор параметров регрессии; г(х;р)- неотрицательная функция от ковариат; Л0(г)-базовая кумулятивная функция риска. Функция выживаемости для модели пропорциональных интенсивностей имеет вид

Sx (t; ß) = ( S0(t) )r (X; ß).

В качестве функции от ковариат обычно рассматривают логлинейную модель вида

r(х, ß) = exp (ß'x).

Если в формуле (1) не вводится предположение относительно закона распределения продолжительности жизни, модель называется полупараметрической. Если же вводится параметризация, как для функции воздействий, так и для базовой кумулятивной функции риска A0(t; 0), модель считается параметрической.

Оценивание параметров модели Кокса по усеченным слева и цензурированным справа данным. Усеченную слева и цензурированную справа выборку можно представить в следующем виде:

X„ ={(Xx, Di, 81, Xi), (X2, Dv 62, X2),..., (X„, Dn, 6„, X)} , (2)

где Xi = min {T, Ci} - время наступления системного события Ti или момент цензурирования Ci (время завершения наблюдения за i-м индивидуумом); Di - время усечения; 8i - индикатор цензурирования содержит информацию о причине прекращения наблюдения, и хг - значение

вектора ковариат, i = 1, n . Если в ходе эксперимента было зафиксировано системное событие, то Xi = Ti, 8г = 1, и данное наблюдение называется полным. Если же T неизвестно по причине окончания наблюдения в момент Ci < Ti, то Xi = Ci, 8г = 0, и наблюдение называется цензуриро-ванным справа.

Цензурированные справа выборки можно разделить на три основных типа и их комбинации. Если время эксперимента ограничено, т. е. наблюдение за индивидуумами ведется до заранее определенного момента времени c, тогда V8i = 0: Ci = c , и полученная в результате выборка называется цензурированной I типа. В случае, если эксперимент продолжается до наступления определенного количества системных событий k , и наблюдение за остальными индивидуумами прекращается в момент наступления k -го системного события, то полученная в результате выборка наблюдений называется цензурированной II типа, и V8i = 0: Ci = T(k), где T(k) - время наступления последнего системного события. Если Ci, i = 1, n - случайные величины, то выборка наблюдений называется цензурированной III типа или случайно цензурированной.

Оценки неизвестных параметров модели (1) находят методом максимального правдоподобия. В случае полупараметрической модели максимизируют логарифм функции частичного правдоподобия [7]:

( n V

ln L (Xn; ß) = X 8i

ln(r(X-; ß)) - ln

X r (Xj; ß)

V j:Dj <Xi <Xj

(3)

1 X r(X,;ß)

/ j: Dj <Xi <X j

где в качестве базовой кумулятивной функции риска используют непараметрическую оценку:

) = I 8.-

г:X, <1

В случае параметрической модели логарифмическая функция правдоподобия имеет вид 1п Ь(Х„; в, 0) = I [8,- (1п г(X; в) + 1п Х0(X.; 0)) - г(Х-; в) (Л0 (X.; 0) - Л0(Д; 0))] .

г=1

Проверка гипотезы о незначимости регрессионных параметров модели Кокса. Одним из важнейших этапов построения регрессионной модели является отбор значимых регрессоров. В случае модели пропорциональных интенсивностей отбор значимых ковариат производится

i=1

с использованием процедур включения или исключения на основе критериев Вальда или отношения правдоподобия.

Рассмотрим гипотезу о незначимости вектора регрессионных параметров Н0 : в = 0 для модели Кокса (1), для проверки которой используется оценка р параметра модели Кокса Р = (|1,..., вт)Т , полученная путем максимизации функции частичного правдоподобия (3). Статистика критерия Вальда для проверки данной гипотезы

Ж =|3Т • I ((3) (3,

(4)

где I (|) = -

Э21п Ь (Х„;

в случае справедливости Н0 при п ^ ^ подчиняется

эрэрТ ' " .....

Хт -распределению с т степенями свободы [12]. Статистика Вальда для проверки гипотезы Н0: Р; = 0 имеет вид

Ж. =

3.2

I.-1 (3)'

где р. - это .-я компонента вектора оцененных параметров |3 ; ^'(р) - диагональный элемент матрицы, обратной к I(р). При условии справедливости нулевой гипотезы в пределе при п ^ ^ статистика Ж подчиняется х2 -распределению с одной степенью свободы.

С использованием методики компьютерного моделирования и исследования статистических закономерностей нами было проведено исследование сходимости распределений статистики Вальда (4) к соответствующему предельному ^-распределению в случае усеченных слева и цензурированных справа данных. На рис. 1 представлены графики зависимости расстояния

= 8ир /V ы(5 I Н0) -/,(5)

между эмпирическим распределением статистики Вальда ЕЖ ы (я IН0) и предельным

Х2 -распределением от объема выборки п. Для построения эмпирических распределений

ЕЖ ы (я I Н0) генерировались усеченные слева и цензурированные (II типа) справа выборки

в соответствии с заданной параметрической моделью Кокса, в которой значение регрессионного параметра было взято равным нулю; по каждой выборке вычислялось значение статистики (4). Объем выборки значений статистики N = 100000.

Рис. 1. Сходимость распределения статистики Вальда к предельному х2-распределению

5

Как видно из рис. 1, с ростом степени цензурирования распределения статистики Вальда медленнее сходятся к х2-распределению. При степени цензурирования 20 % предельным законом распределения можно пользоваться начиная уже с п = 20 - расстояние от ЕЖ ^ (51 Н0) до

Х2-распределения не превышает 0,03; при степени цензурирования 50 % - начиная с п = 60, а при степени цензурирования 80 % - с п = 160. С увеличением числа оцениваемых параметров данная зависимость сохраняется.

Проверка гипотезы о согласии с параметрической моделью Кокса по усеченным слева и цензурированным справа данным

Обязательным этапом построения параметрической вероятностной модели является проверка статистической гипотезы о согласии:

Н0: Х1 у (г, р,В), р,0е О, . = 1п .

Один из подходов к проверке гипотезы о согласии с параметрической моделью пропорциональных интенсивностей Кокса основан на формировании остатков Кокса - Снелла [13], которые, в случае выборки вида (2), имеют вид

= г(х.,ß) (Ло(X,; ß,0)-Ло (Д; ß,6)), i = 1,n,

R; = г(Ж-,(3) (Л0( X,.;(3,0)-Л0 (Д

и проверке гипотезы о принадлежности выборки остатков стандартному экспоненциальному распределению [9]. Заметим, что полученная выборка остатков является обычной цензуриро-ванной справа выборкой вида

R„ ={(R1,б!), (R2,62),...,(R„,6„)}.

Применение модифицированных критериев согласия Колмогорова, Крамера - Мизеса -Смирнова и Андерсона - Дарлинга для цензурированных I и II типа выборок рассмотрены в [14], а для случайно цензурированных выборок - в [15].

В модифицированном критерии Колмогорова для цензурированных выборок в качестве расстояния между эмпирическим и теоретическим законами распределения используется величина

Dn = sup Fn (t)- F (t; 0)

0<t <т

где Fn (t) - оценка Каплана - Мейера [14] по выборке Rn; F (t; 0) - теоретическая функция распределения, соответствующая проверяемой гипотезе, в данном случае это стандартное экспоненциальное распределение); т = maxR{ - правая граница наблюдаемой области.

б,- =1

В модифицированном критерии Крамера - Мизеса - Смирнова в качестве расстояния между распределениями используется величина

т 2

ю2 = J (Fn (t)-F (t; 0)) dF (t; 0).

0

В модифицированном критерии Андерсона - Дарлинга в качестве меры рассматривается величина

tf-iiFM-F(-0)>2 dF(t; 0)

= |( F ( ' )-F ('; 6)) f (,; 6)(1 -' F (f; 6)) ■

Проверяемая гипотеза о согласии отвергается при больших значениях статистик. Аналитические выражения для распределений статистик рассматриваемых критериев неизвестны. Вследствие этого вычисление критических значений статистик (или достигнутых уровней значимости) при проверке гипотез с использованием данных критериев может опираться только на распределения статистик, полученные в результате статистического моделирования [15, 16].

Пример построения вероятностной модели выживаемости по усеченным слева и цензурированным справа данным

Для исследования выживаемости некоренного населения Крайнего Севера в 1991 г. в г. Мирном были проведены сбор и анализ данных у лиц, прошедших скрининговое обследование. В 2000-2003 гг. был поведен сбор данных по выживаемости обследованных лиц. Факт смерти был зафиксирован у 20 % ранее обследованных лиц. К данному виду исхода была отнесена смерть от старости и заболеваний; в случае смерти от травм, отравлений и несчастных случаев считали, что пациент выбыл из исследования (цензурированное наблюдение). Кроме того, важно учесть, что в выборку попали только лица, живые на момент скрининга; информации об умерших до 1991 г. нет. Такие наблюдения являются усеченными слева, причем временем усечения является период от рождения до начала скрининга. Таким образом, имеем усеченную слева и цензурированную справа выборку наблюдений с ковариатами объема п = 198 , степень цензурирования 80 %. В качестве ковариат рассмотрены такие факторы, как возраст приезда на Север, индекс массы тела, артериальное давление, наличие хронических патологий и др. - всего свыше 100 показателей.

На основе полученной выборки построим модель пропорциональных интенсивностей Кокса (1) с логлинейной функцией от ковариат вида

г(х; в) = ехр(в1х +... + втхт).

Отбор статистически значимых ковариат в данном случае был проведен с использованием алгоритма включения на основе критерия Вальда.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В результате отбора выявлены следующие прогностические факторы:

- курение;

- возраст приезда на Север;

- измененные зубцы Q и QS в отведениях I, ЛУЬ, У6;

- гипохолестеринемия липидов высокой плотности (ЛВП): мужчины < 40 мг/дл; женщины < 46 мг/дл;

- перенесенный инсульт головного мозга;

- наличие хронической патологии (класс 2) в соответствии с международной классификацией болезней (10-й пересмотр (МКБ-10));

- наличие хронической патологии (класс 3, МКБ-10);

- наличие хронических осложнений после травм (класс 19, МКБ-10).

Для построения прогноза выживаемости была введена параметризация базовой функции риска. По критерию Акаике в качестве наилучшего распределения среди рассмотренных семейств (экспоненциальное, Вейбулла, гамма-, логнормальное, логлогистическое, обобщенное распределение Вейбулла и обобщенное гамма-распределение) было выбрано обобщенное гамма-распределение с функцией плотности:

/ (х; 0) =

0

( х >

02-1 ( / \0з^

0! -Г(02/03 ) I 0! у

ехр

( ^ 0:

Гипотеза о согласии с полученной моделью пропорциональных интенсивностей была проверена с использованием рассмотренных в данной работе критериев. По критерию Колмогорова значение статистики 5 = 0,882, достигнутый уровень значимости р = 0,418 ; по критерию Крамера - Мизеса - Смирнова 5 = 0,073, р = 0,733; по критерию Андерсона - Дарлинга 5 = 0,66, р = 0,593 . Вследствие того, что полученные достигнутые уровни значимости р > а = 0,05 для

всех рассмотренных критериев, нет оснований для отклонения гипотезы о согласии с выбранной моделью.

Оценки максимального правдоподобия параметров построенной модели пропорциональных интенсивностей Кокса и результаты проверки гипотезы о незначимости регрессионных параметров представлены в таблице.

Результаты оценивания параметров модели пропорциональных интенсивностей Кокса

Параметр Оценка максимального правдоподобия параметра Статистика Вальда Достигнутый уровень значимости

01 (масштаба) 71,4031 - -

02 (формы) 6,0630 - -

03 (формы) 47,6346 - -

в1 (х1 - курение) 0,8950 6,1779 0,0129

в2 (х2 - возраст приезда на Север) -0,0350 4,0589 0,0439

в3 (х3 - измененные зубцы Q и QS в отведениях I, ЛУЬ, У6) 3,8111 12,3103 0,0005

Р4 (х4 - гипохолестеринемия ЛВП) 1,7748 5,6317 0,0176

Р5 (х5 - перенесенный инсульт головного мозга) 1,6309 7,0379 0,008

в6 (х6 - наличие хронической патологии (класс 2, МКБ-10)) 3,4033 10,6136 0,0011

в7 (х7 - наличие хронической патологии (класс 3, МКБ-10)) 2,2176 3,875 0,049

Р8 (х - наличие хронических осложнений после травм (класс 19, МКБ-10)) 2,3693 5,1028 0,0239

Согласно данным таблицы, факторы, выявленные в результате отбора, оказывают статистически значимое влияние на выживаемость исследуемой группы людей, поскольку достигнутые уровни значимости (р-уя1ие), полученные при проверке гипотез о равенстве регрессионных параметров нулю с помощью критерия Вальда, меньше заданного уровня значимости -а = 0,05 . Наличие таких факторов риска, как курение, измененные зубцы Q и QS в отведениях I, ЛУЬ, У6, гипохолестеринемия ЛВП, перенесенный инсульт головного мозга, а также наличие хронических патологий 2 и 3 класса и хронических осложнений после травм значимо сокращает длительность жизни. Полученная отрицательная оценка параметра р2 при переменной х2 (возраст приезда на Север) свидетельствует о том, что чем меньше возраст приезда на Север, т. е. чем больше северный стаж, тем ниже продолжительность жизни.

Рассмотрим, как влияют выявленные факторы на функцию выживаемости 5Х (х). На рис. 2 представлены графики функции выживаемости при различных значениях вектора ковариат х . На рис. 2, а, в-з графики функции выживаемости строились при среднем возрасте приезда на Север, равном 25 годам. По рисункам можно судить о том, насколько сильно влияет каждый из выявленных факторов на функцию выживаемости при отсутствии иных факторов риска. Напомним, что значение функции выживаемости 5(х) представляет собой вероятность дожития до момента времени х, время измеряется в годах.

*! = о

х2 = 40

Рис. 2. Влияние на выживаемость различных факторов: а - курение; б - возраст приезда на Север

б

*з =0

х4 = 0

*5 =°

20 27 34 41 48 55 62 69 76 83 % (

48 55 62

в

д

з

Рис. 2. Влияние на выживаемость различных факторов: в - зубцы Q и QS в отведениях I, ЛУЬ, У6; г - гипохолестеринемия ЛВП (мужчины < 40 мг/дл; женщины < 46 мг/дл; д - перенесенный инсульт головного мозга; е - наличие онкологической патологии (класс 2); ж - наличие хронической патологии (класс 3); з - наличие хронической патологии (класс 19)

Согласно данным на рис. 2, наибольшее значение для выживаемости из выявленных факторов имеет нарушение функционирования миокарда, что отражено измененными зубцами Q и QS в отведениях I, ЛУЬ, У6 (рис. 2, в) и наличием онкологической патологии класса 2 (рис. 2, е). Интересным оказалось влияние фактора «Возраст приезда на Север» - чем в более раннем возрасте человек приезжает на Крайний Север для постоянной работы на одном из промышленных предприятий, тем статистически меньше продолжительность его жизни (рис. 3).

Любопытной представляется оценка того, насколько большой может быть ошибка прогноза вероятности дожития, если при исследовании не учитывать усечение выборки. Так, на рис. 3 представлены графики оценок Каплана - Мейера и теоретических функций выживаемости, соответствующих обобщенному гамма-распределению с оцененными параметрами по усеченной выборке и выборке с теми же значениями продолжительности жизни, но без усечения.

Рис. 3. Теоретическая функция выживаемости и оценка Каплана - Мейера, полученные с учетом и без учета усечения данных

Как видим, модель выживаемости, полученная с учетом усечения слева, оказывается менее оптимистичной. В частности, вероятность дожития до 55 лет на основе модели, построенной без учета усечения, составляет примерно 0,9, в то время как на основе модели, построенной с учетом усечения, эта вероятность равна 0,75. Модель выживаемости по усеченным слева данным оказывается более «жесткой», что позволяет выбирать большее количество участников исследования в группу риска.

Заключение

Таким образом, основное внимание в ходе исследований уделялось проблеме построения модели пропорциональных интенсивностей Кокса и проверке гипотезы о согласии с данной моделью по усеченным слева и цензурированным справа данным. Проведено исследование распределений статистики критерия Вальда для проверки гипотез о равенстве регрессионных параметров нулю. Получены оценки скорости сходимости распределения статистики Вальда к соответствующему предельному ^-распределению при различной степени цензурирования. Предложен метод проверки гипотезы о согласии по усеченным данным, основанный на преобразовании исходной выборки наблюдений и вычислении остатков. В результате исследований показано, что задача проверки гипотезы по усеченным слева и цензурированным справа данным сводится к задаче проверки гипотезы по цензурированным данным.

Рассмотрен пример построения вероятностной модели выживаемости, на основе полупараметрической модели пропорциональных интенсивностей выявлены прогностические факторы. Для построения прогноза введена параметризация базовой функции интенсивности, соответствующая обобщенному гамма-распределению. С использованием модифицированных критериев Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга проверена гипотеза о согласии с полученной моделью.

СПИСОК ЛИТЕРАТУРЫ

1. Bagdonavicus V. Nonparametric tests for censored data / V. Bagdonavicus, J. Kruopis, M. Nikulin. John Wiley & Sons, Inc., New York, 2010. 233 p.

2. Balakrishnan N. Left truncated and right censored Weibull data and likelihood inference with an illustration / N. Balakrishnan, D. Mitra // Computational Statistics & Data Analysis. 2012. Vol. 56. P. 4011-4025.

3. Balakrishnan N. Likelihood inference for lognormal data with left truncation and right censoring with an illustration / N. Balakrishnan, D. Mitra // Journal of Statistical Planning and Inference. 2011. Vol. 141. P. 3536-3553.

4. Balakrishnan N. Likelihood inference based on left truncated and right censored data from a gamma distribution / N. Balakrishnan, D. Mitra // IEEE Transactions on reliability. 2013. Vol. 62. P. 679-688.

5. Pan W. A Nonparametric estimator of survival functions for arbitrary truncated and censored data / W. Pan, R. Chappell // Lifetime data analysis. 1998. Vol. 4. P. 187-202.

6. Huber-Carol C. Estimation of density for arbitrary censored and truncated data / C. Huber-Carol, V. Solev, F. Vonta // Probability, Statistics and Modelling in Public Health. Eds.: Nikulin M. S., Commenges D. and Huber-Carol C. Springer, New York, 2006. P. 246-265.

7. Cox D. R. Regression models and life tables (with Discussion) / D. R. Cox // Journal of the Royal Statistical Society. Ser. B. 1972. Vol. 34. P. 187-220.

8. Bagdonavicius V. Chi-squared goodness-of-fit tests for parametric accelerated failure time models / V. Bagdonavicius, R. Levuliene, M. S. Nikulin // Communications in Statistics - Theory and Methods. 2013. Vol. 42. P. 2768-2785.

9. Balakrishnan N. Testing goodness of fit of parametric AFT and PH models with residuals / N. Balakrishnan, E. Chimitova, N. Galanova, M. Vedernikova // Communications in Statistics - Simulation and Computation. 2013. Vol. 42. P. 1352-1367.

10. Чимитова Е. В. Непараметрические критерии согласия в задачах проверки адекватности моделей надежности по цензурированным данным / Е. В. Чимитова, М. А. Ведерникова, Н. С. Галанова // Вестн. Томск. гос. ун-та. Управление, вычислительная техника и информатика. 2013. № 4 (25). С. 115-124.

11. Bagdonavicius V. Goodness-of-fit criteria for the Cox model from left truncated and right censored data / V. Bagdonavicius, R. Levuliene, M. S. Nikulin // Зап. науч. семинаров Петербург. отд-ния Мат. ин-та. 2009. Т. 368. С. 7-19.

12. Lawless J. F. Statistical models and methods for lifetime data / J. F. Lawless. Hoboken, New Jersey: A John Wiley and Sons, Inc., 2003. 630 p.

13. Kalbfleisch J. D. The statistical analysis of failure time data / J. D. Kalbfleisch, R. L. Prentice New York: John Wiley and Sons, Inc., 1980. 439 p.

14. Лемешко Б. Ю. Проверка простых и сложных гипотез о согласии по цензурированным выборкам / Б. Ю. Лемешко, Е. В. Чимитова, Т. А. Плешкова // Науч. вестн. Новосибирск. гос. техн. ун-та. 2010. № 4 (41). С. 13-28.

15. Лемешко Б. Ю. Модифицированные критерии согласия Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга для случайно цензурированных выборок. Ч. 2 / Б. Ю. Лемешко, Е. В. Чимитова, М. А. Ведерникова // Науч. вестн. Новосибирск. гос. техн. ун-та. 2013. № 1 (50). С. 3-16.

16. Лемешко Б. Ю. О решении проблем применения некоторых непараметрических критериев согласия / Б. Ю. Лемешко, А. А. Горбунова, С. Б. Лемешко, А. П. Рогожников // Автометрия. 2014. № 1 (50). С. 26-43.

Статья поступила в редакцию 1.10.2014

ИНФОРМАЦИЯ ОБ АВТОРАХ

Чимитова Екатерина Владимировна - Россия, 630073, Новосибирск; Новосибирский государственный технический университет; канд. техн. наук, доцент; доцент кафедры «Теоретическая и прикладная информатика»; [email protected].

Митрофанов Игорь Михайлович - Россия, 630117, Новосибирск; Научный центр клинической и экспериментальной медицины Сибирского отделения Российской академии медицинских наук; д-р мед. наук; ведущий научный сотрудник лаборатории патогенеза соматических заболеваний; [email protected].

E. V. Chimitova, I. M. Mitrofanov

CONSTRUCTION OF PROBABILISTIC SURVIVAL MODELS FROM LEFT TRUNCATED AND RIGHT CENSORED DATA

Abstract. In the lifetime data analysis, the obtained samples of observations turn out to be censored, as a rule. Moreover, there is often such a situation when selection of devices (or individuals) into a sample is carried out according to some condition on the lifetime. In this case, the obtained lifetime data are

truncated. In this paper, the problem of construction of parametric proportional hazards model, introduced by Cox, on the basis of left truncated and right censored data has been considered. Selection of factors, influencing significantly on the survival function, is carried out on the basis of the semipara-metric model, in which the lifetime distribution is supposed to be unknown. The Wald test is used for testing hypothesis on equality of regression parameters to zero. By means of computer simulation methods, the distributions of Wald statistic for testing the parametric hypotheses for the Cox model from left truncated and right censored data have been studied. The convergence of the distributions of the Wald statistic to the corresponding chi-squire distribution has been analyzed for various censoring degrees. An approach for testing goodness-of-fit of the parametric Cox model from left truncated and right censored data on the basis of Cox - Snell residuals, which under true null hypothesis belong to the standard exponential distribution, has been proposed. For testing the hypothesis of exponential distribution of residuals, the modified Kolmogorov, Cramer - von Mises - Smirnov and Anderson - Darling good-ness-of-fit tests are suggested to be used. On the basis of the obtained statistical regularities, we have carried out the statistical survival analysis of nonnative-born population in the north regions of industrial development. On the basis of semiparametric proportional hazards model, the predicting factors, significantly influencing on the lifetime of people in the North are determined. Then, the baseline hazard rate function corresponding to the generalized gamma distribution is parameterized. The goodness-of-fit of the obtained parametric Cox model is tested.

Key words: left truncated data, censored data, Cox proportional hazard model, Wald test, non-parametric goodness-of-fit tests, survival function, generalized gamma distribution.

REFERENCES

1. Bagdonavicus V., Kruopis J., Nikulin M. Nonparametric tests for censored data. John Wiley & Sons, Inc., New York, 2010. 233 p.

2. Balakrishnan N., Mitra D. Left truncated and right censored Weibull data and likelihood inference with an illustration. Computational Statistics & Data Analysis, 2012, vol. 56, pp. 4011-4025.

3. Balakrishnan N., Mitra D. Likelihood inference for lognormal data with left truncation and right censoring with an illustration. Journal of Statistical Planning and Inference, 2011, vol. 141, pp. 3536-3553.

4. Balakrishnan N., Mitra D. Likelihood inference based on left truncated and right censored data from a gamma distribution. IEEE Transactions on reliability, 2013, vol. 62, pp. 679-688.

5. Pan W., Chappell R. A Nonparametric estimator of survival functions for arbitrary truncated and censored data. Lifetime data analysis, 1998, vol. 4, pp. 187-202.

6. Huber-Carol C., Solev V., Vonta F. Estimation of density for arbitrary censored and truncated data. In: Probability, Statistics and Modelling in Public Health. Eds.: Nikulin M. S., Commenges D. and Huber-Carol C. Springer, New York, 2006. P. 246-265.

7. Cox D. R. Regression models and life tables (with Discussion). Journal of the Royal Statistical Society. Ser. B., 1972, vol. 34, pp. 187-220.

8. BagdonavicDius V., Levuliene R., Nikulin M. S. Chi-squared goodness-of-fit tests for parametric acce-ler-ated failure time models. Communications in Statistics - Theory and Methods, 2013, vol. 42, pp. 2768-2785.

9. Balakrishnan N., Chimitova E., Galanova N., Vedernikova M. Testing goodness of fit of parametric AFT and PH models with residuals. Communications in Statistics - Simulation and Computation, 2013, vol. 42, pp. 1352-1367.

10. Chimitova E. V., Vedernikova M. A., Galanova N. S. Neparametricheskie kriterii soglasiia v zadachakh proverki adekvatnosti modelei nadezhnosti po tsenzurirovannym dannym [Nonparametric goodness-of-fit in tasks of testing the models of reliability on censored data]. Vestnik Tomskogo gosudarstvennogo universiteta. Upravle-nie, vychislitel'naia tekhnika i informatika, 2013, no. 4 (25), pp. 115-124.

11. BagdonavicDius V., Levuliene R., Nikulin M. S. Goodness-of-fit criteria for the Cox model from left truncated and right censored data. Zapiski nauchnykh seminarov Peterburgskogo otdeleniia matematicheskogo instituta, 2009, vol. 368, pp. 7-19.

12. Lawless J. F. Statistical models and methods for lifetime data. Hoboken, New Jersey: A John Wiley and Sons, Inc., 2003. 630 p.

13. Kalbfleisch J. D., Prentice R. L. The statistical analysis of failure time data. New York: John Wiley and Sons, Inc., 1980. 439 p.

14. Lemeshko B. Iu., Chimitova E. V., Pleshkova T. A. Proverka prostykh i slozhnykh gipotez o soglasii po tsenzurirovannym vyborkam [Testing the simple and complex hypothesis of goodness-of-fit on censored samples]. Nauchnyi vestnikNovosibirskogo gosudarstvennogo tekhnicheskogo universiteta, 2010, no. 4 (41), pp. 13-28.

15. Lemeshko B. Iu., Chimitova E. V., Vedernikova M. A. Modifitsirovannye kriterii soglasiia Kol-mogorova, Kramera - Mizesa - Smirnova i Andersona - Darlinga dlia sluchaino tsenzurirovannykh vyborok. Ch. 2 [Modified Kolmogorov, Cramer - von Mises - Smirnov and Anderson - Darling goodness-of-fit tests for random censored samples]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta, 2013, no. 1 (50), pp. 3-16.

16. Lemeshko B. Iu., Gorbunova A. A., Lemeshko S. B., Rogozhnikov A. P. O reshenii problem prime-neniia nekotorykh neparametricheskikh kriteriev soglasiia [On solution of the tasks of application of some nonpa-rametric criteria of goodness-of-fit]. Avtometriia, 2014, no. 1 (50), pp. 26-43.

The article submitted to the editors 1.10.2014

INFORMATION ABOUT THE AUTHORS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Chimitova Ekaterina Vladimirovna - Russia, 630073, Novosibirsk; Novosibirsk State Technical University; Candidate of Technical Sciences, Assistant Professor; Assistant Professor of the Department "Theoretical and Applied Informatics»; [email protected].

Mitrofanov Igor Mikhailovich - Russia, 630117, Novosibirsk; Scientific Center of Clinical and Experimental Medicine of Siberian branch of the Russian Academy of Medical Sciences; Doctor of Medicine; Leading Researcher of the Laboratory of the Pathogenesis of Somatic Diseases; [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.