it is possible, what there is not enough teach-pattern data to build the next approximating cylinder. In this case, we propose to use the method of elliptic cylinders parameter estimation based on moving average with the assumption of sufficient smoothness of the described sp a-tial domain.
Key words: training set, image recognition, principal component analysis, scattering
ellipse
Kopylov Andrey Valerievich, docent, [email protected], Russia, Tula, Tula State University,
Erokhin Maxim Anatolievich, student, [email protected], Russia, Tula, Tula State University
УДК 519.688
БАЙЕСОВСКИЙ ПОДХОД К ОЦЕНИВАНИЮ ФАКТОРОВ РИСКА В АНАЛИЗЕ ПРОДОЛЖИТЕЛЬНОСТИ ЖИЗНИ
О.В. Красоткина, В.А. Попов, Т.Ч. Нгуен, В.В. Моттль
Рассматривается задача построения модели регрессии с регулируемой селективностью в приложении к задаче анализа продолжительности жизни, основными особенностями которой являются малый объем обучающего множества и наличие цензурированных наблюдений. Для оценки параметров регрессионной модели предлагается использовать байесовский подход, в котором критерий максимального правдоподобия строится на основании модели пропорционального риска Кокса. Предложенный критерий обладает способностью подавлять факторы, несущественные для решаемой задачи, оставляя в модели факторы, являющиеся значимыми для оценивания продолжительности жизни в исследуемой группе прецедентов. Корректность полученной модели подтверждается экспериментами на модельных и реальных данных.
Ключевые слова: оценивание зависимостей, модель пропорционального риска Кокса, сокращение признакового описания, байесовский подход, отбор признаков, принцип максимального правдоподобия.
Введение
Задача анализа продолжительности жизни (survival analysis) - это задача распознавания образов, в которой пространство ответов имеет смысл времени, прошедшего после наблюдения вектора признаков на некотором объекте. Объектами в такой задаче могут выступать пациенты, изотопы, электрические лампочки и т.д. При распознавании с учителем обычно имеется некоторая обучающая выборка, для каждого объекта ко-
торой известны вектор признаков, время наблюдения и факт выполнения события для данного объекта. Событием в данной задаче может быть наступление рецидива, смерти или выход из строя объекта распознавания. Целью распознавания является, во-первых, предсказание времени жизни для новых объектов по известному вектору признаков, и, во-вторых, выделение среди всего множества факторов тех, которые непосредственно влияют на продолжительность жизни в данной популяции объектов.
Для анализа продолжительности жизни характерно наличие цензу-рированных наблюдений, затрудняющее применение обычных статистических и регрессионных методов. Цензурированием называют событие, приводящее к прекращению наблюдения за объектом до наступления события. Например, в процессе наблюдения за объектами, так как время наблюдения за объектом конечно, целевое событие наступает далеко не всегда. Но, несмотря на неполноту данных о таких объектах, их использование крайне желательно в силу того, что, как правило, в подобных задачах размер обучающей выборке невелик, а число признаков сопоставимо (или превосходит) количество объектов. Попытка использовать для оценивания продолжительности жизни критерий максимального правдоподобия, приводит к необходимости решать интегральные уравнения, что очень трудоемко. В работах Девида Кокса [1] было предложено для восстановления зависимостей в задаче анализа выживаемости использовать критерий частичного правдоподобия и модель пропорционального риска, которые позволяют строить эффективные в вычислительном отношении процедуры оценивания. Однако регрессионная модель Кокса не решает проблему оценивания релевантных признаков в задаче анализа продолжительности жизни при большом количестве признаковых переменных. Например, в задачах диагностики состояния сложных объектов, когда признаками является целый набор сигналов, число оцениваемых параметров алгоритма насчитывает несколько тысяч, при объеме обучающей выборки всего лишь в несколько сотен случаев. В литературе делались попытки использовать для отбора признаков в данной задаче методы гребневой регрессии (Ridge Regression), Lasso и Elastic Net [3, 4]. Однако все эти методы обладают недостатками, затрудняющими их использование для задач со многими признаками. Так, обучение модели эластичной сети требует больших вычислительных затрат, а метод Lasso приводит к полному отбрасыванию коррелированных признаков.
В работе предлагается байесовский подход к построению критерия максимального правдоподобия для задачи анализа продолжительности жизни, включающей в себя априорные предположения об искомых коэффициентах, которые позволяют осуществить отбор признаковой информации
Модель пропорционального риска для задачи анализа продолжительности жизни и критерий частичного правдоподобия
Пусть имеется обучающая совокупность, состоящая из троек следующего вида {ti, 8., х. , где tl - время жизни, хг = {ху}Р, ^ вектор действительнозначных признаков, 8 е {0,1} - признак цензурированности. При 8= 1(цензурирования нет) t¡ — это время жизни yi i-го объекта, а при 8 = 0 (цензурирование есть) t¡ — это время наблюдения за ьм объектом, а время его жизни yi не меньше t¡. Будем понимать вектор признаков объектов как случайный. Тогда определена случайная величина ], представляющая собой продолжительность жизни такого объекта. Для случайной величины ] определена функция распределения Г(^х,Р) = Р(]< ^х,Р),
которая представляет собой вероятность того, что продолжительность жизни объекта будет меньше t. Здесь р - вектор параметров, определяющий конкретный вид плотности распределения внутри некоторого параметрического семейства. Пусть время жизни непрерывная величина, тогда
определена плотность вероятности р(]< ^ х, Р) = йГ(^ х, Р)/А . Определим также функцию выживаемости 5(^ х, Р) = 1 - Г (^ х, Р), представляющую собой вероятность пережить момент времени /, и функцию риска И (^ х, Р ) = р (^ х, Р )/ 5 (^ х, в) - вероятность выхода из строя в момент времени / при условии нормального функционирования объекта до этого момента. При сделанных предположениях можно записать критерий максимального правдоподобия для оценивания параметров распределения продолжительности жизни по данной обучающей выборке (т\Х):
Р (ГХ )=П 5 (Ф,, в )П И (Ф<, в ) =
г|8, =0 , 8, =1
= П expI -Ц>Нх>,в)ах П и(Ф<,в).
г| 8,=0 V г=1 У г 8,=1
Данный критерий в качестве меры правдоподобия для нецензури-рованных наблюдений использует функцию риска, а для цензурированных данных - функцию выживаемости. Как видно, наличие цензурированных наблюдений приводит к существенному усложнению алгоритмов оценивания параметров распределения, так как для того придется решать интегральные уравнения. Для разрешения этого противоречия в работе [1] было предложено вместо полного критерия использовать критерий частичного правдоподобия, который для данной обучающей выборки в случае отсутствия одновременных событий будет иметь вид
п
ь (г|х, р ) = П
¿=1
ь (Ф*, Р )/Х Ь ( Ф,, Р )
/ ]
где ^ =|,: ^ > ti | - множество всех объектов вне зависимости от цензури-
рованности, переживших г -й. В качестве модели риска Девид Кокс в упомянутой выше работе предложил использовать модель пропорционального
риска Ь(^х, Р) = q ^)ехр(хТР), т.е представлять риск в виде произведения
двух компонент, первая из которых q (t) называется базовой функцией
риска и представляет собой риск выхода из строя в момент времени ^ для всей генеральной популяции объектов, в то время как вторая компонента
ехр(хТр) определяет риск выхода из строя в исследуемой популяции.
Окончательно критерий частичного правдоподобия в регрессионной модели Кокса имеет следующий вид:
п
ь №, в )=П
¿=1
-15.-
Ь (Ф, Р )/Х Ь ( Ф, , Р )
/ _
В реальных задачах медицинской диагностики, как правило, число признаков, описывающих объекты, превосходит число наблюдений, причем каждый признак может представлять собой результат довольно дорогостоящего исследования. Поэтому зачастую целью восстановления зависимостей в задаче анализа продолжительности жизни является не предсказание продолжительности жизни конкретного объекта, а определение факторов, которые в данной выборке ее отражают. Как следствие, приходим к необходимости введения регуляризации в регрессионную модели Кокса, которая сама по себе не обладает способностью отбирать релевантные ре-грессоры в процессе обучения.
Регрессионная модель Кокса с регулируемой селективностью
Выберем в качестве априорной плотности распределения компонент Д - нормальное распределение с нулевыми математическим ожиданием и некоторой дисперсией г:
^(Рг I Г Г )12 ехр[-Д?/ (2Гг)]. Кроме того, будем предполагать, что величины, обратные дисперсиям, имеют априорное гамма-распределение у(1/г | а,
(1/ г. )а 1ехр (-6/ г.). Тогда, совместная априорная плотности распределения
р
дисперсий 1/г примет вид 0(1/г1,...,1/ги | а,Д) = П|(1/Г)а1ехр(-0(1/Г)) I.
¿=1
Принцип максимизации совместной апостериорной плотности
5
приводит к следующему критерию обучения:
1=1 { jelli
+
/=1 V / 7=1 /=1 (Р
Такой критерий будем называть моделью пропорционального риска Кокса с регулируемой селективностью.
Процедура оценивания параметров модели пропорционального риска с регулируемой селективностью
Будем минимизировать данный критерий методом Гаусс а-Зай деля
по двум группам переменных (р,/*). Пусть (р^,/*^) - очередное приближение к точке минимума. Следующее значение вектора дисперсий можно получить, приравняв к нулю частные производные критерия максимального правдоподобия по каждой компоненте вектора,
(Й*>) +20 /(2а-1).
Для получения очередного значения вектора коэффициентов /3{к+1) необходимо найти минимум критерия максимального правдоподобия по этой переменной в предположении, что вектор дисперсий фиксирован
р(Л+1)=аг§тш(-/(р) + (1/2)Хр,2/^^
7=1
I
где = *^р-1п^ехр(л;]р) - логарифм функции частичного
7=1 V ^ )
правдоподобия. Для поиска экстремума этой функции также воспользуемся методом покоординатного спуска, используя для нахождения оптимизации критерия по каждой компоненте вектора идею разложения функции в ряд Тейлора с отбрасыванием членов выше второго порядка. Рассмотрим эту процедуру более подробно. Введем обозначения
Р7 - Р,/хи = пусть X = ,}, 77 = хр,где
/ = 1,...,/7;у =1,Также введем специальные обозначения для первой и второй частной производной критерия пропорционального риска по одной компоненте вектора коэффициентов
а
ехр(
ехр
К).
ТТЩ 7 кеС\/ jeRk
С учетом сделанных обозначений алгоритм поиска очередного приближения вектора коэффициентов будет иметь следующий вид Шаг 1. Задаемся начальными приближениями (3 и 77 = АГ|3. Шаг 2. Вычисляем н^(^). = а^^). - л, -
Шаг 3. Минимизируется следующий критерий р = а^гсцпМ^р),
где
М(|
7=1
i=i
Можно показать, что очередное приближение к точке минимума для коэффициентов может быть найдено по формуле
öM(ß)
7=1_7=1_J*k_
l + iw(ß).(xj2
7=1
Шаг 4. Принимаем ß = ß и f| = Xß.
А
Шаг 5. Повторяем шаги 2 — 4 пока изменяется ß .
Выберем параметры а и 9 следующим образом: а = 1 + 1/(2ц) и 9 = 1/(2ц), тогда £(]//;) = (2ц+ 1) и E(l/r* ) = 2ц(2ц +1). Параметр 0<ц<оо выполняет роль параметра регулируемой селективности. Если ц—>0, Е(1/г]) — 1, то £(l/r#2) = 0 1/;;. =...= 1//; =1. Если ц->сю, Е(1/т]) = оо и ^(l//j2) = oo, то ^^(l//;2)/^!//;.)^^—>оо (это означает, что при увеличении |и дисперсии могут существенно различаться, так как дисперсии увеличиваются быстрее, чем математические ожидания).
Для подбора значения структурного гиперпараметра ц воспольну-емся критерием скользящего контроля, для вычисления которого воспользуемся процедурой, преложенной Ван Гоувелингеном [5]. Выбросим из
А
выборки к наблюдений и оценим вектор коэффициентов ß^ по оставшимся N -к наблюдениям. Значение критерия частичного правдоподобия вычислим следующим образом:
к
CV (ц) = £ {/ (р t ,(ц))-„ ,(р и ,(ц))}.
k=1
(1)
где /(Дц)) - значение логарифма частичного правдоподобия на всей
выборке, a / ^ ((ц)) - значение логарифма частичного правдоподобия
на N - к объектах. Полученное таким образом значение скользящего контроля усредняется по многим разбиениям. В качестве оптимального выберем такое значение ц, которое обеспечивает максимальное значение критерия скользящего контроля. В данной работе использовали N = 5.
Экспериментальное исследование
В ходе экспериментального исследования сравнивали предложенную в работе регрессионную модель Кокса с регулируемой селективностью с реализацией штрафных методов Lasso, Ridge Regression (RR) и Elastic Net (EN) для регрессионной модели Кокса из пакета glmnet [6].
Экспериментальное исследование на модельных данных
Пусть каждое значение вектора признаков распределено независимо по нормальному закону Х^ N(0,1). Пусть число наблюдений
n = 25, число признаков варьировалось от 100 до 1000, но во всех экспериментах только 5 коэффициентов регрессии отличны от нуля и генерируются по формуле Д=(-1)' exp((1 - i)/10), i = 1,...,5и Д= 0,i > 5. Продолжительность жизни Y получается в соответствии с экспоненциальным распределением с параметром Хр. Время цензурирования (censoring time) C генерируется по равномерному закону па интервале [0,, где £ - параметр, регулирующий число неполных данных в выборке. Признак цен-зурированности вычисляется как ô = 1, если C > Y и ô = 0, если C < Y. Наблюдаемая переменная получается как минимальное из времен цензуриро-авния и выживания t = min{C,Y}. В табл. 1 приведены усредненные по
100 экспериментам значения ошибки восстановления коэффициентов для различного числа признаков. Как видим, предложенный метод регулируемой селективности (RS) дает меньшую ошибку восстановления коэффициентов из-за его способности выбирать индивидуальные дисперсии для каждого.
Таблица 1
Ошибка восстановления коэффициентов на модельных данных
Lasso RR EN RS
100 0.020 0.023 0.0163 0.015
500 0.031 0.055 0.023 0.019
1000 0.085 0.107 0.070 0.055
Экспериментальное исследование на реальных данных В качестве реальных данных были взяты результаты регистрирования времени жизни пациентов после химиотерапии при В-клеточной лим-фоме Diffuse Large В-Cell Lymphoma (DLBCL) [7]. Данные содержат 7399 признаков при 240 наблюдениях. Для каждого пациента представлено время наблюдения, если наблюдение цензурировано, либо время жизни, если данные полные и результат экспрессии генов, полученных из образца биопсии клеток опухоли, взятых после химиотерапии. Результатом анализа является восстановление подмножества генов, которые влияют на продолжительность жизни после химиотерапии при В-клеточной лимфоме [8]. В ходе эксперимента данные делятся на две выборки. Первая - тестовая -содержит 160 случайно выбранных объектов, вторая 80 контрольных объектов. Значения критерия максимального правдоподобия (1), полученные в результате применения методов LASSO, Elastic Net и метода селективной регрессии приведены в таблице 2. Предложенный метод дает более правдоподобное в сравнении с другими методами решение. По описанию задачи, приведенному в [8], подмножество из 30 генов, определяющих продолжительность жизни при В-клеточной лимфоме, отобранные в ходе эксперимента, является адекватным исследуемой задаче.
Таблица 2
Значение критерия частичного правдоподобия на контрольной _выборке для различных способов отбора признаков_
Lasso Elastic Net Управляемая селективность
4.38 4.41 4.52
Заключение
В статье рассматривается модель пропорционального риска Кокса для весьма распространенного случая малого объема обучающей выборки. При этом существенным оказывается вопрос повышения обобщающей способности алгоритма восстановления регрессионной зависимости за счет сокращения количества признаковых переменных. Предлагаемый в данной работе метод сокращения признакового пространства основан на байесовском подходе к задаче восстановления зависимостей и относится к числу встроенных методов. Достоинством метода является то, что он позволяет отбросить неинформативные признаки, не используя переборные стратегии, непосредственно в процессе восстановления искомой регрессионной зависимости.
Список литературы
1. David Сох. Regression models and life tables (with discussion) // Journal of the Royal Statistical Society, Series B. 1972. Vol. 74. P. 187-220.
2. Regularization Paths for Cox's Proportional Hazards Model via Coordinate Descent / Noah Simon [et al.] // Journal of Statistical Software, March
2009. - Vol. 39. Issue. 5.
3. Regularization Paths for Generalized Linear Models via Coordinate Descent / Friedman Jerome [et al.] // Journal of Statistical Software, January
2010. Vol. 33. Issue. 1.
4. Coordinate Optimization / Friedman Jerome [et al.] // The Annals of Applied Statistics, 2007. Vol. 1. No. 2. P. 302-332.
5. Cross-validated Cox regression on microarray gene expression data / Van Houwelingen [et al.] // Statistics in Medicine, 2006. Vol. 25, P. 3201-3226.
6. Friedman Jerome, Trevor Hastie, Rob Tibshirani. http://cran.r-project.org/web/packages/glmnet/ index.html.
7. Amalia Annest, Roger E, Bumgarner, Adrian E. Raftery, Ka Yee Yeung. http://expression. Washington.edu/publications/kayee/ibmasurv/.
8. The use of molecular profiling to predict survival after chemotherapy for diffuse large-b-cell lymphoma / Rosenwald Andreas, [et. al] //The New England Journal of Medicine . 2002. № 25. P. 1937 - 1947.
О.В. Красоткина, канд. физ.-мат., наук, доц., krasotkina@,tsu.tula.ru, Россия, Тула, Тульский государственный университет
В.А. Попов, магистр техники и технологии, dokwork amail.ru, Россия, г. Тула,
ТулГУ
Т.Ч. Нгуен, асп., [email protected], Россия, Тула, Тульский государственный университет
В.В. Моттль, д-р. техн. наук, проф., [email protected], Россия, Москва, ВЦ
РАН
BAEYSIAN APPROACH TO REGRESSOR SELECTION IN SURVIVAL ANALYSIS O. V. Krasotkina, V.A. Popov, T.T. Nguyen, V.V. Mottl
This paper presents building regression model with supervised selectivity to be applied in survival analysis. Its basic characteristics are small number of observations and included censoring observations. Bayesian approach, where maximum likelihood criteria is set up based on the Cox proportional hazards model, is proposed for estimating the regression coefficients of the model. The suggested criteria can eliminate redundant factors and keep
meaningful ones to analyze survival in research of patient group. The specific model has been tested and confirmed by simulation and real data.
Key words: dependences estimation, Cox proportional hazards model Bayesian ap-proach,feature selection, maximum likelihood principle.
Krasotkina Olga Vyacheslavovna, candidate of physical and mathematical sciences, docent, [email protected], Russia, Tula, Tula State University,
Nguen Trong Tinh, master, [email protected], Russia, Tula, Tula State University,
Popov Vladimir Andreevich, master, [email protected], Russia, Tula, Tula State University,
Mottl Vadim Vyacheslavovich, doctor of technical sciences, professor, vmottl@yandex. ru, Russia, Moscow, Computer Centre of RAS
УДК 004.93'11
БАЙЕСОВСКАЯ ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ В ЗАДАЧЕ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ ПРИ СМЕЩЕНИИ
РЕШАЮЩЕГО ПРАВИЛА
О.В. Красоткина, П.А. Турков, В.В. Моттль
В данной работе рассмотрена задача обучения распознаванию образов, в которой влияние некоторого скрытого фактора приводит к изменению свойств генеральной совокупности. Описание генеральной совокупности построено на модели логистической регрессии. Свойство нестационарности, вносимое изменениями исследуемого концепта, понимается как разделяющая гиперплоскость, параметры которой изменяются во времени. В представленной постановке задачи обучения эти параметры описываются как марковские случайные процессы. Для оценивания параметров применяется байесовский подход к классификации.
Ключевые слова: распознавание образов, байесовский подход, логистическая регрессия, смещение концепта, функции Беллмана.
Введение
Обычно в задачах распознавания образов предполагается, что свойства генеральной совокупности неизменны на протяжении всего процесса обучения. Однако можно столкнуться с задачами иного рода, в которых влияние каких-то скрытых факторов может привести к большим или меньшим изменениям в генеральной совокупности и, как следствие, в ре-
177