Научная статья на тему 'Поиск генетических закономерностей. Часть 1. Статистические методы'

Поиск генетических закономерностей. Часть 1. Статистические методы Текст научной статьи по специальности «Математика»

CC BY
405
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОЛНОГЕНОМНЫЙ ПОИСК ЗАКОНОМЕРНОСТЕЙ / GWAS / КАТЕГОРИАЛЬНЫЕ ДАННЫЕ / ДАННЫЕ ТИПА ВРЕМЕНИ ЖИЗНИ / МОДЕЛЬ КОКСА / КОРОТКИЕ ВРЕМЕННЫЕ РЯДЫ / ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ МОДЕЛИ / WHOLE GENOME ASSOCIATION DISCOVERY / GENOME WIDE ASSOCIATION STUDY (GWAS) / CATEGORICAL DATA / SURVIVAL DATA / COX MODEL / LONGITUDINAL DATA / GENERALIZED LINEAR MODELS

Аннотация научной статьи по математике, автор научной работы — Малов Сергей Васильевич, Шевченко Андрей Константинович, О'Брайен Стефан Джеймс

В работе всесторонне изучается методология полногеномного поиска связей фенотипа с одним или несколькими генетическими маркерами. В данной части работы рассмотрены различные типы данных, наиболее часто встречающиеся при проведении генетических исследований, и методы их анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Малов Сергей Васильевич, Шевченко Андрей Константинович, О'Брайен Стефан Джеймс

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methodology of genome association discovery is discussed comprehensively in this paper. In this part we consider main types of statistical data arises in genome association study experiments and wide range of statistical tests for these types of data analysis.

Текст научной работы на тему «Поиск генетических закономерностей. Часть 1. Статистические методы»

и

информатика

Малов Сергей Васильевич, Шевченко Андрей Константинович, О'Брайен Стефан Джеймс

УДК 57.087.1, 519.2

ПОИСК ГЕНЕТИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ. ЧАСТЬ 1. СТАТИСТИЧЕСКИЕ МЕТОДЫ*

Аннотация

В работе всесторонне изучается методология полногеномного поиска связей фенотипа с одним или несколькими генетическими маркерами. В данной части работы рассмотрены различные типы данных, наиболее часто встречающиеся при проведении генетических исследований, и методы их анализа.

Ключевые слова: полногеномный поиск закономерностей, GWAS, категориальные данные, данные типа времени жизни, модель Кокса, короткие временные ряды, обобщенные линейные модели.

ВВЕДЕНИЕ

В середине XX века было установлено, что вся информация о структуре рибонуклеиновых кислот (РНК) и белков, определяющих свойства всех известных организмов, закодирована в молекуле дезоксирибонуклеиновой кислоты (ДНК) [23], которая находится в каждой клетке. На самом деле в каждой клетке имеется пара комплементарных цепочек ДНК, образующих двойную спираль [40]. За это открытие в 1962 году работа Френсиса Крика и Джеймса Уотсона, впервые предложивших модель двойной спирали, была отмечена Нобелевской премией по физиологии и медицине. Генетическая информация в молекуле ДНК кодируется последовательностью четырех видов нуклеотидов, обозначаемых буквами (символами) «A», «G», «T», «C» по первым буквам названий четырех видов азотистых оснований, входящих в состав соответствующих нуклеотидов.

Длина последовательности ДНК (генома) зависит от типа организма. Скажем, у вирусов длина последовательности ДНК обычно имеет порядок 103 пар оснований, у бактерии E. coli - примерно 4,6 • 106 пар оснований, у человека - около 3,2 • 109 пар оснований, у определенных видов деревьев она исчисляется 3 • 1010 парами оснований, а у некоторых видов амеб она достигает 6,7 • 1011 пар оснований (Amoeba dubia). Следует заметить, что размер генома не всегда коррелирует со «сложностью» организма и его эволюционным положением.

В клетках, молекулы ДНК особым образом уложены в структуры, называемые хромосомами. Разным видам свойственно различное количество хромосом. Для человека характер-

© Малов С.В., Шевченко А.К., * 0 ~

' ' Работа поддержана мегагрантом правительства

О'Брайен С.Д., 2013 Российской Федерации № 11.G34.31.0068.

но наличие 22-х пар соматических хромосом (аутосом) и двух половых хромосом. У женского организма половые хромосомы являются парными (XX), а у мужского - одна из половых хромосом короче (XY).

Технологии «прочтения» (секвенирования) последовательности ДНК постоянно развиваются, но на сегодняшний день не существует эффективной технологии расшифровки всей последовательности одной молекулы, она собирается с помощью различных алгоритмов из десятков, сотен миллионов, а иногда и миллиардов коротких последовательностей (ридов), полученных с той или иной секвенирующей платформы. Кроме того, в процессе «прочтения» и сборки генома сложно исключить возможность появления ошибок в конечной последовательности. С другой стороны, сейчас уже существуют технологии, позволяющие собирать геном одной единственной исследуемой клетки (single-cell sequencing) многоклеточного или одноклеточного организма.

Последовательность ДНК может меняться под действием физических, химических или биологических факторов. Такие изменения последовательности ДНК принято называть мутациями. Различают три типа простых мутаций: замена одного нуклеотида на другой, вставка и удаление одного или нескольких нуклеотидов. Мутации, происходящие в клетках многоклеточного организма, приводят к различиям в генетическом материале разных клеток. Мутации происходят постоянно, однако в случае многоклеточных организмов, большинство мутаций не оказывает влияния на эволюцию, так как касается только одного организма. Только мутации, происходящие в половых клетках, могут закрепиться в потомстве и влиять на ход эволюции. В результате в популяции могут появляться два или более альтернативных варианта рассматриваемого участка ДНК, называемые аллелями. Вариации в одной позиции исследуемого участка ДНК (локуса), закрепившиеся в популяции, получили название однонуклеотидных полиморфизмов1 (ОНП). Вероятность закрепления в популяции более двух вариантов ОНП в одной позиции крайне мала, поэтому все известные на текущий момент ОНП имеют по два варианта. Природа возникновения вставок и удалений более сложная, но иногда все-таки удается выявить бинарный маркер, который также приравнивают к ОНП. На текущий момент в геноме человека выявлено около 15 миллионов ОНП.

С учетом постоянной изменчивости абсолютно точная расшифровка последовательности ДНК не является практически актуальной задачей. Имеет смысл говорить о классах последовательностей ДНК, характерных для определенной группы организмов. В частности, можно говорить о последовательности ДНК млекопитающих, ДНК человека (геноме) или ДНК индивида (генотипе). Последовательности ДНК однотипных организмов (генотипы) обычно кодируются с помощью маркеров, поэтому генотип естественно идентифицировать с соответствующей последовательностью маркеров. Простейшие маркеры - ОНП и (или) приравненные к ним бинарные варианты мутаций типа удаления или вставки.

Классически, геном называется последовательность нуклеотидов (участок ДНК), кодирующая белок или функциональную РНК [35]. Мутации внутри гена, закрепленные в процессе эволюции, приводят к появлению различных его вариантов (аллелей этого гена).

Специфический аллельный состав, характеризующий конкретную особь, называют генотипом. В диплоидном организме генотип представлен двумя наборами идентичных или различающихся аллелей каждого гена или иного участка ДНК, находящимися в соответствующих локусах парных (гомологичных) хромосом. Также можно говорить о генотипе по конкретному гену, участку или позиции (ОНП) в последовательности ДНК индивида. Таким образом, генотип по каждому ОНП в организме человека представлен одним из трех возможных вариантов по данной позиции (+/+; +/-; -/-). Если аллели совпадают (+/+; -/-), то организм называют гомозиготным, если нет (+/-) - гетерозиготным по генотипу в соответствующей позиции.

1 Single Nucleotide Polymorphism (SNP).

Гаплотип (гаплоидный генотип) - это комбинация аллелей на локусах одной из двух гомологичных хромосом, обычно наследуемых вместе. Иногда (в данной работе) гаплотип определяют как набор ОНП, содержащихся на локусах одной из двух гомологичных хромосом. Генотип диплоидной особи состоит из двух родительских гаплотипов, расположенных на гомологичных хромосомах, полученных от матери и отца соответственно.

Фенотипом называется совокупность наблюдаемых свошств, присущих данному организму в данный момент времени. Элементарные единицы фенотипа (признаки) принято называть фенами [2] (термин фенотип также используется и для отдельных признаков). Главным образом, фенотип - физиологическое и (или) морфологическое следствие генотипа, но на его проявление оказывают влияние и внешние факторы. Наличие одного из трех генотипов (+/+; +/-; -/-) в локусе часто проявляется в виде определенного фена (фенотипа), поэтому выявление влияния определенных маркеров и их комбинаций на фенотип имеет важнейшее практическое значение. Задачи полногеномного поиска закономерностей (GWAS1) становятся все более актуальными при современных темпах развития технологий полногеномного секвенирования и накопления генетических данных.

Данная работа состоит из двух частей. В первой части рассмотрены различные типы данных, возникающие при проведении генетических исследований, а также методы их анализа. Во второй части будет обсуждаться проблема интерпретации результатов множества тестов, тесно связанная с задачами распознавания и выявления сигнала, а также реализация статистических методов поиска генетических закономерностей на языке программирования R и их применение в исследовании ВИЧ инфекции и развития СПИД.

2. ТИПЫ БИОСТАТИСТИЧЕСКИХ ДАННЫХ

Разработка дизайна статистического исследования - сложный процесс, включающий в себя постановку эксперимента, сбор данных, их анализ и интерпретацию результатов. На этапе подготовки формируется план исследования, ибо бессистемный сбор данных обычно не позволяет эффективно использовать вложенные ресурсы и получать информативные результаты. Исследование, связанное с человеком, обычно включает в себя организацию когорты пациентов с учетом этических стандартов и сопровождается массой документации. Простейший план эксперимента - разовый скрининг, в рамках которого случайно выбранные согласно запланированным критериям пациенты изучаются на предмет наличия того или иного заболевания (или характерного свойства). Для постановки такого эксперимента обычно требуется существенно меньше ресурсов по сравнению с более сложными экспериментальными планами, но возможности интерпретации результатов анализа в этом случае ограничены. Более сложный, с точки зрения постановки, эксперимент - наблюдение за когортой пациентов в течение определенного времени. Данный план эксперимента гораздо более затратен, и для его реализации требуется много времени. В связи с этим, при постановке такого эксперимента стараются получить максимальное число различного типа данных. При правильной постановке эксперимента результаты могут быть интерпретированы для описания гораздо более широкого набора явлений, по сравнению с разовым скринингом. Основные типы данных, получаемых в результате исследований, связанных с поиском генетических закономерностей, будут описаны далее.

Данные, пригодные для поиска генетических закономерностей, состоят из клинической и генотипической частей. Клинические данные содержат информацию о фенотипах, тогда как генотипические данные представляют собой наборы ОНП вариантов, выявленных у каждого из индивидов. Клинические данные обычно бывают категориальными, типа времени жизни, или короткими временными рядами (лонгитюдными).

1 Genome wide association study (англ.)

Данные, получаемые в результате проведения разового скрининга, часто имеют категориальный тип. Наиболее часто в эпидемиологических исследованиях наблюдается бинарная переменная, принимающая значения 0 и 1 и характеризующая наличие инфекции или болезни у пациента. Иногда наблюдаемая категориальная переменная допускает и большее число значений (уровней). Наконец, даже если наблюдаемая переменная непрерывного типа, то индивидов можно классифицировать в определенное число групп по значениям наблюдаемой переменной, что позволяет свести задачу к категориальной схеме. Поскольку генотип также задается переменной, принимающей три значения, для такого исследования применяют методы категориального анализа (см. [6] или [5]).

Эксперимент может быть как пассивным (свободным), предполагающим случайный выбор индивидов из генеральной совокупности, так и активным (контролируемым),1 предполагающим контроль исследователем численности групп индивидов с фиксированными значениями наблюдаемой переменной, или ковариат. Вся информация, пригодная для получения статистических выводов, может быть записана в виде таблицы сопряженности, ячейки которой заполняются числами наблюдений с фиксированными значениями наблюдаемой переменной и ковариат. Характерной особенностью полногеномного анализа закономерностей является наличие огромного числа таблиц сопряженности, каждому ОНП соответствует своя таблица сопряженности. Обычно статистические тесты проводят для каждой таблицы по отдельности, однако при интерпретации приходится учитывать результаты всех тестов. Для исследования совместного влияния нескольких генотипов на фенотип необходимо создание общей таблицы на единицу большей размерности, где в качестве дополнительного фактора используют номер ОНП.

При наблюдении за когортой пациентов в течение определенного промежутка времени в эпидемиологических исследованиях обычно следят за появлением симптомов болезни (инфекции) или за изменением того или иного признака путем проведения анализов. В первом случае получаем данные типа времени жизни2 (см. [27, 16] или [3]), во втором - короткие временные ряды3 (см. [22, 11] или [1, 5]).

Анализ данных типа времени жизни обычно направлен на изучение распределения времени перехода T объекта исследования из одного состояния в другое (отказа) или зависимости этого распределения от свойств изучаемого объекта (ковариаты). В эпидемиологии обычно речь идет о времени заражения некоторой инфекцией. В медицине часто изучают время возникновения рецидива некоторой болезни или время жизни с момента проведения хирургической операции или иного вмешательства (лечения). Наиболее информативным является наблюдение времени отказа у каждого из пациентов, однако наблюдение времени отказа всех пациентов практически неосуществимо. Часть пациентов остается в исходном состоянии до конца исследования. Исключение таких пациентов из анализа недопустимо, поскольку это приведет к систематической ошибке оценивания. Полезную информацию о распределении T несет время цензурирования справа U - время ухода пациента из под наблюдения. Если T < U, то наблюдается время отказа, в противном случае наблюдается время цензурирования. Таким образом, для каждого пациента наблюдается пара (X, 5), где X = T л U и 5 - щ,

д _ | 1, если А выполнено, А \ 0, в противном случае.

Такого рода данные называются цензурированными справа.

1 Например, Case-control study (англ.).

2 Survival data (англ. ).

3 Longitudinal data (англ. ).

Фактически при проведении когортного исследования время отказа наблюдается с некоторой погрешностью, определяемой интервалами времени между соседними обследованиями. Иными словами, информация об отказе (заболевании) представляется в виде времени последнего обследования, когда пациент еще был здоров L, и времени обследования, когда у него выявили симптомы заболевания W. В случае если пациент остается здоровым до конца эксперимента, наблюдается только L = и, а W можно считать равным бесконечности. Такая модель интервального цензурирования была предложена в работе [38], наряду с другими моделями анализа данных типа времени жизни.

Для изучения развития некоторого процесса (заболевания) весьма важным выглядит наблюдение за рядом сопутствующих характеристик, изменяющихся с течением времени. Наборы значений характеристик, измеренных в ряде временных точек, называются временными рядами. Наблюдения могут быть представлены в виде векторов Yj = ...,Yi )', где 1 - номер индивида, а п - число наблюдений, соответствующих 1-му индивиду. В зависимости от плана эксперимента, числа п могут быть случайными или фиксированными. Наряду с Yj , обычно наблюдаются времена последовательных обследований , 1 = 1, ..., п, ] = 1, ..., п. Времена также могут быть случайными или контролироваться исследователем.

3. АНАЛИЗ КАТЕГОРИАЛЬНЫХ ДАННЫХ

Если наблюдаемая переменная имеет категориальный тип, то для поиска генотипов, зависимых с наблюдаемой переменной, обычно используют как классические методы категориального анализа, так и обобщенные линейные модели. Методы выявления зависимости в основном применимы как для пассивного, так и для активного экспериментов. В первом случае можно говорить о совместном распределении наблюдаемой переменной и кова-риаты, во втором - интерпретация возможна только в терминах условных распределений наблюдаемой переменной при различных значениях ковариаты. Генетические исследования обычно проходят в условиях пассивного плана, однако статистический анализ совместного распределения фенотипа и всего генома не представляется возможным, поскольку число генов в геноме в разы превышает число индивидов. Таким образом, результаты анализа удобнее интерпретировать в терминах условных распределений наблюдаемой переменной при различных значениях отдельных ковариат или небольших наборов ковариат.

3.1. КЛАССИЧЕСКИЕ МЕТОДЫ АНАЛИЗА

Классические методы анализа категориальных данных используют представление исходных данных в виде таблицы сопряженности. В условиях свободного эксперимента распределение значений в таблице сопряженности является мультиномиальным. Отметим, что условные распределения значений в таблице сопряженности, соответствующие различным значениям ковариаты, также являются мультиномиальными и независимость наблюдаемой переменной с ковариатой в условиях свободного эксперимента проверяется теми же тестами, что и однородность условных распределений при всех значениях ковариаты. При наличии дополнительных факторов возможно построение таблиц более высокой размерности (отдельных таблиц для каждого набора значений дополнительных факторов).

При анализе таблиц сопряженности наиболее часто используются критерий хи-квадрат и асимптотически эквивалентный ему критерий отношения правдоподобия. Следует отметить, что эти критерии являются асимптотическими и при наличии малого числа наблюдений в каких-либо ячейках таблицы сопряженности не рекомендованы к применению. В этом случае можно использовать критерии случайных перестановок на базе соответствующих статистик. Идея построения таких критериев состоит в том, что имеющемуся набору

значений наблюдаемой переменной случайным образом сопоставляются имеющиеся значения ковариат, и данная операция проводится K-раз. В каждом случае вычисляется значение статистики и соответствующее Р-значение pi, k = 1, ..., K. Тогда Р-значение критерия случайных перестановок выбирается как R/K, где R - ранг наибольшего из pkl, не превышающего исходное Р-значение. Использование рандомизации повышает требуемый вычислительный ресурс более чем в K раз, что весьма нежелательно для полногеномного анализа закономерностей. С другой стороны, полученное Р-значение не превышает K-1, что с учетом необходимости выбора только очень малых Р-значений, далеко не способствует использованию данного метода.

Альтернативно, можно игнорировать ячейки с малым количеством наблюдений, что снизит эффективность теста, но существенно не отразится на скорости вычислений. Наконец, в рамках предварительного скрининга, можно вычислять значение статистики «как есть», а в случае выбора соответствующей закономерности, провести анализ более точно.

Для таблиц сопряженности 2 х 2 можно использовать так называемый точный критерий Фишера, основанный на гипергеометрическом распределении значения в выбранной ячейке (например nn) таблицы сопряженности при фиксированных суммарных значениях таблицы по столбцам и по строкам. Точный критерий Фишера достаточно популярен при проведении анализа генетических закономерностей с бинарной классификацией по генотипу, поскольку ситуации с недостаточным числом наблюдений в отдельных ячейках встречаются достаточно часто. Тем не менее, при наличии достаточно больших значений во всех ячейках таблицы рекомендуется использовать асимптотические критерии.

3.2. ИСПОЛЬЗОВАНИЕ ОБОБЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ

В основе обобщенной линейной модели однофакторного дисперсионного анализа (простой группировки) лежит регрессионное соотношение

g(E(7|z = /)) = |^ + ß;, (1)

где Y - наблюдаемая переменная (фенотип), ц - базовый уровень (взвешенное среднее), ß . - главный эффект /-го уровня рассматриваемого фактора (генотипа), g - функция связи1. Распределение бинарной наблюдаемой переменной Ye {0,1} определяется параметром = Р(Г = 11z) = E(Y\z). В этом случае обычно используют модель (1) с функцией связи g(u) = log(u/(1 - u)) = logit(u) - логистическая регрессия. При наличии у фенотипа трех или более уровней имеет смысл использовать пуассоновскую модель с функцией связи g(u) = log(u), где в качестве наблюдаемых переменных используются значения из таблицы сопряженности. В условиях пуассоновской модели предполагается, что все значения в таблице сопряженности являются независимыми и имеют распределения Пуассона с параметрами Цу = Xpjj , ^^^ ..Pij = 1, а суммарное число значений в таблице сопряженности имеет распределение Пуассона с параметром X . Следует отметить, что условное распределение значений в таблице сопряженности при фиксированной сумме в пуассоновской модели является мультиномиальным.

4. АНАЛИЗ ДАННЫХ ТИПА ВРЕМЕНИ ЖИЗНИ

В теории вероятностей для задания распределения случайной величины обычно используют функцию распределения F(x) = Р(Р< х). При работе с данными типа времени жизни с правым цензурированием для задания распределения Т\ Р( 7-> 0) = 1, удобно использовать так называемую функцию отказа Л'(х) = 1 -F(x) = Р(Р>х) или накопленную интенсивность

1 Link (англ.).

dF (х) '01

С х

Л( х) = 101

В случае абсолютно непрерывного распределения Т

Л(х) =[ X(х)'х =[ р(х)/S(х_ )'х. •»0 »0

^х рх

0 х (x)dx = ] ^

где р(х) - плотность распределения Т, а £(х_) - предел слева функции £ в точке х. Если распределение Т является дискретным, то

Л(х) = Е и<хХ(М) = Е и<ХНТ = Ы)1ПТ > и).

Функцию X называют интенсивностью отказа. Отметим также, что

£ (х) = ехр(_Лс (х))П и < х (1 _ ЛЛ' (и)),

где Лс и Л' - накопленные интенсивности, соответствующие непрерывной и дискретной компонентам распределения Т соответственно.

В случае цензурирования справа каждое наблюдение представляет собой пару (X, 5), гдеХ= Т а и, Ь = %,т<,., и и - время цензурирования справа.

Наиболее часто делают предположение о независимости цензурирования. Фактически, условие независимости цензурирования сводится к совпадению условного распределения Т при условии X > и с усеченным слева распределением Т на уровне и при каждом фиксированном и. В частности, если Т и и независимые величины, то условие независимости цензурирования выполнено.

4.1. НЕПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ

Пусть (Х1, 51), ..., (Хп, 5п) - исходные данные типа времени жизни с правым цензурированием; Т(1) < ... < Т(ц - последовательные времена наблюдавшихся отказов, L < п. Аналог эмпирического распределения в случае независимого правого цензурирования имеет накопленную интенсивность

Л(х) = Е |,

1 %) < х г

где с! 1 = Е / " !'//=7(,)-'\/=1! ~ число отказов, наблюдавшихся в момент времени Т(Г).

У 1 = ^ - число объектов с неопределенным исходом (не отказавших и не цензу-

рированных) к моменту времени Т(г). Оценка Л называется оценкой Нельсона-Аалена. Соответствующая функция отказа называется оценкой Каплана-Мейера

х) = Пг :Т(г)<х (1 _ЛЛ(Т(г))) = Пг %<х (1 _ ^ )• (2)

Данное распределение является дискретным с атомами в точках Т^, ..., Тц^ и весами

ч(Т(к)) = ё(Т(к _1)) _ §(Т(к)) = ^ё(Т(к _1)) = ^ Пк=1(1 - 'г/Уг ) .

Рассмотрим еще один алгоритм вычисления данного распределения. Для этого удобнее рассмотреть все последовательные времена наблюдаемых событий (отказов или цензурирований) х(1) < ... <х(м), I, < т < л; = Е' ^{Л, xil).ьJ ц , ^ = Е'- г%'7 xil).ьJ „; и = + ' с - числа отказов, цензурирований и общее число событий соответственно, наблю-

давшихся в момент времени Х(/): У 1 = ^ . I < у^ > ;; = ^ с!,. Формула (2) в новых обозначениях будет выглядеть следующим образом:

X) = П(,),х(1 -

С использованием соотношений

^ у - - а: у,

г У - ;г % -% у, - %г % ( % - % / ^

1__1_ = _^ = ~и, _1_ = -'¿+1

у у у % % %

1 1

получаем, что

у, - ;

1+-

,

У+1

/

ад=^П,х(0,х(1+%;/%+1) и ^ад=^П^1(1+;с/У~+1)-

Таким образом, для получения данного распределения можно использовать следующий алгоритм:

1) начинаем с эмпирического распределения на множестве времен наблюдаемых событий Х1, ..., Хп (то есть каждому Х{ сопоставляем вес 1/п);

2) последовательно перебирем все наблюдаемые времена событий Х1,...,Хп в порядке возрастания значений, если 5, = 1 , оставляем текущий вес, соответствующий выбранному наблюдению Х{, в точке Х{, а если 5, = 0, то распределяем его равномерно по всем X.: X. > Х{. Отметим, что построенное распределение является собственным в том и только в том случае, если = Х^ и все события, наблюдающиеся в момент времени Х^, являются отказами.

Отметим важные асимптотические свойства оценок Нельсона-Аалена и Каплана-Мей-ера, которые в дальнейшем будут использованы при построении категориальных тестов. Пусть (Тр Ц), ..., (Тп, ип) - выборка из двумерного распределения с непрерывной функцией распределения F компоненты Т, уТ = sup{x: F(х) < 1} . Тогда, при выполнении условия независимости цензурирования

4П (Л( х) -Л( х)) ^ ж 2( х) (3)

в ^([0, ф , t < у т , где Ж - стандартный винеровский процесс, т 2(х) - функция вариации. В качестве состоятельной оценки т 2( х) обычно используют

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

т"2(х) = п£.т 2(х) (4)

при п ^ ж . Аналогичный результат справедлив для оценки Каплана-Мейера

4ПФ(х)/5(х) -1) ^ Ж2(. (5)

( х )

в ^([0, t]) , t < ут , где Ж- стандартный винеровский процесс, с 2(х) - функция вариации. Состоятельная оценка для с 2 (х) может быть вычислена по формуле Гринвуда

¿2(х) = п£г :Т(г) йх;1/(у1 (у, - )) ^Р с 2(х) (6)

при п ^ Ж .

4.2. ИСПОЛЬЗОВАНИЕ МЕТОДОВ КАТЕГОРИАЛЬНОГО АНАЛИЗА

Методы категориального анализа применимы и в случае, если наблюдаемые переменные непрерывного типа. Наиболее известный пример - хи-квадрат критерий, когда множество значений переменных разбивают на интервалы, получая при этом дискретные распределения. Данный подход применим и для данных типа времени жизни. Применимость клас-

сических категориальных тестов при анализе данных типа времени жизни детально рассмотрена в работе [30]. Основные результаты, связанные с применимостью классических методов категориального анализа при анализе данных типа времени жизни, будут рассмотрены далее.

Каждому наблюдению сопоставим пару (Т, z), где Т _ время отказа (заболевания), z е {1, ..., d} - ковариата категориального типа, значение которой характеризует распределение Т. Обозначим F Sz и Л2 функцию распределения, функцию отказа и накопленную интенсивность распределения Т при значении ковариаты z. Пусть 0 < t1 < ... < < да разбиение множества допустимых значений Т: 0 < Fz(t1) < ... < Fz(ts_х) < 1 при всех допустимых значениях z. Гипотеза однородности

Н0: F1(x) = ... = Fd(х) при всех х > 0 заменяется на более слабую гипотезу

Н0 : F1(t]) = ... = Fd(у при всех у = 1, ..., 5 _ 1.

Если все отказы наблюдаются, то их можно классифицировать в 5 групп и получить таблицу сопряженности 5 х d. В этом случае можно использовать классические методы категориального анализа, основанные на сопоставлении полученных частот и теоретических вероятностей рк^=¥{Т е. 1к\г), /, = |0. /, |. ¡к = 0к ,,/¿1 при к = 2,...,5-1 и / = . х). В общем случае наблюдения, цензурированные до момента времени ts не удается классифицировать в ту или иную группу, поскольку точное время отказа неизвестно. Отметим, что любые правила классификации таких наблюдений или удаления их из анализа ведут к смещениям ожидаемых частот из таблицы сопряженности по отношению к теоретическим вероятностям. В то же время категориальная схема накопления статистической информации может быть использована при решении некоторых задач и в этом случае. В качестве примеров рассмотрим три способа классификации наблюдений:

1) все наблюдения, цензурированные до момента ts, удаляются из анализа;

2) все цензурированные наблюдения удаляются из анализа;

3) все наблюдения классифицируются по наблюдаемому моменту события X = Т л и. Пусть = Пу/пу, где п^ _ число наблюдений с ковариатой z = у, классифицированных в

7-ю группу, пу = пу . Очевидно, что в первом случае

9,]= = =ПТеЩТ<Щи{и>Т3}-,2).

Предположим дополнительно, что Т и и _ независимые величины и функция отказа G величины и не зависит от ковариаты. Тогда,

ts

=\1гО (x)dFz (х)у/^ )О(^) + 1(х) ), 7 = 1, ...

и q^z = 1- Ег=1 q7\z . Аналогично, во втором случае

Ча2 = Р(Т е 11Т < и; z) = ^ О(х)<Шг (х)/\ " О(х^ (х)

/ V ' 0

15-1

7^ ^ - ^Ч J 0

и в третьем случае

[1-ед.ЗД, / = 1,

д =¥(ТГ\2)=<

(^ - G(tг ^ (tг), 7 = 2,..., 5,

^ (^ ), 7 = 5.

Классические категориальные тесты применимы в этом случае для проверки гипотезы

Н0: qí|l = ••• = ql\d, 7 = 1, 5

Очевидно, что отвержение данной гипотезы влечет отвержение Н 0, но не Н 0. Таким образом, классические категориальные тесты могут быть использованы для проверки гипо-

тезы Н о, но значения статистик по сути не могут быть использованы для обоснования характера и величины отклонений от основной гипотезы, поскольку в выражения для q^z помимо параметра F входит мешающий параметр G.

4.3. ПРОВЕРКА КАТЕГОРИАЛЬНОЙ ГИПОТЕЗЫ ОДНОРОДНОСТИ ПО ЦЕНЗУРИРОВАННЫМ СПРАВА ДАННЫМ

Для проверки гипотезы однородности по цензурированным данным типа времени жизни наиболее часто применяются так называемые G р -статистики [21]. Менее популярны критерии типа хи-квадрат, разработанные для проверки категориальной гипотезы НОС . Мы рассмотрим еще один простой метод построения статистических критериев для проверки Н О;, обсуждавшийся в работе [30]. Для построения критериев нам потребуются асимптотические свойства (3), (5) и метод сравнений, широко использующийся в дисперсионном анализе.

Переформулируем гипотезу Н0 в следующем виде:

НО: Sl(tJ) =... = ), - = 1,..., * -1.

Введем 9- = Si(^), 7 = 1, ..., ё, J = 1, ..., * - 1. Отметим, что оценки Каплана-Мейера S1, ..., Sd обладают свойством независимости при условии, что значения ковариат изначально фиксированы. С использованием (5) получаем сходимость

дП(9я -9г1,...,97*_1 -9г*_1)'^N(0,£) при п , где £7 = || с7.дг ||: с7.дг = 9^9 7Гсг2(tq л tr), q, г = 1, ..., * - 1 , п( - число наблюдений с ковари-атой г = 7. Для оценки матрицы ковариации используем £. с элементами

с7:дг =9ц9го7(^ лtr), а с7 (t) вычисляется по формуле Гринвуда (6). Рассмотрим

9 = (9Ш 91 9ё 1, 9ё*-1)' и 9 = (в ^ 9 !^ 9 ё 1, О'. Тогд^

4п (в" - 9 ) ^ N(0,£7). -(7)

где £ = diag(¡1£1,..., 1п£ё) - блочно-диагональная матрица, ¡1 = п/п1 при 7 = 1, ..., ё.

Сравнением параметра 9 = (91-, ..., 9— называется линейная комбинация ^¿аг-9- :

^ а7 = 0. Пусть А = || ак|| - ё х(ё - 1)-матрица ранга ё-1: ^.а7к = 0 при к = 1, ..., ё- 1. Известно, что 91. = ... = 9^- равносильно обращению в нуль всех ё - 1 линейно независимых сравнений: А'9, = 0.

Сопоставим каждому а- диагональную матрицу А- = а- где I*- единичная матрица размерности * - 1, и введем матрицу сравнений В размера (ё - 1)(* - 1) х ё(* - 1), составленную из блоков А., в соответствующем порядке. Матрица В является матрицей сравнений параметра 9, и основная гипотеза Н0 может быть переформулирована в следу-

ющем виде:

H0: B9 = 0.

С использованием (7) и свойств нормального распределения получаем сходимость

,2

' (d-1)(i-1) '

«:9 ' Q -19" ^Х 2d-1)(,-г

где Q =B(B 2 B')-1B.

Отметим, что гипотеза H0 может быть переформулирована в виде

НС : Л^) = ... = ЛёО-), - = 1, ..., * - 1, что позволяет использовать асимптотическую нормальность (3) для построения критерия, который строится аналогично с использованием сравнений.

4.4. ПАРАМЕТРИЧЕСКИЕ И СЕМИПАРАМЕТРИЧЕСКИЕ МОДЕЛИ

В параметрических моделях делается предположение о принадлежности распределения времени отказа к некоторому параметрическому семейству распределений, сконцентрированных на положительной полуоси при каждом значении ковариаты г. Методы статистического анализа в условиях параметрической модели в основном базируются на функции правдоподобия. В случае правого цензурирования функция правдоподобия допускает разложение

L( X, 5 ;9) = П (X, 5 ;9) П (X, 5 ;9), где выражается в терминах условных распределений Т при условии X и 5 , а П - в терминах условных распределений и при условии X и 5 . Если и П выражаются через независимые параметры 9^ и 9С (9 = (9^, 9С)) соответственно, а интерес представляет оценивание 9^ при мешающем параметре 9С, то цензурироавние называется неинформативным.

В случае независимого неинформативного цензурирования П не зависит от параметра 9^, а следовательно, П(X,5,г;9) = П(X,5, г;9у), и

П-(X,5,г;9г) = Рч (X. ;9г)5' Sz¡ (X. ;9г)1-5 = ЦЛ (X. ;9г)5' Sz¡ (X. ;9г).

При выполнении определенных условий регулярности выбранного параметрического семейства распределений работает стандартный критерий отношения правдоподобия. Также, можно использовать асимптотическую нормальность оценок максимального правдоподобия для построения критериев типа Вальда.

Наряду с параметрическими при анализе данных типа времени жизни используют се-мипараметрические модели. Наиболее часто в приложениях используется модель пропорциональных интенсивностей Кокса [10]

Хг (х) = ехр( X (г )'р )Х0( х), х > 0,

где Х0 - неизвестная базовая интенсивность, соответствующая нулевому значению ковариаты. Данную модель можно задать соотношением

1и(Х2 (х)/ Х21 (х)) = ((X (г) - X (,1))'Р ), х > 0,

что выглядит более корректным, поскольку значение г = 0 может отсутствовать в множестве допустимых значений ковариат. Модель Кокса для исследования связи генотипа с фенотипом выглядит следующим образом:

1и(Хг (х)/Х- (х)) = рг -р- ,

где Х* - интенсивность заболеваемости в группе с *-м генотипом, р * - соответствующий параметр. Таким образом, гипотеза отсутствия связи фенотипа с выбранным генотипом выполнена в случае равенства нулю всевозможных сравнений параметров р7.

Существует ряд обобщений данной модели [28, 7], однако модель Кокса по-прежнему используется наиболее часто, в первую очередь, в силу того, что методы статистического анализа для модели Кокса существенно проще, чем для ее обобщений. Последнее обусловлено тем, что в модели Кокса функция правдоподобия не зависит от мешающего параметра Х0 , а это позволяет использовать стандартные методы, базирующиеся на функции правдоподобия.

В заключение отметим, что условие пропорциональности интенсивностей при различных значениях ковариат весьма ограничительно. В частности, большинство стандартных параметрических семейств распределений (кроме экспоненциального) не обладают свойством пропорциональности интенсивностей, а следовательно, соответствующие параметрические модели не укладываются в модель Кокса.

4.5. ИНТЕРВАЛЬНОЕ ЦЕНЗУРИРОВАНИЕ

В общей модели интервального цензурирования [38] наблюдение представляется в виде пары (L, W) времен соседних обследований, между которыми произошел отказ (заболевание), и W = да для цензурированных справа наблюдений. Фактически в модели интервального цензурирования присутствуют времена обследований V1, ..., Vk, которые считаются независимыми от T. При k = 1 данные называются current status data, при фиксированном k говорят об интервальном цензурировании с k границами1 (см. [19]). Общий случай интервального цензурирования со случайным k, как и случай k > 2, с вычислительной точки зрения удобно сводить к интервальному цензурированию с 2-мя границами [39], однако известные свойства распределений, вообще говоря, не переносятся на случай общего интервального цензурирования. Точное значение T не наблюдается, но известно, что T е [Vs ,Vs+1] = = [L, W при некотором s е {0, ..., k}, V0 = 0, тогда как в случае, если пациент остается здоровым до конца обследования, L < T , и в этом случае L совпадает с временем цензурирования U , а W считается равным бесконечности. Упрощенная2 функция правдоподобия представляет собой произведение вероятностей попадания T в наблюдаемый интервал (L, W] и выражается в терминах приращений функций отказа на наблюдаемых интервалах

Ls (L,W, z;0 f) = ПП=1 (Sz, (L, ;0 f) - SZi (W, ;0 f)) ,

где (L,, W, zt) - наблюдаемые границы интервала и значение ковариаты, соответствующие i-му индивиду. Неинформативность цензурирования заключается в эквивалентности упрощенной и полной функций правдоподобия. Условия неинформативности интервального цензурирования получены в [32].

В параметрическом случае упрощенная функция правдоподобия легко выписывается с учетом выбранной модели, и все классические свойства оценок максимального правдоподобия сохраняются. В отличие от модели с правым цензурированием, использование семи-параметрической модели Кокса требует достаточно сложных вычислений и не обходится без учета непараметрической части Л 0. В работе [17] рассматривался случай дискретного распределения границ интервалов с конечным множеством значений. Задачи в данной постановке по сути могут быть сведены к работе с группированными данными. В работе Pan [13] было отмечено, что методы, использовавшиеся в [17], неприменимы для построения тестов типа Вальда и отношения правдоподобия в общем случае в связи с большим числом мешающих параметров. В работе [13] предлагается метод группировки с границами, зависящими от исходных данных, и рассмотрен ряд дополнительных моделей, отличных от модели Кокса. Некоторые обобщения получены также в [14]. Следует отметить, что предельная матрица ковариации в рассмотренных тестах обычно оценивается эмпирически исходя из нулевой гипотезы, поэтому рассмотренные критерии, построенные на базе семипара-метрических моделей, по сути являются непараметрическими. Также следует отметить, что в работе [26] рассмотрены асимптотические свойства оценок максимального правдоподобия в модели Кокса для интервально-цензурированных данных с k = 2 границами.

Непараметрические методы в модели с интервальным цензурированием идеологически гораздо более сложны, чем в случае правого цензурирования, а полученные оценки часто

1 Interval censoring case k (англ.).

2 Simplified (англ.).

являются неоднозначными. В задаче непараметрического оценивания распределения T используют принцип максимизации непараметрической функции правдоподобия, однако, в отличие от случая правого цензурирования, неоднозначность оценки возникает не только на правом хвосте распределения. Метод построения непараметрической оценки максимального правдоподобия, основанный на принципе состоятельной устойчивости (self-consistency) и использующий EM-алгоритм, разработан в [38]. Groneboom & Wellner [19] предлагают использовать ГСМ^алгоритм для построения непараметрической оценки максимального правдоподобия. Различные методы построения непараметрической оценки максимального правдоподобия обсуждаются в работе [18]. В работе [25] обсуждаются обобщения лог-ранк-тестов на случай интервально цензурированных данных. Обобщения Gр -критериев на случай интервально-цензурированных данных получены в работе [33].

5. АНАЛИЗ КОРОТКИХ ВРЕМЕННЫХ РЯДОВ

Классические методы анализа временных рядов [1] в основном ориентированы на достаточно большое число точек, в которых измеряется исследуемая характеристика, и нормальное распределение наблюдаемой переменной. В биомедицинских исследованиях обычно используются модели коротких временных рядов, техника анализа данных в которых отличается от классического анализа временных рядов [22, 11]. Особенностью модели коротких временных рядов является наличие нескольких измерений наблюдаемой переменной, соответствующих каждому индивиду, в различные моменты времени, что подразумевает зависимость этих наблюдений. Наблюдаемая переменная может быть как непрерывного, так и ординального или категориального типа. Наблюдения, соответствующие различным индивидам, остаются независимыми. Обозначим Y. - наблюдение /-го индивида в j-й момент времени t. , j = 1, ..., n, i = 1, ..., n. Наиболее благоприятный случай, когда наблюдения проводятся в одни и те же моменты времени, однако на практике поставить такой эксперимент достаточно сложно и времена измерений обычно оказываются различными. Более того, различным индивидам может соответствовать различное число измерений.

5.1. ОБОБЩЕННЫЕ МОДЕЛИ АНАЛИЗА КОРОТКИХ ВРЕМЕННЫХ РЯДОВ

Теория обобщенных линейных моделей [31] разработана в основном для экспоненциальных семейств определенного вида. Она легко обобщается на многомерный случай [12], однако практическая ценность таких результатов невелика, поскольку экспоненциальные семейства многомерных распределений с зависимыми компонентами подобрать достаточно сложно и обосновать применимость таких моделей на практике весьма затруднительно. Исключение составляет многомерное нормальное распределение, но и в этом случае из нормальности распределения компонент не следует нормальность распределения всего вектора.

Отметим, что целью статистического анализа являются одномерные распределения компонент, структура зависимости между компонентами представляет вспомогательный интерес. В связи с этим, широкое распространение получили семипараметрические обобщенные модели, называемые GEE (Generalized Estimation Equations [29]). Для описания распределений компонент многомерного распределения используются параметрические модели, а зависимость между компонентами (копула) предполагается полностью неизвестной и считается мешающим параметром. Вместо оценок максимального правдоподобия, используются M-оценки, которые строятся с использованием выбранных параметрических моделей для компонент совместного распределения и так называемой «рабочей» матрицы ковари-аций. Полученные M-оценки состоятельны и асимптотически нормальны с допускающей

1 Iterative convex minorant (англ.).

оценивание матрицей ковариации, что позволяет использовать их в задачах доверительного оценивания и проверки гипотез. Правильный выбор «рабочей» матрицы ковариации повышает эффективность статистического анализа. На практике обычно выбирают определенную корреляционную структуру, то есть «рабочая» матрица ковариации параметризована и параметр также подлежит оцениванию. Для определения формы зависимости одномерных распределений от ковариаты обычно используют регрессию. Покоординатные регрессионные соотношения для поставленной задачи проверки влияния генотипа на течение измеряемого процесса могут быть выбраны следующим образом:

g(Ee(7|z.)) = g(Ee Г/ ) = ц + р, yt.. + уty, (8)

где 0 - параметр модели, включающий в себя ц - базовый уровень (взвешенное среднее), Р . - главный эффект генотипа, у - параметр линейной регрессии по времени, у. - взаимодействие уровня фактора генотипа и времени; z. - ковариата, включающая в себя момент времени обследования tjj. и элементарные переменные простой группировки, характеризующие наличие того или иного генотипа и не зависящие от j ; g - функция связи. Выбор параметрического семейства распределений Y и функции связи производится с учетом природы имеющихся наблюдений. В частности, если Y j - бинарные величины, то выбор семейства распределений ограничен биномиальным, а в качестве функции связи удобно использовать логистическую регрессию g(u) = log(u/(1 - u)).

Если временные интервалы между соседними обследованиями одинаковы у всех индивидов, то можно использовать неструктурированную (произвольную) форму «рабочей» матрицы ковариации, в противном случае обычно используют параметрическую зависимость корреляции наблюдений от времен, в которые проводились измерения.

5.2. СМЕШАННЫЕ МОДЕЛИ АНАЛИЗА КОРОТКИХ ВРЕМЕННЫХ РЯДОВ

При анализе коротких временных рядов часто используют смешанные модели с так называемым простым эффектом индивида

g(Ee (YI zv,.)) = g(Ee Yy | v,.) = ц + p+ yty + yty + av., (9)

где первые слагаемые в левой части совпадают с левой частью (8); v1, ..., vn - независимые и одинаково распределенные случайные величины с плотностью распределения h, i = 1, ..., n. Считаем также, что при фиксированных значениях v = (vj, ..., vn) величины YjV ..., Yin. являются независимыми.

В предположении, что совместное распределение наблюдаемых величин является нормальным, выбирают g(u) = u, и можно использовать следующую модель:

Y = ц + р.+ yt .. + у t .. + av. + с в ..,

j Г Г. I j I. j v . e j'

где vi - независимые и одинаково распределенные случайные величины, имеющие стандартное нормальное N(0, 1) распределение, а в i = (в я, ..., вn ) i = 1, ..., n - независимые нормально-распределенные случайные векторы, имеющие определенную корреляционную структуру.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Литература

1. Андерсон Т. Статистический анализ временных рядов. М.: Мир, 1976.

2. Инге-Вечтомов С.Г. Генетика с основами селекции. 2-е изд, перераб. и доп. СПб.: Изд-во Н-Л, 2010.

3. Кокс, Оукс. Анализ данных типа времени жизни. М.: Финансы и статистика, 1988.

4. Леман Э. Проверка статистических гипотез. 2-е изд. М.: Наука, 1979.

5. Малое С.В. Регрессионный анализ: теоретические основы и практические рекомендации. СПб.: Изд-во СПбГУ, 2013.

6. AgrestiA. Categorical data analysis. 2-nd edition. Hoboken, New Jersey: Wiley & Sons, Inc., 2002.

7. Bagdonavicius V. & Nikulin M.S. Transfer Functionals and Semiparametric Regression Models // Biometrika, 1997. Vol. 84, № 2. P. 365-378.

8. Bagdonavicius, V., Levuliene, R, Nikulin, M.S. & Tran, Q.X. On Chi-square Type Tests and Their Applications in Survival Analysis and Reliability // Zapiski nauchnih seminarov POMI, 2012. Vol. 408. P. 43-61.

9. Bagdonavicius, V. & Nikulin, M.S. Chi-squared Goodness-of-fit Test for Right Censored Data // International Journal of Applied Mathematics and Statistics, 2011. Vol 24. P. 30-50.

10. Cox D.R. Regression models and life tables (with discussion) // Journal of the Royal Statistical Society, 1972. Ser. B, Vol 34. P. 187-220.

11. Diggle P.J., HeagertyP., LiangK.-Y., Zeger S.L. Longitudinal data analysis. 2-nd edition. New York: Oxford University Press Inc., 2002.

12. Fahrmeir L., Kaufman H. Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear model // The Annals of Statistics, 1985. Vol. 13, № 1. P. 342-368.

13. Fay M.P. Rank invariant tests for interval censored data under the grouped continuous model. Biometrics, 1996. Vol 52. P. 811-822.

14. Fay M.P. Comparing several score tests for interval-censored data // Statistics in Medicine, 1999. Vol. 18. P. 273-285.

15. Fay M.P. & Shaw P.A. Exact and asymptotic weighted logrank tests for interval censored data: the interval R Package // Journal of Statistical Software, 2010. Vol. 36, № 2. P. 1-34.

16. Fleming T.R. & Harrington D.P. Counting Processes and Survival Analysis. 2-nd edition. New Jersey: Wiley & Sons, Inc., 2005.

17. Finkelstein D.M. A proportional hazards model for interval censored failure time data // Biometrics, 1986. Vol. 42. P. 845-854.

18. Gentleman R. & Vandal A.C. Computational algorithms for censored data problems using intersection graphs. Journal of Computationaal nd Graphical Statistics, 2001. Vol 10. P. 403-421.

19. Groeneboom P. & Wellner J.A. Information Bounds and Nonparametric Maximum Likelihood Estimation. DMV Seminar Band 19. Basel: Birkhäuser, 1992.

20. Habib M. G. & Thomas D.R. Chi-Square Goodness-of-Fit Tests for Randomly Censored Data // The Annals of Statistics, 1986. Vol. 14, № 2. P. 759-765.

21. Harrington D.P. & Fleming T.R. A class of rank test procedures for censored survival data. Biometrika, 1982. Vol. 69. P. 553-566.

22. Hedeker R.D. & Gibbons R.D. Longitudinal data analysis. New Jersey: Wiley & Sons, Inc., 2006.

23. Hershey A. & Chase M. Independent Functions of Viral Protein and Nucleic Acid in Growth of Bacteriophage. // The Journal of General Physiology, 1952. Vol. 36, № 1. P. 39-56.

24. Hollander & Pena. A Chi-Squared Goodness-of-Fit Test for Randomly Censored Data // Journal of the American Statistical Association, 1992. Vol. 87, № 418. P. 458-463.

25. Huang J., Lee C. & Yu Q. A generalized log-rank test for interval-censored failure time data via multiple imputation // Statistics in Medicine, 2008. Vol. 27. P. 3217-3226.

26. Huang J. & Wellner J.A. Interval Censored Survival Data: A Review of Recent Progress // Proceedings of the First Seattle Symposium in Biostatistics. Lecture Notes in Statistics, 1997. Vol. 123. P. 123-169.

27. Kalbfleisch J.D. & PrenticeR.L. The Statistical Analysis of Failure Time Data. 2-nd edition. Hoboken, New Jersey: Wiley & Sons, Inc., 2002.

28. Lin D. Y. & Ying Z. Semiparametrical analysis of the general additive-multiplicative hazard models for counting processes // The Annals of Statistics, 1996. Vol. 23. P. 1712-1734.

29. Liang K.-Y. & Zeger S.L. Longitudinal data analysis using generalized linear models // Biometrika, 1986. Vol. 73, № 1. P. 13-22.

30. MalovS.V. & O 'Brien S.J. On Survival Categorical Methods with Applications in Epidemiology and AIDS Research. // Proceedings of the conference AMSA2013, 2013, in press.

31. Nelder J.A. & Wedderburn R.W.M. Generalized linear models // Journal of the Rojal Statistical Society, 1972. Vol. 135, № 3. P. 370-384.

32. Oller R., Gómez G. & Calle M.L. Interval censoring: model characterizations for the validity of the simplified likelihood // The Canadian Journal of Statistics, 2004. Vol. 32. P. 315-326.

33. Oller R. & Gómez G. A generalized Fleming and Harrington's class of tests for interval-censored data // The Canadian Journal of Statistics, 2012. Vol. 40, № 3. P. 501-516.

34. PollardK.S. & van der Laan M.J. Resampling-based multiple testing: Asymptotic control of type I error and applications to gene expression data // J. Statist. Plann. Inference, 2002. Vol. 125. P. 85-100.

35. RidleyM. Genome: The Autobiography of a Species in 23 Chapters. New York, NY: Harper Perennial, 2006.

36. Sun J. A non-parametric test for interval-censored failure time data with applications to AIDS studies // Statistics in Medicine, 1996. Vol. 15. P. 1387-1395.

37. Svitin et al. Gene Discovery and Data Sharing in Disease Association Analyses Across the Genome. To appear.

38. TurnbullB. W. The Empirical Distribution Function with Arbitrarily Grouped, Censored and Truncated Data // Journal of the Royal Statistical Society, 1976. Ser. B. Vol. 38. P. 290-295.

39. Wang Z., Gardiner J. C. & Ramamoorthi R. V Identifiability in interval censorship model // Statistics & Probability Letters, 1994. Vol. 21. P. 215-221.

40. Watson J.D. & Crick F.H.C. A Structure for Deoxyribose Nucleic Acid // Nature, 1953. Vol. 171, № 4356. P. 737-738.

GENOME ASSOCIATIONS DISCOVERY. PART 1: STATISTICAL METHOD

Abstract

Methodology of genome association discovery is discussed comprehensively in this paper. In this part we consider main types of statistical data arises in genome association study experiments and wide range of statistical tests for these types of data analysis.

Keywords: Whole genome association discovery, genome wide association study (GWAS), categorical data, survival data, Cox model, longitudinal data, generalized linear models.

Малое Сергей Васильевич, кандидат физико-математических наук, доцент, старший научный сотрудник лаборатории «Центр геномной биоинформатики им. Ф.Г. Добржанского», malovs@sm14820. spb. edu,

Шевченко Андрей Константинович,

лаборант-исследователь

лаборатории «Центр геномной

биоинформатики

им. Ф.Г. Добржанского»,

andrey. k. shevchenko@gmail. com

О'Брайен Стефан Джеймс (Stephen J. O'Brien), доктор философии в области биологии (PhD in biology), главный научный сотрудник — научный руководитель лаборатории «Центр геномной биоинформатики им. Ф.Г. Добржанского»,

lgdchief@gmail. com.

© Наши авторы, 2013. Our authors, 2013.

i Надоели баннеры? Вы всегда можете отключить рекламу.