МЕТОДЫ
УДК 159.9.075
АНАЛИЗ ИНФОРМАЦИОННЫХ СОСТАВЛЯЮЩИХ БЛИЗНЕЦОВЫХ ДАННЫХ И ЕГО ПРИМЕНЕНИЕ ДЛЯ ИДЕНТИФИКАЦИИ ЛОКУСОВ КОЛИЧЕСТВЕННЫХ
ПРИЗНАКОВ
Л.С. КУРАВСКИЙ*, П.А. КОРНИЕНКО Московский городской психолого-педагогический университет
Предложен новый метод идентификации локусов количественных признаков, опирающийся на аппарат теории информации и технику проверки статистических гипотез. Главной его особенностью является поиск псевдорешений переопределенных систем линейных уравнений, представляющих балансы воздействий наследственности и среды. Возможности данного подхода демонстрируются на примере исследования влияний фактора пола на данные электроэнцефалографии детей-близнецов.
Ключевые слова: электроэнцефалограмма, локус количественных признаков, близнецы.
1. Введение
Одной из важных задач современной генетики является идентификация генов, влияющих на различные количественные психологические и физиологические характеристики. В отличие от менделевских признаков, обусловленных аллелями одного локуса хромосомы, локусы количественных признаков, исследуемых в психологии и психофизиологии, формируют сложную систему взаимодействующих между собой факторов. Поскольку в подавляющем большинстве случаев ни сами эти факторы, ни детали их взаимодействия не известны, методы идентификации локусов, как правило, опираются на различные варианты статистического анализа [4, 6-13].
Наиболее распространенными среди них являются:
• классический параметрический анализ сцепления (рекомбинационный анализ), основанный на прослеживании картины разделения исследуемых признаков и генетических маркеров при их передаче от потомков к родителям и вычислении логарифма отношения вероятностей за и против сцепления в данной семье (LOD-балла);
• непараметрические методы анализа сцепления (методы общих аллелей), в которых информацию о сцеплении получают путем исследования идентичности происхождения аллелей в парах родственников, име-
© Л.С. Куравский, П.А. Корниенко, 2008
* Е-шаП: [email protected]
ющих исследуемый признак, без априорных представлений о типе наследования;
• анализ структуры дисперсий (кон-фирматорный факторный анализ), сводящийся к проверке статистической значимости вклада генотипа тестируемого локуса в полиморфизм исследуемых характеристик (при этом генотипическая составляющая дисперсии раскладывается на два компонента, один из которых обусловлен заданным локусом, а второй - всеми остальными; коэффициент корреляции для пары родственников в случае первого компонента определяется по показателям идентичности происхождения аллелей, этот же коэффициент в случае второго компонента определяется по степени родства);
• анализ ассоциаций, в основе которого лежит предположение о том, что фенотипи-ческая особенность человека вызвана определенной мутацией какого-то гена, тесно сцепленного с изучаемым маркером, из чего следует, что частота встречаемости этой особенности среди случайно выбранных из популяции особей должна зависеть от наличия в генотипе означенного маркера.
Последние два метода считаются наиболее перспективными.
Однако каждый из перечисленных выше подходов имеет свои недостатки и ограничения в применении. Например, для применения первого из них необходимо полное и корректное описание модели наследования признака, что в случае полигенных признаков не всегда возможно.
Методы общих аллелей рассматривают полигенные признаки как усложненные варианты менделевских: неявно предполагается существование так называемого «главного» гена, воздействие которого модифицируется генетическими факторами другой природы и сре-довыми факторами, что не всегда корректно.
Одно из существенных ограничений факторного анализа - возможность анализа структуры только дисперсий и ковариаций исследуемых параметров. Рассматривая эти интегрированные характеристики, исследователь теряет достаточно много информации об объекте анализа. Моменты других порядков при этом анализу не поддаются. Особенностью данного типа анализа также является наличие необоснованных (и, вообще говоря, не всегда верных) априорных предположений о структуре дисперсий и ковариаций наблюдаемых параметров, включая предположения о равенстве вкладов различных типов сред в психологические характеристики моно- и дизи-готных близнецовых пар, о равенстве эффектов влияния генетических факторов и т.д. Без указанных предположений оценка искомых значений свободных параметров модели стала бы невозможной. Кроме того, определенная искусственность формальных определений общей и индивидуальной сред, воздействующих на испытуемых, приводит к посылкам, явно расходящимся с результатами наблюдений (например, к посылке о том, что одно и то же воздействие среды одинаково влияет на испытуемых с различным генотипом).
В свою очередь при анализе ассоциаций предполагается, что экстремальный фенотип или болезнь вызывается определенной мутацией исследуемого гена: существует только один аллель, предрасполагающий к болезни. Для редких рецессивных болезней такое предположение оправдано, однако с ним вряд ли можно согласиться в случае распространенных болезней (это равносильно тому, что у всех больных независимо возникла одна и та же мутация или что все больные произошли от одного общего предка).
Общая проблема всех рассмотренных методов - неоднозначность найденных с их помощью результатов. Выводы, полученные одними авторами, часто не подтверждаются другими исследователями на новых популяциях. Главная причина этого заключается в недостаточной мощности существующих методов
анализа. Они обеспечивают идентификацию локусов только при очень больших объемах выборок, которые, как правило, недоступны исследователям: в зависимости от степени выраженности генетического фактора для получения надежных результатов необходимы данные о нескольких тысячах, а иногда и десятках тысяч испытуемых.
Все это делает актуальным разработку новых, более мощных методов анализа, обеспечивающих надежные результаты на выборках доступного объема, а также создание принципиально новых моделей наследования полигенных признаков, позволяющих получать и учитывать новую информацию об исследуемых характеристиках, которая теряется при вычислении моментов второго порядка и не сводится к сведениям о структуре этих моментов.
Далее рассмотрен новый подход к идентификации локусов количественных признаков, опирающийся на аппарат теории информации и технику проверки статистических гипотез. В ряде важных приложений он может служить альтернативой перечисленным выше методам. Главной его особенностью является поиск псевдорешений переопределенных систем линейных уравнений, представляющих балансы воздействий наследственности и среды. Возможности данного подхода демонстрируются на примере исследования влияния фактора пола, обусловленного наличием или отсутствием У-хромосомы, на данные электроэнцефалографии детей-близнецов.
2. Оценка баланса влияний наследственности и среды путем анализа информационных связей в близнецовых парах
Числовые значения исследуемой характеристики при анализе информационных связей рассматриваются как состояния некоторой стохастической системы X, в которых она может находиться с той или иной вероятностью. В зависимости от типа характеристики, множество этих состояний полагается непрерывным или дискретным. Отдельное состояние соответствует либо каждой точке диапазона допустимых значений, либо каждому допустимому уровню значений заданной величины. В последующих рассуждениях ограничимся непрерывным множеством состояний1.
1 Это ограничение не является принципиальным.
Анализ информационных связей опирается на понятие энтропии H(X), которая служит мерой неопределенности состояния системы. В непрерывном случае эта величина определяется как сумма двух компонентов: средневзвешенного логарифма вероятности пребывания в состоянии системы и логарифма от степени точности определения состояния системы, взятых с обратным знаком.
Соответствующее выражение имеет вид:
00
Н(Х) = - _[/(*) lo gf(x)dx - log Ах = М[- log(/(X)Ax)],
-СО
где x - состояние системы X, f (x) - плотность распределения вероятностей нахождения в состояниях системы X, A x - точность определения состояния системы, М[...] - математическое ожидание случайной величины.
Выбор основания логарифма определяет выбор единицы измерения энтропии. На практике, как правило, пользуются логарифмами с основанием 2, измеряя энтропию в двоичных единицах. Пояснения, связанные с мотивами выбора именно такой меры неопределенности, можно найти, например, в книге [1] или любом другом подходящем учебнике. Следует отметить, что данная мера обладает свойством аддитивности: энтропия сложной системы, получаемой в результате объединения нескольких независимых компонентов, равна сумме их энтропий.
В результате получения сведений о системе ее неопределенность может быть уменьшена. Поэтому количество информации измеряют уменьшением энтропии той системы, для уточнения состояния которой эта информация предназначена. В частности, количество информации, получаемое при полном выяснении состояния системы X, равно энтропии этой системы:
'х = Н(Х\
При исследовании двух связанных систем X и Y сведения, полученные в результате наблюдения за одной из этих систем, позволяют в общем случае уточнить состояние другой. Количество информации о системе X, содержащееся в наблюдениях за системой Y, определяется соответствующим уменьшением энтропии системы X, обозначается как IY^X и называется полной информацией о системе X, содержащейся в системе Y. Можно показать, что IY^X = IX^Y = W
Величина IX^Y называется полной взаимной информацией, содержащейся в системах X
и У, и выражается через энтропии систем X и У и энтропию объединенной системы Н(Х,У): 1Х^У = Н(Х) + Н(У) - Н(Х,У).
Входящая в данное выражение энтропия объединенной системы с непрерывным множеством состояний может быть вычислена
следующим образом: 00 00
Н(Х,У) = - | \/{х, у) 1оё Дх, у)(1х(1у - 1оё ЛхАу,
-00-00
где /(х,у) - двумерная взаимная плотность распределения вероятностей объединенной системы (Х,У).
В дальнейшем в качестве систем Х и У будем рассматривать множества допустимых значений исследуемой характеристики двух индивидуумов, составляющих близнецовую пару. Введенные Г. Менделем фундаментальные понятия генотипа и фенотипа2 позволяют формально выделить в полной взаимной информации, содержащейся в моно- и дизиготных близнецовых парах, две аддитивных составляющих: величину 1е, обусловленную генетическими факторами, и величину 1е, обусловленную влиянием общей для близнецов среды: I =1С +1С
.
Определим коэффициент, представляющий отношение генетических составляющих моно- и дизиготных близнецовых пар: к - Тс / Т°
.
Полагая составляющую общей среды одинаковой для разнотипных близнецовых пар, можно составить следующую систему уравнений:
[П2^ =к!6 + Iе,
L X<->Y jMZ
= 1+1,
где Iе = Решение этой системы позволяет оценить баланс влияний генетических факторов и воздействия общей среды.
Индивидуальные особенности близнецов Е(Х), обусловленные различиями действующих на них средовых влияний, естественно оценивать как разность между энтропией исследуемой характеристики индивидуума и полной взаимной информацией, содержащейся в соответствующих характеристиках близнецовой пары:
Е(Х) = Н(Х) - 1Х^у = Н(Х,У) - Н(У). Рассмотренные выше понятия удобны для описания эволюции психологических или
; В терминах Г. Менделя - фактор и эффект.
психофизиологических характеристик личности в лонгитюдных исследованиях. Если и и V - множества допустимых значений исследуемой характеристики одного и того же индивидуума в два последовательных контрольных момента времени, то новое значение энтропии данной характеристики Н(V) можно представить как сумму двух составляющих: предыстории, которая оценивается через полную взаимную информацию 1и^г содержащуюся в исследуемых величинах в новый и старый моменты времени, и так называемой инновации N обусловленной только новыми влияниями за прошедший период времени и не сводящейся к их предыстории:
Н(Ю = ^ + ^
Опираясь на приведенные соотношения, можно оценить процентное содержание пре-дысторий и инноваций, а также влияний наследственности и среды в энтропии наблюдаемой характеристики. Для этого следует определить полные взаимные информации
О и энтропии Н(Х) и нт
используя результаты наблюдений за популяцией, а затем найти величины Iе, Iе, Е(Х) и N из указанных выше системы и двух уравнений, полагая известным коэффициент к.
При вычислении полных взаимных ин-формаций и энтропий целесообразно сделать предположения о нормальном распределении наблюдаемых характеристик X, У, и и V, а также их пар Х-У и и-V, а именно:
1
ехр<-
(х-т^У
2а 1
/00 =
1
т-
Мх>у) =
1
ои4ъ1 1
с„л/2л" ^ехр
ехр<-
ехр<-
ехр
(У-™*,)2
(и~тиУ 2а„2
(у-*02
2а,2
1
2(1
(х-т^) 2гху(х-тху)(У-тху) | (у-тху)
Л (",*) =
2(1 -гД)
(;и-ти) 2гт(и-ти)(у-ту) | (у-т,)
где /Т(х,у) и /ь(и,у) - соответственно, двумерные взаимные плотности распределения вероятностей пар случайных величин Х-У и и-V, гху и гт - их коэффициенты корреляции, ти и ту - математические ожидания величин и и V, ту - математическое ожидание исследуемой характеристики в близнецовой паре, ои и ау - среднеквадратические отклонения величин и и V, иху - среднеквад-ратическое отклонение исследуемой характеристики в близнецовой паре.
Сделанные предположения о нормальности опираются на центральную предельную теорему теории вероятностей и экспериментально подтверждаемый факт воздействия большого числа сопоставимых по влиянию факторов на исследуемые показатели.
Сделав несложные преобразования, можно найти следующие выражения для искомых и вспомогательных величин3:
Н(Х) = Н(Х) = 1оё
Дх
щг) = 1оё
л/2лёст„
Ду
ЩХ,¥) = 1о8
2ле(1-г2)а
у
Дх2
=-1оё(1-^).
Поскольку значения этих величин определяются по результатам наблюдений, вместо входящих в приведенные выше выражения среднеквадратических отклонений и коэффициентов корреляций можно подставить их выборочные оценки.
Биометрические исследования на растениях и животных показали, что принципы менделевского наследования дискретных признаков применимы для полигенных признаков, к которым относятся психологические и психофизиологические характеристики [12]. Поэтому, опираясь на сложившуюся практику, оценим возможные значения коэффициента к, представляющего отношение генетических составляющих моно- и дизи-готных близнецовых пар, для простейшего случая гена, находящегося в двухаллельном состоянии, а затем обобщим полученный результат на исследуемый полигенный признак.
3 Далее полагаем, что в близнецовой паре Ах=Ау, а
Как известно, особи диплоидных организмов разделяются по любому гену с двумя аллелями (А и а) на три генетических класса (АА, аа и Аа). Обозначив вероятности нахождения аллелей А и а в заданном локусе, соответственно, как p и q=1-p, методами биометрической генетики [12] можно вывести представленные в табл. 1 и 2 вероятности появления различных типов пар моно- и дизиготных близнецов.
Полная взаимная информация, содержащаяся в паре близнецов Т-Т2, вычисляется по формуле4:
И П р
1=1 7=1
где i - номер генотипа 1-го близнеца (1=1 -для АА, i=2 - для аа, i=3 - для Аа),. - номер генотипа 2-го близнеца, R.. - вероятность появления генотипа 1-го близнеца, 8.. - вероятность появления генотипа 2-го близнеца, Р.. - вероятность появления близнецовой пары типа
Зависимость коэффициента к от вероятности р представлена на рис. 1. Она показывает, что значения этого коэффициента изменяются в достаточно узких пределах. В частности, для реализуемого на практике интервала 0,2<р<0,8 коэффициент к не выходит за границы диапазона 0,253+0,011. Таким образом, генетическая составляющая
Рис. 1. Зависимость отношения генетических составляющих полной взаимной информации для моно- и дизиготных близнецовых пар (к) от вероятности нахождения одного из двух аллелей в заданном локусе (р)
Таблица 1
Вероятности появления различных типов пар дизиготных близнецов
Номер типа близнецовой пары Генотип 1-го близнеца Генотип 2-го близнеца Вероятность появления генотипа 1-го близнеца Вероятность появления генотипа 2-го близнеца Вероятность появления типа близнецовой пары
1 АА АА Р2 Р2 ;Р2(Р+1)2
2 аа аа Я2 Я2 ;Я2(Я+1)2
3 Аа Аа 2РЯ 2РЯ РЯ( РЯ+1)
4 АА Аа Р2 2РЯ Sp2q(p+1)
5 Аа АА 2РЯ Р2 Sp2q(p+1)
6 Аа аа 2РЯ Я2 Sp(q+1)q2
7 аа Аа Я2 2РЯ Sp(q+1)q2
8 АА аа Р2 Я2 ;Р2Я2
9 аа АА Я2 Р2 ;Р2Я2
Таблица 2
Вероятности появления различных типов пар монозиготных близнецов
Номер типа близнецовой пары Генотип близнеца Вероятность появления типа близнецовой пары
1 АА Р2
2 аа Я2
3 Аа 2РЯ
4 Эта формула выводится из приведенного выше выражения для полной взаимной информации:
= Н{Т,) + Н{Тг)-Н(Т„Тг) = М[-\о% Р(Т,)]+ м[- 1о8 Р(Т2)]- 1о8 Р(ТХ ,Т2)]= М
Р(Т„Т2)
.
ы м я
полной взаимной информации в дизиготной паре близнецов примерно в четыре раза меньше аналогичной составляющей в монозиготной паре. Обобщая этот результат на полигенный случай, можно принять значение к=0,25 в качестве допустимой расчетной оценки данного показателя.
Последовательность вычислений, рекомендуемая для выявления балансов влияний наследственности и среды и включающая взаимные связи между рассмотренными
выше показателями, предположениями и зависимостями, представлена в виде схемы на рис. 2. Аналогичная последовательность вычислений, рекомендуемая для выявления предысторий и инноваций в процессе изменения психологической характеристики с возрастом, показана на рис. 3.
Проведенные сравнения [3] показали, что, по сравнению с ранее применявшимися методами, анализ информационных связей имеет преимущества по таким показателям,
Предположение об аддитивном представлении полной взаимной информации
Генетическая теория
Выводы о влиянии индивидуальной среды
ЕМ/(Х)
1У1(Х)
_ м/.
<т
ху
Система уравнений тйг
Г Ш
' ХоГ
1ХоГ
\
мг Ж
г
ху
Выборка, полученная в результате наблюдений
Предположение о нормальном распределении наблюдаемой характеристики
Выводы о влиянии наследственности
Выводы о влиянии общей среды
Выводы о влиянии индивидуальной среды
ЕШ(Х)
_ дг
Нп/(Х)
Рис. 2. Последовательность вычислений, рекомендуемая для выявления баланса влияний
наследственности и среды
Предположение о нормальном распределении наблюдаемой характеристики
Е(Х)
У к
Н(Х)
к
о V
Выводы о влиянии индивидуальной среды
Ду
Рис. 3. Последовательность вычислений, рекомендуемая для выявления предысторий и инноваций в процессе изменения психологической характеристики с возрастом
как доступность применения и простота программной реализации, отсутствие ряда недостаточно мотивированных априорных предположений о соотношениях генетических и средовых влияний, адекватность методов и терминов исследуемой проблеме.
3. Идентификация локусов количественных признаков: информационный подход
3.1. Общие особенности метода
Располагая двумя выборками пар сиблингов (в частности, дизиготных близнецов), одна из которых содержит ДНК-маркеры, свидетельствующие о наличии заданного набора общих копий участков генома в исследуемом множестве локусов количественного признака, а вторая содержит аналогичные маркеры, свидетельствующие об их отсутствии, можно составить следующую систему линейных алгебраических уравнений, представляющую баланс генетических и средовых влияний в полной взаимной информации, содержащейся в исследуемых характеристиках близнецов:
1в1Ъ+к1с+1с=Г£+г,
кг
-I- = Г®**'" 'Г1 ЛХ«У>
С _ г и иге/,-
(1)
Г =1
>
содержащаяся в характеристиках выборки пар сиблингов5, имеющих заданный набор общих копий участков генома, - аналогичная характеристика для выборки пар сиблингов, не имеющих указанного набора копий участков генома, - аналогичная
характеристика для выборки неродственных пар, не имеющих указанного набора копий участков генома (эта выборка может быть сформирована из второй выборки сиблин-гов), /ег£ - составляющая полной взаимной информации, обусловленная наличием заданного набора общих копий участков генома.
Полученная система линейных уравнений содержит три уравнения и три неизвестных параметра (Iе, 1° и /е7Х). При Ы0 система имеет единственное решение, которое, однако, довольно чувствительно к ошибкам выборочных оценок коэффициентов корреляции, от которых зависят полные взаимные информации /££, Г*;], и (При к=0,25
число обусловленности матрицы системы в евклидовой норме равно 12,02, таким образом, норма изменчивости решения может более чем на порядок превышать норму ошибки в оценке вектора правой части системы (1).) Это решение, кроме того, не позволяет оценивать адекватность модели наблюдениям
где
- полная взаимная информация,
' В частности дизиготных близнецов.
и значимость составляющих полной взаимной информации.
Для уменьшения чувствительности решения к ошибкам выборочных оценок, обеспечения контроля адекватности модели и обеспечения возможности проверки ее компонентов на значимость можно перейти к поиску и анализу псевдорешений переопределенной системы, добавив в исходную систему новые уравнения. В зависимости от наличия экспериментальных данных и их характера, исходную систему можно расширить либо 1-2 аналогами первых двух уравнений системы (1) для монозиготных пар:
\lQTL+IG+IC =I"Z'+Y,
jG _i_ jC _ jMZy-
1 1 ~1X<*Y>
(2)
где О и - аналоги и для монозиготных пар близнецов, либо уравнениями, выражающими эволюцию исследуемой характеристики для одного из близнецов пары:
Г 1вп +1а + 1с + М = Нпек'\ \ 1° + Iе + N = Ннт> ,
где нпе"'>+ - энтропия исследуемой характеристики близнеца, имеющего заданный набор общих копий участков генома, спустя определенный контрольный промежуток времени, Нп<"- аналогичная характеристика для близнеца, не имеющего указанного набора копий участков генома. В первом случае получается система из четырех-пяти уравнений с тремя неизвестными, во втором случае - система из пяти уравнений с четырьмя неизвестными. Возможны и другие варианты получения переопределенной системы. Данные системы уравнений представляют различные типы моделей, являющихся объектом дальнейшего исследования.
Представим полученную переопределенную систему уравнений в матричной форме записи:
Ах = Ь,
где А - п*-т матрица системы, коэффициенты которой определяются, опираясь на положения биометрической генетики; Ь - вектор-столбец п полных взаимных ин-формаций и энтропий, компоненты которого определяются по выборочным оценкам коэффициентов корреляции и среднеквад-
ратических отклонений; х - вектор-столбец т искомых свободных параметров системы, содержащий генетические, средовые и инновационные компоненты полных взаимных информаций и энтропий.
Рассмотрим вектор £ представ-
ляющий невязку псевдорешения х„ переопределенной системы, полученного методом наименьших квадратов. Полагая в общем случае, что компоненты вектора невязок коррелированны, запишем их ковариационную матрицу в виде ст2 V. Сделав замены
Ь = У12Ь„ и А = У1/2Ап где У = У1/2УШ6
1о>
переидем к системе А„х = Ь„,
(3)
ковариационная матрица вектора невязок £0 = V"1/2e котороИ имеет вид , где Е -единичная матрица.
Если система (3) невырождена (rank А = т), вектор невязки £0 имеет многомерное нормальное распределение, а
х, =(AjA0)-1A>0 =(ATV-1A)-1ATV-1b -псевдорешение системы (3), полученное методом наименьших квадратов, то это псевдорешение является оценкой максимального правдоподобия, а статистика
X1 =(b0-A0x„)T(b0-A0x„)/CT2 =(b-Ax„)TV"1(b-Ax„)/o?
V2
имеет -распределение с п-т степенями свободы [2].
Указанная статистика X2 позволяет при заданных выше предположениях проверять гипотезу о представимости полных взаимных информации и энтропиИ, составляющих вектор Ь, генетическими, средовыми и инновационными компонентами, содержащимися в исследуемой модели. Область принятия гипотезы есть , где а есть уровень значимости критерия.
Рассмотренная модель, кроме того, дает возможность делать выводы о статистичес-кои значимости составляющеи полнои взаимной информации IQTL, обусловленной наличием заданного набора общих копии участков генома, и, таким образом, судить о том, влияют ли исследуемые локусы на
6 Для любой симметричной неотрицательно определенной матрицы V (именно к этому классу относятся ковариационные матрицы) существует единственная симметричная неотрицательно определенная матрица V1'2, называемая квадратным корнем из V, такая, что (^'2)2=^
данную характеристику. Для этого следует сравнить статистики X2 для двух моделей: полной модели, содержащей компонент /еп, и упрощенной модели, в которой этот компонент отсутствует (равен нулю).
Гипотезу о том, что полная модель согласуется с результатами наблюдений, будем обозначать как Н Выявление степени значимости компонента /е7£ проводится, если отвергать гипотезу Н нет оснований. Сначала следует оценить свободные параметры упрощенной модели. Полученное значение статистики X2 для упрощенной модели сравнивается с аналогичной характеристикой для полной модели. Поскольку разность указанных статистик асимптотически распределена как с числом степеней свободы равным разности в числах степеней свободы полной и упрощенной моделей [5, 12], эта разность используется для проверки нулевой гипотезы Н о том, что упрощенная модель согласуется с результатами наблюдений против альтернативной гипотезы Н Если гипотеза Н не отвергается при заданном уровне значимости, то компонент /е11 признается статистически незначимым и делается вывод о том, что имеющиеся данные не свидетельствуют о влиянии исследуемого ло-куса на данную характеристику. Если гипотеза Нг отвергается (а гипотеза Н^ принимается), то можно говорить о влиянии исследуемого ло-куса на эту характеристику.
3.2. Частный случай: влияние фактора пола
Рассмотренный метод может быть легко модифицирован для исследования влияния на заданные характеристики фактора пола, обусловленного наличием или отсутствием У-хромосомы. В этом случае из уравнений (1) и (2) составляется система, представляющая баланс генетических и средовых влияний в полных взаимных информациях, содержащихся в психологических характеристиках двух типов однополых моно- и ди-зиготных близнецовых пар:
1вп+к1в + 1с'+=1^+г>
кТс + Iе'' = Тм,~ К1 -г 1 1х«Т'
тС,+ _ т»яге/,+
1 ЛХ «У >
г С, _ т ипге1,-
1 1Х«Г >
тек , гС . тС,+ _ тмг,+
1 1Х«Т у
Ж а . Г С',~ _ Ж
1 1 ~лх«т
или
тйТЬ , _ ти
1 -ГШ *х«г~лх«г >
гипге!,+
г ипге1,-
ыи = Т"
±х«у лх«г >
1вть +
та = тш+
1 АХ«У
гипге1,+ 1Х«У '
(4)
тС _ г М/,- т ипге!,-
.
Общая среда для мужских и женских пар полагается разной и представлена, соответственно, компонентами 1е'+ и Iе''. Слагаемое /е71 представляет здесь составляющую полных взаимных информаций, обусловленную наличием У-хромосомы. Компоненты с индексом «+» соответствуют мужским, а компоненты с индексом «-» - женским парам. В последней полученной системе 4 уравнения и 2 неизвестных, поэтому статистика X2 имеет распределение с двумя степенями свободы. Учитывая, что при исследовании влияния фактора пола компонент /ег£ обусловлен влиянием У-хромосомы в целом, а не ее отдельного локуса, то последнюю систему можно рассматривать в форме (5). Сопоставление решений систем (4) и (5) на данных, представленных в разделе 5 этой статьи, не выявило качественных различий в структуре полученных результатов.
итйТЬ , гтС т.«4,+ типге1,+ ТЦ.Л ЛХ((у ~ 1 Х(<у ,
/Й7Х +
кТв = Т*№'~ г<? _ тмг,+
гипгеЦ-1Х«¥ * г ипге1,+
7(7 _ гЛИ,+ ти
1 1Х«Г ~1 Х«У у
(5)
ж а _ тмг,- типге1,-
.
Поскольку заранее не известно, какие именно пары - мужские или женские - имеют большую по величине генетическую составляющую полной взаимной информации (это зависит от природы исследуемой характеристики), слагаемое /ег£ может быть как положительным, так и отрицательным. Корректными являются только те решения, для которых компоненты полной взаимной информации, представляющие суммарные генетические (1вП-+1с, , Iе и к1с) и средовые
влияния (Iе*+ и Iе''), неотрицательны.
При вычислении значений статистики X2 компоненты вектора невязок можно считать некоррелированными. При этом удобно полагать, что значения среднеквадратических отклонений различных компонентов вектора Ь составляют одну и ту же фиксированную долю (процент) от соответствующих компонентов вектора Ь, определяемого полными взаимными
информациями (см. п. 3.2). Чтобы обеспечить сопоставимость оценок степени значимости компонента /е7Х, эту долю следует подбирать так, чтобы обеспечить единый для всех исследуемых параметров уровень значимости а при проверке гипотезы о представимости полных взаимных информаций, составляющих вектор Ь, генетическими и средовыми компонентами, содержащимися в полной модели, а именно: вектор невязок подбирается так, чтобы выполнялось равенство . Представленные далее расчеты проводились при а=0,1.
4. Исследование общих закономерностей влияния фактора пола
Псевдорешения системы уравнений (4) полностью определяются следующими четырьмя величинами, значения которых оцениваются
по результатам наблюдений: и 1£г В предположении о нормальном распределении пар наблюдаемых характеристик эти величины полностью определяются соответствующими коэффициентами корреляции (см. раздел 2), что позволяет проследить общие закономерности влияния половых различий на исследуемые характеристики, анализируя форму областей статистически значимой зависимости в пространстве дифференцированных по полу коэффициентов корреляции моно- и дизиготных близнецов.
На рис. 4 и 5 представлены диаграммы, содержащие распределения вероятностей превышения значений статистики, которые соответствуют различным сочетаниям коэффициентов корреляции. Диаграммы показывают указанные вероятности при различ-
аю а 1э
азо азе 040
сие
ато
Л7В
аов а ю а ш азо азе азо аза сио сиз аэо азе аео аев а то а 75 аао ааз аэо авв
(а)
№
аов аю а 15 а 20 амазоазв аю аде аео авв аео авв а то а 75 аао аав аво авв
9
и
аов а ю а1в аж агв аэо азв о4о а45 аяо аав аво авв ато а7в аао аав аи> авв
(б)
аов аю а!в аао агв азо азе а4о оал ало аав аео аев атоа7в аао ода аао аав
(в) (г)
Рис. 4. Области статистически значимого влияния пола в пространстве коэффициентов корреляции женских моно- и дизиготных близнецовых пар в случае, когда коэффициенты корреляции для мужских моно-и дизиготных близнецовых пар равны, соответственно: (а) 0,6 и 0,4; (б) 0,8 и 0,6; (в) 0,4 и 0,2; (г) 0,6 и 0,5.
О»
/ \
/ /
\ / \
\ -авв -ато
\
\ \
\ -аао
к
\
N авв
аоваю а is аао а25 азо аза ало алв а» авв аво авв атоа7в аво ass аэоаэв
(а)
/\ / \
\/ \
\
\
\ \
\
\ \
\
aos a 10 aïs a» a» a» азе <ио cws aso an аво авв азо аи аао aas аво авв
(б)
аво aas
/\
/ \
\
\/
аоврв
ато
Ü7S
аов а to aie а» азв азо азе ало ом аво авв аво авв ато а7в аао ass aso aas
aos a ю a is ато a25 азо азе ало ом aso ass аво авв ато ara аво ass аво aas
(в)
(г)
Рис. 5. Области статистически значимого влияния пола в пространстве коэффициентов корреляции мужских моно- и дизиготных близнецовых пар в случае, когда коэффициенты корреляции для женских моно-и дизиготных близнецовых пар равны, соответственно: (а) 0,6 и 0,4; (б) 0,6 и 0,5; (в) 0,8 и 0,6; (г) 0,4 и 0,2.
ных сочетаниях корреляций для однополых моно- и дизиготных пар при фиксированных значениях корреляций для близнецов противоположного пола.
Полученные результаты позволяют говорить о следующих тенденциях:
• размер областей статистически значимого влияния пола в пространстве коэффициентов корреляции женских близнецовых пар увеличивается при увеличении значений коэффициентов корреляции мужских близнецовых пар и уменьшается при увеличении разности между коэффициентами корреляции для моно- и ди-зиготных близнецов в мужских парах;
• размер областей статистически значимого влияния пола в пространстве коэф-
фициентов корреляции мужских близнецовых пар уменьшается при уменьшении разности между коэффициентами корреляции для моно- и дизиготных близнецов в женских парах и достигает максимума при умеренных значениях указанных коэффициентов, составляющих, соответственно, 0,6 и 0,4.
Зависимости между усредненными значениями коэффициентов корреляции моно-и дизиготных близнецов и усредненными значениями координат центров тяжести рассмотренных выше областей статистически значимого влияния фактора пола приведены на рис. 6 и 7. При значимом воздействии указанного фактора имеет место:
• убывание усредненных женских коэффициентов корреляции с увеличением мужских коэффициентов корреляции в пространстве коэффициентов корреляции женских пар;
• возрастание усредненных женских коэффициентов корреляции при увеличении мужских коэффициентов корреляции в пространстве коэффициентов корреляции мужских пар.
Рис. 6. Зависимость между усредненными значениями
коэффициентов корреляции моно- и дизиготных близнецов в мужских парах и усредненных значений координат центров тяжести областей статистически значимого влияния пола в пространстве коэффициентов корреляции женских пар
муж
Рис. 7. Зависимость между усредненными значениями координат центров тяжести областей статистически значимого влияния пола в пространстве коэффициентов корреляции мужских пар и усредненных значений коэффициентов корреляции моно- и дизиготных близнецов в женских парах
5. Результаты расчетов
Модификация метода, рассмотренная в п. 3.2, применялась для анализа данных электроэнцефалографии, полученных в Психологическом институте РАО профессором Т.А. Строгановой и ее коллегами. Выборка включала 96 монозиготных и 86 дизиготных близнецов в возрасте 7-13 месяцев. Электроэнцефалограммы регистрировались
в 12 отведениях, расположенных по расширенной международной системе 10-20. Объектом анализа являлись средние значения амплитуд альфа-, бета-, дельта- и тета-рит-мов головного мозга (всего исследовалось 96 различных характеристик). Выборка была разделена на четыре части по двум критериям: зиготности и полу.
При проведении расчетов делалось
упрощающее предположение о том, что
I7£=IxT£ = Ix™y7. Поскольку данные
достаточного объема, необходимые для вы/ и runrel
борочной оценки компонента , отсутствовали, этот параметр полагался свободным и, как и параметры IQTL и IG, идентифицировался при решении системы уравнений (4). Статистика X2 имела при этом распределение с одной степенью свободы8.
При имевшихся объемах экспериментальных данных выборочные оценки коэффициентов корреляции варьируются в широких пределах и имеют большие доверительные интервалы (в частности верхние и нижние границы 95 %-ных доверительных интервалов для коэффициента корреляции, равного 0,5, могут отличаться от выборочных оценок на 30-40 %). Корректными для рассматриваемой модели являются только те оценки корреляций, для которых выполнены следующие условия:
• коэффициент корреляции для дизигот-ных близнецов не превышает аналогичной характеристики для моноготных близнецов;
• компоненты полной взаимной информации, представляющие генетические и сре-довые влияния, неотрицательны.
Это приводит к необходимости проводить оптимизацию выборочных оценок, а именно: заменять вектор исходных выборочных оценок коэффициентов корреляции ближайшим к нему в евклидовой норме вектором, обеспечивающим выполнение указанных выше условий. В представленных далее расчетах использовались оптимизированные выборочные оценки.
Проведенные расчеты выявили значимое влияние фактора пола на 27 исследованных параметров активности коры головного мозга, что составляет 28,1 % от их общего числа. Таким
7 Это равносильно предположению о том, что корреляции для неродственных пар не зависят от пола.
8 Поскольку в переопределенной системе 4 уравнения и 3 неизвестных.
лиза, ранее применявшегося для решения подобных задач [11]. Использовалась базовая факторная модель, изображенная в виде путевой диаграммы на рис. 9. Данная модель идентифицировалась на выборках мужских и женских дизиготных близнецовых пар.
Расчеты, проведенные при имевшихся объемах выборок близнецовых пар, выявили значимое влияние фактора пола только для одной исследованной характеристики (из 96). Учитывая, что полная модель для этой характеристики достаточно плохо согласуется с результатами наблюдений9, и в данном случае нельзя говорить о надежном выявлении влияния фактора пола.
Таким образом, полученные результаты свидетельствуют о том, что анализ информационных связей обнаруживает значимое влияние исследуемого фактора (и в частности локуса) на выборках существенно меньшего объема, чем конфирматорный факторный анализ. Это является важным преимуществом нового подхода.
6. Основные результаты и выводы
1. Разработана технология идентификации локусов количественных признаков по данным близнецовых исследований, особенностями которой являются:
Латентные факторы в1 и в2 представляют генетические влияния; С1 и С2 - влияния общей среды; Е1 и Е2 -влияния индивидуальной среды; У1 и У2 - влияния фактора пола (присутствовали только для одного типа близнецовых пар). Путевые коэффициенты g, с, е и у являются идентифицируемыми параметрами модели. Коэффициенты корреляции 1, 0,75 и 0,5 рассчитаны на основе генетической теории.
9 Значение критерия соответствия при идентификации параметров методом максимального правдоподобия незначительно отличалось от критического значения для уровня значимости 0,05.
образом, было выявлено, что указанное влияние значимо в 30,5 % альфа-ритмов, 25,0 % -бета-ритмов, 41,6 % - дельта-ритмов и 22,2 % - тета-ритмов. Распределение выявленных характеристик по отведениям показано на рис. 8.
Рис. 8. Схема расположения электродов на голове ребенка по международной системе 10-20
Аналогичные исследования значимости фактора пола были проведены также с помощью конфирматорного факторного ана-
• использование аппарата теории информации;
• выявление степени значимости заданного локуса хромосомы путем проверки гипотезы о значимости полной взаимной информации, обусловленной этим локусом, по статистическому критерию согласия.
2. Разработанная технология была:
• модифицирована для исследования влияния на заданные характеристики фактора пола, обусловленного наличием или отсутствием У-хромосомы, и
• применена для анализа результатов электроэнцефалографии близнецов раннего детского возраста.
Проведенные расчеты позволили сделать вывод о существенном влиянии фактора пола на исследованные параметры активности коры головного мозга (амплитуды альфа-, бета-, дельта- и тета- ритмов).
3. Предложенный подход обладает рядом преимуществ, по сравнению с ранее использовавшимся для тех же целей конфир-маторным факторным анализом, включая доступность оценок компонентов базовой модели по стандартным описательным статистикам, получаемым в результате близнецовых исследований, и возможность выявления значимого влияния локусов и других исследуемых факторов на выборках существенно меньшего объема.
Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект № 04-06-80162).
Литература
1. Вентцель Е.С. Теория вероятностей. - М.: Высшая школа, 2003.
2. Королюк В.С., Портенко Н.И., Скороход А.В., Турбин А.Ф. Справочник по теории вероятностей и математической статистике. - М.: Наука, 1985.
3. Куравский Л.С., Малых С.Б., Кравчук Т.Е., Болы-чева К.А. Применение методов теории информации для оценки генетических и средовых влияний в близнецовых исследованиях // Вопросы психологии. - 2006. - № 3. - С. 144-157.
4. Малых С.Б. Психогенетика: теория, методология, эксперимент. - М.: Эпидавр, 2004.
5. Bishop Y.M.M., Fienberg S.E., Holland P. W. Discrete multivariate analysis: Theory and practice. - Cambridge, MA: MIT-Press, 1975.
6. Bollen K.A. Structural equations with latent variables. - N. Y.: John Wiley, 1989.
7. Hill L., Chorney M.J., Plomin R. A quantitative trait locus not associated with cognitive ability in children: A failure to replicate // Psychological Science. -2002. - Vol. 13. - P. 561-562.
8. Joreskog K.G. Estimation and testing of simplex models // British J. of Mathematical and Statistical Psychology. - 1970. - Vol. 23. - P. 121-145.
9. LabVIEW tutorial for Windows. - National Instruments Corp., 2004.
10. Loehlin J.C. Latent variable models: An introduction to factor, path, and structural analysis. - Hillsdale, N.J: Erlbaum, 1987.
11. Martin N., Boomsma D., Machin G. A twin-pronged attack on complex traits // Nature Genetics. - 1997. - Vol. 17. - P. 387-392.
12. Neale M.C., Cardon L.R. Methodology for genetic studies of twins and families. - Dordrecht, the Netherlands: Kluwer Academic Publishers, 1992.
13. Plomin R., DeFries J.C., Craig I.W. & McGuffin P. (Eds). Behavioral Genetics in the Postgenomic Era. - Washington, DC: APA Books, 2003.
ANALYSIS OF INFORMATION COMPONENTS OF TWIN DATA AND ITS APPLICATION FOR IDENTIFYING QUANTITATIVE TRAIT LOCI
L.S. KURAVSKY, P.A. KORNIENKO Moscow City University of Education and Psychology
A new method for identifying quantitative trait loci that is based on both the information theory facilities and statistical hypothesis testing was proposed. Its principal feature is estimation of pseudosolutions of overdetermined sets of linear equations, which represent balances of genetic and environment influences. The capabilities of this approach are shown by the example of studying gender influences on children's twin electroencephalography data.
Keywords: electroencephalography, quantitative trait loci, twins.