Научная статья на тему 'МЕТОДЫ НЕЯ ДЛЯ АНАЛИЗА ГЕНЕТИЧЕСКИХ РАЗЛИЧИЙ МЕЖДУ ПОПУЛЯЦИЯМИ'

МЕТОДЫ НЕЯ ДЛЯ АНАЛИЗА ГЕНЕТИЧЕСКИХ РАЗЛИЧИЙ МЕЖДУ ПОПУЛЯЦИЯМИ Текст научной статьи по специальности «Биологические науки»

CC BY
1047
196
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕТЕРОЗИГОТНОСТЬ / ГЕНЕТИЧЕСКОЕ РАЗНООБРАЗИЕ / ГЕНЕТИЧЕСКАЯ ДИСТАНЦИЯ КОЭФФИЦИЕНТ ГЕННОЙ ДИФФЕРЕНЦИАЦИИ / HETEROZYGOSITY / GENETIC DIVERSITY / GENETIC DISTANCE / COEFFICIENT OF GENE DIFFERENTIATION

Аннотация научной статьи по биологическим наукам, автор научной работы — Кузнецов В.М.

Ключевым вопросом при определении и измерении дифференциации любых популяций является количественная оценка неслучайного распределения генетической изменчивости. Исследования дивергенции видов и генетической дифференциации популяций требуют анализа и гетерозиготности (разнообразия) и генетических расстояний (дистанций), которые измеряют разные аспекты изменчивости. Знание того, как генетическая изменчивость распределяется между популяциями, имеет важные последствия не только для эволюционной биологии и экологии, но и для разведения и сохранения пород продуктивных животных. Имеются различные методы и компьютерные программы для анализа генетической изменчивости по маркерам ДНК (микросателлитам, однонуклеотидному полиморфизму), которые используются при исследовании популяций животных. Вместе с тем генетико-математические основы методов в российских публикациях отражены недостаточно. Их рассмотрение и являлось целью настоящей работы. В частности, представлены подходы Нея (Nei, 1974-1994) к оценке генетических различий между популяциями, базирующиеся на вероятности идентичности случайно извлечённых генов в пределах и между популяциями. В отличие от индекса фиксации Райта для диаллельного локуса, статистики Нея выражены в терминах внутри- и межпопуляционного генного разнообразия. Представлены формулы расчёта парных генетических дистанций и сводных оценок генной дифференциации популяций. На численных примерах иллюстрируются: предварительный χ2-тест различия аллельных профилей популяций, расчёты несмещённых оценок минимальной (uDmin), стандартной (uDN) и максимальной (uDmax) генетических дистанций, сводных оценок абсолютной (uDST) и относительной (uGST) генной дифференциации, их варианс и стандартных ошибок. Меры генного разнообразия Нея применимы к любым популяциям независимо от числа локусов, полиморфности аллелей в локусе, наличия эволюционных факторов (мутаций, миграции, дрейф генов и отбора). Оценки генной дифференциации и генетических дистанций Нея по молекулярно-генетическим маркерам могут служить ценной дополнительной информацией, позволяющей селекционерам в совокупности с традиционными и биометрическими методами принимать правильные решения по разведению, улучшению, кроссбридингу и сохранению пород продуктивных животных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по биологическим наукам , автор научной работы — Кузнецов В.М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEI’S METHODS FOR ANALYZING GENETIC DIFFERENCES BETWEEN POPULATIONS

A key issue in determining and measuring population differentiation is the quantification of the nonrandom distribution of genetic variation. Studies of species divergence and genetic differentiation of populations require analysis of both heterozygosity (diversity) and genetic distances (difference), which measure different aspects of variability. Knowing how genetic variation is distributed among populations has important implications not only for evolutionary biology and ecology, but also for breeding and conservation of breeds of productive animals. There are various methods and computer programs for analyzing genetic variation by DNA markers (microsatellites, single nucleotide polymorphism), which are used to study animal populations. At the same time, the genetic and mathematical foundations of methods in Russian publications are not sufficiently reflected. Their consideration was the purpose of this work. In particular, Nei's approaches (Nei, 1974-1994) to assess genetic differences between populations based on the probability of the identity of two randomly extracted genes within and between populations are presented. In contrast to the Wright fixation index for the diallelic locus, Nei's statistics are expressed in terms of intrapopulation and interpopulation gene diversity. Formulas for calculating paired genetic distances and summary estimates of the gene differentiation of populations are presented. The numerical examples illustrate: a preliminary χ2 test for the difference in the allelic profiles of populations, calculations of unbiased estimates of the minimum (uDmin), standard (uDN) and maximum (uDmax) genetic distances, combined estimates of the absolute (uDST) and relative (uGST) gene differentiation, their variants and standard errors. Nei’s gene diversity measures are applicable to any populations, regardless of the number of loci, the polymorphism of alleles at the locus, the presence of evolutionary factors (mutations, migration, gene drift and selection). Estimates of Nei's genetic differentiation and genetic distances by molecular genetic markers can provide valuable additional information that allows breeders, in combination with traditional and biometric methods, to make the right decisions on breeding, improving, crossbreeding and preserving breeds of productive animals.

Текст научной работы на тему «МЕТОДЫ НЕЯ ДЛЯ АНАЛИЗА ГЕНЕТИЧЕСКИХ РАЗЛИЧИЙ МЕЖДУ ПОПУЛЯЦИЯМИ»

МЕТОДЫ

УДК 575.174:636.082 DOI: 10.25687/1996-6733.prodanimbiol.2020.1.91-110

МЕТОДЫ НЕЯ ДЛЯ АНАЛИЗА ГЕНЕТИЧЕСКИХ РАЗЛИЧИЙ МЕЖДУ ПОПУЛЯЦИЯМИ

Кузнецов В.М.

Федеральный аграрный научный центр Северо-Востока им. Н.В. Рудницкого, Киров, Российская Федерация

Ключевым вопросом при определении и измерении дифференциации любых популяций является количественная оценка неслучайного распределения генетической изменчивости. Исследования дивергенции видов и генетической дифференциации популяций требуют анализа и гетерозиготности (разнообразия) и генетических расстояний (дистанций), которые измеряют разные аспекты изменчивости. Знание того, как генетическая изменчивость распределяется между популяциями, имеет важные последствия не только для эволюционной биологии и экологии, но и для разведения и сохранения пород продуктивных животных. Имеются различные методы и компьютерные программы для анализа генетической изменчивости по маркерам ДНК (микросателлитам, однонуклеотидному полиморфизму), которые используются при исследовании популяций животных. Вместе с тем генетико-математические основы методов в российских публикациях отражены недостаточно. Их рассмотрение и являлось целью настоящей работы. В частности, представлены подходы Нея (Nei, 1974-1994) к оценке генетических различий между популяциями, базирующиеся на вероятности идентичности случайно извлечённых генов в пределах и между популяциями. В отличие от индекса фиксации Райта для диаллельного локуса, статистики Нея выражены в терминах внутри- и межпопуляционного генного разнообразия. Представлены формулы расчёта парных генетических дистанций и сводных оценок генной дифференциации популяций. На численных примерах иллюстрируются: предварительный %2-тест различия аллельных профилей популяций, расчёты несмещённых оценок минимальной (uDmin), стандартной (uDN) и максимальной (uDmax) генетических дистанций, сводных оценок абсолютной (uDST) и относительной (uGST) генной дифференциации, их варианс и стандартных ошибок. Меры генного разнообразия Нея применимы к любым популяциям независимо от числа локусов, полиморфности аллелей в локусе, наличия эволюционных факторов (мутаций, миграции, дрейф генов и отбора). Оценки генной дифференциации и генетических дистанций Нея по молекулярно-генетическим маркерам могут служить ценной дополнительной информацией, позволяющей селекционерам в совокупности с традиционными и биометрическими методами принимать правильные решения по разведению, улучшению, кроссбридингу и сохранению пород продуктивных животных.

Ключевые слова: гетерозиготность, генетическое разнообразие, генетическая дистанция. коэффициент генной дифференциации

Проблемы биологии продуктивных животных, 2020,1: 91-110 Введение

Сходство или различие природных популяций по типу, степени и характеру генетической изменчивости могут быть результатом комплекса факторов. Так, генетическое сходство может быть обусловлено тем, что популяции только начали дивергировать, или между ними существует поток генов (миграция), или имеет место незначительный дрейф генов из-за их большой численности, или отбор в одинаковой степени влияет на схожие локусы. Различия между популяциями могут быть вызваны долговременной изоляцией и отсутствием миграции, или случайным генетическим дрейфом, или дифференцированным отбором. В реальных условиях могут действовать несколько или даже множество факторов (Hedrick, 2003). В разведении продуктивных животных генетические различия между породами, линиями, стадами (хозяйствами) могут быть следствием разных целей и интенсивности селекции, численности поголовья и масштаба использования «лучшего мирового генофонда», систем воспроизводства (используется или нет искусственное осеменение, трансплантация

эмбрионов, сексированная сперма). Исследования дивергенции видов и генетической дифференциации популяций требуют анализа и гетерозиготности (разнообразия) и генетических расстояний (различий), которые измеряют различные аспекты изменчивости. Аллельное (нуклеотидное) разнообразие и гетерозиготность оценивают взвешенную изменчивость особей в популяциях, тогда как дистанция/сходство и сводные коэффициенты дифференциации измеряют попарные или групповые (сводные) различия между популяциями по маркерным генам или молекулярным последовательностям. Знание того, как генетическая изменчивость распределяется между популяциями, имеет важные последствия не только для эволюционной биологии и экологии, но и для разведения и сохранения пород сельскохозяйственных животных. В частности, надёжные оценки генетических дистанций и коэффициентов дифференциации имеют решающее значение для понимания генетических отношений между популяциями (группами) животных и представляют собой показатели, необходимые при разработки стратегий разведения пород и сохранения генофондных стад.

Согласно неодарвинистским воззрениям, новый вид возникает в результате дифференциации любой популяции, относящейся к нему, которая проявляется в постепенной дивергенции на уровне генофонда. В основе дивергенции лежит процесс постепенной замены одних аллелей определённых генов на другие. В процессе дивергенции двух популяций всё меньшее число генов имеет аллели, которые встречаются в обеих популяциях. Когда заканчивается процесс видообразования, для всех генов существуют аллели, характерные только для одной из популяций. При этом генетическое сходство становится равным нулю и новый вид по морфологическим признакам становится отличным от первоначального (https://ru.wikipedia.org/wiki/Неодарвинизм). По нейтральной теории молекулярной эволюции, большая часть мутационных замещений в ходе эволюции обусловлена не положительным дарвиновским отбором, а случайным закреплением нейтральных или почти нейтральных мутаций (Kimura, 1985). Внутривидовая молекулярная генетическая изменчивость, проявляющаяся в виде полиморфизма белков, селективно нейтральна или почти нейтральна. Этот полиморфизм поддерживается в популяциях любого вида благодаря равновесию между мутационным процессом и случайной элиминацией или фиксацией аллелей. Основными факторами молекулярной эволюции являются мутационный процесс и случайный дрейф генов.

Для изучения генетических процессов в подразделённых популяциях Райт предложил три индекса фиксации: FIS - коэффициент инбридинга индивидов внутри субпопуляций, FIT - коэффициент инбридинга индивидов в объединённой популяции и FST - коэффициент межсубпопуляционных генетических различий (Wright 1943, 1951; см. также Kuznetsov, 2014). Индексы базировались на однолокусной диаллельной модели популяции, что делало их применение проблематичным. В 1970-х годах Ней (Nei, 1971, 1972, 1973, 1977, 1978, 1987) модифицировал индексы фиксации Райта, предложив иной подход к исследованию подразделённых популяций. Ней (Nei, 1973) показал, что генное разнообразие во всей популяции может быть разложено на две компоненты: внутри- и межсубпопуляционное генное разнообразие, если генное разнообразие понимать как гетерозиготность по Харди-Вайнбергу. В теории Нея генное разнообразие определяется путём использования генных частот текущей генерации, поэтому нет необходимости в предположениях о родословных индивидов, отборе и миграции в прошлом. Генетические дистанции и сводные коэффициенты генной дифференциации по Нею не зависят от плоидности организмов (диплоидные или полиплоидные), репродуктивной системы (половое или бесполое размножением), количества и численности субпопуляций. Для методов Нея характерны «простая формулировка, легкость применения и ясность биологического смысла» (Kimura, 1985).

Меры генного разнообразия Нея наиболее часто используются в био-зоотехнических исследованиях изменчивости ДНК-маркеров, но их описание в российских публикациях освещено недостаточно. Цель данной работы - рассмотрение генетико-математической основы таких статистик Нея, как минимальная, стандартная и максимальная генетические дистанции, коэффициенты абсолютной и относительной генной дифференциации популяций. Для лучшего понимания методов представлялось целесообразным дать гипотетические примеры, иллюстрирующие процедуры расчёта этих статистик.

Проверка выборок по % 2 -критерию

С теоретической точки зрения, статистики Нея должны вычисляться по популяционным частотам аллелей всех локусов генома, но на практике такое обследование невозможно. Как правило, статистики Нея оценивают по случайно выбранному из популяций некоторому числу особей и анализу некоторого случайного числа локусов. Поэтому оценке статистик должны предшествовать два процесса рандомизированного отбора: особей (генов) из популяций и локусов из генома.

Перед анализом генетического разнообразия выборок рекомендуют определять статистическую значимость их различий по выборочным частотам аллелей каждого локуса (Weir, 1995). Для этого используют %2 - критерий (Workman, Niswander, 1970). %2 -критерий для простого локуса (число выборок s = 2; число локусов (генов) m = 1, число аллелей (аллельных состояний гена) r = 2; число степеней свободы df = (s-1)(r-1) =1):

" ,2

%2 =

Xi(2ni)p? - pZj(2nj)pi

p q

где pi - относительная частота р-ой аллели в 1-ой выборке и п - число особей в 1-ой выборки; N; р; Я = 1" Р.

Адекватно соотношение:

Z. Wj p2 - p %2 = 2N iPi Р

Р(1-Р)

где wi = п /N - «вес» для ьой выборки.

Выражение в числителе - это взвешенная варианса р1:

Х-^Р? - р2 -р)2 = стР •

Тогда:

ср

%2 = 2N=77^- = 2NFST,

Р(1- Р)

где Рзт - межсубпопуляционный индекс фиксации Райта (Р8Т = ст2 /р(1-Р).

Из соотношения для %2 следует: Рзт= %2/2Ы. Для мультиаллельного локуса %2-критерий есть (8=2, г>2, а^(Б-1)(г-1) = (г-1)):

^2

%2 = 2N

с2

Pk

Рк(1-Рк)

\ у

где Рк и ст2 - варианса частоты к-ой аллели.

Величина %2 для т локусов представляет сумму значений %2 для каждого локуса и имеет суммарное число степеней свободы. Если по результатам %2-теста нулевая гипотеза при критическом уровне статистической значимости а=0,05 будет отвергнута (х2факт. ^ %2=о о5табл.), то приступают к расширенному анализу генетического разнообразия выборок.

Пример расчёта %2. В табл. 1 даны исходные относительные частоты аллелей и результаты %2 -теста на соответствие генетических структур выборок.

Расчёты Pj и с 2 на примере аллели А3, % -критерия на примере локуса В:

у2 иъ ТПЛТДЛ/ГРЧЛР» ОТТТГРТТ ТЛ Л. V2-

Рк

• общая по двум выборкам частота аллели А3 (аналогично для А], А2, В], В2): Ра3 =Х2 = 0,294x0,10 + 0,706x0,21 = 0,1777, где ^ =10/34=0,294 и ^ =24/34=0,706 - «веса» для популяций X и У;

межвыборочная варианса (с^ ) частоты аллели А:

С1 =

wi р2 - р2 =

= 0,294x0,102 + 0,706х0,212 - 0Д7772 = 0,0025; X -критерий для различий выборок по аллели А3:

x2 = 2К сь. = 2x340^0025 = 0,9613; 3 РА 0,1777

%2-критерий по локусу В (критическое значение х22=0 05 =3,84):

X В = 2Н

^ wi Р2 - Р Р (1-Р)

= 2x34'

((0,294х0,822) + (0,706х0,322))-0,4672

0,467(1-0,467)

= 14,1761.

X -критерий, суммарный по локусам А и В:

X2 = 1,2857 + 14,1761 = 15,4618 при критическом значении х2=оо5 = 7,81.

Таблица 1. X 2 -тест на соответствие генетических структур выборок X и У

Локус/ аллель Частота, Рi Х (п=10) , в выборке У (п=24) Р\ с2 Рк 2 X факт. Ха=0,05 табл.

Локус А

А1 0,47 0,45 0,4559 0,0001 0,0124 - -

А2 0,43 0,34 0,3665 0,0017 0,3120 - -

А3 0,10 0,21 0,1777 0,0025 0,9613 - -

- - - Е 1,28 2 5,99

Локус В В1 В2 Е 0,82 0,18 0,32 0,68 0,4670 0,5330 0,0519 0,0519 7,55 6,62 14,18 1 3,84

Е Е

15,46

7,81

3

Использованные данные не позволили выявить различие выборок по частотам аллелей локуса А. По локусу В и двум локусам (А+В) величины % были выше критических значений при уровне статистической значимости 5% (табл. 1). Следовательно, выборки имели разные профили по аллельным частотам. Это даёт основание приступить к анализу генетического разнообразия по Нею (заметим, дифференциация выборок по Райту была = х2 /2Ы = 15,4618/2x34 = 0,2274 или «23%).

Генетические дистанции Нея

Генетическая дистанция - это мера генетических различий между двумя популяциями (видами, породами, линиями, стадами). Исследуя природные сообщества, полагают, что генетическая дистанция зависит от времени, прошедшего с начала дивергенции сравниваемых популяций, имеющих в прошлом общего предка. При этом используют определенную генетическую модель, в которой конкретизируются процессы, приводящие к дивергенции популяций. Например, процессы мутаций генов, случайного дрейфа генов, естественного отбора.

В качестве меры генетических различий двух популяций Ней предложил три дистанции: минимальная, стандартная и максимальная 1978; Roychoudhury, 1974). Эти меры -

«вероятности, которые измеряют число замещений генов или кодонов на локус после дивергенции двух рассматриваемых популяций» (№1, 1987). Поэтому абсолютные величины этих мер имеют чёткое биологическое значение.

Минимальная генетическая дистанция. Допустим, что из популяций X и Y сформированы две выборки, численностью пх и пу , в каждой из которых обследовано по т одних и тех же локусов. Пусть хы и уи - это оценки относительных частот к-ой аллели I -го локуса в выборках X и Y.

Вероятность идентичности двух случайно извлечённых генов в популяции X Ней определил как ^ = " х^, а в популяции У - ^ = " Уы (гомозиготность по Харди-Вайнбергу; вероятность

того, что случайно извлечённые особи будут иметь одинаковые аллели). Вероятность идентичности гена, извлечённого из популяции X, и гена, извлечённого из популяции Y, была определена им как

=2к хиУи (взаимная идентичность обеих выборок). По всем т локусам (включая мономорфные) это будут усреднённые вероятности: 1х = (1/т) ' JY = (1/т) " } и ^ = (1/т) '

соответственно. Как считал Ней, определённая таким образом идентичность генов не требует каких-либо допущений о мутации, миграции и отборе. Если последнего нет, и каждая аллель есть производная мутации предшествующих поколений, то ожидаемые значения 1х и 1У равны коэффициентам инбридинга Райта в популяциях X и Y, а 1хУ - коэффициенту родства Малекота (Ма1есо1;).

Соответствующие неидентичности генов были выражены Неем как Ох =1—1х, DY =1—^ и DхY =1—JхY - все равны доле различных генов (аллелей) между двумя случайно извлечёнными геномами из соответствующих популяций (в частности, БхУ отражает пропорцию различных генов между двумя случайно извлечёнными геномами из популяций X и У). Ней назвал их «минимальные оценки генного разнообразия» (гетерозиготности).

Минимальную генетическую дистанцию (Втт) Ней выразил соотношениями:

Отш = DхY — (Ох + ^)/2 = = Ух+^)/2 — ^ =

= (1/т) ^(¡х, + ^ )/2—^ ] =

tL4J x i rt

_ (1/m)xm t -Укt)2/2 =

= (1/т) '

где ф =(|х + .¡^ )/2—- оценка генетической дистанции по 1-му локусу.

Если выборки небольшие (<50 особей), то вероятности генной идентичности корректируются на численность особей в каждой выборке (№1, 1978):

т 2пх ¡х. —1 Т 1 х^т 2nY —1

_ 1 Vm 2nxjXj 1 _ 1 ......t

J _-Lt ,nx _ 1 ' cJy _ m x 2nY

X mxt 2nY -1 ' Y mxt 2nv-1

Заменив Jx и JY на cJx и cJy , Ней предложил несмещённую (unbiased) оценку минимальной генетической дистанции (uDm):

uDmin = (cJx + cJy)/2 - Jxy. При низком уровне внутрипопуляционной гомозиготности корректировка может искажать результаты. Ней отмечал: «Недостатком Dmin, является то, что DX(m), DY(m) и DXY(m) есть пропорции разных генов в двух случайно извлечённых геномах, так что они не пропорциональны числу различных кодонов. Поэтому, если значение DXY(m) большое, то uD^-статистика может сильно недооценить число чистых кодонных различий» (Nei,1987).

Варианса (V) и стандартная ошибка (SE) uDmin, могут быть определены по (Nei, Roychoudhury,

1974):

xm_1(udi -uDmin)2 и sE(uDmin) _vvud-),

V(uDmin) _

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

m(m-1)

где

2nx zkxkt-1 2ny ekykt-1

ud t _ — ' 2

"kXkt-1 + 2nY ХкУ2

(2nx-1) (2nY -1)

- Skxkt ykt .

v

у

Стандартная генетическая дистанция. По Нею 1987), если индивидуальная

изменчивость кодонов независима и имеет распределение Пуассона, то среднее число чистых кодонных различий (замещений) между популяциями X и Y может быть выражена через «нормализованную идентичность генов» (генетическое сходство). Как и при расчёте иБт, первоначало вычисляются 1х, 1у, -Тэт и е1х, е1у, которые затем участвуют в расчёте нормализованной вероятности того, что две аллели из разных популяций будут идентичными, именно: и её несмещённой оценки и1к

т _ J ХУ и „т _

^ ~ I т и --

лДХ^У ЛМх^У

Величина (и1м) равна отношению долей идентичных аллелей в разных выборках и в объединённой выборке, т.е. измеряет пропорцию общих аллелей в двух исследуемых выборках (нормированный коэффициент идентичности генов или индекс генетического сходства). Диапазон (и1м) от 0, когда между выборками нет общих аллелей, до 1, когда обе выборки имеют одни и те же аллели с одинаковыми частотами. «Стандартная генетическая дистанция» по Нею вычисляется через натуральный логарифм индекса генетического сходства:

= -1п (1К).

Мотоо Кимура отмечал: «Стандартная генетическая дистанция есть мера среднего числа различий в кодонах. В условиях полной изоляции она даёт суммарное число замен на локус, накопившихся после того, как рассматриваемые популяции дивергировали от общей предковой популяции. Тот факт, что скорость молекулярной эволюции, выраженная числом мутационных замен, примерно постоянна в расчёте на год, делает этот способ измерения генетической дистанции особенно полезным для исследования молекулярной эволюции» (Ютига, 1985; с. 281). Другими словами, -оценка среднего числа замен в каждом локусе, произошедших за время раздельной эволюции двух (суб)популяций. Метод учитывает то обстоятельство, что замены аллелей могут быть неполными: в какой-то части популяции «новый» аллель может вытеснить «старый», который, тем не менее, с большей или меньшей частотой продолжает присутствовать в популяции (Ауа1а, 1984).

- одна из самых популярных мер генетического разнообразия. Она базируется на допущении, что различия между популяциями обусловлены мутациями и дрейфом генов. Её несмещённая оценка:

иБк = -1п (иТк) =

= - ln

( \ jxy

vcjx cjy ,

= [(lncJX + lncJY)/2] - ln JXY .

Диапазон значений uDN - от нуля, при равных частотах аллелей в обеих популяциях, до бесконечности, если в популяциях нет общих аллелей. Последнее связано с тем, что в процессе эволюции, протекающей в течение длительного времени, аллели в каждом локусе могут неоднократно полностью замещаться. Эта оценка адекватна, если темп мутаций аллелей во всех локусах постоянный. Если темпы мутаций из локуса в локус различные, то значение uDN недооценивается.

Для изолированных родственных популяций uIN>0,9, а uDN <0,1; для дивергирующих - uIN<0,8 и uDN >0,2 (Bader, 1998). В общем, при дивергенции популяций uIN снижается, а uDN увеличивается. Следует отметить, что иногда, при анализе небольших выборок, значение uDN может быть больше нуля, даже если две популяции генетически идентичны. Ней (Nei, 1973) назвал это «ложной дистанцией». При небольших размерах выборок значение uDN может быть отрицательным. В таких случаях uDN приравнивают к нулю (Nei, 1978).

Приближенные формулы расчёта варианс и стандартных ошибок (Nei, 1987; в развёрнутом виде см. (Zhivotovsky, 1991)):

V(uIn) = uIn (1-uln)/m и SE(uIN) = JV(uIN);

V(uDn) = (1-uln)/(ulnxm) и SE(uDn) = VV(uDn) .

Формулы применимы в тех случаях, когда uIN <0,9 и усреднённая по выборкам гетерозиготность

da=I - (i/m) ikiiV*^;

небольшая.

Здесь целесообразно упомянуть о Бд-дистанции Нея (Nei et al., 1983), которая есть сокращённый (редуцированный) вариант хордовой Бс-дистанции Кавалли-Сфорца и Эдвардса (Cavalli-Sforza, Edwards, 1967):

Л Aik-

Максимальная величина DA=1 достигается тогда, когда две популяции не имеют общих аллелей ни в одном из локусов. Dд-дистанцию рекомендуют использовать на близко родственных популяций, в которых основным фактором генетической дифференциации является генетический дрейф, что часто происходит в случае аборигенных пород домашнего скота (FAO, 2007/2010). Ней считал Бд-дистанцию лучшей мерой для реконструкции филогении природных популяций (Takezaki, Nei, 1996) методом «присоединения соседей» (Saitou, Nei, 1987).

Максимальная генетическая дистанция. Выше отмечалось, что если темпы замещения аллелей в разных локусах будут отличаться, то оценка uDN может быть заниженной. Для этого случая Ней предложил вероятности идентичности генов выражать через среднее геометрическое. В частности,

по выб°рке х - jx=^nrnjx,, по выб°рке y - j'Y=mnmj, по выборкам x и y - jXY=mnm- JXY (где

П - символ умножения).

Как и раннее, нормализованная идентичность генов выборок X и Y будет

т' _ J' XY ^N -

VJx J'Y

а генетическая дистанция:

Dmax = -ln (I'n).

Величина оценки Dmax значительно зависит от выборочных ошибок аллельных частот и случайного дрейфа генов. Ней считал, что эти факторы приводят к повышению (инфляции) оценки Dmax. Поэтому он назвал Dmax «максимальной генетической дистанцией». Её несмещённая оценка (uDmax) рассчитывается по подобию для uDN:

cJx = mП —;—v- и cJY = mП—:—V-, ш 2nx-1 vi=i 2nY-1

j'

u!N = i ,XY , и uDmax =-ln(ulN).

VcJX cJY

Также выборочная варианса и стандартная ошибка uDmax рассчитываются по аналогии с таковыми для UDn.

Вообще, для получения выборочных варианс генетических дистанций наиболее приемлемыми являются методы численного ресэмплинга (имитация взятия новых выборок), в частности, джекнайф-метод (Weir, 1995). Ресэмплинг по локусам имитирует генетические выборки и, следовательно, позволяет получать адекватные оценки варианс для «случайных» популяций. Если D - это оценка любой генетической дистанции по m локусам и Di - это джекнайф-оценка по i-му локуса, то выборочная варианса есть (Reynolds et al., 1983):

V(D) = m-1 £>,--1 V=,Dj)2 ,

m "=1 m^J-1

а новая джекнайф-оценка, которая имеет меньшее смещение, чем первоначальная:

m-1 -

D* = mD - m-i YmD1 .

m ^1=i 1

Сравнение генетических дистанций. При наличии оценок, например, минимальных генетических дистанций по двум парам выборок (иВтт1 и иВтт2), различие между ними могут быть тестированы следующим образом.

Пусть uDmn ud£ /m, тогда различие между uDmini и uDmin2 есть (Nei, 1987):

uDmin;[ uDmin2

(1/m) (ud£1 -ud£2)

- (1/т) ХГ Л, .

где -ud. - ud. - это различие в генетических дистанциях, рассчитанных по 1-му локусу; udl - см.

выше. Нулевую гипотезу проверяют, используя обычный двухвыборочный ^критерий Стьюдента. Дг не имеет нормального распределения, но ^критерий дает приблизительный уровень статистической значимости. Статистически значимое различие между иБтт1 и иРт1п2 подразумевает таковое между иР№ и иРш. При наличии джекнайф-оценок двух генетических дистанций, различие между ними считается статистически значимым, если их 95% доверительные (толерантные) интервалы не перекрываются.

Примеры расчёта генетических дистанций. Оценивание генетических дистанций Нея иллюстрируется на двух выборках из гипотетических популяций X и Y. В табл. 2 даны выборочные частоты аллелей и некоторые промежуточные результаты.

Таблица 2. Частоты аллелей (хы и уы) и вероятности идентичности генов (х^ , у^ и хыуы ) по выборкам Xи Y

Локус, Аллель, Выборка Х (n=10) Выборка Y (n=24) d £

1 k xk£ x 2 xk£ Уы yL xk£ x yk£

А А1 0,47 0,2209 0,45 0,2025 0,2115 -

А2 0,43 0,1849 0,34 0,1156 0,1462 -

Аз 0,10 0,0100 0,21 0,0441 0,0210 -

I - 0,4160 - 0,3622 0,3787 0,0104

В В1 0,82 0,6724 0,32 0,1024 0,2624 -

в2 0,18 0,0324 0,68 0,4624 0,1224 -

I - 0,7048 - 0,5648 0,3848 0,2500

Расчёт минимальной генетической дистанции, Рт|п:

Тх - (1/т) ХГ Хк х^ - (1/2)(0,4160+0,7048) = 0,5604;

1¥ - (1/т) ХГ Хк Уы - (1/2)(0,3622+0,5648) = 0,4635;

Тху - (1/т)ХГ хы Уы - (1/2)(0,3787+0,3848) = 0,3818;

Ртш = (1х + 1у)/2 - 1ху = (0,5604+0,4635)/2 - 0,3818 = 0,1302. Расчёт Рт1п по локусам ^г):

- (¡ХА + ]Уа)/2 -]ХУА - (0,4160+0,3622)/2 - 0,3787 = 0,0104; ¿в - (¡ха + Ьв)/2 -¡ХУв - (0,7048+0,5648)/2 - 0,3848 = 0,2500;

Отт = (dA + dв)/2 = (0,0104+0,2500)/2 = 0,1302. Расчёт вариансы и стандартной ошибки :

ХГ=1 (а. -рт1п)^ (0,0104-0,1302)2 +(0,2500-0,1302)2 _

V(Dmn) =

=0,0143;

т(т -1) 2(2-1)

ЗЕфт) - ^(Бт) 0,0143-0,1198.

Оценка Рт1п=0,1302 статистически незначимая, т.к. 2*0,П98>0,1302. Расчёт стандартной генетической дистанции, иРм:

1К - ТХУ^Л/ТХТу - 0,3818/^0,5604x0,4635-0,74914. Оценки 1ху, 1х и 1у взяты из расчёта Рт1п.

Dn = -ln (In) = -ln (0,74914) = 0,2888. Несмещенная оценка:

cJx = i XI

2nX jX -11 f 2x10x0,4160-1 2x10x0,7048-1

Jv , .

X mX 2nx -1 21 2x10-1 2x10-1

+---1= 0,5373;

CJY = ^ I];

2nyjY -1 1 f 2x24x0,3622-1 2x24x0,5648-1

= 0,4521;

2пу -1 21 2x24-1 2x10-1

1Ху = 0,3818;

и^ - ТХУ^сТХсТу - 0,3818/^0,5373x0,4521- 0,7747;

иРк = -1п (иВД = -1п (0,7747) = 0,2553.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

иРк = 0,255 означает, что за время раздельной эволюции двух популяций в каждых 100 локусах в среднем произошло 25,5 аллельных мутаций (замен) или 0,26 замен на один локус.

Отметим: иРтт = № + о1у)/2 - 1ху = (0,5373 + 0,4521) - 0,3818 = 0,1129.

Варианса и стандартная ошибка иРк:

Уаг(иОм) - - 1-07747 - ;

иГк хт 0,7747х 2

ЗЕ(иОы) = ^Уаг(иЭн) = V0,1454 - 0,3813.

Расчёт максимальной генетической дистанции, Ртах! ТХ - Гп^ - V0,4160х0,7048- 0,54148;

1'¥ - Г- ^/0,3622x0,5648- 0,45229; Т'ху -ГИ^йХ^ - ^0=3787x0,3848-0,38174;

- ^у/д/ТТ - 0,38174/^0,54148x0,45229 - 0,7714; Бтах --!п(1'к) --1п (0,7714) = 0,2595. Несмещённая оценка:

^ 2nx jX -1 _ (2x10x0,4160-1 2x10x0,7048-1

cJV = m П —-= 2-'-x-^-= 0,5154;

X IП 2 nx-1 V 2x10-1 2x10-1

cjY = Jfr2nY jY -1 = 22x24x0,3622-1 x2x24x0,5648-1 = 0,440;

Y ЦП 2nY-1 V 2x 24-1 2 x 24-1

uIN = JXY ^cJX cJY = 0,38174/^0,5154x0,440 = 0,8017; uDmax =-ln(uIN) = -ln (0,8017) = 0,221. Варианса и стандартная ошибка uDmax:

,, in , (1-ulN) 1-0,8017

Var (uDmax) = —-—— =-= 0,1237;

ma uI'N xm 0,8017x2

SE (uDmax) = ylVar (uDmax) = V0,1237 = 0,3517. Коэффициент генной дифференциации

Базовыми мерами генетического разнообразия популяций являются индексы фиксации Райта (Wright, 1943,1951). Они характеризуют индивидуальный (FIS), субпопуляционный (FST) и популяционный (FIT) уровни биологической организации подразделённой популяции (детали см.

Kuznetsov, 2014). Райт определи FST для диаллельного локуса, как «корреляцию между двумя аллелями, извлечёнными случайным образом из двух субпопуляций относительно аллелей, извлечённых случайным образом из объединённой популяции». FST=1, когда обе субпопуляции полностью

гомозиготные и альтернативные аллели фиксированы (отсюда название - «индекс фиксации»), и FST=0, когда частоты аллелей в субпопуляциях одинаковы. В терминах варианс частот аллелей FST по Райту:

F - Vp

FST —^—Г , p(1— p)

где p и Vp= а 2 - среднее и варианса частот аллелей по субпопуляциям с диаллельным локусом.

Здесь FST - это отношение наблюдаемой вариансы, к максимально возможной вариансе при случайном спаривании (гетерозиготность по Харди-Вайнбергу). Райт (Wright, 1978) отмечал, что FST можно интерпретировать как меру степени дифференциации субпопуляций относительно предельного уровня при полной фиксации (начальная точка движения от исходной гетерозиготности к полной фиксации генов).

Ней (Nei, 1973, 1977) использовал иной подход. Он исходил из аддитивной модели и показал, что генное разнообразие в популяции, как в целом (HT), может быть разложено на внутри- (HS) и межсубпопуляционную (DST) компоненты:

ht=hs+dst-

Ней выразил вероятность идентичности двух случайно извлечённых из популяции генов как J—Skx2 , а неидентичности - H—1—J (xk - частота k-ой аллели в популяции). Вероятность неидентичности, H, - это мера генетического разнообразия (изменчивости) в популяции, т.е. гетерозиготности. Однако Ней считал, что термин «гетерозиготность» не корректен для популяции, в которой особи спариваются неслучайно. Поэтому, он предложил для H использовать словосочетание «gene diversity» (генное разнообразие), а для J - «gene identity» (генная идентичность). При случайном спаривании термины «генное разнообразие» и «генная идентичность» становятся эквивалентными терминам «гетерозиготность» и «гомозиготность», соответственно.

Допустим популяцию, которая подразделена на s субпопуляций и х1И - это частота k-ой аллели (k=1, 2, ..., r), относящейся к £ -му локусу (£ =1, 2, ..., m) в i-ой субпопуляции (i=1, 2, ..., s). Тогда по £ -му локусу имеем вероятности идентичности генов (Nei, 1973): • в i-ой субпопуляции

Ji.£ — Sk—1

X;

ik£ ;

• усреднённой по s субпопуляциям

• во всей популяции (субпопуляции объединены)

Ч = !л=1 х2<£' где х к£ = х1к /з •

По оценкам вероятностей идентичности генов получаем ожидаемое генное разнообразие по £ -му локусу:

• внутри субпопуляций

н8£ =1 - ^;

• в объединённых субпопуляциях (усреднённое)

НТ£ = 1 - ;

• между субпопуляциями (включает сравнение субпопуляции с собой):

^т£ = нт£ — н8£ •

- это абсолютная мера межсубпопуляционного разнообразия генов (гетерозиготности).

Исходя из аддитивной модели, Нт=Н8+Взт, относительная мера межсубпопуляционного разнообразия генов по £ -му локусу есть

0 = Р5Т£ = НТ£ — Н5£ =1_н^ .

НТ£ НТ£ НТ£

2

Статистика Gst эквивалентна индексу фиксации, FST, Райта (если локус диаллельный, то было показано, что HT =2x(1—x) и DST = 2а|; в случае множественных аллелей, GST эквивалентно средневзвешенному FSt по всем аллелям). Ней назвал GST-статистику «коэффициентом генной дифференциации» (coefficient of gene differentiation). GST интерпретируют как разнообразие генов между субпопуляциями, а отношение HS/HT (или 1-GST) - как разнообразие генов внутри субпопуляций.

Величина GST зависит от анализируемой популяции. Поэтому Ней считал, что оценку, полученную в одной подразделённой популяции нельзя сравнивать с таковой в другой (исключая случаи, когда системы спаривания аналогичны в обеих популяциях).

Из уравнений HT=HS+DST и GST=DST/HT Ней (Nei, 1973) вывел отношение:

1-Js = (1-Gst)(1-Jt),

подобное известному отношению Райта: l-FiT = (l-FiS)(l-FST) (Wright ,1951, 1978). Различие в том, что в последнем FIS и FIT измеряют отклонения наблюдаемых генотипических частот от таковых при равновесии Харди-Вайнберга, в то время как в уравнении Нея J и J - это вероятности идентичности генов на разных уровнях популяционной структуры. Кроме того, GST, JT и JS всегда положительные.

Как отмечалось выше, D включает и сравнение субпопуляций с собой. С поправкой на эти сравнения, межсубпопуляционное разнообразие генов есть

— s

dmt = 7dstt . t s —1 '

Это абсолютная мера генной дифференциации, которая не зависит от разнообразия генов внутри

субпопуляций (Nei, 1973). Dm используют: (а) для сравнения степени генной дифференциации

различных организмов и (б) при расчёте доли межсубпопуляционного генного разнообразия относительно внутрипопуляционного генного разнообразие:

RSTt = Dmt /HSt .

Несмещённая оценка GSt (uGST). Если исследуемые выборки небольшого размера, то Ней и Чессер (Nei, Chesser, 1983) ввёл корректировку оценок Hs^ и HT^ на выборочную ошибку:

тт ~ /-тт Н°/ \

с^ = ~ 7 (HSt —и 1 n — 1 1 2n

cHSt H°t

= HT+ ~ -

£ £ n xs 2 x n xs

где n = 1/[(1/s)^is1/n] - средний (гармоничный) размер выборки; - усреднённая по популяциям

наблюдаемая гетерозиготность по £ -ому локусу:

HO = 1 -VsX /s, O ikk?

где Хщ^ - число индивидов с гомозиготными генотипами (кк) в 1-ом локусе и i-ой популяции. Несмещённая оценка Gsт есть

сНТ£ — сН8£

uGoт =-=--

£ сНт£ СНТ£

Обобщение по локусам. Рассмотренное выше касалось только одного локуса. Метод применим к любому числу локусов. Для этого значения сН§ и сН-^ усредняются по всем исследуемым локусам

(возможно решение через усреднение сначала Н3, Нт и Н0):

сН8 = ХГ сН§£ /т, сНт = ЕГ сНТ/т

и сводная несмещённая оценка коэффициента относительной генной дифференциации есть

иС8Т =

оЫт - сЫ8 иО;

= 1 -

оЫс

сЫт сЫт сЫт

При небольшом размере выборок иОзт иногда может быть отрицательной. При очень большой генной дифференциации популяций величина 1т может быть ниже, чем (гены из разных популяций более схожи, чем гены из одной популяции). Тогда значение Бзт (соответственно, Эт) будет отрицательным. Для таких случаев Ней предложил использовать логарифмы (№1, 1973):

Бзт = -1п (1т/1з) и Оэт = -1п (1т/13) / [-1п 1т] по аналогии с генетической дистанцией (здесь J = 1-Н). Для получения объективных оценок генной дифференциации субпопуляций, выборки должны быть случайно отобранными из популяций и включать большое число полиморфных и мономорфных локусов.

Пример расчёта коэффициента генной дифференциации. Имеются данные по частотам генотипов (табл. 3) в выборках из трех субпопуляций (один локус с тремя аллелями: А, В и С).

Таблица 3. Частоты генотипов и оценки наблюдаемой гетерозиготности

Частота генотипа

Выборка П АА АВ АС ВВ ВС Но

1 49 0,2041 0,3265 - 0,4286 0,0408 0,3673

2 82 0,1342 0,4024 0,0122 0,4268 0,0244 0,4390

3 37 0,0270 0,2433 - 0,7027 0,0270 0,2703

Среднее 168 0,1218 0,3241 0,0040 0,5194 0,0307 0,3588

Частота генотипа, например, АА, по объединённой выборке:

Хдд = (0,2041+0,1342+0,0270)/3 = 0,1218 Аналогично рассчитываются частоты генотипов АВ, АС и др. Расчёт наблюдаемой гетерозиготности в выборке 1:

Ы01 = 1 - £ Хкк = 1 - (0,2041+ 0,4286) = 0,3673.

Три варианта расчёта наблюдаемой гетерозиготности (Н0) в популяции в целом: Ы0 = 1 - (0,2041 + 0,4286 + 0,1342 + 0,4268 + 0,0270 + 0,7027)/3 = = (0,3673+ 0,4390+0,2703)/3= 1 - (0,1218 + 0,5194) = 0,3588.

В табл. 4 приведены частоты аллелей и некоторые промежуточные величины, необходимые для расчёта uGST-статистики.

Таблица 4. Частоты генов и промежуточные величины для расчёта uGsт-статистики

Выборка Частота аллели Х1к Н8=1-15

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

А В С

1 2 3 0,3674 0,3415 0,1487 0,6122 0,6402 0,8378 0,0204 0,0183 0,0135 0,5102 0,5268 0,7242 0,4898 0,4732 0,2758

х.к 0,2859 0,6967 0,0174 - -

0,0817 0,4955 0,0003 0,5871 0,4129

1т 0,5674 - -

Нт 0,4326 - -

Вероятность идентичности генов: • в выборке 1

11 = 0,36742+0,61222+0,02042 = 0,5102;

• усреднённой по выборкам

13 = (0,5102+0,5268+0,7242)/3=0,5871;

• в объединенной выборке

1т = 0,28592+0,69672+0,01742 = = 0,0912+0,4955+0,0003 = 0,5674.

Генное разнообразие:

• усреднённое по выборкам

Н8 = 1-18 = 1-0,5871 = 0,4129;

• в объединённой выборке

Нт = 1-1т= 1-0,5674 = 0,4326. Абсолютное генное разнообразие между выборками:

В8т = Нт-Н = 0,4326 - 0,4129 = 0,0197. Бзт, скорректированное по числу выборок:

= (8/(8-1) = [3/(3-1)] 0,0197 = 0,0296.

Отношение генного разнообразия между выборками к усреднённому генному разнообразию по выборкам:

Я8т = бт/И8 = 0,0296/0,4129 = 0,0717. Коэффициент генной дифференциации выборок:

Сэт = Б8т/Нт = 0,0197/0,4326 = 0,0455. Проверка соотношения 1-13 = (1-Озт)(1-1т):

1-0,5871 = (1-0,0455)( 1-0,5674) 0,4129 = 0,9545x0,4326 0,4129 = 0,41292. Средний (гармоничный) размер выборок:

1

- = 50,3-

1

(1/5) е;1/П1 1 п +± +±

1 3 ^ 49 82 37

Корректировка Н3 и Нт для получения несмещённой оценки Оэт:

сН =

-Ио)

п -1 S 2п 50,3-1

0,4129-

0,3588 2x50,3

= 0,4175;

СИТ = ит + СИ* = 0,4326+ 04175 - 0,3588 = 0,4342.

П Х8 2 X П Х8

50,3x3 2x50,3x3

Несмещенная оценка (иОзт):

0,4342-0,4175 , 00/

иСеТ = —-'-= 0,0384 или «3,8%.

0,4342

Математическое ожидание для Б№ и С;

Г8Т

Анализ генетического разнообразия природных видов проводится не столько для выявления степени генетической дифференциации популяций, сколько для оценки таких демографических параметров, как размер эффективной популяции, степень генного потока, период времени дивергенции, а также для реконструкции филогенетических отношений (суб)популяций и построения дендрограммы. При этом принимается та или иная популяционно-генетическая модель. Так, в модели «равновесной (еquilibrium) популяции» считается, что эффекты действия разных эволюционных сил, таких как мутация, миграция, генетический дрейф и естественный отбор, находятся в равновесии, так что частоты генов (аллелей) в популяции остаются неизменными.

«Островная модель» Райта (island model) допускает, что популяция разделена на s субпопуляций, каждая из которых имеет эффективную численность пе, находится в состоянии равновесия по Харди-Вайнбергу (индивиды размножаются случайным образом) и с равным шансом может включать иммигрантов (доля m) из других субпопуляций (обмен генами между субпопуляциями происходит с одинаковой скоростью).

Мутационная модель «бесконечного числа аллелей» (infinite alleles model, IAM) предполагает, что: (а) каждая мутация приводит к появлению новой, не существовавшей ранее в популяции, аллели с заданной скоростью ц; (б) предковая популяция находилась в состоянии равновесия по Харди-Вайнбергу; (в) разделение предковой популяции на субпопуляции X и Y было моментальным и полным; (г) субпопуляции X и Y полностью изолированы, имеют постоянный эффективный размер, равный эффективному размеру предковой популяции; (д) вероятности идентичности генов в субпопуляциях X и Y равны таковой в предковой популяции.

В модели «пошаговой (ступенчатой) мутации» (stepwise mutation model, SMM) каждая мутация создает новый аллель, добавляя или удаляя повторный мотив с равной вероятностью ц/2 в обоих вариантах. Иногда допускают, что нет никаких ограничений на число повторов, возможных в локусе. Следовательно, аллели очень разных размеров будут более отдаленно связаны, чем аллели аналогичных размеров. Считается, что SMM имеет «память» размера аллели и более точно отражает процесс мутации микросателлитов.

В случае IAM и отсутствия дифференцированного отбора на протяжении всего эволюционного процесса, вероятность идентичности двух генов (из двух субпопуляций) будет уменьшаться со скоростью 2ц на поколение. Тогда математическое ожидание* идентичности в t-ом поколении есть (Kimura, 1985)

E(It) = (1-2ц) E(It-i) = (1-2ц)% « e-Vlo.

где Io - вероятность идентичности (гомозиготности) в предковой популяции (t=0); ц - темп мутирования на локус для нейтральных аллелей (равный для всех локусов); t - число поколений, прошедших с начала дивергенции.

Это значит, что математическое ожидание для стандартной генетической дистанции есть

E(Dn) S 2ц1

То есть, эта величина увеличивается во времени пропорционально (линейно) темпу мутаций. Поэтому Dn применяют в случае длительной эволюции, при которой субпопуляции дивергируют в результате мутаций и дрейфа генов. Для минимальной генетической дистанции, Dmin, математическое ожидание есть (Takezaki, Nei, 1996)

E(Dmin) = J(l - e"V),

где J - ожидаемая гомозиготность двух популяций.

Из математического ожидания для DN можно получить время расхождения субпопуляций:

t « Dn/2^.

Если изоляция между субпопуляциями будет не абсолютной (что характерно для многих реальных локальных популяций), то миграция (поток генов) будет препятствовать процессу дивергенции. Это отразится негативно на величине генетической дистанции и, следовательно, на оценке времени расхождения популяций. Была предложена меры времени дивергенции по микросателлитным локусам, которая не зависела от динамики популяции и достаточно устойчива к слабому потоку генов (Zhivotovsky, 2001, 2006).

В очень представительном исследовании (Gautier et al., 2007) были получены генетические дистанции между девятью европейскими породами крупного рогатого скота, которые в среднем составили 0,04±0,01, между шестью африканскими породами - 0,04±0,03 и между европейскими и

* Термин «математическое ожидание» связан с начальным периодом возникновения теории вероятности, когда область её применения ограничивалась азартными играми. Игрока интересовало среднее значение ожидаемого выигрыша или, иначе, математическое ожидание выигрыша. Для математического ожидания случайной величины Х используют обозначения Е(Х) или М(Х) (Кремер Н.Ш. Теория вероятности и математическая статистика. - М.: ЮНИТИ-ДАНА, 2006, 573 с.).

африканскими породами - 0,11±0,02. По (MacHugh, 1996) темпы мутаций 10 5...10 2 на ген/поколение. Тогда продолжительность дивергенции оценивается в

t я 0,11/(2x0,00001) я 5500 поколений.

Если принятые допущения и предпосылки были релевантными (соответствовали действительности), то можно полагать, что разделение предковой популяции на африканскую и европейскую части началось 27-33 тыс. лет назад (при генерационном интервале 5-6 лет) и примерно 10 тыс. лет назад (=(0,04x5)/(2x0,00001)) началась дивергенция внутри этих двух субпопуляций (доместикация).

Для «островной модели» ожидаемое равновесное значение FST есть (Wright, 1943)

Fst ~-'

4nem+4ne|+1

Из этого соотношения следует, что на степень дивергенции субпопуляций определяющее влияние оказывают не пе и m, а их произведение, пехт, т.е. число действительных иммигрантов за поколение - М.

Леттер (Latter, 1973) предложил соотношение для GST:

1

gst :

4ne I |(ш+ц)+1

При т>>ц (существенно больше) оно показывает, что GST зависит только от абсолютного числа мигрантов Мш и числа субпопуляций (8). При 8=да это выражение тождественно с таковым для FST. Если допустить, что Ц<<т, т.е. 4пе ц = 0, то

1- %Г и

M« ST и M;

4FST

Для скорости миграции (m) Джост (Jost et al., 2018) привёл следующее соотношение:

1/Gst -1 -4ne ц(s/(s-1))

ш =-

4йе(8/(8-1))2

При анализе микросателлитных локусов значения статистик Рзт и ОэТ ограничены величиной гетерозиготности, Н3, в пределах субпопуляций. Хедрик (Неёпск, 2005) предложил стандартизированную меру дифференциации, на основе оригинальной оценки GsT:

(5 -1 + И8)

gs t = ■

(s -1)(1 - Hs)

Эта стандартизация распространяется и на FST. Хотя нет прямой связи между стандартизированными статистиками и т, предполагается, что оценка числа мигрантов без влияния (воздействия) Н3 может быть получена с помощью комбинации статистик до- и после стандартизации (Ме^ал8, Не<Мск, 2011):

М « 1- ^т и М ^ 1-°Вт

4%г ^т

Величина М может в определённой степени характеризовать интенсивность потока генов между субпопуляциями. Чем больше степень генной дифференциации субпопуляций, тем меньше величина М. Если 2М<1, то субпопуляции имеют тенденцию к дивергенции; при 2М>1 тенденции к дивергенции нет (НоЫ^ег, 2010).

Показано (Не^ск, 2005), что в случае, когда имеют место мутации и миграция и допускается, что 4пец может характеризоваться соотношением Н3/(1-Н3), то

м ,,1-Рвт (1+Ив/(1-Ив) 4%г

При фиксированном значении FST (Озх) повышение Н3 (гетерозиготности, т.е. повышение темпа мутации) приводит к снижению ожидаемого числа мигрантов.

Теоретически, ожидаемая гетерозиготность Н, есть функция эффективного размера популяции (пе) и темпа мутации за поколение (ц). В случае 1АМ и небольшого числа аллельных состояний гена (Таке2ак1, Ш, 1996)

H =

4пец

1+4пец

а для SMM ожидаемая гетерозиготность есть

H =1 -. 1

^1+8пец

Ней и Такезаки (Nei, Takezaki, 1994) исследовали in silico (компьютерное моделирование) девять мер генетической дистанции и два подхода к построению филогенетического древа (дендрограммы), именно: «метод невзвешенного попарного центроидного усреднения» (unweighted pair-group method with arithmetic means, UPGMA) и метод «присоединения соседей» (neighbor-joining, NJ). В методе UPGMA предполагается, что темпы эволюции одинаковы для всех эволюционных ветвей; NJ-метод не требует такого допущения.

После генерирования данных по частотам аллелей и получения генетических дистанций для каждого набора локусов (10, 20, ..., 100 локусов) с двумя уровнями средней гетерозиготности (Н=0,16 и Н=0,5), строились филогенетические древа. Их топология сравнивалась с таковой модельного древа. Процедура повторялась 100 раз с расчётом процента повторов правильной топологии (РС). Было показано, что стандартная генетическая дистанция Нея (DN) лучше подходит для оценки эволюционного времени, чем DA. Последняя также может быть использована для этой цели, если рассматривается короткий эволюционный период. При реконструкции филогенетических древ более эффективной была БА-дистанция (относительно DN). При уровне гетерозиготности H=0,16 коэффициент РС был всегда выше для NJ-метода, чем для UPGMA. Исключением была Б^дистанция, когда метод UPGMA показывал более высокие значения PC. Однако при H=0,5 NJ-метод давал более низкие значения PC, чем UPGMA почти со всеми мерами генетических дистанций. В аналогичной работе (Takezaki, Nei, 1996) Б^дистанция Нея и хордовая Бс-дистанция Кавалли-Сфорца и Эдвардса (Cavalli-Sforza, Edwards, 1967) как для IAM, так и для SMM, показывали, как правило, более высокие значения РС, чем при использовании других мер. Результаты не зависели от того, имел или не имел место эффект «бутылочного горлышка» (сужения и расширения численности популяции).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключительные замечания

Имеется достаточно много индексов фиксации, мер дистанции и коэффициентов дифференциации, так или иначе характеризующих генетические различия/сходства между популяциями (Nei et al., 1983; Takezaki, Nei, 1996). Несмотря на то, что эти меры часто базируются на разных биологических и математических предпосылках, их оценки положительно коррелируют (0,74-0,99 по Barker, 1999), особенно при небольших генетических различиях между популяциями. При значительной дифференциации популяций могут иметь место существенные расхождения оценок, полученных разными методами. Это особенно относится к анализу микросателлитных маркеров, когда предполагаются разные типы мутаций (Takezaki, Nei, 1996; Goldstein, Pollock. 1997; Paetkau et al., 1997).

Из-за разных темпов мутаций в локусах и дрейфа генов оценки генетических дистанций между популяциями варьируют по локусам. Окончательная оценка генетической дистанции является функцией частных генетических дистанций по каждому локусу. Если имеется m локусов по n особям каждого локуса, то выборочная варианса оценки генетической дистанции (Vsum(mn)) включает два компонента (Nei, Roychoudhury, 1974; Li, Nei, 1975; Nei 1978; Kalinowski, 2002):

Vsum(m,n) Vinter(m) + Vintra(m,n),

где Vmter(m) - межлокусная варианса распределения генетических дистанций по локусам; Vintra(m,n) -внутрилокусная варианса, которая представляет собой выборочную вариансу, относящуюся к выборке ограниченного числа особей по исследуемым локусам.

Межлокусная выборочная варианса сокращается за счёт привлечения большого числа локусов, внутрилокусная варианса - путем отбора большого числа особей. Если межлокусная варианса существенно меньше внутрилокусной, то привлечение большого числа локусов не будет эффективным

способом снижения общей выборочной вариансы, и наоборот. Поэтому для получения статистически значимых оценок генетических дистанций (коэффициентов дифференциаций) и объективных выводов о генетической структуре популяций, выборки локусов и особей должны быть, по-возможности, рандомизированными и достаточно большими. Например, для предварительного анализа по микросателлитам FAO (2007/2010) рекомендует использовать минимум 25 животных, генотипированных по 30 локусами. Лучше, если заранее будет выбрана наиболее эффективная схема исследования (минимальная ошибка результата при минимальных издержках), что предполагает знание относительных величин меж- и внутрилокусных варианс и компьютерное моделирование. В противном случае оценки параметров могут иметь значительные выборочные ошибки.

Здесь уместно упомянуть о биологической и практической значимости оценок генетической дифференциации. Так, в работе (Smaragdov, 2018) Рет-оценки генетических дистанций по маркерам, равные, например, 0,009, 0,005 и даже 0,002, были статистически значимыми (стандартные ошибки < 0,0003). Однако их биологическая и, тем более, практическая значимость, на наш взгляд, не очевидны, как и утверждение автора, что «коровы в каждом стаде генетически отличаются от животных в других стадах» (они, в принципе, отличаются и в пределах стада). Заметим, что по классификации Райта при < 0,05 (или 5%) генетическая дифференциация популяций считается незначительной (Wright,1978). Как нам представляется, дифференциацию менее 1% можно отнести к категории «не имеющий существенного значения или ничтожной» (при FST=0 субпопуляции не различаются по числу и частотам аллелей). Гомогенность (однородность) стад на уровне 99,1-99,8% означает, что их аллельные профили практически одинаковы. Поэтому интерпретировать подобную «дифференциацию» необходимо с осторожностью в соответствии со здравым смыслом. Стивен Калиновски, который рассматривал т ъШсо эволюционные и статистические свойства трёх генетических дистанций, отмечал: «Какая бы генетическая дистанция ни использовалась для обобщения генетических различий между популяциями, самой большой проблемой будет решение, какие эволюционные процессы создали наблюдаемый паттерн, и оценить, какую биологическую значимость это имеет для популяций» (Kalinowski, 2002).

Биологическая основа статистик разнообразия - динамичный эволюционный процесс. Как правило, все меры сходства/различия популяций разрабатывались для того, чтобы исследовать филогенетические отношения между формами жизни через оценку генетических (эволюционных) дистанций. Эти меры базируются на различных моделях «истории эволюции», с разными генетическими и демографических допущениями и предположениями (равновесная популяция, островная модель, 1АМ, SMM). Даже в природных популяциях с естественных ходом эволюции выполнение всех условий и допущений может быть маловероятным. По мнению Л.А. Животовского (Zhivotovsky, 2006), для популяций человека ни одно из теоретических допущений не выполняется. Животовский (Zhivotovsky, 2001) также показал, что если численность популяции увеличивается, то оценка времени дивергенции занижается. Кроме того, в реальных условиях трудно определить, находятся ли популяции в состоянии равновесия, или нет. Учитывая временной масштаб, необходимый для достижения популяциями равновесия, вполне вероятно, что многие виды далеки от его достижения по многим генетическим локусам (т.е. они всё еще находятся в неравновесном состоянии).

У доместицированных видов животных естественный ход развития нарушается из-за использования разных методов селекции и кроссбридинга, как для улучшения «старых», так и для создания «новых» пород. «Эволюционные истории» пород переплетаются и смешиваются. Теоретические модели, заложенные в статистиках разнообразия, в условиях искусственного разведения животных представляются ещё более нереалистичными. Поэтому эволюционно-демографические показатели и реконструированные иерархические филогенетические деревья, установленные по оценкам генетических дистанций, могут быть далеки от истинных. Как отмечалось в материалах ФАО «Состояние всемирных генетических ресурсов...» (2007/2010), недостаток реконструкции филогенетического древа домашних животных в том, что эволюция его ветвей не может образовывать сеть; ветви могут расходиться, но не могут появляться за счет пересечения. Новые породы, как правило, возникают в результате различных типов скрещивания имеющихся пород. Сложные «эволюционные сценарии» плохо описываются такими методами, как ИРОМЛ и №. Поэтому полученные с их помощью «реконструкции» следует воспринимать «с осторожным скептицизмом» (в лучшем случае, как вариант

кластеризации). Возможно, более реалистичными и полезными для теории и практики разведения продуктивных животных будут «филогенетические сети» (phylogenetic networks), предназначение которых анализ и визуализация таких перекрёстных событий, как гибридизация, горизонтальный перенос генов, рекомбинация и т.п. (Huson, Bryant, 2006).

Тем не менее, если задачей исследования является анализ только текущего генетического разнообразия конкретных выборок (пород, линий, стад, групп животных), то статистики Нея могут быть хорошей мерой их дифференциации (Holsinger, Weir, 2009). Брюс Вейр (Weir, 2012) отмечал: «Как описание текущих частот, подход Нея является подходящим, но тогда нет никаких оснований для эволюционной интерпретации оценок, и нет никаких оснований для того, чтобы делать заявления о дивергенции от предковых популяций, эффектах естественного отбора или степени миграции». Оценки uDN и uGST могут служить ценной дополнительной информацией, позволяющей селекционерам в совокупности с традиционными и биометрическими методами принимать более правильные решения по разведению продуктивных животных. В частности, на основе матриц попарных генетических дистанций породных выборок и их 2D (3D) визуализации (например, методом главных координат -principal coordinate analysis, PCoA) можно генетически обосновать: (а) выбор породы для улучшения стада или иной породы, (б) выбор пород для промышленного скрещивании с тем, чтобы получить эффект гетерозиса, (в) схем линейного разведения, кросса линий и группового подбора для минимизации или оптимизации коэффициента инбридинга, (г) выбор «местных» пород(ы), которые следует сохранить (или поглатить), при условии недопущения снижения генетического разнообразия.

REFERENCES

1. Ayala F.J. Vvedenie v populyatsionnuyu i evolyutsionnuyu genetiku (Introduction to population and evolutionary genetics). Moscow: Mir, 1984, 232 p. (In Russian)

2. Bader J.M. Measuring genetic variability in natural populations by allozyme electrophoresis. In: Tested studies for laboratory teaching, Proceedings of the 19th Workshop/Conference of the Association for Biology Laboratory Education (ABLE). University of Calgary Alberta, Canada, 1998, 19: 25-41.

3. Barker J.S.F. Conservation of livestock breed diversity. Animal Genetic Resources Information. 1999, 25: 33-43.

4. Cavalli-Sforza L.L, Edwards A.W.F Phylogenetic analysis: models and estimation procedures. Evolution. 1967, 21(3/1): 550-570.

5. Gautier M., Faraut T., Moazami-Goudarzi K., Navratil V., Foglio M., Grohs C., Boland A., Garnier J.-G., Boichard D., Goldstein D.B., Pollock D.D. Launching microsatellites: A review of mutation processes and methods of phylogenetic inference. J. Heredity. 1997, 88(5): 335-342.

6. Holsinger K.E. Lecture notes in population genetics. University of Connecticut, 2010, 275 p.

7. Holsinger K.E., Weir B.S. Genetics in geographically structured populations: defining, estimating and interpreting FST. Nat. Rev. Genet. 2009, 10(9): 639-650. D0I:10.1038/nrg2611.

8. Huson D.H., Bryant D. Application of phylogenetic networks in evolutionary studies. Mol. Biol. Evol. 2006, 23(2): 254-267. D0I:10.1093/molbev/msj030.

9. Hedrick P.W. A standardized genetic differentiation measure. Evolution. 2005, 59(8): 1633-1638.

10. Hedrik P. Genetikapopulyatsii (Genetics of populations). Moscow: Tekhnosfera Publ., 2003, 592 p. (In Russian)

11. Rischkowsky B., Pilling D. (Eds). The State of the World's Animal Genetic Resources for Food and Agriculture. Rome: FAO Publ., 2007 (Sostoyanie vsemirnykh geneticheskikh resursov zhivotnykh v sfere prodovol'stviya i sel'skogo khozyaistva (Translation to Russian, Моscow: VIZ Publ., 2010).

12. Smaragdov M.G. [Full genome assessment of cross-breeding genetic differences in cattle]. Dostizheniya nauki i tekhniki APK - Scientific and Technological Agribusiness. 2018, 32(4): 47-49. DOI: 10.24411/0235-2451-201810411.

13. Jost L., Archer F., Flanagan S., Gaggiotti O., Hoban S., Latch E. Differentiation measures for conservation genetics. Evol. Appl. 2018, 11(7, Suppl): 1139-1148. D0I:10.1111/eva.12590.

14. Kalinowski S.T. Evolutionary and statistical properties of three genetic distances. Mol. Ecol. 2002, 11(8): 1263-1273.

15. Kimura M. Molekulyarnaya evolyutsiya: teoriya neitral'nsti (Molecular evolution: the theory of neutrality) Moscow: Mir, 1985, 394 p. (in Russian)

16. Kuznetsov V.M. [Wright's F-statistics: estimation and interpretation]. Problemy biologii productivnykh zhivotnykh -Problems of Productive Animal Biology. 2014, 4: 80-104 (in Russian).

17. Latter B.D.H. The island model of population differentiation: a general solution. Genetics. 1973, 73(1): 147-157.

18. Lathrop G.M., Gut I.G., Eggen A. Genetic and haplotypic structure in 14 European and African cattle breeds. Genetics. 2007, 177(1): 1059-1070. D0I.org/10.1534/genetics.107.075804.

19. Li W., Nei M. Drift variances of heterozygosity and genetic distance in transient states. Genetics Research Camb.

1975, 25(3): 229-248.

20. MacHugh D.E. Molecular biogeography and genetic structure of domesticated cattle. A thesis submitted for the degree of Doctor of Philosophy, Trinity College, University of Dublin, 1996, 264 p.

21. Meirmans P.G., Hedrick P.W. Assessing population structure: FST and related measures. Mol. Ecol. Res. 2011, 11(1): 5-18.

22. Nei M. A new measure of genetic distance (Rapers presented at a genetics workshop during 4-th Intl. Cong. Human Genetics, Paris, 1971). Compiled by J.F. Crow and C. Deeniston. NY: Plenum Press, 1974, 63-76.

23. Nei M. Genetic distance between populations. Amer. Naturalist. 1972, 106(No 949): 283-292.

24. Nei M. Analysis of gene diversity in subdivided populations. Proc. Nat. Acad. Sci. 1973, 70(12): 3321-3323.

25. Nei M., Roychoudhury A.K. Sampling variances of heterozygosity and genetic distance. Genetics. 1974, 76(2): 379390.

26. Nei M. F-statistics and the analysis of gene diversity in subdivided populations. Ann. Hum. Genet. 977, 41(2): 225233.

27. Nei M. Estimation of average heterozygosity and genetic distance from a small number of individuals. Genetics. 1978, 89(3): 583-590.

28. Nei M., Chesser R.K. Estimation of fixation indices and gene diversities. Ann. Hum. Genet. 1983, 47(3): 253-259.

29. Nei M., Tajima F., TateY. Accuracy of estimated phylogenetic trees from molecular data. J. Mol. Ed. 1983, 19(2): 153-170.

30. Nei M. Genetic distance and molecular phylogeny. In: Population genetics and fishery management (N. Ryman, F. Utter, Eds). 1987, 193-223.

31. Nei M., Takezaki N. Estimation of genetic distances and phylogenetic trees from DNA analysis. Proceedings of the World Congress on Genetics Applied to Livestock Production, 1994, 21: 405-412.

32. Paetkau D., Waits L.P., Clarkson P.L., Craigheadg L., Strobe C. An empirical evaluation of genetic distance statistics using microsatellite data from bear (ursidae) populations. Genetics. 1997, 147(4): 1943-1957.

33. Reynolds J., Weir B.S., Cockerham C.C. Estimation of the coancestry coefficient: basis for a short-term genetic distance. Genetics. 1983, 105(11): 767-779.

34. Saitou N., Nei M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Mol. Biol. Evol. 1987, 4(4). 406-425. D0I:10.1093/oxfordjournals.molbev.a040454.

35. Takezaki N., Nei M. Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA. Genetics. 1996, 144(1): 389-399.

36. Weir B.S. Analiz geneticheskikh dannykh. Metody diskretnogo analiza populyatsionno-geneticheskikh dannykh [Genetic data analysis. Methods for discrete population genetic data]. Moscow: Mir, 1995, 400 p. (in Russian)

37. Weir B.S. Estimating F-statistics: a historical view . Philos. Sci. 2012, 79(5): 637-643. DOI: 10.1086 / 667904.

38. Workman P.L., Niswander J.D. Population studies on southwestern indian tribes. II. Local genetic differentiation in the Papago. Am. J. Hum. Genet. 1970, 22(1): 24-49.

39. Wright S. Isolation by distance. Genetics. 1943, 28(2): 114-138.

40. Wright S. The genetical structure of populations. Ann. Eugenics. 1951, 15(4): 323-354.

41. Wright S. Evolution and the genetics of population. Vol. 4. Variability within and among natural populations. Chicago: Univ. Chicago Press, 1978, 580 p.

42. Zhivotovsky L.A. Estimating divergence time with the use of microsatellite genetic distances: impacts of pop-ulation growth and gene flow. Mol. Biol. Evol. 2001, 18(5): 700-709.

43. Zhivotovsky L.A. Populyatsionnaya biometriya (Population biometry). Moscow: Nauka Publ., 1991, 271 p. (in Russian).

44. Zhivotovsky L.A. [Microsatellite variability in human populations and the methods of its analysis]. VOGiSHerald. 2006, 10(1): 74-96 (in Russian).

Nei's methods for analyzing genetic differences between populations

Kuznetsov V.M.

Rudnitsky Federal Agricultural Research Center of the North-East, Kirov, Russian Federation

ABSTRACT. A key issue in determining and measuring population differentiation is the quantification of the nonrandom distribution of genetic variation. Studies of species divergence and genetic differentiation of populations require analysis of both heterozygosity (diversity) and genetic distances (difference), which measure different aspects of variability. Knowing how genetic variation is distributed among populations has important implications not only for evolutionary biology and ecology, but also for breeding and conservation of breeds of productive animals. There are various methods and computer programs for analyzing genetic variation by DNA markers (microsatellites, single nucleotide polymorphism), which are used to study animal populations. At the same time, the genetic and mathematical foundations of methods in Russian publications are not sufficiently reflected. Their consideration was the purpose of this work. In particular, Nei's approaches (Nei, 1974-1994) to assess genetic differences between populations based on the probability of the identity of two randomly extracted genes within and between populations are presented. In contrast to the Wright fixation index for the diallelic locus, Nei's statistics are expressed in terms of intrapopulation and interpopulation gene diversity. Formulas for calculating paired genetic distances and summary estimates of the gene differentiation of populations are presented. The numerical examples illustrate: a preliminary %2 test for the difference in the allelic profiles of populations, calculations of unbiased estimates of the minimum (uDmin), standard (uDN) and maximum (uDmax) genetic distances, combined estimates of the absolute (uDST) and relative (uGST) gene differentiation, their variants and standard errors. Nei's gene diversity measures are applicable to any populations, regardless of the number of loci, the polymorphism of alleles at the locus, the presence of evolutionary factors (mutations, migration, gene drift and selection). Estimates of Nei's genetic differentiation and genetic distances by molecular genetic markers can provide valuable additional information that allows breeders, in combination with traditional and biometric methods, to make the right decisions on breeding, improving, crossbreeding and preserving breeds of productive animals.

Keywords: heterozygosity, genetic diversity, genetic distance, coefficient of gene differentiation.

Problemy biologii productivnykh zhivotnykh - Problems of Productive Animal Biology, 2020, 1: 91-110

Поступило в редакцию: 05.02.2020 Получено после доработки: 05.03.2020 Кузнецов Василий Михайлович, д.с.-х.н., проф., т.(8332)33-10-72, vm-kuznetsov@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.