Научная статья на тему 'ИНФОРМАЦИОННО-ЭНТРОПИЙНЫЙ ПОДХОД К АНАЛИЗУ ГЕНЕТИЧЕСКОГО РАЗНООБРАЗИЯ ПОПУЛЯЦИЙ (АНАЛИТИЧЕСКИЙ ОБЗОР)'

ИНФОРМАЦИОННО-ЭНТРОПИЙНЫЙ ПОДХОД К АНАЛИЗУ ГЕНЕТИЧЕСКОГО РАЗНООБРАЗИЯ ПОПУЛЯЦИЙ (АНАЛИТИЧЕСКИЙ ОБЗОР) Текст научной статьи по специальности «Биологические науки»

CC BY
111
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОЛОЧНЫЙ СКОТ / МИКРОСАТЕЛЛИТЫ / ДИФФЕРЕНЦИАЦИЯ / ГЕНЕТИЧЕСКАЯ ДИСТАНЦИЯ / ИНФОРМАЦИЯ / ЭНТРОПИЯ / ЭКСПОНЕНТА ШЕННОНА / АНАЛИЗ ГЛАВНЫХ КООРДИНАТ / ОРДИНАЦИЯ

Аннотация научной статьи по биологическим наукам, автор научной работы — Кузнецов В. М.

Показано применение информационно-энтропийного анализа на реальных данных: генотипированных по 11 микросателлитным локусам 84 быках джерсейской (n = 10), айрширской (n = 10), красной датской (n = 10), красной шведской (n = 9) пород и голштинских экотипов немецкой (n = 13), нидерландской (n = 17) и североамериканской (n = 15) селекции. Информационный индекс Шеннона по объединённым породным выборкам составил 1,695, средневзвешенный по выборкам - 1,325, межвыборочная компонента ( SHAP) - 0,370 нит, или 21,8 % (все расчёты по GenAlEx 6.502). Общее абсолютное разнообразие Шеннона составило 5,45, усреднённое по выборкам - 3,76 эффективных аллелей на локус, межпородное - 1,45 эффективных выборок. Относительная оценка дифференциации породных выборок (D'β) составила 36,2 % и была близка к «традиционным» оценкам по Хедрику, Джосту и Чао. На SHAP-оценки влияния внутривыборочной гетерозиготности не установлено, но отмечена положительная тенденция D'β-оценок. Матрица парных по породам генетических дистанций (D'β) и её двумерная проекция имели высокое соответствие с таковыми по GST(NEI)-, FST(W&C)-, G′′ST(HED)-, F′ST(W&C)-, DJOST-, DCHAO-мерам (RMantel ≥ 0,94). Индексы фиксации (GST(NEI) и FST(W&C)) следует использовать для изучения эволюционных историй подразделённых популяций. Для анализа современной структуры генетического разнообразия (суб)популяций с акцентом на доминирующие аллели - меры на базе гетерозиготности (G′′ST(HED), F′ST(W&C), DJOST и DCHAO), при необходимости учитывать все аллели - меру Шеннона (D′β). В заключение рассматривается семейство степенных мер Хилла порядка q = 0, 1, 2 для построения профилей разнообразия, содержащих всю информацию о распределении аллелей в популяции.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по биологическим наукам , автор научной работы — Кузнецов В. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION-ENTROPY APPROACH TO THE ANALYSIS OF GENETIC DIVERSITY OF POPULATIONS (ANALYTICAL REVIEW)

The application of information-entropy analysis on real data is shown: 84 bulls of Jersey (n = 10), Ayrshire (n = 10), red Danish (n = 10), red Swedish (n = 9) breeds and Holstein ecotypes of German (n = 13), Dutch (n = 17) and North American (n = 15) breeding genotyped by 11 microsatellite loci. The Shannon information index for the combined breed samples was 1.695, the weighted average for the samples was 1.325, the inter-sample component (SHAP) was 0.370 nits or 21.8 % (all calculations according to GenAlEx 6.502). The total absolute diversity of Shannon was 5.45, averaged by samples - 3.76 effective alleles per locus, between breeds - 1.45 effective samples. The relative estimate of the differentiation of breed samples (D'β) was 36.2 % and was close to the «traditional» estimates for Hedrick, Jost and Ciao. The influence of within samples heterozygosity on SHAP estimates has not been established, but a positive trend of D'β-estimates has been noted. The matrix of paired genetic distances by breeds (D'β) and its 2D projection had a high correspondence with those by GST(NEI)-, FST(W&C)-, G"ST(HED)-, F'ST(W&C)-, DJOST-, DCHAO-measures (RMantel ≥ 0,94). Fixation indices (GST(NEI) and FST(W&C)) should be used to study the evolutionary stories of subdivided populations. To analyze the current structure of the genetic diversity of (sub)populations with an emphasis on dominant allele measures based on heterozygosity (G'ST(HED), F'ST(W&C), DJOST and DCHAO), if necessary, take into account all alleles - the Shannon measure (D'β). In conclusion, a family of Hill power measures of order q = 0, 1, 2 is considered for constructing diversity profiles containing all information about the distribution of alleles in a population.

Текст научной работы на тему «ИНФОРМАЦИОННО-ЭНТРОПИЙНЫЙ ПОДХОД К АНАЛИЗУ ГЕНЕТИЧЕСКОГО РАЗНООБРАЗИЯ ПОПУЛЯЦИЙ (АНАЛИТИЧЕСКИЙ ОБЗОР)»



https://doi.Org/10.30766/2072-9081.2022.23.2.159-173

УДК 636.082:575.174.015.3

Информационно-энтропийный подход к анализу генетического разнообразия популяций (аналитический обзор) © 2022. В. М. Кузнецов s

ФГБНУ «Федеральный аграрный научный центр Северо-Востока имени Н. В. Рудницкого», г. Киров, Российская Федерация

Показано применение информационно-энтропийного анализа на реальных данных: генотипированных по 11 микросателлитным локусам 84 быках джерсейской (n = 10), айрширской (n = 10), красной датской (n = 10), красной шведской (n = 9) пород и голштинских экотипов немецкой (n = 13), нидерландской (n = 17) и североамериканской (n = 15) селекции. Информационный индекс Шеннона по объединённым породным выборкам составил 1,695, средневзвешенный по выборкам -1,325, межвыборочная компонента (sHap) - 0,370 нит, или 21,8 % (всерасчёты по GenAlEx 6.502). Общее абсолютное разнообразие Шеннона составило 5,45, усреднённое по выборкам - 3,76 эффективных аллелей на локус, межпородное - 1,45 эффективных выборок. Относительная оценка дифференциации породных выборок (D'p) составила 36,2 % и была близка к «традиционным» оценкам по Хедрику, Джосту и Чао. На SHAP-оценки влияния внутривыборочной гетерозиготности не установлено, но отмечена положительная тенденция D'p-оценок Матрица парных по породам генетических дистанций (D'p) и её двумерная проекция имели высокое соответствие с таковыми по Gst(nei)-, Fst(w&c)-, G"st(hed)-, F'st(w&c)-, Djost-, DcHAo-мерам (RMantel > 0,94). Индексы фиксации (Gst(nei) и Fst(w&c) следует использовать для изучения эволюционных историй подразделённых популяций. Для анализа современной структуры генетического разнообразия (суб)популяций с акцентом на доминирующие аллели - меры на базе гетерозиготности (G''st(hed), F'st(w&c), Djost и Dchao), при необходимости учитывать все аллели - меру Шеннона (D'p). В заключение рассматривается семейство степенных мер Хилла порядка q = 0, 1, 2 для построения профилей разнообразия, содержащих всю информацию о распределении аллелей в популяции.

Ключевые слова: молочный скот, микросателлиты, дифференциация, генетическая дистанция, информация, энтропия, экспонента Шеннона, анализ главных координат, ординация

Благодарности: работа выполнена при поддержке Минобрнауки РФ в рамках Государственного задания ФГБНУ «Федеральный аграрный научный центр Северо-Востока имени Н. В. Рудницкого» (№ гос. регистрации АААА-А19-119042290136-4).

Автор благодарит рецензентов за их вклад в экспертную оценку этой работы.

Конфликт интересов: автор заявил об отсутствии конфликта интересов.

Для цитирования: Кузнецов В. М. Информационно-энтропийный подход к анализу генетического разнообразия популяций (аналитический обзор). Аграрная наука Евро-Северо-Востока. 2022;23(2)159-173. DOI: https://doi.Org/10.30766/2072-9081.2022.23.2.159-173

Поступила: 27.01.2022 Принята к публикации: 31.03.2022 Опубликована онлайн: 20.04.2022

Information-entropy approach to the analysis of genetic diversity of populations (analytical review)

© 2022. Vasiliy M. Kuznetsov 121

Federal Agricultural Research Center of the North-East named N. V. Rudnitsky, Kirov, Russian Federation

The application of information-entropy analysis on real data is shown: 84 bulls of Jersey (n = 10), Ayrshire (n = 10), red Danish (n = 10), red Swedish (n = 9) breeds and Holstein ecotypes of German (n = 13), Dutch (n = 17) and North American (n = 15) breeding genotyped by 11 microsatellite loci. The Shannon information index for the combined breed samples was 1.695, the weighted average for the samples was 1.325, the inter-sample component (sHap) was 0.370 nits or 21.8 % (all calculations according to GenAlEx 6.502). The total absolute diversity of Shannon was 5.45, averaged by samples - 3.76 effective alleles per locus, between breeds - 1.45 effective samples. The relative estimate of the differentiation of breed samples (D'p) was 36.2 % and was close to the «traditional» estimates for Hedrick, Jost and Ciao. The influence of within samples heterozygosity on sHap estimates has not been established, but a positive trend of D'/¡-estimates has been noted. The matrix of paired genetic distances by breeds (D'p) and its 2D projection had a high correspondence with those by Gst(nei)-, Fst(w&c)-, G"st(hed)-, F'st(w&c)-, Djost-, DcHAo-measures (RMantel > 0,94). Fixation indices (Gst(nei) and Fst(w&c)) should be used to study the evolutionary stories of subdivided populations. To analyze the current structure of the genetic diversity of (sub)populations with an emphasis on dominant allele measures based on heterozygosity (G'st(hed), F'st(w&c), Djost and Dchao), if necessary, take into account all alleles - the Shannon measure (D'p). In conclusion, a family of Hill power measures of order q = 0,1, 2 is consideredfor constructing diversity profiles containing all information about the distribution of alleles in a population.

Keywords: dairy cattle, microsatellites, differentiation, genetic distance, information, entropy, Shannon exponent, analysis of principal coordinates, ordination

Acknowledgements: the research was carried out under the support of the Ministry of Science and Higher Education of the Russian Federation within the state assignment of the Federal Agricultural Research Center of the North-East named N. V. Rudnitsky (theme No. AAAA-A19-119042290136-4).

The author thanks the reviewers for their contribution to the peer review of this work. Conflict of interest: the author declared no conflict of interest.

For citation: Kuznetsov V. M. Information-entropy approach to the analysis of genetic diversity of populations (analytical review). Agrarnaya nauka Evro-Severo-Vostoka = Agricultural Science Euro-North-East. 2022;23(2):159-173. (In Russ.). DOI: https://doi.org/10.30766/2072-9081.2022.23.2.159-173

Received: 27.01.2022

Accepted for publication: 31.03.2022 Published online: 24.04.2022

В генетике «разнообразие» - это «набор различий между видами, породами внутри видов и особями внутри пород, выраженными как следствие различий в их ДНК» [1]- Наличие генетического разнообразия и его оценка имеют важное значение для селекции животных, адаптации их к изменяющимся условиям окружающей среды, сохранения исчезающих пород, криоконсервации гамет и эмбрионов-

Разнообразие популяции характеризуют три «экологических» понятия: богатство (richness), обилие (abundance) и выравненность (evenness). Богатство - это число групп (видов, аллелей, морф) в популяции. Обилие - это численность (или относительная частота, доля) каждой морфы- Выравненность - это степень равномерности распределения единиц (наблюдений, животных) популяции по морфам-Меры разнообразия, которые базируются на анализе «богатства», малоинформативны, так как не учитывают «обилие». Популяция, в которой доминируют один-два аллели, генетически менее разнообразна, чем популяция, в которой такое же число равнораспростра-нённых аллелей. Лучшими мерами разнообразия считаются те, которые учитывают богатство, обилие и выравненность.

Такие процессы, как изоляция, дрейф генов, отбор и система спаривания приводят к дивергенции популяции, образованию субпопуляций и их дифференциации, в результате чего формируется пространственная структура разнообразия. Разнообразие и дифференциация связаны, т. к. общее разнообразие популяции включает разнообразия внутри субпопуляций и разнообразие между субпопуляциями. Поэтому различают три типа разнообразия: а-разнообразие («в узком смысле») - усреднённое разнообразие отдельных субпопуляций; Р-разнообразие (дифференциация) - разнообразие между субпопуляциями, и у-разнообразие («в широком смысле») - разнообразие в популяции как целое (объединённых субпопуляций).

Показатели разнообразия и дифференциации - важные описательные характеристики популяционной генетики. На уровне маркеров

ДНК генетическое разнообразие измеряется числом аллелей, частотами аллелей, гетерози-готностью. Наиболее широко используется ожидаемая гетерозиготность: Н =1 - £р2т, где рт -частота т-ой аллели в локусе. Ней назвал Н «генным разнообразием», определяемым как вероятность того, что две аллели, выбранных случайным образом из популяции, различны [2]. Если внутрисубпопуляционная гетерозиготность (На) гораздо больше, чем межсубпопуляционная (Нр), то говорят о низком уровне дифференциации. Отношение усреднённой внутрисубпо-пуляционной гетерозиготности (На) к гетеро-зиготности в общей популяции (Ну) характеризует сходство/родство субпопуляций.

Вместе с тем было показано, что в высокополиморфных системах (например, микросателлиты) гетерозиготность не лучшая мера разнообразия, особенно Р-разнообразия [3, 4]. В частности, чем выше На, тем ближе Нр к нулю (т. к. Нр = Ну - На), даже если субпопуляции не имеют общих аллелей. Возрастает вероятность некорректных оценок Нр, ошибочных выводов и неправильных решений, например, при выборе пород(-ы) для сохранения.

Для исследования генетической структуры популяции по ДНК-маркерам имеется два семейства мер [4]. Первое - меры демографической структуры или демографической дифференциации. Это статистики Райта ^т), Нея ^т) [2], Вейра и Кокерхэма ^тсш&е) (=9)) [5]. Их называют «индексами фиксации», т. к. на эмпирическом уровне они, в основном, отражают вероятность фиксации аллелей в каждой субпопуляции, а не фактическую степень дифференциации частот аллелей среди субпопуляций. Второе семейство - меры аллельной дифференциации или структурной дифференциации. К этому семейству относят модифицированные индексы фиксации (0"зт(неб), Р^тсш&е}) [6] и меру «истинного» разнообразия Джоста (Бгозт) [7] на базе эффективного числа аллелей. Эти меры равны единице, когда каждая субпопуляция состоит исключительно из приватных аллелей, и равны нулю, когда все субпопуляции имеют одни и те же аллели с равными

частотами. Оба семейства мер были рассмотрены нами в работах [8, 9], их применение на реальных данных представлено в [10, 11].

Кроме упомянутых выше метрик, имеются меры разнообразия/дифференциации, «привнесённые» в биологию из статистической физики, теории информации и кибернетики, так называемые «информационно-энтропийные» меры [12, 13]. В теории информации «энтропия» - это мера неопределённости какого-либо опыта, который может иметь разные исходы. Клод Шеннон, один из создателей математической теории информации, в качестве «меры количества информации, возможности выбора и неопределённости» определил величину вида [14]

H = - K SM=lPm log Pm = SH, где К - константа (в действительности нужна только для выбора единиц измерения); M -число возможных событий (например, видов в сообществе, аллелей в локусе); рт - вероятность m-го события из М возможных (в дальнейшем вместо «Н» используется «SH», чтобы избежать путаницы с гетерозиготностью1).

Шеннон писал: «Назовём величину SH = -Epm log pm энтропией набора вероятностей p1, ..., pm». Эта величина есть усреднённая энтропия («весами» являются pm). В то время как величина SHm = - logpm - есть частная энтропия, характеризующая только m-ое событие (состояние, исход). Следовательно, энтропия какого-либо опыта (испытания), SH, есть усреднённое значение неопределённости отдельных исходов, т. е. случайной величины, принимающей значения -log рm, с вероятностями pm. Чем больше вероятность события, тем меньше количество информации в сообщении о таком событии. Получение информации (её увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределённости, т. е. энтропии.

Родоначальник кибернетики У. Эшби интерпретировал усреднённую энтропию Шеннона, SH, как меру количества разнообразия, учитывающую не только абсолютное число разных состояний, но и вероятность, с которой система принимает то или иное состояние [15]. Впоследствии SH даже стали называть «информационный индекс разнооб-

разия Шеннона» или просто «индекс Шеннона», подразумевая разнообразие.

С 1960-х годов SH получил широкое распространение. В последние годы интерес к формуле Шеннона повысился из-за разработки процедуры декомпозиции (разделения) общего индекса (sHgt) на внутри- и межсуб-популяционные компоненты - sHwp и sHap соответственно [16]. Кроме того, SH, как показатель «количества информации/энтропии», предложили трансформировать через показательную функцию в меру разнообразия -D = exp(SH), где D - является «числовым эквивалентом» («number équivalent») меры разнообразия [17]. Числовой эквивалент - это число одинаково вероятных элементов - эффективных элементов (effective numbers of éléments) -необходимых для получения заданного (рассчитанного) значения SH [3]. Так, Dy (или Da) -это число эффективных аллелей по sHgt (или по sHwp), а Dp - число эффективных субпопуляций по sHap (sHgt, sHwp и sHap - это индексы Шеннона по объединённой популяции, усреднённый по субпопуляциям и межсубпопуляци-онный). Если sHgt = sHwp + sHap, то Dy = Da x Dp.

В зарубежных научных публикациях по биологии и экологии Dy, Da и Dp используют достаточно широко [18]. В российских исследованиях по генетике и селекции животных, сохранению генофонда исчезающих пород эпизодически используют SH [19, 20]. Вместе с тем считается, что шенноновские меры разнообразия (DY, Da и Dp) имеют некоторые идеальные статистические свойства для измерения биологической информации в различных масштабах [21]. Поэтому цель статьи состояла в рассмотрении информационно-энтропийных подходов к анализу разнообразия/дифференциации популяций животных по маркерам ДНК. Ставились задачи: (1) применить информационно-энтропийный анализ к реальным данным - выборкам быков разных пород, гено-типированных по микросателлитам; (2) сравнить шенноновские сводные оценки дифференциации пород с таковыми, полученными «традиционными» методами в предыдущих исследованиях [10, 11]; (3) рассчитать матрицу попарных генетических дистанций и на её основе выявить генетическую структуру породных выборок; (4) оценить степень сходства/различия разных метрик разнообразия и визуализировать их ординацию в пространстве малой размерности.

1Численное значение SH зависит от выбора основания логарифма. При основании 2 единицей SH является бит, при основании е = 2,71828 - нит (нат), при основании 10 - дита (хартли). Так как по определению p<1, а логарифм числа меньшего единицы - величина отрицательная, то перед log находится знак минус.

Материал и методы. Использованы те же данные, что и в предыдущих исследованиях [10, 11]. В частности, 84 быка (=N), каждый генотипирован по 11 STR-локусам (микросателлиты ДНК)2, именно: 10 быков джерсей-ской породы (JER), 10 быков айрширской породы (AYR), 10 - красной датской (RDAT), 9 - красной шведской (RSH) и 45 быков голш-тинской породы трёх «экотипов»3: 13 быков из Германии (H-DEU), 17 - из Нидерландов (H-NLD), 15 - из США (H-USA).

Анализы информационно-энтропийный и главных координат (Principal Coordinate Analysis, PCoA) были выполнены программой GenAlEx 6.502 [22, 23, 24]. Для регрессионно-корреляционного анализа использовали

программу STATGRAPHICS® Сenturion XVI [25]. Результаты сравнивали с таковыми, полученными другими методами в работах [10, 11].

Основная часть. STR-разнообразие породных выборок. В таблице 1 представлены базовые показатели аллельного разнообразия анализируемых породных выборок, которые используются в популяционной генетике. Самый простой - среднее число аллелей на локус - na (аллельное богатство). Минимальная величина na была в JER-выборке - 3,5 аллели на локус. Породные выборки AYR, RDAT, RSH и H-USA имели около 5 аллелей на локус. Максимальные значения были в H-DEU и H-NLD выборках - около 6 аллелей на локус.

Таблица 1 - Показатели разнообразия породных выборок по STR-маркерам / Table 1- Indicators of the diversity of breed samples by STR markers

Порода / Breed n Па Пе Ho He SH D (Sne) F s.e.

JER 10 3,5 2,4 0,56 0,53 0,95 2,6 -0,09 0,074

AYR 10 5,1 3,3 0,69 0,67 1,33 3,8 -0,04 0,059

RDAT 10 5,4 3,2 0,76 0,66 1,32 3,7 -0,15 0,031

RSH 9 4,8 3,4 0,76 0,65 1,30 3,7 -0,15 0,041

H-DEU 13 5,6 3,9 0,74 0,71 1,44 4,2 -0,04 0,062

H-NLD 17 6,2 4,3 0,97 0,75 1,56 4,8 -0,30 0,038

H-USA 15 4,7 3,2 0,70 0,64 1,23 3,4 -0,07 0,040

avEst. (a) 12 5,039 3,371 0,740 0,658 1,304 3,684 -0,123 0,021

totEst. (y) 84 9,091 4,629 0,756 0,761 1,695 5,447 0,007 0,021

Примечания: n - размер выборки; n - число аллелей на локус; ne - число эффективных аллелей на локус; Ho - наблюдаемая гетерозиготность; He - ожидаемая гетерозиготность; SH - индекс Шеннона (нит); D - экспонента SH или эффективное число аллелей на локус по энтропии (Sne); F - индекс фиксации; s.e. - стандартная ошибка оценки F; avEst. (а) - среднее по выборкам; totEst. (у) - оценка по объединённым выборкам /

Notes: n - sample size; na - number of alleles per locus; ne - number of effective alleles per locus; Ho - observed heterozygosity; He - expected heterozygosity; SH - Shannon index (nit); D - exponential of SH or the effective number of alleles per locus by entropy (Sne); F - fixation index; s.e. - standard error of estimation F; avEst. (а) - average of the samples; totEst. (y) - estimate based on combined samples

Мера разнообразия Па не учитывает распространённость аллелей. Поэтому сравнение аллельного разнообразия выборок по Па корректно только тогда, когда аллели равноча-стотны. Распространённость аллелей, как правило, различная. В таких случаях используют эффективное число аллелей, Пе = 1/Ерш2 [26] (заметим, Ерш2 - это гомозиготность по Харди-Вайнбергу; в определении Нея [2] -«генная идентичность»). Величина Пе представляет число равночастотных аллелей,

необходимых для получения той же гетерози-готности, что и в фактической выборке [18].

Величина Пе < Па, т. к. зависит от высокочастотных (доминирующих) аллелей; чем больше расхождение, тем больше в выборке низкочастотных аллелей. Отношение Пе/Па характеризует выравненность распространённости аллелей. Минимальная 59,3 % выравненность была в КОАТ-выборке, максимальная в ЯЕИ -70,8 %. В усреднённой выборке выравненность составила 66,9 %, в объединённой - 50,9 %.

2STR - Simple Tandem Repeats - участки ДНК длинной 2-6-9 нуклеотидов, тандемно повторенных 5-40 раз. ВНИИплем. База генетических данных быков-производителей. [Электронный ресурс]. URL: https://www.vniiplem.com/baza-geneticheskih-dannyh-bykov (дата обращения: 11.01.2022).

3Экотип - субпопуляция внутри породы, адаптированная к определённой среде обитания.

Для всех породных выборок оценки ожидаемой гетерозиготности (Не) были на 3-23 % ниже, чем фактической (Но). В результате индексы фиксации (Б) были со знаком «минус», что указывало на преобладание гете-розигот. Однако только в трёх породных выборках (ЯОАТ, ЯБН и Н-ЖБ) Б-оценки были статистически значимыми при руаЫе<0,05 (удвоенные статистические ошибки, Б.е., были меньше Б-оценок), т. е. имело место достоверное отклонение генотипических частот от равновесия по Харди-Вайнбергу.

На оценки Пе и Не в большей степени влияют высокочастотные аллели, т.к. квадраты низких частот (р2т) есть величины очень малые. Другими словами, при расчёте Пе и Не более распространённым (доминирующим) аллелям придаётся больший «вес». Поэтому показатели Не и Пе занижают аллельное разнообразие (суб)популяции, но являются чувствительными индикаторами доминирования (концентрации) одной или нескольких аллелей в локусе(-ах).

Информационно-энтропийный индекс Шеннона, ЙН, является косвенным показателем разнообразия без чрезмерного акцента на редкие и доминирующие аллели [27, 28], т. к. взвешивает количество энтропии, содержащейся в группе т-ой аллели (-1п рт) на её частоту (рт). Низкие значения ЙН свидетельствуют о малом разнообразии, высокие -о большом. Наименьший индекс Шеннона (ЙН = 0,95 нит) был отмечен в JER-выборке, наибольший (1,56 нит) - в Н-КЬБ, в остальных выборках на уровне 1,3 нит.

Нижняя граница ЙН = 0 при рт = 1. В отличие от верхней границы гетерозиготно-сти, равной 1 для любого числа аллелей, максимальная величина ЙН равна 1п(М), где М - число аллелей в (суб)попуяции. Отчасти поэтому ЙН сложно интерпретировать относительно «количества разнообразия» в (суб)по-пуляциях. Это не означает, что ЙН является плохим индексом. Напротив, ЙН является наиболее глубоким и полезным из всех индексов разнообразия, но его величина характеризует энтропию, а не разнообразие [27]. Экспоненциальная функция конвертирует ЙН в интуитивно интерпретируемый показатель разнообразия - Б = ехр(йН) [17, 18], который Джост [27] определил как истинное разнообразие. Применительно к результатам таблицы 1, Б (или йПе) - это минимальное число необходимых равночастотных аллелей для получе-

ния такой же величины SH, которая была рассчитана по реальным выборочным данным [18]. D есть энтропийный аналог эффективного числа аллелей по гетерозиготности (ne), который называют также «эффективным числом аллелей по энтропии». Преобразование SH в D (Sne) приводит к легко интерпретируемой, чувствительной мере разнообразия.

Величины Sne были больше ne в среднем на 0,36 аллеля. На одну аллель Sne и ne отличались в AYR, RDAT и H-NLD-выборках. Ранговая корреляция Кендалла (т) между Sne и ne составила 0,85 (pvalue = 0,007). Для корреляции Кендалла присуща простая вероятностная интерпретация. Так, т = 0,85 означает, что у 92,5 % пар порядок оценок совпадал (Р = (1 + т)/2 = (1 + 0,85)/2 = 0,925), а у 7,5 % -не совпадал.

По трём показателям (na, Sne и ne) были построены профили разнообразия (рис. 1), которые визуализировали особенности породных выборок. В частности, профиль аллельного разнообразия JER-выборки занимал не только нижний уровень, но и был в некотором удалении от остальных профилей. Кривые профилей разнообразия по всем выборкам достаточно резко снижались, что указывало на значительное число в их аллелофондах низкочастотных аллелей (чем круче - тем больше). Обращает внимание большая гетерогенность профилей разнообразия выборок быков голштинских экотипов, в то время как для профилей выборок быков красных пород (пунктирные кривые) характерна гомогенность (однородность).

Интересно отметить, что по na выборки RDAT и RSH имели ранги 1 и 3 (среди красных пород), по ne ранги поменялись местами, а по Sne аллельное разнообразие выборок было, практически, схожим. Это говорит о том, что, во-первых, в аллелофонде RDAT-выборки низкочастотных аллелей было больше, чем в RSH-выборке, во-вторых, три критерия могут приводить к разным выводам относительно аллельного разнообразия популяций и, соответственно, решениям. Как подтверждение последнего, разнообразие H-USA-выборки по числу фактических аллелей на локус (na) было, практически, сходным с таковыми в RSH-выборке. Однако по числу эффективных аллелей на основе энтропии (Sne) выборки заметно отличались.

Декомпозиция. По объединённым выборкам информационный индекс Шеннона (sHgt) составил 1,695 нит (табл. 2). В первой

и второй строках даны результаты декомпозиции йНат на меж- (йНлр) и внутривыборочный (йНшр) компоненты. Также представлены результаты их конвертирования в «истинное»

6,5 -|

м б.о -

и

I 5.5 -

03

<4-4

о 5.0

1-н

1)

4.5 4,0 3,5 3,0 2,5 2,0

разнообразие (Бр, Ба и Бу). Кроме того, даны относительные оценки разнообразия/дифференциации (Б') и перекрытия (О') аллельных профилей.

«

п.

гц

Рис.1 - Профили STR-разнообразия породных выборок. Число аллелей: na - фактическое; Sne - эффективное по энтропии; ne - эффективное по гетерозиготности (доминирующие) /

Fig. 1 - STR-diversity profiles of breed samples. Number of alleles: na - actual; Sne - effective for entropy; ne - effective for heterozygosity (dominant)

Таблица 2 - Декомпозиция количества информации (sHgt), «истинные» абсолютные (D) и относительные (D') оценки разнообразия и перекрытия (О') аллельных профилей породных выборок / Table 2 - Decomposition of the amount of information (sHgt); «true» absolute (D) and relative (D') estimates of diversity and overlap (O') of allelic profiles of breed samples

Source Inform. SH SH, % D = exp(SH) D', % O', % pperm

Among Pops, AP - (P) 0,370 21,8 1,45 36,2 63,8 0,001

Within Pops, WP - (a) 1,325 78,2 3,76 76,5 23,5 1,000

Total, GT - (y) 1,695 100,0 5,45 82,1 17,9 -

Примечания: O' = 100 - D'. pperm - достигнутый уровень статистической значимости (пермутационный тест с 999 рандомизированными перестановками) /

Notes: O' = 100 - D'. pperm - achieved level of statistical significance (permutation test with 999 random shuffles)

Межвыборочная компонента (йНлр) оценивалась в 0,370 нит, внутривыборочная (йНшр)

- 1,325 нит. Так как для информационной меры Шеннона характерна аддитивная структура (8Иат = 8Илр + 8Ишр), то доля межвыборочной компоненты составила йНлр / йНат = (0,370/1,695) = 0,218, или 21,8 %. Это относительный показатель количества межвыборочной информации, но не разнообразия аллельных профилей выборок. Показательная функция перевела 8Иат, 8Ишр и 8Илр в меры разнообразия (Б) с мультипликативным разложением:

• 8Иат = 1,695 нит в Бот = ехр(8Нат) = 5,45

- число эффективных аллелей по энтропии в объединённой выборке (=БУ);

• 8Нда = 1,325 нит в Бшр = ехр(8Ишр) = 3,76

- число эффективных аллелей по энтропии в усреднённой выборке (=Ба);

• sHap = 0,370 нит в Dap = exp(SHAp) =1,45 - эффективное число породных выборок (=Dp).

Последнее можно получить из отношения DY/Da (Dp = 5,45/3,76 = 1,45), т. к.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Dy = Da х Dp (= 3,76 х 1,45 = 5,45).

Dp - это абсолютная мера дифференциации субпопуляций. Если имеется P субпопуляций равной численности и нет общих аллелей, то Dp всегда будет равно P (100% дифференциация), независимо от частоты аллелей. Если выборки имеют одни и те же аллели с одинаковыми частотами, то Dp будет равно 1 (нет дифференциации - все субпопуляции являются частями одной популяции). По имеющимся данным величина абсолютной дифференциации составила, примерно, 1,5 эффективной породной выборки (фактически - 7 выборок). В относительных единицах D'p = 36,2 %,

т. е. по частотам аллельные профили выборок различались в среднем на 36,2 % и на 63,8 % (100 - Б'р = О'р) перекрывались. В усреднённой породной выборке гетерозиготность по энтропии составила 76,5 %, общая по объединённым выборкам - 82,1 % (соответствующие Не были 0,658 и 0,761 (табл. 1)).

Эффект внутривыборочной гетерози-готности. В предыдущих исследованиях [10, 11] на тех же 8ТЯ-данных было показано, что высокая внутривыборочная гетерозигот-ность (сШ), характерная для микросателлитов, являлась причиной получения существенно заниженных оценок Р-разнообразия методами Нея и АМОУА4. Была проведена проверка влияния уровня сШ на шенноновские оценки (8Иар, Бе и D'p). Для этого имеющийся набор данных был разделён на 11 псевдонаборов -

каждый с разным локусом. По этим псевдонаборам были рассчитаны сШ (а также щ и Пе) и оценки 8Иар, Бе и D'p. Затем была сформирована выборка с шестью переменными (Па, Пе, сШ, 8Иар, Бр и D,p) и 11 записями, по которой были проведены регрессионно-корреляционные анализы (рис. 2).

Разброс полокусных оценок 8Иар (рис. 2, слева) и линия регрессии свидетельствовали об их [оценках] независимости от уровня внутривыборочной гетерозиготности. Это подтверждал и нулевой коэффициент детерминации (Я2 = 0,001). В то же время распределение оценок Бр (рис. 2, справа) указывало на наличие положительной регрессии. Однако коэффициент детерминации этой тенденции был недостаточно высоким (Я2 = 0,55).

Рис. 2. Распределение полокусных оценок sHap и D p в зависимости от внутривыборочной гетерозиготности (cHs). Распределение Dp было аналогично распределению Dp /

Fig. 2. Distribution of polocus estimates of sHap and D'p (estimates for each locus) depending on intrasample heterozygosity (cHs). The distribution of Db was similar to the distribution of D'p

Распределение Dp было аналогично распределению Dp. Взаимосвязь Dp и D'p оценок с числом аллелей на локус (Па), как и с числом эффективных аллелей (Пе), также была схожей. Коэффициенты корреляции по Пирхнеру составляли: с Па - 0,64 (pvalue = 0,031), с Пе - 0,75 (pvalue = 0,007); корреляции по Кендаллу были 0,41 (pvalue = 0,078) и 0,52 (pvalue = 0,025) соответственно.

Сравнение с оценками по другим методам. Было проведено сопоставление показателей Р-разнообразия породных выборок, полученных в модуле Shennon программы GenAlEx (sHap и D'p), с таковыми, рассчитанными ранее

в модуле G-Statistics (по Нею - Gst, с поправкой Хедрика на гетерозиготность - G''st(hed) и по Джосту - Djost), в модуле AMOVA (по Вейру и Кокерхэму - Fst(w&c), с поправкой на гетерозиготность - F'st(w&c)), а также с оценкой методом Чао-Морисита-Хорна, рассчитанной в программе SpadeR (Dchao) [29]. Результаты представлены в таблице 3.

Оценка разнообразия Шеннона (D'p = 36,2 %) была близка к скорректированным на внутри-выборочную гетерозиготность оценкам по Нею и AMOVA (G ST(HED) = 37,5 % и F ST(W&C) = 35,1 %) и на 6,6 процентных пункта превышала оценки аллельной дифференциации по Джосту и Чао

4Заметим, при анализе выборок по двуаллельным SNP'ам (однонуклеотидный полиморфизм) меры диффе-

ренциации, основанные на гетерозиготности, корректны только в случае сравнения двух выборок, или если

несколько выборок анализируются попарно [4].

(Бгоэт = 29,2 % и Бснло = 30,8 %). Информационная мера Шеннона (БНлр = 21,8 %) занимала промежуточное положение между оценками аллельной дифференциации (Бгозт, Бснло) и нескорректированными индексами фиксации (Обт, р8т(ш&с)). Последние были на

уровне 10 % и характеризовали не уровень аллельной дифференциации породных выборок, а степень приближения к состоянию полной фиксации аллелей, когда каждое животное является гомозиготным по исследуемым локусам [30].

Таблица 3 - Оценки ^-разнообразии, рассчитанные разными методами по одним и тем же STR-данным / Table 3 - Estimates of p-diversity, calculated by different methods using the same STR data

Мера /Measure Est., % Pperm 95CIu 95CIl Источник / Source

Gst(nei) 10,3 0,001 8,0 13,0 [10]

Fst(w&c) 10,8 0,001 8,6 13,3 [11]

G''st(hed) 37,5 0,001 32,4 42,9 [10]

F'st(w&c) 35,1 0,001 28,0 43,0 [11]

Djost 29,2 0,001 24,4 33,9 [10]

Dchao 30,8 - 27,5 34,2 [11]

sHap, 21,8 0,001 - - Table 2

D'ß 36,2 0,001 - - Table 2

Примечания: Est. - оценка; 95 %; CI - 95 % доверительный интервал; субиндексы L и U - нижняя и верхняя границы CI /

Notes: Est. - estimate; 95 %; CI - 95 % confidence interval; subindexes L and U - lower and upper bounds of CI.

Коэффициенты корреляции Пирхнера полокусных D'p-оценок были статистически значимыми только с DJоsт- и Бснло-оцен-ками (г = 0,6; руаЫе = 0,049). Ранговая корреляция Кендалла составляла 0,35 (руаШе = 0,14) и информировала о том, что с вероятностью 86 % совпадение рангов оценок возможно у % пар.

Ординация породных выборок. Относительная оценка Р-разнообразия Шеннона (D'p = 36,2 %) характеризовала обобщённую аллельную дифференциацию породных выборок, нивелируя двухсторонние генетические отношения. В таблице 4 представлена матрица генетических дистанций (Genetic Distance, GD) между аллельными профилями всех попарных комбинаций семи породных выборок.

Таблица 4 - Треугольная матрица парных генетических дистанций (под диагональю - D'p-оценки, над диагональю - Pperm) /

Table 4 - Triangular matrix of paired genetic distances (under the diagonal - D'p-estimates, above the diagonal - pperm)

Порода / Breed JER AYR RDAT RSH H-DEU H-NLD H-USA

JER - 0,001 0,001 0,001 0,001 0,001 0,001

AYR 0,502 - 0,227 0,203 0,001 0,001 0,001

rdat 0,537 0,180 - 0,110 0,001 0,001 0,001

rsh 0,593 0,169 0,198 - 0,001 0,001 0,001

h-deu 0,508 0,422 0,420 0,419 - 0,168 0,286

h-nld 0,460 0,379 0,404 0,408 0,120 - 0,001

h-usa 0,526 0,439 0,402 0,426 0,115 0,179 -

С вероятностью ошибки аво^ = 0,0024 (множественный тест Бонферрони) из 21 парного сравнения 16 оценок ОБ были статистически значимыми (ррегт < аво^ = 0,0024). Оцен-

ки GD между джерсейской (JER) и остальными породными выборками были в пределах 50-60 % (pperm < 0,001). GD среди красных пород (AYR, RDAT и RSH) были на уровне 20 %,

но статистически незначимые. Среди голш-тинских экотипов (H-DEU, H-NLD и H-USA) статистически значимая была только GD между H-NLD и H-USA выборками (Dp = 18 %). Между красными породами и голштинскими экоти-пами GD были на уровне 40 % (pperm < 0,001)5.

Для выявления структурной дифференциации пород в пространстве был использован анализ главных координат (Principal Coordinate Analysis, PCoA). Метод PCoA проецирует данные матрицы GD между породами в достаточно адекватный 2D (3D) график ординации -взаимном расположении пород при минимально возможном искажении расстояния между ними. Скрытая в D'p-матрице пространственная генетическая структура породных выборок визуализирована на рисунке 3.

H RSH USA H-DEU A H-NLD

■ RDAT ■ AYR • JER.

Coord. 1: 49,1%

Рис. 3. Ординация породных выборок в двумерном пространстве (PCoA по D'p-матрице) /

Fig. 3. Ordination of the breed samples in two-dimensional space (PCoA by the D'p-matrix)

Две координаты суммарно объясняли 90,3 % общей дисперсии, заключённой в матрице GD. Следовательно, двумерное решение было адекватным, а информативность PCoA достаточно высокой (потеря информации 9,7 %). На 2D диаграмме PCoA выделил кластер «красных» пород (RED), кластер голш -тинских «экотипов» (HOL) и ветку джерсей-ской породы (JER).

Малые статистически незначимые (5 из 6) GD между породными выборками в пределах кластеров свидетельствовали о большом сходстве аллельных профилей и возможности рассмотрения их, как две «породы»: RED и HOL. Сводная оценка аллельной дифференциации укрупнённых выборок (JER, RED и HOL) составила D'ß = 38,6 % с pperm < 0,001 (на 7 % больше, чем по семи породным выборкам). Соответствующие сводные оценки по AMOVA (F'st(w&c)) и Djost были 45,3 и 42,7 % [11]. Ниже представлены парные по укрупнённым породным выборкам GD (%):

GD D'ß F'st(w&c) [11] Djost [11]

JER - RED 45 65 55

JER - HOL 42 51 41

RED - HOL 34 37 29.

Генетические дистанции, рассчитанные разными методами, были достаточно близки и имели общую тенденцию: GDjer-red > GDjer-hol > GDred-hol (большая вероятность перекрытия интервальных оценок).

Данные по группам RED и HOL (регионам, Regs) были подвергнуты двухуровневой декомпозиции, результаты которой представлены в таблице 5.

Межрегиональная компонента (Among Regs) информации (sHar, %) составила 11,0 %, разнообразия Шеннона (D'à) - 34,3 %. Последняя хорошо соответствовала оценке GD между «породами» RED и HOL - 34 %. Аллельная дифференциация породных выборок в пределах регионов была в 2,2 раза ниже, чем «регионов» (D'ß = 15,9 %). Перекрытие частот аллелей (общих аллелей) в породных выборках (O'ß) было 84,1 %, в регионах (О'з) - 65,7 %. Уровни гетерозиготности по энтропии (D'à = 77,8 % и D'y = 81,7 %) незначительно отличались от таковых в таблице 2 (76,5 и 82,1 %).

5Для сравнения: GD современной голштинской породы с локальными, архивными и древними образцами ДНК российских пород были в разы меньше. Например, с черно-пестрой породой (1970-1980-х гг.) - 8,4 % [31], с печёрским скотом - 4,1 % [32], с ярославской породой и великорусским скотом (конец XIX началоХХ веков) -6,2 и 1,6 % [33]. Получается, что русский обыкновенный (великорусский) скот (по акад. А. Ф. Миддендорфу -«первичнолесной», «горемычки» и «тосканки» (Миддендорф А. Ф. Отчет о породе крупного рогатого скота Северной России и улучшении его. Исследование современного состояния скотоводства в России: Рогатый скот. М., 1884-1885); по проф. Н. П. Чирвинскому - «северный»; по К. С. Трипольскому - «беспородистый» [34]) на 98,4 % был «genetic relationship» голштинской породе, которая десятилетиями интенсивно селекционировалась, т. е. «горемычки» и голштинки - члены одной популяции!? Отметим, что независимо от меры разнообразия/дифференциации, если выборки небольшие, то некоторые редкие аллели (суб)популяций будут в них отсутствовать. Это означает, что выборочные частоты будут систематически завышать фактические частоты аллелей в (суб)популяциях и, следовательно, недооценивать разнообразие и смещать оценки дифференциации.

Таблица 5 - Двухуровневая декомпозиция информационной меры Шеннона / Table 5 - Two-level decomposition of the Shannon information measure

Источник / Source Inform. SH SH, % D = exp(SH) D', % O', % pperm

Among Regs, AR - (5) Among Pops, AP - (P) Within Pops, WP - (a) 0,183 11,0 1,20 0,112 6,6 1,12 1,376 82,4 3,96 34,3 65,7 15,9 84,1 77,8 22,2 0,001 0,001 1,000

Total, GT - (y) 1,670 100,0 5,31 81,7 18,3 -

Ординация мер дифференциации. Пространственная структура аллельного разнообразия породных выборок на рисунке 3 визу-

ально была очень схожа с таковыми по матрицам иных мер дифференциации [10, 11], хотя оценки GD существенно отличались (табл. 6).

Таблица 6 -Треугольные матрицы парных генетических дистанций, рассчитанных семью методами

(табличный формат) /

Table 6 - Triangular matrixes of paired genetic distances, calculated by seven methods (table format)

BR1 BR2 Gst(nei) Fst(w&c) G"st(hed) F'st(w&c) DjoST DcHAO D'ß

JER AYR 0,122 0,217 0,590 0,590 0,477 0,447 0,502

JER RDAT 0,143 0,250 0,663 0,663 0,551 0,510 0,537

AYR RDAT 0,001 0,001 0,005 0,005 0,003 0,034 0,180

JER RSH 0,159 0,275 0,728 0,729 0,626 0,558 0,593

AYR RSH 0,004 0,008 0,026 0,026 0,019 0,040 0,169

RDAT RSH 0,003 0,005 0,017 0,017 0,012 0,027 0,198

JER H-DEU 0,102 0,181 0,524 0,522 0,417 0,439 0,508

AYR H-DEU 0,060 0,112 0,401 0,401 0,325 0,339 0,422

RDAT H-DEU 0,064 0,120 0,417 0,416 0,337 0,321 0,420

RSH H-DEU 0,064 0,119 0,416 0,414 0,336 0,315 0,419

JER H-NLD 0,092 0,163 0,501 0,498 0,401 0,408 0,460

AYR H-NLD 0,046 0,089 0,335 0,337 0,270 0,286 0,379

RDAT H-NLD 0,053 0,100 0,371 0,371 0,300 0,300 0,404

RSH H-NLD 0,056 0,105 0,388 0,388 0,316 0,305 0,408

H-DEU H-NLD 0,004 0,008 0,032 0,034 0,024 0,037 0,120

JER H-USA 0,123 0,216 0,565 0,563 0,443 0,472 0,526

AYR H-USA 0,065 0,124 0,387 0,389 0,302 0,314 0,439

RDAT H-USA 0,065 0,123 0,377 0,377 0,289 0,292 0,402

RSH H-USA 0,064 0,121 0,372 0,372 0,285 0,288 0,426

H-DEU H-USA 0,003 0,006 0,019 0,020 0,014 0,032 0,115

H-NLD H-USA 0,015 0,030 0,107 0,107 0,079 0,086 0,179

Примечания: BR - порода. На Gst(nei) и FST(w&c) оценки влиял уровень гетерозиготности выборок. В G"ST(HED) и F'ST(W&C) оценках влияние гетерозиготности устранено. На D-оценки уровень гетерозиготности выборок не оказывает влияние /

Notes: BR - breed. The GST(NEI) and FST(W&C) estimates were influenced by the level of heterozygosity of the samples. In the G"ST(HED) and F'ST(W&C) estimates, the influence of heterozygosity is eliminated. The level of heterozygosity of the samples does not affect the D-estimates

Информационная мера Шеннона непредвзято учитывала вклад низкочастотных аллелей. Возможно, именно этим свойством объясняется то, что GD по D'p-мере между породными выборками AYR и RDAT, AYR и RSH, RDAT и RSH, H-DEU и H-NLD, H-DEU и H-USA

были в разы больше, чем по остальным мерам аллельной дифференциации.

Для оценки сходства матриц GD в таблице 6 использован тест Мантеля (Mantel correlation, Rm). Результаты представлены в таблице 7.

Таблица 7 - Корреляции Мантеля между матрицами генетических дистанций, рассчитанных разными методами (сходство матриц) /

Table 7 - Mantel correlations between genetic distance matrixes calculated by different methods (similarity of matrixes)

Мера /Measure Gst(nei) G"st(hed) Fst(w&c) F'st(w&c) Djost DCHAO

G''st(hed) 0,973 - - - - -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Fst(w&c) 0,999 0,982 - - - -

F'st(w&c) 0,973 1,000 0,982 - - -

Djost 0,976 0,998 0,983 0,998 - -

Dchao 0,971 0,997 0,978 0,997 0,994 -

D'ß (Shannon) 0,938 0,982 0,950 0,981 0,975 0,984

Коэффициенты Rm были в диапазоне 0,938^1,0. Их большое число и малые различия делали проблематичным выявление каких-либо структурных отношений между мерами. Поэтому были привлечены методы многомерной статистики для визуализации возможной структуры. Предварительно коэффициенты Rm матрицы сходства (табл. 7) были трансформированы в коэффициенты «несходства» (= 1 - Rm), чтобы сформировать матрицу дистанций между метриками (не приводится). Её проекции представлены на рисунке 4 в двумерной плоскости (слева; модуль PCoA программы GenAlEx) и в трёхмерном пространстве (справа; программа Graphing Calculator 3D).

Информативность РСоА составила 76,4 + 17,1 = 93,5 % (потеря информации 6,5 %). Первая координата отделила семейство мер индексов фиксации ^т(ке1), Рбт^&с)) от семейства мер аллельной дифференциации. Вторая координата выделила методы аллель-ной дифференциации на основе гетерозигот-ности фгоБТ, ОсЫАО, G"sT(HED) и F'sT(W&C)). При этом G"sт(HED)- и F'sт(w&с)-меры - модифицированные индексы фиксации (устранено влияние уровня внутривыборочной гетерози-готности). В общем, РСоА-процедура сформировала кластер индексов фиксации ^бтсшг), р8т^&с)}, кластер мер аллельной дифференциации фю8Т, DсHAO и G"sT(HED), F'sT(W&C)} и отдельно выделила информационную меру Р-разнообразия Шеннона ф'^Иаппоп)}.

О D'fShailllon} Gst(Nei) / Fst(W&C)

D(Chao)^ mqjäi WAC) D(Jost)

Меры дифференциации / Differentiation measures

Coord. 76.4%

Индексы фиксации / * Fixation indices

Рис. 4. 2D и 3D ординации семи мер популяционной дифференциации (mod. - модификация

Gst(nei) и Fst(w&c)) /

Fig. 4. 2D and 3D ordinations of seven measures of population differentiation (mod. - modification of

Gst(nei) and Fst(w&c))

Небольшие расстояния между мерами внутри кластеров указывали на их подобие; большие расстояния между кластерами (включая «ветку») свидетельствовали об их отличии. По аналогии с «генетическими», расстояния

между точками-мерами можно было бы назвать «методическими». Но, например, несмотря на большие различия в методиках расчёта Обтсшг) и Fsт(w&с), эти метрики образовали общий кластер. Поэтому в данном случае

для расстояний/дистанций, возможно, больше подходит определение «концептуальные». И этому имеется некоторое обоснование, именно: в основе мер Gst(nei) и Fst(w&c) - концепция фиксации аллелей, меры Djost, Dchao, G''st(hed) и F'st(w&c) базируются, в общем, на гетерозиготности, D'p-мера - на теории информации. Концептуальные различия метрик выразились в коэффициентах матрицы несходства и через PCoA-процедуру визуализировались в их ординации, которая, на наш взгляд, представляется вполне логичной.

3D-проекция (рис. 4, справа) дополнительно учла 4,4 % дисперсии (ось Z) матрицы несходства и сократила потерю информации до 100 - (93,5 + 4,4) = 2,1 %. Но, как и следовало ожидать, это существенно не отразилось на ординации исследуемых метрик.

Степенные меры разнообразия. Хиллом [13] в 1973 году была представлена единая концепция разнообразия с семейством степенных мер вида (Hill's numbers - «числа Хилла»):

q

D =

Xm=1Pm

1/(1-q)

= (q * )

1/(1-q)

^ называют «истинным разнообразием порядка q». Показатель степени «ч» в правой части тождества (=) есть «порядок» меры разнообразия. Степенные меры производят оценки эффективного числа элементов, в частности, аллелей и отличаются только своей возможностью учитывать или игнорировать редкие аллели. По мере увеличения порядка ч меры ЧБ становятся всё более чувствительными к частотам аллелей. Так, при Ч = 0 мера 0Б игнорирует распространённость (частоту) аллелей и выражает разнообразие через аллельное богатство. Значения q между нулём и единицей придают в ^ больший вес редким аллелям. Когда ч = 1, то мера уравновешивает вклады богатства и распространённости. Порядки выше 1 придают больший вес наиболее распространённым аллелям. При Ч = 2 мера 2Б подчёркивает выравненность аллелей больше, чем богатство, и равна эффективному числу аллелей по гетерозиготности.

Критическая точка, которая взвешивает все аллели по их частотам (не отдавая предпочтения ни доминирующим, ни редким аллелям), при q = 1. Щ при q =1 не определено, но его предел существует и равен экспоненте энтропии Шеннона - = ехр(БН)! Важно, мера ^ была получена Хиллом не из информационной теории, а выведена естественным путём из формализации числовых эквивалентов [27].

Мера - это «эффективное число аллелей по энтропии» (в табл. 1 как D или БПе).

наиболее подходящая мера у -разнообразия. :Бу также единственное «истинное» разнообразие, которое можно разложить на независимые а- и в-разнообразия.

Мера - противоположность мерам, основанным на гетерозиготности, которые имеют порядок Ч = 2 и придают непропорционально больший вес более распространённым аллелям. Поэтому, если интерес представляют только доминирующие аллели, то для оценки разнообразия следует использовать меру с q = 2; в противном случае меру с q = 1. В то же время имеется мнение [4, 35], что необходимо использовать несколько мер одновременно для оценивания различных аспектов разнообразия, к которым каждая мера наиболее чувствительна (рис. 1 в качестве примера). Считается полезным использовать числа Хилла порядка ч = 0, 1, 2, чтобы получить всестороннюю характеристику разнообразия популяции [36]. Например, если разнообразие порядка Ч = 0 намного больше, чем разнообразие порядка Ч = 1 и 2, то это указывает на то, что в популяции имеется несколько редких аллелей, и частоты аллелей очень неравномерны. Также, очень похожие показатели разнообразия порядка Ч = 1 и 2 указывают на то, что в популяции доминируют несколько аллелей.

Непрерывный профиль разнообразия, который отображают числа Хилла порядка Ч > 0, содержит всю информацию о распределении аллелей (степени доминирования/концентрации) в популяции. Популяция с равно-частотными аллелями будет иметь горизонтальный профиль разнообразия без какого-либо снижения. Популяция с высокой степенью концентрации аллелей будет иметь профиль разнообразия, резко снижающийся по мере увеличения q. Профили разнообразия - это наиболее полный и наглядный способ передачи информации о разнообразии систем (пород, видов, сортов). Их использование может способствовать принятию выверенных решений, например, по сохранению генофондных стад.

Заключение. Индекс Шеннона (БН = -Хрш 1п рт) - это показатель «количества информации или возможности выбора, или энтропии», но не разнообразия. Экспоненциальная функция конвертирует БН в интуитивно понятный показатель разнообразия, выражаемый эффективныт числом элементов (Б).

В частности, показатель по объединённым субпопуляциям, БНот, конвертируется в Бу-раз-нообразие - эффективное число аллелей по энтропии в популяции; средневзвешанный по субпопуляциям - БНщр, в Ба-разнообразие -эффективное число аллелей по энтропии в усреднённой субпопуляции; межсубпопуля-ционная компонента - БНлр, в Dр-разнообразие

- эффективное число субпопуляций. Компонентам информационной меры Шеннона свойственна аддитивность (БНот = бНшр + БНлр), меры разнообразия Шеннона - мультипликативность (Бу = Ба х Бр).

По семи породным выборкам абсолютное у-разнообразие Шеннона составило 5,45, а-разнообразие - 3,76 эффективных аллелей [по энтропии], Р-разнообразие - 1,45 эффективных выборок. Соответствующие масштабированные оценки (Б' с диапазоном [0,1]) были 0,821, 0,765 и 0,362 (36,2 %). Последняя

- сводная относительная оценка аллельной дифференциации породных выборок. Её дополнение, относительное перекрытие аллельных частот выборок, составило 63,8 %. Влияния уровня внутривыборочной гетерозиготности на полокусные БНлр-оценки не было установлено (в отличие от Gsт(NEI) и Fsт(w&с) мер), но имела место положительная тенденция Б'р-оценок.

Сводная по породным выборкам Б'р-оценка была в 3 раза выше оценок по Обтсшц и Fsт(w&с) мерам. Но последние не показатели аллельной дифференциации, а индексы фиксации. Они корректно указывали на то, что аллели в породных выборках очень далеки до полной гомозиготности. Индексы фиксации, скорректированные на уровень внутривыбо-рочной гетерозиготности ^"бтснеб) и F'sт(w&с)), производили оценки, которые были очень близки к D'р. Несколько ниже, чем D'р, но с 95 %-м доверительным интервалом 24^34 % были оценки по БJоsт и Бснло мерам.

Тест Мантеля показал высокую связь матрицы парных генетических дистанций ф'р) между породами с таковыми, полученными по GsT(NEI), Рбт^&с), G''sT(HED), F'sT(W&C), БJOST и Dснло мерам (Ям = 0,94^0,98). Как и в предыдущих исследованиях, на 2Б-проекции

пород, группа голштинских «экотипов» и отдельно джерсейская порода. Ординация породных выборок имела достаточно большое сходство с ординациями по другим шести мерам разнообразия.

PCoA матрицы попарных оценок несходства семи метрик популяционной структуры визуализировал их ординацию на двумерной плоскости. В частности, выделилась мера аллельной дифференциации Шеннона (D'p) и на значительном удалении от неё - семейство индексов фиксации (Gst(nei) и Fst(w&c)) и семейство мер аллельной дифференциации на базе гетерозиготности (G''st(hed) и F'st(w&c), Djost и Dchao). Чтобы решить какую меру разнообразия/дифференциации следует использовать, надо знать, во-первых, что собираемся измерять, во-вторых, к чему чувствительна та или иная мера. Так, если задача исследования заключается в изучении демографических изменений и эволюционных историй популяций, то используются индексы фиксации (Gst(nei) и Fst(w&c)). Если же ставится задача оценки актуальных генетических различий между (суб)популяциями, то лучше применять меры аллельной дифференциации (G''st(hed), F'st(w&c), Djost, Dchao, D'p). При этом если интерес представляют только доминирующие (высокочастотные) аллели, то следует воспользоваться мерами G''st(hed), F'st(w&c), Djost и Dchao. Если же стоит задача получения наиболее полной информации об имеющихся аллельных различиях (суб)попу-ляций, то лучшим является чувствительный шенноновский анализ (мера D'p). Он взвешивает количество энтропии в m-ой аллели (-log pm) пропорционально её распространённости (pm) и одновременно принимает во внимание несбалансированность (суб)популяций. Важно выбрать меру, которая будет отражать «эффект интереса», а затем интерпретировать фактические величины и их доверительные интервалы. Шенноновские информационно-энтропийные конструкции могут быть альтернативным подходом к количественной оценке биоразнообразия в иерархии от генов до экологических систем (включая различные виды генетической информации).

D'p-матрицы выделились группа «красных»

References

1. Хедрик Ф. Генетика популяций. М.: Техносфера, 2003. 592 с.

Hedrick P. W. Genetikapopulyatsii [Genetics of populations]. Moscow: «Technosfera», 2003. 592 p.

2. Nei M. Analysis of gene diversity in subdivided populations. Proc. Nat. Acad. Sci. USA. 1973;70(12):3321-3323. DOI: https://doi.org/10.1073/pnas.70.12.3321

3. Jost L. Partitioning diversity into independent alpha and beta components. Ecology. 2007;88(10):2427-2439. DOI: https://doi.org/10.1890/06-1736.1

4. Jost L., Archer F., Flanagan S., Gaggiotti O., Hoban S., Latch E. Differentiation measures for conservation genetics. Evol. Appl. 2018;11(7):1139-1148. DOI: https://doi.org/10.1111/eva.12590

5. Weir B. S., Cockerham C. C. Estimating F-statistics for the analysis of population structure. Evolution. 1984;38(6):1358-1370. DOI: https://doi.org/10.2307/2408641

6. Meirmans P. G., Hedrick P. W. Assessing population structure: FST and related measures. Mol. Ecol. Res. 2011;11(1):5-18. DOI: https://doi.org/10.1111/j.1755-0998.2010.02927.x

7. Jost L. GST and its relatives do not measure differentiation. Mol. Ecol. 2008;17(18):4015-4026. DOI: https://doi.org/10.1111/j.1365-294X.2008.03887.x

8. Кузнецов В. М. F-статистики Райта: оценка и интерпретация. Проблемы биологии продуктивных животных. 2014;(4):80-104. Режим доступа: https://www.elibrary.ru/item.asp?id=22833217

Kuznetsov V. M. F-statistiki Rayta: otsenka i interpretatsiya. [Wright's F-statistics: estimation and interpretation]. Problemy biologii produktivnykh zhivotnykh = Problems of Productive Animal Biology. 2014;(4):80-104. (In Russ.). URL: https://www.elibrary.ru/item.asp?id=22833217

9. Кузнецов В. М. Методы Нея для анализа генетических различий между популяциями. Проблемы биологии продуктивных животных. 2020;(1):91-110. DOI: https://doi.org/10.25687/1996-6733.prodammbiol.2020.1.91-110

Kuznetsov V. M. Metody Neya dlya analizageneticheskikh razlichiy mezhdupopulyatsiyami. [Nei's methods for analyzing genetic differences between populations]. Problemy biologii produktivnykh zhivotnykh = Problems of Productive Animal Biology. 2020;(1):91-110. (In Russ.). DOI: https://doi.org/10.25687/1996-6733.prodanimbiol.2020.1.91-110

10. Кузнецов В. М. Сравнение методов оценки генетической дифференциации популяций по микроса-теллитным маркерам. Аграрная наука Евро-Северо-Востока. 2020;21(2): 169-182.

DOI: https://doi.org/10.30766/2072-9081.2020.2L2.169-182

Kuznetsov V. M. Sravnenie metodov otsenki geneticheskoy differentsiatsii populyatsiy po mikrosatellitnym markeram. [Comparison of methods for evaluating genetic differentiation of populations by microsatellite markers]. Agrarnaya nauka Evro-Severo-Vostoka = Agricultural Science Euro-North-East. 2020;21(2):169-182. (In Russ.). DOI: https://doi.org/10.30766/2072-9081.2020.2L2.169-182

11. Кузнецов В. М. Оценка генетической дифференциации популяций молекулярным дисперсионным анализом (аналитический обзор). Аграрная наука Евро-Северо-Востока. 2021 ;22(2): 167-187.

DOI: https://doi.org/10.30766/2072-9081.2021.22.2.167-187

Kuznetsov V. M. Otsenka geneticheskoy differentsiatsii populyatsiy molekulyarnym dispersionnym analizom (analit-icheskiy obzor). [Assessment of genetic differentiation of populations by analysis of molecular variance (analytical review)]. Agrarnaya nauka Evro-Severo-Vostoka = Agricultural Science Euro-North-East. 2021;22(2):167-187. (In Russ.). DOI: https://doi.org/10.30766/2072-9081.2021.22.2.167-187

12. Lewontin R. C. The apportionment of human diversity. J. Evol. Biol. 1972;6:381-398. DOI: https://doi.org/10.1007/978-1-4684-9063-3 14

13. Hill M. O. Diversity and evenness: A unifying notation and its consequence. Ecology. 1973;54(2):427-432. DOI: https://doi.org/10.2307/1934352

14. Shannon C. E. A Mathematical Theory of Communication. Reprinted with corrections from. The Bell System Technical Journal. 1948;27(3):379-423, 623-656. URL: https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

15. Ashby W. R. An introduction to cybernetics. Chapman & Hall LTD, ondon, 1956. 295 p. URL: https://archive.org/details/introductiontocy00ashb/page/294/mode/2up

16. Corso G., Ferreira G. M. F., Lewinsohn T. M. Mutual Information as a General Measure of Structure in Interaction Networks. Entropy 2020;22(5): 528. DOI: https://doi.org/10.3390/e22050528

17. Sheldon A. L. Equitability indices: Dependence on the species count. Ecology. 1969;50(3): 466-467. DOI: https://doi.org/10.2307/1933900

18. Sherwin W. B. Entropy and Information Approaches to Genetic Diversity and its Expression: Genomic Geography. Entropy. 2010;12(7):1765-1798. DOI: https://doi.org/10.3390/e12071765

19. Харзинова В. Р., Гладырь Е. А., Федоров В. И., Романенко Т. М., Шимит Л. Д., Лайшев К. А., Калашникова Л. А., Зиновьева Н. А. Разработка мультиплексной панели микросателлитов для оценки достоверности происхождения и степени дифференциации популяций северного оленя Rangifer Tarandus. Сельскохозяйственная биология. 2015;50(6):756-765. DOI: https://doi.org/10.15389/agrobiology.2015.6.756rus

Kharzinova V. R., Gladyr' E. A., Fedorov V. I., Romanenko T. M., Shimit L. D., Layshev K. A., Kalashnikova L. A., Zinovieva N. A. Raz-rabotka mul'tipleksnoy paneli mikrosatellitov dlya otsenki dostovernosti proiskhozhdeniya i stepeni differentsiatsii populyatsiy severnogo olenya Rangifer Tarandus. [Development of multiplex microsatellite panel to assess the parentage verification in and differentiation degree of reindeer populations (Rangifer Tarandus)]. Sel'skokhozyaystvennaya biologiya = Agricultural Biology. 2015;50(6): 756-765. (In Russ.). DOI: https://doi.org/10.15389/agrobiology.2015.6.756rus

20. Денискова Т. Е., Гладырь Е. А., Зиновьева Н. А. Характеристика некоторых российских пород овец по микросателлитным маркерам. Актуальные проблемы гуманитарных и естественных наук. 2016;(9-1):24-29. Режим доступа: https://www.elibrary.ru/item.asp?id=26704429

Deniskova T. E., Gladyr' E. A., Zinovieva N. A. Kharakteristika nekotorykh rossiyskikh porod ovets po mikrosatel-litnym markeram. [Characteristics of some Russian sheep breeds by microsatellite markers]. Aktual'nyeproblemy gumani-tarnykh i estestvennykh nauk. 2016;(9-1): 24-29. (In Russ.). URL: https://www.elibrary.ru/item.asp?id=26704429

21. Rossetto M., Kooyman R., Sherwin W. B., Jones R. Dispersal limitations, rather than bottlenecks or habitat specificity, can restrict the distribution of rare and endemic rainforest trees. Amer. J Botany. 2008;95(3):321 -329. DOI: https://doi.org/10.3732/ajb.95.3.321

22. Peakall R., Smouse P. E. GENALEX 6: genetic analysis in Excel. Population genetic software for teaching and research. Molecular Ecology 2006;6(1):288-295. DOI: https://doi.org/10.1111/j.1471-8286.2005.01155.x

23. Peakall R., Smouse P. E. GenAlEx 6.5: Genetic analysis in Excel. Population genetic software for teaching and research - an update. Bioinformatics. 2012;28(19):2537-2539. DOI: https ://doi.org/10.1093/bioinformatics/bts460

24. Smouse P. E., whitehead M., Peakall R. An informational diversity framework, illustrated with sexually deceptive orchids in early stages of speciation. Mol. Ecol. Resour. 2015;15(6):1375-1384. DOI: https://doi.org/10.1111/1755-0998.12422

25. STATGRAPHICS® Centurion XVI User Manual. By StatPoint Technologies, Inc. 2010. 297 р.

26. Kimura M., Crow J. F. The number of alleles that can be maintained in a finite population. Genetics. 1964;49(4):725-738. DOI: https://doi.org/10.1093/genetics/49.4.725

27. Jost L. Entropy and diversity. Oikos. 2006;113(2):363-375. DOI: https://doi.org/10.1111/j.2006.0030-1299.14714.x

28. Sherwin W. B., Jabot F., Rush R., Rossetto M. Measurement of biological information with applications from genes to landscapes. Molec. Ecol. 2006;15(10):2857-2869. DOI: https://doi.org/10.1111/j.1365-294x.2006.02992.x

29. Chao A., Ma K. H., Hsieh T. C., Chiu C. H. Online Program SpadeR (Species-richnessPrediction And Diversity Estimationin R). Program and User's Guide. 2015. URL: http://chao.stat.nthu.edu.tw/wordpress/software download/

30. Ma L., Ji Y-J., Zhang D-X. Statistical measures of genetic differentiation of populations: Rationales, history and current states. Current Zoology. 2015;61(5):886-897. DOI: https://doi.org/10.1093/czoolo/61.5.886

31. Доцев А. В., Сермягин А. А., Шахин А. В., Паронян И. А., Племяшов К. В., Рейер Х., Виммерс К., Брем Г., Зиновьева Н. А. Оценка современного состояния генофонда холмогорской и чернопестрой пород крупного рогатого скота на основе полногеномного SNP-анализа. Вавиловский журнал генетики и селекции. 2018;22(6):742-747. DOI: https://doi.org/10.18699/VJ18.418

Dotsev A. V., Sermyagin A. A., Shakhin A. V., Paronyan I. A., Plemyashov K. V., Reyer H., Wimmers K., Brem G., Zinovieva N. A. Otsenka sovremennogo sostoyaniya genofonda kholmogorskoy i cherno-pestroy porod krupnogo rogatogo skota na osnove polnogenomnogo SNP-analiza. [Evaluation of current gene pool of Kholmogor and Black-and-white cattle breeds based on whole genome SNP analysis]. Vavilovskiy zhurnal genetiki i selektsii = Vavilov Journal of Genetics and Breeding. 2018;22(6): 742-747. (In Russ.). DOI: https://doi.org/10.18699/VJ18.418

32. Волкова В. В., Романенкова О. С., Денискова Т. Е., Мишина А. И., Костюнина О. В., Зиновьева Н. А. Характеристика аллелофонда холмогорской породы крупного рогатого скота с использованием STR-маркеров. Молочное и мясное скотоводство. 2019;(7): 3-7. Режим доступа: https://elibrary.ru/item.asp?id=41852279

Volkova V. V., Romanenkova O. S., Deniskova T. E., Mishina A. I., Kostyunina O. V., Zinovieva N. A. Kharakteristika allelofonda kholmogorskoy porody krupnogo rogatogo skota s ispol'zovaniem STR-markerov. [Assessment of the allele pool of the kholmogory cattle breed with using STR-markers]. Molochnoe i myasnoe skotovodstvo = Journal of Dairy and Beef Cattle Farming. 2019;(7):3-7. (In Russ.). URL: https://elibrary.ru/item.asp?id=41852

33. Abdelmanova A. S., Kharzinova V. R., Volkova V. V., Mishina A. I., Dotsev A. V., Sermyagin A. A., Boro-netskaya O. I., Petrikeeva L. V., Chinarov R. Yu., Brem G., Zinovieva N. A. Genetic diversity of the historical and modern populations of Russian cattle breeds revealed by microsatellite analysis. Genes. 2020;11(8):940.

DOI: https://doi.org/10.3390/genes11080940

34. Трипольский К. С. Курсъ скотоводства. Руководство къ разведешю рогатаго скота, овецъ, лошадей и свиней. Часть 2. Частное скотоводство. С.-Петербургъ: Издаше А. Ф. Девр!ена, 1875. 429 с.

Tripol'skiy K. S. Kurs skotovodstva. Rukovodstvo k razvedeniyu rogatago skota, ovets, loshadey i sviney. [Cattle breeding course. A guide to breeding cattle, sheep, horses and pigs]. Part. 2. Chastnoe skotovodstvo. [Private cattle breeding]. S.-Petersburg: Izdanie A. F. Devriena, 1875. 429 p.

35. Ricotta C. On parametric evenness measures. J. of Theoret. Biol. 2003;222(2):189-197. DOI: https://doi.org/10.1016/S0022-5193(03)00026-2

36. Gaggiotti O. E., Chao A., Peres-Neto P., Chiu C-H., Edwards C., Fortin M-J., Jost L., Richards C. M., Selkoe K. A. Diversity from genes to ecosystems: A unifying framework to study variation across biological metrics and scales. Evol Appl. 2018;11(7):1176-1193. DOI: https://doi.org/10.1111/eva.12593

Сведения об авторе

И Кузнецов Василий Михайлович, доктор с.-х. наук, профессор, зав. лабораторией популяционной генетики в животноводстве, ФГБНУ «Федеральный аграрный научный центр Северо-Востока имени Н. В. Рудницкого», ул. Ленина, д. 166а, г. Киров, Российская Федерация, 610007, e-mail: priemnaya@fanc-sv.ru, ORCID: https://orcid.org/0000-0002-2219-805X, e-mail: vm-kuznetsov@mail.ru

Information about the author

И Vasiliy M. Kuznetsov, DSc in Agricultural Science, professor, Head of the Laboratory of Population Genetics in Animal Husbandry, Federal Agricultural Research Center of the North-East named N. V. Rudnitsky, Lenin str., 166a, Kirov, Russian Federation, 610007, e-mail: priemnaya@fanc-sv.ru, ORCID: https://orcid.org/0000-0002-2219-805X, e-mail: vm-kuznetsov@mail.ru

- Для контактов / Corresponding author

i Надоели баннеры? Вы всегда можете отключить рекламу.