Научная статья на тему 'Сравнительная оценка генетических различий голштинских коров в стадах методом главных компонент и индексом фиксации С. Райта'

Сравнительная оценка генетических различий голштинских коров в стадах методом главных компонент и индексом фиксации С. Райта Текст научной статьи по специальности «Биологические науки»

CC BY
110
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
индекс фиксации / главные компоненты / SNP / молочный скот / стадо / fixation index / principal components / SNP / dairy cattle / herd

Аннотация научной статьи по биологическим наукам, автор научной работы — М. Г. Смарагдов

За последнее десятилетие в мировой практике изучения генетических различий между популяциями и породами животных широко используют метод индекса фиксации С. Райта (Fst) и метод главных компонент (РСА). Однако в настоящее время не изучена статистическая мощность обоих методов, и поэтому неизвестно, какой из этих методов является приоритетным. Для решения этой задачи были отобраны 372 голштинизированные черно-пестрые коровы из 6 племенных заводов Ленинградской области. Они были генотипированы чипом BovineSNP50. В результате коррекции SNP маркеров из 54000 SNP осталось 48101. Вычисление значений Fst осуществили программой Eigensoft 6.0. В результате были получены значения Fst для 30 комбинаций из 6 стад в интервале от 0.002 до 0.012. Наибольшие значения Fst получены для стада 4 и наименьшие для стада 3. Различия между стадами обусловлены закреплением быков-производителей из разных стран. При использовании метода РСА было показано, что получение достоверных результатов невозможно, если использовать данные для отдельных собственных векторов (РС). Только при суммировании данных от нескольких РС можно адекватно оценить генетические различия между коровами в стадах. Оптимальным решением задачи является использование всех РС, обеспечивающих полную изменчивость (вариансу) генетических различий сравниваемых коров в стадах. Сравнение достоверности и статистической мощности обоих методов показало, что метод Fst дает более достоверные результаты по сравнению с методом РСА. Таким образом, именно он должен быть использован в начале исследований по выявлению генетических различий между стадами, популяциями и породами сельскохозяйственных животных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по биологическим наукам , автор научной работы — М. Г. Смарагдов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARATIVE EVALUATION OF THE GENETIC DIFFERENCES OF HOLSTEIN COWS IN HERDS BY THE METHOD OF PRINCIPAL COMPONENTS AND C. WRIGHT'S FIXATION INDEX

Over the past decade, in the world practice of studying genetic differences between animal populations and breeds, S. Wright's fixation index method (Fst) and principal component analysis (PCA) are widely used. However, at present, the statistical power of both methods has not been studied, and therefore it is not known which of these methods has a priority. To solve this problem, 372 Holsteinezied Black and White cows from 6 breeding plants of the Leningrad Region were selected. They were genotyped with a BovineSNP50 chip. As a result of the correction of SNP markers, 48101 remained out of 54000 SNPs. The calculation of the Fst values was carried out by EIGENSOFT 6.0.1 As a result, Fst values were obtained for 30 combinations of 6 herds in the range from 0.002 to 0.012. The highest Fst values were obtained for herd 4 and the smallest for herd 3. The differences between the herds are due to using of bulls from different countries. When using the PCA method, it was shown that obtaining reliable results is impossible if using data for particular eigenvectors (PC). Only by summing up data from several PCs, it is possible to adequately assess the genetic differences between cows in herds. The optimal solution to the problem is the use of all PCs providing complete variability (variance) of the genetic differences of the compared cows in the herds. Comparison of the significance and statistical power of both methods showed that the Fst method gives more significant results compared to the PCA method. Thus, it should be used at the beginning of research to identify genetic differences between herds, populations and breeds of farm animals.

Текст научной работы на тему «Сравнительная оценка генетических различий голштинских коров в стадах методом главных компонент и индексом фиксации С. Райта»

УДК 575.174.015 DOI 10.24411/2078-1318-2019-14060

Канд. биол. наук М.Г. СМАРАГДОВ

(ВНИИГРЖ, mik7252@yandex.ru)

СРАВНИТЕЛЬНАЯ ОЦЕНКА ГЕНЕТИЧЕСКИХ РАЗЛИЧИЙ ГОЛШТИНСКИХ

КОРОВ В СТАДАХ МЕТОДОМ ГЛАВНЫХ КОМПОНЕНТ И ИНДЕКСОМ

ФИКСАЦИИ С. РАЙТА

Значительная генетическая изменчивость является основой для выживания и сохранения популяций животных [1]. Генетическая вариация проявляется благодаря аллельной изменчивости и гетерозиготности по всему геному. Для селекции необходимо знать степень генетической вариации в стадах крупного рогатого скота и в популяции в целом. Молекулярные генетические данные способствуют отслеживанию генетического разнообразия в популяциях крупного рогатого скота и используются в геномной селекции [2]. Следует отметить, что знание генетического разнообразия также важно при консервации малочисленных пород животных и межпородном скрещивании [3, 4]. Для этой цели современные технологии позволяют использовать полиморфизм однонуклеотидных замен (SNP) [5].

В настоящее время существует несколько методов для определения генетического разнообразия в популяциях. К ним относится метод главных компонент (РСА) [6] и индекс фиксации С. Райта (Fst) [7]. В методе РСА рассчитывают собственные векторы, исходя из ковариационной матрицы генотипов животных. Они создают линейную комбинацию генотипов, которая эффективно дифференцирует выборки животных и при этом не требуется априорная информация. В сороковые годы ХХ века С. Райт предложил индекс фиксации Fst для измерения генетических различий между популяциями [7]. Этот метод оказался плодотворным для популяционной генетики. В нашем исследовании была использована статистика Хадсона [8]. Она не чувствительна к численности популяций, не переоценивает Fst и точна и стабильна при неслучайной выборке.

Цель исследования - провести сравнительный анализ генетических различий коров в стадах голштинизированного черно-пестрого скота Ленинградской области, измеренных Fst и РСА методами, и оценить мощность обоих методов.

Материалы, методы и объекты исследования. В исследовании генотипированы 372 коровы из 6 племенных заводов голштинизированного черно-пестрого скота Ленинградской области. В выборку входило 45 - 85 коров, что составило 8 - 15% от численности коров в стаде. Генотипирование коров осуществили чипом BovineSNP50 v.2.0 (Illumina Inc.) в Ирландии (Co. Kildare. Ireland). Контроль качества генотипированных коров был выполнен программным пакетом PLINK 1.9 [8]. При этом учитывали только аутосомы. В исходной выборке были удалены SNPs, отсутствующие в геноме коров не более 5% и с отклонением от распределения Харди-Вайнберга при P < 1.0E-03. В результате контроля качества количество SNPs составило 48101.

Вычисление Fst было выполнено программой EIGENSOFT 6.0.1 [9], в которой использована статистика Хадсона [7]. Стандартные ошибки значений Fst вычислены методом block-jackknife в программе EIGENSOFT 6.0.1. Для оценки достоверности значений Fst была проведена случайная перестановка генотипов коров в каждой из 30 пар стад и вычислены значения Fst, которые следует рассматривать как Н0 распределение, то есть распределение, удовлетворяющее Н0 гипотезе. Была использована команда -make-pheno и -fitler-mfiter 5 в PLINK для получения пяти случайных перестановок генотипов коров в каждой из 6 пар стад. Далее для каждой пары стад вычисляли 5 значений Fst и среднее значение Fst. Средние знчения рассматривались как удовлетворяющие Н0 распределению. Достоверность значений Fst рассчитывали с помощью одностороннего t - критерия Стьюдента. Мощность t - критерия вычисляли программой powerAnalysis в R программном обеспечении [10].

При анализе данных методом РСА использовали программу EIGENSOFT 6.0.1. Методом ANOVA были вычислены P-значения для 30 комбинаций из 6 пар стад и каждого собственного вектора (РС). Распределение P-значений ANOVA соответствовало х2 со степенью свободы число собственных векторов минус 1. Исходя из х2 распределения, были рассчитаны Р-значения для суммированных РС 1-10, РС 1- 20 и 100 собственных векторов. Для РС 1, РС 3 были рассчитаны средние значения стад вдоль каждого собственного вектора, и они представлены на рисунке при помощи R программного обеспечения [9]. Мощность РСА анализа для суммированных РС 1-100 вычисляли программой powerAnalysis в R программном обеспечении [10].

Результаты исследований. Данные Fst анализа представлены в табл. 1. Значения Fst для стада 4, как правило, имели наибольшие величины по сравнению со значениями Fst для других стад. Генетическое отличие коров из четвертого стада обусловлено использованием быков - производителей из Голландии, тогда как в других стадах быки - производители были преимущественно из США и Канады. Для стада 3 наблюдается тенденция меньших по сравнению с другими стадами (кроме пары стадо 3 и 4) значений Fst, что свидетельствует о генетической близости коров из этого стада с коровами из других стад. Важно отметить, что генетические различия между породами крупного рогатого скота, идентифицируемые индексом фиксации, как правило, более 0.01 [11]. Имея Н0 распределение Fst и экспериментально полученные значения Fst (табл. 1), можно с помощью t - критерия Стьюдента вычислить достоверность оценочных значений Fst. Результаты приведены в табл. 2. Суммируя результаты вычисления достоверности Fst данных, можно утверждать о высоком ее уровне.

Таблица 1. Оценка значений Fst для 6 стад коров

Стадо 1 2 3 4 5 6

1 0.005 0.005 0.006 0.006 0.004

2 0.0002 0.004 0.012 0.006 0.006

3 0.0003 0.0001 0.009 0.003 0.004

4 0.0004 0.0000 0.0001 0.009 0.004

5 0.0004 0.0002 0.0002 0.0001 0.005

6 0.0002 0.0002 0.0001 0.0001 0.0003

Fst данные расположены над диагональю. Fst данные для Но распределения расположены под диагональю

Таблица 2. Оценки достоверности генетических различий между стадами коров

(Р - значения)

Стадо_ Стадо PC 1 PC 3 Суммированы 10 собственных векторов Суммированы 20 собственных векторов Суммированы 100 собственных векторов Р-значения для Fst

1 2 0.0031 1.6E-05 4.2e-07 1.5e-11 3.0e-15 4.1e-49

1 3 0.0444 0.0017 0.0002 1.3e-09 9.8e-18 3.3e-47

1 4 0.0029 0.0598 5.6e-05 4.6e-07 2.8e-10 3.54e-32

1 5 0.8517 0.0007 0.0289 6.6e-11 7.2e-17 3.4e-40

1 6 0.6751 0.6948 0.0504 7.81e-05 1.0e-13 8.6e-25

2 3 0.1539 0.0798 3.34e-06 6.7e-06 2.0e-14 3.5e-29

2 4 1.0e-09 1.8e-08 6.52e-17 9.9e-21 3.3e-24 1.2e-54

2 5 0.0033 0.7395 0.0001 1.6e-06 3.3e-18 5.2e-59

2 6 0.0007 6.1E-06 8.58e-7 8.2e-10 2.2e-16 4.0e-58

3 4 1.0e-08 2.4e-06 6.19e-13 1.80e-16 1.5e-21 1.7e-51

3 5 0.0486 0.2529 0.0063 0.0019 2.9e-13 2.6e-26

3 6 0.0109 0.0006 0.0004 6.4e-06 5.0e-12 3.6e-40

4 5 0.0006 5.0e-06 2.48e-07 2.8e-11 8.2e-17 1.7e-51

4 6 0.0099 0.1422 0.0949 0.1570 2.8e-12 4.6e-23

5 6 0.5239 0.0003 0.0013 1.1e-05 5.1e-15 4.3e-29

Таблица 3. Генетическое сходство стад коров, выявленное РС 1 and РС 3

Стадо 1 2 3 4 5 6

1 + +

2 +

3 + +

4 +

5 + + +

6 + +

Таблица 4. Генетическое сходство стад коров, выявленное суммированием данных РС 1 - 10 аис! РС 1 - 20

Стадо 1 2 3 4 5 6

1 +

2

3

4 +

5

6 + +

+ - обозначает недостоверное различие между парами стад коров при Р > 0.05. Данные для РС 1 над диагональю и для РС 3 под диагональю

+ - обозначает над диагональю недостоверное различие между парами стад коров при Р > 0.05 для суммы данных РС 1-10, под диагональю между парами стад при Р > 1.0е-05 для суммы данных РС 1-20

РСА

0.05 0.04 0.03 0.02 0.01

0.00

0.01

Principal CofT(wncnt 1

Рис. Расположение средних значений для стад коров, выявленных PC 1 and PC 3

РСА анализ

Собственные значения для 100 векторов, вычисленные из ковариационной матрицы SNPs аллелей у 372 коров, монотонно уменьшались от 9.5 до нуля. Это свидетельствует о том, что структура ковариационной матрицы однородна без экстремальных ковариационных блоков аллелей.

Для статистического описания генетических различий между стадами были использованы Р-значения для каждой пары стад, полученные при вычислении средних значений для стад, вдоль РС 1 и РС 3. Взаимное расположение средних значений стад вдоль РС 1 и РС 3 представлено на рисунке. Для оценки достоверности генетических различий между 6 стадами РСА методом в табл. 3 представлены данные, полученные из табл. 2, для РС 1 при Р > 0.05. В ней недостоверные генетические различия для пар стад обозначены знаком (+). Среди 30 пар стад генетические различия для 5 пар стад были недостоверны: 1 и 5, 6; 2 и 3; 3 и 6; 5 и 6.

Такая же процедура была выполнена для РСА 3 (табл. 4). Среди всех 30 пар стад 6 сочетаний пар стад были недостоверны: 1 и 4, 6; 2 и 3, 5; 3 и 5; 4 и 6. Из данных в табл. 3 следует, что генетические различия между стадами, выявленные РС 1 и РС 3, различны. Так, для РС 3 пары 1 и 4; 2 и 5; 4 и 6 были недостоверны, тогда как для РС 1 они были достоверны. С другой стороны, пары 3 и 6; 5 и 6 были достоверны для РС 3, но недостоверны для РС 1. Таким образом, было бы некорректно делать выводы о генетических различиях между стадами, основываясь на отдельных собственных векторах.

Также был оценен уровень достоверности PCA метода при суммировании данных 10-ти собственных векторов. ^ответствующие P-значения приведены в табл. 2 и недостоверные сочетания пар стад, обозначенные (+) при P > 0.0S, приведены в табл. 4. Всего только две пары стад были недостоверными: 1 и б; 4 и б. Таким образом, использование десяти собственных векторов приводит к более достоверным данным. Для проверки изменения уровня достоверности при суммировании собственных векторов были вычислены P - значения при суммировании данных двадцати собственных векторов (табл. 4). Оказалось, что для отсекающего уровня достоверности P > 0.0S недостоверных пар стад не было. Для уровня достоверности P > 1.0е^ только пары стад 1 и б; S и б были недостоверны.

Подводя итог, следует заключить, что суммирование данных собственных векторов приводит к увеличению уровня достоверности генетических различий между стадами. Для включения всей вариансы PCA анализа необходимо вычислить P-значения при суммировании данных от 100 собственных векторов (табл. 2). Оказалось, что только пара стад 4 и б имели наименьший уровень достоверности P = 2.8e-12. Эта пара стад также имела наименьший уровень достоверности P = 4.6e-23 из Fst данных (табл. 2).

В табл. 2 приведены данные P- значений для всего парного набора стад, вычисленные PCA и Fst методами. В соответствии с этими данными для суммированных 100 собственных векторов P- значения были меньше, чем для PC 1, PC 3 и суммированных десяти и двадцати собственных векторов. Этот результат был следствием использования всей вариансы в случае 100 собственных векторов. Cравнение P - значений вычисленных PCA и Fst методами свидетельствует о том, что P - значения для Fst метода на много порядков меньше, чем P -значения для PCA метода. Мощность PCA анализа для всех 30 пар стад была 0.8 - 1.0, и для Fst анализа 0.9 - 1.0. Учитывая на несколько порядков меньшие P - значения для Fst метода по сравнению с PCA, можно утверждать, что Fst метод дает более достоверные результаты при той же мощности статистического анализа, как у PCA.

Выводы. Несмотря на генетическое сходство коров в стадах, Fst и PCA методы способны выявлять междустадные генетические различия. Но PCA метод, примененный к стадам коров, может быть эффективным только в том случае, если были использованы данные от нескольких собственных векторов. Полученные данные свидетельствуют о том, что индекс фиксации является более статистически мощным методом, чем PCA. Однако PCA метод может быть полезным благодаря визуализации различий коров в стадах в системе PC координат. Таким образом, именно метод индекса фиксации должен быть использован в начале исследований по выявлению генетических различий между стадами, популяциями и породами сельскохозяйственных животных.

Исследования выполнены в рамках Государственного задания Министерства науки и высшего образования России, тема № АААА-А18-118021590138-1.

Литература

1. Olson-Manning C.F., Wagner M.R., Mitchell-Olds T. Adaptive evolution: evaluating empirical support for theoretical predictions // Nature Review Genetics. - 2012. - V. 13. - P. 8б7-877.

2. Смарагдов М.Г. Геномная селекция молочного скота. Пять лет практического использования // Генетика. - 2013. - Т. 49. - № 11. - C. 12S1-1260.

3. de Cara M.A, Villanueva B, Toro M.A, Fernandez J. Using genomic tools to maintain diversity and fitness in conservation programmes // Molecular Ecology. - 2013. - V. 22. - P. 6091-6099.

4. Engelsma K.A, Veerkamp R.F, Calus M.P, Windig J.J. Consequences for diversity when animals are prioritized for conservation of the whole genome or of one specific allele // J. Anim. Breed. Genet. 2014. - V. 131(1). - P. 61-70.

5. Schaid D.J., Chen W., Larson N.B. From genome-wide associatioins to candidate causal variants by statistical fine - mapping // Nature Review Genetics. - 2018. - V. 19. - P. 491-S04.

6. Patterson N, Price A.L, Reich D. Population structure and eigenanalysis // PLoS Genetics. -

2006. - 2. e190.

7. Wright S. The genetical structure of populations//Annals of Eugenics. - 1949. - V. 15. - P. 323-354.

8. Hudson R.R., Slatkin M., Maddison W.P. Estimation of level of gene flow from DNA sequence data // Genetics. - 1992. - V. 132. - P. 583-589.

9. Pursell S, Neale B, Todd-Brown K, Thomas L, Ferreira M.A, Bender D, et al. PLINK: a tool set for whole genome association and population based linkage analyses // Am. J. Hum. Genet.

2007. - V. 81. - P. 559-575.

10.R Development Core Team R: a language and enviroment for statistical computing. R foundation for statistical computing. Viena. http://www.R-project.org

11.Smaragdov M G., Kudinov A. A., Uimari P. Assessing the genetic differentiation of Holstein cattle herds in the Leningrad region using Fst statistics // Agricultural and Food Science. - 2018. -V. 27. - P. 96-101.

Literatura

1. Olson-Manning C.F., Wagner M.R., Mitchell-Olds T. Adaptive evolution: evaluating empirical support for theoretical predictions // Nature Review Genetics. - 2012. - V. 13. - P. 867-877.

2. Smaragdov M.G. Genomnya selektia molochnogo skota. Pyat let prakticheskogo ispolzovanya // Genetika. - 2013. - T. 29. - № 11. - S. 1251-1260.

3. de Cara M.A, Villanueva B, Toro M.A, Fernandez J. Using genomic tools to maintain diversity and fitness in conservation programmes // Molecular Ecology. - 2013. - V. 22. - P. 6091-6099.

4. Engelsma K.A, Veerkamp R.F, Calus M.P, Windig J.J. Consequences for diversity when animals are prioritized for conservation of the whole genome or of one specific allele // J. Anim. Breed. Genet. 2014. - V. 131(1). - P. 61-70.

5. Schaid D.J., Chen W., Larson N. B. From genome-wide associatioins to candidate causal variants by statistical fine - mapping // Nature Review Genetics. - 2018. - V. 19. - P. 491-504.

6. Patterson N, Price A.L, Reich D. Population structure and eigenanalysis // PLoS Genetics. -

2006. - 2. e190.

7. Wright S. The genetical structure of populations // Annals of Eugenics. - 1949. - V. 15. - P.323-354.

8. Hudson R.R., Slatkin M., Maddison W.P. Estimation of level of gene flow from DNA sequence data // Genetics. - 1992. - V. 132. - P. 583-589.

9. Pursell S, Neale B, Todd-Brown K, Thomas L, Ferreira M.A, Bender D, et al. PLINK: a tool set for whole genome association and population based linkage analyses // Am. J. Hum. Genet.

2007. - V. 81. - P. 559-575.

10.R Development Core Team R: a language and enviroment for statistical computing. R foundation for statistical computing. Viena. http://www.R-project.org

11.Smaragdov M.G., Kudinov A. A., Uimari P. Assessing the genetic differentiation of Holstein cattle herds in the Leningrad region using Fst statistics // Agricultural and Food Science. - 2018. -V. 27. - P. 96-101.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.