Научная статья на тему 'СРАВНЕНИЕ МЕТОДОВ ФАЗИРОВАНИЯ ГЕНОТИПОВ ДЛЯ ДАННЫХ ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ КЛИНИЧЕСКИХ ЭКЗОМОВ'

СРАВНЕНИЕ МЕТОДОВ ФАЗИРОВАНИЯ ГЕНОТИПОВ ДЛЯ ДАННЫХ ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ КЛИНИЧЕСКИХ ЭКЗОМОВ Текст научной статьи по специальности «Медицинские технологии»

CC BY
86
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФАЗИРОВАНИЕ ГЕНОТИПОВ / БИОИНФОРМАТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ

Аннотация научной статьи по медицинским технологиям, автор научной работы — Левданский О.Д., Шулинский Р.С., Мишук Е.А., Сивицкая Л.Н.

Целью работы являлся поиск алгоритма фазирования экзомных NGS-данных, оптимального для анализа цис-/транс- положения близкорасположенных полиморфных локусов пациентов с наследственными заболеваниями. Были собраны данные высоко-производительного секвенирования последовательностей клинического экзома 149 пациентов, проведена их первичная обработка. Создана комбинированная референсная выборка «Belref1000G» для фазирования и импутирования путем дополнения выборки проекта «1 000 геномов» 131-им образцом белорусских пациентов. Определены наиболее эффективные методы фазирования: наибольшую точность фазирования данных клинических экзомов жителей Беларуси позволяет достичь онлайн-сервис Michigan Imputation Server. В случае, когда онлайн формат фазирования по каким-либо причинам не подходит, рекомендуется использовать программу Beagle с комбинированной референсной панелью «Belref1000G». Для получения наиболее протяженных блоков фазирования стоит применять программу Beagle с референсной панелью «1000G».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским технологиям , автор научной работы — Левданский О.Д., Шулинский Р.С., Мишук Е.А., Сивицкая Л.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF GENOTYPE PHASING METODS FOR THE HIGH THROUGHPUT SEQUENCING DATA OF CLINICAL EXOMES

The aim of this investigation was to search for an algorithm for phasing of exome NGS data that would be optimal for analyzing the cis-/transposition of closely located polymorphic loci in patients with hereditary diseases. The NGS data on clinical exome sequences from 149 patients was collected and analyzed, and its primary processing was carried out. A combined reference panel for phasing and genotype imputation “Belref1000G” was created by adding 131 samples of Belarusian patients to the panel from the “1000 Genomes” project. The most effective methods of phasing have been determined: the Michigan Imputation Server (online service) allows achieving the highest accuracy of phasing data from clinical exomes in Belarus. In cases where an online format of phasing is not appropriate for whatever reason, Beagle software with the combined reference panel “Belref1000G” is recommended for use. Beagle software with the “1000G” reference panel should be used to obtain the longest phasing blocks.

Текст научной работы на тему «СРАВНЕНИЕ МЕТОДОВ ФАЗИРОВАНИЯ ГЕНОТИПОВ ДЛЯ ДАННЫХ ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ КЛИНИЧЕСКИХ ЭКЗОМОВ»

DOI https://doi.org/10.47612/1999-9127-2021-31-114-123 УДК 575.113.2:51-75

О. Д. Левданский, Р. С. Шулинский, Е. А. Мишук, Л. Н. Сивицкая

СРАВНЕНИЕ МЕТОДОВ ФАЗИРОВАНИЯ ГЕНОТИПОВ ДЛЯ ДАННЫХ ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ КЛИНИЧЕСКИХ ЭКЗОМОВ

Государственное научное учреждение «Институт генетики и цитологии Национальной академии наук Беларуси» РБ, 220072, Минск, ул. Академическая, 27 e-mail: o.liaudanski@igc.by

Целью работы являлся поиск алгоритма фазирования экзомных NGS-данных, оптимального для анализа цис-/транс- положения близкорасположенных полиморфных локусов пациентов с наследственными заболеваниями. Были собраны данные высоко-производительного секвенирования последовательностей клинического экзома 149 пациентов, проведена их первичная обработка. Создана комбинированная референсная выборка «Belref1000G» для фазирования и импутирования путем дополнения выборки проекта «1 000 геномов» 131-им образцом белорусских пациентов. Определены наиболее эффективные методы фазирования: наибольшую точность фазирования данных клинических экзомов жителей Беларуси позволяет достичь онлайн-сервис Michigan Imputation Server. В случае, когда онлайн формат фазирования по каким-либо причинам не подходит, рекомендуется использовать программу Beagle с комбинированной референсной панелью «Belref1000G». Для получения наиболее протяженных блоков фазирования стоит применять программу Beagle с референсной панелью «1000G».

Ключевые слова: фазирование генотипов, биоинформатический анализ данных высокопроизводительного секвенирования.

Введение

В последнее время все более активно развиваются так называемые «омиксные» технологии. Использование современных подходов в геномике, протеомике, транскриптоми-ке и метаболомике позволяет генерировать огромные массивы данных, обработка которых без использования актуальных информационных технологий не представляется возможной. Доступный арсенал биоинформатических инструментов позволяет не только анализировать такие массивы экспериментальных данных за относительно короткое время, но и делает возможным их дополнение, например, с помощью импутирования. Таким образом, биоинформа-тические программы постепенно превращаются из инструмента для обработки результатов экспериментов в самостоятельные подходы к поиску новых знаний.

Данные, получаемые в результате высокопроизводительного секвенирования (NGS) на приборах компании Illumina (MiSeq, NextSeq др.), представляют собой огромное количе-

ство коротких перекрывающихся прочтений выбранных исследователем участков ДНК. Результатом обработки этих данных является vcf-файл, представляющий собой таблицу, включающую информацию о нуклеотидных заменах (SNP) и indel-полиморфных локусах (indels) в определенных позициях в геноме. Полученные в результате секвенирования короткие прочтения зачастую затруднительно собрать в отдельные группы сцепления. Поэтому были разработаны методики статистического фазирования vcf-файлов, которые основываются на сравнении представленности комбинаций аллелей, определяемой для каждой пары нуклеотидных позиций образца через соотношение гетеро- и гомозиготных генотипов в этих позициях в определенной выборке, называемой референсной. Результат фазирования в значительной степени зависит от качественного (как сильно популяция, из которой был взят фазируемый образец, отличается от «популяции» выборки) и количественного состава референсной выборки.

Исходя из вышесказанного, актуальность разработки оптимального алгоритма фазирования экзомных данных не вызывает сомнения. Информацию о цис-/транс- положении нуклеотидных вариантов сложно переоценить — популяционные и эволюционные исследования базируются на знании гаплотипов образцов; при наличии вероятно патогенных мутаций в гене, связанном с рецессивным заболеванием, проводится анализ положения вариантов на хромосомах посредством семейного анализа. Фазирование данных позволит в некоторых случаях избегать необходимости проведения дополнительных процедур, таких как анализ наследования прямым секвениро-ванием родителей пациента. Кроме того, фазирование в качестве дополнительного источника информации поможет принимать более взвешенное решение о патогенности/взаимном влиянии вариантов на функции гена/РНК/белка, и, в конечном итоге, на фенотип.

Таким образом, целью данного исследования являлся поиск алгоритма фазирования экзом-ных NGS-данных, оптимального для анализа цис-/транс- положения близкорасположенных полиморфных локусов пациентов с наследственными заболеваниями.

Материалы и методы

В качестве объекта исследования были использованы данные NGS последовательностей клинических экзомов 95 жителей Беларуси, полученные с использованием панели TruSight One на приборе NextSeq 550 Sequencing System (Illumina Inc., SanDiego, CA, USA), а также образцы ДНК 18 триад образцов пробанд-роди-тели. Для оценки эффективности фазирования разными методами было проведено NGS 18 триад образцов пробанд-родители на приборе NextSeq 550 Sequencing System (Illumina Inc., SanDiego, CA, USA) с использованием набора NextSeq 500/550 High Output Kit v2.5 (300 циклов). Пробоподготовка осуществлялась с использованием реагентов Nextera DNA Flex Pre-Enrichment Library Prep and Enrichment Reagents, Nextera DNA Flex Pre-Enrichment Library Prep Reagents, TruSight One Expanded — Enrichment Oligos и IDT® for Illumina® Nextera™ DNA UD Indexes Set A согласно протоколу производителя.

Оценка качества прочтений проводилась

в FastQC [1]. Тримминг некачественных оснований в Trimmomatic [2]. Локальное картирование прочтений на референсный геном GRCh37 выполнялось в программе BWA [3]. Форматирование и сортировка бинарной карты выравнивания прочтений (BAM) выполнялись в программе Samtools [3]. Добавление имен образцов, библиотек и платформ проводилось с помощью программы AddOrReplaceReadGroups пакета GATK [4]. Далее соединялись файлы выравнивания пробанда, матери и отца в один bam файл, сортировались в samtools и проводился вызов SNP в программе HaplotypeCaller пакета GATK [4]. SNP в полученных vcf-файлах фильтровались по показателю качества и покрытия в bcftools [3].

Фазирование генотипов проводилось в двух программах: SHAPEIT [5, 6] и Beagle [7]. Все описанные ниже шаги будут одинаковы для этих программ. В качестве «референсного» фазирования пробанда использовался вариант, при котором доступно наибольшее количество информации, а именно фазирование с использованием информации о родителях пробанда и «1000G» панели. В качестве «исследуемых» фазирований пробанда мы использовали 4 варианта: фазирование на онлайн-ресурсе Michigan Imputation Server [8] с использованием «1000G» панели, фазирование на он-лайн-ресурсе Michigan Imputation Server с использованием «HRC» панели, фазирование с использованием «1000G» панели и фазирование с использованием созданной в рамках данного исследования панели «Belref1000G».

Комбинированная референсная выборка «Belref1000G» была создана путем дополнения части референсной выборки «1000G», соответствующей последовательностям клинического экзома, 131-им образцом жителей Беларуси, фазированных в Beagle с использованием референсной выборки «1000G». В выборку были включены 18 пар родителей из секвенированных в рамках данного исследования триад, при их фазировании также использовались последовательности пробандов с указанием родственных связей. NGS-данные остальных включенных образцов были получены в рамках выполнявшихся в Институте генетики и цитологии заданий. Доступ к созданной комбинированной референсной выборке «Belref1000G» можно получить по

запросу в Институте генетики и цитологии НАН Беларуси.

Сравнение с «референсным» фазированием проводили в соответствии со следующими основными метриками:

1. Частота ошибки смены фазы (ОСФ) — количество ошибочных смен фазы, деленное на количество всех возможных (средняя по образцам и хромосомам).

2. Процент полностью фазированных SNP (средний по образцам и хромосомам).

Также мы оценивали число фазированных SNP, длинных, коротких и неустановленных ошибок смены фазы, количество SNP использованных для оценки (сумма по хромосомам и средние по образцам).

Построение графиков, расчеты и расчет статистики полученных результатов осуществляли с использованием интерпретируемого языка Python (библиотеки pandas, ArgumentParser, savgol_filter, matplotlib.pyplot, numpy, scipy), привидение всех vcf к общему формату осуществляли на языке bash, поскольку каждая программа имеет собственные отличительные особенности vcf-файла. Скрипты, разработанные в ходе данного проекта, можно найти по ссылке [9].

Результаты и обсуждение

Существенным отличием между геномными данными и данными клинических экзомов, очевидно, является фрагментированность последних, что делает показатель N50 длин гаплотипов (QAN50), являющийся одним из основных при определении эффективности

фазирования полногеномных данных [10], абсолютно неинформативным. Поскольку данные межэкзонных последовательностей отсутствуют, то нет никакой возможности определить взаимную локализацию отдельных экзонов и генов относительно друг друга, кроме тех случаев, когда межэкзонные участки по протяженности не превышают длину прочтения (150 п. н. в нашем случае). Исходя из этого вычисление QAN50 не проводилось.

Фазированные с помощью SHAPEIT и Beagle с учетом данных о последовательностях родительских образов генотипы пробан-дов служили в качестве «золотого стандарта» для каждой из программ соответственно при сравнении следующих методов фазирования:

- онлайн фазирование Eagle [11] с использованием в качестве референсной выборки «HRC»;

- онлайн фазирование Eagle с использованием в качестве референсной выборки «1000G»;

- офлайн фазирование SHAPEIT/Beagle без учета данных о последовательностях родительских образов с использованием в качестве референсной выборки «1000G»;

- без учета данных о последовательностях родительских образов с использованием в качестве референсной выборки комбинированной «Belref1000G».

Основные параметры эффективности фазирования для SHAPEIT данными методами представлены в таблице 1.

Как видно из таблицы, наибольшего количества фазированных SNP со значительным отрывом позволяет достигнуть SHAPEIT/«1000G»,

Таблица 1

Основные показатели эффективности фазирования при сравнении с триадами,

фазированными в SHAPEIT

Метод Eagle/«HRC» Eagle/«1000G» SHAPEIT/ «1000G» SHAPEIT/ «Belref1000G»

Количество SNP 14 611 14 951 17 016 15 868

Доля фазированных SNP 0,86 0,87 0,97 0,90

Количество фазированных SNP 14 589 14 929 16 994 15 846

ОСФ 1 561 1 595 2 436 2 069

Окончание таблицы 1

Метод Eagle/«HRC» Eagle/«1000G» SHAPEIT/ «1000G» SHAPEIT/ «Belref1000G»

Длинные ОСФ 616 624 886 775

Точечные ОСФ 469 482 770 642

Неопределенные ОСФ 8 8 9 9

Частота ОСФ (%) 10,97 10,99 14,64 13,38

при этом и частота ОСФ для данного метода максимальна. Eagle же, наоборот, при меньшем количестве фазированных SNP (86-87% против 97% для SHAPEIT) позволяет достигнуть значительно более высокой точности (частота ОСФ 10,97-10,99% против 14,64% для SHAPEIT). Фазирование с использованием созданной комбинированной референсной выборки «Belref1000G» позволило достигнуть промежуточных показателей эффективности (90% фазированных SNP при 13,38% ОСФ).

При сравнении основных показателей эффективности фазирования генотипов по хромосомам, выявленный диапазон частот ОСФ для Eagle/«HRC» составил от 8,09% (хромосома 20) до 16,41% (хромосома 8), для Eagle/«1000G» — от 7,41% (хромосома 22) до 16,09% (хромосома 8). Для SHAPEIT/«1000G» показатель варьировал от 10,89% (хромосома 6) до 17,73% (хромосома 8). SHAPEIT/«Belref1000G» показал минимальную для отдельной хромосомы частоту — 7,33% (хромосома 22), максимальный же достиг 16,42% (хромосома 10). В целом для отдельных хромосом по показателю частоты ОСФ наблюдается картина, аналогичная таковой для абсолютных показателей (табл. 1). Для 8 хромосомы частота ОСФ является наиболее высокой, что может быть связано с относительно более высоким средним расстоянием между экзонами. Для остальных хромосом частота ОСФ в зависимости от использованного метода фазирования варьировала более заметно.

Показатель доли фазированных SNP, наравне с зависимостью от использованного метода фазирования, оказался в большей

степени привязан к конкретной хромосоме. Так, максимальные значения были получены для всех методов на хромосоме 21. Минимальные для Eagle — на хромосоме 16, для SHAPEIT — на хромосоме 19. В целом же тенденция, описанная для общих показателей, сохраняется и для отдельных хромосом — максимальные значения получены для метода SHAPEIT/«1000G», минимальные — для Eagle, SHAPEIT/«Belref1000G» занимает промежуточную позицию.

На рисунке 1 показано распределение точности фазирования SHAPEIT (вероятность того, что два соседних SNP окажутся в той же фазе, что и в «золотом стандарте») в зависимости от расстояния между двумя локусами. Ореолом соответствующего цвета здесь и далее показана стандартная ошибка средней. Достигнуть точности в 90% позволил только Eagle с незначительным преимуществом «1000G» по сравнению с «HRC». Сопоставимый уровень точности сохраняется для локусов на расстоянии до 10 тыс. п. н. после чего начинает снижаться более значительно. Точность при использовании SHAPEIT не превышает 79% (для «Belref1000G») и 77% (для «1000G») для локусов на расстоянии более 1 тыс. п. н.

Что касается протяженности блоков фазирования, то здесь, за счет большего количества фазированных SNP, лидирует SHAPEIT в комбинации с «1000G» (рис. 2).

Основные параметры эффективности фазирования генотипов для Beagle указанными выше методами представлены в таблице 2.

Как следует из таблицы, наибольшее количество фазированных SNP достигается с помощью Beagle/«1000G», при этом и частота

Stigpell

-

\

[уоь юо ос cjgle prob HRC prooand slieoell 1 proband Shaptit b

ooaC «Irt-UQOOG

Рис. 1. Точность фазирования (%) в зависимости от расстояния между SNP (SHAPEIT)

Shape it

■ Ш*

Рис. 2. Распределение вероятности того, что два фазированных 8КР окажутся в одном блоке, в зависимости от

расстояния между ними (8НАРЕГТ)

ОСФ для данного метода максимальна. Eagle же, наоборот, при меньшем количестве фазированных SNP (87-88% против 97% для Beagle), позволяет достигнуть более высокой точности (частота ОСФ 11,2-11,23% против 13,5% для Beagle). Фазирование с использованием комбинированной референсной выборки

«Belref1000G» дает промежуточные показатели эффективности (93% фазированных SNP при 12,83% ОСФ).

Для отдельных хромосом выявленный диапазон частот ОСФ для Eagle/«HRC» составил от 8,33% (хромосома 20) до 15,61% (хромосома 8), для Eagle/«1000G» — от 7,74% (хро-

Таблица 2

Основные показатели эффективности фазирования при сравнении с триадами,

фазированными в SHAPEIT

Метод Eagle/«HRC» Eagle/«1000G» SHAPEIT/ «1000G» SHAPEIT/ «Belref1000G»

Количество 14 333 14 721 16 616 15 861

Доля фазированных БИР 0,87 0,88 0,97 0,93

Количество фазированных 14 311 14 699 16 594 15 839

ОСФ 1 572 1 607 2 203 1 996

Длинные ОСФ 610 618 790 740

Точечные ОСФ 478 491 702 624

Неопределенные ОСФ 8 8 8 8

Частота ОСФ (%) 11,23 11,20 13,5 12,83

мосома 20) до 15,19% (хромосома 8). Для Beagle/«1000G» показатель варьировал от 10,9% (хромосома 20) до 16,82% (хромосома 13). Beagle/«Belref1000G» показал минимальную частоту в 11,24% для хромосомы 20, максимальную в 16,51% для хромосомы 13. В целом для отдельных хромосом, как и в случае с SHAPEIT, распределение частот ОСФ соответствует таковому для абсолютных показателей (табл. 2). Также можно отметить, что для 20 хромосомы частота ОСФ является наиболее низкой, что может быть связано с относительно меньшим средним расстоянием между экзонами. Для остальных хромосом частота ОСФ в зависимости от использованного метода фазирования варьировала более заметно.

Показатель доли фазированных SNP, наравне с зависимостью от использованного метода фазирования, также в значительной степени варьировал для конкретных хромосом. Так, максимальные значения были получены для всех методов на хромосоме 21, кроме Beagle/«Belref1000G» (96,32% на хромосоме 20). Минимальные для Eagle и Beagle/«Belref1000G» — на хромосоме 16, для Beagle/«1000G» — на хромосоме 19. В це-

лом же тенденция, описанная для общих показателей, сохраняется и для отдельных хромосом — максимальные значения получены для метода Beagle/«1000G», минимальные — для Eagle, Beagle/«Belref1000G» занимает промежуточную позицию.

На рисунке 3 показано распределение точности фазирования для Beagle в зависимости от расстояния между двумя локусами. Достигнуть точности в 90%, как и в случае с SHAPEIT, позволил только Eagle, также с незначительным преимуществом «1000G» по сравнению с «HRC». Сопоставимый уровень точности сохраняется для локусов на расстоянии до 10 тыс. п. н. после чего начинает снижаться более значительно. Точность при использовании Beagle не превышает 84% (для «Belref1000G») и 83% (для «1000G») для ло-кусов на расстоянии более 1 тыс. п. н.

Что касается протяженности блоков фазирования, то здесь, за счет большего количества фазированных SNP, лидирует Beagle в комбинации с «1000G» (рис. 4).

При сравнении результатов фазирования разными методами по хромосомам, можно сделать вывод, что наибольшая точность фази-

W EQ*

Рис. 3. Точность фазирования (%) в зависимости от расстояния между SNP (Beagle)

Рис. 4. Распределение вероятности того, что два фазированных SNP окажутся в одном блоке, в зависимости от

расстояния между ними (Beagle)

рования достигается для локусов, расположенных на хромосомах 6, 19, 20 и 22, наименьшая — для 8 и 13 хромосомы. Полученные для 21 хромосомы результаты свидетельствуют о наибольшей доле фазированных SNP на ней. Это связано, по всей видимости, с особенностями панели клинического экзома, а точнее, с плотностью и распределением экзонов отобранных

для панели генов по хромосомам.

Кроме того, для двух вариантов фазирования триад (Beagle и SHAPEIT) было проведено сравнение распределения частоты ОСФ в зависимости от расстояния между SNP (рис. 5 и рис. 6). Как видно из распределения, средняя частота ошибки для двух вариантов фазирования с Eagle, как правило, ниже, чем

Distance to upstream phased site (kbp)

Рис. 5. Распределение частот ОСФ в зависимости от расстояния между SNP при фазировании Beagle

£ л

ш (Л

0151а псе ирзтотп phar.cc! (кьр) :. 6. Распределение частот ОСФ в зависимости от расстояния между SNP при фазировании SHAPEIT

для остальных вариантов. И, как в случае с остальными исследованными параметрами эффективности фазирования, использование комбинированной выборки Belref1000G дает промежуточный показатель эффективности между таковым для Eagle и выборкой 1000G.

Также можно отметить, что частота ОСФ не значительно меняется с ростом расстояния между SNP. Данный факт объясняется типом исходных данных: экзомные последовательности состоят из отдельных блоков, взаимное расположение которых определить невозможно.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Исходя из проведенных сравнений методов фазирования можно сделать следующие выводы, касающиеся их эффективности для данных последовательностей клинических экзомов жителей Беларуси:

- выбор конкретной программы для фазирования оказывает большее влияние на его эффективность, чем выбор референсной панели (при условии сопоставимых размеров

и качественного соответствия фазируемому образцу);

- программа Eagle позволяет осуществлять более точное фазирование — в случае данных клинических экзомов до 90% для локусов, расположенных на расстоянии до 10 тыс. п. н., но с меньшим тотальным выходом;

- в случае, когда онлайн формат фазирования по каким-либо причинам не подходит, рекомендуется использовать программу Beagle с комбинированной референсной панелью «Belref1000G»;

- наибольшую протяженность блоков фазирования позволяет достигнуть Beagle — более 93% фазированных SNP, расположенных на расстоянии до 100 тыс. п. н., оказываются в одном блоке фазирования;

- созданная в рамках исследования комбинированная референсная панель «Belref1000G» позволяет снизить частоту ОСФ на 0,67% для Beagle и на 1,26% для SHAPEIT.

При сравнении полученных результатов с опубликованными в литературных источниках следует, в первую очередь, отметить, что практически все исследования в данной области проводились на данных секвенирования полных геномов. Однако, в целом, закономерности, показанные в рамках данной работы, согласуются с описанными в литературе. Так и выбор программы для фазирования, и тип, и размер используемой выборки способны оказать серьезное влияние на итоговую эффективность. Кроме того, зачастую она будет зависеть и от типа и качества исходных данных. Для дальнейшего повышения точности фазирования рекомендуется использовать данные секвенирования последовательностей геномов ближайших родственников, а также дополнительно использовать данные секвенирования с длинными прочтениями [10-13].

Заключение

Таким образом, в рамках данного исследования были собраны данные высокопроизводительного секвенирования последовательностей клинического экзома 149 пациентов, проведена их первичная обработка (перевод интенсивностей сигнала в нуклеотидные прочтения, оценка качества и очистка сырых последовательностей, выравнивание и вызов вариантов). Осуществлено фазирование собранных образцов различными методами. Создана комбинированная референсная выборка «Belref1000G» для фазирования и импу-тирования путем дополнения выборки проекта «1000 геномов» 131-им образцом белорусских пациентов.

Определены наиболее эффективные методы фазирования: наибольшую точность фазирования данных клинических экзомов жителей Беларуси позволяет достичь онлайн-сервис Michigan Imputation Server. В случае, когда онлайн формат фазирования по каким-либо причинам не подходит, рекомендуется использовать программу Beagle с комбинированной референсной панелью «Belref1000G». Для получения наиболее протяженных блоков фазирования стоит применять программу Beagle с референсной панелью «1000G».

Коллектив авторов выражает благодарность сотрудникам лаборатории экологиче-

ской генетики и биотехнологии Института генетики и цитологии НАН Беларуси Михаленко Е. П., Мазур О. Ч. и Малышевой О. М. за предоставленные данные NGS, а также Ермаковичу Д. П. за помощь в планировании исследования и обработке данных.

Работа выполнена в рамках ГПНИ «Биотехнологии» 2019-2020 гг., подпрограмма 2 «Структурная и функциональная геномика».

Список использованных источников

1. FastQC [Electronic resource]: The Babraham Bioinformatics group. - Mode of access: http:// www.bioinformatics.babraham.ac.uk/index.html (дата обращения 12.01.2020).

2. Trimmomatic: A flexible read trimming tool for Illumina NGS data: RWTH Aachen University [Electronic resource]. - URL: http://www. usadellab.org/cms/?page=trimmomatic (дата обращения 12.01.2020).

3. Li H., Handsaker B., Wysoker A. The Sequence alignment/map (SAM) format and SAM-tools // Bioinformatics. - 2009. - Vol. 25(16). -P. 2078-2079.

4. Genotype Analysis Toolkit: Broad Institute [Electronic resource]. - URL: https://gatk. broadinstitute.org/hc/en-us (дата обращения 12.01.2020).

5. SHAPEIT: University of Oxford [Electronic resource] - URL: https://mathgen.stats.ox.ac. uk/genetics_software/shapeit/shapeit.html (дата обращения 12.01.2020).

6. Delaneau O., Zagury J.-F., Marchini J. Improved whole-chromosome phasing for disease and population genetic studies // Nature Methods. - 2013. - Vol. 10. - P. 5-6.

7. Browning S. R., Browning B. L. Rapid and accurate haplotype phasing and missing data inference for whole genome association studies by use of localized haplotype clustering // Am J Hum Genet. - 2007. - Vol. 81. - P. 1084-1097.

8. Michigan Imputation Server: U. S. National Institutes of Health [Electronic resource]. - URL: https://imputationserver.sph.umich.edu/index. html (дата обращения 12.01.2020).

9. Phasing scripts. - URL: https://github.com/ IGC-bioinf/phasing_scripts (дата обращения 15.12.2020).

10. Choi Y. [et al.] Comparison of phasing strategies for whole human genomes // PLoS Genet-

ics. - 2018. - Vol. 14 (4). doi: 10.1371/journal. pgen.1007308.

11. Loh P.-R. [et al.] Reference-based phasing using the Haplotype Reference Consortium panel // Nature Genetics. - 2016. - Vol. 48(11). - P. 1443-1448.

12. Browning S. R., Browning B. L. Haplotype

phasing: Existing methods and new developments // Nature Reviews Genetics. - 2012. - Vol. 12 (10). - P. 703-714.

13. Bkhetan Z. A. [et al.] Exploring effective approaches for haplotype block phasing // BMC Bioinformatics. - 2019. - Vol. 20. doi: 10.1186/ s12859-019-3095-8.

A. D. Liaudanski, R. S. Shulinski, Y. A. Mishuk, L. N. Sivitskaya

COMPARISON OF GENOTYPE PHASING METODS FOR THE HIGH THROUGHPUT SEQUENCING DATA OF CLINICAL EXOMES

State Scientific Institution "Institute of Genetics and Cytology of the National Academy of Sciences of Belarus" 27 Akademicheskaya St., 220072 Minsk, Republic of Belarus e-mail: o.liaudanski@igc.by

The aim of this investigation was to search for an algorithm for phasing of exome NGS data that would be optimal for analyzing the cis-/transposition of closely located polymorphic loci in patients with hereditary diseases. The NGS data on clinical exome sequences from 149 patients was collected and analyzed, and its primary processing was carried out. A combined reference panel for phasing and genotype imputation "Belref1000G" was created by adding 131 samples of Belarusian patients to the panel from the "1000 Genomes" project. The most effective methods of phasing have been determined: the Michigan Imputation Server (online service) allows achieving the highest accuracy of phasing data from clinical exomes in Belarus. In cases where an online format of phasing is not appropriate for whatever reason, Beagle software with the combined reference panel "Belref1000G" is recommended for use. Beagle software with the "1000G" reference panel should be used to obtain the longest phasing blocks.

Keywords: genotypes phasing, bioinformatic analysis of high throughput sequencing data.

Дата поступления в редакцию: 09 сентября 2021 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.