Научная статья на тему 'СРАВНЕНИЕ ИНСТРУМЕНТОВ БИОИНФОРМАТИКИ ДЛЯ HLA-ТИПИРОВАНИЯ НА ОСНОВЕ ДАННЫХ WGS'

СРАВНЕНИЕ ИНСТРУМЕНТОВ БИОИНФОРМАТИКИ ДЛЯ HLA-ТИПИРОВАНИЯ НА ОСНОВЕ ДАННЫХ WGS Текст научной статьи по специальности «Медицинские технологии»

CC BY
157
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Иммунология
Scopus
ВАК
CAS
RSCI
Ключевые слова
БИОИНФОРМАТИЧЕСКИЕ ИНСТРУМЕНТЫ / ПОЛНОГЕНОМНОЕ СЕКВЕНИРОВАНИЕ / ГЕНОТИПИРОВАНИЕ / ТОЧНОСТЬ HLA-ТИПИРОВАНИЯ

Аннотация научной статьи по медицинским технологиям, автор научной работы — Казакова Полина Геннадьевна, Митрофанов Сергей Игоревич, Ахмерова Юлия Николаевна, Варламова Ольга Вячеславовна, Земский Павел Юрьевич

Введение. Широкое распространение секвенаторов в научно-исследовательских и медицинских учреждениях, удешевление процесса секвенирования и внедрение его в клиническую практику делают целесообразным оценку дополнительных параметров на основе данных секвенирования генома и экзома пациентов. Так, данные полноэкзомного и полногеномного секвенирования позволяют получить не только информацию об однонуклеотидных полиморфизмах, малых делециях и инсерциях, о некоторых типах структурных вариантов, но и об HLA -генотипе. На основе данных высокоэффективного секвенирования (new generation sequencing, NGS) можно проводить массовое типирование аллелей HLA с использованием передовых инструментов биоинформатики. При использовании наиболее подходящих инструментов результаты HLA -типирования на основе данных NGS могут способствовать более точному описанию частот встречаемости аллелей HLA в популяциях, пополнению базы данных Allele Frequency Net Database, изучению особенностей распространения аллелей HLA внутри различных этносов, поиску ассоциаций с аутоиммунными заболеваниями. Цель исследования подбор оптимального инструмента для HLA -типирования с помощью полногеномного секвенирования (whole genome sequencing, WGS) для его включения в биоинформатический сценарий обработки данных. Материал и методы. Для 150 образцов замороженной крови проведено полногеномное секвенирование с последующей биоинформатической обработкой. HLA -типирование по данным WGS осуществлялось с помощью инструментов: xHLA, POLYSOLVER, HLA-LA, HLAscan, OptiType, Kourami. Библиотеки для таргетного секвенирования региона HLA для этих же 150 образцов готовились с использованием пула праймеров NGSgo-MX6-1 (GenDX, Нидерланды) и набора NGSgo-LibrX (GenDX, Нидерланды). Типирование аллелей HLA на основе данных таргетного секвенирования проводилось с помощью программы NGSengine. Результаты. В рамках исследования изучена точность типирования с применением биоинформатических инструментов xHLA, OptiType, HLAscan, POLYSOLVER, HLA-LA, Kourami при анализе данных полногеномного секвенирования образцов крови человека с покрытием > 30x. В качестве эталонных данных приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды). Наибольшую точность типирования HLA класса I показал инструмент POLYSOLVER, для HLA класса II xHLA с версией базы IMGT/HLA 3.22.0. Инструменты POLYSOLVER и OptiType требуют значительного времени и вычислительных ресурсов, в связи c этим для массового HLA-типирования больше подходят биоинформатические инструменты Kourami и HLAscan. Все рассмотренные биоинформатические инструменты допускают больше ошибок при типировании локусов HLA класса II, чем при типировании локусов HLA класса I, несмотря на то что разнообразие аллелей HLA класса II существенно меньше, чем класса I. Наибольшее количество некорректно определенных аллелей наблюдалось для локуса DQB1. Заключение. Результаты и выводы, полученные в рамках исследования, представляют собой основу методического подхода к выбору оптимального инструмента HLA-типирования для использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским технологиям , автор научной работы — Казакова Полина Геннадьевна, Митрофанов Сергей Игоревич, Ахмерова Юлия Николаевна, Варламова Ольга Вячеславовна, Земский Павел Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF WGS-BASED HLA TYPING BIOINFORMATIC TOOLS

Introduction. The widespread distribution of sequencing platforms in research and medical institutions, reduction of sequencing costs and its incorporating to clinical practice make it reasonable to estimate additional parameters on the patient’s sequencing data. Thus, whole-exome and whole-genome sequencing data provide information not only about single-nucleotide polymorphisms, small deletions and insertions, some types of structural variants, but also about the HLA genotype. A mass typing of HLA alleles using advanced bioinformatics tools can be performed based on NGS data. Using the most appropriate tools, the results of HLA typing based on NGS data can contribute to an accurate description of HLA allele frequencies in populations, updating the Allele Frequency Net Database, studying the distribution patterns of HLA alleles within different ethnic groups, and searching for associations with autoimmune diseases. Aim - a search of the optimal whole-genome-based HLA typing tool for adding it into the bioinformatics data processing pipeline. Material and methods. Whole genome sequencing with further bioinformatic processing was performed for 150 frozen blood samples. HLA typing of WGS data was performed using tools: xHLA, POLYSOLVER, HLA-LA, HLAscan, OptiType, and Kourami. Libraries for target HLA region sequencing for the same 150 samples were prepared using the NGSgo-MX6-1 primer pool (GenDX, The Netherlands) and the NGSgo-LibrX kit (GenDX, The Netherlands). HLA allele typing on target sequencing data was performed using the NGSengine program. Results. This study examined the HLA typing accuracy of bioinformatics tools xHLA, OptiType, HLAscan, POLYSOLVER, HLA-LA and Kourami on > 30x whole-genome sequencing data from human samples. HLA typing results were obtained with the NGSgo-MX6-1 kit (GenDX, Netherlands), which were taken as reference results. The POLYSOLVER tool showed the highest accuracy for HLA class I typing; xHLA tool with IMGT/HLA database version 3.22.0 - for HLA class II, POLYSOLVER and OptiType tools require significant time and computing resources, therefore, the bioinformatic tools Kourami and HLAscan are more suitable for wide range HLA typing. All of the bioinformatics tools make more errors for typing HLA class II loci than for typing HLA class I loci, despite that the diversity of HLA class II alleles is significantly lower than of class I. The highest number of incorrectly defined alleles was observed for DQB1 typing. Conclusion. The results and conclusions obtained in this study provide the basis for a methodological approach to selecting the optimal HLA typing tool for use in bioinformatic pipelines for processing whole genome and/or whole exome sequencing data.

Текст научной работы на тему «СРАВНЕНИЕ ИНСТРУМЕНТОВ БИОИНФОРМАТИКИ ДЛЯ HLA-ТИПИРОВАНИЯ НА ОСНОВЕ ДАННЫХ WGS»

© Коллектив авторов, 2023

Казакова П.Г.1, Митрофанов С.И.1, Ахмерова Ю.Н.1, Варламова О.В.1, Земский П.Ю.1, Мкртчян А.А.1, Сергеев А.П.1, Снигирь Е.А.1, Фелиз Н.В.1, Фролова Л.В.1, Шпакова Т.А.1, Юдин В.С.1, Кескинов А.А.1, Юдин С.М.1, Скворцова В.И.2

Сравнение инструментов биоинформатики для HLA--типирования на основе данных WGS

1 Федеральное государственное бюджетное учреждение «Центр стратегического планирования и управления медико-биологическими рисками здоровью» Федерального медико-биологического агентства, 119121, г. Москва, Российская Федерация

2 Федеральное медико-биологическое агентство, 123182, г. Москва, Российская Федерация

Резюме

Введение. Широкое распространение секвенаторов в научно-исследовательских и медицинских учреждениях, удешевление процесса секвенирования и внедрение его в клиническую практику делают целесообразным оценку дополнительных параметров на основе данных секвенирования генома и экзома пациентов. Так, данные полноэкзом-ного и полногеномного секвенирования позволяют получить не только информацию об однонуклеотидных полиморфизмах, малых делециях и инсерциях, о некоторых типах структурных вариантов, но и об HLA -генотипе. На основе данных высокоэффективного секвенирования (new generation sequencing, NGS) можно проводить массовое типиро-вание аллелей HLA с использованием передовых инструментов биоинформатики. При использовании наиболее подходящих инструментов результаты HLA -типирования на основе данных NGS могут способствовать более точному описанию частот встречаемости аллелей HLA в популяциях, пополнению базы данных Allele Frequency Net Database, изучению особенностей распространения аллелей HLA внутри различных этносов, поиску ассоциаций с аутоиммунными заболеваниями.

Цель исследования - подбор оптимального инструмента для HLA -типирования с помощью полногеномного секвенирования (whole genome sequencing, WGS) для его включения в биоинформатический сценарий обработки данных.

Материал и методы. Для 150 образцов замороженной крови проведено полногеномное секвенирование с последующей биоинформатической обработкой. HLA -типирование по данным WGS осуществлялось с помощью инструментов: xHLA, POLYSOLVER, HLA-LA, HLAscan, OptiType, Kourami. Библиотеки для таргетного секвенирования региона HLA для этих же 150 образцов готовились с использованием пула праймеров NGSgo-MX6-1 (GenDX, Нидерланды) и набора NGSgo-LibrX (GenDX, Нидерланды). Типирование аллелей HLA на основе данных таргетного секвенирования проводилось с помощью программы NGSengine.

Результаты. В рамках исследования изучена точность типирования с применением биоинформатических инструментов xHLA, OptiType, HLAscan, POLYSOLVER, HLA-LA, Kourami при анализе данных полногеномного секвенирования образцов крови человека с покрытием > 30x. В качестве эталонных данных приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды). Наибольшую точность типирования HLA класса I показал инструмент POLYSOLVER, для HLA класса II - xHLA с версией базы IMGT/HLA 3.22.0. Инструменты POLYSOLVER и OptiType требуют значительного времени и вычислительных ресурсов, в связи c этим для массового HLA-типирования больше подходят биоинформатические инструменты Kourami и HLAscan.

Все рассмотренные биоинформатические инструменты допускают больше ошибок при типировании локусов HLA класса II, чем при типировании локусов HLA класса I, несмотря на то что разнообразие аллелей HLA класса II существенно меньше, чем класса I. Наибольшее количество некорректно определенных аллелей наблюдалось для локуса DQB1.

Заключение. Результаты и выводы, полученные в рамках исследования, представляют собой основу методического подхода к выбору оптимального инструмента HLA-типирования для использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования.

Ключевые слова: биоинформатические инструменты; полногеномное секвенирование; генотипирование; точность HLA-типирования

Для корреспонденции

Казакова Полина Геннадьевна -аналитик 2-й категории отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: PKazakova@cspfmba.ru https://orcid.org/0000-0002-8966-4158

Статья получена 07.11.2022. Принята в печать 16.01.2023.

Для цитирования: Казакова П.Г., Митрофанов С.И., Ахмерова Ю.Н., Варламова О.В., Земский П.Ю., Мкртчян А.А., Сергеев А.П., Снигирь Е.А., Фелиз Н.В., Фролова Л.В., Шпакова Т.А., Юдин В.С., Кески-нов А. А., Юдин С.М., Скворцова В.И. Сравнение инструментов биоинформатики для ЛЬЛ-типирования на основе данных WGS. Иммунология. 2023; 44 (2): 219-230. Б01: https://doi.org/10.33029/0206-4952-2023-44-2-219-230

Финансирование. Исследование не имело спонсорской поддержки.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Вклад авторов. Концепция и дизайн исследования - Казакова П.Г., Юдин В.С., Кескинов А.А., Юдин С.М., Скворцова В. И.; выделение ДНК, подготовка библиотек, полногеномное и таргетное секвенирование - Снигирь Е.А., Варламова О.В.; мониторинг и ликвидация ошибок в процессе секвенирования - Сергеев А.П.; биоинформатическая обработка данных - Казакова П.Г., Митрофанов С.И.; анализ и визуализация данных -Казакова П.Г.; написание текста - Казакова П.Г., Митрофанов С.И.; редактирование текста - Ахмерова Ю.Н., Земский П.Ю., Мкртчян А. А., Фелиз Н.В., Фролова Л.В., Шпакова Т.А.

Kazakova P.G.1, Mitrofanov S.I.1, Akhmerova Yu.N.1, Varlamova O.V.1, Zemsky P.U.1, Mkrtchyan A.A.1, Sergeev A.P.1, Snigir E.A.1, Feliz N.V.1, Frolova L.V.1, Shpakova T.A.1, Yudin V.S.1, Keskinov A.A.1, Yudin S.M.1, Skvortsova V.I.2

Comparison of WGS-based HLA typing bioinformatic tools

1 Centre for Strategic Planning and Management of Biomedical Health Risks of the Federal Medical Biological Agency, 119121, Moscow, Russian Federation

2 The Federal Medical Biological Agency, 123182, Moscow, Russian Federation

Abstract

Introduction. The widespread distribution of sequencing platforms in research and medical institutions, reduction of sequencing costs and its incorporating to clinical practice make it reasonable to estimate additional parameters on the patient's sequencing data. Thus, whole-exome and whole-genome sequencing data provide information not only about single-nucleotide polymorphisms, small deletions and insertions, some types of structural variants, but also about the HLA genotype. A mass typing of HLA alleles using advanced bioinformatics tools can be performed based on NGS data. Using the most appropriate tools, the results of HLA typing based on NGS data can contribute to an accurate description of HLA allele frequencies in populations, updating the Allele Frequency Net Database, studying the distribution patterns of HLA alleles within different ethnic groups, and searching for associations with autoimmune diseases.

Aim - a search of the optimal whole-genome-based HLA typing tool for adding it into the bioinformatics data processing pipeline.

Material and methods. Whole genome sequencing with further bioinformatic processing was performed for 150 frozen blood samples. HLA typing of WGS data was performed using tools: xHLA, POLYSOLVER, HLA-LA, HLAscan, OptiType, and Kourami. Libraries for target HLA region sequencing for the same 150 samples were prepared using the NGSgo-MX6-1 primer pool (GenDX, The Netherlands) and the NGSgo-LibrX kit (GenDX, The Netherlands). HLA allele typing on target sequencing data was performed using the NGSengine program.

Results. This study examined the HLA typing accuracy of bioinformatics tools xHLA, OptiType, HLAscan, POLYSOLVER, HLA-LA and Kourami on > 30x whole-genome sequencing data from human samples. HLA typing results were obtained with the NGSgo-MX6-1 kit (GenDX, Netherlands), which were taken as reference results. The POLYSOLVER tool showed the highest accuracy for HLA class I typing; xHLA tool with IMGT/HLA database version 3.22.0 - for HLA class II, POLYSOLVER and OptiType tools require significant time and computing resources, therefore, the bioinformatic tools Kourami and HLAscan are more suitable for wide range HLA typing. All of the bioinformatics tools make more errors for typing HLA class II loci than for typing HLA class I loci, despite that the diversity of HLA class II alleles is significantly lower than of class I. The highest number of incorrectly defined alleles was observed for DQB1 typing.

For correspondence

Polina G. Kazakova -the 2nd Category Analyst of Medical Genomics Department, Centre for Strategic Planning, FMBA of Russia, Moscow, Russian Federation E-mail: PKazakova@cspfmba.ru https://orcid.org/0000-0002-8966-4158

Conclusion. The results and conclusions obtained in this study provide the basis for a methodological approach to selecting the optimal HLA typing tool for use in bioinformatic pipelines for processing whole genome and/or whole exome sequencing data.

Keywords: bioinformatics tools; whole genome sequencing; genotyping; precision of HLA typing

Received 07.11.2022. Accepted 16.01.2023.

For citation: Kazakova P.G., Mitrofanov S.I., Akhmerova Yu.N., Varlamova O.V., Zemsky P.U., Mkrtchian A.A., Sergeev A.P., Snigir E.A., Feliz N.V., Frolova L.V., Shpakova T.A., Yudin V.S., Keskinov A.A., Yudin S.M., Skvortso-va V.I. Comparison of WGS-based HLA typing bioinformatic tools. Immunologiya. 2023; 44 (2): 219-30. DOI: https:// doi.org/10.33029/0206-4952-2023-44-2-219-230 (in Russian)

Funding. The study had no sponsor support.

Conflict of interests. Authors declare no conflict of interests.

Authors' contribution. The concept and design of the study - Kazakova P.G., Yudin V.S., Keskinov A.A., Yudin S.M., Skvortsova V.I.; DNA extraction, preparation of libraries, whole genome and targeted sequencing -Snigir E.A., Varlamova O.V.; monitoring and eliminating errors in the sequencing process - Sergeev A.P.; bioinformatic processing - Kazakova P.G., Mitrofanov S.I.; data analysis and visualization - Kazakova P.G.; text production -Kazakova P.G., Mitrofanov S.I.; text editing and structuring - Akhmerova Yu.N., Zemsky P.U., Mkrtchian A.A., Feliz N.V., Frolova L.V., Shpakova T.A.

Введение

Комплекс генов HLA (human leukocyte antigens) компактно расположен на коротком плече 6-й хромосомы (6p21.3), включает примерно 3,5 м.п.н. [1] и насчитывает более 200 генов, разделенных на 3 класса [2]. Деление этих генов на классы обусловлено различиями в структуре кодируемых ими белков и особенностями ассоциированных иммунных процессов.

Классические гены HLA классов I и II являются наиболее полиморфными среди известных генов человека. В настоящее время в исследованиях используются методы HLA-типирования с высоким разрешением, следствием чего является открытие новых аллелей и увеличение общего количества известных аллелей. Так, по состоянию на январь 2023 г. общее количество известных аллелей в локусах HLA I и II классов составило 35 820 (IPD-IMGT/HLA 3.51.0) [3].

В настоящее время HLA -типирование применяется для решения задач, связанных с трансплантацией костного мозга и других органов, для диагностики наследственных заболеваний, ассоциированных с генами главного комплекса гистосовместимости (МНС) (болезнь Бехтерева, сахарный диабет 1-го типа, синдром Рейтера, целиакия, рассеянный склероз, ревматоидный артрит и др.), некоторых форм бесплодия, связанных с особенностями HLA -профиля супругов, а также для дифференциальной диагностики и прогноза развития аутоиммунных заболеваний [4-6].

Первоначально HLA -типирование проводилось серологическими методами, которые имеют низкое разрешение, вследствие чего позднее они практически полностью были заменены молекулярно-генетичес-кими методами. В последние годы наблюдается рост доступности данных высокоэффективного секвениро-вания (new generation sequencing, NGS), что привело к улучшению вычислительных методов для предсказания гаплотипов HLA. Методы HLA-типирования in silico, применяемые к данным NGS, обеспечивают вы-

сокую скорость и производительность анализа, но из-за высокого уровня вариабельности региона HLA типирование на основе результатов NGS остается весьма проблематичным. Более того, определение точного гапло-типа HLA осложняется высокой степенью сходства последовательностей аллелей HLA, которые могут отличаться всего одним или двумя нуклеотидами [7].

Еще одна сложность типирования in silico заключается в регулярных обновлениях версии базы данных IPD-IMGT/HLA, при этом сами биоинформатические инструменты не обновляются столь же часто, а у некоторых из них и вовсе отсутствует возможность автоматического обновления базы. Биоинформатические инструменты для HLA-типирования используют базу IPD-IMGT/HLA в качестве словаря возможных значений аллелей, поэтому результат типирования не будет выходить за пределы списка HLA -аллелей используемой версии базы IPD-IMGT/HLA, что накладывает ограничения на применение биоинформатических инструментов для обнаружения неизвестных ранее аллелей.

Существует большое количество биоинформатических инструментов, предназначенных для HLA-типирования, которые отличаются скоростью работы, точностью типирования, форматом входных и выходных данных, минимальными требованиями к вычислительным мощностям и пр.

По причине отсутствия доступных эталонных данных, оптимального вычислительного алгоритма и рекомендованного для использования «золотого стандарта» HLA -типирования in silico на данных полногеномного/ полноэкзомного секвенирования (WGS/WES, whole genome sequencing/whole exome sequencing) при выборе наиболее подходящего биоинформатического инструмента для массового типирования приходится дополнительно проверять точность работы инструментов, воспроизводимость их результатов, подбирать оптимальные опции запуска, режимы первичной обработки данных и пр.

Типирование HLA с применением технологий NGS соответствует современным требованиям для выполнения массовых исследований по HLA -типированию потенциальных доноров стволовых кроветворных клеток и позволяет осуществлять HLA-типирование с высоким уровнем разрешения. В настоящее время на отечественном рынке представлены реагенты для HLA -типирования на платформах Illumina и Ion Torrent четырех производителей - One Lambda (США), GenDx (Нидерланды), Illumina (США), Omixon (Венгрия). В рамках проведенного исследования в качестве эталонных были приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды) и платного программного обеспечения NGSengine (GenDX, Нидерланды) v2.22.0.

Весомым преимуществом наборов NGSgo (GenDx) по сравнению с другими реактивами является возможность проведения таргетной полимеразной цепной реакции (ПЦР) в мультиплексном формате, что экономит время, снижает материальные затраты на этот этап и минимизирует ошибки оператора, поскольку исключает этап пулирования продуктов ПЦР. О возможности использования данного набора для исследовательских целей также свидетельствует тот факт, что разработанная отечественная тест-система, зарегистрированная в качестве изделия медицинского назначения (регистрационное удостоверение Минздрава РФ № РЗН 2019/8988 от 04.10.2019) в качестве подтверждения идентификации новых HLA -аллелей использует наборы NGSgo (GenDX, Нидерланды), в частности набор NGSgo-MX6-1 (GenDX, Нидерланды).

Материал и методы

Исследованные образцы. Выборка из 150 образцов замороженной крови пациентов сформирована из имеющейся коллекции ФГБУ «ЦСП» ФМБА России. Забор биоматериала, хранящегося в коллекции ФГБУ «ЦСП» ФМБА России, осуществлялся в соответствии с ГОСТ Р53079.4-2008. Все 150 образцов прошли проверки качества, включая проверку на отсутствие признаков гемолиза и хилеза, проверку на уникальность идентификационного кода пациента, зашифрованной в нем информации и самого пациента и пр.

Секвенирование. Выделение ДНК из замороженных образцов цельной крови проводилось с помощью набора MagAttract HMW DNA Kit (Qiagen, Германия). Протокол выделения ДНК автоматизирован на Tecan Freedom EVO (Tecan, Швейцария). Измерение концентрации и чистоты выделенной ДНК осуществлялось с помощью микропланшетного ридера Tecan Infinite® F Nano Plus (Tecan, Швейцария).

Библиотеки для секвенирования готовились с использованием набора Nextera DNA Flex (Illumina, США) в соответствии с рекомендациями производителя. Кроме того, каждый образец в проточной кювете был помечен с помощью индексов IDT-ILMN Nextera DNA UD (Illumina, США) для исключения возможности перекрестной контаминации.

Измерение концентрации геномных библиотек проводили на спектрофотометре Tecan Infinite® F Nano Plus (Tecan, Швейцария). Размер геномных библиотек NGS измерялся с помощью системы Agilent TapeStation 4200 (Agilent, США) с использованием набора Agilent DNA 1000 (Agilent, США). Библиотечные пулы готовили из 24 образцов, объединение которых осуществлялось с использованием автоматизированной станции Tecan Freedom EVO (Tecan, Швейцария).

Полногеномное секвенирование проводилось с использованием секвенаторов Illumina NovaSeq 6000 (Illumina, США) с применением комплекта реагентов NovaSeq 6000 S4 (300 циклов) (Illumina, США) для пар-ноконцевых прочтений 2 х 150 п.н.

Анализ данных секвенирования и HLA-типи-рование. На первом этапе обработки сырых данных секвенирования осуществлялась демультипликация, при которой выдача секвенатора NovaSeq 6000 в формате BCL конвертировалась в формат FASTQ с помощью программного обеспечения bcl2fastq v2.20 [8]. Для контроля качества секвенирования всей ячейки использовалась программа Illumina Sequencing Analysis Viewer v2.4.7 [9]. Для контроля качества прочтений использовался биоинформатический инструмент FastQC v0.11.9 [10]. По результатам первого этапа в выборку попали образцы, прошедшие контроль качества по показателю равномерности распределения нуклеотидов в ридах, по G/C-составу и др.

На втором этапе биоинформатической обработки проводилось выравнивание прочтений на референсный геном с помощью программно-аппаратной платформы DRAGEN v07.021.510.3.5.7 [11]. В качестве референс-ной последовательности генома человека использовалась последовательность GRCh38.d1.vd1 [12]. По результатам второго этапа в выборку вошли образцы, для которых среднее покрытие по геному составило не менее 30x.

На следующем этапе типирование образцов проводилось по 6 основным локусам HLA классов I и II: -A, -B, -C, -DRB1, -DPB1, -DQB1 с разрешением два поля с использованием биоинформатических инструментов xHLA [13], POLYSOLVER [14], OptiType [15], HLAscan [16], Kourami [17], HLA-LA [18].

Библиотеки для таргетного секвенирования региона HLA готовились с использованием пула прайме-ров NGSgo-MX6-1 (GenDX, Нидерланды) и набора NGSgo-LibrX (GenDX, Нидерланды). Каждый образец в проточной кювете был помечен с помощью индексов NGSgo-IndX.

Измерение концентрации ПЦР-ампликонов проводилось с помощью флуориметра Qubit (Thermo Fisher, США). Измерение длины ПЦР-ампликонов осуществлялось с помощью системы автоматизированного электрофореза Agilent TapeStation 4200 (Agilent, США) с использованием набора Agilent DNA 1000 (Agilent, США). Пул готовых библиотек содержал 150 образцов.

Таргетное секвенирование локусов HLA проводилось с использованием секвенатора MiSeq (Illumina,

Таблица 1. Биоинформатические инструменты для HLA-типирования, использованные в исследовании

Инструмент Дата последнего обновления инструмента Версия базы данных IPD-IMGT/HLA Лицензия Ссылка на официальный сайт Типируемые локусы Тип данных Формат входных данных Режим работы

xHLA 1G.2G17 3.22.G (1G.2G15) 3.45.1* (G8.2G21) Предоставляется компанией Human Longevity, Inc. исключительно для некоммерческого использования в научных исследованиях. Коммерческое использование кода категорически запрещено https:// github.com/ humanlon-gevity/HLA -A, -B, -C, -DRBl, -DPBl, -DQBl WGS BAM Герми -нальный

POLY-SOLVER G5.2G18 3.1G.G (1G.2G12) BSD-лицензия https:// github.com/ jason-wei- rather/hla- polysolver -A, -B, -C WGS, WES BAM Герми-наль-ный, соматический

HLA-LA G9.2G21 3.32.G (G4.2G18) Лицензия GNU GPLv3 https:// github.com/ DiltheyLab/ HLA-LA -A, -B, -C, -DQBl, -DRBl, -DPAl, -DPBl, -DRB3, -DRB4, -E, -F, -G WGS, WES CRAM, BAM Герми -нальный

HLAscan 12.2G19 3.21.G (G7.2G15) Свободная лицензия для научных учреждений https:// github.com/ Synteka- bioTools/ HLAscan/ -A, -B, -C, -E, -F, -G, -MICA, -MICB, -DMA, -DMB, -DOA, -DOB, -DPAl, -DPBl, -DQBl, -DRBl WGS, WES FASTQ, BAM Герми -нальный

OptiType G9.2G2G 3.14.G (1G.2G13) BSD-лицензия https:// github.com/ FRED-2/ OptiType -A, -B, -C WGS FASTQ, BAM Герми-наль-ный, соматический

Kourami G5.2G19 3.24.G (G4.2G16) 3.42.G* (1G.2G2G) Свободная лицензия https:// github.com/ Kingsford- Group/ kourami -A, -B, -C, -DQAl, -DQBl, -DRBl, -DOA, -DMA, -DMB, -DPAl, -DPBl, -DRA, -DRB3, -DRB5, -F, -G, -H, -J, -L WGS BAM Герми -нальный

Примечание. * - в рамках данного исследования, помимо дефолтной версии базы 1РВ-1МОТ/ИЬЛ, использовалась обновленная версия базы.

США) с применением комплекта реагентов MiSeq Reagent Kit v2 (300-cycles) (Illumina, США) для парно-концевых прочтений 2 х 150 п.н.

На первом этапе обработки сырые данные таргет-ного секвенирования конвертировались из формата BCL в формат FASTQ с помощью программного обеспечения MiSeq Reporter Software (Illumina, США) [19]. Для контроля качества секвенирования всей ячейки целиком использовалась программа Illumina Sequencing Analysis Viewer v2.4.7 [9]. Типирование аллелей HLA проводилось с помощью программы NGSengine v2.22.0.22581 (GenDX, Нидерланды) [20] с использованием базы данных IPD-IMGT/HLA v3.44.1 [3].

Анализ полученных результатов проводился с помощью python библиотеки pandas [21]. Построение диаграмм и графиков осуществлялось с помощью python библиотек matplotlib 3.5.2 [22] и seaborn 0.11.2 [23].

Результаты

В табл. 1 представлена сводная информация об инструментах для HLA -типирования на основе данных WGS, использованных в исследовании, с указанием даты последнего обновления инструмента, версии базы IPD-IMGT/HLA, входящей в состав и используемой инструментом, типа лицензии, ссылки на официальный сайт, типируемых локусов и др.

Таблица 2. Среднее время работы биоинформатических инструментов для ЯЬЛ--типирования

Название инструмента Среднее время работы на BAM-файле, мин

xHLA 2,0

POLYSOLVER 204,2

HLA-LA 30,7

HLAscan 3,0

OptiType 98,3

Kourami 1,2

Запуск биоинформатических инструментов для HLA-типирования осуществлялся на сервере со следующими основными характеристиками:

• процессор - Intel(R) Xeon(R) Gold 6258R CPU @ 2.70GHz;

• OS (operating system) - Linux version 5.4.0-107-generic (Ubuntu 7.5.0-3ubuntu1~18.04);

• RAM (random access memory) - 772 633 МБ;

• CPU (central processing unit) - 112 виртуальных ядер.

Средний размер BAM-файла, который использовался в качестве входных данных, составлял 57 988 MB. В табл. 2 представлены данные о среднем значении времени работы биоинформатических инструментов в минутах. На рис. 1 представлены сопоставимые данные о среднем времени работы биоинформатических инструментов на одном образце с покрытием > 30x, выраженном в минутах.

Приведенное на рис. 1 среднее время работы био-информатических инструментов фактически является оценкой скорости их работы. Сравнение скоростей демонстрирует большой разброс времени, которое требуется для обработки одного BAM-файла. Kourami и xHLA работают более чем в 100 раз быстрее POLYSOLVER и более чем в 45 раз быстрее OptiType. При выборе инструмента для HLA -типирования не следует ориентироваться только на скорость работы, необходимо оценить, какие локусы необходимо типировать для достиже-

ния исследовательских целей, с каким разрешением и в каком режиме: терминальном и/или соматическом.

Для оценки точности типирования, которую обеспечивают биоинформатические инструменты, в качестве эталонных приняты результаты типирования, полученные с помощью набора NGSgo-MX6-1 (GenDX, Нидерланды) и программы NGSengine v2.22.0.22581 (GenDX, Нидерланды). В ходе типирования 150 образцов с помощью набора NGSgo-MX6-1 не обнаружено новых аллелей, что подтверждало их наличие в базе IPD-IMGT/HLA, которую используют биоинфор-матические инструменты. Применительно к каждому инструменту рассчитано количество истинно положительных (TP), ложноположительных (FP) определений аллелей, а также точность типирования (Pr) для HLA класса I (-A, -B и -C) и класса II (-DPB1, -DQB1 и -DRB1) на основе данных, полученных авторами (доступны по ссылке https://cloud.cspmz.ru/s/mzxmpQm3xpeGwXA). Точность типирования (Pr) вычислялась по формуле:

TP

Pr =-,

TP + FR

где TP - True Positive, FP - False Positive.

Количество корректных определений аллелей (TP), произведенных шестью биоинформатичеcкими инструментами (два из них работали на двух версиях базы IPD-IMGT/HLA), представлено на рис. 2. Биоинфор-матические инструменты OptiType и POLYSOLVER типируют только локусы HLA класса I, поэтому на диаграммах для локусов HLA-DPB1, -DQB1, -DRB1 они не представлены. На рис. 2 и 3, а также в табл. 3 и 4 для инструментов Kourami и xHLA указана версия базы IPD-IMGT/HLA, которая использована при расчете.

Точность типирования для каждого биоинформати-ческого инструмента представлена в табл. 3 и на рис. 3.

С обновлением используемой инструментом xHLA версии базы IPD-IMGT/HLA с 3.22.0 (10.2015) на 3.45.1 (08.2021) точность типирования аллелей HLA класса I снизилась с 0,946 до 0,521. Это может свиде-

Kourami OptiType HLAscan HLA-LA POLYSOLVER xHLA

Рис. 1. Среднее время, которое необходимо биоинформатическому инструменту для ЖЛ-типирования одного образца с покрытием > 30х

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

HLA-A

HLA-В

HLA-В

100 200 HLA-DPB1

300 0

100 200 HLA-DQB1

300 0

100 200 HLA-DRB1

300

0 100 200 300 0 100 200 300 0 100 200

Рис. 2. Количество корректно определенных аллелей 6 локусов HLA разными биоинформатическими инструментами

Точность типирования для аллелей HLA класса I

300

Kourami 3.42.0-f

Kourami 3.24.0-

OptiType -

0,901

0,947

HLAscan -HLA-LA -POLYSOLVER\ xHLA_3.45.1-xHLA 3.22.0-

0,934

0,833

0,521

0,946

0,0

0,2 0,4 0,6

Точность типирования для аллелей HLA класса II

0,8

1,0

Kourami_3.42.0 H Kourami_3.24.0 -HLAscan -HLA-LA-xHLA_3.45.1-xHLA 3.22.0-

0,815

0,837

0,798

0,858 0,871

0,0 0,2 0,4 0,6

Рис. 3. Точность типирования, которую обеспечивают биоинформатические инструменты

0,8

1,0

0

Таблица 3. Точность типирования биоинформатических инструментов.

Название Точность

инструмента типирования

HLA класса I

xHLA IMGT/HLA 3.22.0 0,946

xHLA IMGT/HLA 3.45.1 0,521

POLYSOLVER 0,952

HLA-LA 0,833

HLAscan 0,934

OptiType 0,947

Kourami IMGT/HLA 3.24.0 0,900

Kourami IMGT/HLA 3.42.0 0,951

HLA класса II

xHLA IMGT/HLA 3.22.0 0,871

xHLA IMGT/HLA 3.45.1 0,858

HLA-LA 0,798

HLAscan 0,837

Kourami IMGT/HLA 3.24.0 0,815

Kourami IMGT/HLA 3.42.0 0,803

Суммарная точность типирования HLA

классов I и II

xHLA IMGT/HLA 3.22.0 0,909

xHLA IMGT/HLA 3.45.1 0,690

HLA-LA 0,816

HLAscan 0,886

Kourami IMGT/HLA 3.24.0 0,858

Kourami IMGT/HLA 3.42.0 0,877

тельствовать или о некорректности скрипта для обновления используемой базы IPD-IMGT/HLA, или о некорректной работе данного биоинформатичес-кого инструмента с любой версией базы, кроме идущей с ним по умолчанию. С конца 2017 г. по ноябрь 2022 г. разработка и поддержка х^А его автором не осуществляется, поэтому при необходимости исполь-

зования х^А целесообразно применять этот инструмент только с идущей с ним в комплекте версией базы IPD-IMGT/HLA.

При необходимости типирования классических и неклассических генов ИЬЛ целесообразно использовать программы Коигат и HLAscan. При этом в случае Коигаш существует возможность обновлять версию IPD-IMGT/HLA без существенных потерь качества ти-пирования.

Программы P0LYS0LVER и ОрйТуре имеют высокую точность типирования, но время их работы превышает 90 мин на один образец. Среди рассмотренных только эти два инструмента поддерживают работу в соматическом режиме, поэтому целесообразно использовать их при необходимости типирования парных образцов.

Несмотря на меньшее разнообразие аллелей ИЬЛ класса II по сравнению с классом I рассмотренные биоинформатические инструменты допускают больше ошибок при типировании локусов ИЬЛ класса II. Наибольшее количество ложных определений наблюдается для локуса ИЬЛ-DQB1.

В табл. 4 приведены аллели ИЬЛ классов I и II, в которых соответствующий биоинформатический инструмент чаще всего ошибался (в скобках указано количество ложных срабатываний).

Обсуждение

За последние годы произошло значительное снижение стоимости секвенирования как экзомов, так и геномов. В этой связи технология NGS получила массовое распространение в биомедицинских лабораториях многих стран. В ближайшем будущем, вероятно, она станет обычной для медицинской практики. Стремительное развитие геномики и методов секвенирования сопровождается созданием разнообразных инструментов вычислительной биологии и биоинформатики. По мере того как биоинформатика и исследования с использованием больших данных становятся все более востре-

Таблица 4. Перечень наиболее часто некорректно определенных аллелей

Название инструмента Аллель (количество ложных срабатываний)

HLA класса I

xHLA IMGT/HLA 3.22.0 A*03:01 (3)

xHLA IMGT/HLA 3.45.1 C*07:01 (35), C*04:01 (30), C*06:02 (29)

POLYSOLVER C*17:03 (5)

HLA-LA A*24:02 (15), A*25:01 (14)

HLAscan A*01:01 (4), A*24:02 (4), C*05:01 (4)

OptiType C*17:03 (5)

Kourami IMGT/HLA 3.24.0 A*24:02 (12)

Kourami IMGT/HLA 3.42.0 C*17:03 (5)

HLA класса II

xHLA IMGT/HLA 3.22.0 DQB1*03:01 (16), DQB1*05:01 (13), DQB1*02:02 (13)

xHLA IMGT/HLA 3.45.1 DQB1*03:01 (16), DQB1*02:02 (15)

HLA-LA DQB1*02:02 (52)

HLAscan DQB1*03:01 (16), DQB1*02:02 (13), DQB1*05:01 (13)

Kourami IMGT/HLA 3.24.0 DQB1*02:02 (52)

Kourami IMGT/HLA 3.42.0 DQB1*02:02 (52)

бованными, на пути их развития и совершенствования возникают все новые проблемы, связанные с воспроизводимостью результатов, возможностью трансформации алгоритмов, расширением функционала и спектра поддерживаемых данных, совместимостью разных версий пакетов и библиотек и т.д. Растущее разнообразие вычислительных алгоритмов вынуждает исследователей проводить все больше дополнительных тестов и валидационных проверок биоинформатических инструментов для выбора оптимального пути решения исследовательских задач. В рамках данного исследования при использовании набора NGSgo-MX6-1 (GenDX, Нидерланды) была продемонстрирована возможность и целесообразность использования инструментов HLAscan и Kourami для массового типирования классических и неклассических генов HLA и двух биоинформатических инструментов POLYSOLVER и OptiType - для HLA -типирования парных образцов.

К ограничениям проведенного исследования следует отнести отсутствие на данный момент в России регистрационного удостоверения на набор NGSgo-MX6-1 (GenDX, Нидерланды), хотя в Канаде эти реактивы имеют маркировку in vitro diagnostic. Стоит обратить внимание, что последующая проверка результатов на-

■ Литература

1. Пальцев М.А., Хаитов Р.М., Алексеев Л.П., Болдырева М.Н. Главный комплекс тканевой совместимости человека (HLA) и клиническая трансплантология. Молекулярная медицина. 2009; 2: 3-13.

2. Aptsiauri N., Cabrera T., Mendez R., Garcia-Lora A., Ruiz-Cabello F., Garrido F. Role of altered expression of HLA class I molecules in cancer progression. Adv. Exp. Med. Biol. 2007; 601: 123-31. DOI: https://doi.org/10.1007/978-0-387-72005-0_13

3. Robinson J., Barker D.J., Georgiou X., Cooper M.A., Flicek P., Marsh S.G. IPD-IMGT/HLA Database. Nucleic Acids Res. 2020; 48 (D1): 948-55. DOI: https://doi.org/10.1093/nar/gkz950

4. Dendrou C.A., Petersen J., Rossjohn J., Fugger L. HLA variation and disease. Nat. Rev. Immunol. 2018; 18 (5): 325-39. DOI: https://doi. org/10.1038/nri.2017.143

5. Moutsianas L., Jostins L., Beecham A.H., Dilthey A.T., Xifara D.K., Ban M., Shah T.S., Patsopoulos N.A., Alfredsson L., Anderson C.A., Attfield K.E., Baranzini S.E., Barrett J., Binder T., Booth D., Buck D., Celius E.G., Cotsapas C., D'Alfonso S., Dendrou C.A., Donnelly P., Dubois B., Fontaine B., Fugger L., Goris A., Gourraud P.A., Graetz C., Hemmer B., Hillert J.; International IBD Genetics Consortium (IIBDGC), Kockum I., Leslie S., Lill C.M., Martinelli-Boneschi F., Oksenberg J.R., Olsson T., Oturai A., Saarela J., Sendergaard H.B., Spurkland A., Taylor B., Winkelmann J., Zipp F., Haines J.L., Pericak-Vance M.A., Spencer C., Stewart G., Hafler D.A., Ivinson A.J., Harbo H.F., Hauser S.L., De Jager P.L., Compston A., McCauley J.L., Sawcer S., McVean G. Class II HLA interactions modulate genetic risk for multiple sclerosis. Nat. Genet. 2015; 47 (10): 1107-13. DOI: https://doi.org/10.1038/ ng.3395

6. Weinstock C., Matheis N., Barkia S., Haager M.C., Janson A., Markovic A., Bux J., Kahaly G.J. Autoimmune polyglandular syndrome type 2 shows the same HLA class II pattern as type 1 diabetes. Tissue Antigens. 2011; 77 (4): 317-24. DOI: https://doi.org/10.1111/j.1399-0039.2011.01634.x

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Dilthey A.T., Gourraud P.A., Mentzer A.J., Cereb N., Iqbal Z., McVean G. High-Accuracy HLA Type Inference from Whole-Genome Sequencing Data Using Population Reference Graphs. PLoS Comput. Biol. 2016; 12 (10). DOI: https://doi.org/10.1371/journal.pcbi.1005151

8. bcl2fastq and bcl2fastq2 Conversion Software. URL: https://emea.support.illumina.com/sequencing/sequencing_soft

шего исследования с использованием унифицированных эталонных данных позволит подтвердить достоверность и ценность методического подхода к выбору оптимального инструмента для ИЬЛ -типирования для использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования. В рамках проведенного исследования не проводилось изучение степени влияния глубины прочтений и длины вставки на точность типирования, обеспечиваемую изученными биоинформатическими инструментами. Кроме того, применение биоинформатических методов ИЬЛ -типирования не позволяет обнаруживать новые аллели ИЬЛ из-за использования словаря базы ¡РБ-ШвТ/НЬЛ. Для идентификации новых аллелей ИЬЛ необходимо использовать изолированное секвенирование определенного аллеля.

Заключение

Результаты и выводы, полученные в рамках исследования, представляют собой основу методического подхода к выбору оптимального инструмента для ИЬЛ-типирования и использования в биоинформатических сценариях обработки данных полногеномного и/или полноэкзомного секвенирования.

ware/bcl2fastq-conversion-software/downloads.html (дата обращения: 15.09.2022)

9. Sequencing Analysis Viewer Support. URL: https://support.illu-mina.com/sequencing/sequencing_sofftware/sequencing_analysis_viewer_ sav.html (дата обращения: 15.09.2022)

10. Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data. URL: https://www.bioinformatics. babraham.ac.uk/projects/fastqc/ (дата обращения: 15.09.2022)

11. Illumina DRAGEN Bio-IT Platform Variant calling & secondary genomic analysis software tool. URL: https://www.illumina.com/products/ by-type/informatics-products/dragen-bio-it-platform.html (дата обращения: 15.09.2022)

12. Schneider V.A., Graves-Lindsay T., Howe K., Bouk N., Chen H.C., Kitts P.A., Murphy T.D., Pruitt K.D., Thibaud-Nissen F., Albracht D., Fulton R.S., Kremitzki M., Magrini V, Markovic C., McGrath S., Steinberg K.M., Auger K., Chow W., Collins J., Harden G., Hubbard T., Pelan S., Simpson J.T., Threadgold G., Torrance J., Wood J.M., Clarke L., Koren S., Boitano M., Peluso P., Li H., Chin C.S., Phillippy A.M., Durbin R., Wilson R.K., Flicek P., Eichler E.E., Church D.M. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 2017; 27 (5): 849-64. DOI: https://doi.org/10.1101/ gr.213611.116

13. Xie C., Zhen X.Y., Wong M., Piper J., Long T., Kirkness E.F., Biggs W.H., Bloom K., Spellman S., Vierra-Green C., Brady C., Scheuermann R.H., Telenti A., Howard S., Brewerton S., Turpaz Y., Venter J.C. Fast and accurate HLA typing from short-read next-generation sequence data with xHLA. Proc. Natl. Acad. Sci. USA. 2017; 114 (30): 8059-64. DOI: https://doi.org/10.1073/pnas.1707945114

14. Shukla S.A., Rooney M.S., Rajasagi M., Tiao G., Dixon P.M., Lawrence M.S., Stevens J., Lane W.J., Dellagatta J.L., Steelman S., Sougnez C., Cibulskis K., Kiezun A., Hacohen N., Brusic V., Wu C.J., Getz G. Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat. Biotechnol. 2015; 33 (11): 1152-8. DOI: https://doi. org/10.1038/nbt.3344

15. Szolek A., Schubert B., Mohr C., Sturm M., Feldhahn M., Kohlbacher O. OptiType: precision HLA typing from next-generation sequencing data. J. Bioinform. 2014; 30 (23): 3310-6. DOI: https://doi. org/10.1093/bioinformatics/btu548

16. Ka S., Lee S., Hong J., Cho Y., Sung J., Kim H.N., Kim H.L., Jung J. HLAscan: genotyping of the HLA region using next-generation sequencing data. BMC Bioinform. 2017; 18 (1): 258. DOI: https://doi.org/10.1186/ s12859-017-1671-3

17. Lee H., Kingsford C. Kourami: graph-guided assembly for novel human leukocyte antigen allele discovery. Genome Biol. 2018; 19 (1). DOI: https://doi.org/10.1186/s13059-018-1388-2

18. Dilthey A.T., Mentzer A.J., Carapito R., Cutland C., Cereb N., Madhi S.A. HLA*LA-HLA typing from linearly projected graph alignments. Bioinform. 2019; 35 (21): 4394-6. DOI: https://doi.org/10.1093/ bioinformatics/btz235

■ References

1. Paltsev M.A., Khaitov R.M., Alekseev L.P., Boldyreva M.N. HLA and clinical transplantology. Molecular medicine. 2009; 2: 3-13. (in Russian)

2. Aptsiauri N., Cabrera T., Mendez R., Garcia-Lora A., Ruiz-Cabello F., Garrido F. Role of altered expression of HLA class I molecules in cancer progression. Adv. Exp. Med. Biol. 2007; 601: 123-31. DOI: https://doi.org/10.1007/978-0-387-72005-0_13

3. Robinson J., Barker D.J., Georgiou X., Cooper M.A., Flicek P., Marsh S.G. IPD-IMGT/HLA Database. Nucleic Acids Res. 2020; 48 (D1): 948-55. DOI: https://doi.org/10.1093/nar/gkz950

4. Dendrou C.A., Petersen J., Rossjohn J., Fugger L. HLA variation and disease. Nat. Rev. Immunol. 2018; 18 (5): 325-39. DOI: https://doi. org/10.1038/nri.2017.143

5. Moutsianas L., Jostins L., Beecham A.H., Dilthey A.T., Xifara D.K., Ban M., Shah T.S., Patsopoulos N.A., Alfredsson L., Anderson C.A., Attfield K.E., Baranzini S.E., Barrett J., Binder T., Booth D., Buck D., Celius E.G., Cotsapas C., D'Alfonso S., Dendrou C.A., Donnelly P., Dubois B., Fontaine B., Fugger L., Goris A., Gourraud P.A., Graetz C., Hemmer B., Hillert J.; International IBD Genetics Consortium (IIBDGC), Kockum I., Leslie S., Lill C.M., Martinelli-Boneschi F., Oksenberg J.R., Olsson T., Oturai A., Saarela J., Sendergaard H.B., Spurkland A., Taylor B., Winkelmann J., Zipp F., Haines J.L., Pericak-Vance M.A., Spencer C., Stewart G., Hafler D.A., Ivinson A.J., Harbo H.F., Hauser S.L., De Jager P.L., Compston A., McCauley J.L., Sawcer S., McVean G. Class II HLA interactions modulate genetic risk for multiple sclerosis. Nat. Genet. 2015; 47 (10): 1107-13. DOI: https://doi.org/10.1038/ng.3395

6. Weinstock C., Matheis N., Barkia S., Haager M.C., Janson A., Markovic A., Bux J., Kahaly G.J. Autoimmune polyglandular syndrome type 2 shows the same HLA class II pattern as type 1 diabetes. Tissue Antigens. 2011; 77 (4): 317-24. DOI: https://doi.org/10.1111/j. 1399-0039.2011.01634.x

7. Dilthey A.T., Gourraud P.A., Mentzer A.J., Cereb N., Iqbal Z., McVean G. High-Accuracy HLA Type Inference from Whole-Genome Sequencing Data Using Population Reference Graphs. PLoS Comput. Biol. 2016; 12 (10). DOI: https://doi.org/10.1371/journal.pcbi.1005151

8. bcl2fastq and bcl2fastq2 Conversion Software. URL: https:// emea.support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software/downloads.html (date of access 15.09.2022)

9. Sequencing Analysis Viewer Support. URL: https://support. illumina.com/sequencing/sequencing_software/sequencing_analysis_ viewer_sav.html (date of access 15.09.2022)

10. Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data. URL: https://www.bioinformatics. babraham.ac.uk/projects/fastqc (date of access 15.09.2022)

11. Illumina DRAGEN Bio-IT Platform Variant calling & secondary genomic analysis software tool. URL: https://www.illumina.com/products/ by-type/informatics-products/dragen-bio-it-platform.html (date of access 15.09.2022)

Сведения об авторах

Казакова Полина Геннадьевна - аналитик 2-й категории отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: PKazakova@cspfmba.ru https://orcid.org/0000-0002-8966-4158

19. MiSeq Reporter Software (MSR). URL: https ://www. illumina. com/systems/sequencing-platforms/miseq/products-services/miseq-re-porter.html (дата обращения: 15.09.2022)

20. NGSengine GenDx. URL: https://www.gendx.com/product_line/ ngsengine/ (дата обращения: 15.09.2022)

21. Pandas-dev/pandas: Pandas 1.4.2. URL: https://zenodo.org/re-cord/6408044 (дата обращения: 15.09.2022)

22. Matplotlib/matplotlib: REL: v3.5.2. URL: https://zenodo.org/re-cord/6513224 (дата обращения: 15.09.2022)

23. Waskom M.L. Seaborn: statistical data visualization. J. Open Source Softw. 2021; 6 (60): 3021. DOI: https://doi.org/10.21105/joss.03021

12. Schneider V.A., Graves-Lindsay T., Howe K., Bouk N., Chen H.C., Kitts P.A., Murphy T.D., Pruitt K.D., Thibaud-Nissen F., Albracht D., Fulton R.S., Kremitzki M., Magrini V, Markovic C., McGrath S., Steinberg K.M., Auger K., Chow W., Collins J., Harden G., Hubbard T., Pelan S., Simpson J.T., Threadgold G., Torrance J., Wood J.M., Clarke L., Koren S., Boitano M., Peluso P., Li H., Chin C.S., Phillippy A.M., Durbin R., Wilson R.K., Flicek P., Eichler E.E., Church D.M. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality ofthe reference assembly. Genome Res. 2017; 27 (5): 849-64. DOI: https:// doi.org/10.1101/gr.213611.116

13. Xie C., Zhen X.Y., Wong M., Piper J., Long T., Kirkness E.F., Biggs W.H., Bloom K., Spellman S., Vierra-Green C., Brady C., Scheuermann R.H., Telenti A., Howard S., Brewerton S., Turpaz Y., Venter J.C. Fast and accurate HLA typing from short-read next-generation sequence data with xHLA. Proc. Natl. Acad. Sci. USA. 2017; 114 (30): 8059-64. DOI: https://doi.org/10.1073/pnas.1707945114

14. Shukla S.A., Rooney M.S., Rajasagi M., Tiao G., Dixon P.M., Lawrence M.S., Stevens J., Lane W.J., Dellagatta J.L., Steelman S., Sougnez C., Cibulskis K., Kiezun A., Hacohen N., Brusic V., Wu C.J., Getz G. Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat. Biotechnol. 2015; 33 (11): 1152-8. DOI: https://doi. org/10.1038/nbt.3344

15. Szolek A., Schubert B., Mohr C., Sturm M., Feldhahn M., Kohlbacher O. OptiType: precision HLA typing from next-generation sequencing data. J. Bioinform. 2014; 30 (23): 3310-6. DOI: https://doi. org/10.1093/bioinformatics/btu548

16. Ka S., Lee S., Hong J., Cho Y., Sung J., Kim H.N., Kim H.L., Jung J. HLAscan: genotyping of the HLA region using next-generation sequencing data. BMC Bioinform. 2017; 18 (1): 258. DOI: https://doi. org/10.1186/s12859-017-1671-3

17. Lee H., Kingsford C. Kourami: graph-guided assembly for novel human leukocyte antigen allele discovery. Genome Biol. 2018; 19 (1). DOI: https://doi.org/10.1186/s13059-018-1388-2

18. Dilthey A.T., Mentzer A.J., Carapito R., Cutland C., Cereb N., Madhi S.A. HLA*LA-HLA typing from linearly projected graph alignments. Bioinform. 2019; 35 (21): 4394-6. DOI: https://doi. org/10.1093/bioinformatics/btz235

19. MiSeq Reporter Software (MSR). URL: https ://www. illumina. com/systems/sequencing-platforms/miseq/products-services/miseq-reporter.html (date of access 15.09.2022)

20. NGSengine GenDx. URL: https://www.gendx.com/product_line/ ngsengine/ (date of access 15.09.2022)

21. Pandas-dev/pandas: Pandas 1.4.2. URL: https://zenodo.org/ record/6408044 (date of access 15.09.2022)

22. Matplotlib/matplotlib: REL: v3.5.2. URL: https://zenodo.org/ record/6513224 (date of access 15.09.2022)

23. Waskom M.L. Seaborn: statistical data visualization. J. Open Source Softw. 2021; 6 (60): 3021. DOI: https://doi.org/10.21105/joss.03021

Authors' information

Polina G. Kazakova - the 2nd Category Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: PKazakova@cspfmba.ru https://orcid.org/0000-0002-8966-4158

Митрофанов Сергей Игоревич - ведущий аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: Mitrofanov@cspfmba.ru https://orcid.org/0000-0003-0358-0568

Ахмерова Юлия Николаевна - аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: YUAhmerova@cspfmba.ru https://orcid.org/0000-0002-8805-7073

Варламова Ольга Вячеславовна - аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: OVArlamova@cspfmba.ru https://orcid.org/0000-0002-4184-4619

Земский Павел Юрьевич - аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: PZemskiy@cspfmba.ru https://orcid.org/0000-0001-8709-4991

Мкртчян Анастасия Алексеевна - аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: AVasileva@cspfmba.ru https://orcid.org/0000-0001-5910-5868

Сергеев Андрей Павлович - аналитик 1-й категории отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: ASergeev@cspfmba.ru https://orcid.org/0000-0003-4005-9018

Снигирь Екатерина Андреевна - канд. биол. наук, вед. аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: ESnigir@cspfmba.ru https://orcid.org/0000-0003-1245-7764

Фелиз Надежда Владимировна - аналитик 2-й категории отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: NSmirnova@cspfmba.ru https://orcid.org/0000-0001-6620-2770

Фролова Лидия Владимировна - аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: LFrolova@cspfmba.ru https://orcid.org/0000-0001-6823-9032

Шпакова Татьяна Андреевна - аналитик отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: Maslova@cspfmba.ru https://orcid.org/0000-0003-1450-929X

Sergey I. Mitrofanov - Leader Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: Mitrofanov@cspfmba.ru https://orcid.org/0000-0003-0358-0568

Yuliya N. Akhmerova - Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: YUAhmerova@cspfmba.ru https://orcid.org/0000-0002-8805-7073

Olga V. Varlamova - Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation E-mail: OVArlamova@cspfmba.ru https://orcid.org/0000-0002-4184-4619

Pavel U. Zemsky - Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation E-mail: PZemskiy@cspfmba.ru https://orcid.org/0000-0001-8709-4991

Anastasia A. Mkrtchian - Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: AVasileva@cspfmba.ru https://orcid.org/0000-0001-5910-5868

Andrey P. Sergeev - the 1st Category Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: ASergeev@cspfmba.ru https://orcid.org/0000-0003-4005-9018

Ekaterina A. Snigir - PhD, Leader Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: ESnigir@cspfmba.ru https://orcid.org/0000-0003-1245-7764

Nadezhda V. Feliz - the 2nd Category Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: NSmirnova@cspfmba.ru https://orcid.org/0000-0001-6620-2770

Lidiya V. Frolova - Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation E-mail: LFrolova@cspfmba.ru https://orcid.org/0000-0001-6823-9032

Tatyana A. Shpakova - Analyst of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: Maslova@cspfmba.ru https://orcid.org/0000-0003-1450-929X

Юдин Владимир Сергеевич - канд. биол. наук, начальник отдела медицинской геномики ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: VYudin@cspfmba.ru https://orcid.org/0000-0002-9199-6258

Кескинов Антон Артурович - канд. мед. наук, канд. экон. наук, начальник управления организации проведения научных исследований ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: Keskinov@cspfmba.ru https://orcid.org/0000-0001-7378-983X

Юдин Сергей Михайлович - д-р мед. наук, проф., генеральный директор ФГБУ «ЦСП» ФМБА России, Москва, Российская Федерация E-mail: yudin@cspmz.ru https://orcid.org/0000-0002-7942-8004

Скворцова Вероника Игоревна - член-корреспондент РАН, д-р мед. наук, проф., руководитель ФМБА России, Москва, Российская Федерация E-mail: Skvortsova@cspfmba.ru https://orcid.org/0000-0003-2815-280X

Vladimir S. Yudin - PhD, Head of Medical Genomics Dept., CSP of FMBA of Russia, Moscow, Russian Federation

E-mail: VYudin@cspfmba.ru https://orcid.org/0000-0002-9199-6258

Anton A. Keskinov - PhD in Medicine, PhD in Economics, Head of Dept. for Organization of Scientific Research, CSP of FMBA of Russia, Moscow, Russian Federation E-mail: Keskinov@cspfmba.ru https://orcid.org/0000-0001-7378-983X

Sergey M. Yudin - MD, Prof., General Director, CSP of FMBA of Russia, Moscow, Russian Federation E-mail: yudin@cspmz.ru https://orcid.org/0000-0002-7942-8004

Veronika I. Skvortsova - Corresponding Member of RAS, MD, PhD, Prof., Head of FMBA of Russia, Moscow, Russian Federation

E-mail: Skvortsova@cspfmba.ru https://orcid.org/0000-0003-2815-280X

i Надоели баннеры? Вы всегда можете отключить рекламу.