Научная статья на тему 'ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ПРАКТИЧЕСКОЙ ОБРАБОТКИ ГЕНОМНЫХ ДАННЫХ МИКОБАКТЕРИЙ ТУБЕРКУЛЕЗА'

ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ПРАКТИЧЕСКОЙ ОБРАБОТКИ ГЕНОМНЫХ ДАННЫХ МИКОБАКТЕРИЙ ТУБЕРКУЛЕЗА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
34
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕНОМИКА ВОЗБУДИТЕЛЯ ТУБЕРКУЛЕЗА / УСТОЙЧИВОСТЬ К АНТИБИОТИКАМ / БИОИНФОРМАТИКА / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ / TUBERCULOSIS AGENT GENOMICS / ANTIBIOTIC RESISTANCE / BIOINFORMATICS / SOFTWARE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Спринджук М.В., Титов Л.П., Скрягин А.Е., Скрягина Е.М., Кончиц А.П.

Разработана новая версия программного комплекса для выполнения практического биоинформатического анализа геномных данных Mycobacterium tuberculosis с целью получения индивидуального мутационного профиля, необходимого для поддержки принятия решений о назначении адекватной антимикробной химиотерапии и развития фундаментальных исследований в сфере бактериологии и эпидемиологии. Статья и разработанное программное обеспечение могут быть интересны как начинающим, так и опытным биоинформатикам, биологам, микробиологам и эпидемиологам, а также врачам и инженерам, занимающимся научной деятельностью.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Спринджук М.В., Титов Л.П., Скрягин А.Е., Скрягина Е.М., Кончиц А.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOFTWARE SYSTEM FOR PRACTICAL PROCESSING OF MYCOBACTERIA TUBERCULOSIS GENOMIC DATA

A new software has been developed for the practical bioinformatic analysis of genomic Mycobacterium tuberculosis data to obtain an individual target mutational profile required to support decision-making on adequate antimicrobial therapy and for the goals of fundamental research in bacteriology and epidemiology. The developed software can be useful both to beginners and experienced bioinformaticians, biologists, microbiologists, epidemiologists, as well as clinical doctors and engineers engaged in scientific research.

Текст научной работы на тему «ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ПРАКТИЧЕСКОЙ ОБРАБОТКИ ГЕНОМНЫХ ДАННЫХ МИКОБАКТЕРИЙ ТУБЕРКУЛЕЗА»

УДК 616-07:004

М. В. Спринджук1, Л. П. Титов2, А. Е. Скрягин36, Е. М. Скрягина3, А. П. Кончиц4, О. М. Залуц-

кая3, А. А. Гилеп5, В. В. Слизень6

ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ПРАКТИЧЕСКОЙ ОБРАБОТКИ ГЕНОМНЫХ ДАННЫХ МИКОБАКТЕРИЙ ТУБЕРКУЛЕЗА

'Объединенный институт проблем информатики НАН Беларуси Республика Беларусь, 220012, Минск, ул. Сурганова 6 e-mail: stepanenkomatvei@yandex.by 2РНПЦ Микробиологии и эпидемиологии Республика Беларусь, 220114, Минск, ул. Филимонова, 23 РНПЦ Пульмонологии и фтизиатрии Республика Беларусь, 220053, Минск, ул. Долгиновский тракт, 157 4Институт леса НАН Беларуси Республика Беларусь, 246001, Гомель, ул. Пролетарская, 71 5Институт биоорганической химии НАН Беларуси Республика Беларусь, 220141, Минск, ул. Академика Купревича, 5, корп. 3 6Белорусский государственный медицинский университет Республика Беларусь, 220116, Минск, пр-т Дзержинского, 83

Разработана новая версия программного комплекса для выполнения практического биоинформатического анализа геномных данных Mycobacterium tuberculosis с целью получения индивидуального мутационного профиля, необходимого для поддержки принятия решений о назначении адекватной антимикробной химиотерапии и развития фундаментальных исследований в сфере бактериологии и эпидемиологии. Статья и разработанное программное обеспечение могут быть интересны как начинающим, так и опытным биоинформатикам, биологам, микробиологам и эпидемиологам, а также врачам и инженерам, занимающимся научной деятельностью.

Ключевые слова: геномика возбудителя туберкулеза, устойчивость к антибиотикам, биоинформатика, программное обеспечение.

Введение

Внедрение в клиническую бактериологию и эпидемиологию подходов и методов полногеномного секвенирования патогенных бактерий обеспечило быстрый прогресс в накоплении данных о первичной структуре генов и геномов микроорганизмов, представляющих огромный потенциал для анализа и применения в молекулярной бактериологии и эпидемиологии [1, 2, 3]. Среди клинически значимых для человека бактерий Mycobacterium tuberculosis (МБТ) является основным патогеном, вызывающим ежегодно 10 млн новых случаев туберкулеза и около 3 млн смертей. Геном МБТ был секвенирован одним из первых в 1998 году [4]. Ежегодно накапливается большой объем геномных данных, которые остаются недостаточно проанализированными и, соответственно, недоступными для специ-

алистов в области микобактериологии, эпидемиологии и клиницистов.

Информация о геномах патогенных микроорганизмов в первую очередь необходима для поиска эффективных методов, направленных на преодоление резистентности микробов к химиотерапии. Тема поиска и анализа мишеней устойчивости к актибиотикам наиболее актуальна и приоритетна по разным критериям. Туберкулез по-прежнему уносит жизни миллионов людей и животных, поэтому возбудитель этого заболевания является важной мишенью для биоинформатических геномных исследований [5—11]. Современная техника позволяет секвенировать ДНК и РНК из различных объектов и получать файлы коротких и длинных прочтений в стандартном FASTQ формате. С обработки и анализа этих данных и начинается практически любой конвейер применения

биоинформатических алгоритмов и моделей [12]. Известны программное обеспечение и веб-сервисы, предназначенные для определения мутационного профиля образцов полных геномов микобактерии туберкулеза, — Mykrobe-Predictor [13, 14], KvarQ [15], TGS-TB [16], PhyResSE [17], CASTB [18], TBProfiler [19, 20], a также программные комплексы для анализа и обработки биоинфор-матических данных следующего поколения: NextGene Softgenetics, Ugene, Converege, CLC Workbench, NIH Workbench, CodonCode, веб-платформа Galaxy [21].

Материалы и методы

Программный комплекс был разработан в двух версиях: настольной-десктоп (рис. 1) и с веб-интерфейсом (рис. 2, 3). Для разра-

ботки программного комплекса применялся язык программирования Python 3.7 и Linux Shell. Модули, которые были использованы в данном программном обеспечении (рис. 4),

Рис. 1. Интерфейс десктоп Linux версии программного комплекса

Рис. 2. Фрагмент интерфейса Python-Django веб версии программного комплекса

Tuberculosis genomics processor

Г

jurat: со

L 'г4.'Г loiiLn I VTUOT *

» Rj*|ii

Upload

VHM FbKlfll

S-Ltrr Cüinptw

* * 'JrMr ПГ¥ Ж I ctni IlL-dbui lln^ *

Upload ли archive muh fine life: a äjiui witfi rrieirimTB sample ШепВПег su

Lifn Flk'

Н|пп:|Ы 1л- Im Ilm: LÜH MS ЛМоыч! Mir [v|Hh' rar jjp

&or/it... No tile Bele(tfl4S. Ujjload

iubmit

Рис. 3. Интерфейс Drupal веб версии программного комплекса

Рис. 4. Архитектура разработанной системы обработки геномных данных микобактерий туберкулеза

содержали коды языков программирования Java, Perl, Javascript, HTML, Ruby, С++, SQL. В отличие от предыдущих версий программного комплекса, которые были описаны в публикациях [22, 23, 24], в данной версии применялась аннотация файла мутационного профиля удаленной онлайн системой RAST и в веб-версии была добавлена функция de novo сборки исходных геномных данных сборщиком геномов A5-miseq (https://chipster.csc.fi/ manual/a5-miseq.html).

Результаты и обсуждение

Разработанное программное обеспечение позволяет в полуавтоматическом режиме обрабатывать поединично запрос на обработку полногеномных данных микобактерии туберкулеза. Фактически алгоритм обработки данных состоит из следующих последовательных шагов:

1) прием и обработка введенной строки SRA идентификатора в форму интерфейса;

2) загрузка файлов генома;

3) тримминг данных;

4) картирование-выравнивание на ссылочный референсный геном;

5) de novo сборка исходных геномных данных;

6) предобработка файла выравнивания генома и запрос вариантов;

7) оптимизация (постобработка файла запроса вариантов, т. e. мутационного профиля микроба;

8) аннотация файла мутационного профиля модулями SNPEff [25] (рис. 5), RAST и Prokka;

9) поиск мутаций в отобранных генах путем выполнения операции пересечения множеств;

10) перенос по директориям, отбор и архивирование файлов результатов вычислительного эксперимента;

11) загрузка результатов на облачное хранилище.

В отличие от предыдущих версий программного комплекса в веб-версии была добавлена функция de novo сборки исходных парных коротких прочтений, необходимая для изучения

LH4* MhlHili УнчлЩи*

AUWH I.Hliü 1 lü> 2&С

Tnut Д(*ЩП I.4S tfa

MimbfriMriiDtiib) 1)]н>

SM" M 1

MW

14S «

DLL 101

n 1

IHV ü

HJV {1

™> 0

MTEAVM. D

l,M

Niimhfr of fltftls fry imp id

Пч'-гГ hlULl

МОИ LIT

LOW №

HiXiflATE er? 50M*

ЫОЛМГП

Mi in hfi- iiF е(Г«й bv Finn ■ ni3l.iI ch»

Dv--A PetljimI

ИНИН

NDfSEFCE El 3 LMii I

MUHT ЬК 3BV* |

MKStfiifi! I Silent rider I.№07

Рис. 5. Фрагмент отчета, сгенерированного модулем программного комплекса, использующим программу SNPeff

геномной структуры и филогенеза микроба, факторов его вирулентности и резистентности, а также дополнительная аннотация файла мутационного профиля модулями Prokka [26] и RAST [27]. Расширен список координат генов-мишеней, в который были добавлены гены, ответственные не только за резистентность к химиотерапии инфекции, но и за вирулентность, патогенность, P450 и липидный метаболизм микроба.

Программное обеспечение было протестировано на пяти образцах полных геномов возбудителя туберкулеза, которые были отобраны по критерию минимальных размеров полных геномов.

Заключение

Разработана новая версия программного комплекса для анализа и обработки геномных данных микобактерии туберкулеза. Код программного обеспечения доступен бесплатно по письменному запросу у авторов. Перспективным направлением для дальнейших улучшений системы являются добавление новых модулей аннотации как результатов de novo сборки, так и мутационных профилей образцов микробов, применение операций исправления ошибок, конденсации и элонгации данных, эксперименты с новыми модулями для картирования прочтений, использование более длинных прочтений для вычисления мутационных профилей, разработка модулей для подбора и назначения эффективных антимикробных средств, а также интеграция с ресурсами языков R и Javascript для визуализации данных.

Исследование поддержано грантами ОИПИ и CRDE

Список использованных источников

1. Tassios, P.T., Moran-Gilad, J. Bacterial next generation sequencing (NGS) made easy // Clin Microbiol Infect. - 2018. - Vol. 24, № 4. -P. 332-334.

2. Chiner-Oms, A., Comas, I. Large genomics datasets shed light on the evolution of the Mycobacterium tuberculosis complex // Infect Genet Evol. - 2019. - P. 1-10.

3. Seto, J., Otani, Y., Wada, T., Suzuki, Y., Ikeda, T. Nosocomial Mycobacterium tuberculosis

transmission by brief casual contact identified using comparative genomics // J Hosp Infect. -2019. - Vol. 102, № 1. - P. 116-119.

4. Cole, S.T., Brosch, R., Parkhill, J., Garnier, T., Churcher, C. Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence // Nature. - 1998. - Vol. 393, № 6685. - P. 537-544.

5. Arjomandzadegan, M., Nazari, R., Zolfa-ghari, M., Taherahmadi, M., Sadrnia, M. Performance Assessment of the Polymerase Chain Reaction-Restriction Fragment Length Polymorphism Method for Rapid Detection of Susceptibility to Ethambutol and Molecular Prediction of Extensively Drug-resistant Tuberculosis in Clinical Isolates of Mycobacterium tuberculosis // West Indian Med J. -2015. - Vol. 64, № 4. - P. 325-332.

6. Sarmadian, H., Nazari, R., Zolfaghari, M.R., Pirayandeh, M., Sadrnia, M. Study of carD gene sequence in clinical isolates of Mycobacterium tuberculosis // Acta Microbiol Immunol Hung. -2014. - Vol. 61, № 1. - P. 1-10.

7. Ianovich, O.O., Nosova, E.S., Titov, L.P. [Polymorphism of the genes IL-1RA and TNF-alpha in patients with gastritis and duodenal ulcer associated with Helicobacter pylori] // Mol Gen Mikrobiol Virusol. - 2013. - № 1. - P. 31-34.

8. Hashemi-Shahraki, A., Bostanabad, S.Z., Heidarieh, P., Titov, L.P., Khosravi, A.D. Species spectrum of nontuberculous mycobacteria isolated from suspected tuberculosis patients, identification by multi locus sequence analysis // Infect Genet Evol. - 2013. - Vol. 20. - P. 312-324.

9. Surkova, L., Horevich, H.L., Titov, L.P., Sahalchyk, E., Arjomandzadegan, M. A study on demographic characteristics of drug resistant Mycobacterium tuberculosis isolates in Belarus // Int J Mycobacteriol. - 2012. - Vol. 1, № 2. -P. 75-81.

10. Khrustalev, V.V., Arjomandzadegan, M., Barkovsky, E.V., Titov, L.P. Low rates of synonymous mutations in sequences of Mycobacterium tuberculosis GyrA and KatG genes // Tuberculosis (Edinb). - 2012. - Vol. 92, № 4. - P. 333-344.

11. Arjomandzadegan, M., Titov, L.P., Surkova, L.K., Farnia, P., Sheikholeslami, F. Determination of principal genotypic groups among susceptible, MDR and XDR clinical isolates of Mycobacterium tuberculosis in Belarus and Iran // Tuberk Toraks. - 2012. - Vol. 60, № 2. -P. 153-159.

12. Lynch, T., Petkau, A., Knox, N., Graham, M., Van Domselaar, G. A Primer on Infectious Disease Bacterial Genomics // Clin Microbiol Rev. -2016. - Vol. 29, № 4. - P. 881-913.

13. Bradley, P., Gordon, N.C., Walker, T.M., Dunn, L., Heys, S. Corrigendum: Rapid antibiotic-resistance predictions from genome sequence data for Staphylococcus aureus and Mycobacterium tuberculosis // Nat Commun. - 2016. - Vol. 7, -P. 11465.

14. Bradley, P., Gordon, N.C., Walker, T.M., Dunn, L., Heys, S. Rapid antibiotic-resistance predictions from genome sequence data for Staphy-lococcus aureus and Mycobacterium tuberculosis // Nat Commun. - 2015. - Vol. 6. - P. 10063.

15. Steiner, A., Stucki, D., Coscolla, M., Borrell, S., Gagneux, S. KvarQ: targeted and direct variant calling from fastq reads of bacterial genomes // BMC Genomics. - 2014. - Vol. 15. - P. 881.

16. Sekizuka, T., Yamashita, A., Murase, Y., Iwamoto, T., Mitarai, S. TGS-TB: Total Genotyping Solution for Mycobacterium tuberculosis Using Short-Read Whole-Genome Sequencing // PLoS One. - 2015. - Vol. 10, № 11. - P. e0142951.

17. Feuerriegel, S., Schleusener, V., Beckett, P., Kohl, T.A., Miotto, P. PhyResSE: a Web Tool Delineating Mycobacterium tuberculosis Antibiotic Resistance and Lineage from Whole-Genome Sequencing Data // J Clin Microbiol. - 2015. -Vol. 53, № 6. - P. 1908-1914.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

18. Iwai, H., Kato-Miyazawa, M., Kirikae, T., Miyoshi-Akiyama, T. CASTB (the comprehensive analysis server for the Mycobacterium tuberculosis complex): A publicly accessible web server for epidemiological analyses, drug-resistance prediction and phylogenetic comparison of clinical isolates // Tuberculosis (Edinb). - 2015. - Vol. 95, № 6. - P. 843-844.

19. Ngo, T.M., Teo, Y.Y. Genomic prediction of tuberculosis drug-resistance: benchmarking existing databases and prediction algorithms // BMC Bioinformatics. - 2019. - Vol. 20, № 1. - P. 68.

20. Phelan, J., O'Sullivan, D.M., Machado, D., Ramos, J., Whale, A.S. The variability and

reproducibility of whole genome sequencing technology for detecting resistance to anti-tuberculous drugs // Genome Med. - 2016. - Vol. 8, № 1. - P. 132.

21. Schleusener, V., Koser, C.U., Beckert, P., Niemann, S., Feuerriegel, S. Mycobacterium tuberculosis resistance prediction and lineage classification from genome sequencing: comparison of automated analysis tools // Sci Rep. - 2017. -Vol. 7, - P. 46327.

22. Спринджук, М., Сергеев, Р., Демидчик, Ю., Залуцкая, О., Скрягин, А. Программное обеспечение для обработки данных полногеномного секвенирования микроорганизмов // Туберкулез и болезни легких. - 2016. - Vol. 94, № 2. -P. 47-54.

23. Спринджук, М., Титов, Л., Залуцкая, О., Скрягин, А., Скрягина, А. Новое программное обеспечение для обработки данных полных геномов микобактерий туберкулеза // Туберкулез и болезни легких. - 2017. - Vol. 95, № 6. - P. 41-44.

24. Спринджук, М., Титов, Л., Слизень, В., Скрягин, А., Скрягина, Е. Программно-вычислительный комплекс «Окунь-2» для оценки мутационного профиля генов резистентности и вирулентности секвенированных геномов микобактерии туберкулеза // Доклады Белорусского государственного университета информатики и радиоэлектроники. - 2018. - № 6 (116). - P. 40-45.

25. Cingolani, P., Platts, A., Wang le, L., Coon, M., Nguyen, T. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3 // Fly (Austin). - 2012. - Vol. 6, № 2. - P. 80-92.

26. Seemann, T. Prokka: rapid prokaryotic genome annotation // Bioinformatics. - 2014. -Vol. 30, № 14. - P. 2068-2069.

27. Davis, J.J., Boisvert, S., Brettin, T., Kenyon, R.W., Mao, C. Antimicrobial Resistance Prediction in PATRIC and RAST // Sci Rep. -2016. - Vol. 6. - P. 27930.

M. V. Sprindzuk1, L. P. Titov2, A. Y. Skrahin36, E. M. Skrahina3, A. P. Konchits4, O. M. Zalutskaya3,

A. A. Gilep5, V. V. Slizen6

SOFTWARE SYSTEM FOR PRACTICAL PROCESSING OF MYCOBACTERIA TUBERCULOSIS GENOMIC DATA

'United institute for informatics problems of NASB Minsk, 220012, the Republic of Belarus 2RSPC of Microbiology and Epidemiology Minsk, 220114, the Republic of Belarus

3RSPC for Pulmonology and TB Minsk, 220053, the Republic of Belarus

4Forest Institute of NASB Gomel, 246001, the Republic of Belarus 5Institute of Bioorganic Chemistry of NASB Minsk, 220141, the Republic of Belarus

6Belarusian State Medical University Minsk, 220116, the Republic of Belarus

A new software has been developed for the practical bioinformatic analysis of genomic Mycobacterium tuberculosis data to obtain an individual target mutational profile required to support decision-making on adequate antimicrobial therapy and for the goals of fundamental research in bacteriology and epidemiology. The developed software can be useful both to beginners and experienced bioinformaticians, biologists, microbiologists, epidemiologists, as well as clinical doctors and engineers engaged in scientific research.

Key words: tuberculosis agent genomics, antibiotic resistance, bioinformatics, software.

Дата поступления статьи: 24 июня 2019 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.