A COMPUTATIONAL PIPELINE FOR DE NOVO RECOGNITION OF TRANSCRIPTION FACTOR BINDING SITES IN BACTERIAL GENOMES
A. Mukhin, D. Oschepkov, S. Lashin
Kurchatov Genomic Center Institute Cytology and Genetics SB RAS,
630090, Novosibirsk, Russia Institute Cytology and Genetics SB RAS, 630090, Novosibirsk, Russia Novosibirsk State University, 630090, Novosibirsk, Russia
DOI: 10.24412/2073-0667-2024-4-69-83 EDN: UGUBKF
The search for transcription factor binding sites (TFBSs) in bacterial genomes is one of the most important steps for their study and subsequent use in biotechnology and microbiology. The characteristic length of TFBS is 5 20 nucleotide pairs, and each transcription factor has the ability to bind to a set of sites similar in sequence. The concept of motif is used to describe the spectrum of sequences that have substantial (non-random) similarity. That is, a motif in molecular biology is a group (or a representative of a group, depending on the context) of relatively short sequences of nucleotides (or amino acids) that have sufficient similarity due to their performance of a single biological function, e. g., binding of a single transcription factor. The similarity of motifs is directly used by various bioinformatics approaches for their de novo detection in genomic sequence samples, and is possible only if there is sufficient enrichment of the tested sample with the corresponding sequence similarity. In cases where the bacterial genome is insufficiently annotated, such as when working with a newly sequenced genome, it is the de novo motif detection method that proves to be the most effective for finding TFBSs. In this paper, we propose a set of computational motif search pipelines that take as input the bacterial genome data and its primary annotation. The proposed pipelines using two different approaches (full-genome search, when de novo motifs are searched for in a set of promoters of a single genome, and phvlogenetie footprinting, when motifs are searched for among a set of promoters of similar genes and/or operons) to search for motifs, provide the researcher with a comprehensive set of settings for obtaining the most complete annotation by sites of both the whole genome and more detailed annotation of the regulatory region of the selected gene. The presented pipelines were implemented using both the modern Nextflow platform and scripts in the Python programming language. Also, the following tools were used within the pipelines: BoBro as a method for searching de novo motifs in promoters of a single organism; MP3, which implements de novo motif searching by phvlogenetie footprinting in a set of promoters, GOST to identify similar genes and/or operons between two genome assemblies, OperonMapper to determine the operon structure of the genome, and Tom Tom for annotation of de novo motifs. We have developed an indexed metadata database for known bacterial genomes using an embedded SQLite DBMS, which allows us to significantly accelerate data retrieval for further calculations.
The work was supported by a budget project No FWNR-2022-0020. (c) A. Mukhin, D. Oschepkov, S. Lashin, 2024
Key words: pipeline, motifs, TFBS, genomics, Nextflow, Python, SQLite, .J Browse-2. bioinformatics.
References
1. Seemann T. Prokka: rapid prokarvotic genome annotation // Bioinformatics. 2014. V. 30. N. 14. P. 2068-2069.
2. Pachkov M., Balwierz P. J., Arnold P., Ozonov E., Nimwegen E. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates // Nucleic Acids Research. 2012. 11. V. 41. N Dl. P. D214-D220. [El. res.]: https://academic.oup.com/nar/article-pdf/41/Dl/D214/ 3645388/gksll45.pdf.
3. Robison K., McGuire A.M., Church G. M. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genomellEdited by R. Ebright // Journal of Molecular Biology. 1998. V. 284. N 2. P. 241-254. [El. res.]: https://www.sciencedirect.com/ science/article/pii/S002228369892160X.
4. Dudek C.-A., Jahn D. PRODORIC: state-of-the-art database of prokarvotic gene regulation // Nucleic acids research. 2022. V. 50. N. Dl. P. D295-D302.
5. Liu B., Zhang H., Zhou C., Li G., Fennell A., Wang G., Kang Y., Liu Q., Ma Q. An integrative and applicable phvlogenetic footprinting framework for cis-regulatorv motifs identification in prokarvotic genomes // BMC genomics. 2016. V. 17. P. 1-12.
6. Tagle D. A., Koop B. F., Goodman M., Slightom J. L., Hess D. L., Jones R. T. Embryonic e and 7 globin genes of a prosimian primate (Galago crassicaudatus): Nucleotide and amino acid sequences, developmental regulation and phvlogenetic footprints // Journal of molecular biology. 1988. V. 203. N. 2. P. 439-455.
7. Yang J., Chen X., McDermaid A., Ma Q. DMINDA 2.0: integrated and systematic views of regulatory DNA motif identification and analyses // Bioinformatics. 2017. V. 33. N 16. P. 2586-2588.
8. Bailey T. L., Johnson J., Grant C. E., Noble W. S. The MEME Suite // Nucleic Acids Research. 2015. 05. V. 43. N. Wl. P. W39-W49. [El. res.]: https://academic.oup.com/nar/article-pdf/43/ Wl/W39/17435890/gkv416.pdf.
9. Savers E. W., Bolton E. E., Brister J. R., Canese K., Chan J., Comeau D., Connor R., Funk K., Kelly C., Kim S., Madej T., Marchler-Bauer A., Lanczvcki C., Lathrop S., Lu Z., Thibaud-Nissen F., Murphy T., Phan L., Skripchenko Y., Tse T., Wang J., Williams R., Trawick B., Pruitt K., Sherry S. Database resources of the national center for biotechnology information. Nucleic Acids Research. 2021. 12. V. 50. N Dl. P. D20-D26. [El. res.]: https://academic.oup.com/nar/article-pdf/50/Dl/D20/ 42058080/gkablll2.pdf.
10. Mukhin A. M., Kazantsev F. V., Klimenko A. I., Lakhova T. N., Demenkov P. S., Lashin S. A. The Web Platform for Storing Biotechnologicallv Significant Properties of Bacterial Strains // International Conference on Parallel Computing Technologies / Springer. 2021. P. 445-450.
11. Taboada B., Estrada K., Ciria R., Merino E. Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes // Bioinformatics. 2018. 06. V. 34. N. 23. P. 41184120. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/34/23/4118/48921148/ bioinformatics\_34\_23\_4H8.pdf.
12. Ma Q., Liu B., Zhou C., Yin Y., Li G., Xu Y. An integrated toolkit for accurate prediction and analysis of cis-regulatorv motifs at a genome scale. Bioinformatics. 2013. 07. V. 29. N 18. P. 22612268. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/29/18/2261/50782707/ bioinformatics\_29\_18\_2261.pdf.
13. Bailey T. L. STREME: accurate and versatile sequence motif discovery // Bioinformatics. 2021. 03. V. 37. N 18. P. 2834-2840. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/ 37/18/2834/50579626/btab203.pdf.
14. Di Tommaso P., Chatzou M., Floden E. W., Barja P. P., Palumbo E., Notredame C. Nextflow
enables reproducible computational workflows // Nature biotechnology. 2017. V. 35. N. 4. P. 316-319.
15. Li G., Ma Q., Mao X., Yin Y., Zhu X., and Xu Y. Integration of sequence-similarity and functional association information can overcome intrinsic problems in orthologv mapping across bacterial genomes // Nucleic acids research. 2011. V. 39. N. 22. P. el50-el50.
16. Li G., Liu B., Ma Q., Xu Y. A new framework for identifying cis-regulatorv motifs in prokarvotes // Nucleic acids research. 2011. V. 39. N 7. P. e42-e42.
17. Mao X., Ma Q., Zhou C., Chen X., Zhang H., Yang J., Mao F., Lai W., Xu Y. DOOR 2.0: presenting operons and their functions through dynamic and integrated views // Nucleic acids research. 2014. V. 42. N. Dl. P. D654-D659.
18. Peltek S., Bannikova S., Khlebodarova T. M.. Uvarova Y., Mukhin A. M.. Vasiliev G., Scheglov M.. Shipova A., Vasilieva A., Oshchepkov D., Brvanskava A., Popik V. The Transcriptomic Response of Cells of the Thermophilic Bacterium Geobacillus icigianus to Terahertz Irradiation // International Journal of Molecular Sciences. 2024. V. 25. N 22.
19. Diesh C., Stevens G. J., Xie P., De Jesus Martinez T., Hershberg E. A., Leung A., Guo E., Dider S., Zhang J., Bridge C., et al. JBrowse 2: a modular genome browser with views of svntenv and structural variation // Genome biology. 2023. V. 24. N 1. P. 74.
20. Pratt H., Weng Z. LogoJS: a Javascript package for creating sequence logos and embedding them in web applications // Bioinformatics. 2020. 03. V. 36. N 11. P. 3573 3575. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/36/ll/3573/50670952/ bioinformatics\_36\_ll\_3573.pdf.
ВЫЧИСЛИТЕЛЬНЫЙ КОНВЕЙЕР ПО РАСПОЗНАВАНИЮ САЙТОВ СВЯЗЫВАНИЯ ТРАНСКРИПЦИОННЫХ ФАКТОРОВ В БАКТЕРИАЛЬНЫХ ГЕНОМАХ DE NOVO
A.M. Мухин, Д. Ю. О щенков, С. А. Лашиы
Курчатовский Геномный Центр Института цитологии и генетики Сибирского отделения Российской академии паук (КГЦ ИЦиГ СО РАН), 630090, Novosibirsk, Russia ФИЦ Институт цитологии и генетики СО РАН,
630090, Novosibirsk, Russia Новосибирский государственный университет, 630090, Новосибирск, Россия
УДК 575.112
DOI: 10.24412/2073-0667-2024-4-69-83 EDN: UGUBKF
Задача поиска сайтов связывания транскрипционных факторов (ССТФ) в бактериальных геномах является одним из важнейших этапов их изучения и поеледующмх) использования в задачах биотехнологии и микробиологии. Характерная длина ССТФ 5 20 нар нуклеотидов, и каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных но последовательности. Поэтому поиск таких коротких последовательностей, имеющих достаточное, т. с. не случайное, сходство т. н. мотивов лежит в основе аннотации бактериальных геномов сайтами связывания. В статье описаны набор вычислительных конвейеров по поиску мотивов, которые принимают на вход данные бактериальших) генома и ei'o первичной аннотации. Предлагаемые конвейеры, использующие два разных подхода (пол-жи'еномный поиск и филох'енетичеекий футпринтинг) к поиску мотивов, предоставляют исследователю исчерпывающий набор настроек для получения на выходе максимально полной аннотации сайтами как всего генома, так и более детально регуляторного района выбранного гена. Представленные конвейеры реализованы как с использованием современной платформы Nextflow, так и скриптами на языке программирования Python. Разработанная нами индексируемая база метаданных для известных бактериальных геномов с использованием встраиваемой СУБД SQLitc позволяет существенно ускорить извлечение данных для дальнейших расчетов.
Ключевые слова: конвейеры, мотивы, ССТФ, геномика, Nextflow, Python, SQLitc, ■JBrowsc2, биоинформатика, филогенетический футпринтинг.
Введение. Технологии высокопроизводительного секвенирования в молекулярной генетике дани существенный толчок развитию современных биотехнологий, обеспечив возможность массовой сборки бактериальных геномов дня их анализа, модификации и дальнейшего использования отобранных штаммов бактерий в биотехно.ногических задачах,
Данная работа была поддержана бюджетным проектом FWNR-2022-0020.
(с) A.M. Мухин, Д. Ю. Ощепков, С. А. Лашин, 2024
например, для промышленного синтеза ферментов, белков медицинского и сельскохозяйственного назначения, лекарственных, профилактических и диагностических средств, незаменимых аминокислот и проч. На данный момент успешно применяются решения по аннотации вновь секвенированных геномов генами [1], однако задача их быстрой и эффективной аннотации регуляторными элементами до конца не решена. Аннотация бактериальных геномов и их конкретных регуляторных геномных последовательностей сайтами связывания транскрипционных факторов (ССТФ) является актуальной биологической задачей, поскольку работа клетки и производство определенных ферментов критическим образом зависят от существующих регуляторных геномных связей, реализующихся парой «транскрипционный фактор — сайт связывания». Как правило, ССТФ — это короткие участки ДНК от 5 до 20 пар оснований, узнаваемых соответствующими факторами транскрипции, Точное подтверждение связывания каждого отдельного сайта для конкретного ТФ и определенного штамма микроорганизма возможно только с помощью трудоемких экспериментальных методик. Данные по таким подтвержденным экспериментально ССТФ содержатся в базах данных сайтов связывания транскрипционных факторов, к таковым относятся, например, SwissRegulon [2], DPinteract [3] и PEODOEIC [4]. Существенное разнообразие последовательностей, с которыми способен связываться каждый транскрипционный фактор каждого вида микроорганизмов, а также неполнота баз данных, содержащих известные ССТФ, не позволяет распознавать их в геномных последовательностях прямым сравнением с шаблоном и требует использования специализированных программ, основанных на различных эвристических подходах, использующих в том числе сходство между известными сайтами каждого ТФ.
Для описания спектра последовательностей, обладающих существенным (неслучайным) сходством, применяют понятие мотива. То есть мотив в молекулярной биологии — это группа (или представитель группы, в зависимости от контекста) относительно коротких последовательностей нуклеотидов (или аминокислот), обладающих достаточным сходством вследствие выполнения ими одной биологической функции, например, связывания одного транскрипционного фактора. На рис, 1 показаны набор последовательностей, содержащих сайты связывания транскрипционного фактора Lrp, и построенные на их основе обобщенные описания соответствующих им мотивов в виде позиционно-вероятностной матрицы и т, н, веб-лого — графического представления уровня консервативности в каждой позиции последовательности, описанного с использованием веса позиции. Сходство мотивов непосредственно используется различными подходами биоинформатики для их выявления de novo в выборках геномных последовательностей и возможно лишь при наличии достаточного обогащения тестируемой выборки соответствующими мотивами, В случае, когда бактериальный геном аннотирован недостаточно, например, в случае работы со вновь секвеннрованным геномом, именно метод выявления мотивов de novo оказывается наиболее эффективным для поиска ССТФ,
Как правило, ССТФ располагаются в т, п. промоторах — участках последовательностей перед стартами транскрипции регулируемых ими генов или оперонов — групп генов у бактерий, регуляция экспрессии которых осуществляется одним промотором. Поэтому, для выявления мотивов de novo в качестве тестируемой выборки, обогащенной сайтами связывания соответствующего ТФ, и используются выборки промоторов. При этом есть два варианта составления таких выборок: (1) возможно взять набор всех/некоторых промоторов конкретного исследуемого организма, либо (2) составить выборку из промоторов генов, ортологичных гену исследуемого организма из близкородственных организмов, где
(а)
Сайты
>Lrp_9l_site_l
CAGTATAAAATGCTG
>Lrp_105_site_1
CAGCACAAAATTCTG
>Lrp_7_site_1
TAGAATTTTATTCTG
>Lrp_10_site_1
CGGAATTTTATGCTG
>Lrp_73_site_1
TAGCATTAAATATTG
>Lrp_75_site_1
CAGCATATAAATCCA
>Lrp_69_site_1
CAGAATAATCATCTG
>Lrp_95_site_1
CAGAAAATTATTTTA
>Lrp_88_site_1
CAGAAAATTATTTTA
>Lrp_31_site_1
TAGTGTTTTATACTG
Модели (б)
(в)
A C к
1 0.119048 0.523810 0.111111 0.246032
2 0.523810 0.142857 0.206349 0.126984
3 0.206349 0.079365 0.595238 0.119048
4 0.238095 0.396825 0.158730 0.206349
5 0.587302 0.031746 0.253968 0.126984
6 0.214286 0.126984 0.166667 0.492063
7 0.436508 0.047619 0.158730 0.357143
8 0.484127 0.031746 0.071429 0.412698
9 0.452381 0.031746 0.063492 0.452381
10 0.539683 0.142857 0.103175 0.214286
11 0.206349 0.150794 0.039683 0.603175
12 0.253968 0.031746 0.277778 0.436508
13 0.063492 0.650794 0.047619 0.238095
14 0.079365 0.269841 0.063492 0.587302
15 0.301587 0.079365 0.571429 0.047619
(Н V
^ »10 ЖС] 13 югом 22-10
Рис. 1. Описание сайтов связывания транскрипционных факторов (ССТФ) и мотивов. На картинке (а) показано содержание файла с набором нуклеотидных последовательностей, ассоциированных с сайтом связывания (сокращенный набор), эти наборы можно обобщить в виде позиционно-вероятностной матрицы (б) и веб-лого (в), где по оси ординат отложены значения собственной информации для каждого нуклеотида в мотиве. В совокупности эти картинки описывают мотив Ьгр
иод орт о л о г и ч и ы м и подразумеваются гены, которые у различных видов произошли от общего предшественника. Вариант поиска ССТФ с использованием выборок промоторов ор-тологичиых генов близкородственных организмов носит название филогенетический фут-ириитииг [5, 6].
Существующие подходы подразумевают достаточно обширную работу по составлению выборок для анализа, настройке и применению различных программ, систематизации и ранжированию полученных результатов. Однако существующие программные решения [7, 5, 8] содержат необходимые программные компоненты лишь частично, не позволяя комплексно и с минимальными трудозатратами выполнять массовый поиск ССТФ как во вновь секвеиированиых, так и в недостаточно изученных бактериальных геномах. Существенным ограничением в применимости перечисленных выше программных решений является отсутствие предоставляемого функционала но формированию необходимых входных данных — выборок про моторных областей геиов-ортол огов. Этот трудоемкий этап работ делегируется исследователю, то есть этапы поиска и отбора многочисленных геиов-ортологов и извлечение их иромоториых областей из соответствующих баз данных предполагается выполнять вручную. Аналогично, заключительный этап оценки схожести полученных (1е поуо мотивов с наборами известных ССТФ из перечисленных выше БД требует предварительной подготовки результатов в соответствующем формате. Таким образом, была поставлена цель разработать автоматизированный конвейер для поиска сайтов связывания транскрипционных факторов в бактериальных геномах, включающий все
необходимые компоненты, в том числе, блоки для автоматического формирования двух вариантов выборок: как всех промоторов генома, так и промоторов гепов-ортологов для проведения филогенетического футпринтинга, и обеспечивающий полный цикл анализа для конечного пользователя.
Результаты и Обсуждение. В данной работе реализован набор вычислительных конвейеров на разных платформах, позволяющий проводить полноценную аннотацию бактериальных геномов с помощью известных подходов de novo поиска ССТФ, выполняя следующие необходимые этапы анализа:
1) аннотирование генома оперонной структурой, необходимое для дальнейшего точного определения регуляторных/промоторных областей;
2) поиск de novo мотивов в выборке оперонов целевого генома;
3) функциональная аннотация вновь выявленных ССТФ,
Поиск de novo мотивов в промоторах целевого генома может осуществляться альтернативно с помощью двух подходов: либо в полной выборке промоторов целевого организма, либо на основании подхода филогенетического футпринтинга, осуществляя поиск ССТФ в наборе промоторов ортологичных (похожих) генов из одной таксономической группы с целевым организмом, В последнем случае необходимый список инструментов аннотации должен включать также:
— инструмент для поиска ортологичных генов заданного пользователем таксономического уровня;
— базы данных с последовательностями и аннотациями известных бактериальных геномов, что позволит автоматически осуществлять все необходимые операции по формированию требуемых выборок промоторов.
Такое комплексное решение подразумевает также наличие всех необходимых программных модулей, осуществляющих формирование требуемых для выполнения задачи выборок, операции по конвертации форматов, перенаправлению данных и последующему сохранению их части в соответствующие задаче хранилища. Такой комплексный подход позволит сократить до минимума затраты ресурсов на промежуточные, но требующие квалификации в программировании для персонала, проводящего биотехнологические исследования.
Для решения содержательных задач в области биоинформатики часто достаточно выполнить упорядочивание потока данных между существующими инструментами в программные конвейеры, и не требует разработки дополнительных новых алгоритмов. Несмотря на то, что число возможных конвейеров в задачах биоинформатики велико ввиду широкого спектра входных данных и поставленных научных задач, актуальность разработанных конвейеров определена известными задачами биотехнологии. Более того, разработанные конвейеры используют почти весь набор известных подходов для разметки бактериальных геномов сайтами связывания, и схема потока данных для этих подходов четко определена,
1. Конвейер подготовки входных данных. Два ниже описываемых и реализованных конвейера обладают общей частью по предобработке данных и получения оперонной структуры данных, оформленной в виде конвейера, В качестве входных данных конвейеры принимают пути до исследуемого генома в формате FASTA (рис, 1, а) и до файла с аннотацией генома в формате GFF, Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность, Описание отмечается символом «>» в первой колонке. Файл в формате GFF —
Первичная обработка файлов
Геном и аннотация после предобработки, файлы FASTA и GFF соответственно i
Поиск оперонной структуры
Оперонная структура (таблица оперон-гены, файл)
Получение FASTA последовательностей промоторных областей размера до 500
Рис. 2. Общая часть конвейера. Входными данными являются файлы генома искомого организма формата FASTA и аннотация генома формата GFF. выходными файл с последовательностями промоторов формата FASTA и файл формата FASTA с последовательностями белков, синтезируемых с генома. Табличный файл ассоциации «оперон-гены» также может быть выходными данными
это текстовый файл, где дня каждого функционального элемента генома отводится одна строка. Каждая строка содержит 9 полой (идентификатор хромосомы/последовательности нахождения, источник определения, тин элемента, начальные и конечные координаты, вес элемента, направление элемента относительно цени, рамка считывания и атрибуты), разделенных знаком табуляции. Поело получения файлов проводится проверка этих данных на корректность и выполняется предобработка этих данных (обработка названий геномов, приведение значений в файле GFF в стандартный вид). Данный пункт необходим, так как в исследовании используются разные источники информации, это может быть база данных XCBI |9|, или собственная база данных ЦГИМУ |10|, или другие доступные БД, содержащие данные о бактериальных геномах.
Вторым этаном является определение оперонной структуры генома, то есть, какие гены из рассматриваемого генома объединены друг с другом под одним промотором, т. е. имеют общую регуляторную часть с общими ССТФ. Данный этап критически необходим дня точного нахождения промоторов и определения их точных координат в геноме. Дня выполнения этого этана используется веб-сервис ОрегопМаррег |11|, с помощью которого можно проводить поиск оперонов дня любых бактериальных геномов. В основе этого веб-сервиса .нежит нредобучонная нейронная сеть, которая определяет онеронную структуру по похожим геномам из обучающей выборки. Дня автоматизированной работы с ним была реализована программа на языке программирования Python с использованием библиотек requests и BeautifulSoul, которая отправляет HTTP-запрос к веб-сервису на выполнение анализа и далее, периодически, также проверяет статус задачи и в случае успеха получает ссылку на архив из HTML файла. Поело распаковки программой tar архива выходного файла, мы получаем текстовый табличный файл, где сначала записывается номер онеро-на, а далее — идентификаторы гена и их координаты, которые относятся к онерону. Поело получения данных но оперонной структуре, выполняется работа но выделению последовательностей промоторов и белковых последовательностей FASTA дня каждого онерона.
Рис. 3. Конвейер поиска мотивов de novo во всех промоторах. Серым цветом обозначены внешние
программы и источники
Код этой части включен в оба ниже описываемых конвейера и может выполняться как независимым образом (т. к. представляет из себя набор скриптов на bash и Python) так и интегрироваться в существующие платформы дня построения конвейеров, например, bash или Xextflow, На рис. 2 представлена графическая схема этого конвейера.
2. Вычислительный конвейер поиска мотивов de novo по всем промоторам генома. Первый конвейер дня аннотации основан на подходе, осуществляющий поиск мотивов de novo во всех нромоторных областях исследуемого генома.
Подход поиска de novo мотивов состоит в том, чтобы найти часто встречаемые мотивы в большом наборе нромоторных областей или экспериментально определенных областей ДНК, где высока вероятность встретить сайт связывания соответствующего ТФ. Дня анализа промоторов бактериальных геномов нами были использованы программы ВоВго |12|, STREME |13|.
Поело этапа подготовки данных, конвейер, реализованный с использованием платформы Xextflow |14|, осуществляет запуск выбранной программы поиска мотивов de novo и примененяет программы дня определения сходства между полученными мотивами с набором выборок известных ССТФ (рис. 3). Выборки известных бактериальных ССТФ еодер-жатея в БД SwissRegnlon |2|, DPinteraet |3| и PRODORIC |4|, для сравнения найденных мотивов с этими выборками используется программа Tomtom из пакета MEME |8|, дня ее работы искомые БД сведены в текстовый файл с набором весовых матриц и их аннотаций. Файл с описанием конвейера дня платформы Xextflow описан на специальном нредметно-ориентированном языке (DSL), расширяющий язык программирования Groovy, и состоит из двух разделов: описание набора выполняемых процессов и описание потока данных, от обработки входных параметров и данных до конечной точки через описанные процессы. Описание процесса состоит из названия, описания входных и выходных данных либо через переменные, либо через маски файлов, и непосредственно кода выполняемого скрипта. Дня каждой задачи анализ выполняется в специально созданной отдельной папке. Итоговый конвейер принимает на вход файлы с геномом в FASTA формате и аннотацией в GFF формате, а также строковый параметр «выбор программы поиска мотивов de novo».
Результаты, по.нученные этим конвейером, включают: потенциальные ССТФ и их координаты в исследуемом геноме, нромоторные выборки целевого генома, используемые дня сравнения с известными бактериальными ССТФ, список сходных известных бактери-
ильных ССТФ, Именно эти данные крайне востребованы и могут быть использованы для решения различных задач биотехнологии и микробиологии, например, для оптимизации путей регуляции биосинтеза при создании штаммов-биопродуцентов белков медицинского и сельскохозяйственного назначения, лекарственных, профилактических и диагностических средств, незаменимых аминокислот и проч.
3. Вычислительный конвейер поиска мотивов de novo с использованием методики филогенетического футпринтинга, база метаданных, лого последовательности, Методика филогенетического футпринтига (англ, Phylogenetic footprinting) [5, 6] позволяет эффективно проводить поиск мотивов de novo для определенного оперо-на и использует последовательности промоторов для похожих или ортологичных генов (которые произошли от общего предка в процессе видообразования и выполняют схожие функциии в организме) из других организмов. Промоторы в этом наборе должны быть достаточно эволюционно удаленными, чтобы стало возможным выявление сайтов связывания транскрипционных факторов, которые являются более эволюционно консервативными, на фоне менее консервативных участков промотора.
На входе конвейеру (рис, 4) подаются последовательность промоторов в исследуемом геноме, набор последовательностей белков, которые синтезируются с исследуемого генома, оперонная структура генома, параметр «номер исследуемого оперона» (число), а также необходимый уровень таксономии, требуемый для создания выборки промоторов, достаточно эволюционно удаленных для выявления ССТФ, Входные данные можно предварительно получить из выходных данных этапа предварительной обработки данных. Реализованный конвейер, выполняющий поиск мотивов de novo, состоит из следующих этапов (в табл. 1 описаны используемые программные инструменты и конвейеры):
— Отбор промоторов и последовательностей белков для целевого оперона;
— Получение последовательностей белков и оперонной структуры для геномов с определенным значением таксономии, взятые из базы метаданных SQi.il о и геномами из NCBI (об этом ниже);
— Поиск генов-ортологов между исследуемыми белками и белками, взятыми из базы метаданных SQLite, Этот этап выполняется с помощью программы GOST [15];
— Выделение последовательностей промоторов из генов-ортологов и формирование выборки последовательностей FASTA в определенном порядке (первый промотор — целевой, последующие — отобранные для генов-ортологов);
— Выполнение поиска мотивов de novo методом филогенетического футпринтинга. Данный этап выполняется с помощью программы МРЗ [5];
— Поиск схожих мотивов с известными и подтвержденными базами ССТФ, Данный этап проводится с помощью программы TomTom и баз данных мотивов SwissRegulon, DPinteract и PRODORIC,
Конвейер поиска мотивов de novo методом филогенетического футпритинга реализован в виде скрипта на языке программирования Python, который запускает последовательно вышеуказанные этапы конвейера, перенаправляя данные между программами и конвертируя форматы входных-выходных данных между промежуточными этапами.
Для быстрого и эффективного поиска данных по таксономии геномов, их оперонной структуре и по генам в соответствующих геномах с координатами была реализована база метаданных с использованием встраиваемой СУБД SQLite, Для отладки и пилотных запусков конвейера были отобраны и обработаны геномы (FASTA) для хорошо аннотированных бактериальных организмов с аннотациями (GFF) из базы данных NCBI [9] и оперон-
Последовательности белков, синтезируемые с генома, файл FASTA
Последовательности промоторов, файл FASTA
FASTA последовательность промотора оперона, файл
Извлечение промотора и белков для исследуемого оперона + формирование файла оперонной структуры
I
Оперонная структура
для искомого оперона, текстовый табличный файл
Оперонная структура (таблица оперон-гены)
Номер промотора целевого гена, параметр-номер
FASTA белковых последовательностей,
синтезируемые с исследуемого оперона
Исследуемый уровень таксономии, параметр-строка
Л
Отбор белков с геномов, отфильтрованных по таксономии
Метод GOST для определения ортологических генов по белкам
Отобранные последовательности белков, файл
Список генов-ортологов из других организмов
I
Выделение промоторных областей из генов-ортологов
I
Оперонная структура для отобранных геномов, текстовый табличный файл
1Г
База данных БСЗШе, индексирует данные из базы данных оперонной структуры 000132.0, И нуклеотидная база данных 1ЧСВ1 для аннотированных геномов из 000132.0
Промоторные области из других организмов для ортологических генов с исследуемым
Формирование выборки последовательностей FASTA _промоторных областей_
FASTA последовательности
Выполнить поиск мотивов de novo
методом филостиграфического _футпринтинга (МРЗ)_
База данных ССТФ
Аннотация de novo мотивов
de novo мотивы, координаты мотивов для исследуемоно промотора
I
Определение сходства de novo мотивов с известными и подтвержденными базами ССТФ методом TomTom_
Рис. 4. Схема работы конвейера поиска мотивов de novo в промоторах генов-ортологов (метод филогенетического футпринтинга). Серым цветом обозначены внешние модули или данные, используемые в конвейере. Синий цвет границы элемента обозначает данные, серый цвет выполняемый этап. Линия между двумя элементами означает «использование данных в этапе», стрелка «этап производит следующие данные». Входными данными являются оперонная структура исследуемого гена, последовательности промоторов и белков, синтезируемые с исследуемого генома, а также параметры номер промотора для исследования (число) и требуемый для исследования уровень
таксономии (строка)
пая размотка соответствующих геномов из базы данных DOOR2.O |17|. Были реализованы скрипты па языках Bash и Python дня загрузки данных из XCBI и DOOR2.0, обработки и сохранения этих данных в базу метаданных SQLite, Данные из DOOR2.O представляют из себя JSOX файлы дня отображения па сайте и требовали постобработки, которая была реализована в виде скрипта па языке Python. Схема данной базы метаданных описана в приложении по ссылке: https://disk.icgbio.rU/s/n8eJt55f7Q9oGDq.
Таким образом, данный конвейер реализует метод филогенетического футпринтинга с выбором произвольного уровня филогенетического сходства, позволяет и более преци-зиоппо осуществлять поиск потенциальных ССТФ de novo, используя промоторные об-
Таблица 1
Описание используемых инструментов
Название
Описание
Ссылка
GOST МРЗ
Получение пар ортологичных генов между двумя геномами Конвейер для поиска мотивов с использованием подхода филогенетического футпритинга Сравнение полученных de novo мотивов с базой известных и экспериментально подтвержденных мотивов Предсказание цис-регуляторных мотивов в наборе промоторов с помощью двойных выравниваний подстрок промоторных областях
и методов над графами Поиск обогащенных мотивов в наборе последовательностей с помощью статистического теста Фишера База данных предсказанных оперонов в бактериальных геномах База данных полногеномной аннотации в регуляторных сайтах База данных сайтов связывания для E.coli База данных генной регуляции
[15] [5]
TomTom
[8]
BoBro
[12, 16]
STREME
[13]
Swiss Regulon DPinteract PRODORIC
DOQR2.0
[17] [2]
[3]
[4]
ласти генов-ортологов, Результаты, полученные этим конвейером, включают; потенциальные ССТФ и их координаты в исследуемом промоторе, их выборки из промоторов генов-ортологов, используемые для сравнения с известными бактериальными ССТФ, список сходных известных бактериальных ССТФ, Результаты работы этого конвейера также представляют значительную научную ценность, значительно расширяя спектр возможностей для анализа, предоставляемый первым конвейером поиска мотивов, описанным выше,
В качестве примера приведен результат работы описанного конвейера для поиска потенциальных ССТФ в бактериальном геноме Geobacillus icigianus (сборка NCBI_Assembly:GCA_000750005.2, загружена 28 марта 2024 г.) с помощью метода филогенетического футпринтинга (рис, 4), полученный на одном из этапов работы по анализу транекриптомного ответа G, Icigianus на терагерцовое излучение [18]. Показан участок промотора гена ЕР10_000119 со списком выявленных потенциальных ССТФ, Потенциальные ССТФ представлены в графическом виде в удобном для анализа биологами формате — т, и, лого последовательности (sequence logo). Он состоит из стопки букв алфавита (в случае ДНК — нуклеотидов) в каждой позиции. Относительные размеры букв указывают на их частоту в наборе последовательностей потенциальных ССТФ. Приведенное изображение (рис. 5) — результат отображения части генома в геномном браузере JBrowse2 [19], где лого генерируются в векторном формате SVG через реализацию плагина с использованием библиотек ReactJS и LogoJS [20]. Таким образом, реализация этого конвейера позволяет осуществлять распознавание ССТФ в отдельных промоторах исследуемого генома, используя концепцию использования больших геномных данных, благодаря чему позволяет повысить точность получаемых результатов и значительно расширяя спектр возможностей для анализа, предоставляемый первым конвейером поиска мотивов, описанным выше.
Заключение. Реализованные конвейеры и программные элементы позволяют снизить издержки научного сотрудника до нескольких часов без использования внешних ресурсов
Рис. 5. Пример результата распознавания потенциальных ССТФ de novo с помощью конвейера филогенетического футпринтинга. Показана регуляторная область гена ЕР10_000119. Приведены выявленные с помощью программы МРЗ мотивы, в выпадающем окне приведен список сходных известных бактериальных ССТФ с выделенным мотивом результат работы программы ToriiTom.
Отображение выполнено в программе JBrowse2
и с минимальными ручными действиями над данными со стороны пользователя. Также конвейеры позволяют автоматически насчитывать базу знаний но найденным мотивам и их аннотации в выбранных геномах, обеспечивая практически моментальный доступ исследователя к этим данным. Конвейеры можно запускать как в локальной среде, так и с использованием высокопроизводительного вычислительного кластера. Xextflow позволяет автоматически создавать список задач дня системы управления заданиями Slurm высокопроизводительного кластера. Разработанная индексируемая база метаданных дня известных бактериальных геномов с использованием встраиваемой библиотеки SQLite, интегрированная с программными компонентами, позволяет проводить быстрый поиск геномов но таксономии и генов но онеронам в выбранных геномах, что позволяет существенно ускорить поиск данных дня дальнейших расчетов конвейера филогенетического футпринтинга. Отображение в геномном браузере JBrowse2 представляет интерактивный доступ к результатам работы конвейеров с интуитивно понятным отображением биологически значимой информации.
Список литературы
1. Sccmann Т. Prokka: rapid prokaryotic genome annotation /7 Bioinformaties. 2014. V. 30. N. 14. P. 2068 2069.
2. Paehkov M., Balwierz P. J., Arnold P., Ozonov E., Nimwegen E. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates /7 Nucleic Acids Research. 2012. 11. V. 41. N Dl. P. D214 D220. [El. res.]: https://academic.oup.com/nar/article-pdf/41/Dl/D214/ 3645388/gksll45.pdf.
3. Robison K., McGuire A.M., Church G. M. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genomellEdited by R. Ebright // Journal of Molecular Biology. 1998. V. 284. N 2. P. 241-254. [El. res.]: https://www.sciencedirect.com/ science/article/pii/S002228369892160X.
4. Dudek C.-A., Jahn D. PRODORIC: state-of-the-art database of prokarvotic gene regulation // Nucleic acids research. 2022. V. 50. N. DI. P. D295-D302.
5. Liu B., Zhang H., Zhou C., Li G., Fennell A., Wang G., Kang Y., Liu Q., Ma Q. An integrative and applicable phvlogenetic footprinting framework for cis-regulatorv motifs identification in prokarvotic genomes // BMC genomics. 2016. V. 17. P. 1 12.
6. Tagle D. A., Koop B. F., Goodman M., Slightom J. L., Hess D. L., Jones R. T. Embryonic e and 7 globin genes of a prosimian primate (Galago crassicaudatus): Nucleotide and amino acid sequences, developmental regulation and phvlogenetic footprints // Journal of molecular biology. 1988. V. 203. N. 2. P. 439-455.
7. Yang J., Chen X., McDermaid A., Ma Q. DMINDA 2.0: integrated and systematic views of regulatory DNA motif identification and analyses // Bioinformatics. 2017. V. 33. N 16. P. 2586-2588.
8. Bailey T. L., Johnson J., Grant C. E., Noble W. S. The MEME Suite // Nucleic Acids Research. 2015. 05. V. 43. N. Wl. P. W39-W49. [El. res.]: https://academic.oup.com/nar/article-pdf/43/ Wl/W39/17435890/gkv416.pdf.
9. Savers E. W., Bolton E. E., Brister J. R., Canese K., Chan J., Comeau D., Connor R., Funk K., Kelly C., Kim S., Madej T., Marchler-Bauer A., Lanczvcki C., Lathrop S., Lu Z., Thibaud-Nissen F., Murphy T., Phan L., Skripchenko Y., Tse T., Wang J., Williams R., Trawick B., Pruitt K., Sherry S. Database resources of the national center for biotechnology information. Nucleic Acids Research. 2021. 12. V. 50. N Dl. P. D20-D26. [El. res.]: https://academic.oup.com/nar/article-pdf/50/Dl/D20/ 42058080/gkablll2.pdf.
10. Mukhin A. AL. Kazantsev F. V., Klimenko A. I., Lakhova T. N., Demenkov P. S., Lashin S. A. The Web Platform for Storing Biotechnologicallv Significant Properties of Bacterial Strains // International Conference on Parallel Computing Technologies / Springer. 2021. P. 445-450.
11. Taboada B., Estrada K., Ciria R., Merino E. Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes // Bioinformatics. 2018. 06. V. 34. N. 23. P. 41184120. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/34/23/4118/48921148/ bioinformatics\_34\_23\_4H8.pdf.
12. Ma Q., Liu B., Zhou C., Yin Y., Li G., Xu Y. An integrated toolkit for accurate prediction and analysis of cis-regulatorv motifs at a genome scale. Bioinformatics. 2013. 07. V. 29. N 18. P. 22612268. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/29/18/2261/50782707/ bioinformatics\_29\_18\_2261.pdf.
13. Bailey T. L. STREME: accurate and versatile sequence motif discovery // Bioinformatics. 2021. 03. V. 37. N 18. P. 2834-2840. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/ 37/18/2834/50579626/btab203.pdf.
14. Di Tommaso P., Chatzou M.. Floden E. W., Barja P. P., Palumbo E., Notredame C. Nextflow enables reproducible computational workflows // Nature biotechnology. 2017. V. 35. N. 4. P. 316-319.
15. Li G., Ma Q., Mao X., Yin Y., Zhu X., and Xu Y. Integration of sequence-similarity and functional association information can overcome intrinsic problems in orthologv mapping across bacterial genomes // Nucleic acids research. 2011. V. 39. N. 22. P. el50-el50.
16. Li G., Liu B., Ma Q., Xu Y. A new framework for identifying cis-regulatorv motifs in prokarvotes // Nucleic acids research. 2011. V. 39. N 7. P. e42-e42.
17. Mao X., Ma Q., Zhou C., Chen X., Zhang H., Yang J., Mao F., Lai W., Xu Y. DOOR 2.0: presenting operons and their functions through dynamic and integrated views // Nucleic acids research. 2014. V. 42. N. Dl. P. D654-D659.
18. Peltek S., Bannikova S., Khlebodarova T. M., Uvarova Y., Mukhin A. M., Vasiliev G., Scheglov M., Shipova A., Vasilieva A., Oshchepkov D., Bryanskaya A., Popik V. The Transcriptomic Response of Cells of the Thermophilic Bacterium Geobacillus icigianus to Terahertz Irradiation // International Journal of Molecular Sciences. 2024. V. 25. N 22.
19. Diesh C., Stevens G. J., Xie P., De Jesus Martinez T., Hershberg E. A., Leung A., Guo E., Dider S., Zhang J., Bridge C., et al. JBrowse 2: a modular genome browser with views of synteny and structural variation // Genome biology. 2023. V. 24. N 1. P. 74.
20. Pratt H., Weng Z. LogoJS: a Javascript package for creating sequence logos and embedding them in web applications // Bioinformatics. 2020. 03. V. 36. N 11. P. 35733575. [El. res.]: https://academic.oup.com/bioinformatics/article-pdf/36/ll/3573/50670952/ bioinformatics\_36\_ll\_3573.pdf.
Мухин Алексей Максимович — младш. науч. сотрудник Института цитологии и генетики СО РАН, E-mail: [email protected].
Мухин Алексей Максимович окончил ФИТ ИГУ в 2019 году, в 2023 — аспирантуру ИЦиГ СО РАН. С 2017 г. сотрудник ИЦиГ СО РАН. В сфере его научных интересов — программное обеспечение в области биологии.
Mukhin Aleksey Maksimovich graduated from Faculty of Information Technology of the Novosibirsk State University in 2019, in 2023 — postgraduate program of ICG SB RAS. Since 2017 he has been an employee of ICG SB RAS. His research interests include software in the field of biology.
Ощепков Дмитрий
Юрьевич — канд. биол. наук, старш. науч. сотрудник Института цитологии и генетики СО РАН, E-mail: diman@bionet. nsc.ru.
Ощепков Дмитрий
Юрьевич окончил ФФ НГУ в 1999 году. С 1998 г. работает в ИЦиГ СО РАН. В сфере его научных интересов — компьютерная геномика и транскриптомика. Автор более 60 работ.
Dmitry Yurievich Oshepkov graduated from the Faculty of Physics of the Novosibirsk State University in 1999. Since 1998, he has been an employee of the Institute of Cytology and Genetics of the Russian Academy of Sciences. His research interests include computational genomics and transcriptomics. He is the author of more than 60 scientific articles.
Лашин Сергей Александрович — канд. биол. наук, доцент, ведущ. науч. сотр. сектора биоинформатики и информационных технологий в генетике Института цитологии и генетики СО РАН, E-mail: [email protected].
Окончил в 2003 г. ММФ НГУ. Специалист в области математического и компьютерного моделирования биологических систем широкого круга — молекулярно-генетических, популяционно-генетических, экологических, разработки биоинформатических методов, программного обеспечения и баз данных.
Graduated in 2003 from MMF NSU. Specialist in the field of mathematical and computer modeling of biological systems of wide range — molecular-genetic, population-genetic, ecological, development of bioinformatic methods, software and databases.
Дата поступления — 07.06.2024