Научная статья на тему 'Высоко консервативные элементы в митохондриях однодольных растений'

Высоко консервативные элементы в митохондриях однодольных растений Текст научной статьи по специальности «Математика»

CC BY
103
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / БИОИНФОРМАТИКА / ВЫСОКО КОНСЕРВАТИВНЫЙ ЭЛЕМЕНТ / МИТОХОНДРИЯ / ФИЛОГЕНИЯ / ОДНОДОЛЬНЫЕ РАСТЕНИЯ

Аннотация научной статьи по математике, автор научной работы — Рубанов Лев Израилевич, Зверков Олег Анатольевич, Селиверстов Александр Владиславович, Любецкий Василий Александрович

Статья нацелена на поиск высоко консервативных элементов в геномах митохондрий однодольных растений. Полученные результаты о распределении ВКЭ хорошо согласуются с общепринятым деревом видов класса однодольных растений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Рубанов Лев Израилевич, Зверков Олег Анатольевич, Селиверстов Александр Владиславович, Любецкий Василий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Высоко консервативные элементы в митохондриях однодольных растений»

УДК 577.218

Рубанов Л.И., Зверков О.А., Селиверстов А.В., Любецкий В.А.

Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, г. Москва,

Россия

ВЫСОКО КОНСЕРВАТИВНЫЕ ЭЛЕМЕНТЫ В МИТОХОНДРИЯХ ОДНОДОЛЬНЫХ

РАСТЕНИЙ

АННОТАЦИЯ

Статья нацелена на поиск высоко консервативных элементов в геномах митохондрий однодольных растений. Полученные результаты о распределении ВКЭ хорошо согласуются с общепринятым деревом видов класса однодольных растений.

КЛЮЧЕВЫЕ СЛОВА

Большие данные; биоинформатика; высоко консервативный элемент; митохондрия; филогения; однодольные растения.

Rubanov L.I., Zverkov O.A., Seliverstov A.V., Lyubetsky V.A.

Institute for Information Transmission Problems of the Russian Academy of Sciences (Kharkevich

Institute), Moscow, Russia

HIGHLY CONSERVED ELEMENTS IN MITOCHONDRIA OF MONOCOTS ABSTRACT

The work is aimed at the identification of highly conserved elements in mitochondrial genomes of monocotyledonous plants. The resulting distribution of identified highly conserved elements agrees well with the conventional species tree for the class Liliopsida.

KEYWORDS

Big Data; bioinformatics; highly conserved element; mitochondria; phylogeny; monocots.

Введение

Эта работа нацелена на изучение геномов митохондрии однодольных растении, класса цветковых растении, который включает многие важные сельскохозяйственные и декоративные культуры. Среди них рис, кукуруза, пшеница, сахарньш тростник, лук репчатыи, финиковая пальма и другие. К декоративным видам относятся, например, ирисы, тюльпаны и орхидеи. Многие виды однодольных растении служат кормом для скота. Изучение регуляции экспрессии генов митохондрии позволит понять механизмы адаптации к новым условиям окружающеи среды (заморозки, засуха, засоление почв, загрязнение водоемов).

Митохондрии — это полуавтономные органеллы, имеющие собственным геном, хотя многие белки митохондрии кодируются в ядре и приходят из цитоплазмы. Обычно в митохондриях происходит окисление жирных кислот и синтез некоторых соединении [1]. Роль митохондрии у разных организмов значительно различается, что отражается на размерах их геномов. Особенно это отличие проявляется у некоторых простеиших. Например, митохондрии анаэроба ^сСо^ег^ ovalis из типа СШорЫга продуцируют водород; набор белков, кодируемых в митохондриях этого вида, существенно отличается от набора у видов, живущих в аэробных условиях [2]. Обычно геномы митохондрии очень компактны, их гены образуют длинные опероны с маленькими некодирующими промежутками, поскольку механизм трансляции близок к бактериальному. Однако в митохондриях растении неожиданно большие фрагменты ДНК не кодируют ни белки, ни известные РНК. Это делает особенно интересным исследование некодирующих областеи, содержащих различные элементы, регулирующие экспрессию генов.

Рассмотрим граф, ребрам которого приписаны положительные веса. Вершины этого графа соответствуют участкам ДНК, ребра соединяют участки с близкими последовательностями из разных геномов. «Близость» последовательностеи подразумевает, что редакционное расстояние между ними не превышает заданнои величины г, т.е. одну последовательность можно получить из другои последовательным применением не более чем г элементарных операции редактирования:

замены, вставки или удаления однои буквы. Если элементарные операции неравноценны, то суммарная стоимость всех операции не должна быть больше r.

Участки на концах любого ребра ограничиваются так, что их нельзя продолжить без того, чтобы расстояние не превысило порога r. При этом в качестве веса ребра используется длина этих участков (бСльшая из двух, если длины разные). ^астеры — это индуцированные подграфы, которые выбираются так, чтобы внутри кластера ребер было больше (лучшии кластер — это клика) и они имели большии суммарным вес, а между кластерами — меньше (в лучшем случае кластеры изолированные) и с меньшим весом. ^ждым кластер соответствует набору достаточно длинных похожих участков сразу в нескольких геномах и называется высоко консервативным элементом (ВЮ).

ВЮ часто отвечают участкам генома, которые выполняют одинаковую функцию в разных организмах, причем во многих случаях эта функция неизвестна. Это объясняет интерес к нахождению ВЮ, в том числе в сравнительно далеких друг от друга видах. Для поиска ВЮ мы используем оригинальным метод кластеризации многодольных графов [3]. Для задачи кластеризации графа общего вида, в которои размеры кластеров ограничены сверху, недавно предложен новыи приближенным алгоритм с достижимои гарантированнои оценкои точности [4]. Однако этот результат относится к графам без указания весов ребер, тогда как мы решаем более общую задачу, в которои фигурирует реберно-взвешенныи граф, что позволяет находить более осмысленные решения. Еще один метод кластеризации MCL описан в [5], однако он требует большого времени для работы и обычно применяется для графов с малым числом ребер, возникающих в задаче кластеризации белков.

Материалы

Геномные данные получены из базы данных GenBank. Мы рассмотрели полные геномы митохондрии 17 видов однодольных растении. Это Allium cepa — Лук репчатыи, порядок Спаржецветные; Phoenix dactylifera — Финик пальчатыи, порядок Пальмоцветные; Butomus umbellatus — Сусак зонтичныи, порядок Частухоцветные; Spirodela polyrhiza — Многокоренник обыкновенныи, порядок Частухоцветные. Прочие рассмотренные виды и подвиды относятся к порядку Злакоцветные (Peales): Aegilops speltoides, Oryza minuta, Oryza rufipogon, Oryza sativa Indica Group, Oryza sativa Japonica Group, Sorghum bicolor, Tripsacum dactyloides, Triticum aestivum, Triticum timopheevii, Zea luxurians, Zea mays subsp. mays, Zea mays subsp. parviglumis, Zea perennis.

Перечисленные митохондриальные геномы имеют длину в интервале 230-730 kbp, в среднем около 500 kbp. Все они состоят из однои хромосомы, которая в большинстве случаев имеет кольцевую форму (за исключением японскои разновидности риса Oryza sativa Japonica Group, у которои эта хромосома линеиная).

Методы

Дерево ВЮ построено программои RAxML [6]. Использована модель двоичных подстановок (binary substitution model), число бутстрэп-реплик равно 300, длина ветви дерева — это среднее предсказанное число замен на позицию последовательности в ходе эволюции на даннои ветви. Поиск высоко консервативных элементов выполнен алгоритмом, которыи основан на поиске плотного подграфа и описан в работе [3]. Поиск потенциальных саитов связывания транскрипционных факторов и промоторов выполнен методом, описанным в работах [7, 8]. Также использована программа MEME Suite 4.11.2 [9]. См. также http://meme-suite.org Аннотации проверены посредством базы данных Rfam 12.1 [10].

Результаты и обсуждение

При поиске ВЮ методом [3] мы применяли следующие значения основных параметров: длина искомых слов не менее 24, длина ключа 8, штраф за несовпадение букв 1.0, делеции не допускаются, максимально допустимое редакционное расстояние между двумя словами 3.1, число различных букв в ключе не менее 3, в слове не менее 4, число видов в кластере не менее 3.

С использованием таких параметров сначала был построен исходным граф, содержащии 218181 вершину и 290815 ребер. После уплотнения этого графа путем объединения вершин, соответствующих сильно пересекающимся участкам, был получен начальныи граф с 89468 вершинами; число ребер не изменилось. Веса ребер варьировались от 25 до 220, гистограмма распределения показана на рис. 1. Затем алгоритмом выделения плотных подграфов с максимальным суммарным весом ребер было наидено 2673 кластера, каждым из которых соответствует своему ВЮ.

100000

10000

1000

100

10

25 45 65 85 105 125 145 165 185 205

Рис. 1. Распределение рёбер начального графа по весам; по оси абсцисс указана величина веса ребра, по оси ординат - число рёбер в логарифмическом масштабе

81 г Zea iuxunans

100

1- Zea perennis j- Zea mays subsp. mays icol Zea mays subsp parviglumis Tripsacum dactyloides

Sorghum bicolor

го г Triticum aestivum ' Triticum timopheevii

100 'Aegilops speitoides 92i Oryza sativa Indica Group 8lP Oryza sativa Japónica Group ' Oryza rufipogon Oryza minuta i oo i—Alliumcepa

Butomus umbellatus Spirodela polyrbiza Phoenix dactylifera

Рис. 2. Дерево высоко консервативных элементов в митохондриях однодольных растений

65 ™ 57

I49 I 41 41 -

Mill

1 2 3 Л 5 6 7 8 9 Ю 11 12 13 14 15 16 17

Рис. 3. Количество ВКЭ, представленных у различного числа геномов митохондрий однодольных растений; по оси абсцисс указано число видов, по оси ординат - число ВКЭ

По результатам поиска высоко консервативных элементов построено дерево (рис. 2). Это дерево построено программои RAxML на основе матрицы из 17 строк и 2673 столбцов, элемент которои 1 или 0 указывает на присутствие или соответственно отсутствие в митохондрии каждого вида представителя каждого ВКЭ. Данные о распределении ВКЭ по числу представленных в них геномов митохондрии приведены на рис. 3.

Хотя большинство митохондриальных генов выявлены давно, роль многих из них и механизмы регуляции остаются неизвестными. Дальнеишее исследование наиденных ВЮ связано с выявлением потенциальных промоторов и саитов связывания факторов регуляции транскрипции. Для этого мы усовершенствовали ранее опубликованным алгоритм [3] путем добавления к выходным данным детальных сведении о топологии каждого кластера. Это, в частности, позволяет уточнить состав кластера, исключая слова, попавшие в результате случаиных совпадении при неудачном выборе параметров. Доработка также помогла уточнить границы слов в каждои последовательности и побуквенное соответствие наиденных слов. Фактически, для ВЮ автоматически строится аналог множественного выравнивания, что повышает качество консенсусов, претендующих на роль гипотетических промоторов. Другое реализованное развитие метода — это более надежное определение функции каждого кластера на основе всех имеющихся в GenBank аннотации участков генома, что позволяет повысить производительность дальнеишего анализа выявленных ВЮ. Эти и другие усовершенствования нашего метода поиска ВЮ подробно представлены в докладе.

В рассмотреннои нами задаче участвует всего 17 сравнительно коротких геномов, поэтому размерность графа получилась небольшои и для решения оказалось достаточно ресурсов обычного П^ построение начального графа заняло около 75 мин., поиск плотных подграфов - менее минуты. Важнои характеристики нашего алгоритма кластеризации графов служит возможность эффективного использования многопроцессорных вычислительных систем - суперкомпьютеров со средои MPI [11, 12]. Это позволило нам с использованием высокопроизводительных кластеров МСЦ PAH [13] обрабатывать возникающие при работе с ядерными геномами графы значительно большеи размерности, например, содержащие порядка 107 вершин и 109 ребер [3].

В работе [14] показано, что микроэволюция пластид и митохондрии семенных растении подчиняется общим закономерностям. Полученные результаты позволяют предполагать применимость предлагаемого метода для исследования регуляции экспрессии генов не только в митохондриях, но и в пластидах растении. Рассмотренныи алгоритм кластеризации графа, на котором основан поиск ВЮ, может быть также применен для решения других задач биоинформатики и дискретнои оптимизации [15-16]. В частности, большое значение имеет кластеризация белков [17-19]. В этом случае, как и при поиске ВЮ, белки соответствуют вершинам графа, а ребра соединяют близкие по последовательности белки.

Выводы

Полученные результаты о распределении ВЮ хорошо согласуются с общепринятым деревом видов класса однодольных растении. Полученные результаты могут служить основои для дальнеишего предсказания регуляции экспрессии генов. Успешное применение алгоритма кластеризации графов подтверждает эффективность этого метода и открывает возможности для широкомасштабного использования при решении задач биоинформатики и дискретнои оптимизации.

Литература

1. Гармаш Е.В. Митохондриальное дыхание фотосинтезирующей клетки // Физиология растений. 2016. Т. 63, № 1. С. 17-30.

2. de Graaf R.M., Ricard G., van Alen T.A., Duarte I., Dutilh B.E., Burgtorf C., Kuiper J.W., van der Staay G.W., Tielens A.G., Huynen M.A., Hackstein J.H. The organellar genome and metabolic potential of the hydrogen-producing mitochondrion of Nyctotherus ovalis // Mol. Biol. Evol. 2011. V. 28, no. 8. P. 2379-2391. DOI: 10.1093/molbev/msr059

3. Rubanov L.I., Seliverstov A.V., Zverkov O.A., Lyubetsky V.A. A method for identification of highly conserved elements and evolutionary analysis of superphylum Alveolata. BMC Bioinformatics. 2016 17:385 DOI 10.1186/s12859-016-1257-5

4. Ильев В.П., Ильева С.Д., Навроцкая A.A. О задаче кластеризации графа с ограничением на размеры кластеров // Дискретный анализ и исследование операций. 2016. Т. 23, № 3. С. 5-20. DOI: 10.17377/daio.2016.23.521

5. Van Dongen S. Graph clustering via a discrete uncoupling process // SIAM J. Matrix Anal. Appl. 2008. V. 30, № 1. P. 121-141. DOI:10.1137/040608635

6. Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies // Bioinformatics. 2014. V. 30, no. 9. P. 1312-1313. DOI: 10.1093/bioinformatics/btu033

7. Селиверстов A.ß., Лысенко Е.Л., Любецкий ß.A. Быстрая эволюция промоторов пластомных генов ndhF у цветковых растений // Физиология растений. 2009. Т. 56, № 6. С. 926-934.

8. Lyubetsky V.A., Rubanov L.I., Seliverstov A.V. Lack of conservation of bacterial type promoters in plastids of Streptophyta // Biology Direct. 2010. V. 5, no. 34. DOI: 10.1186/1745-6150-5-34

9. Bailey T.L., Bodén M., Buske F.A., Frith M., Grant C.E., Clementi L., Ren J., Li W.W., Noble W.S., MEME SUITE: tools for motif discovery and searching // Nucleic Acids Research. 2009. V. 37. P. W202-W208.

10. Nawrocki E.P., Burge S.W., Bateman A., Daub J., Eberhardt R.Y., Eddy S.R., Floden E.W., Gardner P.P., Jones T.A., Tate J., Finn R.D. Rfam 12.0: updates to the RNA families database // Nucleic Acids Research. 2015. V. 43, no. D1. P. D130-D137. DOI: 10.1093/nar/gku1063

11. Рубанов Л.И. О распараллеливании неоднородных циклов на суперкомпьютерах с распределённой памятью // Информационные процессы. 2013. Т. 13, № 4. С. 295-305.

12. Рубанов Л.И. Параллельное моделирование Монте-Карло на системах с распределённой памятью // International Journal of Open Information Technologies. 2014. Т. 2, № 2. С. 12-20.

13. Межведомственный суперкомпьютерный центр Российской академии наук. http://www.jscc.ru/scomputers.html.

14. Зверков О.А., Русин Л.Ю., Селиверстов А.В., Любецкий В.А. Изучение вставок прямых повторов в микроэволюции митохондрий и пластид растений на основе кластеризации белков // Вестник Московского университета. Серия 16. Биология. 2013. № 1. С. 8-13. DOI: 10.3103/S0096392513020119

15. Селиверстов А.В. Замечание о неявно заданных гиперграфах // Вестник Тамбовского университета. Серия: Естественные и технические науки. 2015. Т. 20, № 5. С. 1422-1424.

16. Селиверстов А.В. Многогранники и связные подграфы // Дискретный анализ и исследование операций. 2014. Т. 21, № 3. С. 82-86.

17. Sunshin Kim, KyuBum Kwack. A fast comparison algorithm to measure the accuracy of ortholog clusters // Current Bioinformatics. 2016. V. 11, no. 3. P. 324-329. DOI: 10.2174/1574893611666160322233309

18. Зверков О.А., Селиверстов А.В., Любецкий В.А. Белковые семейства, специфичные для пластомов небольших таксономических групп водорослей и простейших // Молекулярная биология. 2012. Т. 46, № 5. С. 799-809.

19. Любецкий В.А., Селиверстов А.В., Зверков О.А. Построение разделяющих паралоги семейств гомологичных белков, кодируемых в пластидах цветковых растений // Математическая биология и биоинформатика. 2013. Т. 8, № 1. С. 225-233.

References

1. Garmash E.V. Mitochondrial respiration of the photosynthesizing cell. //Russian Journal of Plant Physiology. 2016. V. 63, no. 1. P. 13-25. DOI: 10.1134/S1021443715060072

2. de Graaf R.M., Ricard G., van Alen T.A., Duarte I., Dutilh B.E., Burgtorf C., Kuiper J.W., van der Staay G.W., Tielens A.G., Huynen M.A., Hackstein J.H. The organellar genome and metabolic potential of the hydrogen-producing mitochondrion of Nyctotherus ovalis // Mol. Biol. Evol. 2011. V. 28, no. 8. P. 2379-2391. DOI: 10.1093/molbev/msr059

3. Rubanov L.I., Seliverstov A.V., Zverkov O.A., Lyubetsky V.A. A method for identification of highly conserved elements and evolutionary analysis of superphylum Alveolata. BMC Bioinformatics. 2016 17:385 DOI 10.1186/s12859-016-1257-5

4. Il'ev V.P., Il'eva S.D., Navrotskaya A.A. Graph clustering with a constraint on cluster sizes // Diskretnyi analiz i issledovanie operatsii. 2016. V. 23, no. 3. P. 5-20. DOI: 10.17377/daio.2016.23.521

5. Van Dongen S. Graph clustering via a discrete uncoupling process // SIAM J. Matrix Anal. Appl. 2008. V. 30, no. 1. P. 121141. DOI: 10.1137/040608635

6. Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies // Bioinformatics. 2014. V. 30, no. 9. P. 1312-1313. DOI: 10.1093/bioinformatics/btu033

7. Seliverstov A.V., Lysenko E.A., Lyubetsky V.A. Rapid evolution of promoters for the plastome gene ndhF in flowering plants // Russian Journal of Plant Physiology. 2009. V. 56, no. 6. P. 838-845. DOI: 10.1134/S1021443709060144

8. Lyubetsky V.A., Rubanov L.I., Seliverstov A.V. Lack of conservation of bacterial type promoters in plastids of Streptophyta // Biology Direct. 2010. V. 5, no. 34. DOI: 10.1186/1745-6150-5-34

9. Bailey T.L., Boden M., Buske F.A., Frith M., Grant C.E., Clementi L., Ren J., Li W.W., Noble W.S., MEME SUITE: tools for motif discovery and searching // Nucleic Acids Research. 2009. V. 37. P. W202-W208.

10. Nawrocki E.P., Burge S.W., Bateman A., Daub J., Eberhardt R.Y., Eddy S.R., Floden E.W., Gardner P.P., Jones T.A., Tate J., Finn R.D. Rfam 12.0: updates to the RNA families database // Nucleic Acids Research. 2015. V. 43, no. D1. P. D130-D137. DOI: 10.1093/nar/gku1063

11. Rubanov L.I. Parallelization of nonuniform loops in supercomputers with distributed memory // Journal of Communications Technology and Electronics. 2014. V. 59, no. 6. P. 639-646.

12. Rubanov L.I. Parallel Monte Carlo modeling on distributed memory systems // International Journal of Open Information Technologies. 2014. V. 2, no. 2. P. 12-20 [in Russian).

13. Joint Supercomputer Center of the Russian Academy of Sciences. http://www.jscc.ru/scomputers.shtml.

14. Zverkov O.A., Rusin L.Yu., Seliverstov A.V., Lyubetsky V.A. Study of direct repeats in micro evolution of plant mitochondria and plastids based on protein clustering // Moscow University Biological Sciences Bulletin. 2013. V. 68, no. 2. P. 58-62. DOI: 10.3103/S0096392513020119

15. Seliverstov A.V. A note on implicitly given hypergraphs // Tambov University Reports. Series: Natural and Technical Sciences. 2015. V. 20, no. 5. P. 1422-1424 [in Russian).

16. Seliverstov A.V. Polytopes and Connected Subgraphs // Diskretnyi analiz i issledovanie operatsii. 2014. V. 21, no. 3. P. 8286 [in Russian).

17. Sunshin Kim, KyuBum Kwack. A fast comparison algorithm to measure the accuracy of ortholog clusters // Current Bioinformatics. 2016. V. 11, no. 3. P. 324-329. DOI: 10.2174/1574893611666160322233309

18. Zverkov O.A., Seliverstov A.V., Lyubetsky V.A. Plastid-encoded protein families specific for narrow taxonomic groups of algae and protozoa // Molecular Biology. 2012. V. 46, no. 5. P. 717-726. DOI: 10.1134/S0026893312050123

19. Lyubetsky V.A., Seliverstov A.V., Zverkov O.A. Elaboration of the homologous plastid-encoded protein families that separate paralogs in Magnoliophytes // Mathematical Biology and Bioinformatics. 2013. V. 8, no. 1. P. 225-233 [in Russian).

Поступила 15.10.2016

Об авторах:

Рубанов Лев Израилевич, лаборатория № 2 Института проблем передачи информации им. А.А. Харкевича Россиискои академии наук, кандидат технических наук, rubanov@iitp.ru;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Зверков Олег Анатольевич, лаборатория № 6 Института проблем передачи информации им. А.А. Харкевича Россиискои академии наук, кандидат физико-математических наук, zverkov@iitp.ru;

Селиверстов Александр Владиславович, лаборатория № 6 Института проблем передачи информации им. А.А. Харкевича Россиискои академии наук, кандидат физико-математических наук;

Любецкий Василий Александрович, заведующии лабораториеи № 6 Института проблем передачи информации им. А.А. Харкевича Россиискои академии наук, доктор физико-математических наук, lyubetsk@iitp.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.