Научная статья на тему 'АЛГОРИТМЫ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ОБРАБОТКИ ДАННЫХ ГЕНОМОВ РАСТЕНИЙ'

АЛГОРИТМЫ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ОБРАБОТКИ ДАННЫХ ГЕНОМОВ РАСТЕНИЙ Текст научной статьи по специальности «Математика»

CC BY
76
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
CБОРКА ГЕНОМОВ / БИОИНФОРМАТИКА / ГЕНОМИКА / ГЕНОМ / ПРИКЛАДНАЯ МАТЕМАТИКА / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ / МАТЕМАТИЧЕСКАЯ БИОЛОГИЯ / GENOME ASSEMBLY / BIOINFORMATICS / GENOMICS / GENOME / APPLIED MATHEMATICS / SOFTWARE / MATHEMATICAL BIOLOGY

Аннотация научной статьи по математике, автор научной работы — Спринджук М.В., Кончиц А.П., Слизень В.В., Титов Л.П.

В статье рассматриваются основные алгоритмы и программное обеспечение для обработки данных сборки геномов растений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Спринджук М.В., Кончиц А.П., Слизень В.В., Титов Л.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHMS AND SOFTWARE DESIGNED FOR THE PLANT GENOME DATA PROCESSING

Authors describe the principal algorithms and software designed and implemented for the data processing of plant genomes.

Текст научной работы на тему «АЛГОРИТМЫ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ОБРАБОТКИ ДАННЫХ ГЕНОМОВ РАСТЕНИЙ»

УДК 575.174.015.3:633.854.78

М.В. Спринджук, А.П. Кончиц, В.В. Слизень, Л.П. Титов

АЛГОРИТМЫ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ОБРАБОТКИ ДАННЫХ ГЕНОМОВ РАСТЕНИЙ (Обзорная статья)

Объединенный институт проблем информатки НАН Беларуси Республика Беларусь, 220012, г. Минск, ул. Сурганова, 6 e-mail: stepanenkomatvei@yandex.by

В статье рассматриваются основные алгоритмы и программное обеспечение для обработки данных сборки геномов растений.

Ключевые слова: сборка геномов, биоинформатика, геномика, геном, прикладная математика, программное обеспечение, математическая биология.

Введение

За последние годы геномы более 50 видов сельскохозяйственных и нескольких лесохо-зяйственных растений были просеквениро-ваны, представляя новые ресурсы для улучшения селекции и информацию для изучения генного состава растений. Секвенирование — не конечная цель, конечная цель — это улучшение качества и увеличение урожайности сельскохозяйственных культур и лесных ресурсов, а также более глубокое понимание геномной эволюции [46]. Автоматические методы расшифровки последовательностей ДНК (секвенирования) позволяют в течение короткого времени (несколько дней) и сравнительно недорого (несколько тысяч долларов) получить сотни миллиардов коротких последовательностей из четырех букв А, Т, G, С, полученных прочтением фрагментов

входного образца ДНК одного или нескольких организмов.

Существует несколько компаний, выпускающих устройства для получения коротких чтений. Самыми распространенными на рынке этих устройств являются продукты компании Illumina, однако в последнее время секвенаторы Ion Torrent стремительно набирают популярность благодаря своей дешевизне. Сравнительные характеристики сек-венаторов этих двух компаний представлены в табл. 1 [48, 49].

Основные алгоритмы сборки геномов растений

De novo в переводе с латыни означает «сначала», заново. Сборка генома de Novo предполагает ассемблирование генома из коротких чтений без ссылочного эталона-генома.

Таблица 1

Сравнительные характеристики секвенаторов Illumina и Ion Torrent

Параметр Ion Torrent Proton Illumina HiSeq 2500

Цена системы, $ 243000 740000

Стоимость годового обслуживания, $ 19400 59200

Стоимость на 1 миллиард пар нуклеотидов, $ 16,67 46,00

Длительность одного запуска, ч 8 27

В противоположность de novo сборке существует и широко применяется сборка геномов с использованием проаннотированного ссылочного генома-эталона. Есть публикации, показывающие преимущества и недостатки обоих подходов [44].

Задачей сборки генома является восстановление последовательности ДНК (ее длина составляет от миллионов до миллиардов нуклео-тидов у разных живых существ) на основании информации, полученной в результате секве-нирования. Этот процесс делится, как правило, на следующие этапы:

1. Исправление ошибок в данных секвени-рования.

2. Сборка квазиконтигов — фрагментов, префиксы и суффиксы которых были получены на этапе секвенирования.

3. Сборка контигов — максимальных непрерывных последовательностей нуклеотидов, которые удалось восстановить.

4. Построение скэффолдов — последовательностей контигов, разделенных промежутками, для длин которых известны верхние и нижние оценки.

Одной из наиболее часто используемых при сборке генома математических моделей является граф де Брюина. На его использовании основаны следующие программные средства сборки генома: Velvet, ALLPATHS, ABySS, SOAPdenovo, EULER. Одним из недостатков, которым обладают перечисленные программные средства, является большой объем оперативной памяти, необходимый для сборки генома размером в миллиард нуклеотидов [48].

В алгоритмах ассемблирования (сборки геномов из коротких ридов) должны учитываться такие факторы, как неравномерность покрытия (число чтений, содержащих тот или иной ну-клеотид генома) геномов ридами, которые по технологии получаются из случайных фрагментов ДНК; возможность и частота ошибок в ридах; возможность наличия химерных ридов, составленных из разных частей ДНК; наличие в геномах длинных повторов, которые могут приводить к невозможности восстановление полной последовательности даже теоретически.

Наиболее сложной является сборка генома de novo. Задача сборки при наличии образца, например, сборки генома индивидуального человека при наличии референсного генома

(секвенированный, собранный и проаннотированный геном организма того же вида, к которому относится анализируемый образец) более простая. Предложены десятки алгоритмов сборки de novo. Большинство из них основаны на построении графа де Брюйна и нахождении Эйлерового пути в нем. Однако из-за разных эвристик, заложенных на разных этапах сборки, результаты применения сборщиков существенно отличаются. Важным обстоятельством, усложняющим сравнение алгоритмов, является то, что отсутствуют универсальные метрики оценки качества сборки. Причина заключается в том, что нет количественной оценки ошибок разного типа. Например, что лучше: большее число длинных контигов (однозначно расшифрованных непрерывных последовательностей) и скэффолдов (нескольких контигов, склеенных в единую последовательность с возможными пропусками или недостоверно определенными нуклеотидами между ними) либо уменьшение числа химер: контигов и скэффолдов, ошибочно склеенных из фрагментов разных хромосом.

Большой разрыв между желаемым результатом сборки de novo и получаемыми результатами, высокая актуальность создания более качественных сборщиков геномов для медицины и биологии ставят эту задачу в первый ряд актуальных вычислительных задач.

Особые сложности возникают при попытках сборки метагеномных данных с различными смесями и примесями геномов организмов различного происхождения.

Нами, на основе литературы и собственного опыта обработки геномных данных, предложены алгоритмы, представленные на рис. 1 и 2.

Обзор особенностей доступных программ-сборщиков геномов

Все перечисленные сборщики геномов фигурируют в научных работах последнего времени, посвященных сравнению качества работы геномных сборщиков.

Для контроля качества коротких чтений, фильтрации и тримминга перед ассемблированием-сборкой, как правило, применяются FASTX-Toolkit и FastQC.

ABYSS — собирает геном в модели распределенной памяти, используя библиотеку MPI. Для определения участков перекрытий использует распределенную хеш-таблицу [23, 32].

Секвенирование выделенных фрагментов РНК или ДНК различных размеров

_I_

Оценка качества данных и их предобработка (исправление ошибок, оценка размеров геномов и его покрытия)

Сборка контигов

_I_

Конструкция скаффолдов

_S_

Оценка качества результатов сборки

Закрытие промежутков

Рис. 1. Общий алгоритм сборки геномов (пояснение см. в тексте). По источнику [47]

RAY — может собирать геном в модели распределенной памяти, используя библиотеку MPI. Использует оригинальную эвристику для выявления повторов в геноме.

SOAPdenovo — использует разреженную хеш-таблицу для экономии оперативной памяти, что может приводить к ошибкам сборки. Для этого сборщика характерно относительно малое время работы [39].

SPAdes — использует различные параметры сборки для участков генома с различной глубиной покрытия [5].

Velvet — один из первых и самых распространенных сборщиков для коротких ридов. Необходимо вручную задавать большой набор параметров сборки [2, 22, 25, 40, 41].

Результаты сборки обрабатываются с целью удаления повторов и соответствующих промежутков программами REPuter [15, 16], Tandem Repeat Finder [17, 38], and RepeatMasker [4, 6, 9, 13, 33, 34] RECON (Bao and Eddy, 2002), Repeat Modeler RepeatScout и REPET. Что касается картирования/выравнивания геномов

против ссылочного генома-эталона, можно применять инструменты анализа BLAST [4] и Blat [14]. Также разработаны более продвинутые инструменты: Maq [7], Bowtie, SOA-Paligner и BWA. Эти же программы широко применяются для картирования геномов человека, млекопитающих и микроорганизмов [1, 12, 19, 20]. Существуют также так называемые компаративные ассемблеры: AMOScmp [29], ABBA [28] и Celera Assembler [10] для сборки с использованием генома-эталона и для анализа сложных метагеномных данных с генными примесями.

Пути преодоления ошбок ееквенирования,сборки и картирования геномов

Проблемой секвенирования геномов является тот факт, что только малая порция генома кодирует непосредственно сами реальные активные гены, а эти гены окружены повторяющейся ДНК, которая трудно поддается анализу и идентификации.

Получение ВАМ файлов из секвенатора, оценка их качества (FastQC)

Конвертация ВАМ в FASTQ оценка качества данных (BedTools, FastQC)

Тримминг/Фильтрация FASTQ чтений (SeqNextTrimm, NextGene)

Сборка генома De Novo (DNAStar, Abyss, NextGene, Ugene)

Оценка качества контигов (QUAST)

Закрытие промежутков (САРЗ), сравнение контигов между собой и с эталонами (CD-НГТ, Artemis Comparison Tool), аннотация синглтонов (чтений, не вошедших в контиг)

Аннотация контигов, картирование контигов между собой, против схожих эталонных транкскригттомных, пластидных, хлоропластных геномов (BLASTx, ConiferDB, Blast2Go, NextGene)

Рис. 2. Алгоритм обработки данных геномов лесных деревьев на примере сосны

В процессе чтения секвенаторами допускаются технические ошибки. Ошибки бывают трех типов:

1. Ошибки вставки — в основном проявляются в прочтении более длинных, чем в исходном геноме, последовательностей одинаковых нуклеотидов (например, вместо «AA» было прочитано «AAA»).

2. Ошибки удаления — в этом случае в прочитанной нуклеотидной последовательности может не хватать одного нуклеотида (например, вместо «ACGT» было прочитано «AGT»).

3. Ошибки замены — в таких случаях некоторые нуклеотиды были прочитаны неверно (например, вместо нуклеотида A был прочитан нуклеотид G).

Секвенаторы компании Ion Torrent совершают ошибки вставки и удаления значительно чаще, чем ошибки замены, в связи с чем возникает необходимость разработки методов их исправления.

Сборки генома, построенные сборщиками на основе ридов длины 100-150 нуклеотидов, фрагментированы и содержат ошибки. Обычная практика при решении задачи сборки генома заключается в запуске нескольких сборщиков с различными параметрами, а затем выбору наилучшего варианта согласно некоторым соображениям. Однако недавние исследования показывают, что достаточно распространена ситуация, при которой одни сборщики показывают лучший результат по одному из статистических критериев в сравнении с другими программами и уступают им же по другому критерию.

Одной из первых программ для объединения набора контигов от разных сборщиков стала Reconciliator . В ней производится поиск участков, являющихся уникальными как для ведомой, так и для ведущей последовательности. На следующем этапе закрываются пропуски в контигах из первого набора с использованием последовательностей из второго

набора. В случае наличия нескольких вариантов выбирается тот, который отвечает лучшему статистическому критерию. Похожий подход использует GAA, строящий граф соответствия между наборами контигов, используемый для объединения сборок, и ZORRO, который предваряет шаг объединения этапом фильтрования контигов, содержащих ошибки. Программа GAM-NGS [35] ищет в контигах блоки соответствия, которые зависят от количества ридов, картирующихся на сравниваемые последовательности — таким образом, не проводят процедуру выравнивания каждого контига с каждым. Исходя из информации, полученной на стадии картирования ридов, строится граф сборок, анализируя который можно установить участки несоответствия между наборами контигов.

Процесс объединения результатов работ геномных сборщиков является ресурсоемкой задачей. Время работы программы Reconciliator на одном из входных наборов данных составляет 24 часа, потребление оперативной памяти при этом составляет больше 100 Гб .

Методы, основанные на исправлении к-меров, работают не с чтениями, а с их подстроками длины к — к-мерами. Если в чтениях присутствуют только ошибки замены, то можно для каждого к-мера перебрать все возможные варианты ошибок, которые могли в нем произойти (их 3*к варианта). Такое подход не работает для ошибок вставки и замены, так как при таких ошибках к-меры превращаются соответственно в (к+1)-меры и (к-1)-меры.

Методы, основанные на графе де Брейна, в целом менее эффективны, чем основанные на к-мерах, так как требуют хранения в памяти большого графа, из-за чего затрудняется их масштабируемость, а также из-за сложности графа, получаемого в случае больших геномов [48].

Так как парные короткие чтения имеют перехлест приблизительно размером в 20 пар оснований, их можно переассемблировать в псевдо-длинные чтения (псевдоконтиги, суперчтения), используя программное обеспечение ALLPATHS-LG [45], MaSuRCA [43] и FLASH [21]. Также, особенно при использовании программ-сборщиков без встроенной функции исправления ошибок секвенирова-ния, полезно применять программное обе-

спечение Quake, которое эффективно находит и исправляет ошибки секвенирования перед сборкой генома. Еще одна методика для преодоления ошибок и повторов в геномах — это применение гибридного подхода с использованием сборки и картирования геномов коротких и длинных чтений одновременно.

Опыт секвенирования и сборки геномов березы

Имеется практически единственная публикация [37], в которой в деталях представляется процесс секвенирования и сборки генома карликовой березы (Betula nana). Применялось программное обеспечение SOAPdenovo-63mer версия 2.04.3. Генерированные контиги обрабатывались программой GapCloser [3], была выбрана длина k-меров между 28 и 38. Качество результатов сборки контролировалось программным обеспечением Assemblathon statistics 2 [8, 11] и CEGMA [24]. На основе большей длины, более полноценного покрытия генома и меньшего количества контигов отбирался лучший результат сборки. Лучший результат показал к-мер=35 и параметр M3 SOAPdenovo сборщика. Авторы применяли также программное обеспечение Bowtie и Stacks для картирования и запроса вариантов с использованием аннотированного ссылочного генома-эталона.

Заключение

Сборка любого генома, в особенности растения лесохозяйственного назначения, представляет собой новую многогранную задачу. Для преодоления специфических проблем, связанных с особенностями геномов растений, нужно применять дополнительное программное обеспечение для удаления повторов как в исходных коротких чтениях, так и в контигах, необходимо экспериментировать с различным программным обеспечением, предназначенным для создания пвсевдоконтигов. Недавно появилось программное обеспечение, позволяющее собирать геномы полиплоидных растений и выполнять сборку геномов с использованием эталонного ссылочного генома [18, 26, 27, 30, 31, 36, 42]. Из литературных источников можно также сделать вывод об острой необходимости применять для задач геномики мощнейшие дорогостоящие процес-

соры и большую оперативную память вплоть до 1ТБ и более; также, возможно, уже имеется опыт применения суперкомпьютерных технологий. Будущие исследования геноми-ки лесохозяйственных и сельскохозяйственных растений будут выполнимы только при наличии адекватных поставленным задачам технических, программных и аналитических технологий, средств, алгоритмов и методик. Следующей ступенью в изучении геномов растений будут исследования по изучению разнообразия геномных вариаций лесных и сельскохозяйственных растений, глубокая аннотация их функциональных элементов и создание предиктивных количественных моделей, соотносящих генотип с фенотипом.

Список использованных источников

1. Abuin, J.M., Pichel, J.C., Pena, T.F., Amigo, J. BigBWA: approaching the Burrows-Wheeler aligner to Big Data technologies // BIOINFORMATICS. - 2015. - Vol. 31, № 24. -P. 4003-4005.

2. Afiahayati, Sato, K., Sakakibara, Y. MetaVelvet-SL: an extension of the Velvet assembler to a de novo metagenomic assembler utilizing supervised learning // DNA Res. -2015. - Vol. 22, № 1. - P. 69-77.

3. Aung, H.L., Nyunt, W.W., Fong, Y., Cook, G.M., Aung, S.T. First 2 Extensively Drug-Resistant Tuberculosis Cases From Myanmar Treated With Bedaquiline // Clin Infect Dis. -2017. - Vol. 65, № 3. - P. 531532.

4. Bajpai, A., Sridhar, S., Reddy, H.M., Je-sudasan, R.A. BRM-Parser: a tool for comprehensive analysis of BLAST and RepeatMas-ker results // In Silico Biol. - 2007. - Vol. 7, № 4-5. - P. 399-403.

5. Bankevich, A., Nurk, S., Antipov, D., Gurevich, A.A., Dvorkin, M^ др. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing // J Comput Biol. - 2012. - Vol. 19, № 5. - P. 455-77.

6. Bedell, J.A., Korf, I., Gish, W. MaskerAid: a performance enhancement to RepeatMasker // BIOINFORMATICS. - 2000. - Vol. 16, № 11. -P. 1040-1041.

7. Bottcher, R., Amberg, R., Ruzius, F.P., Guryev, V., Verhaegh, W.F^ др. Using a priori knowledge to align sequencing reads to their exact genomic position // Nucleic Acids

Res. - 2012. - Vol. 40, № 16. - P. e125.

8. Bradnam, K.R., Fass, J.N., Alexandrov, A., Baranay, P., Bechner, M.h gp. Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species // Gigascience. -2013. - Vol. 2, № 1. - P. 10.

9. Chen, N. Using RepeatMasker to identify repetitive elements in genomic sequences // Curr Protoc Bioinformatics. - 2004. - Vol. 4. - P. Unit 4 10.

10. Denisov, G., Walenz, B., Halpern, A.L., Miller, J., Axelrod, N.h gp. Consensus generation and variant detection by Celera Assembler // BIOINFORMATICS. - 2008. - Vol. 24, № 8. -P. 1035-1040.

11. Earl, D., Bradnam, K., St John, J., Darling, A., Lin, D.h gp. Assemblathon 1: a competitive assessment of de novo short read assembly methods // Genome Res. - 2011. - Vol. 21, № 12. - P. 2224-2241.

12. Gholami, M., Arbabi, A., Sharifi-Zarchi, A., Chitsaz, H., Sadeghi, M. ARYANA: Aligning Reads by Yet Another Approach // BMC Bioinformatics. - 2014. - Vol. 15, № 9. - P. S12.

13. Huda, A., Jordan, I.K. Analysis of trans-posable element sequences using CENSOR and RepeatMasker // Methods Mol Biol. - 2009. -Vol. 537. - P. 323-336.

14. Kent, W.J. BLAT--the BLAST-like alignment tool // Genome Res. - 2002. - Vol. 12, № 4. - P. 656-664.

15. Kurtz, S., Choudhuri, J.V., Ohlebusch, E., Schleiermacher, C., Stoye, J.h gp. REPuter: the manifold applications of repeat analysis on a genomic scale // Nucleic Acids Res. - 2001. -Vol. 29, № 22. - P. 4633-4642.

16. Kurtz, S., Schleiermacher, C. REPuter: fast computation of maximal repeats in complete genomes // BIOINFORMATICS. - 1999. -Vol. 15, № 5. - P. 426-427.

17. Lee, J.C., Tseng, B., Ho, B.C., Linacre, A. pSTR Finder: a rapid method to discover polymorphic short tandem repeat markers from whole-genome sequences // Investig Genet. -2015. - Vol. 6. - P. 10.

18. Lischer, H.E.L., Shimizu, K.K. Reference-guided de novo assembly approach improves genome reconstruction for related species // BMC Bioinformatics. - 2017. - Vol. 18, № 1. - P. 474.

19. Liu, X., Han, S., Wang, Z., Gelernter, J., Yang, B.Z. Variant callers for next-generation

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

sequencing data: a comparison study // PLoS ONE. - 2013. - Vol. 8, № 9. - P. e75619.

20. Luo, R., Cheung, J., Wu, E., Wang, H., Chan, S.H.h gp. MICA: A fast short-read aligner that takes full advantage of Many Integrated Core Architecture (MIC) // BMC Bioinformat-ics. - 2015. - Vol. 16, Suppl. 7. - P. S10.

21. Magoc, T., Salzberg, S.L. FLASH: fast length adjustment of short reads to improve genome assemblies // BIOINFORMATICS. -2011. - Vol. 27, № 21. - P. 2957-2963.

22. Namiki, T., Hachiya, T., Tanaka, H., Sakakibara, Y. MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads // Nucleic Acids Res. - 2012. - Vol. 40, № 20. - P. e155.

23. Nielsen, C.B., Jackman, S.D., Birol, I., Jones, S.J. ABySS-Explorer: visualizing genome sequence assemblies // IEEE Trans Vis Comput Graph. - 2009. - Vol. 15, № 6. - P. 881-888.

24. Parra, G., Bradnam, K., Korf, I. CEGMA: a pipeline to accurately annotate core genes in eukaryotic genomes // BIOINFORMATICS. -2007. - Vol. 23, № 9. - P. 1061-1067.

25. Powell, DR., Seemann, T. VAGUE: a graphical user interface for the Velvet assembler // Bioinformatics. - 2013. - Vol. 29, № 2. -P. 264-265.

26. Rausch, T., Koren, S., Denisov, G., Weese, D., Emde, A.K.h gp. A consistency-based consensus algorithm for de novo and reference-guided sequence assembly of short reads // BIOINFORMATICS. - 2009. - Vol. 25, № 9. -P. 1118-1124.

27. Ruttink, T., Sterck, L., Rohde, A., Bendixen, C., Rouze, P.h gp. Orthology Guided Assembly in highly heterozygous crops: creating a reference transcriptome to uncover genetic diversity in Lolium perenne // Plant Biotechnol J. - 2013. - Vol. 11, № 5. - P. 605-617.

28. Salzberg, S.L., Sommer, D.D., Puiu, D., Lee, V.T. Gene-boosted assembly of a novel bacterial genome from very short reads // PLoS Com-put Biol. - 2008. - Vol. 4, № 9. - P. e1000186.

29. Schatz, M.C., Phillippy, A.M., Sommer, D.D., Delcher, A.L., Puiu, D.h gp. Hawkeye and AMOS: visualizing and assessing the quality of genome assemblies // Brief Bioinform. - 2013. -Vol. 14, № 2. - P. 213-224.

30. Schneeberger, K., Ossowski, S., Ott, F., Klein, J.D., Wang, X.h gp. Reference-guided

assembly of four diverse Arabidopsis thaliana genomes // Proc Natl Acad Sci U S A. - 2011. -Vol. 108, № 25. - P. 10249-10254.

31. Silva, G.G., Dutilh, B.E., Matthews, T.D., Elkins, K., Schmieder, R.h gp. Combining de novo and reference-guided assembly with scaf-fold_builder // Source Code Biol Med. - 2013. -Vol. 8, № 1. - P. 23.

32. Simpson, J.T., Wong, K., Jackman, S.D., Schein, J.E., Jones, S.J.h gp. ABySS: a parallel assembler for short read sequence data // Genome Res. - 2009. - Vol. 19, № 6. - P. 1117-1123.

33. Tarailo-Graovac, M., Chen, N. Using Re-peatMasker to identify repetitive elements in genomic sequences // Curr Protoc Bioinformat-ics. - 2009. - Vol. Chapter 4. - P. Unit 4 10.

34. Tempel, S. Using and understanding Re-peatMasker // Methods Mol Biol. - 2012. - Vol. 859. - P. 29-51.

35. Vicedomini, R., Vezzi, F., Scalabrin, S., Arvestad, L., Policriti, A. GAM-NGS: genomic assemblies merger for next generation sequencing // BMC Bioinformatics. - 2013. - Vol. 14, Suppl. 7. - P. S6.

36. Wang, B., Ekblom, R., Bunikis, I., Siitari, H., Hoglund, J. Whole genome sequencing of the black grouse (Tetrao tetrix): reference guided assembly suggests faster-Z and MHC evolution // BMC Genomics. - 2014. - Vol. 15. - P. 180.

37. Wang, N., Thomson, M., Bodles, W.J., Crawford, R.M., Hunt, H.V.h gp. Genome sequence of dwarf birch (Betula nana) and cross-species RAD markers // Mol Ecol. - 2013. -Vol. 22, № 11. - P. 3098-3111.

38. Wang, X., Huang, B., Blair, B., Eglezos, S., Bates, J. Selection of optimal combinations of loci by the Optimal Combination Finder computer program from a group of variable number tandem repeat loci for use in Staphy-lococcus aureus food poisoning case investigations // J Med Microbiol. - 2012. - Vol. 61, № 5. - P. 631-639.

39. Xie, Y., Wu, G., Tang, J., Luo, R., Patterson, J.h gp. SOAPdenovo-Trans: de novo tran-scriptome assembly with short RNA-Seq reads // BIOINFORMATICS. - 2014. - Vol. 30, № 12. -P. 1660-1666.

40. Zerbino, D.R. Using the Velvet de novo assembler for short-read sequencing technologies // Curr Protoc Bioinformatics. - 2010. - Vol. 11, - P. 5.

41. Zerbino, D.R., McEwen, G.K., Margulies, E.H., Birney, E. Pebble and rock band: heuristic resolution of repeats and scaffolding in the velvet short-read de novo assembler // PLoS One. -2009. - Vol. 4, № 12. - P. e8407.

42. Zhong, C., Yang, Y., Yooseph, S. GRASP: guided reference-based assembly of short pep-tides // Nucleic Acids Res. - 2015. - Vol. 43, № 3. - P. e18.

43. Zimin, A.V., Marcais, G., Puiu, D., Roberts, M., Salzberg, S.L.h gp. The MaSuRCA genome assembler // Bioinformatics. - 2013. -Vol. 29, № 21. - P. 2669-2677.

44. Chiu, K.P. Next-generation sequencing and sequence data analysis. Bentham Science Publishers, 2015.

45. Gnerre, S., MacCallum, I., Przybylski, D., Ribeiro, F.J., Burton, J.N.h gp. High-quality draft assemblies of mammalian genomes from massively parallel sequence data // Proceedings of the National Academy of Sciences. - 2011. -

Vol. 108, № 4. - P. 1513-1518.

46. TURktaÇ, M., KurtoGLu, K.Y., Dorado, G., Baohong, Z., Hernandez, Р.и др. Sequencing of plant genomes — a review // Turkish Journal of Agriculture & Forestry. - 2015. - Vol. 39, № 3. - P. 361-376.

47. Wang, X. Next-generation sequencing data analysis. 2016. - 246 p.

48. Александров, А., Шалыто, А. Метод исправленияошибоквставкииудалениявнаборе чтений нуклеотидной последовательности // Научно-технический вестник информационных технологий, механики и оптики. - 2016. - Vol. 16, № 1. - P. 108-14.

49. Романенков, К.В., Сальников, А.Н., Алексеевский, А.В. Параллельный метод объединения результатов работы программ по сборке генома // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. -2016. - Vol. 5, № 1. - P. 24-34.

М.В. Спринджук и др. Алгоритмы и программное обеспечение... | 107 M.V. Sprindzhuk, A.P. Konchits, V.V. Slizen', L.P. Titov

ALGORITHMS AND SOFTWARE DESIGNED FOR THE PLANT

GENOME DATA PROCESSING (Review article)

United Institute of Informatics Problems, NASB Minsk, 220012, the Republic of Belarus

Authors describe the principal algorithms and software designed and implemented for the data processing of plant genomes.

Key words: genome assembly, bioinformatics, genomics, genome, applied mathematics, software, mathematical biology.

Дата поступления статьи: 11 апреля 2018 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.