www.medial-journal.ru
МЕЛИ
УДК 578:616.9-036.22-07
ВОЗМОЖНОСТИ И ПЕРСПЕКТИВЫ ПРИМЕНЕНИЯ МЕТОДОВ МАССИВНОГО ПАРАЛЛЕЛЬНОГО СЕКВЕНИРОВАНИЯ В ДИАГНОСТИКЕ И ЭПИДЕМИОЛОГИЧЕСКОМ НАДЗОРЕ ЗА ИНФЕКЦИОННЫМИ ЗАБОЛЕВАНИЯМИ (АНАЛИТИЧЕСКИЙ ОБЗОР)
А.Е. Алексеева, Н.Ф. Бруснигина,
ФБУН «Нижегородский научно-исследовательский институт эпидемиологии и микробиологии им. академика И.Н. Блохиной»
Алексеева Анна Евгеньевна -e-mail: alanyutka@yandex.ru
В аналитическом обзоре описаны методы секвенирования, используемые различными платформами NGS, представлены технические характеристики последних, а также биоинформационные подходы, применяемые для анализа полученных в результате секвенирования нуклеотидных последовательностей, рассмотрены возможности и перспективы применения метагеномного, а также полногеномного секвенирования в диагностике и системе эпидемиологического надзора за инфекционными заболеваниями.
Ключевые слова: технологии NGS, метагеномика, метагеномное секвенирование,
полногеномное секвенирование.
Complete and limited gene sequencing on the different NGS platforms are represented in the analytic survey. Technical dispositions, bioinformation gene analyses are described. There are shown the possibility and perspectives of the metagenome and whole genome sequencing in the diagnostics and epidemiological surveillance of actual infections.
Key words: NGS technology, metagenomics, metagenome and whole genome sequencing.
ВВЕДЕНИЕ
В настоящее время все большее значение в лабораторной диагностике и эпидемиологическом надзоре за инфекционными заболеваниями придается молекулярно-генетическим методам исследования. Особое место занимают методы, основанные на секвенировании нуклеиновых кислот (мультилокусное секвенирование (MLST), мультилокусный анализ областей генома с вариабельным числом тандемных повторов (MLVA), полногеномное секвенирование), позволяющие выявить и описать генетическую структуру новых, различия в геноме уже известных инфекционных агентов, осуществлять мониторинг генетической вариабельности патогенов, их распространенности и происхождения [1, 2, 3, 4, 5, 6, 7, 8, 9, 10,].
Массивное параллельное секвенирование, иначе называемое секвенированием следующего поколения «next-generation sequencing (NGS)», относится к методам, которые появились в последнее десятилетие. Ранее для секве-нирования использовался метод терминации растущей цепи, разработанный Фредериком Сэнгером [11]. Секвенирующие платформы, использующие метод
Сэнгера, осуществляют чтения нуклеотидной последовательности с высокой точностью, но небольшой производительностью. Технологии NGS позволяют одновременно определять нуклеотидные последовательности множества различных нитей ДНК при осуществлении процессов синтеза или лигирования ДНК, что обеспечивает чтение миллиардов нуклеотидов в день [3, 12, 13, 14, 15, 16, 17, 18].
С появлением платформ NGS открываются новые перспективы в изучении полногеномных последовательностей большого числа патогенов (например, M. tuberculosis, E. coli, H. pylori, S. aureus, V. cholerae, N. meningitides, вирусов парентеральных гепатитов, вирусов группы герпеса и т. д.), в создании информационных технологий и методов молекулярно-генетической характеристики возбудителей инфекционных заболеваний, позволяющих решать как фундаментальные, так и практические задачи микробиологии, вирусологии, эпидемиологии [5, 6, 7, 9, 10, 19, 20, 21, 22, 23, 32].
В зарубежной литературе широко обсуждаются возможности использования различных платформ NGS как в научных исследованиях, так и в повседневной практике
лечебных учреждений для решения проблем диагностики инфекционных заболеваний с использованием метаге-номного подхода [24, 25, 26, 27, 28, 29], мониторинга мутаций, приводящих к лекарственной устойчивости вирусов и бактерий [9, 10, 30, 31]. Имеется опыт использования полногеномного секвенирования в эпидемиологическом расследовании вспышек холеры, туберкулеза и эшерихиоза (диареи с гемолитико-уремическим синдромом), обусловленного энтерогеморрагическим штаммом E. coli 0104:Н4 [21, 23, 32]. Представлены результаты использования платформ NGS в метагеномных исследованиях различных биотопов, позволяющих охарактеризовать микробиом и виром человека [33, 34, 35, 36, 37, 38, 39, 40, 41, 42]. Исследования микробиома человека во всем мире координируются главным международным объединением - International Human Microbiome Consortium (http://www.human-microbiome.org).
Опыт отечественных исследователей в использовании платформ NGS для изучения возбудителей инфекционных заболеваний остается достаточно незначительным, о чем свидетельствует ограниченное количество публикаций, посвященных в основном изучению генома человека, растений и животных.
Основными точками приложения методов NGS в области микробиологии, вирусологии и эпидемиологии являются:
• открытие новых бактерий и вирусов с использованием метагеномных подходов;
• изучение микробных сообществ различных биотопов тела здорового человека и в состоянии болезни;
• анализ вариабельности геномов возбудителей инфекционных заболеваний.
ГЛАВА 1. МАССИВНОЕ ПАРАЛЛЕЛЬНОЕ
СЕКВЕНИРОВАНИЕ (NGS)
Секвенирование нуклеиновых кислот - метод определения нуклеотидной последовательности, позволяющий получить описание первичной структуры линейной макромолекулы в виде последовательности мономеров (нуклеотидов). Первые подходы для проведения секвенирования были разработаны Эдманом, затем Максамом, Гилбертом [43] и Сэнгером [11]. Наибольшее распространение получил метод Сэнгера, который относится к секве-нированию первого поколения и считается «золотым стандартом», поскольку позволяет определять нуклеотидную последовательность исследуемой ДНК с высокой точностью [13, 15, 16]. В основе метода лежит терминирование синтеза цепи ДНК ДНК-полимеразой с помощью дидезок-сирибонуклеозид трифосфатами. Полученные фрагменты ДНК разделяют электрофорезом в полиакриламидном геле по величине фрагмента [11]. К настоящему времени разработаны автоматические капиллярные секвенаторы
(«GE - MegaBACE», «Beckman Coulter - CEQ», «Applied Biosystems»), использующие метод Сэнгера. Наибольшей популярностью пользуются приборы производителя «Applied Biosystems». Их последние модели с 48 и 96 капиллярами позволяют за 2 ч прочитать до 1100 нуклеотидов каждого образца, что суммарно составляет около 5 Мб/день (www.appliedbiosystems.com.). Широкое распространение получило использование флуоресцентных меток, каждая из которых соответствует одному из четырех нуклеотидов, что позволяет проводить детекцию результатов реакции с помощью лазера [12, 13, 14, 15, 18].
Международный проект «Геном Человека» (Human Genome Project - HGP) позволил разработать новый способ определения более длинных последовательностей ДНК, названный «shotgun-sequencing» (метод «дробовика»), при котором геномная ДНК энзиматическим или химическим способом гидролизуется на короткие фрагменты, клонируемые и используемые в дальнейшем для определения нуклеотидной последовательности методом Сэнгера. Полную последовательность исследуемого фрагмента ДНК определяют путем выравнивания и объединения полученных нуклеотидных последовательностей за счет их частичного перекрывания. Этот способ позволил впервые определить полную нуклеотидную последовательность генома человека. Метод shotgun-sequencing послужил основой для массивного параллельного секве-нирования, используемого в NGS [16].
Массивное параллельное секвенирование или высокопроизводительное параллельное секвенирование (NGS) является новым этапом в совершенствовании технологий определения нуклеотидных последовательностей. Принципиальное отличие технологий NGS состоит в возможности параллельного определения нуклеотидных последовательностей множества различных нитей ДНК и чтения миллиардов нуклеотидов в день [14, 15, 16]. На платформах NGS проводят одновременное секвенирова-ние пулированных нуклеиновых кислот, выделенных из большого количества различных образцов. Для диффе-ренцировки исследуемых образцов используют наборы штрих-кодов или индексов (до 96 вариантов), представляющих собой олигонуклеотиды известной последовательности [12, 14, 16].
Процесс секвенирования на платформах NGS состоит из нескольких этапов (рис. 1). На первом этапе осуществляют процесс подготовки библиотеки ДНК, который включает фрагментирование ДНК ферментативно или с помощью ультразвука с последующим присоединением к полученным фрагментам ДНК универсальных олигонуклеотидных адаптеров известной последовательности и индексов с помощью полимеразной цепной реакции (ПЦР). Адаптеры необходимы для дальнейшей амплификации фрагментов.
Второй этап заключается в проведении амплификации каждого фрагмента ДНК методом ПЦР. Фрагмент ДНК с помощью последовательности адаптера гибридизуется с одним или двумя праймерами, иммобилизованными на твердой поверхности (микрошарик или стеклянный чип) и участвующими в ПЦР. Через чип (проточная ячейка) пропускается реакционная смесь, содержащая набор ферментов для секвенирования. Далее происходит автоматическое пошаговое считывание каждого типа нуклео-тида и детекция результата [12, 15, 18].
1.1. Технологии NGS
В настоящее время на мировом рынке представлены различные платформы NGS производителей Roche (Швейцария), Illumina (США), Life Technologies (США), которые используют следующие подходы: секвенирова-ние путем синтеза (Sequencing by Synthesis), секвенирова-ние путем лигирования (Sequencing by Oligonucleotide Ligation and Detection).
1.1.1. Секвенирование путем синтеза
Секвенирование путем синтеза применяется на платформах, выпускаемых фирмами Roche (Швейцария)
(http://www.454.com/), Illumina (США) (http://www. illumina.com), Ion Torrent/ Life Technologies (США) (http:// www.iontorrent.com/). Различия между этими платформами заключаются в подходах, используемых для детекции определенного нуклеотида, который присоединяется ДНК-полимеразой к растущей цепи ДНК, и способах получения разобщенных фрагментов ДНК.
Пиросеквенирование. Принцип технологии основан на детекции хемилюминесцентного сигнала, полученного в процессе синтеза комплементарной цепи ДНК.
Одноцепочечные фрагменты ДНК гибридизуют с прай-мером и инкубируют с ферментами ДНК-полимеразой, АТФ-сульфурилазой, люциферазой и апиразой, а также с субстратами аденозин-5'-фосфосульфатами и люцифе-рином. При добавлении дезоксирибонуклеозидтрифос-фатов (дНТФ) ДНК-полимераза встраивает соответствующий дезоксинуклеотид, в результате чего происходит высвобождение пирофосфата. Световой сигнал формируется в результате каскадного превращения дНТФ® пирофосфат®АТФ®свет, интенсивность люминесценции пропорциональна количеству встроившихся нуклеотидов.
РИС. 1.
Этапы секвенирования на платформах NGS.
Праймер, с которым происходит гибридизация исследуемой нити ДНК, присоединен к отдельному микрошарику. Для физической изоляции микрошариков друг от друга используется эмульсионная полимеразная цепная реакция (эПЦР). На поверхности каждого микрошарика амплифицируется только один фрагмент ДНК. Микрошарики затем помещаются в фиксированное количество лунок на поверхности проточного чипа (рис. 2) [12, 13, 14, 16].
Данный подход используется на платформах 454 Genome Sequencer (GS) 20 и 454 Genome Sequencer FLX titanium, 454 Genome Sequencer Junior (Roche). 454 GS 20 является первой коммерческой NGS платформой, запущенной в 2004 г. Первичная длина чтений пиросеквенато-ра 454 GS 20 составляла 100 нуклеотидов, в настоящее время - 400 нуклеотидов [16]. Максимально возможный размер нуклеотидных последовательностей для новых моделей 454 пиросеквенаторов составляет около 700 нуклеотидов, что является наиболее длинными среди всех коротких чтений, осуществляемых NGS технологиями (www.454.com). К недостаткам платформ 454 относятся проблемы с чтением гомоповторов, связанных с нелиней-
ностью люминесцентного сигнала при одновременном встраивании в цепь ДНК большого числа дНТФ одного типа [12, 13, 16, 18].
Флуоресцентная технология секвенирования. Технология основана на детекции флуоресцентного сигнала, полученного при встраивании ДНК-полимеразой в растущую цепь ДНК одного из четырех типов дНТФ, отмеченных соответствующим флуорофором. Наличие флуоресцентной метки, с одной стороны, не позволяет встраиваться следующему нуклеотиду, а с другой, дает возможность идентифицировать нуклеотид по флуоресценции, которая соответствует конкретному кластеру на поверхности чипа. После детекции сигналов происходит обработка реагентами, которые удаляют флуоресцентные метки, позволяя начать новый цикл чтения. Фрагменты ДНК с присоединенными адаптерами гибридизуются с универсальными праймерами, иммобилизованными на поверхности стеклянного чипа в виде плотного «газона». Стеклянный чип называется проточной ячейкой, где происходят оба процесса: амплификация и секвенирование. Кластерная амплификация проводится методом «bridge amplification» (амплификация мостом) с использованием
Фрагменты ДНК адаптеры
Присоединение адаптеров к фрагментам ДНК
Клональная амплификация фрагментов ДНК на микрош^риках методом эПЦР
Внесение микрошариков с амплифицированными фрагментами ДНК в проточную ячейку с лунками (PicoTiter Plate) и набором ферментов для секвенирования
ДНК-полимераза
праймер
Пирофосфат и аденозинфосфосульфат АТФ-сульфурилаза
РИС. 2.
Схема пиросеквенирования [13].
универсального праймера, специфичного последовательности адаптера. В результате амплификации на поверхности чипа формируются кластеры из фрагментов ДНК (рис. 3).
Данная технология используется на платформах, выпускаемых компанией Illumina/Solexa (США). Genome Analyzer IIX (Solexa) был второй платформой NGS, вышедшей на рынок [12, 14, 15, 16]. В 2011 году был выпущен сек-венатор HiSeq 2000 Genome Analyzer (Illumina), который способен производить отдельные чтения длиной в 100 нуклеотидов и генерировать до 600 Гб данных в виде коротких последовательностей за пробег. Уровень достоверности больше, чем 99,95%. Данный прибор является наиболее производительным среди платформ NGS. В конце 2011 года был также выпущен компактный настольный секвенатор MiSeq. Инструмент очень легок в обращении, снабжен сенсорной панелью с интуитивно понятным интерфейсом и пошаговой инструкцией. Реагенты раска-паны в едином картридже, что избавляет от необходимости подготовки реакционных смесей. В приборе автоматизированы все стадии секвенирования, начиная от генерации кластеров и заканчивая компьютерным анализом данных. MiSeq способен генерировать чтения длиной в
250 нуклеотидов в количестве до 8,5 Гб/день. С целью ускорения и упрощения процесса анализа результатов исследователями компанией Illumina для своих платформ (MiSeq и HiSeq) разработано программное обеспечение BaseSpace, позволяющее хранить и обрабатывать полученные результаты в так называемом цифровом облаке, то есть полученные данные можно хранить и обрабатывать прямо в сети Интернет. Перенос данных секвениро-вания на BaseSpace происходит автоматически, полученные данные могут быть доступны для всех соисполнителей в любое время. BaseSpace уже включает все необходимые инструменты для анализа последовательностей после выравнивания и объединения (www.Illumina.com.).
Полупроводниковая технология секвенирования
Принцип технологии основан на детекции изменения рН при выделении одного протона водорода в результате встраивания дНТФ ДНК-полимеразой в реальном времени. Этапы подготовки библиотеки также включают в себя фрагментирование ДНК, присоединение адаптеров для дальнейшей амплификации на микрошариках с использованием эПЦР. Носителями микроклонов служат микрошарики размером около 3 мкм, распределяемые по лункам рН-сенсорного чипа (рис. 4) [14, 44].
МММ
Геномная ДНК
фрагментирование
V
Присоединение адаптеру
Секвенирование
II
=\—
Генерация кластеров путем амплификации мостом
А
е
G
©
i
А2
Присоединение нити ДНК через
адаптер к универсальному прав меру, иммобилизованному на поверхности проточной
Заякоренная Встраивание Удаление Детекция флуоресцентных сигналов нить ДНК нуклеотида флуорофоря в результате синтеза новой пени ДНК
РИС. 3.
Схема флуоресцентной технологии секвенирования [13].
1.1.2. Секвенирование путем лигирования
Отличительной особенностью секвенирования нуклеиновых кислот путем лигирования является использование ДНК-лигазы. ДНК-лигаза - фермент, образующий кова-лентную связь между 5'-фосфатом и З'-гидроксилом в одноцепочечном разрыве ДНК-дуплекса. Подобная технология используется платформами ABI 5500/5500x1 SOLiD, ABI SOLiD4, ABI 5500W/Wxl SOLiD (http://www. appliedbiosystems.com). Все иммобилизованные на поверхности микрошариков одноцепочечные фрагменты ДНК первоначально формируют комплементарный комплекс с универсальным адаптером. Для чтения нуклеотид-ной последовательности используется набор олигонукле-отидов следующего вида: 3'-XYNNNZZZ-F-5', где XY -один из 16 возможных динуклеотидов; N - любой нуклео-тид (вырожденная буква); Z - универсальное основание; F - один из четырех флуорофоров. Один флуорофор соответствует четырем различным динуклеотидам (XY, X'Y', YX, Y'X', где X < > Y и отдельная группа XX, X'X'), например AG, TC, GA и CT. Из добавленного набора зондов с ДНК гибридизуется олигонуклеотид, содержащий комплементарные димер (XY) и тример (NNN). ДНК-
лигаза формирует фосфодиэфирную связь между универсальным праймером и комплементарным зондом. Далее происходит регистрация флуоресцентных сигналов и соотнесение их с пространственным расположением иммобилизованных на чипе микрошариков. Для начала нового шага удаляются три нуклеотида и флуорофор с 5'-конца После нескольких этапов лигирования
проводится денатурация и удаление комплементарной цепи с микрошариков, что позволяет начать новый цикл секвенирования с использованием адаптера, смещенного на один нуклеотид (рис. 5) [12, 13, 18].
В настоящее время активно продолжается совершенствование платформ, использующих NGS технологии, с целью увеличения производительности и снижения стоимости расходных материалов. Основные технические характеристики платформ NGS, существующих на мировом рынке в настоящее время, представлены в таблице 1. 1.2. Анализ данных, полученных в результате секвенирования на платформах NGS Платформы NGS обеспечивают определение нуклео-тидных последовательностей длиной в среднем 50-500 нуклеотидов, что намного короче, чем получаемые путем
Подготовка библиотеки ДНК Молекула ДНК^ЦМР*^*^
I
Фрагментнрование
Присоединение адаптеров
I
мокр о шарик в лунке рН-сенсорного чипа
Присоединение фрагментов ДНК к микрошарпкам
Клональная амплификация
Встраивание дНТФ ДНК-нолимеразой, формирование и детекция сигналов
РИС. 4.
Схема полупроводниковой технологии секвенирования (http://bioinformatics.ru/Misc/genseq-roadmap.html).
ТАБЛИЦА 1.
Технические характеристики основных платформ NGS
Производитель Roch Illumina (Solexa) Life Technologies (Applied Biosystems) Life Technologies (Ion Torrent)
Адрес сайта http://www.454.com/ https://www.illumina.com/ http://www.app[iedbiosystems. com/ http://www.iontorrent.com/
Платформы GS FLX Titanium GS Junior GA IIX,HiScanSQ, HiSeq1000/2000,MiSeq, HiSeq1500/2500 ABI 5500x1 SOLiD, ABI 5500 SOLiD, ABI 5500W/Wxl SOLiD Ion PGM, Ion Proton
Амплификация Клональная эПЦР на поверхности микрошариков Клональная амплификация «мостом» на поверхности чипа Клональная эПЦР на поверхности микрошариков Клональная эПЦР на поверхности микрошариков
Метод детекции Регистрация хемилюминесцен-ции в результате образования пирофосфата Регистрация флуоресцентного сигнала при встраивании меченных нуклеотидов Регистрация флуоресцентного сигнала при лигировании меченных олигонуклеотидов Регистрация изменения рН в результате освобождения протонов водорода
Длина чтений 400-700 нуклеотидов 36, 100, 150 и 250 нуклеотидов до 75 нуклеотидов 35-400 нуклеотидов
Максимальное количество образцов До 132 до 96 (MiSeq, HiSeq1000, HiScanSQ) до 192 (HiSeq2000) до 1152 До 384
Время секвенирования От 10 до 23 часов 1,5-11 дней (GA IIX, HiScanSQ, HiSeq1000/2000), 4-49 часов (MiSeq) 1-7 дней 2-4 часа
Производительность за прогон До 1Гб от 8,5Гб (MiSeq) до 600Гб (HiSeq1000/2000) от 90Гб (ABI 5500/5500x1 SOLiD) до 300Гб (ABI 5500W/Wxl SOLiD) от 20Гб (Ion PGM) до 100Гб (Ion Proton)
Уровень достоверности 99,99% 99,95% 99,99% 99%
РИС. 5.
Схема секвенирования путем лигирования [13].
секвенирования по Сэнгеру. В связи с этим, очень важным параметром секвенирования является степень покрытия (coverage) короткими чтениями. Покрытие определяется числом чтений, перекрывающих друг друга внутри определенного региона генома. Например, 30-кратное покрытие гена CYP2D6 означает, что каждый нуклеотид внутри этого гена представлен минимально в 30 разных и перекрывающихся коротких чтениях. Значительный показатель покрытия является необходимым условием для достоверного построения последовательности генома. Таким образом, в результате секвенирования на платформах NGS создается огромный массив данных и возникает необходимость в автоматизации процесса обработки с помощью вычислительной техники. Разработка программного обеспечения для оценки качества секвениро-вания, выравнивания, объединения и дальнейшей обработки данных осуществляется с помощью биоинформатики, находящейся на стыке двух наук: биологии и информатики [16, 45, 46, 47, 48, 49, 50].
Процесс обработки данных включает следующие основные шаги: фильтрация последовательностей и коррекция ошибок, выравнивание и объединение, анализ результатов [3, 50]. На этапе фильтрации из набора данных исключаются последовательности низкого качества. Для оценки качества секвенирования разработан показатель Phred Quality Scores (Q), который связан логарифмически с вероятностью P ошибочного определения нуклеотида:
Q= —10 lgP
В таблице 2 представлены варианты значений показателя Q, вероятности некорректного определения нуклеотида и достоверности секвенирования.
ТАБЛИЦА 2.
Варианты значений показателя Q, вероятности некорректного определения нуклеотида и достоверности секвенирования
Phred Quality Score Q Вероятность некорректного определения нуклеотида Достоверность
10 1 из 10 90%
20 1 из 100 99%
30 1 из 1000 99.9%
40 1 из 10000 99.99%
50 1 из 100000 99.999%
то время как платформы SOLiD и Illumina склонны к ошибкам в виде замен [51]. Исправление ошибок помогает достичь высокого качества полученных нуклеотид-ных последовательностей, что значительно сокращает дальнейшие алгоритмы объединения. Разработаны различные программы для коррекции ошибок секвенирования и фильтрации чтений низкого качества. В 2011 году L. Salmela и J. Schroder создали программу Coral (CORrection with Alignments) для коррекции ошибок коротких чтений, осуществляемых различными секвени-рующими платформами, которая легко адаптируется к определенным (разным) моделям ошибок [51]. Р. Skums et al. (2012) предложили две новые программы: k-mer-based error correction (KEC) и empirical frequency threshold (ET) для коррекции ошибок при секвенировании вирусных геномов [49].
Второй этап - выравнивание и объединение (aligment and assembly). В процессе выравнивания осуществляется сопоставление нуклеотидных последовательностей с целью обнаружения совпадающих участков [52, 53].
После выравнивания происходит непосредственно сборка коротких нуклеотидных цепочек в одну или несколько длинных последовательностей (рис. 6).
КОНТ1ЕГ K4EÍTIST
ф фрагмент
RtHH (N List L'l ILUM ПфСЛЁЛйЫКППЬООСЭ '■) - J4H№ II ppifrui »PI It- lblin DHtlHf ДИКВЫ, 1Г0
mu Lismprwi Ky^itoTHiHoit пжледппыьндсгв РИС. 6.
Принцип объединения чтений в контиги и скаффолды (http://
commons.wikimedia.org/wiki/Fi[e:PET_contig_scaffo[d.
png?uselang=ru).
Значение Q10 показывает, что вероятность некорректного определения нуклеотида составляет 1 из 10 (достоверность 90%), если Q20, то вероятность 1 из 100 (достоверность 99%), Q30 - один неправильный нуклеотид из 1000 нуклеотидов (достоверность 99,9%) и т. д. Показатель Q20 является допустимым или пороговым уровнем для определения достоверности результатов.
Для различных платформ NGS характерны различные типы ошибки. Например, платформы 454 Roch осуществляют чтения с ошибками в виде инсерций и делеций, в
Сначала формируются более длинные контиги, представляющие собой набор перекрывающихся фрагментов ДНК, которые в совокупности представляют собой консен-сусную область ДНК. Контиги с промежутками известной длины объединяются в скаффолды.
Существует множество программ для объединения и сборки генома, большинство используют алгоритмы, основанные:
• на перекрытии (overlap-layout-consensus) и применяются для длинных фрагментов;
• на графах де Брейна (de Bruijn Graph) и применяются для коротких фрагментов, получаемых при секвенирова-нии на платформах NGS [53].
Процесс выравнивания и объединения может осуществляться с использованием референсного (проверочного) генома или референсных нуклеотидных последовательностей и de novo (заново).
В случае, если исследуемый микроорганизм известен, то возможно использование референсного генома близкородственного микроорганизма. В этом случае определяется наиболее вероятная позиция полученных коротких чтений на референсном геноме. Для выравнивания и объединения коротких чтений по отношению к референсному геному используются такие программы, как Clustal, MAQ (Mapping and Assembly with Quality) [54], ELAND (Efficient Large-Scale Alignment of Nucleotide Databases) (www. illumina.com), BLAST (Basic Local Alignment Search Tool) [33], SOAP (Short Oligonucleotide Alignment Program) [56], SeqMap [57], MUSCLE [58], MAFFT [59] и др.
По сравнению со сборкой коротких последовательностей на основе референсной последовательности объединение de novo является более сложным процессом. Построение de novo представляет собой реконструкцию в чистой форме, без сопоставления с ранее полученными последовательностями геномов или транскриптов. Короткие чтения дают меньше информации, создавая трудности при объединении последовательностей в одну хромосому [53]. В настоящее время построение de novo на основе данных, полученных на платформах NGS, ограничивается, как правило, проектами по изучению микробного генома в связи с малыми размерами бактериальных хромосом [60, 61]. Для объединения нуклеотидных последовательностей de novo используются такие программные обеспечения, как SOAP de novo [62], Velvet [52], Euler [46] и др.
Третий этап обработки данных секвенирования - непосредственный анализ набора последовательностей ДНК, полученного после объединения. В метагеномных исследованиях на заключительном этапе определяется таксономическая принадлежность (taxonomic assignment) микроорганизмов, присутствующих в образце. В основе анализа набора полученных нуклеотидных последовательностей лежит определение филогенетических связей с уже известными нуклеотидными последовательностями целого генома или участками генома (например, гена 16S рРНК) микроорганизмов, относящихся к различным таксонам [17, 45]. Для этих целей используется программное обеспечение RITA, UniFrac, Nave Bayes, BLAST, CARMA. TreePhyler, MetaDomain, Markov model, MEGAN, TOCOA и др. Источниками нуклеотидных последовательностей служат различные базы данных: GenBank (www.ncbi.nlm.nih.
gov/genbank/), DNA Data Bank of Japan (www.ddbj.nig. ac.jp), GreenGens (www.greengenes.secondgenome.com), Genomes Online Database (www.genomesonline.org), Ribosomal Database Project (www.rdp.cme.msu.edu), SILVA (www.arb-silva.de) и др. [13, 15, 16, 61, 63, 64].
Для обработки результатов секвенирования гена 16SpPHK в метагеномных исследованиях J.G. Caporaso et al. (2010) создано программное обеспечение QIIME (quantitative insights into microbial ecology). Данная программа является комплексной и позволяет проводить полный анализ результатов секвенирования, включая фильтрацию неправильных чтений, коррекцию ошибок, интерпретацию полученных последовательностей в соответствии с базами данных [17, 47].
При анализе результатов секвенирования проводятся множественные сравнения полученных нуклеотидных последовательностей с целью выявления внутривидовой изменчивости микроорганизма в виде однонуклеотидных полиморфизмов (single nucleotide polymorphism - SNP), инсерций, делеций и т. д. Подобный анализ актуален при идентификации возбудителя инфекционного заболевания, установления его филогенетических связей, а также для определения ареала распространения. При сравнении очень близких (схожих) нуклеотидных последовательностей, например, при определении между- или внутри-штаммовых различий, наиболее достоверные результаты дают программы, основанные на подходах maximum likelihood (наибольшего подобия) или maximum parsimony (максимальной экономии) [65]. Данные подходы были успешно применены в исследованиях C.U. Koser et al. (2012), D.W. Eyre et al. (2012) для дифференциации штаммов MRSA [31, 22]. Подход maximum likelihood послужил основой для обновления программного обеспечения MEGA (Molecular Evolutionary Genetics Analysis) - MEGA5, являющегося наиболее популярным в исследованиях, посвященных изучению филогенетических связей и построению филогенетического дерева исследуемых микроорганизмов [48].
ГЛАВА 2. ПРИМЕНЕНИЕ ТЕХНОЛОГИЙ NGS
В ДИАГНОСТИКЕ И ЭПИДЕМИОЛОГИЧЕСКОМ
НАДЗОРЕ ЗА ИНФЕКЦИОННЫМИ ЗАБОЛЕВАНИЯМИ
Молекулярно-генетические методы занимают одно из важнейших мест в диагностике и эпидемиологическом надзоре за инфекционными заболеваниями, поскольку отличаются высокой чувствительностью, специфичностью, экспрессностью. Использование молекулярно-гене-тических подходов, основанных, в частности, на амплификации нуклеиновых кислот, особенно актуально и дает прекрасные результаты в случаях, когда возбудитель относится к группе труднокультивируемых или некульти-вируемых, а также присутствует в небольшом количестве.
На рисунке 7 представлены основные молекулярно-гене-тические методы, используемые в диагностике и эпидемиологическом надзоре за инфекционными заболеваниями.
2.1. Метагеномные исследования
Метагеномика - это один из разделов геномики, посвященный изучению всего генетического материала (мета-генома) сообществ микроорганизмов, присутствующих в исследуемом образце [3, 18, 25, 61, 66, 67, 68]. Объектами изучения метагеномики могут являться любые популяции микроорганизмов, обитающих в воде, почве, организме животного, человека или любой другой среде. Главной целью метагеномики является получение и анализ всех геномов для установления видового состава и метаболических взаимосвязей в сообществе [68]. Важной особенностью метагеномных исследований является отсутствие необходимости в выделении и культивировании микроорганизмов, что является принципиальным моментом, поскольку не все из них растут на питательных средах. Метагеномное исследование позволяет выявить в любом объекте не только широкий спектр бактерий, но также присутствие вирусов и простейших [18, 68].
При проведении метагеномных исследований используют следующие методы:
• секвенирование фрагментов ДНК, кодирующих эво-люционно консервативные гены;
• секвенирование метагеномной ДНК сообщества путем ее случайного фрагментирования (whole-metagenome shotgun sequencing).
Одним из важнейших объектов изучения метагеномики является симбиотический микробиом человека. Изучение микробиома различных биотопов тела человека позволяет дать характеристику микробиоты здоровых лиц взрослого населения, способствует пониманию взаимоотношений между микроорганизмами, поскольку микробиом человека представляет собой не просто совокупность микроорганизмов, но сложную и многокомпонентную систему с внутренней структурой, динамикой, активно взаимодействующую с организмом хозяина. Известно, что микробиота участвует в формировании иммунной системы, развитии тканей, влияет на защитные механизмы, препятствующие проникновению патогенов. Патогенез множества заболеваний прямо или косвенно связан с ферментативной и биохимической активностью микро-биоты и ее влиянием на организм человека [18, 33, 69].
Для проведения широкомасштабных дорогостоящих исследований микробиома человека ученые различных стран мира объединились в консорциумы. Крупнейшими объединениями по изучению микробиома являются европейский консорциум Metagenomics of the Human Intestinal Tract (MetaHit) и американский «Микробиом человека» (Human Microbiome Project - HMP). MetaHit основан в
РИС. 7.
Применение молекулярно-генетических методов в диагностике и эпидемиологическом надзоре за инфекционными заболеваниями [67].
2008 году и финансируется из средств Еврокомиссии. Консорциум HMP основан в 2007 году как инициатива National Institute of Health (NIH, США) [38, 45, 64, 70]. В России такое объединение появилось в 2009 году под названием «Русский метагеномный проект». В настоящее время в нем участвуют 14 организаций [71]. Исследования микробиома человека во всем мире координируются главным международным объединением - International Human Microbiome Consortium (www.human-microbiome. org).
2.1.1. Секвенирование фрагментов ДНК, кодирующих эволюционно консервативные гены
При изучении видового состава сообществ микроорганизмов используются универсальные праймеры, специфичные в отношении эволюционно консервативных участков геномной ДНК. Консервативные участки геномной ДНК, имеющиеся у всех микроорганизмов, называются маркерами. Определение нуклеотидной последовательности такого участка позволяет установить, геному какого микроорганизма он принадлежит. В метагеномных исследованиях сообществ микроорганизмов, присутствующих в образце (субстрате), наиболее широкое применение получил подход, основанный на сравнении нуклео-тидных последовательностей гена, ответственного за синтез малой субъединицы 16S рибосомальной РНК (16S рРНК). Последовательность гена 16S рРНК состоит из 9 гипервариабельных регионов, перемежающихся консервативными последовательностями (рис 8).
Первоначально для таксономической классификации бактерий определялась последовательность отдельных гипервариабельных регионов (а не всего гена) [72]. Однако в последние 2-3 года для определения состава сообщества исследователи стали использовать полную последовательность гена 16S рРНК. Это связано, в первую очередь, со способностью платформ NGS осуществлять
более длинные чтения [45, 70]. До появления платформ NGS амплифицированные с помощью универсальных праймеров фрагменты гена 16S рРНК клонировали в E. coli, определение нуклеотидных последовательностей проводили на платформах, использующих метод Сэнгера. При применении технологии NGS этап клонирования исключается, секвенируются непосредственно амплифицированные фрагменты, причем одновременно из десятков образцов биологического материала. Процесс секвениро-вания занимает от нескольких часов до нескольких дней в зависимости от типа платформы и объема исследований. На платформах, использующих метод Сэнгера, метагеном-ные исследования выполнялись бы в течение нескольких недель или даже месяцев [45]. Последовательность гена 16S рРНК и его гипервариабельных регионов уже определена у значительного числа бактерий и доступна в базах данных Greengenes, Ribosomal Database Project (RDP), SILVA [64, 70]. Данный подход широко используют в многочисленных исследованиях [33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 72, 73, 74, 75, 76, 77, 78, 79], посвященных характеристике микробиомов различных биотопов тела человека: пишеварительного тракта, урогенитального тракта, верхних и нижних дыхательных путей, ротовой полости, кожи (таблица 3), а также в изучении микробиоты при различных заболеваниях (таблица 4).
Накопленная информация о нуклеотидных последовательностях гена 16S рРНК бактерий, характерных для определенного биотопа тела человека, позволила сформировать отдельные базы данных. Например, база данных нуклеотидных последовательностей для представителей вагинального микробиома - Vaginal 16S rDNA Reference Database (http://vmc.vcu.edu/downloads.html) [36]; представителей микробиома полости рта можно найти в базе данных Human Oral Microbiome Database (http://www.homd.org/) [80].
s м
iL
VI V2
+
m S ? Л fit-m U- Qu-
in CP
г* H lA 1-1Л Lt OU.
X, lû Ci u_
V3
Г
V4
V5
I . V7
s s
ïH rf IL
г
vs
Vi
7
CO fl w C£
tfi s, £
7
л
N Ci Ci
<N
о
РИС. 8.
Схематичное изображение структуры гена 16S рРНК. V1-V9 ■ F - прямых (forvard) и R - обратных (revers) [64].
вариабельные регионы, стрелками указаны направления основных праймеров
ТАБЛИЦА 3.
Изучение микробиома человека с использованием платформ NGS
Объект исследования, число обследуемых Метод метагеномного исследования, платформа Основные результаты Авторы, год, страна
Микробиом респираторного тракта у больных туберкулезом (мокрота), 22 человека больных туберкулезом и 14 человек здоровых Секвенирование участка V1-V2 гена 16S рРНК, 454 GS FLX-Titanium (Roch) Разнообразие микроорганизмов было схожим в обоих группах. Основными отделами для всех групп являлись Firmicutes, Proteobacteria, Bacteroidetes, Actinobacteria и Fusobacteria. У больных туберкулезом в составе мокроты наблюдалось высокое количество бактерий, относящихся к отделам Proteobacteria и Bacteroidetes, при этом количество представителей отдела Firmicutes было значительно меньше. Основными видами, присутствующими в составе мокроты больных туберкулезом, являлись Actinomyces, Fusobacterium, Leptotrichia, Prevotella, Streptococcus, Veillonella. Также наблюдалось большее количество бактерий родов Mogibacterium, Moryella и Oribacterium. Cheung et al., 2013 (Китай) [77]
Кожа (смывы с кожи лица), 5 здоровых взрослых человек и 1 с раком из клеток Меркеля Секвенирование метагеном-ной ДНК, HiSeq-2000 (Illumina) Основными бактериальными отделами являлись Firmicutes, Actinobacteria, Proteobacteria, Bacteroidetes, семействами фагов -Microviridae и Siphoviridae, семействами вирусов эукариот -Papillomaviridae, Polyomaviridae, Circoviridae. Выявлена высокая степень разнообразия папилломавирусов человека (17 штаммов) и полиомавиру-сов человека (MCPyV, HPyV6, HPyV7 и HPyV9) у больного раком клеток Меркеля, что связано, по мнению авторов, с ослаблением иммунитета. Открыто 13 новых штаммов гамма-папилломавируса человека. Foulongne et al., 2012 (Франция) [37]
Толстый кишечник (кал), 31 пара однояйцевых близнецов,23 пары разнояйцевых близнецов, их матери (46). Структура микро-биома кишечника при ожирении Секвенирование всей последовательности 16S рРНК на платформе ABI 3730x1 (Applied Biosistems) и регионов V2, V6, метагеномной ДНК на платформе 454 GS FLX (Roch) Критерием для подбора обследуемых служил индекс массы тела, при ожирении индекс массы тела составлял>30 кг/м2, у худых - 18.5—24.9 кг/м2, с излишним весом - > 25 и >30. У лиц с ожирением наблюдалось меньшее биоразнообразие кишечной микрофлоры. При этом распределение таксонов микроорганизмов происходило в сторону увеличения представителей отдела Actinobacteria и снижения количества Bacteroidetes. Не наблюдалось различий в степени разнообразия микробных сообществ у представителей однояйцевых и разнояйцевых близнецов. Turnbaugh et al., 2009 (США, Франция) [42]
Виром респираторного тракта у больных муковисцидозом (мокрота), 5 больных муковисцидозом, 5 человек не больных муковисцидозом (1 с астмой) Секвенирование метагеномной ДНК, 454 GS FLX (Roch) Было выявлено 175 различных вирусных генотипов. Сообщества фагов у больных муковисцидозом и с астмой были очень схожи между собой в отличие от здоровых людей. Герпесвирусы и ретровирусы человека доминировали среди вирусов эукариот у больных муковисцидозом. Среди герпесвирусов были идентифицированы вирусы Эпштейна-Барр (HHV-4, HHV-6B и HHV-8P). Willner et al., 2009 (США) [72]
Толстый кишечник (кал), 29 новорожденных с симптомами кишечных колик Секвенирование региона V4-V5 ^рРНК, 454 GS FLX (Roch) У новорожденных с коликами в микрофлоре кишечника были обнаружены представители 4 основных отделов: Proteobacteria, Firmicutes, Actinobacteria и Bacteroidetes. Снижение симптомов наблюдалось на 21-й день, что коррелировало с увеличением относительного количества представителей рода Bacteroides. Roos et al., 2013 (Швеция) [76]
Микробиом кожи при псориазе (биопсия). 10 человек с псориазом и 12 здоровых человек Секвенирование региона V3-V4 16S рРНК, 454- GS FLX (Roch) Во всех образцах основными отделами являлись Firmicutes, Proteobacteria и Actinobacteria. На уровне рода в обеих группах обследуемых основными являлись стрептококки. В образцах, собранных от больных псориазом, наблюдалось значительно меньшее количество стафилококков и пропионобактерий. Fahle n et al., 2012 (Швеция, Англия) [73]
Микробиом толстого кишечника (кал), ротовой полости (смывы с десен) и атеросклеротических бляшек (эндартерэктомия участка) при атеросклерозе,15 человек с атеросклерозом и 15 здоровых Секвенирование участка V1-V2 гена 16S рРНК, 454 GS FLX (Roch) Во всех образцах атеросклеротических бляшек (АБ) выявлены представители рода Chryseomonas, которые не обнаруживались в образцах из ротовой полости, а также в кале. Общими для ротовой полости и АБ являются представители родов Veillonella, Streptococcus, Propionibacterium, Rothia, Burkholderia, Corynebacterium, Granulicatella, Staphylococcus. Для АБ и кала общими являются роды Bacteroides, Bryantella, Enterobacter, Ruminococcus, неидентифицированные представители семейств Enterobacteriaceae, Lachnospiraceae и таксон идентифицированный как Subdoligranulum. Авторами высказывается мысль, что ротовая полость и толстый кишечник являются источниками микроорганизмов, способствующих развитию атеросклеротических бляшек. Koren et al., 2011, (США) [78]
Виром респираторного тракта у людей с различными инфекционными заболеваниями нижних дыхательных путей (слизистые выделения), 210 человек (70% дети до 7 лет и 30% 8-92 года) Секвенирование метагеном-ной ДНК и РНК(кДНК), 454GS20 и 454 GS FLX (Roch) 90% всех полученных вирусных нуклеотидных последовательностей относятся к РНК содержащим вирусам следующих семейств: Paramyxoviridae (human respiratory syncytial virus, human metapneumovirus, human parainfluenza virus), Orthomyxoviridae (influenza virus) и Picornaviridae (human rhinovirus). Среди риновирусов человека были обнаружены последовательности нового типа риновируса человека, обозначенного как human rhinovirus C35. Lysholm et al., 2012 (Швеция) [75]
Микробиом ротовой полости при заболеваниях пародонта (зубной налет), 2 человека с периодонтитом и 3 без периодонтита Секвенирование гена 16S рРНК на платформе 454 GS FLX (Roch) и метагеномное секвенирование на платформе GAII (Illumina) Наиболее многочисленные последовательности, выявленные в составе микробиома ротовой полости, относятся к родам: Actinomyces, Prevotella, Streptococcus, Fusobacterium, Leptotrichia, Corynebacterium, Veillonella, Rothia, Capnocytophaga, Selenomonas, Treponema, и TM7. При периодонтите наблюдались большие количества представителей родов Selenomonas, Prevotella, Treponema, Tannerella, Haemophilus и Catonella, у здоровых людей - Streptococcus, Actinomyces и Granulicatella. Метаболический профиль при периодонтите трансформируется в сторону деградации липидов и аминокислот в качестве источника углерода, что наблюдается в условия недостатка кислорода. Liu et al., 2012 (США) [79]
ТАБЛИЦА 4.
Изучение микробиома человека при различных заболеваниях с использованием платформ NGS
Объект исследования, число обследуемых Метод метагеномного исследования, платформа Основные результаты Авторы, год, страна
Микробиом респираторного тракта у больных туберкулезом (мокрота), 22 человека больных туберкулезом и 14 человек здоровых Секвенирование участка V1-V2 гена 16S рРНК, 454 GS FLX-Titanium (Roch) Разнообразие микроорганизмов было схожим в обоих группах. Основными отделами для всех групп являлись Firmicutes, Proteobacteria, Bacteroidetes, Actinobacteria и Fusobacteria. У больных туберкулезом в составе мокроты наблюдалось высокое количество бактерий, относящихся к отделам Proteobacteria и Bacteroidetes, при этом количество представителей отдела Firmicutes было значительно меньше. Основными видами, присутствующими в составе мокроты больных туберкулезом являлись Actinomyces, Fusobacterium, Leptotrichia, Prevotella, Streptococcus, Veillonella. Также наблюдалось большее количество бактерий родов Mogibacterium, Moryella и Oribacterium. Cheung et at., 2013 (Китай) [77]
Кожа (смывы с кожи лица), 5 здоровых взрослых человека и 1 с раком из клеток Меркеля Секвенирование метагеном-ной ДНК, HiSeq-2000 (Illumina) Основными бактериальными отделами являлись Firmicutes, Actinobacteria, Proteobacteria, Bacteroidetes, семействами фагов -Microviridae и Siphoviridae, семействами вирусов эукариот -Papillomaviridae, Polyomaviridae, Circoviridae. Выявлена высокая степень разнообразия папилломавирусов человека (17 штаммов) и полиомавиру-сов человека (MCPyV, HPyV6, HPyV7 и HPyV9) у больного раком клеток Меркеля, что связано, по мнению авторов, с ослаблением иммунитета. Открыто 13 новых штаммов гамма-папилломавируса человека. Foutongne et at., 2012 (Франция) [37]
Толстый кишечник (кал), 31 пары однояйцевых близнецов,23 пары разнояйцевых близнецов, их матери (46). Структура микро-биома кишечника при ожирении Секвенирование всей последовательности 16S рРНК на платформе ABI 3730x1 (Applied Biosistems) и регионов V2, V6, метагеномной ДНК на платформе 454 GS FLX (Roch) Критерием для подбора обследуемых служил индекс массы тела, при ожирении индекс массы тела составлял>30 кг/м2, у худых - 18.5-24.9 кг/м2, с излишним весом - > 25 и >30. У лиц с ожирением наблюдалось меньшее биоразнообразие кишечной микрофлоры. При этом распределение таксонов микроорганизмов происходило в сторону увеличения представителей отдела Actinobacteria и снижения количества Bacteroidetes. Не наблюдалось различий в степени разнообразия микробных сообществ у представителей однояйцевых и разнояйцевых близнецов. Turnbaugh et at., 2009 (США, Франция) [42]
Виром респираторного тракта у больных муковисцидозом (мокрота), 5 больных муковисцидозом, 5 человек не больных муковисцидозом (1 с астмой) Секвенирование метагеномной ДНК, 454 GS FLX (Roch) Было выявлено 175 различных вирусных генотипов. Сообщества фагов у больных муковисцидозом и с астмой были очень схожи между собой в отличие от здоровых людей. Герпесвирусы и ретровирусы человека доминировали среди вирусов эукариот у больных муковисцидозом. Среди герпесвирусов были идентифицированы вирусы Эпштейн-Бар (HHV-4, HHV-6B и HHV-8P). Wittner et at., 2009 (США) [72]
Толстый кишечник (кал), 29 новорожденных с симптомами кишечных колик Секвенирование региона V4-V5 ^рРНК, 454 GS FLX (Roch) У новорожденных с коликами в микрофлоре кишечника были обнаружены представители 4 основных отделов: Proteobacteria, Firmicutes, Actinobacteria и Bacteroidetes. Снижение симптомов наблюдалось на 21 день, что коррелировало с увеличением относительного количества представителей рода Bacteroides. Roos et at., 2013 (Швеция) [76]
Микробиом кожи при псориазе (биопсия). 10 человек с псориазом и 12 здоровых человек Секвенирование региона V3-V4 16S рРНК, 454- GS FLX (Roch) Во всех образцах основными отделами являлись Firmicutes, Proteobacteria и Actinobacteria. На уровне рода в обеих группах обследуемых основными являлись стрептококки. В образцах, собранных от больных псориазом, наблюдалось значительно меньшее количество стафилококков и пропионобактерий. Fahte n et at., 2012 (Швеция, Англия) [73]
Микробиом толстого кишечника (кал), ротовой полости (смывы с десен) и атеросклеротических бляшек (эндартерэктомия участка) при атеросклерозе,15 человек с атеросклерозом и 15 здоровых Секвенирование участка V1-V2 гена 16S рРНК, 454 GS FLX (Roch) Во всех образцах атеросклеротических бляшек (АБ) выявлены представители рода Chryseomonas, которые не обнаруживались в образцах из ротовой полости, а также в кале. Общими для ротовой полости и АБ являются представители родов Veillonella, Streptococcus, Propionibacterium, Rothia, Burkholderia, Corynebacterium, Granulicatella, Staphylococcus. Для АБ и кала общими являются роды Bacteroides, Bryantella, Enterobacter, Ruminococcus, не идентифицированные представители семейств Enterobacteriaceae, Lachnospiraceae, и таксон идентифицированный как Subdoligranulum. Авторами высказывается мысль, что ротовая полость и толстый кишечник являются источниками микроорганизмов, способствующих развитию атеросклеротических бляшек. Koren et at., 2011, (США) [78]
Виром респираторного тракта у людей с различными инфекционными заболеваниями нижних дыхательных путей (слизистые выделения), 210 человек (70% дети до 7 лет и 30% 8-92 лет) Секвенирование метагеном-ной ДНК и РНК(кДНК), 454GS20 и 454 GS FLX (Roch) 90% всех полученных вирусных нуклеотидных последовательностей относятся к РНК содержащим вирусам следующих семейств: Paramyxoviridae (human respiratory syncytial virus, human metapneumovirus, human parainfluenza virus), Orthomyxoviridae (influenza virus) и Picornaviridae (human rhinovirus). Среди риновирусов человека, были обнаружены последовательности нового типа риновируса человека, обозначенного как human rhinovirus C35. Lyshotm et at., 2012 (Швеция) [75]
Микробиом ротовой полости при заболеваниях пародонта (зубной налет), 2 человека с периодонтитом и 3 без периодонтита Секвенирование гена 16S рРНК на платформе 454 GS FLX (Roch) и метагеномное секвенирование на платформе GAII (Illumina) Наиболее многочисленные последовательности, выявленные в составе микробиома ротовой полости относятся к родам: Actinomyces, Prevotella, Streptococcus, Fusobacterium, Leptotrichia, Corynebacterium, Veillonella, Rothia, Capnocytophaga, Selenomonas, Treponema, и TM7. При периодонтите наблюдалось большие количества представителей родов Selenomonas, Prevotella, Treponema, Tannerella, Haemophilus и Catonella, у здоровых людей - Streptococcus, Actinomyces и Granulicatella. Метаболический профиль при периодонтите трансформируется в сторону деградации липидов и аминокислот в качестве источника углерода, что наблюдается в условия недостатка кислорода. Liu et at., 2012 (США) [79]
Для метагеномного исследования, основанного на анализе нуклеотидных последовательностей единственного гена 16S рРНК, существует ряд ограничений. С использованием универсальных праймеров для гена 16S рРНК на основе существующих нуклеотидных последовательностей этого гена и представленных в различных базах данных невозможно получить полную информацию о структуре изучаемого микробиоценоза. Исследование нуклео-тидной последовательности гена 16S рРНК позволяет в большинстве случаев идентифицировать бактериальный агент лишь до рода, а иногда только до семейства или порядка [81, 82]. Исключением является идентификация и дифференциация видов, относящихся к родам Lactobacillus и Prevotella. Подобные исследования широко проводятся при изучении микробиом кишечника и вагины, так как лактобациллы являются индикаторами здоровья человека [36]. В то же время данная методология не позволяет проводить дифференциацию видов рода Bifidobacterium. Для универсальных праймеров 16S рРНК характерна «избирательность» (bias) нуклеотидных последовательностей микроорганизмов определенных филогенетических групп. Это приводит к тому, что в общей массе амплифи-цированной ДНК бактерии некоторых групп находятся в
значительном избытке по сравнению с реальной долей в сообществе микроорганизмов, что не позволяет определить истинное соотношение микробов в исследуемом сообществе [35, 81, 82, 83].
Некоторые исследователи предлагают использовать для идентификации бактерий другие высококонсервативные гены, которые могут являться альтернативой гену 16S рРНК. Например, ген groEL, широко используемый для идентификации и классификации таких групп бактерий, как стафилококки и видов рода Burkholderia [81]. Секвенирование последовательностей 16S рРНК не позволяет идентифицировать некоторые виды микобактерий, в частности, Mycobacterium avium, M. paratuberculosis, M. chelonae, M. abscessus и виды M. tuberculosis complex. Для этой цели используют последовательности других генов, иногда дополненные результатами фенотипиче-ских тестов, например, hsp65 и rpoB для быстрорастущих, gyrB для медленно растущих микобактерий [81]. Для детекции патогенных штаммов Helicobacter pylori используют ген vacA, кодирующий цитотоксин [84]. M.G. Links et al. (2012) в качестве дополнительного маркера для оценки биоразнообразия микроорганизмов в сообществе предложили ген, кодирующий белок chaperonin 60 (cpn60) [82],
Секвенирование метагеномной ДНК сообщества путем ее
случайного фрагментированля (Tvliole-metagenome shotgun)
4
/\/\/\/\ /\/\/\/х /\/\/\/\ Секвенирование суммарной ДНКЛРНК сообщества
Выделение ДНК/РНК
Образец сообщества микроорганизмов
*х/
/
Структура сообщества:
Выделение ДНК
Секвенирование фрагментов ДНК,
КОДИРУЮЩИХ ЭЕОЛЮШ1 ошю
консервативные гены (16S рРНК)
I
I ill
ОТЕ
О
NCB1
KEGG SEED BLAST
Идентификация последовательностей с использованием баз данных
GATTACA GATTACA GATTTCA GATTTCA GATTTCA
функции
Относительная численность ОТЕ в сообществе *
Филогенетические связи
Варианты нуклеотидных последовательностей и SNP
Относительная
численность
генов,
ответственных за метаболические iiv 1И в сообществе
U1L 1 ^лтлелстАехтселт
(тщпит
TACCAGATTTACATAC 1
(TTF 7 TACCAGATTfcCATAC
лгт-ьгта-т-т-лг-пт-аг-
Амплификация и секвенирование фрагментов ДНК
Группировка
' ТАССАСАТТАСАТАС ,
, аязвазжж ' oit з aggiiggiiSMEii
CACGTAOGAAATA л-ттр a GATTACAOATTACA UJLJL 4 CATTACAGATTTACA GATTACAGAATTACA
I
% NC8I
GreenGenes myRDP Silva
последователь ностей в ОТЕ
Идентификация
ОТЕ с
использованием баз данных
РИС. 9.
Методы метагеномных исследований и их биоинформативные возможности. (ОТЕ - операционная таксономическая еденица; NCBI (National Center for Biotechnological Information, США) - Национальный центр биотехнологической информации; GreenGenes, myRDP, SILVA - базы данных нуклеотидных последовательностей гена 16S рРНК; KEGG (Kyoto Encyclopedia of Genes and Genomes), SEED - базы данных, содержащие информацию о генах и их функциях; BLAST (Basic Local Alignment Search Tool) - семейство компьютерных программ для поиска гомологов белков и нуклеиновых кислот).
который используется для идентификации и дифференциации микроорганизмов, в частности, стафилококков [85], бифидобактерий [86], лактобацилл [87]. Другие консервативные гены, такие как гесА или radA, и гены, кодирующие белок теплового шока 70, факторы элонгации Ти или G, также могут быть использованы в качестве маркеров для филогенетического анализа микроорганизмов [63].
2.1.2. Секвенирование метагеномной ДНК/РНК путем ее случайного фрагментирования
Основное преимущество метагеномных исследований, основанных на секвенировании суммарной ДНК/РНК исследуемого образца, заключается в возможности выявления широкого спектра микроорганизмов: бактерий, вирусов, грибов и простейших [18, 39, 63, 88]. Внедрение данного метода связано с появлением платформ NGS. Отсутствие этапа предварительной амплификации снижает процент ошибок [67, 88]. Общая ДНК/РНК фрагменти-руется ферментативно, а затем определяется нуклеотид-ная последовательность всех полученных фрагментов одновременно. Данный подход позволяет не только дать характеристику структуры сообщества, находящегося в образце, но также провести анализ метаболических и филогенетических взаимосвязей (рис. 9).
Секвенирование метагеномной ДНК/РНК также успешно применяется для характеристики микробиома человека, в частности, его вирусного компонента - вирома [88]. Примеры изучения микробиома и вирома человека с использованием различных платформ NGS представлены в таблице 5.
Для идентификации вирусов, в отличие от бактерий, не существует консервативной нуклеотидной последовательности, которая была бы подходящей для амплификации различных вирусных геномов, и методов подготовки образцов, используемых для вирусных частиц. Для выделения и очистки вирусных нуклеиновых кислот использу-
ется несколько подходов [88]. Наиболее распространенным является центрифугирование в градиенте плотности хлорида цезия ^С1), который позволяет отделить мелкие вирусоподобные частицы от бактериальных клеток и клеток человека [90]. Также может быть использован метод простой фильтрации с последующим удалением нуклеиновых кислот бактерий и человека нуклеазами, при этом вирусные нуклеиновые кислоты сохраняются внутри вириона [91].
Для изучения РНК-содержащих вирусов проводят обратную транскрипцию и синтезируют комплементарную ДНК, используемую для дальнейшего анализа.
2.1.3. Метагеномный подход в диагностике инфекционных заболеваний
В настоящее время все большее значение придается использованию метагеномного подхода в этиологической диагностике инфекционных заболеваний [3, 25, 63, 67]. Метагеномный подход с использованием технологий NGS позволяет проводить прямую детекцию ранее неизвестных вирусов или бактерий, как патогенных, так и условно-патогенных, а также получать молекулярно-генетическую характеристику инфекционных агентов в исследуемых образцах [23, 26, 67].
В работах зарубежных исследователей уже представлены данные об успешном использовании платформ NGS для выявления ранее неизвестных инфекционных агентов. Так, впервые технологии NGS были использованы при расследовании причин смерти трех лихорадящих больных, скончавшихся через несколько недель после трансплантации органов от одного донора в Австралии [24]. Проведенные традиционные микробиологические и молекулярно-генетические исследования на широкий круг инфекционных агентов оказались неинформативными. Дальнейшее расследование данного случая проводилось с использованием платформы NGS 454 GS FLX
ТАБЛИЦА 5.
Изучение вирома человека с использование платформ NGS
Объект исследования, кол-во обследованных Метод метагеномного исследования, платформа NGS Основные результаты Авторы, год,страна
Толстый кишечник (кал), 5 здоровых взрослых человек Секвенирование метагеномной вирусной ДНК, 454 GS FLX titanium (Roch) Около 86,2% полученных последовательностей вирусной ДНК не идентифицировано. Среди известных вирусов основными представителями вирома толстого кишечника являлись двунитевые ДНК вирусы: подофаги (52-74%), сифофаги (11-30%), миофаги (1-4%); и однонитевые ДНК вирусы: микрофаги (3-9%). Kim et al., 2011 (Южная Корея) [89]
Толстый кишечник (кал), 6 здоровых человек Секвенирование метагеномной вирусной ДНК, 454 GS FLX titanium (Roch) Определена структура вирома толстого кишечника. На долю ДНК вирусоподобных частиц приходилось от 4 до 17% общего количества ДНК. Выявлены представители семейств фагов Siphoviridae, Myoviridae, Podoviridae, Microviridae, 55% последовательностей не идентифицированы. На долю умеренных фагов приходилось 17% всех исследуемых вирусоподобных частиц. Установлено наличие в полученных последовательностях профагов генов антибиотикорезистентности. Minot et al., 2011 (США) [40]
Микробиом слюны, 1 человек без признаков заболеваний ротовой полости Секвенирование участков V1 и V3 16S рРНК и метагеномной ДНК, HiSeq 2000 (Illumina) На основании анализа нуклеотидных последовательностей участков V1 и V3 16S рРНК выявлено 206 бактериальных таксонов, 108 из которых не были идентифицированы. Методом секвенирова-ния метагеномной ДНК были обнаружены вирусы (Human herpesvirus 7, Porcine endogenous retrovirus E, Paramecium bursaria chtoretta virus-1 FR483) и фаги (Enterobacteria phage tambda, Enterobacteria phage phiX174, Streptococcus phage SM) Lazarevic et al., 2012 (Швейцария) [39]
(Life Science/Roche), позволившей выявить последовательности, принадлежавшие аренавирусам. Дополнительный анализ установил, что возбудителем инфекции являлся новый штамм аренавируса, близкий к вирусу лимфатического хориоменингита (LCMV). Дальнейшие серологические и иммуногистохимические анализы показали, что вирусом были контаминированы трансплантируемые органы [24]. Платформа 454 GS FLX использовалась в расследовании вспышки геморрагической лихорадки у пяти жителей Замбии (Южная Африка) в 2008 году, четверо из которых скончались. Инфекционный агент также не был установлен. В результате секвенирования была получена полная нуклеотидная последовательность нового вида аренавируса, названного вирусом Lujo [27].
С использованием платформы NGS 454 GS FLX удалось определить нового возбудителя энцефалита у пятнадцатилетнего мальчика с a-гаммаглобулинемией (США). Им оказался астровирус, предварительно названный Human astrovirus Puget Sound (HAstV-PS), отличный от известных астровирусов человека. Филогенетический анализ показал, что HAstV-PS является близкородственным по отношению к астровирусам, выделенным у летучих мышей, баранов и норок. Ранее астровирусы не рассматривались в качестве возбудителей энцефалитов [29].
Следующим положительным моментом применения платформ NGS в метагеномных исследованиях является возможность установления случаев ко-инфицирования патогенами, для выявления которых отсутствуют коммерческие ПЦР тест-системы. Например, J. Yang et al. (2011) использовали платформу GAII (Illumina/Solexa) для анализа образцов смывов со слизистой носоглотки у 16 детей с острыми воспалительными заболеваниями нижних дыхательных путей [92]. Результаты, полученные методом секвенирования ДНК/РНК и традиционных ПЦР и ОТ-ПЦР, оказались идентичными. Были обнаружены следующие вирусные агенты: human adenovirus (HAdV; 3/16), human respiratory syncytial virus (HRSV; 5/16), human rhinovirus (HRV; 5/16), influenza virus (IFV; 2/16), parainfluenza virus (PIV; 1/16), human bocavirus (HBoV; 1/16), и human enterovirus (HEV; 1/16). Однако в одном образце методом ПЦР не удалось обнаружить наличие ассоциации вируса HEV с вирусом HRV [92]. Аналогичные результаты были продемонстрированы в исследовании S. Nakamura et al. (2009), в котором использовалась платформа 454 GS FLX для анализа образцов, взятых со слизистой носоглотки (3 человека) и образцов кала (5 человек), собранных у детей во время сезонной вспышки гриппа и норовирусной инфекции [23]. В результате секвенирования в двух образцах аспиратов помимо вируса гриппа были обнаружены также полиомавирус WU (Washington University) (1 обра-
зец) и коронавирус человека HCoV-HKU1 (1 образец), в одном образце кала кроме норовируса - эндогенный ретровирус HCML-ARV. При использовании диагностического подхода, основанного на обратной транскрипции полимеразной цепной реакции (ОТ-ПЦР), случаи смешанного инфицирования другими вирусными агентами не были зарегистрированы [23]. Полиомавирус WU регулярно выявляется в образцах из респираторного тракта при остром воспалении нижних дыхательных путей, однако его патогенетическая роль остается неясной [93]. Коронавирус человека HCoV-HKU1 обнаруживался в образце слизистых выделений носоглотки у больных вне-больничной пневмонией [94].
Метагеномные исследования с использованием платформ NGS позволяют выявлять высоко дивергентные вирусы. В частности, A.L. Greninger et al. (2010) провели ретроспективное исследование с использованием платформы GA IIX (Illumina) 17 образцов смывов со слизистой носоглотки, собранных у пациентов во время вспышки гриппа в 2009 году в Северной Америке (Мексика, Канада, США) [28]. В результате во всех образцах были определены последовательности, относящиеся к новому варианту вируса - H1N1. Использование платформы GAIIX (Illumina) позволило провести сборку de novo почти полных последовательностей от 2 до 8 сегментов генома нового варианта вируса гриппа 2009 H1N1. Наблюдалась линейная зависимость между процентом полученных выровненных последовательностей, относящихся к вирусу гриппа H1N1, и титром вируса, определенным с помощью ОТ-ПЦР в реальном времени. При использовании ДНК-чипа (Virochip) в двух образцах из 17 детекцию вируса H1N1 провести не удалось, так как содержание вируса было ниже аналитической чувствительности тест-системы [28].
Метагеномное секвенирование на платформах NGS позволяет установить наличие не только возбудителя вирусной инфекции (например вирус гриппа), но и бактерий, которые, с одной стороны, являются представителями нормальной микрофлоры, в частности, респираторного тракта (Streptococcus oralis, Streptococcus sanguis, Streptococcus mitis), а c другой стороны, ассоциированы с воспалительными заболеваниями и могут быть причиной развития осложнений (Streptococcus pneumoniae, Staphylococcus aureus, Klebsiella pneumoniae) [95].
В целом использование платформ NGS для диагностики инфекционных заболеваний на настоящий момент все еще остается достаточно дорогим удовольствием, что, безусловно, является серьезным ограничением для применения их в практическом здравоохранении. Однако платформы NGS представляют собой мощный инструмент для открытия новых вирусов и бактерий. Метагеномные исследования позволяют изучать динамические изменения
микробиоты при различных инфекциях, а также определить роль присутствующих совместно патогенов в развитии инфекционного заболевания. Платформы NGS могут быть использованы как для создания новых, так и для усовершенствования существующих ПЦР тест-систем, позволяющих выявить широкий спектр бактериальных и вирусных патогенов - возбудителей актуальных инфекционных заболеваний.
2.3. Полногеномное секвенирование в системе эпидемиологического надзора за инфекционными заболеваниями
Технологический уровень, чувствительность и специфичность, информативность и доступность методов идентификации и изучения возбудителей, оценка их вирулентности, средств и способов преобразования патогенов в условиях спорадических и эпидемических процессов определяют эффективность эпидемиологического надзора и его составляющих - мониторинга инфекций и их возбудителей, учета всего спектра заболеваний, иммунитета популяций и коллективов, определения поражаемых континген-тов, специфической профилактики заболеваний [6, 7].
Прогресс в изучении полногеномных последовательностей большого числа патогенов, особенностей генов и организации генома, факторов патогенности, систем регуляции транскрипции генов и экспрессии белков открыл новые возможности для фундаментальной микробиологии, вирусологии и эпидемиологии для создания информативных и прецизионных технологий и методов в интересах детальной характеристики возбудителей инфекций [7].
Детекция и оценка генетического разнообразия штаммов возбудителей инфекционных заболеваний имеет большое значение для решения ряда эпидемиологических задач, которые заключаются в установлении степени генетической однородности/неоднородности штаммов, выделенных при локальной вспышке инфекционного заболевания, что характеризует популяцию возбудителя, а также в определении степени родства штаммов, выделенных в различных географических областях и в разное время, в установлении механизмов формирования популяций патогенов в различные периоды эпидемического процесса [9, 19, 20, 96].
Характеристика геномного полиморфизма возбудителей ряда инфекций (вирусные гепатиты, хеликобактери-оз, микобактериозы) позволяет прогнозировать течение и исход заболевания, способствовать более адекватному подбору этиотропных средств и схемы лечения [5, 6, 97].
В настоящее время наблюдается рост заболеваемости вакциноуправляемыми инфекциями, в частности, коклюшем, что связано с изменением фенотипических и генетических свойств возбудителя. Мониторинг генетической
изменчивости возбудителей инфекционных заболеваний способствует созданию новых и усовершенствованию существующих вакцинных препаратов, в которых должны учитываться генетические особенности популяции циркулирующего возбудителя [4, 8].
В большинстве стран Америки и Европы, в Австралии и в некоторых странах Азии и Африки подобные исследования выполняются службами центров по контролю над заболеваниями и их предупреждению: США/Канада (CDC - www.cdc.gov), Европейские центры (ECDC - www.ecdc. europa.eu), Всемирная организация здравоохранения (ВОЗ - www.who.int). На передний план выходят апробированные наукой методы, подходы и технологии геноти-пирования, основанные на ПЦР, гибридизации, а также секвенировании нуклеиновых кислот. К числу наиболее информативных относятся следующие:
• различные варианты полимеразной цепной реакции на маркерные гены и их аллели;
• дифференцировка штаммов патогенов по ДНК мигрирующих генетических элементов (плазмид, транспозонов, IS-элементов, островов патогенности) и ассоциированных с ними генов;
• дифференцировка генетически модифицированных вариантов патогенов по ДНК умеренных фагов (профа-гов) и трансдуцируемых (или конвертируемых) ими генов;
• электрофорез рестрикционных фрагментов ДНК в пульсирующем электрическом поле (PFGE);
• мультилокусный анализ генов жизнеобеспечения («house-keeping») штаммов патогенов (Multilocus sequence typing - MLST);
• мультилокусный анализ участков генома с вариабельным числом тандемных повторов (Multiple-locus variable-number tandem-repeat analysis - MLVA);
• полногеномное секвенирование (Whole-genome sequencing - WGS)
Приведенный перечень подходов не является исчерпывающим, но указанные в нем технологии стандартизованы в отношении большинства патогенов и применяются с целью определения региональных, годовых и сезонных колебаний в распределении циркулирующих генотипов патогенных микробов, а также для выявления генетически новых клонов и прогнозирования появления эпидемически актуальных штаммов бактерий [5, 6, 7, 9, 67, 98].
Особого внимания заслуживают методы, основанные на секвенировании: MLST, MLVA, WGS.
В основе MLST лежит секвенирование нескольких консервативных генов (5-10) с целью обнаружения аллель-ных вариантов и построения аллельного профиля (MLST или ST-типа) изучаемых штаммов. Данный подход широко используется для выявления различий между штаммами
бактерий, относящихся к одному виду [7, 67]. Алгоритм мультилокусного секвенирования основан на анализе нуклеотидных последовательностей генов жизнеобеспечения («house-keeping»), кодирующих, в основном, синтез различных ферментов. Данные гены являются маркерными для конкретного вида возбудителя [7, 96, 99, 100].
Впервые данный метод был применен для типирования штаммов Neisseria meningitidis [96]. В настоящее время MLST используется также для типирования широкого круга других патогенов: Vibrio cholerae [1], Bordetella pertusis [4], Yersinia pestis [101] и др. По результатам MLST строятся дендрограммы, которые характеризуют эволюционные связи между штаммами [1, 4, 7, 101].
MLST-профили штаммов различных микроорганизмов включены в базы данных (http://pubmlst.org/databases. shtml), в которых также находится информация о времени и месте изоляции штамма, о его серотипе, хозяине или экони-ше, о клиническом профиле и лекарственной устойчивости (метаданные) [102]. Однако метод MLST не позволяет выявлять различия у одноклональных вариантов, штаммов с низким уровнем разнообразия «house-keeping» генов, у близкородственных штаммов бактерий. В таких случаях для субтипирования штаммов используют MLVA и WGS [67, 100].
MLVA основан на анализе локусов с вариабельным числом тандемных повторов (VNTR- variable-number tandem-repeats). Последние представляют собой повторяющиеся последовательности длиной 2-20 нуклеотидов, организованных в тандемы. VNTR являются важным маркером полиморфизма генов, используемым для типирования близкородственных штаммов. MLVA позволяет оценить размер VNTR путем амплификации с помощью праймеров к фланкирующим консервативным последовательностям. Данный подход применен для типирования V. cholerae, Y. pestis [20], B. anthracis [103]. Показана высокая дискриминирующая способность VNTR-тестирования для установления источника происхождения штаммов и определения их ландшафтно-географической принадлежности, в частности, клонов V. cholerae и Y. pestis [20], E. coli [104]. В работе Н. van Cuyck et al. (2012) было проведено сравнение возможностей MLST и MLVA для генотипи-рования на примере S. pneumoniаe. Показано, что MLVA позволяет выявить субварианты среди штаммов, принадлежащих к одному MLST-типу [98].
При генотипировании вирусов для выявления точечных мутаций (SNP) используют несколько (в основном 1-2) специфичных для каждого вируса участков генома. Например, для типирования путем секвенирования вируса Эпштейн-Барр анализируется нуклеотидная последовательность гена LMP1, кодирующего латентный мембранный белок 1-го типа [105]; для цитомегаловируса - гены UL55 и UL73, кодирующие гликопротеины gB и gN соот-
ветственно [106]; для вируса гепатита В - нуклеотидная последовательность фрагмента гена полимеразы, содержащего YMDD-мотив [19]; для вируса гриппа - гены ней-раминидазы и гемагглютинина [7]; для ВИЧ - гены gag, env, pol [107]; для вируса Varicella-Zoster- гены ORF21, ORF22 и ORF50 [108] и т. д.
Применение платформ NGS для генотипирования методом MLST позволяет получать достоверные результаты, при этом существенно сокращается время, затрачиваемое на получение и анализ результатов. S.A. Boers et al. 2012 использовали платформу 454 GS Junior (Roche) для типирования 575 штаммов различных бактерий: Legionella pneumophila, Staphylococcus aureus, Pseudomonas aeruginosa и Streptococcus pneumoniae [99]. Объектом сек-венирования являлись ампликоны определенных генов, используемых для типирования методом MLST. Платформа позволяла проводить одновременное исследование 96 изолятов, каждый из которых был промаркирован отдельным индексом. Результаты секвенирования с использованием 454 GS Junior (Roche) совпали с секвени-рованием по методу Сэнгера. Было выявлено 12 новых аллельных вариантов: шесть у S. aureus, пять у P. aeruginosa и один у S. pneumoniae [99].
Все описанные выше методы позволяют проанализировать лишь небольшую часть генома возбудителя, и только полногеномное секвенирование (WGS) дает исчерпывающую информацию об особенностях генов и структуре всего генома. На основании последней можно судить об организации систем регуляции транскрипции генов и экспрессии белков, наличии факторов патогенности, генов устойчивости к антибиотикам и противовирусным препаратам [7, 9, 10, 21, 67].
В зарубежной литературе активно обсуждается вопрос применения метода WGS на платформах NGS для геноти-пирования штаммов микроорганизмов на основании информации о нуклеотидных последовательностях генов, используемых для создания MLST-профиля, и хранящейся в открытых базах данных. Преимуществом WGS являются отсутствие этапа амплификации специфичного фрагмента ДНК и возможность получения информации о полных геномах микроорганизмов, находящихся в образце. WGS, как и метагеномное секвенирование, включает в себя этап случайной фрагментации генома, отдельные фрагменты ДНК секвенируются, полученные нуклеотид-ные последовательности затем выравниваются и объединяются. Разработано несколько программ, использующих метод мультилокусного секвенирования для генотипирования на основании данных, полученных в результате WGS на платформах NGS: программа Bacterial Isolate Genome Sequence Database (http://pubmlst.org/software/ database/bigsdb/) [109], сервер www.cbs.dtu.dk/services/
MLST [110], программа Short read sequence typing (http:// srst.sourceforge.net) [102].
С появлением платформ NGS открываются новые перспективы в изучении полногеномных последовательностей большого числа патогенов, в создании информационных технологий и методов молекулярно-генетической характеристики возбудителей инфекционных заболеваний, позволяющих решать как фундаментальные, так и практические задачи эпидемиологии [У].
WGS используется при проведении эпидемиологических расследований вспышек различных инфекционных заболеваний. Так, платформа NGS была успешно применена при эпидемиологическом расследовании вспышек холеры на Гаити и диареи с гемолитико-уремическим синдромом, вызванной новым штаммом E. coli серотипа O104:H4, в Германии и Франции в 2011 году [23, 32].
Эпидемиологическое расследование вспышки холеры на Гаити вызвало дискуссию относительно источника инфекции. В связи с чем N.A. Hasan et al. (2012) провели WGS на платформе HiSeq 2000 (Illumina) 7б изолятов V. cholera, выделенных от больных и из объектов окружающей среды на Гаити и 8 референсных изолятов из других областей [23]. Было выявлено наличие двух штаммов V. cholerae O1 (47 изолятов) и V. cholerae non-O1/O139 (29 изолятов). Филогенетический анализ полных нуклеотид-ных последовательностей штаммов V. cholerae O1 показал, что популяции имеют клональное происхождение и являются схожими с изолятами из Южной Азии и Африки. Геномная структура популяций V. cholerae non-O1/O139 является очень схожей с таковой токсигенного V. cholerae O1, циркулирующего в западном полушарии. Таким образом, на основании результатов WGS на платформе NGS удалось получить достоверную эпидемиологическую картину вспышки холеры [23].
Традиционными методами молекулярной эпидемиологии (наличие генов вирулентности, серотипирование, MLST, импульсный гель-электрофорез, определение чувствительности к антибиотикам) была определена идентичность изолятов E. coli, выделенных во время вспышки в Германии и Франции. Однако в исследованиях, проведенных Y.H. Grad et al. (2012) с использованием метода WGS на платформах NGS HiSeq2000 (Illumina), 454 GS FLX Titanium (Roche), было показано, что у изолятов, собранных во время вспышки в Германии, имеется низкий уровень полиморфизма (2 SNP), в то время как у изолятов, собранных во Франции, - более высокий уровень полиморфизма (19 SNP) [32]. Достоверность результатов проверялась с использованием платформы третьего поколения PacBio-RS (Pacific Biosciences) и платформы ABI 3730 (Applied Biosystems), использующей метод Сэнгера. Филогенетический анализ позволил установить наличие
единого предка (origin-штамм) у французких и немецких изолятов E. coli [32].
Метод WGS на платформе NGS GAII (Illumina) был использован J.L. Gardy et al. (2011) для анализа 32 изолятов M. tuberculosis, выделенных во время вспышки туберкулеза в 200б-2008 гг., произошедшей в Британской Колумбии (Канада), в сравнении с 4 историческими изолятами [21]. Анализ VNTR штаммов микобактерий показал, что вспышка была вызвана одним клоном M. tuberculosis, имеющим VNTR-генотип. В результате WGS было обнаружено 204 SNP, иерархичная кластеризация которых с помощью методов maximum likelihood и Bayesian Markov chain Monte Carlo позволила выявить наличие двух отдельных линий M. tuberculosis, имеющих общего предка, которые ко-циркулировали в популяции и одновременно вызвали две вспышки [21].
Таким образом, полногеномное секвенирование дает полную информацию о генетической структуре популяций возбудителей инфекционных заболеваний и позволяет выявить наличие генетической неоднородности популяции в случаях, когда традиционными методами молекулярной эпидемиологии её обнаружить не удается, и обладает наибольшим потенциалом для осуществления эффективного эпидемиологического надзора за инфекционными заболеваниями.
С появлением новых компактных приборов NGS для секвенирования, в частности, MiSeq (Illumina), стало возможным использование их не только в научных исследованиях, но и в повседневной практике лечебных учреждений при диагностике инфекционных, наследственных заболеваний, а также при эпидемиологических расследованиях вспышек инфекций, связанных с оказанием медицинской помощи (ИОМП). В частности, появились пилотные проекты изучения генетической вариабельности госпитальных штаммов метициллинрезистентных золотистого стафилококка (meticillin resistant Staphylococcus aureus - MRSA) [10, 22, 31] и C. difficile [22] с использованием платформы MiSeq. На основе данных WGS были построены дендрограммы, которые позволили установить четкие различия между изолятами госпитального и негоспитального происхождения. Полученные данные имели эпидемиологическое значение в установлении источника, путей и факторов передачи инфекции, обусловленной различными штаммами S. aureus и C. difficile [10, 22, 31]. S.R. Harris et al. в 2013 при исследовании вспышки, обусловленной MRSA в неонатальном отделении, методом полногеномного секвенирования на платформе MiSeq (Illumina) был выявлен новый сиквенс-тип S. aureus - ST2371, который является близко родственным ST22, но содержит гены, ответственные за синтез токсина лейкоцидина (токсин Пантона-Валентайна) [10]. Таким
образом, использование WGS на платформах NGS позволяет проводить как генотипирование, так и выявлять новые генетические свойства возбудителя.
Полногеномное секвенирование может стать стандартным подходом для осуществления эпидемиологического надзора за внебольничными и госпитальными (ИОМП) инфекциями, мониторирования распространенности и эволюции большинства патогенов [9, 31].
Важным звеном в эпидмаркировании возбудителя инфекционного заболевания является определение его лекарственной устойчивости. Методы, основанные на сек-венировании нуклеиновых кислот, находят применение в детекции спектра устойчивости к антибиотикам бактериальных патогенов (H. pilory, U. urealyticum, M. genitalium) [30, 111, 112] и к антиретровирусным препаратам вирусов (ВИЧ) [113]. В настоящее время рассматривается вопрос об использовании данных WGS для определения спектра чувствительности к антимикробным препаратам. Например, C.U. toser et al. (2012) исследовали профиль антибиотикорезистентности у штаммов MRSA, вызвавших вспышку в отделении неонатальной интенсивной терапии, с использованием платформы MiSeq (Illumina) [31]. При поиске SNP были найдены точечные мутации в генах, определяющих устойчивость к ципрофлоксацину и рифампицину [31].
Данные о структуре генов лекарственной устойчивости штаммов бактерий, полученные с использованием WGS, необходимо сопоставлять с профилем антибиотикорезистентности, определенным традиционными методами (метод дисков или метод диффузии в агар), так как наличие мутации в гене не всегда сопровождается изменением фенотипических свойств микроорганизма. В связи с этим использование WGS в качестве единственного диагностического теста определения устойчивости целесообразно в тех случаях, когда имеется полная или почти полная информация о соответствии фенотипических и генетических признаков микроорганизма [9, 31].
При осуществлении эпиднадзора за вирусными инфекциями также используются платформы NGS, позволяющие проводить генотипирование и поиск SNP различных вирусов. Поскольку пассирование вирусов в культуре клеток очень трудоемкий процесс и возможен только в специализированных учреждениях, то WGS вирусных геномов, в большинстве случаев, осуществляется с использованием метагеномного подхода, описанного в разделе 2.1.3.
В настоящее время в литературе имеется небольшое количество работ, посвященных полногеномному секве-нированию вирусов на платформах NGS. С использованием WGS учеными изучается взаимосвязь генетических особенностей с фенотипическими свойствами. Например,
в работе M.L. Szpara et al. (2Q1Q) с использованием платформы GAIIx (Illumina) определен ген, кодирующий белок нейровирулентности ОЗА.Б (RL1) у штамма H129 вируса простого герпеса первого типа, который явился причиной возникновения уникального фенотипа с антероградным типом распространения [1И]. A.W. Kolb et al. (2Q11) на модели герпетического кератита у мышей изучали взаимосвязь между генотипом вируса простого герпеса первого типа (7 штаммов) и степенью его поражения глаз [115]. В качестве референсного использовался природный штамм вируса простого герпеса первого типа (ВПГ-1) 17. С использованием платформы GAIIx (Illumina) было обнаружено около 2QQ SNP у каждого исследуемого штамма ВПГ-1 по сравнению со штаммом 17. Однако из-за недостаточного количества исследуемых штаммов статистически значимой зависимости между выявленными SNP и проявлением патологии установить не удалось [115].
WGS также используется для оценки генетической вариабельности штаммов различных вирусов. Например, в исследовании R. Zell et al. (2Q12) определялось генетическое разнообразие 19 штаммов вируса Varicella-Zoster, выделенных от больных в Германии. Обнаружены 2 штамма, имеющие 2 новых генотипа [116]. Изучение N. Renzette et al. (2Q11) крупных ДНК-содержащих вирусов, таких как цитомегаловирусы, позволило сделать вывод, что популяции цитомегаловирусов настолько же вариабельны, как и квазивиды PНК-вирусов [1Q6].
Таким образом, WGS на платформах NGS может стать одним из основных методов молекулярной эпидемиологии, поскольку обладает большей разрешающей способностью обнаружения любых изменений генома, которые могут приводить к специфичным проявлениям патоген-ности возбудителей инфекционных заболеваний. Высокая производительность платформ NGS и скорость секвенирования нуклеиновых кислот позволяют проводить мониторинг изменчивости и циркуляции патогенов, эпидемиологические расследования вспышек инфекционных заболеваний в реальном времени, расширяют возможности быстрого и точного определения географического происхождения штаммов возбудителей инфекции в условиях миграции населения и осуществления адресных противоэпидемических мероприятий
ЛИТЕРАТУРА
1. Осин А.В., Краснов Я.М., Гусева Н.П. и др. Pазработка алгоритма MLST-типирования пандемических и предпандемических штаммов Vibrio cholerae биовара эльтор. Проблемы особо опасных инфекций. 2Q11. Т. ТО7. № 1. С. 58-61.
Osin A.V., Krasnov YA.M., Guseva N.P. i dr. Razrabotka algoritma MLST-tipirovaniya pandemicheskih i predpandemicheskih shtammov Vibrio cholerae biovara e'l'tor. Problemy osobo opasnyh infekcij. 2011. Т. 107. № 1. S. 58-61.
2. Киселев О.И., Комиссаров А.Б., Стукова M.A. и др. Пандемический грипп 2QQ9 г. в Pоссии. Диагностика и молекулярно-биологические характеристики вируса. Вопросы вирусологии. 2Q11. № 1. С. 17-2Q.
Kiselev O.I., Komissarov A.B., Stucova M.A. i dr. Pandemicheskij gripp 2009 g. v Rossii. Diagnostica i moleculyarno-biologicheskie haracteristiki virusa. Voprosy virusologii. 2011. № 1. S. 17-20.
3.Barzon L., Lavezzo E., Militello V.et al. Applications of next-generation sequencing technologies to diagnostic virology.Int. J. Mol. Sci. 2011. Vol. 12. P. 7861-7884.
4. Борисова О.Ю., Мазурова И. К., Ивашинникова Г.А. и др. Генетическая характеристика штаммов Bordetella pertussis, выделенных от больных коклюшем России. Медицинский альманах. 2012. № 2. С. 30-34.
Borisova O.YU., Mazurova I.K., Ivashinnikova G.A. i dr. Geneticheskaya harakteristika shtammov Bordetella pertussis, vydelennyh ot bol'nyh koklyushem v Rossii. Medicinskii al'manah. 2012. № 2. S. 30-34.
5. Мокроусов И.В. Методологические подходы к генотипированию Mycobacterium tuberculosis для эволюционных и эпидемиологических исследований. Инфекция и иммунитет. 2012. Т. 2. № 3. С. 603-614.
Mokrousov I.V. Metidologicheskie podhody k genotipirovaniyu Mycobacterium tuberculosis dlya evolucionnyh i epidemiologicheskih issledovanij. Infekciya I immunitet. 2012. Т. 2. № 3. S. 603-614.
6. Соломатина Е.В., Рахманов Р.С., Потехина Н.Н. и др. Молекулярно-генетические методы в организации федерального государственного санитарно-эпидемиологического надзора за парентеральными гепатитами среди лиц опасных профессий.Медицинский альманах. 2012. Т. 22. № 3. С. 90-93.
Solomatina E.V., Rahmanov R.S., Potehina N.N. i dr. Moleculyarno-geneticheskie metody v organizacii federal'nogo gosudarstvennogo sanitarno-epidemiologiceskogo nadzora za parenteral'nymi gepatitami sredi lic opasnyh professij. Medicinskiy al'manah. 2012. Т. 22. № 3. S. 90-93.
7. Тотолян А.А. Современные подходы и технологии в инфекционной эпидемиологии (на примере инфекций, вызываемых патогенными стрептококками. Журнал Инфектологии. 2012. Т. 4. № 3. С. 88-100.
Totolyan A.A. Sovremennye podhody i tehnologii v infekcionnoj epidemiologii (na primere infekcij, vyzyvaemyh patogennymistreptococcami). Zhurnal infektologii. 2012. Т. 4. № 3. S. 88-100.
8. Алешкин В.А., Борисова О.Ю., Гадуа Н.Т. и др. Особенности генотипи-ческой изменчивости штаммов Bordetella pertussis, выделенных от больных коклюшем в России.Бюллетень ВСНЦ СО РАН. 2012. Т. 87. № 5. Часть 1. С. 177-183.
Aleshkin V.A., Borisova O.YU., Gadua N.T. i dr. Osobennosti genotipicheskoj izmenchivosti shtammov Bordetella pertussis, vydelennyh ot bol'nyh koklyushem v Rossii. Byulleten' VSNC SO RAN. 2012. Том 87. № 5.Chast' 1. S. 177-183.
9. Koser C.U., Ellington M.J., Cartwright E.J.P. et al. Routine use of microbial whole genome sequencing in diagnostic and public health microbiology. PLoS Pathogen. 2012. Vol. 8. № 8. P. 1-9.
10. Harris S.R., Cartwright E.J.P, Trk M.E. et al. Whole-genome sequencing for analysis of an outbreak of meticillin-resistant Staphylococcus aureus: a descriptive study. Lancet Infect Dis. 2013. Vol. 13. № 2. Р. 130-136.
11. Sanger F., Nicklen S., Coulson A.R. DNA sequencing with chain-terminating inhibitors. PNAS. 1977. Vol. 74. № 12. P. 5463-5467.
12. Pettersson E., J. Lundeberg, A. Ahmadian. Generations of sequencing technologies. Genomics. 2009. Vol. 93. № 2. Р. 105-111.
13. Voelkerding K.V., Dames S.A., Durtschi J.D. Next-generation sequencing: from basic research to diagnostics. Clin. Chem. 2009. Vol. 55. № 4. P. 641-658.
14. Pareek C.S., R. Smoczynski, A. Tretyn. Sequencing technologies and genome sequencing. J. Appl. Genetics. 2011. Vol. 52. № 4. P. 413-435.
15. Moorthie S., Mattocks C.J., Wright C.F. Review of massively parallel DNA sequencing technologies. Hugo J. 2011. № 5. P. 1-12.
16. Zhang J., Chiodini R., Badr A. et al. The impact of next-generation sequencing on genomics. J. Genet. Genomics. 2011. Vol. 38. № 3. P. 95-109.
17. Caporaso J.G., Lauber C.L., Walters W.A. et al. Ultra-high-throughput microbial community analysis on the Illumina HiSeq and MiSeq platforms. ISME. 2012. Vol. 6. P. 1621-1624.
18. Курильщиков А.М., Тикунова Н.В., Кабилов М.Р. Методы и объекты метагеномных исследований. Вестник Новосибирского государственного университета. Серия: Биология, клиническая медицина. 2012. Т.10. № 1. С. 191-201.
Kuril'shicovA.M, Ticunova N.V., Kabilov M.P. Metody i ob'ekty metagenomhyh issledovanij. Vestnik Novosibirskogo gosudarstvennogo universiteta. Seriya: Biologiya, klinicheskaya medicina. 2012. Т.10. № 1. S. 191-201.
19. Елпаева Е.А., Порецкова Е.А., Писарева М.А. и др. Генотипическая характеристика вируса гепатита В у хронически инфицированных больных Дальневосточный Журнал Инфекционной Патологии. 2009. № 15. С. 56-59.
Elpaeva E.A., Poreckova E.A., Pisareva M.A. i dr. Genotipicheskaya harakteristika virusa gepatita B u hronicheski inficirovannyh bol'hyh. Dalnevostochnyj zhurnal infekcionnoj patologii. 2009. № 15. S. 56-59.
20. Попов Ю.А., Ерошенко Г.А., Булгакова Е.Г. и др. Разработка комплексного алгоритма генотипирования и методов оценки генетического разнообразия природных штаммов возбудителей чумы и холеры. Проблемы особо опасных инфекций. 2009. Вып. 102. С. 5-10.
PopovYU.A.,EroshenkoE.G.,BulgacovaE.G.idr. Razrabotkakompleksnogo algoritma genotipirovaniya i metodov ocenki geneticheskogo raznoobraziya prirodnyh shtammov vozbuditelej chumy i holery. Problemy osobo opasnyh infekcij. 2009. Vyp. 102. S. 5-10.
21. Gardy J.L., Johnston J.C., Sui S.J.H. et al. Whole-genome sequencing and social-network analysis of a tuberculosis outbreak. N. Engl. J. Med. 2011. Vol. 364. P. 730-739.
22. Eyre D.W., Golubchik T., Gordon N.C. et al. A pilot study of rapid benchtop sequencing of Staphylococcus aureus and Clostridium difficile for outbreak detection and surveillance. BMJ Open. 2012. № 2. P. 1-9.
23. Hasan N.A., Choi S.Y., Eppinger M. et al. Genomic diversity of 2010 Haitian cholera outbreak strains. PNAS. 2012. Vol. 109. № 29. P. 210-217.
24. Palacios G., Hornig M., Cisterna D. et al. Streptococcus pneumoniae coinfection is correlated with the severity of H1N1 pandemic influenza. PLoS ONE. 2009. Vol. 4. № 12. P. 1-5.
25. Nakamura S., Maeda N., Miron I. M. et al. Metagenomic diagnosis of bacterial infections. Emerg. Infect. Dis. 2008. Vol. 14. №11. P. 1784-1786.
26. Nakamura S., Yang C., Sakon N. et al. Direct metagenomic detection of viral pathogens in nasal and fecal specimens using an unbiased high-throughput sequencing approach. PLoS One. 2009. Vol. 4. № 1. P. 1-8.
27. Briese T., Paweska J. T., McMullan L. K. et al. Genetic detection and characterization of Lujo Virus, a new hemorrhagic fever-associated arenavirus from Southern Africa. PLoS Pathog. 2009. Vol. 5. № 5. P. 1-8.
28. Greninger A.L., Chen E.C., Sittler T. et al. A metagenomic analysis of pandemic influenza A (2009 H1N1) infection in patients from North America. PLoS ONE. 2010. Vol. 5. № 10. P. 1-16.
29. Quan P.L., Wagner T.A., Briese T. et al. Astrovirus encephalitis in boy with X-linked agammaglobulinemia. Emerg. Infect. Dis. 2010. Vol. 16. № 6. P. 918-925.
30. Lu C., Ye T., Zhu G. x. et al. Phenotypic and genetic characteristics of macrolide and lincosamide resistant Ureaplasma urealyticum isolated in Guangzhou, China. Curr. Microbiol. 2010. Vol. 61. P. 44-49.
31. Kser C.U., Holden M.T., Ellington M.J. et al. Rapid whole-genome sequencing for investigation of a neonatal MRSA outbreak. N. Engl. J. Med. 2012. Vol. 366. P. 2267-2275.
32. Grad Y.H., Lipsitch M., Feldgarden M. et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. PNAS. 2012. Vol. 109. № 8. P. 3065-3070.
33. Alcaraz L.D., Belda-Ferre P., Cabrera-Rubio R. et al. Identifying a healthy oral microbiome through metagenomics. Clin. Microbiol. Ifect. 2012. Vol. 18. № 4. Р. 54-57.
34. Bogaert D., Keijser B., Huse S. et al. Variability and diversity of nasopharyngeal microbiota in children: a metagenomic analysis. PLoS ONE. 2011. Vol. 6. № 2. P. 1-8.
35. Belda-Ferre P., Alcaraz L.D., Cabrera-Rubio R. et al. The oral metagenome in health and disease. ISME. 2012. Vol. 6. P. 46-56.
36. Fettweis J.M., Serrano M.G., Sheth N.U. et al. Species-level classification of the vaginal microbiome. BMC Genomics. 2012. Vol. 13. № 8. P. 1-9.
37. Foulongne V., Sauvage V., Hebert C. et al. Human skin microbiota: high diversity of DNA viruses identified on the human skin by high throughput sequencing. PLoS ONE. 2012. Vol. 7. № 6. P. 1-11.
38. Huttenhower C., Gevers D., Knigh R. et al. Structure, function and diversity of the healthy human microbiome. Nature. 2012. Vol. 486. № 740. P. 207-214.
39. Lazarevic V., Whiteson K., Gaa N. et al. Analysis of the salivary microbiome using culture independent techniques. J. Clin. Bioinform. 2012. Vol. 2. № 4. P. 1-8.
40. Minot S., Sinha R, Chen J. et al. The human gut virome: inter-individual variation and dynamic response to diet. Genome Res. 2011. Vol. 21. № 10. P. 1616-1625.
41. Ravel J., Gajer P., Abdo Z. et al. Vaginal microbiome of reproductive-age women. PNAS. 2011. Vol. 108. № 1. P. 4680-4687.
42. Turnbaugh P.J., Hamady M., Yatsunenko T. et al. A core gut microbiome in obese and lean twins. Nature. 2009. Vol. 457. № 7228. P. 480-484.
43. Maxam A.M., Gilbert W. A new method of sequencing DNA. PNAS. 1977. Vol. 74. P. 560-564.
—"44. Venter J.C., Levy S., Stockwell T. et al. Massive parallelism, randomness and genomic advances. Nat. Genet. 2003. Vol.33. P.219-227.
45. Hamady M., Knight R. Microbial community profiling for human microbiome projects: tools, techniques, and challenges. Genome Res. 2009. Vol.19. P. 1141-1152.
46. Chaisson M.J., Brinza D., Pevzner P. A. De novo fragment assembly with short mate-paired reads: Does the read length matter? Genome Res. 2009. Vol. 19. P. 336-346.
47. Caporaso J.G., Kuczynski J., Stombaugh J. et al. QIIME allows analysis of high-throughput community sequencing data. Nat. Methods. 2010. Vol. 7. № 5. P. 335-336.
48. Tamura K., Peterson D., Peterson N. et al. MEGA5: molecular evolutionary genetics analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods. Mol. Biol. Evol. 2011. Vol. 28. № 10. P. 27312739.
49. Skums P., Dimitrova Z., Campo D.S. et al. Efficient error correction for next-generation sequencing of viral amplicons. BMC Bioinform. 2012. Vol. 13. № 10. P. 1-13.
50. Bokulich N.A, Subramanian S., Faith J.J. et al. Quality-filtering vastly improves diversity estimates from Illumina amplicon sequencing. N. Meth. 2013. Vol. 10. № 1. P. 57-60.
51. Salmela L., Schrder J. Correcting errors in short reads by multiple alignment. Bioinformatics. 2011. Vol. 27. №11. P. 1455-146.
52. Zerbino D.R., Birney E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008. Vol. 18. № 5 P. 821-829.
53. Miller J. R., Koren S., Sutton G. Assembly algorithms for next-generation sequencing data. Genomics. 2010. Vol. 95. № 6. P. 315-327.
54. Li H., Ruan J., Durbin R. Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res. 2008. Vol. 19. P. 1851-1858.
55. Altschup S.F., Gish W., Miller W. et al. Basic local alignment search tool. J. Mol. Biol. 1990. Vol. 215. № 3. P. 403-410.
56. Li R., Li Y., Kristiansen K. et al. SOAP: short oligonucleotide alignment program. Bioinformatics. 2008. Vol. 24. № 5. P. 713-714.
57. Jiang H., Wong W. H. SeqMap: mapping massive amount of oligonucleotides to the genome. Bioinformatics. 2008. Vol. 24. № 20. P. 2395-2396.
58. Edgar R.C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 2004. Vol. 32. № 5. P. 1792-1797.
59. Katoh K., Kuma K., Toh H. et al. MAFFT version 5: improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 2005. Vol. 33. № 2. P. 511-518.
60. Chistoserdova L. Recent progress and new challenges in metagenomics for biotechnology. Biotechnol. Lett. 2010. Vol. 32. № 10. P. 1351-1359.
61. Wooley J.C., Godzik A., Friedberg I. A primer on metagenomics. PLoS Comput. Biol. 2010. Vol. 6. № 2. P. 1-13.
62. Li R., Fan W., Tian G. et al. The sequence and de novo assembly of the giant panda genome. Nature. 2010. Vol. 463. № 7279. P. 311-317.
63. Carola S., D. Rolf Metagenomic analyses: past and future trends. Appl. Environ. Microbiol. 2011. Vol. 77. № 4. P. 1153-1161.
64. Kuczynski J., Lauber C.L., Walters W.A. et al. Experimental and analytical tools for studying the human microbiome. Nat. Rev. Genet. 2011. Vol. 13. № 1. P. 47-58.
65. Mount D.W. Choosing a method for phylogenetic prediction. CSH Protocols. 2008. Vol. 3. № 4. P. 1-3.
66. Gilbert J.A., Dupont C.L. Microbial metagenomics: beyond the genome. Ann. Rev. Mar. Sci. 2011. Vol. 3. № 1. Р .347-371.
67. Joseph S.J., Read T.D. Bacterial population genomics and infectious disease diagnostics. Trends Biotechnol. 2010. Vol. 28. № 12. P. 611-618.
68. Simon C., Daniel R. Metagenomic analyses: past and future trends. Appl. Environ. Microbiol. 2011. Vol. 77. № 4. Р. 1153-1161.
69. Tlaskalova-Hogenova H., Stepankova R, Hudcovic T. et al. Commensal bacteria (normal microflora), mucosal immunityand chronic inflammatory and autoimmune diseases.Immunol. Lett. 2004. Vol. 93. P. 97-108.
70. Morgan X.C., Huttenhower C. Chapter 12: human microbiome analysis. PLOS Comp. Biol. 2012. Vol.8. №12. Р. 1-14.
71. Tyakht A.V., Kostryukova E.S., Popenko A.S. et al. Human gut microbiota community structures in urban and rural populations in Russia .Nat. Commun. 2013. Vol. 4. № 2469. P.1-9.
72. Willner D., Furlan M., Haynes M. et al. Metagenomic analysis of respiratory tract DNA viral communities in cystic fibrosis and non-cystic fibrosis individuals. PLoS ONE. 2009. Vol.4. № 10. P. 1-12.
73. Fahle'n A., Engstrand L., Baker B. S. et al. Comparison of bacterial microbiota in skin biopsies from normal and psoriatic skin. Arch. Dermatol. Res. 2012. Vol. 304. P. 15-22.
74. Ley R.E., Turnbaugh P.J., Klein S. et al. Microbial ecology: human gut microbes associated with obesity. Nature. 2006. Vol. 444. Р. 1022-1023.
75. Lysholm F., Wetterbom A., Lindau C. et al. Characterization of the viral microbiome in patients with severe lower respiratory tract infections, using metagenomicsequencing.PLoS ONE. 2012. Vol. 7. №2. P. 1-12.
76. Roos S. Dicksved J., Tarasco V. et al. 454 pyrosequencing analysis on faecal samples from a randomized DBPC trial of colicky infants treated with Lactobacillus reuteri DSM 17938. PLoS ONE. 2013. Vol.8. №2. P. 1-5.
77. Cheung M.K., Lam W.Y., Fung W.Y.W. et al. Sputum microbiota in tuberculosis as revealed by 16S rRNA pyrosequencing. PLoS ONE. 2013. Vol. 8. № 1. P. 1-8.
78. Koren O., Spor A., Felin J. et al. Human oral, gut, and plaque microbiota in patientswith atherosclerosis. PNAS. 2011. Vol. 108. № 1. P. 4592-4598.
79. Liu B., Faller L.L., Klitgord N. et al. Deep sequencing of the oral microbiome reveals signatures of periodontal disease. PLoS ONE. 2012. Vol. 7. №6. P. 1-16.
80. Chen T., Yu W., Izard J. et al. The Human Oral Microbiome Database: a web accessible resource for investigating oral microbe taxonomic and genomic information. Database. 2010. Vol.2010. P. 1-10.
81. Woo P.C.Y., Lau S.K.P., Teng J.L.L. et al. Then and now: use of16S rDNA gene sequencing for bacterial identification and discovery of novel bacteria in clinical microbiology laboratories. Clin. Microbiol. Infect. 2008. Vol. 14. P. 908934.
82. Links M.G., Dumonceaux T.J., Hemmingsen S.M. et al. The chaperonin-60 universal target is a barcode for bacteria that enables de novo assembly of metagenomic sequence data. PLoS ONE. 2012. Vol. 7. №11. P. 1-10.
83. Коростик В., Пинаев А.Г., Ахтемова Г.А. и др. Универсальные 16S рРНК праймеры BD1 для описания генетического разнообразия сообщества почвенных прокариот. Экол. генетика. 2006. Том. 4. № 4. С. 32-37.
Korostik V., Pinaev A.G., Ahmetova G.A. i dr. Universal'hye 16S rRNK prajmery BD1 dlya opicaniya geneticheskogo raznoobraziya soobshestva pochvennyh procariot. E'kologicheskaya genetika. 2006. Tom 4. № 4. S. 32-37.
84. Maggi-Solca N., Bernasconi M.V., Valsangiacomo C. et al. Population genetics of Helicobacter pylori in the southern part of Switzerland analysed by sequencing of four housekeeping genes (atpD, glnA, scoB and recA), and by vacA, cagA, iceA and IS605 genotyping. Microbiol. 2001. Vol. 147. №6. Р. 1693-1707.
85. Goh S. H., Potter S., Wood J. O. et al. HSP60 gene sequences as universal targets for microbial species identification: studies with coagulase-negative staphylococci. J. Clin. Microbiol. 1996. Vol. 34. № 4. P. 818-823.
86. Baffoni L., Stenico V., Strahsburger E. et al. Identification of species belonging to the Bifidobacterium genus by PCR-RFLP analysis of a hsp60 gene fragment. BMC Microbiol. 2013. Vol. 13. № 149. P .1-9.
87. Blaiotta G., V. Fusco, D. Ercolini et al. Lactobacillus strain diversity based on partial hsp60 gene sequences and design of PCR-restriction fragment length polymorphism assays for species identification and differentiation. Appl. Environ. Microbiol. 2008. Vol. 74. № 1. P. 208-215.
88. Delwart E. A. Roadmap to the human virome. PLoS Pathog. 2013. Vol. 9. № 2. P. 1-4.
89. Kim M., Park E., Roh S.W. et al. Diversity and abundance of single-stranded DNA viruses in human feces. Appl. Environ. Microbiol. 2011. Vol. 77 № 22. P. 8062-8070.
90. Thurber R.V., Haynes M., Breitbart M. et al. Laboratory procedures to generate viral metagenomes. Nat. Protoc. 2009. Vol. 4. № 4. P. 470-483.
—91. Allander T., Emerson S.U., Engle R.E. et al. A virus discovery method incorporating DNase treatment and its application to the identification of two bovine parvovirus species. PNAS. 2001. Vol. 98. № 20. P. 11609-11614.
92. Yang J., Yang F., Ren L. et al. Unbiased parallel detection of viral pathogens in clinical samples by use of a metagenomic approach. J. Clin. Microbiol. 2011. Vol. 49. № 10. P. 3463-3469.
93. van der Meijden E., Janssens R.W.A., Lauber C. et al. Discovery of a new human polyomavirus associated with trichodysplasia spinulosa in an immunocompromized patient. PLoS Pathog. 2010 Vol. 6. № 7. P. 1-10.
94. Woo P.C.Y, Lau S.K.P., Tsoi H. et al. Clinical and molecular epidemiological features of coronavirus HKU1-associated community-acquired pneumonia. J. Infect. Dis. 2005. Vol. 192. P. 1898-1907.
95. Palacios G., Druce J., Du L. et al. A new arenavirus in a cluster of fatal transplant-associated diseases. N. Engl. J. Med. 2008. Vol. 358. №10. P. 991-998.
96. Maiden M.C.J., Bygraves J.A., Feil E. et al. Multilocus sequence typing: a portable approach to the identification of clones within populations of pathogenic microorganisms. PNAS. 1998. Vol. 95. P. 3140-3145.
97. Нарвская О.В. Вирус папилломы человека. Эпидемиология, лабораторная диагностика и профилактика папилломавирусной инфекции. Инфекция и иммунитет. 2011. Т. 1. № 1. С. 15-22.
Narvskaya O.V. Virus papillomy cheloveka. Epidemiologiya, laboratornaya diagnostika i profilaktika papillomavirusnoy infekcii. Infekciya I immunitet. 2011. Т. 1. № 1. S. 15-22.
98. van Cuyck H., Pichon B., Leroy P. et al. Multiple-locus variable-number tandem-repeat analysis of Streptococcus pneumoniae and comparison with multiple loci sequence typing. BMC Microbiol. 2012. Vol. 12. № 241. P. 1-9.
99. Boers S.A., van der Reijden W.A., Jansen R. High-throughput multilocus sequence typing: bringing molecular typing to the next level. PLoS ONE. 2012. Vol. 7. № 7. P. 1-8.
100. Maiden M.C.J., van Rensburg M.J.J., Bray J.E. et al. MLST revisited: the gene by gene approach to bacterial genomics. Nat. Rev. Microbiol. 2013. Vol. 11. № 10. P. 728-736.
101. Ерошенко Г.А., Одиноков Г.Н., Куклева Л.М. и др. Вариабельные локусы генов napA, aspA, rhas, zwf и tcaB как эффективные ДНК-мишени для генотипирования штаммов Yersinia pestis. Проблемы особо опасных инфекций. 2010. Вып. 104. С. 57-59.
Eroshenco G.A., Odinicov G.N., Kukleva L.M. i dr. Variabelnye locusy genov napA, aspA, rhas, zwf i tcaB kak e'ffectyvnye DNK-misheni dlya genotipirovaniya shtammov Yersinia pestis. Problemy osobo opasnyh infekcij. 2010. Vyp. 104. S. 57-59.
102. Inouye M., Conway T.C., Zobel J. et al. Short read sequence typing (SRST): multi-locus sequence types from short reads. BMC Genomics. 2012. Vol. 13. № 338. P. 1-7.
103. Рязанова А.Г., Еременко Е.И., Цыганкова О.И. и др. Использование методов молекулярного типирования Bacillus anthracis в Референс-центре по мониторингу за возбудителем сибирской язвы. Проблемы особо опасных инфекций. 2011. Вып. 110. С. 68-70.
Ryazanova A.G., Eremenko E.I., Cygankova O.I. i dr. Ispol'zovanie metodov moleculyarnogo tipirivaniya Bacillus anthracis v Referens-centre po
monitoringu za vozbuditelem sibirskoj yazvy. Problemy osobo opasnyh infekcij. 2011. Vyp.110. S. 68-70.
104. Naseer U., Olsson-Liljequist B. E., Woodford N. et al. Multi-locus variable number of tandem repeat analysis for rapid and accurate typing of virulent multidrug resistant Escherichia coli clones. PloS ONE. 2012. Vol. 7. № 7. P. 1-6.
105. Яковлева Л.С. Сенюта Н.Б., Степина В.Н. и др. Вирус Эпштейна—Барр у больных раком носоглотки: варианты гена LMP1, гуморальный ответ и клинические проявления болезни. Вестник РОНЦ им. Н. Н. Блохина РАМН. 2012. Т. 23. № 1. С. 54-61.
Yakovleva L.S., Senyuta N.B., Stepina V.N. idr. Virus Epshtejna-Barr u bolhyh rakom nosoglotki: varianty gena LMP1, gumoral'nyj otvet i klinicheskie proyavleniya bolezni. Vestnik RONC im. N.N. Blohina RAMN. 2012. Т. 23. № 1. S. 54-61.
106. Renzette N., Bhattacharjee B., Jensen J.D. et al. Extensive genome-wide variability of human cytomegalovirus in congenitally infected infants. PLoS Pathog. 2011. Vol. 7. № 5. P. 1-14.
107. Гилязова А.В., Зенин П.В., Пронин А.Ю. и др. Молекулярная эпидемиология ВИЧ-1 в Московской области. Вопр. вирусол. 2010. № 5. С. 25-28.
GilyazovaA.V.,ZeninP.V., ProninA. YU. idr. Moleculyarnaya e'pidemiologiya VICH-1 v Moskovskoj oblasti. Voprosy virusologii. 2010. № 5. S. 25-28.
108. Энсхсайхан Д., Лопарев В.Н., Bostik V. и др. Генотипирование вирусов варицелла-зостер, выделенных на территории Монголии. Вопр. вирусол. 2010. № 5. С. 40-42.
Ens'hsajhan D., Loparev V.N., Bostik V. idr. Genotipirovanie virusov varicella-zoster, vydelennyh na territorii Mongolii. Voprosy virusologii. 2010. № 5. S. 40-42.
109. Jolley K.A., Maiden M.C.J. BIGSdb: scalable analysis of bacterial genome variation at the population level. BMC Bioinf. 2010. Vol. 11. № 595. P. 1-11.
110. Larsen M.V., Cosentino S., Rasmussen S. et al. Multilocus sequence typing of total-genome-sequenced bacteria. JCM. 2012. Vol. 50 № 4. P. 13551361.
111. Sakinc T., Baars B., Wuppenhorst N. et al. Influence of a 23S ribosomal RNA mutation in Helicobacter pylori strains on the in vitro synergistic effect of clarithromycin and amoxicillin. BMC Research Notes. 2012. Vol. 603. № 5. Р. 1-4.
112. Pond M.J., Achyuta V.N., Witney A.A. et al. High prevalence of antibiotic resistant Mycoplasma genitalium in non-gonococcal urethritis: the need for routine testing and the inadequacy of current treatment options. http://cid.oxfordjournals.org/content/early/2013/11/25/cid.cit752.full.pdi
113. Парфенова О.В., Пекшева О.Ю., Зайцева Н.Н. Мутации, определяющие резистентность ВИЧ к антиретровирусной терапии в Приволжском федеральном округе в 2008-2012 гг. Медицинский альманах. 2013. Т. 26. № 2. С. 79-82.
Parfenova O.V., Peksheva O.YU., Zajceva N.N. Mutacii, opredelyayushie rezistentnost' VICH k antiretrovirusnoj terapii v Privolshskom federal'nom okruge v 2008-2012 gg. Medicinskiy al'manah. 2013. Т. 26. № 2. S. 79-82.
114. Szpara M.L., Parsons L., Enquist L. W. Sequence variability in clinical and laboratory isolates of Herpes simplex virus 1 reveals new mutations. J. Virol. 2010. Vol. 84. №5. P. 5303-5313.
115. Kolb A. W., Adams M., Cabot E.L. et al. Multiplex sequencing of seven ocular Herpes simplex virus type -1 genomes: phylogeny, sequence variability, and SNP distribution. IOVS. 2011. Vol. 52. № 12. P. 9061-9073.
116. Zell R., Taudien S., Pfaff F. et al. Sequencing of 21 varicella-zoster virus genomes reveals two novel genotypes and evidence of recombination. J. Virol. 2012. Vol. 86 № 3. P. 1608-1622.