СЕЛЬСКОХОЗЯЙСТВЕННАЯ БИОЛОГИЯ, 2012, № 5
УДК 579.8.06
КОНЦЕПЦИЯ УНИВЕРСАЛЬНОЙ ТАКСОНОМИЧЕСКОЙ СИСТЕМЫ БАКТЕРИЙ: ЭВОЛЮЦИОННОЕ ПРОСТРАНСТВО ГЕНА 16S-pPHK v. 1.0*
А.С. ДОЛЬНИК1, Г.С. ТАМАЗЯН1, Е.В. ПЕРШИНА2, К.В. ВЯТКИНА3, Ю.Б. ПОРОЗОВ4, А.Г. ПИНАЕВ2, Е.Е. АНДРОНОВ2
Проблема системности в таксономии, в основе своей связанная с вопросами эволюции, остается одной из сложнейших в современной биологии, и в частности в микробиологии. Эта проблема всегда привлекала внимание ученых, в том числе Н.И. Вавилова, закон гомологических рядов которого, несомненно, следует отнести к числу наиболее ярких попыток внесения упорядоченности в анализ биоразнообразия. В молекулярной экологии микроорганизмов востребованность универсальной таксономической системы особенно очевидна. Анализ таксономической структуры почвенных микробиомов с использованием секвенаторов нового поколения сталкивается с многочисленными трудностями, одна из которых — невозможность точной идентификации значительной части выявляемых в окружающей среде вариантов гена ^S-рРНК из-за отсутствия близкородственных последовательностей в базах данных. Для решения этой проблемы мы предлагаем концепцию «эволюционного пространства» гена ^S-рРНК, или своеобразной системы, в которой есть место для любой последовательности указанного гена вне зависимости от того, присутствует ли она в базах данных/биосфере и даже реализована ли она в ходе эволюции. В такой системе любой вариант гена ^S-рРНК получает фиксированные координаты. Эволюционное пространство открывает возможность для создания универсальной «таксономической карты» и привлечения ряда мощных алгоритмов для анализа микробного сообщества как единого целого. В настоящей публикации описана первая версия эволюционного пространства гена ^S-рРНК бактерий минимально возможной размерности (13D).
Ключевые слова: эволюционное пространство, метатаксономия, WS-рРНК, микробное сообщество.
Keywords: evolutionary space, metataxonomy, 16S rRNA, microbial community.
Таксономическая структура биоты, основные закономерности, определяющие эколого-географическое распространение видов и их эволюцию, остаются фундаментальными проблемами биологии со времен выдающихся естествоиспытателей и основателей генетики. По мере накопления научных знаний такие исследования углублялись, достигнув в последние десятилетия уровня оценки молекулярных особенностей генома объектов.
Знаменитый принцип одного из основоположников экологии микроорганизмов М. Бейеринка (M.W. Beyerinck), согласно которому все есть везде, но среда отбирает («Everything is everywhere but the environment selects»), сформулированный 100 лет назад, до сих пор остается весьма плодотворной научной идеей, обладающей мощным эвристическим потенциалом (1). Применительно к сельскохозяйственной микробиологии он указывает на возможность решения обратной задачи — анализа агроэкологиче-ского состояния почвы по данным изучения ее микробиома. Настоящая публикация имеет непосредственное отношение именно к этой проблеме. Современный подход к анализу таксономической структуры почвенных мик-робиомов предполагает выделение почвенной ДНК (РНК), конструирование библиотек таксономически значимых генов (например, 16Б-рРНК) и их секвенирование с последующей таксономической идентификацией (2). В результате таких исследований формируются списки выявленных таксонов. С введением в практику молекулярной экологии секвенаторов нового поколения число нуклеотидных последовательностей, характеризующих
* Работа поддержана Министерством науки и образования РФ (ГК № 16.552.11.7047) и Программой поддержки фундаментальных исследований по приоритетным направлениям Санкт-Петербургского государственного университета.
отдельный образец, достигло десятков тысяч (3, 4). Работать со столь обширными списками достаточно сложно, несмотря на обилие программного обеспечения (5-7), созданного для этих целей. К важным и не разрешенным в настоящее время проблемам, связанным с анализом подобных данных, относятся сложность учета таксономически не атрибутируемых последовательностей, принадлежащих, как правило, к еще не описанным таксонам, которые нередко составляют значительную долю микробных сообществ в окружающее среде; затрудненность одновременного анализа нуклеотидных последовательностей, представляющих различные участки одного и того же гена; отсутствие интегральных статистических подходов, позволяющих описывать сложные сообщества как единое целое.
Для решения этих проблем нами была сформулирована задача построения «эволюционного пространства» для описания глобального нуклеотидного разнообразия и эволюционных процессов в пределах одного единственного гена, в частности гена 16Б-рРНК. Определение такого пространства весьма лапидарно: эволюционное пространство гена 16Б-рРНК — это метрическое пространство, в котором нуклеотидные последовательности гена, принадлежащего различным микроорганизмам, представлены точками, а расстояния между каждой парой точек отражают эволюционные расстояния между соответствующими нуклеотидными последовательностями. Подобная задача традиционно относится к области многомерного шкалирования и практически сводится к размещению матрицы попарных генетических расстояний в метрическом пространстве таким образом, чтобы геометрические расстояния между точками соответствовали эволюционным дистанциям. При этом подразумевается, что для любой нуклеотидной последовательности гена 16Б-рРНК могут быть вычислены геометрические координаты, характеризующие положение точки в пространстве. Между тем за столь простым определением скрывается чрезвычайно широкий круг проблем из области молекулярной эволюции, таксономии, математики, геометрии, к тому же вычислительная сложность подобной задачи очень высока. Но в случае успеха такое пространство могло бы стать принципиально новой операционной средой для анализа данных молекулярного таксономического анализа сложных микробных сообществ с введением ряда новых интегральных характеристик, таких как плотность, объем, геометрия, центральная точка (сообщества в целом или отдельных таксонов) и т.д. Кроме того, представители любого, даже неизвестного таксона, получают фиксированное положение, что чрезвычайно облегчает анализ неатрибутируемых компонентов микробного сообщества и открывает возможности для создания универсальной «таксономической карты», в которой для любой последовательности найдется закрепленное за ней место.
Интересно, что обсуждаемая проблема, по всей видимости, тесно связана с одной из фундаментальных в таксономии — построением так называемой естественной классификации организмов, в которой каждый объект занимает положение, соответствующее его родству с другими организмами. Впервые она была ясно сформулирована еще К. Линнеем в труде «Философия ботаники» в 1751 году, однако не решена до сих пор (8). Большое внимание этой проблеме уделял Ч. Дарвин (9). Из отечественных ученых в первую очередь следует упомянуть Н.И. Вавилова (10) — его вклад в концепцию биологического вида и открытый им закон гомологических рядов, устанавливающий параллелизм в наследственной изменчивости организмов и, безусловно, представляющий собой одну из пионерских работ по созданию единой системы, которая не только описывает наличествующее биоразнообразие, но и указывает на отсутствующие таксоны.
Обсуждение истории вопроса выходит далеко за рамки настоящего исследования, и построение такой системы не составляет его цели. Наша задача сводится к описанию разнообразия нуклеотидных последовательностей одного лишь бактериального гена 16Б-рРНК с использованием представления об эволюционном пространстве.
Методика. Для анализа использовали релиз SSURef_104_SILVA_NR_99, доступный на сервере SILVA (http://www.arb-silva.de/no_cache/download/ar-chive/release_102/Exports/), содержащий выровненные нуклеотидные последовательности гена ^S-рРНК высокого качества длиной не менее 1000 н., причем в этом релизе удалены все последовательности со сходством более 99 %, что, со всей очевидностью, не может повлиять на геометрические соотношения. После исключения архей в релизе осталась 210 651 нуклеотидная последовательность, соответствующая бактериальным генам 16S-рРНК. Инструментами и программными средствами служили <РСУБД MSSQL Server 2008 R>, MatLab R2009b, Revolution R 4.3, индивидуальные программы на c, c#, c++.
Построение матрицы расстояний и поиск симплексов. Для вычисления попарных расстояний между последовательностями использовали p-distance (pairwise deletion), представляющую собой долю различающихся нуклеотидных позиций, вычисляемую при попарном удалении позиций, содержащих пропуски и вырожденные нуклеотиды. На основании вычислений была сформирована матрица попарных расстояний для всей базы данных с идентификаторами последовательностей. Кроме того, вычислили распределение фил по численности в базе данных и распределение попарных расстояний в матрице.
Для поиска симплексов был выбран диапазон расстояний [0,2510,269], обеспечивающий невозможность ошибочного включения в симплекс радиуса: в бесконечномерном симплексе отношение ребра к радиусу соответствует V2" (доказательство не приводится), а в случае 14-мерного пространства оно составляет ~ 1,463 (0,269/1,463 ~ 0,183 << 0,251). Ввиду того, что в разумное время не представляется возможным осуществить полную проверку всех имеющихся вариантов даже в усеченной базе, для поиска симплекса был предложен так называемый жадный алгоритм, основанный на выявлении последовательностей-кандидатов, характеризующихся максимальным числом попарных дистанций, лежащих в заданном диапазоне, с последующим пошаговым расширением списков. С целью расширения области поиска в алгоритм была добавлена стохастическая функция (случайный выбор из списков кандидатов), использование которой оказалось очень эффективным. Результатом вычислений было выявление серии симплексов различного размера, из которых для дальнейшего анализа выбирали максимальные.
Картирование последовательностей. Для картирования последовательностей в эволюционном пространстве был выбран симплекс 6 (см. раздел «Результаты»). Позиционирование точек осуществляли следующим образом: точки симплекса ({s1, s2, ..., s14}) размещали на координатных осях в соответствии с номерами позиций (номер точки соответствует номеру оси). С этой целью было принято одинаковое расстояние между последовательностями — вершинами симплекса (хотя в точности оно таковым не является), нормированное к единице. Таким образом, все расстояния в системе тоже масштабировались пропорционально масштабированию симплекса, а именно делились на среднее арифметическое расстояний между вершинами симплекса, то есть на 0,261.
Нахождение координаты точки для каждого из вариантов гена
16S-pPHK в пространстве осуществлялось следующим образом. Изначально имеются расстояния от последовательности X до опорных последовательностей — вершин симплекса {r1, r2, r14}, нормированные на при-
веденный выше коэффициент. Ищем такие 14 точек {x1, x2, .., x14} в нашем пространстве, для которых выполняются два условия: первое — точки находятся на соответствующем расстоянии от вершин симплекса, то есть dist(x1, s1) = r1, dist(x2, s2) = r2, ..., dist(x14, s14) = r14; второе — суммарное расстояние (штрафная функция) между этими точками минимальное: dist(x1, x2) + dist(x1, x3) + ... + dist(x13, x14) ^ min.
Эта задача относится к задачам квадратичной (нелинейной) оптимизации с граничными условиями. Для решения задач подобного рода существует быстро сходящийся метод градиентного спуска с множителями Лапласа, однако в нашем случае, поскольку граничные условия квадратичны, оптимизация проводилась с использованием алгоритма interior point в реализации функции fmincon из Optimization Toolbox MatLab.
После нахождения множества точек {x1, x2, .., x14} приведенным выше методом за координату точки X принимается центр масс (покоординатное среднее арифметическое) найденных точек. В случае если найденный центр масс не попадает на выбранный симплекс, применяется ортогональная проекция. Следует отметить, что по результатам эксперимента значение штрафной функции не сильно отличалось от нуля, что указывает на близость полученных точек {x1, x2, .., x14} друг к другу. Геометрические расстояния функции dist вычислялись в соответствии с евклидовой метрикой.
Для оценки точности картирования рассчитывали корреляции между матрицами попарных расстояний — истинной и вычисленной по геометрическим координатам с использованием метода Мантеля (11).
Визуализация распределений Визуализацию распределений точек в 14-мерном пространстве (на самом деле мы имеем дело с 13мерным построением, дополнительная размерность была введена лить для удобства вычислений) проводили при помощи построения срезов двумерными плоскостями с небольшой толщиной, заданной таким образом, чтобы она попадала в диапазон, который и так нельзя различить ввиду ошибок округления в вычислениях и дискретности расстояния p-distance. Всего выполнили около 1000 сечений сериями параллельных плоскостей, выбранных по одному из направлений и обозначенных двумя осями, через которые проходит базовая плоскость (например, 2-12 — плоскость, на которой лежат оси 2 и 12).
Результаты. Идея отображения нуклеотидных последовательностей гена 16S^PHK в виде точек в пространстве не нова. Однако большинство исследователей в этой области оперируют со статистическими подходами, ориентированными на построение различного рода проекций, например методами главных компонент, переводящими матрицу попарных расстояний в пространственные отображения (12, 13). Наиболее близка к поставленной задаче попытка построения многомерного векторного пространства для отображения эволюционного процесса у позвоночных по данным аминокислотной последовательности а-гемоглобина (14). Основной идеей предлагаемого нами практического подхода к реализации этой задачи также было представление о многомерности эволюционного пространства и принципиальной невозможности таких построений в пространствах малой размерности. В настоящем построении опорным элементом были симплексы — геометрические фигуры, у которых расстояния между двумя любыми вершинами одинаковы. Примерами простейших симплексов служат равно-
сторонний треугольник (2Б) и правильный тетраэдр (3Б). Симплексы с 5 и более вершинами также существуют, но могут быть построены только в многомерных пространствах. Поиск симплексов мы осуществляли в матрице попарных эволюционных дистанций одного из релизов международной базы данных по разнообразию гена ІбБ-рРНК. Выявленные симплексы определили минимальную размерность целевого пространства и были использованы для дальнейшего картирования в качестве реперных точек.
Структура базы данных и особенности распределения попарных расстояний. На рисунке І приведены распределения фил по численности в рабочей базе (отображены только филы с этим показателем более 0,9 % от общего числа записей) и попарных расстояний в соответствующей матрице.
р-ЛвИасе
Рис. 1. Распределение нуклеотидных последовательностей гена 168-рРНК в рабочей базе данных по филам микроорганизмов (А) и распределение попарных расстояний в построенной матрице (Б).
Следует отметить весьма неравномерное распределение фил в базе данных, что несколько затрудняет анализ. Основная масса записей относится к филам Proteobacteria, Fimicutes, Actinobacteria, Bacteroidetes, Acidobac-teria, Cyanobacteria, Chloroflexi, Planctomycetes, Spirochaetes, Verrucomicrobia, Gemmatimonadetes, Nitrospirae, Lentisphaerae, Synergistetes, Chlorobi. Для Chlorobi, наименее представленной из приведенныж фил, имеется 505 записей. Такое распределение обусловлено, во-первыж, неравномерностью распространении фил в биосфере, во-вторых, структурой и целями тех научныж изысканий, в результате которыж происходит наполнение баз данныж. Понятно, что для предпринимаемыж в настоящем исследовании выиислений оптимальным было бы равномерное распределение, однако на текущий момент именно использованная база данных — одна из наиболее полных, поэтому с подобным отклонением приходится мириться.
Выявление симплексов. В результате проведенного анализа в базе данныж было выявлено 25 приблизительно правильных симплексов с 14 вершинами каждый, соответствующие 13-мерному пространству, при расстоянии между вершинами в диапазоне [0,251-0,269]. Очевидно, что вряд ли возможно найти в базе данных абсолютно правильные симплексы, поэтому при выиислениях мы1 исходили из диапазона, ширину которого выйрали так, чтобы исключить попадание в симплекс радиуса (см. раздел «Методика»). Ниже приведен список вышвленныж симплексов и графическое представление их распределения среди основных бактериальных фил (рис. 2):
1-й симплекс EU773611; EU491566; AJ542543; AY485285; AB355037; X86688; EU703430; Y10649; EF096697;
EF516823; EU804917; AY571792; AM420109; AJ306801
2-й симплекс EU469976; EU503653; GQ502583; AF189244; AY212563; AY907749; GQ397076; FJ628180;
DQ814080; EU669608; DQ811945; AB191897; GQ346956; EU245865
3-й симплекс FJ231137; EU135237; DQ795973; EU776122; AY863081; EU881151; EF020301; EU802835;
AB488334; AB300126; EU038002; EU246179; FJ545465; CU924649
4-й симплекс АЇЇ419696; Еи50б479; Еи507872; 00811928; 011348; Е;45б773; Х7І862; FN5б3І92;
СР001110; FJб48б94; AF0б8427; ЕШ35420; АУ743263; FN55б0б2
5-й симплекс Еи38І735; EFб88230; ЕШ70505; EF45492І; ЕШ99550; EF5750бІ; FJ82ІбІ0; FN401325;
0Ш61319; FJ873298; АУ2804І3; ЕШ35375; FJ592895; 00350871
6-й симплекс FJ438004; 00246374; FJ88ІІбб; Еи005б87; Х7397б; Еи4б325І; 00337095; АУ225б54;
АУб05І5І; FJ47883б; FJб282б8; FJ90ІІ03; СР00І080; СШ25754
7-й симплекс 00803694; Еи7б753І; ХІ2742; Х8І0б3; Еи8б9405; ЕШ34585; Еи3б0497; АУ57І79б;
АУІ97394; АВІ77І3І; EF203193; FJ97б270; ЕШ34048; FJ89І053
8-й симплекс Еи465688; ЕШП290; FJ3бб892; АВІ88635; АУ663886; 0ИІ27275; ЕШ75151; FJ7І7259;
Еи804722; FJ45бб53; ЕШ91403; АИ31238; СШ22689; FJ5Іб82І
9-й симплекс EF575007; FJ7488І3; ЕШ66375; АМ7І2329; 00248296; FJ983028; 00263308; FJ80229б;
АУ605160; EF07б074; 00906017; АВ294345; СШ23425; 00330595
10-й симплекс Еи074225; СТ573820; СШ25797; 00800076; ЕШ37954; FJ97б253; АВ464934; 00308543;
FJІ92842; EF0І9248; ЕШ50258; АВ243263; ЕШ33963; Х84212
11-й симплекс АВ277853; ЕШ78629; EF5222б2; ЕШ72741; ЕШ35952; АУ907749; СР001099; ЕШ34803;
Еи159562; АВ245338; 00397047; АВ192244; СЩ23893; 00499300
12-й симплекс ЕШ07587; Ш2593; М24483; АМ712329; FJ82б329; АГ867904; EF0І902І; AF543503;
00676428; ЕШ66879; СШ22282; ЕШ43840; 00340131; 00906038
13-й симплекс ЕШ05590; FJ858737; FJб28297; АВ240485; ЕШ34568; Ш1515; ЕШ32320; АВ031999;
Си921210; ЕШ34128; 00264185; ЕШ89449; СШ20242; FJб25343
14-й симплекс FJ7488І5; ЕШ03864; FJІ59І33; ЕШ10170; EF4538І5; ЕШ35522; EF0І8434; EF5І5949;
Х86774; АВ198654; СЩ18198; АВ462555; СИ933027; FJ2б4554
15-й симплекс АУ114316; ЕШ63474; 00275102; FJ382І45; АУ672075; 00906842; 00005880; 00264171;
М79383; ЕШ34919; АМ934777; ЕШ34038; СЩ21544; ЕШ50520
16-й симплекс EF520б37; FJ873260; 00809643; ЕШ17874; АВ286524; ЕШ70375; FN430655; FJ478875;
00811949; EF203І93; ЕШ45088; FJ478622; СШ25754; EFІ92905
17-й симплекс АВ192054; ЕШ09270; 00441271; АУ188316; 00906842; АВ286350; 0Ш18530; АУ945884;
АВ088905; СШ22949; FJ5І7055; СШ18272; СШ27871; АУ114333
18-й симплекс ЕШ78001; ЕШ63449; АУ726960; АВ355083; FJ5927І5; FJ5Іб977; EFІ90824; АУ947962;
СР000814; ЕШ32011; FJ7І2505; ЕШ92424; ЕШ34203; FM873402
19-й симплекс AF317763; ЕШ59226; ЕШ39371; FJ002234; EF592бІ0; EF205470; ЕШ33431; FJІб7503;
АУ913233; АВ198604; СШ24983; ЕШ62508; FJ7І2493; АВ282966
20-й симплекс EF0І9Іб5; ЕШ82406; FJ425646; FN5б3І73; 00383304; АУ349381; ЕШ34307; AF093251;
Си918643; СШ24912; ЕШ33993; ЕШ47889; ЕШ45649; ЕШ85068
21-й симплекс АВ192219; 011348; ЕШ02784; СШ23009; АГ29182б; ЕШ73650; 0Ш61962; ЕШ34768;
FJ592772; ЕШ85703; АУ571473; FJ82544б; АВ465709; FJ004754
22-й симплекс АВ302409; ЕШ69636; ЕШ34533; FJ493498; FJ790бІ9; FJ746187; EF379бІб; СШ21631;
Еи915265; AF393378; 00676384; АВ234287; АВ525461; АВ089051
23-й симплекс АУ862537; EF097759; ЕШ75762; 00487946; AF38552І; АІ306807; ЕШ50858; ЕШ02639;
АУ913288; ЕШ36294; Х89045; СШ25964; AF52ІІ87; АВ294345
24-й симплекс 00015655; ЕШ07714; FJ425597; СР001739; FJ802І78; FJ985790; FJб2829І; ЕШ09852;
00402806; EF688228; ЕШ21768; Си92бб1б; 00988318; 00249498
25-й симплекс FN554390; ЕШ74225; АУ266450; АВ034054; FJ002І73; EF52234І; АТ299413; FJ628241;
00355003; AF402980; СШ27201; ЕШ81504; АВ237731; FJ879997
Распределение симплексов по ветвям филогенетического древа продемонстрировало, что эволюционные соотношения между филами гораздо сложнее вытекающих из обычных таксономических представлений. Так, симплекс б объединял 14 записей из фил, равномерно распределенные по всему древу, включая крайние группы — Verrucomicrobia и Aquificae. Выявленные соотношения в распределении симплексов свидетельствовали о том, что размещение имеющегося множества точек с сохранением попарных расстояний невозможно ни в 20-, ни в 30-пространствах. Из полученных результатов с очевидностью следует, что задача оценки соотношений между филами неразрешима в пространствах с размерностью меньше 13, и это один из важных итогов настоящего исследования.
Представленность фил в симплексах была приблизительно равномерной, за исключением объектов из фил Spirochaetes и Chloroflexi, которые встречались примерно в 7 и 5 раз чаще ожидаемого. В остальном представленность фил в симплексах и в базе данных оказалась в общем соизмеримой. Такие широко представленные в базе данных филы, как FirmicШes и Proteobacteria, характеризующиеся к тому же высокой степенью разнообразия, в пределах симплекса нередко присутствовали более одного раза. То есть генетические дистанции в пределах одной филы могут быть не меньше, чем между филами.
Для поиска симплексов был выбран ограниченный интервал гене-
тических дистанций, обеспечивающий внешнюю локализацию симплекса по отношению к совокупному множеству. По этой причине остается открытым вопрос о максимальном размере симплексов с меньшим расстоянием между вершинами, например внутри филы. Не исключено, что такие симплексы могут иметь большую размерность и эффективное картирование с использованием внешнего симплекса в качестве репера невозможно.
Рис. 2. Распределение 25 выявленных 14-вершинных симплексов среди основных бактериальных фил (на основании нуклеотидных последовательностей гена 16S-pPHK). Число точек в ячейке соответствует числу записей в филе; семь не вошедших в построение дополнительных фил приведены ниже древа. Схематическое представление по M.S. Rappe с соавт. (15) в произвольном порядке.
Картирование нуклеотидных последовательностей в эволюционном пространстве и построение сечений. За реперную основу для картирования последовательностей был выбран симплекс 6, так как в нем каждая из вершин относится только к одной филе и, кроме то-
го, в него включена одна из наиболее удаленных фил — Aqufiicae. В соответствии с описанной процедурой для всех последовательностей базы данныж в 14-мерном пространстве получили геометрические координаты. На основании данных вычислений была сконструирована восстановленная матрица попарныж расстояний. Коэффициент ее корреляции с истинной матрицей (r) был невелик и составил 0,299, хотя и имел довольно высокую значимость (односторонний критерий — статистический тест, применяемый для проверки альтернативной статистической гипотезы, выдал значение p = 0,000999). Таким образом, на этом этапе исследований нам не удалось достичь высоких коэффициентов корреляции, что, скорее всего, обусловлено недостаточной размерностью используемого пространства. На следующем этапе исследований нами быша предпринята попыгтка визуализировать распределение точек в пространстве, так как топологические соотношения могут сохраняться и при отсутствии высоких корреляций. Очевидно, что не существует способов прямой визуализации полученного множества, поэтому мы прибегли к способу, аналогичному компьютерной томографии, — созданию плоских сечений (см. раздел «Методика»). На рисунке 3 (А, Б) представлены основные паттерны, выявленные при изучении сечений, показавшем, что в результате бышо построено эволюционное пространство, характеризующееся низкой, хотя и значимой корреляцией с истинной матрицей попарных расстояний, и демонстрирующее явные тенденции к разделению фил.
В представленной серии срезов, параллельных базовой плоскости 2-12 (см. рис. 3, А), видно последовательное прохождение плоскостью сечения всего множества точек. На полученных сечениях представителям разных фил соответствуют неодинаковые цвета. Очевидно, что наблюдается явная тенденция к разделению бактериальных фил. Более очевидны такие соотношения на серии центральных (то есть проходящих через геометрический центр) срезов (см. рис. 3, Б). Здесь также очевидна четкая тенденция к разделению у представителей разных фил, хотя заметны и зоны смешения, что объясняется, по всей видимости, недостаточной разрешающей способностью пространств небольшой размерности для полной дискриминации таксонов. Тем не менее, некоторые топологические соотношения, выявляемые на срезах, весьма неожиданны. Прежде всего, выполненное построение носит ярко выраженный эволюционный характер. В самом деле, если следовать общепринятой гипотезе о происхождении бактерий от общего предка, то становится очевидным, что эволюционный процесс, представленный в эволюционном пространстве, носит характер расширения, подобного Большому взрыву. Такое расширение необратимо (из статистических соображений) и, по всей видимости, радиально. Следовательно, в этом пространстве существует эволюционный центр (место локализации общего предка), который, скорее всего, должен быть пуст из-за вымывания предковых вариантов гена в ходе глобальной эволюции. Интересно, что существует возможность идентификации подобного центра. Так, по крайней мере две филы — Proteobacteria и Cyanobacteria имеют явно выраженную вытянутость (см. рис. 3, Б), что не только указывает на высокие скорости эволюции или древность этих фил, но и дает возможность идентифицировать эволюционный центр. В самом деле, если предположение о радиальности расширения верно, то центральные оси, проведенные в данных филах, должны пересекаться (или максимально сближаться) именно в эволюционном центре, и это, безусловно, одно из перспективных направлений исследований. Особый интерес вызывает тот факт, что именно к указанным филам в соответствии с современной так-
сономией относят органеллы эукариотических клеток — хлоропласты (Cyanobacteria) и митохондрии (Proteobacteria). Интересно также, что по данным предварительного анализа хлоропласты локализованы в дистальной (по отношению к основному массиву бактерий) части филы Cyanobacteria (данные не приводятся). Наконец, следует отметить полость, выявленную в пределах филы Proteobacteria (см. рис. 3, Б, срез 7-12). Не исключено, что это одна из «эволюционных полостей», наличием которых должны характеризоваться старые монофилетические таксоны, хотя сложность многомерных топологических соотношений не дает возможности утверждать это однозначно.
Вопрос о дальнейшем совершенствовании алгоритма встречается с вполне ожидаемым препятствием, связанным с необходимостью расширения базового симплекса. Мы полагаем, что даже в полной базе данных вряд ли найдется симплекс, заметно больший, чем найдено в настоящем исследовании, так как редукция использованной базы данных была основана на удалении из нее последовательностей со сходством более 99 %. Понятно, что возвращение этих последовательностей в базу не приведет к расширению симплекса, расстояние между вершинами которого соответствует примерно 75 % сходства. Мы предлагаем довольно необычное решение — искусственно сконструировать нуклеотидные последовательности для расширения симплекса (либо de novo, либо посредством коррекции уже существующих записей в базе данных). Помимо технических проблем, имеется ряд вопросов более фундаментального характера, связанных с анализом принципиальной возможности таких построений, их обоснованием и, при необходимости, поиском альтернативных решений.
Итак, еще раз отметим, что цель предпринятого исследования практическая — предложить принципиально новый интегральный подход для анализа многокомпонентных сообществ микроорганизмов в окружающей среде, и прежде всего наиболее сложных почвенных сообществ. В работоспособной версии эволюционного пространства возможно создание универсальной таксономической карты микроорганизмов, в которой фиксированные позиции будут присвоены всем микроорганизмам — таксономически атрибутированным и не атрибутированным, известным и неизвестным. Разработка работоспособной версии эволюционного пространства позволит сформировать предпосылки для введения в анализ данных таких мощных алгоритмов, как, например, распознавание образов, что даст новый импульс в понимании законов формирования микробных сообществ, их эволюции и тонких связей с окружающей средой. Наконец, сама проблема эволюции может раскрыться с весьма неожиданной стороны. Пока же основной задачей остается совершенствование алгоритмов картирования, и именно в этом направлении предполагается развивать начатые исследования.
Выражаем искреннюю признательность В.В. Моттль и В.В. Сулимовой за консультации по ряду вопросов, связанным с представлениями матриц попарным расстояний в метрических пространствах.
ЛИТЕРАТУРА
1. O'Malley M.A. The nineteenth century roots of «everything is everywhere». Nat. Rev. Microbiol., 2007, 5: 647-651.
2. Pace N.R. A molecular view of microbial diversity and the biosphere. Science, 1997, 276: 734-740.
3. Sogin M.L., Morrison H.G., Huber J.A., Mark Welch D., Huse S.M., Phillip R., Neal P.R., A r r i e t a J.M., H e r n d l G.J. Microbial diversity in the deep sea and the underexplored «rare biosphere». PNAS USA, 2006, 103: 12115-12120.
4. T ringe S.G., Hugenholtz P. A renaissance for the pioneering 16S rRNA gene. Curr. Opin. Microbiol., 2008, 11: 442-446.
5. Лукашов В.В. Молекулярная эволюция и филогенетический анализ. М., 2009.
6. Kunin V., Copeland A., Lapidus A., Mavromatis K., Hugenholtz P. A Bioinformatician’s Guide to Metagenomics. Microbiol. Mol. Biol. Rev., 2008, 72(4): 557-578.
7. Reisenfield S.C., S c h l o s s P.D., Handelsman J. Metagenomics: Genomic analysis of microbial communities. Annu. Rev. Genet., 2004, 13: 525-552.
8. Линней К. Философия ботаники. М., 1989.
9. Дарвин Ч. Происхождение видов путем естественного отбора или сохранение благо-
приятных рас в борьбе за жизнь. СПб, 1991.
10. Вавилов Н.И. Закон гомологических рядов в наследственной изменчивости. В кн.: Теоретические основы селекции растений. Т. 1. Общая селекция растений /Под ред. Н.И. Вавилова. М.-Л., 1935: 75-128.
11. Mantel N., Valand R.S. A technique of nonparametric multivariate analysis. Biometrics, 1970, 26: 547-558.
12. Garrity G.M., Lilburn T.G. Mapping taxonomic space: an overview of the road map to the second edition of Bergey's Manual of Systematic Bacteriology. WFCC News, 2002, 35: 5-15.
13. Lee S.H., Hwang K.S., Lee H.R et al. Embedding operational taxonomic units in threedimensional space for evolutionary distance relationship in phylogenetic analysis. Proc. 5th WSEAS
Int. Conf. on circuits, systems, electronics, control and signal processing. USA, 2006: 192-196.
14. Kitazoe Y., Kishino H., Okabayashi T., Watabe T., Nakajima N., Oku-hara Y., Kurihara Y. Multidimentional vector space representation for convergent evolution and molecular phylogeny. Mol. Biol. Evol., 2004, 22(3): 704-715.
15. Rappe M.S., Giovannoni S.J.. The uncultured microbial majority. Annu. Rev. Microbiol., 2003, 57: 369-394.
1Санкт-Петербургский государственный университет, Поступила в редакцию
199034 г. Санкт-Петербург, Университетская наб., 7-9, 25 мая 2012 года
e-mail: [email protected];
2ГНУ Всероссийский НИИ сельскохозяйственной микробиологии Россельхозакадемии,
196608 г. Санкт-Петербург—Пушкин, ш. Подбельского, 3, e-mail: [email protected];
3Санкт-Петербургский академический университет, научно-образовательный центр нанотехнологий РАН,
195220 г. Санкт-Петербург, ул. Хлопина, 8, корп. 3, e-mail: [email protected];
4Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики,
197101 г. Санкт-Петербург, Кронверкский просп., 49, e-mail: [email protected]
THE EVOLUTIONARY SPACE OF BACTERIAL 16S rRNA GENE v. 1.0.
A.S. Dolnik1, G.S. Tamazyan1, E.V. Pershina2, K.V. Vyatkina3, Yu.B. Porozov4,
A.G. Pinaev2, E.E. Andronov2
Summary
A systematicity in taxonomy, basically related to evolution, remains one of the greatest problem of in modern biology, and in particular microbiological topology. This problem has always attracted the attention of scientists, including N.I. Vavilov. He proposed a law of homologous series which, of course, must be regarded as the most striking in the current attempts to make analysis of biodiversity. In the molecular ecology of microorganisms, the demand for universal taxonomic system is particularly evident. Introduction of the new generation sequencing techniques into molecular ecology studies requires introduction of the radically new statistical approaches. This problem can be solved by the creation of the «metataxonomy», an integral approach for the analysis of the microbial communities, allowing to study microbial communities as a whole. It is related to a number of questions in evolutionary biology, taxonomy, mathematics, geometry and demands large computing. One of the most important problems is thr detection in 16S rRNA libraries of large amount of taxonomi-cally «not attributed» sequences. To resolve this problem we propose the «evolutionary space» of 16S rRN gene, where fixed coordinates exist for every possible variant of 16S rRNA gene regardless of whether this variant is present in biosphere/database or even implemented in the course of evolution. In the current article we present the results of the analysis of a 16S rRNA gene database, where for the first time we constructed «evolutionary space», the assumed operational environment for «meta-taxonomy». The evolutionary space makes it possible to use a number of powerful statistical approaches aimed to analyse complex microbial community as a whole. Here we present the first version of evolutionary space with minimal possible dimension (13D).