Научная статья на тему 'Адаптация логико-эвристических методов для некоторых задач филогенетического анализа'

Адаптация логико-эвристических методов для некоторых задач филогенетического анализа Текст научной статьи по специальности «Математика»

CC BY
93
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМБИНАТОРНЫЕ ЗАДАЧИ ВЫСОКОЙ СЛОЖНОСТИ / ЛОГИКО-ЭВРИСТИЧЕСКИЙ ПОДХОД / МОЛЕКУЛЯРНАЯ ЭВОЛЮЦИЯ ГЕНОМОВ / COMBINATORIAL PROBLEMS OF HIGH COMPLEXITY / LOGICAL-HEURISTIC APPROACH / MOLECULAR EVOLUTION OF GENOMES

Аннотация научной статьи по математике, автор научной работы — Мартьянов Владимир Иванович, Скуматов Максим Леонидович

Получена верхняя граница сложности проверки совпадения исследуемой совокупности кандидатов в микроРНК генома с точностью до коадаптивных замен нуклеотидов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Мартьянов Владимир Иванович, Скуматов Максим Леонидович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ADAPTATION OF THE LOGICAL-HEURISTIC APPROACHES FOR SOME PROBLEMS OF THE PHYLOGENETIC ANALYSIS

An upper bound of the complexity of check matches researched population of candidates for miRNA genome up to co-adaptive substitutions of nucleotides is obtained.

Текст научной работы на тему «Адаптация логико-эвристических методов для некоторых задач филогенетического анализа»

УДК 007.51 Мартьянов Владимир Иванович,

доктор физико-математических наук, профессор, Иркутский государственный технический университет, тел.: (3952) 991512, e-mail: [email protected]

Скуматов Максим Леонидович, аспирант, Институт математики, экономики и информатики, Иркутский государственный университет, тел.: 8 950 070 77 75, e-mail: [email protected]

АДАПТАЦИЯ ЛОГИКО-ЭВРИСТИЧЕСКИХ МЕТОДОВ ДЛЯ НЕКОТОРЫХ ЗАДАЧ ФИЛОГЕНЕТИЧЕСКОГО АНАЛИЗА

V.I. Martyanov, M.L. Skumatov

ADAPTATION OF THE LOGICAL-HEURISTIC APPROACHES FOR SOME PROBLEMS OF THE PHYLOGENETIC ANALYSIS

Аннотация. Получена верхняя граница сложности проверки совпадения исследуемой совокупности кандидатов в микроРНК генома с точностью до коадаптивных замен нуклеотидов.

Ключевые слова: комбинаторные задачи высокой сложности, логико-эвристический подход, молекулярная эволюция геномов.

Abstract. An upper bound of the complexity of check matches researched population of candidates for miRNA genome up to co-adaptive substitutions of nucleotides is obtained.

Keywords: combinatorial problems of high complexity, logical-heuristic approach, molecular evolution of genomes.

Введение

Эволюция генетических систем (молекулярная эволюция геномов [7]) связана с изменениями генотипа, которые называются мутациями. Различают следующие виды мутаций [8]:

- транслокации - перенос гена в другое место генома;

- дупликации - удвоение участка гена;

- инверсии - поворот участка гена на 180 градусов;

- делеции - удаление участка гена;

- точечные мутации, которые сводятся к заменам одного нуклеотида в последовательности ДНК.

Полное восстановление всех мутаций от предка к потомку (полный филогенетический анализ) с математической точки зрения, как минимум NP -полная задача [9-11], которая не может быть удовлетворительно решена в рамках данного подхода.

В настоящей работе будут рассмотрена задача реконструкции эволюционно устойчивых вторичных структур (ВС) РНК по выборке последовательностей РНК родственных геномов (имеющих связи «предок - потомок»).

В их основу положено предположение [1], что функционально сходные РНК, хотя и имеют разную нуклеотидную последовательность, формируют сходные ВС, отличающиеся за счет коа-даптивных замен. Отметим, что коадаптивные замены соответствуют двум точечным мутациям с сохранением комплементарности замененных нуклеотидов (такие мутации имеют шансы зафиксироваться в следующем ряду поколений).

Математически задача будет рассматриваться как поиск близких к вторичным структурам кандидатов в микроРНК (уже определенных) некоторого количества геномов в новых геномах. Понятие близости определяется количеством коа-даптивных замен нуклеотидов. При построении алгоритмов проверки близости будем существенно опираться на алгоритмы быстрой вычислимости, рассмотренные в работе [13].

При построении совокупности вторичных структур РНК для выбранных геномов будем использовать результаты работы [12], в частности программное обеспечение для нахождения в геномных последовательностях кандидатов в гены микроРНК.

В генетическом тексте микроРНК представляет собой несовершенный палиндромный повтор длиной 20-25 нуклеотидов, при этом промежуточная область между повторяющимися участками должна иметь размер от 9 до 130 нуклеотидов. На структуру промежуточной области и самого повтора накладывается ряд дополнительных условий

[5, 6, 12]:

1. Минимальное количество спаренных оснований у гена микроРНК и комплементарного участка - 15, максимальное количество неспаренных оснований - 5.

2. МикроРНК содержит не более 6 одинаковых нуклеотидов подряд.

3. Количество последовательно идущих неспаренных оснований не более 2.

4. Содержание в микроРНК G и C не менее 30 % и не более 70 % соответственно.

5. Минимальная свободная энергия мик-роРНК - менее чем 30 ккал/моль.

6. Минимальная свободная энергия шпилечной структуры, в которую входит мик-роРНК, - менее чем 60 ккал/моль.

7. Промежуточная область (между микроРНК и комплементарным регионом) содержит короткие (2,3 нк и более) палиндромные повторы, расположенные в зеркальном порядке.

8. Количество выпяченных (не имеющих пары) или асимметрично неспаренных нуклеотидов - не более 2 на микроРНК. Таким образом, микроРНК и комплементарный регион могут различаться размером на 2 нуклеотида.

Как отмечается в [12], математически задача преобразования нуклеотидных последовательностей РНК во вторичную структуру может трактоваться как важный частный случай комбинаторных задач высокой сложности [1, 2], причем ряд дополнительных ограничений на вторичные структуры (связанных не только с минимальной энергией) позволяют успешно применять логикоэвристические методы решения комбинаторных задач высокой сложности [4].

Хотя в общем задача преобразования нуклеотидных последовательностей РНК во вторичную структуру с минимальной энергией является по сложности NP-полной (в [1] предполагается даже экспоненциальная сложность), в рамках логико-эвристического подхода задача поиска кандидатов в гены микроРНК решается достаточно эффективно, даже на геноме человека [12]. Для справедливости отметим, что задача поиска кандидатов в гены микроРНК по определению имеет полиномиальную сложность (из-за ограничения общей длины РНК, где определяется вторичная структура).

1. Логико-эвристические методы решения комбинаторных проблем

В логико-эвристическом подходе [4] инициальной моделью является многоосновная алгебраическая система (а. с.)

М = <4,..., As; f1,..., fn; a,---,Pk>, (1)

где A - основные множества, f - операции (функции) на основных множествах, P - предикаты (отношения) на основных множествах. В дальнейшем будем рассматривать только а. с. данной сигнатуры:

о=<fi,—,fn; Pl,., Pk >•

Для решения комбинаторной задачи требуется перестройка отношений и функций такая, чтобы получившаяся в результате а. с. удовлетворяла ограничениям.

Для формализации процесса решения комбинаторных проблем определим основу процесса (ОП) как тройку

Q = <М, A, R>, (2)

• •

где М - а. с. сигнатуры о (1), которая будет рассматриваться как начальные условия процесса решения, A = {5l,...,5d} - множество операторов •

преобразования а. с., R = {R1,.,Rm} -множество ограничений, определенных на а. с. данной сигнатуры о и принимающих значение «истина» или «ложь».

Слово W = w ■ ■ws в алфавите A назовем

решением комбинаторной проблемы, заданной ОП (2), если все ограничения R выполнены на а. с. W(М) = w (— (w (М)) .) . Таким образом, поиск последовательностей операторов преобразований, являющихся решением, и является основным содержанием логическо-эвристического подхода.

Если искать аналогии с классическими методами, такими как динамическое программирование, то решение W следует называть допустимым управлением. Основное отличие методов решения комбинаторных проблем логического подхода и традиционных методов (динамическое и другое программирование) состоит в том, что здесь во главу угла ставится удовлетворение ограничениям (поиск допустимого управления), а не вопрос оптимизации по тому или иному критерию. Хотя, конечно, относительная оптимизация (выбор наилучшего из совокупности найденных допустимых решений) делается практически всегда.

2. Адаптация общей схемы к задаче реконструкции эволюционно устойчивых вторичных структур

Инициальная многоосновная а. с. (1) имеет основные множества:

а) совокупность геномов A1 = {j1, j2, ji};

б) совокупность генетических текстов, представляющих хромосомы геномов, A2 = {Tj i - номер хромосомы, j - номер генома} в алфавите нуклеотидов ДНК 21 = {A, T, C, G};

в) совокупность построенных микроРНК A3 = {Tijk\ i - номер хромосомы, j - номер генома, к -порядковый номер микроРНК в хромосоме T}, представленных текстами в алфавите нуклеотидов РНК 22 = {A, U, C, G};

Далее определим функции и отношения многоосновной а. с. (1):

а) отношение >> определяет связь «предок -потомок» на основном множестве геномов A1;

б) отношение h12(x1, x2) связывает геномы с хромосомами, т. е. переменная х1 определена на основном множестве A1, а переменная x2 определена на основном множестве A2;

в) отношение t123(x1, х2 , х3) связывает геномы, хромосомы и микроРНК, т. е. переменные xi определены на основных множествах Ai соответственно;

г) отношение Posit(x, z1, z2 , z3, z4) определяет позицию микроРНК x в соответствующей хромосоме, положительные целые числа z1 , z2 , z3 , Z4 имеют следующие значения: z1 (z2 - 1) - позиция начала (соответственно, конца) гена мик-роРНК x в хромосоме, z2 (z3 - 1) - позиция начала (соответственно, конца) шпильки микроРНК x в хромо-соме^3 ( z4 ) позиция начала (соответственно, конца) комплементарного участка гена микроРНК x в хромосоме;

д) отношение Stab(x1, x2) связывает микроРНК x1 и x2, если ген микроРНК x2 может быть получен из гена x1 коадаптивными заменами нуклеотидов. Отметим сразу, что инициальная а. с. имеет пустое отношение Stab.

Таким образом, инициальная а. с. имеет вид Mini = { A1, A2, A3 ; >>, h12, t123, Posit, Stab }, (3)

где отношение Stab пустое, соответственно, сигнатура

a =< h12, t123, Posit, Stab >.

Множество операторов преобразования Л состоит из вариантов выбора пар микроРНК x1 mx2, которые могут пополнить график отношения Stab. Ограничениями являются проверки принад-

лежности пар микроРНК x1 и x2 геномам, связанным условием «предок - потомок», а также определения отношения Stab.

Следовательно, формализация процесса решения комбинаторной проблемы как построения основы процесса (3) для рассматриваемой нами задачи завершена и можно приступать к вопросу организации построения финальной а. с. Mfin.

Во избежание многочисленных технических деталей не станем рассматривать все аспекты повышения эффективности переборов (в данном случае это переборы пар микроРНК x1 и x2), а именно, организацию стратегии «смотри вперед» [3, 4], которая в данной задаче не дает большого выигрыша (в частности потому, что можно использовать представление данных, обеспечивающее эффективную вычислимость отношений h12 , t123, Posit и их комбинаций, смотри [13]).

Также не станем рассматривать организацию стратегии «глубокого возврата» [3] и ее модификацию в логико-эвристическом подходе, дополненную неполным восстановлением среды точки возврата [4], которая в данной задаче может дать большой выигрыш только при поиске длинных текстов (от 1000 нуклеотидов и больше, здесь же рассматриваются тексты не более 30 нуклеотидов).

Основным инструментом эффективного решения данной задачи будут логико-эвристические методы проверки выполнимости ограничений [4].

Рассмотрим алгоритмы проверки выполнимости ограничений на каждом шаге решения (демоны) при постановке задачи в стиле метода удовлетворения ограничениям [3]. В методе удовлетворения ограничениям для переменных хг, ..., хп (показатели ситуации) необходимо найти значения ах,...,ап из конечных множеств А,-, А соответственно, удовлетворяющие ограничениям R = {/<2, ..Rm} . Нетрудно заметить,

что данная постановка может быть трансформирована в задачу проверки принадлежности кортежа элементов (аап ) n -местным отношениям Rl, Rm . При таком подходе отношения можно считать классами ситуаций (кластерами) в пространстве ситуаций, заданном декартовым произведением А1®...®Ап, а переменные х1,...,хп - показателями, задающими ситуацию и принимающими значения из множеств

А,-, А соответственно. Эффективность проверки выполнимости ограничений для логико-эвристических методов на компьютере определяет следующая

Теорема [4]. Верхняя граница сложности проверки принадлежности ситуации (а17 ап)

классам ситуаций (кластерам) , Rin не пре-

вышает O(n2).

Основное значение данной теоремы состоит в том, что сложность проверки не зависит от числа ограничений, а также от размерности областей значенийA1, A2, An. Конечно, для всех случаев

трудно (а иногда и невозможно) сформулировать результаты, подобные вышеприведенной теореме, но для случая поиска вторичных структур эволю-ционно устойчивых РНК аналог данной теоремы может быть получен, что в дальнейшем и будет использовано.

3. Логико-эвристические методы реконструкции эволюционно устойчивых вторичных структур (ВС) РНК

Для более удобного представления решаемой задачи изменим эквивалентным образом постановку задачи пункта 2. Решение задачи реконструкции будем проводить по следующей схеме. Пусть геномы G1, G2, Gs обработаны в плане

поиска кандидатов в гены микроРНК и совокупности вторичных структур РНК S1, S2, Ss - это

найденные кандидаты, соответственно, геномов G1, G2, Gs. Более точно представление геномов

и совокупностей кандидатов в гены микроРНК будет следующее.

Геномы Gj = {W11, Wj2, Wlk }, G2= {W21,

W22, W2r }, Gs= {Wsi, Ws2, ...,Wst },

где Wj - хромосомы, представленные последовательностями нуклеотидов, т. е. с математической точки зрения Wj слова в алфавите

плементарным регионом (шпилька ВС РНК) имеет позиции bj +1, Cj — 1, а точное определение множества

Vj = {{a1 ij, b1j, c1j, d1ij}, {a2ij, b2j, c2j, d2} {arj, brj, crj, j

Сопоставим каждой четверке {akij, bkij, ckij, dkij}, соответствующую РНК ukijvkijwkij, представленную последовательностью нуклеотидов h2 = {A, U, C, G}, где ukij соответствует кандидату в гены микроРНК, vkij - промежуточная область (шпилька), wkj - комплементарный регион. Отметим, что длина слов ukii не превышает 30 нуклеотидов.

Для использования результатов оценки сложности проверки выполнимости ограничений для логико-эвристических методов (теорема[4]), как совпадения исследуемой ВС РНК с точностью до коадаптивных замен нуклеотидов, с уже имеющимся массивом данных, т. е. совокупностью кандидатов в гены микроРНК S1 , ..., Ss, необходимо показателями ситуации x1, x 2, xn объявить по-

зиции в словах (n<= 30), соответствующих кандидатам в гены микроРНК ukij. При такой постановке области значений A1, A2, An будут равны

h1 = {A, U, C, G}, дерево решений будет строиться с помощью структур [13, 14] вида

struct Tree_decube

{

int value; //значение, приписанное вершине (нуклеотид);

int down; //ссылка на первого потомка (-1: отсутствие ссылки);

int right; //ссылка на следующего брата (-1: отсутствие ссылки);

int decube; //ссылка на декуб (-1: отсутствие ссылки);

};

h = {A, T, C, G}.

Совокупности кандидатов в гены микроРНК S1 = {V11, V12, V1k }, S2= {V21, V22, V2r },

Ss= {Vs1, Vs2, Vst}, где Vj - множество четверок

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

положительных чисел {aj, bj, Cj, dj}, задающих в хромосоме Wij конкретные кандидаты в гены микроРНК, причем положительные числа aij, bij задают позиции гена микроРНК, положительные числа Cj, dj задают позиции комплементарного региона гена микроРНК. Таким образом, промежуточная область между геном микроРНК и ком-

(декубы необходимы для обеспечения сравнений неравных нуклеотидов, соответствующих коадап-тивным заменам) и, следовательно, верхняя граница сложности проверки совокупности S = { s1, s2, sr} кандидатов в гены микроРНК нового генома G = {W1, W2, Wk} не превышает O(n2 * r).

Таким образом, доказана Теорема. Верхняя граница сложности проверки совпадения исследуемой совокупности кандидатов в микроРНК генома с точностью до коадаптивных замен нуклеотидов не превышает

O(900*r), где r - совокупное количество кандидатов.

Полученная верхняя оценка сложности вполне приемлема для быстрой работы с любыми геномами, достаточно отметить, что геном человека [12] содержит всего около 5000 кандидатов в микроРНК.

Заключение

Проведенные вычислительные эксперименты показали, что в одной и той же хромосоме различных организмов содержатся много кандидатов в микроРНК, полученных в результате коадап-тивных замен нуклеотидов (до 10-15 %). Видимо, это является еще одним подтверждением общепризнанной точки зрения [7], что молекулярная эволюция геномов шла во многом путем коадап-тивных замен в дупликацированных генах (либо других функционально значимых частей хромосомы). Действительно, экспериментировать с «рабочим» геном опасно, но на его копии можно.

В настоящий момент еще не готово программное обеспечение для работы с большим количеством геномов одновременно, но уже полученные результаты достаточно интересны и, в частности, подтверждают ранее полученные выводы.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Воробьев Д. Г. Вторичная структура РНК и

методы ее расчета [Электронный ресурс] // Информационная биология : спецкурс. - Электрон. данные. - М., 2007. - URL :

www.bionet.nsc.ru. - 02.03.2011 г.

2. Лахно В. Д. Биоинформатика и высокопроизводительные вычисления // Вестн. РФФИ. -2000. - № 3 (21). - С. 38-45.

3. Hentenrick P. Constraint Satisfaction in Logic Programming. - Cambrige : The MIT Press, 1989. - 356 p.

4. Мартьянов В. И. Логико-эвристические методы сетевого планирования и распознавание ситуаций // Проблемы управления и моделирования в сложных системах : Тр. III Междунар. конф. - Самара, 2001. - С. 469-473.

5. Detection of 91 Potential Conserved Plant Micro-RNAs in Arabidopsis Thaliana and Oryza Sativa Identifies Important Target Genes / E. Bonnet, J. Wuyts, P. Rouze, Y. Peer // Proc. Natl. Acad Sci. USA. - 2004. - V. 101, № 31. - P. 1151111516.

6. Lindow M. Computational Evidence for Hundreds

of Non-Conserved Plant MicroRNAs /

M. Lindow, A. Krogh // BMC Genomics. - 2005. - V. 6. - P. 119.

7. Колчанов Н. А. Молекулярная эволюция регу-

ляции генетических систем [Электронный ресурс]. - Электрон. дан. // Информационная биология : спецкурс - URL :

www.bionet.nsc.ru. - М., 2007. - 04.05.2011 г.

8. Афонников Д. А. Молекулярная эволюция белков [Электронный ресурс]. - Электрон. дан // Информационная биология : спецкурс. -М., 2007. - URL : www.bionet.nsc.ru. -04.05.2011.

9. Maier D. The Complexity of Some Problems on Subsequences and Super Sequences. // J. Assoc. Comput. - 1977. - Mach., 25. - P. 322-336.

10. Wagner R. A. On the Complexity of the Extended String-to-string Correction Problem : 7th Ann. ACM Symp. on Theory of Computing // J. Assoc. Comput. - 1975. - Mach., 21. - P. 218-223.

11. Lipsky W. Jr. Two NP-Complete Problems Related Information Retrieval // Lecture Notes of Computer Science, Springer. - Berlin, 1977. -P. 123-154.

12. Архипов В. В., Константинов Ю. М., Мартьянов В. И. Логико-эвристические методы поиска вторичных структур РНК // Современные технологии. Системный анализ. Моделирование. - 2010. - № 1(25). - С. 76-81.

13. Обзор приложений логико-эвристических методов решения комбинаторных задач высокой сложности / Мартьянов В. И., Архипов В. В., Каташевцев М. Д., Пахомов Д. В. // Современные технологии. Системный анализ. Моделирование. - 2010. - № 4 (28). - C. 205-211.

14. Кнут Д. Искусство программирования для ЭВМ. Сортировка и поиск. - М. : Мир, 1978. -848 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.