Научная статья на тему 'Множественное выравнивание совокупности аминокислотных последовательностей на основе вероятностной модели эволюции'

Множественное выравнивание совокупности аминокислотных последовательностей на основе вероятностной модели эволюции Текст научной статьи по специальности «Математика»

CC BY
81
14
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Сулимова В.В., Разин Н.А., Моттль В.В., Мучник И.Б.

Задача измерения группового сходства аминокислотных последовательностей белков является одной из фундаментальных проблем молекулярной биологии. Существующие алгоритмы решения данной задачи (алгоритмы множественного выравнивания) не основаны на какой-либо формальной постановке задачи и не базируются на единой модели эволюции белков. В данной работе предлагается принципиально новый подход к измерению группового сходства, в основе которого лежит вероятностная эволюционная модель преобразования аминокислотных последовательностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Сулимова В.В., Разин Н.А., Моттль В.В., Мучник И.Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of measuring group similarity of amino acid sequences is one of fundamental issues of the modern bioinformatics. Existing algorithms for decision this problem (so called multiple alignment procedures) are not based on any formal problem definition and any model of evolution of proteins. In this paper we propose a new approach for measuring group similarity of proteins, which is founded on probabilistic evolutionary model of transformation of amino acid sequences.

Текст научной работы на тему «Множественное выравнивание совокупности аминокислотных последовательностей на основе вероятностной модели эволюции»

УДК 681.327.12

МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ СОВОКУПНОСТИ АМИНОКИСЛОТНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ НА ОСНОВЕ ВЕРОЯТНОСТНОЙ МОДЕЛИ ЭВОЛЮЦИИ © Сулимова В.В.1, Разин Н.А.2,Моттль В.В.Мучник И.Б.4

1 Тульский государственный университет, Россия 300600, г.Тула, пр.Ленина, 92 2 Московский физико-технический институт, Россия 141700, г.Долгопрудный, Институтский пер. 9 3 Вычислительный центр РАН,Россия 117967, г.Москва, ГСП-1, ул.Вавилова, 40 4 Университет Ратгерс, Hill Center, Busch Campus, New Brunswick, USA, NJ 080901

e-mail: vmottl@yandex.ru, vsulimova@yandex.ru

Abstract. The problem of measuring group similarity of amino acid sequences is one of fundamental issues of the modern bioinformatics. Existing algorithms for decision this problem (so called multiple alignment procedures) are not based on any formal problem definition and any model of evolution of proteins. In this paper we propose a new approach for measuring group similarity of proteins, which is founded on probabilistic evolutionary model of transformation of amino acid sequences.

Введение

Последовательности нефиксированного числа элементов из некоторого заданного множества примитивов являются типичным видом представления информации об объекте во многих задачах интеллектуального анализа данных. В частности, массовым источником последовательностей разной длины является молекулярная биология, в которой один из важнейших видов задач анализа данных заключается, в конечном счете, в прогнозировании биологических свойств предъявленной молекулы белка, заданной своей так называемой первичной структурой в виде последовательности аминокислот, образующих полимерную цепь. Различают 20 существующих в природе аминокислот, поэтому первичная структура полимерной молекулы каждого конкретного белка образует символьную последовательность индивидуальной длины над 20-буквенным алфавитом.

В настоящее время накоплено большое число баз данных, в которых собраны аминокислотные последовательности белков, биологические свойства которых удалось установить экспериментально. При этом в них выделены группы похожих последовательностей, в которых белки обладают одинаковыми или похожими биологическими свойствами.

Именно эта группировка позволяет практикам-биологам переносить систематизированные знания о белках, накопленные в базах данных, на новые неизученные белки, решая такие широко известные задачи, как задача локализации консервативных регионов [1], прогнозирования вторичной [2] и третичной (пространственной) структуры белков [3], построения филогенетических деревьев [4]. Одной из фундаментальных проблем молекулярной биологии, связанной с использованием группированных баз данных, является проблема измерения общего сходства аминокислотных последовательностей по всей группе, а также сходства отдельных последовательностей со всей группой.

В качестве инструментов измерения группового сходства в настоящее время используются алгоритмы множественного выравнивания [5, 6, 7, 8, 9, 10]. Многие из них сопровождают результат так называемым профилем анализируемой совокупности последовательностей, под которым понимается некоторый самостоятельный "обобщенный" белок в виде последовательности дискретных распределений вероятностей над множеством всех аминокислот. Однако проблема заключается в том, что существующие алгоритмы, во-первых, не основаны на какой-либо формальной постановке задачи и, во-вторых, не базируются на какой-либо единой модели эволюционной модификации белков.

В данной работе предлагается принципиально новый подход к измерению группового сходства белков, в основе которого лежит вероятностная эволюционная модель преобразования аминокислотных последовательностей.

1. Измерение сходства аминокислот

на основе модели эволюции м. дэйхофф

Очевидно, что измерение эволюционного сходства белков неизбежно должно базироваться на измерении сходства составляющих их аминокислот. Пусть А - конечное множество аминокислот А = { о; 1'...., ]•.

Под сходством двух аминокислот аг л ' & А принято понимать их склонность к взаимному мутационному превращению. Одной из основных теоретических концепций сравнения аминокислот является вероятностная модель эволюции Маргарет Дэйхофф [11], получившая название РАМ. Данная модель предполагает, что склонность аминокислот к взаимному мутационному превращению количественно выражается квадратной матрицей условных вероятностей

ф = г,] = 1,...,п), г/;** = -ф{а?\а% а\а? е А, п = 20, (1.1)

интерпретируемых как вероятности того, что на очередном шаге эволюции аминокислота аг превратится в аминокислоту о-'. Таким образом, \а1) = 1 Для всех п' (г . 1.

Основным математическим понятием модели Дэйхофф является понятие марковской цепи эволюции аминокислоты в отдельно взятой позиции цепи />.„. = 1,2,3,..., определяемой матрицей условных вероятностей ф(а:>\аг). Предполагается, что данная Марковская цепь представляет собой эргодический и обратимый случайный процесс, т.е.: 1) он характеризуется финальным распределением вероятностей ^(а3) : Х^ед ^(аг)ф(а:'\аг) = £(а•') и 2) выполняется условие обратимости:

£(а*)г/>(а?\а*) = (1.2)

Сходство пары аминокислот аг и а? естественно оценивать, вычисляя вероятность их происхождения в результате двух независимых ветвей эволюции от одной и той же неизвестной аминокислоты

п

(л(а\ а3) = ^2^к)Ф(а1\ак)ф(аЦак). (1.3)

к=1

В биоинформатике принято выражать эти величины в логарифмической форме в виде семейства так называемых матриц РАМ при разном понимании величины эволюционного шага:

В = (Пг„ г, з = 1, ...,п), Пг, = 10 1о&0 [.К(а\а(аг) С И] .

Однако следует отметить, что мера сходства по Дэйхофф (1.3) представляет собой скалярное произведение

12=1 (^ёМ^И) = Ел=1 Х*ХЗЬ = ХГХ,

Таким образом, функция (1.3) является потенциальной функцией [12], погружающей конечное множество аминокислот в линейное пространство А = {а1, i = l,...,n} С А, в котором она играет роль скалярного произведения [13]. Это свойство позволяет ввести понятие "обобщенной аминокислоты" как линейной комбинации реальных аминокислот с коэффициентами, определяемыми вектором /3 е А, /3 = 0к, к = 1,... ,20), таким, что (Зк = 1. Компоненты

/,- = 1.....20 могут быть интерпретированы как вероятности того, что соответствующий элемент /3 £ А является реальной аминокислотой ак е А. В частности, если все компоненты вектора /3, кроме одной, к-й компоненты, равны нулю, то это означает, что данный вектор соответствует реальной аминокислоте ак.

2. Вероятностная модель эволюционных преобразований

последовательностей

Пусть О - множество всех возможных аминокислотных последовательностей конченой длины ш = (о,. / = 1,... ш 6 П, образованных реальными аминокислотами (\, (г .1. и И ) И - множество всех возможных обобщенных аминокислотных последовательностей $ = (/38,з = 1,...,щ), О (г И. составленных из обобщенных аминокислот /5 6 I и Ов Э О - множество обобщенных последовательностей длины п. При этом очевидно, что множество О включает в себя все последовательности ш из множества О.

Далее мы будем использовать для обозначения последовательности символ $ в случае, если она может состоять как из обобщенных, так и из реальных аминокислот, и символ ш в случае, если необходимо подчеркнуть, что имеется ввиду именно реальная последовательность, состоящая только из реальных аминокислот.

Идея предлагаемой в данной работе вероятностной модели эволюционных преобразований белков основана на понятии семейства условных распределений вероятностей на множестве всех конечных последовательностей аминокислот. Предлагается связать с каждой последовательностью $ = (/З3, в = 1,... ,п) некоторое специфичное по отношению к ней распределение вероятностей на множестве всех реаль-

ных последовательностей ш 6 О, интерпретируемое как совокупность вероятностей

ее преобразования в другую последовательность ш = (о,. / = 1......V) некоторой

другой длины N за один шаг процесса эволюции.

Модель случайного преобразования последовательности ¡I = (/3s,s = 1.....п) в

другую последовательность ш = (at,t = 1,,,, ,N), предлагается представить в виде двухкомпонентного случайного процесса (X,Y).

Первая компонента X = (./•,;. i = 1,... ,п) со значениями = к, к е {1,,,,, Л представляет собой скрытый марковский случайный процесс с переходными вероятностями qlk = p(xi = k\xi-i = /). имеющими смысл вероятностей того, что i-й элемент первой последовательности преобразуется в к-й элемент второй последовательности, при условии, что (i — 1)-й элемент первой последовательности преобразовался в 1-й элемент второй последовательности, I е {1,,,,, Л Начальные вероятности преобразования 1-го элемента последовательности ¡I. являющиеся безусловными, будем обозначать q\k = q\ = ¡>(.r¡ = к).

Распределения вероятностей q\ и qlk могут быть заданы различными способами, но так, чтобы выполнялись следующие условия

1) условие отсутствия пропусков элементов исходной последовательности:

qf = 0, если к < I или к > N — (п - г). (2.1)

Это условие обеспечивает, чтобы каждый элемент исходной последовательности

i = 1 ,...,п с ненулевой вероятностью преобразовался в некоторый к-й элемент второй последовательности длины N, причем такой, чтобы его номер был больше номера предыдущего 1-го элемента.

2) условие симметричности:

р(хп = к)= p(Xl =N-k + l),k = l,...,N, (2.2)

где р(.г; = к) = X^fLi Qísp(xí-i = s) - безусловная вероятность того, что г-й элемент первой последовательности преобразуется в к-й элемент второй последовательности.

3) условные вероятности преобразования i -го элемента исходной последователь-

/ь ь

пости q¡ и начальные вероятности q¡. должны составлять полную группу:

N N N

ч'" =1 » = = /'-) = 1 (2-3)

k=\ k=\ k=\

Данный случайный процесс определяет структуру преобразования последовательности i) е И" длины п в последовательность ш £ ÍI длины N, т.е. выбирает позиции в последовательности со, в которые будут преобразовываться обобщенные аминокислоты, составляющие 0. Следует обратить внимание, что, в соответствии с условием 2.1, данная вероятностная схема запрещает пропуски элементов первой последовательности. В результате, количество производимых замен всегда строго равно п. а длина второй последовательности оказывается всегда большей или равной длине исходной последовательности. В связи с этим мы называем такое преобразование "несжимающим".

Вторая компонента представляет собой условный случайный процесс (У|Х),

Y = (i/i, i = 1.....п ) замены аминокислот в позициях, выбранных процессом X,

с множеством состояний //,; G -{п/,. /,- = 1,.... Л Это наблюдаемый случайный процесс, определяющийся условными распределениями ?]fc(y¿) = r](ak\fti,Xi = к), которые

представляют собой совокупности вероятностей преобразования дг в а

Üaklßi)

j](ak\ßi,Xi = k)

N

Т.ФЫ&)

t= 1

k = 1,

N.

(2.4)

где ф = (ак\а1) - вероятность замены обобщенной аминокислоты

на аминокислоту

Структура преобразования последовательности г? в последовательность и, определяемая первым случайным механизмом, может быть представлена в виде случайного пути па графе (рис.1).

Рис. 1. Структура преобразования последовательности г? длины п в последовательность оо длины N

Возможно множество различных вариантов преобразования последовательности {) в последовательность си. Однако не все из них являются допустимыми (имеющими ненулевые вероятности) в соответствии с предложенной схемой. Ребра, принадлежащие области допустимых преобразований, показаны на данном графе сплошными линиями. Стрелками показан один из допустимых вариантов преобразования.

Здесь продвижение по диагонали соответствует преобразованию ¿-го элемента последовательности г? в к-й элемент последовательности оо, а продвижение по вертикали - вставке нового элемента в последовательность си. Следует обратить внимание, что допустимыми в соответствии с принятой схемой являются только те преобразования, которые соответствуют путям па графе, проходящим ровно через п диагональных ребер, в связи с чем па данном графе запрещены любые горизонтальные продвижения.

Каждый вариант преобразования последовательности г? длины п в последовательность оо длины N соответствует выравниванию их элементов, которое в данном случае полностью определяется последовательностью ю = (и^, г = 1,... ,п) длины п чисел Юг Е {1,..., N}.

Выравнивание, соответствующее выделенному пути на графе рисунка 1, имеет вид:

«1 а2 а3 а4 а5

ю ,

/Зз /?4 /5б /5д

Порядком выравнивания будем называть количество определяемых им замен элементов. Заметим, что допустимые выравнивания имеют ровно п позиций, в которых происходят замены элементов. В связи с этим будем называть их выравниваниями порядка п. Множество всех выравниваний порядка п пары последовательностей < 'д,ш > будем обозначать 11'// Л . На множестве выравниваний 11'// л пары последова-

п го

1=2 Чг

тельностей < 'д,ш > определим распределение вероятностей q{w) = </fl П"=2 Ял ' UW

Теорема 1. Теорема 1. Если априорные относительно элементов последовательностей распределения д\ и др определены в соответствии с условиями 2.1-2.3, то £ д(т) = 1. ...

Вероятность преобразования последовательности $ длины п в последовательность и) длины N определим следующим образом:

f(u\d)= Y, q(w)<p(w\w,ti) (2.5)

где (р(ш\и!,$) = и"=М<Хк\0г,Хг = к) - вероятность преобразования последовательности г? в последовательность ш, при условии, что структура преобразования соответствует определенному выравниванию гг е 11 'Ц д .

3. Постановка задачи множественного выравнивания группы

последовательностей

Пусть ил,- = {(\ ¡1. t = 1,..., Л^), / = 1......М группа последовательностей, состоящих'из реальных аминокислот п,, е А.

В качестве меры эволюционного сходства заданного порядка п для группы аминокислотных последовательностей ш = = 1.....М) естественно принять максимум правдоподобия гипотезы, что все они порождены независимо из одной и той же

последовательности д = (Д, г = 1.....п). ¡1 (г V.". имеющей длину, равную принятому

порядку п. При этом функция правдоподобия будет иметь вид:

м

3=1

или в логарифмической форме

м

1о8П<ЭД = £1о8/,,-(и;,-|0) (3.1)

3 = 1

Задачу множественного выравнивания группы последовательностей ш поставим как задачу нахождения такой обобщенной последовательности О Е И" длины п, которая обеспечивала бы максимум функции правдоподобия 3.1:

= argmaxlogF(c0|i9) (3.2)

■№ейп

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Саму оптимальную последовательность /Г. доставляющую максимум критерию 3.1, следует интерпретировать как профиль общего фрагмента заданной длины п, характеризующий эволюционную общность анализируемой совокупности аминокислотных последовательностей ш. При этом следует обратить внимание, что в соответствии с введенным в разделе 1 понятием обобщенной аминокислоты, понятие профиля, которое имело ранее лишь эвристический смысл, приобретает здесь строгую математическую основу.

Традиционная форма представления множественного выравнивания виде записи анализируемых последовательностей друг под другом, с расстановкой пробелов между определенными позициями каждого белка, может быть получена путем выравнивания найденного обобщенного профиля с каждой из последовательностей при помощи любой из стандартных процедур локального парного выравнивания [14], обобщенной на случай выравнивания последовательностей, состоящих из элементов расширенного множества ß Е А, что с учетом определения обобщенной аминокислоты не представляет проблемы.

4. Итерационная процедура для решения задачи

множественного выравнивания

Пусть ¡)" = (/3-, / = 1.....п) очередное приближение к точке максимума функции правдоподобия 3.1.

Применяя для максимизации функции правдоподобия 3.1 ЕМ-процедуру [15], предложенную М.И. Шлезингером, нетрудно убедиться, что каждая компонента очередного приближения гдв+1 может быть найдена независимо от остальных компонент по следующей формуле:

м Щ

АМ+1 хЕ5>(гг'- = /'- гге п- 1 = 1, ■ ■ ■, 20, (4.1)

3=1 к=1

где р у а'; = к\т Е Ш'^^ш^^д8 ^ - распределение вероятностей, характеризующее

апостериорные свойства скрытого марковского процесса преобразования последовательностей (Х|У). Соответствующие вероятности, называемые в теории скрытых марковских процессов интерполяционными, могут быть найдены по стандартной схеме [17] на основе заданных априорных свойств процесса X преобразования последовательностей;

Распределение ((1\а/З5), / = 1.....20 в 4.1 определяется соотношением

сх/Зг>^Ыаг).

Следует отметить, что данная процедура легко реализуется алгоритмически и достаточно быстро сходится к точке глобального максимума из любого начального приближения = (/3?,г = 1,... ,п).

Заключение

В данной работе предлагается принципиально новая, вероятностная постановка задачи измерения группового сходства белков, в основе которой лежит вероятностная модель эволюции составляющих их аминокислотных последовательностей. Предложенная мера сходства группы последовательностей, определяемая как максимум правдоподобия гипотезы о том, что все белки из рассматриваемой группы были получены в результате независимого случайного преобразования одной и той же неизвестной последовательности заданной длины п,состоящей из обобщенных аминокислот, является более адекватной с точки зрения молекулярной биологии, по сравнению с существующими методами, решающими ту же задачу.

Обобщенная последовательность, обеспечивающая максимум правдоподобия, фактически, является моделью, или профилем, анализируемой группы последовательностей и может быть легко использована для получения традиционной графической интерпретации множественного выравнивания последовательностей.

В дальнейшем предполагается детальное исследование предложенной процедуры и ее сравнение с существующими процедурами множественного выравнивания на материале известных баз данных VIDA и BLOCKS, с целью подтверждения ее теоретического превосходства над известными алгоритмами.

Работа выполнена при поддержке грантов РФФИ № № 6-01-00412, 06-01-00679, гранта INTAS YSF 06-1000014-6563.

список литературы

1. Attwood Т.К. The PRINTS database: a resource for identification of protein families. // Brief Bioinformatics, 3, 2002, pp. 252-263.

2. Rost B. at al. PHD-an automatic server for protein secondary structure prediction. // Computational applications in biosciences. 10, 1994, pp. 53-60.

3. Goebel U. at al. Correlated mutations and residue contacts in proteins. // Proteins, 18,1994, pp. 309317.

4. Saitou N., Nei M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. // Molecular biology, 212, pp. 403-428.

5. Edgar R.C., Batzoglou G. Multiple sequence alignment // Current opinion in structural biology, 16, 2006, pp. 368-373.

6. Wallance I.M., Blackshields G., Higgins D.G. Multiple sequence alignments //Current opinion in structural biology, 15, 2005, pp. 261-266.

7. Notredame C. Recent evolution of multiple sequence alignment algorithms // PLoS Computational biology, vol.3, 2007, pp. 1405-1408.

8. Pei J., Kim B.-H., Grishin N. V. PROMALS3D: A tool for multiple protein sequence and structure alignments // Nucleatic acids, vol.33, No.7, 2008, pp. 2295-2300.

9. Pei J., Grishin N. V. MUMMALS: Multiple sequence alignment improved by using hidden Markov models with local structural information // Nucleatic acids, vol.34, 2006, pp. 4364-4374.

10. Thompson J., Higgins D., Gibson Т. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. // Nucleatic acids, vol.22, 1994, pp. 4673-4690.

11. Dayhoff M.O., Schwartz R.M., Orcutt B.C. A model of evolutionary change in proteins. // In: Atlas of proteins sequences and structure. National biomedical research foundation, Vol.5, 1978, pp. 345-352.

12. Айзерман M.A., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. // М.: Наука, 1970, 384 с.

13. Моттль В.В. Метрические пространства, допускающие введение линейных операций и скалярного произведения. //ДАН, 2003, том 67, №1.

14. Smith T.F., Watterman M.S. Identification of common molecular seauences. // Molecular Biology, 1981, 147, pp.195-197.

15. Шлезшер М.И. О самопроизвольном различении образов. // Читающие автоматы. - Киев: 1 layKiHia думка. 1965, С. 38-45.

16. Bishop С.М. Pattern Recognition and Machine Learning. // Springer, 2006.

17. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. // М.: ФИЗМАТЛИТ, 19996 352 с.

Статья поступила в редакцию 30.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.