Научная статья на тему 'Структура белков и скрытая периодичность в генах'

Структура белков и скрытая периодичность в генах Текст научной статьи по специальности «Математика»

CC BY
207
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТАЯ ПРОФИЛЬНАЯ ПЕРИОДИЧНОСТЬ / СТРУКТУРА ГЕНА / СТРУКТУРА БЕЛКА / LATENT PROFILE PERIODICITY / GENE STRUCTURE / PROTEIN STRUCTURE

Аннотация научной статьи по математике, автор научной работы — Чалей Мария Борисовна, Кутыркин Владимир Андреевич

Оригинальные методы спектрально-статистического подхода были разработаны для распознавания нового типа скрытой периодичности в ДНК скрытой профильной периодичности (скрытой профильности). Исследование скрытой профильности в кодирующих районах генов позволяет выявлять различные уровни кодирования генетической информации, в том числе и на локальных участках ДНК.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Чалей Мария Борисовна, Кутыркин Владимир Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STRUCTURE OF THE PROTEINS AND LATENT PERIODICITY IN THE GENES

Original methods of spectral-statistical approach have been elaborated for recognizing a new type of latent periodicity in DNA, called latent profile periodicity (or latent profility). Search of the latent profility allows revealing different levels of information encoding in the genes, and in local DNA regions included.

Текст научной работы на тему «Структура белков и скрытая периодичность в генах»

УДК 577.2.519.23

СТРУКТУРА БЕЛКОВ И СКРЫТАЯ ПЕРИОДИЧНОСТЬ В ГЕНАХ

М.Б. Чалей1, В.А. Кутыркин2

(1лаборатория биоинформатики Института математических проблем биологии РАН; e-mail: [email protected]; 2кафедра вычислительной математики и математической физики Московского государственного технического университета имени Н.Э. Баумана; е-mail: [email protected])

Оригинальные методы спектрально-статистического подхода были разработаны для распознавания нового типа скрытой периодичности в ДНК — скрытой профильной периодичности (скрытой профильности). Исследование скрытой профильности в кодирующих районах генов позволяет выявлять различные уровни кодирования генетической информации, в том числе и на локальных участках ДНК.

Ключевые слова: скрытая профильная периодичность, структура гена, структура белка.

Понятие скрытой профильности в последовательностях ДНК было введено в работе [1]. Известные методы, применявшиеся для распознавания размытых тандемных повторов, не могут быть использованы для выявления этого нового типа скрытой периодичности. В настоящей работе предлагаются методы распознавания скрытой профильной периодичности, основанные на спектрально-статистическом подходе (2С подходе) [2]. В работе приведены примеры, когда скрытая профильность, выявленная в кодирующих районах ДНК, транслируется в особенности структуры аминокислотной последовательности белка. Непосредственное выявление таких особенностей является достаточно сложной задачей, поскольку цель поиска неизвестна априори.

Методы

Пусть СНг (р) — случайная буква со столбом частот р = (р1, ..., рк)Т, которая является случайной величиной, принимающей с вероятностью р' значение 1-й буквы алфавита А = {аъ ..., ах). Специальная случайная строка = (п) = СНг(Р1)...СНг(рп) из п независимых случайных букв индуцируется матрицей п = (р1, ..., рп) = (л'. )х, называемой п-про-фильной матрицей. Любое целое число Ь из диа-

пазона 1,

Lm

где Lm

ствлять с соответствующей специальной случайной строкой той же длины.

Пусть Ь — тест-период, 0 < М < Ь и = $Тп (п) = = Б1гь(П1)...Б1гь(п„)Б1гм(пт+1) — разложение строки на подстроки длины Ь. Тогда, если М =0,

матрица П

1 m _

» (L)=m I

называется L-профильной

матрицей строки Str. Если M то в матрицу ntr (L) вносятся соответствующие поправки. Таким образом, для строки Str введен профильно-матричный спектр nstr, определенный на каждом тест-периоде. Если л\ = ... = лт = л о и ло = (лт+1, Я01), то строка Str называется L-профильной строкой со случайным паттерном периодичности StrL(по). В этом случае для строки Str используется обозначение TdmL (по, n) и матрица по называется ее главной профильной матрицей, поскольку она индуцирует весь профильно-матричный спектр этой строки.

Пусть str — текстовая строка длины n в алфавите A, анализируемая на наличие скрытой профильности. Для оценки ее предполагаемого скрытого периода используется характеристический спектр H, принимающий на тест-периоде X значение:

H(X) = ^(пstr (Я), Патл(Я), n) - M(%lx _iM), (1)

—— называется тест-периодом 5K

строки Str. Букву aj £ A можно отождествить со случайной буквой, все компоненты столбца частот которой — нулевые, за исключением j-й единичной компоненты. Поэтому любую текстовую строку в алфавите A можно отожде-

Рис. 1. Характеристические спектры кодирующих районов трех генов из семейства аполипо-протеинов: а — APOE рыбы Danio rerio (GenBank AJ236882; 1-846 н.о.); б — APOA1 утки Anas platyrhynchos (GenBank U86131; 1-795 н.о.); в — APOA4 мыши Mus musculus (GenBank

M64248; 1-1176 н.о.)

n

Рис. 2. Распознавание скрытой 33-профильности в кодирующем районе гена АРОА1 утки А. platyrhynchos (ОеиБапк и86131; 1-795 н.о.): а, в, г — спектры отклонения от 1-, 33-, 3-профильности (см. формулу (3)) соответственно; б — теоретическая реконструкция (см. формулу (4)) спектра Б1 в предположении скрытой 33-профильности гена АРОА1

здесь Л =1, распре-

X2 —

где далее Tdmд = Tdmд (П(Л), п), М(хУ) — математическое ожидание деления с N степенями свободы и если П(Я) = = (л*) )К и Птатл(Я) = (л) )К, то

str

=122 сЛ j = 1 i =1

л

i )2/ л'

X(K-1) А,

(2)

Первый тест-период Ь с ярко выраженным максимальным значением спектра Н служит оценкой скрытого периода в строке (рис. 1). Он признается периодом скрытой профильности, если строка статистически неотличима от Ь-профильной строки Tdmь. Для этого используется статистика р (см. формулу (2)) и спектр Бь отклонения строки от Ь-профильности:

Бь(Я) = ^(П ^ (Я), ПттЬ( Я), п)^ ((К - 1) Я,«), (3)

где (N а) — критическое значение х2" ления на уровне значимости а = 0,05.

распреде-

Если Lm

100, то гипотеза о неотличимости

принимается, если на каждом тест-периоде Бь < 1. Паттерн строки Tdmь служит оценкой паттерна скрытой Ь-профильности, если спектр Б1 отклонения от 1-профильности (однородности) строки (см. формулы (2) и (3)) повторяет спектр ТНь его теоретической реконструкции:

ТНь(Я) = <НПтт(Я), Птат1(Я), п)1х1и((К -1)Я,«), (4)

Результаты и обсуждение

В характеристических спектрах кодирующих районов наблюдается регулярность пиков в 3 нук-леотидных остатках (н.о.) (см. формулу (1), рис. 1). Таким образом проявляется первый уровень организации кодирования, обусловленный генетическим триплетным кодом. Такой феномен называется регулярной неоднородностью района, если в этом районе от-

сутствует скрытая 3-профильность. При наличии регулярной неоднородности, скрытая профильность выявляет второй уровень организации кодирования. На этот уровень организации указывают ярко выраженные максимумы характеристического спектра района. В качестве примера на рис. 1 приведены характеристические спектры кодирующих районов 3 (из более 150) белков семейства аполипо-протеидов [3].

Дальнейшее применение методов 2С подхода (рис. 2) выявляет скрытую 33-профильность кодирующих районов генов аполипопротеидов. Несмотря на отсутствие видимой гомологии в белках семейства, они обладают общей пространственной структурой (содержат повторы в 22 аминокислоты, каждый из которых образует пару альфа спиралей), коррелирующей со скрытой профильной периодичностью их генов.

В кодирующих районах возможно проявление локальной двухуровневой организации кодирования. В этом случае во всем кодирующем районе наблюдается всего лишь регулярная неоднородность в 3 н.о. Скрытая профильность фиксируется только для отдельных локальных областей кодирующего района. Например, в кодирующем районе гена cya бактерии Bordetella pertussis (GeneBank Y00545, 981-6101 н.о.) выделяются три области с периодом скрытой профильной периодичности в 27 н.о. (рис. 3).

Согласно описанию белкового продукта гена cya бактерии B. pertussis — бифункциональной гемо-лизин/аденилат циклазы (Swiss-Prot P15318), именно в этих областях находятся кальцийсвязывающие сайты гемолизинового типа длиной 18 аминокислот, что соответствует 54 (2 х 2) н.о.

Последний пример показывает возможность применения метода выявления скрытой профильности для поиска различных функциональных сайтов как в ДНК, так и в белках.

Рис. 3. Характеристические спектры трех локальных областей гена cya бактерии B. pertussis: а — 4020-4181 н.о; б — 4443-5036 н.о; в — 5211-5840 н.о

3 ВМУ, биология, № 4

Выводы

В работе предложены методы распознавания нового типа скрытой периодичности — скрытой профильности. В кодирующих районах ДНК скры-

тая профильность позволяет различать два уровня организации кодирования генетической информации. Второй уровень может коррелировать с особенностями структуры транслируемых белков.

СПИСОК ЛИТЕРАТУРЫ

1. Chaley M.B., Kutyrkin V.A. Model of Perfect Tandem Repeat with Random Pattern and Empirical Homogeneity Testing Poly-criteria for Latent Periodicity Revelation in Biological Sequences // Mathematical Biosciences. 2008. Vol. 211. N 1. P. 186-204.

2. Chaley M.B., Kutyrkin V.A. Latent Profile Periodicity as New Type of Periodicity in Genome // Dokladi XIV Vse-

rossiiskoi Konferentsii "Matematicheskie Metodi Raspozna-vaniya Obrazov". Moskva: Max Press, 2009. P. 614—617 [in Russian].

3. База данных Pfam (URL:http://pfam.sanger.ac.uk./ family/pf01442 06.04.2010).

Поступила в редакцию 09.04.10

STRUCTURE OF THE PROTEINS AND LATENT PERIODICITY IN THE GENES

M.B. Chaley, V.A. Kutyrkin

Original methods of spectral-statistical approach have been elaborated for recognizing a new type of latent periodicity in DNA, called latent profile periodicity (or latent profility). Search of the latent profility allows revealing different levels of information encoding in the genes, and in local DNA regions included.

Key words: latent profile periodicity, gene structure, protein structure.

Сведения об авторах

Чалей Мария Борисовна — канд. биол. наук, ст. науч. сотр. Института математических проблем биологии РАН (ИМПБ РАН). Тел. (4967)73-27-19; е-таД: [email protected]

Кутыркин Владимир Андреевич — канд. физ.-мат. наук, доц. МГТУ им. Н.Э. Баумана. Тел. (495)263-60-18; е-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.