Научная статья на тему 'Распознавание различных уровней в организации кодирования генетической информации'

Распознавание различных уровней в организации кодирования генетической информации Текст научной статьи по специальности «Математика»

CC BY
296
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТАЯ ПЕРИОДИЧНОСТЬ / СКРЫТАЯ ПРОФИЛЬНОСТЬ / СПЕКТРАЛЬНО-СТАТИСТИЧЕСКИЙ ПОДХОД / КОДИРОВАНИЕ ГЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ

Аннотация научной статьи по математике, автор научной работы — Кутыркин Владимир Андреевич, Чалей Мария Борисовна

Оригинальные методы распознавания скрытой периодичности - скрытой профильной периодичности (скрытой профильности) - используются для поиска периодической структуры в текстовых строках. Эффективность применения этих методов продемонстрирована на примерах анализа генетических текстов из известных баз данных GenBank, TRDB, KEGG и EID. В результате была выявлена двухуровневая организация кодирования генетической информации, коррелирующая с особенностями структуры кодируемых белков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кутыркин Владимир Андреевич, Чалей Мария Борисовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Распознавание различных уровней в организации кодирования генетической информации»

МОДЕЛИРОВАНИЕ В БИОЛОГИИ

УДК: 577.2:519.23

В. А. К у т ы р к и н, М. Б. Ч а л е й

РАСПОЗНАВАНИЕ РАЗЛИЧНЫХ УРОВНЕЙ В ОРГАНИЗАЦИИ КОДИРОВАНИЯ ГЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ

Оригинальные методы распознавания скрытой периодичности — скрытой профильной периодичности (скрытой профильности) — используются для поиска периодической структуры в текстовых строках. Эффективность применения этих методов продемонстрирована на примерах анализа генетических текстов из известных баз данных GenBank, TRDB, KEGG и EID. В результате была выявлена двухуровневая организация кодирования генетической информации, коррелирующая с особенностями структуры кодируемых белков.

E-mail: vkutyrkin@yandex.ru, maramaria@yandex.ru

Ключевые слова: скрытая периодичность, скрытая профильность, спектрально-

статистический подход, кодирование генетической информации.

Введение. Распознавание скрытой периодичности в текстовых строках используется для анализа лингвистических текстов, при проверке качества датчиков случайных чисел, в биоинформатике для выявления структурных особенностей генов и белков и др. В настоящей работе с помощью предложенных методов распознавания скрытой периодичности проведен анализ регулярной и периодической структур последовательностей дезоксирибонуклеиновой кислоты (ДНК). Для этого использовались данные одного из самых крупных и исчерпывающих источников информации о генетических текстах — базы GenBank (http://www.ncbi.nlm.nih.gov/genbank/), а также данные специализированных баз: энциклопедии генов и геномов KEGG (http://www.genome.jp/ kegg/), экзонов (кодирующих районов генов) и интронов (некодирую-щих районов генов) EID (http://www.utoledo.edu/med/depts/bioinfo/database), тандемных повторов в геномах различных организмов TRDB (http:// tandem.bu.edu/cgi-bin/trdb/trdb.exe).

Носителем наследственной информации любого живого организма является биополимерная молекула ДНК, образованная мономерными звеньями — нуклеотидами четырех типов, называемых аденин, гуанин, цитозин и тимин (часто обозначаемых буквами a, g, c, t). Таким образом, молекула ДНК может быть представлена в виде уникальной последовательности букв (нуклеотидов) исходного четырехбуквенного алфавита.

В нуклеотидных последовательностях ДНК существуют различные уровни регулярной структурной организации: длина шага двойной спирали ДНК в 10-11 пар нуклеотидов (нукл.), характерная длина -200 пар нукл. для фрагмента ДНК в нуклеосоме, характерные длины -2х104-105 нукл., выявляемые на более высоких уровнях квазирегулярной упаковки молекулы ДНК [1]. Такие особенности могут быть обусловлены некоторой закономерностью чередования нуклеотидов в исходной последовательности ДНК. Поэтому исследования корреляций в последовательностях ДНК [2] имеют большое значение для понимания основы известных и выявления новых структурных особенностей ДНК. В графиках различных функций, используемых для представления корреляций в кодирующих районах ДНК, наблюдаются регулярно повторяющиеся пики с шагом в три в соответствии с трип-летной природой генетического кода. Отсюда возникло представление о триплетной периодичности кодирующих районов.

До настоящего времени наиболее распространенное описание скрытой периодичности опиралось на понятие размытого тандемно-го повтора [3] — последовательности ДНК, представленной следующими друг за другом копиями некоторого ее фрагмента — паттерна периодичности. Размер паттерна периодичности называют периодом последовательности. Результатом распознавания такой периодичности является текстовой «консенсус-паттерн», который служит оценкой исходного паттерна повтора. Если повреждение копий паттерна заменами и вставками/делециями нуклеотидов составляет не более 30 %, то консенсус-паттерн признается достоверным. Несмотря на то что в кодирующих районах встречаются короткие тандемные повторы три- и гекса-нуклеотидов [4, 5], вывести достоверный консенсус-паттерн тандемного повтора на всей длине кодирующего района, как правило, не удается.

Слабое предпочтение нуклеотида конкретного типа в фиксированной позиции триплетов кодирующего района способствует появлению в спектре Фурье доминирующего пика спектральной плотности на частоте 0,33, соответствующей периоду в три [6], но оно не является фундаментальной причиной такой картины спектра. Оказалось, что чем больше дисперсия распределения конкретного нуклеотида, даже не доминирующего по позициям триплета, тем больший вклад он вносит в амплитуду спектральной плотности на частоте, соответствующей периоду 3 [7]. Поэтому появление в Фурье-спектре пика на частоте 0,33 может быть обусловлено всего лишь неоднородностью распределения нуклеотидов по позициям триплетов.

Применение методов Фурье-анализа для оценки длины периода скрытой периодичности стало традиционным [8-11]. Для этой цели использовались и другие статистические методы [12-14], в основе

которых лежит вычисление меры неоднородности в распределении нуклеотидов по позициям периода. На практике в последовательности, не являющейся размытым тандемным повтором, может наблюдаться высокий показатель неоднородности и Фурье-спектр с доминирующим пиком на некоторой частоте. В этом случае использование термина «скрытая периодичность» некорректно, пока не выявлен паттерн периодичности какого-либо нового типа.

В работе [15] для распознавания нового типа скрытой периодичности, расширяющего понятие размытого тандемного повтора и названного профильной периодичностью (профильностью), был предложен спектрально-статистический подход (2С-подход). Методы, распознающие размытые тандемные повторы [3, 16-19], не могут быть использованы для выявления этого нового типа скрытой периодичности.

Ранее [15] было показано, что предложенный 2С-подход позволяет выявить два уровня организации кодирования генетической информации: регулярную неоднородность в распределении нуклеотидов по позициям кодонов и скрытую профильность. Второй уровень кодирования может коррелировать со структурной организацией кодируемых белков. Непосредственное выявление такой организации является достаточно сложной задачей, поскольку цель поиска априори неизвестна. В настоящей работе показано, что Фурье-анализ не позволяет выделить второй уровень организации кодирования (скрытую про-фильность). Фурье-спектры кодирующих районов ДНК были получены с помощью программ Фурье-анализа [10, 11] на Веб-сервере http://www.imtech.res.in/raghava/ftg/.

В настоящей работе проведен количественный структурный анализ кодирующих последовательностей ДНК человека из базы данных KEGG-54.1 (Kyoto Encyclopedia of Genes and Genomes, http:// www.genome.jp/kegg/) в сравнении с последовательностями интронов (некодирующих районов генов) человека из базы данных EID (The Exon-Intron Database, http://www.utoledo.edu/med/depts/bioinfo/database). Результаты сравнительного анализа могут быть использованы для создания математических методов выявления кодирующих районов в ДНК.

Методы распознавания скрытой профильной периодичности в ДНК. В рамках предлагаемой модели скрытой профильной периодичности текстовая строка (последовательность ДНК) рассматривается как реализация особой случайной периодической строки, названной профильной строкой. Фактически, профильная строка, состоящая из независимых случайных букв, является совершенным тандемным повтором случайной строки, называемой ее случайным паттерном периодичности. Следовательно, для выявления скрытой профильной периодичности (профильности) в текстовой строке (последовательнос-

ти ДНК) необходимо выработать критерии, позволяющие признать анализируемую текстовую строку реализацией некоторой профильной строки. Случайный паттерн такой профильной строки может рассматриваться в качестве паттерна периодичности для анализируемой текстовой строки.

Статистическая структура случайных строк из независимых случайных букв. Пусть Chr(p) — случайная буква со столбцом частот p = (p1, ..., pK)T. Такая буква является случайной величиной, принимающей с вероятностьюp'(i = 1, ... K) значение i-й буквы алфавита A = +a1, ..., aK>.

Последовательности ДНК рассматриваются как текстовые строки в четырехбуквенном (K = 4) упорядоченном алфавите A = +a, g, t, c>, где a-аденин, g-гуанин, t-тимин, c-цитозин.

Специальная случайная строка Strn(п) = Chr(p 1)...Chr(pn) из n независимых случайных букв индуцируется матрицей п = (p 1,..., p n ) =

i K

= (п j)n , называемой n-профильной матрицей. Пусть Str = a: ... a: — текстовая строка, где i — номер буквы a (m = 1, ..., n) в алфавите A.

m lm

Если Str — реализация случайной строки Strn(n), то произведение

г1 in

П1 •...•nn определяет вероятность такой реализации.

Букву a. G A(i = 1, ..., K) можно отождествить со случайной буквой, все компоненты столбца частот которой — нулевые, за исключением i-й единичной компоненты. Поэтому любую текстовую строку в алфавите A можно отождествлять с соответствующей специальной случайной строкой той же длины.

n

Любое целое число L из диапазона 1, ..., L , где L--, на-

^ " ' ' max " max 5K '

зывается тест-периодом строки Strn(n).

Пусть L — тест-период случайной строки Str = Strn(n), Strn (п) = = StrL (п 1) ... StrL (п m)StrM (п m+1) — разложение строки Str на подстроки длины L, где 0 < M < L (при M Ф 0 подстрока StrM (п^) — неполная, при M = 0 строка StrM (п^) — пустая). Тогда, если M = 0, мат-

1 m

рица ПStr(L) = —^п называется L-профильной матрицей строки

m i=1 1

Str. Если M Ф 0, то в матрицу nStr(L) вносятся соответствующие поправки. Таким образом, для строки Str введен профильно-матричный

спектр Па определенный на каждом тест-периоде. Профильно-матричный спектр характеризует статистическую структуру реализаций случайной строки Str. Если статистические структуры строки Str и анализируемой текстовой строки str неотличимы (на соответствующем уровне значимости), то можно рассмотреть гипотезу о том, что строка str является реализацией случайной строки Str. Далее, на основе модели скрытой профильной периодичности будут предложены методы подтверждения такой гипотезы.

Стохастическая модель скрытой профильной периодичности. Наличие скрытой профильной периодичности в анализируемой текстовой строке проявляется в ее статистической структуре, т. е. выборочном профильно-матричном спектре. Фактически, при достаточно большой длине анализируемой строки этот выборочный спектр повторяет профильно-матричный спектр периодической случайной строки Str из независимых случайных букв. В этом случае случайная строка Str

имеет вид Str = StrL(п 1)...Str L(nm)StrM(nm+1), где L — период строки

Str, 0 < M < L, П 1= ... = Пт= п0и StrL (п0) = StrM (nm+1)StrL-M (п10). Такая строка Str называется L-профильной строкой со случайным паттерном периодичности StrL П0). В этом случае для строки Str используется обозначение TdmL (п n).

Матрица П0 называется главной профильной матрицей строки, поскольку матрица П0 индуцирует весь профильно-матричный спектр

этой строки. Профильная строка TdmL(п00,n) является совершенным

тандемным повтором со случайным паттерном периодичности StrL П0).

Профильно-матричный спектр строки TdmL (п n) можно рассматривать в качестве стохастической модели проявления скрытой профильной периодичности в текстовых строках, являющихся ее реализациями.

Оценка размера паттерна скрытой профильной периодичности в текстовой строке. Для оценки размера паттерна скрытой профильной периодичности далее вводится специальный спектр текстовой строки, названный характеристическим. На рис. 1, a — в приведены характеристические спектры трех размытых тандемных повторов из базы данных TRDB (Tandem Repeats Database, http://tandem.bu.edu/cgi-bin/ trdb/trdb.exe). На каждом из этих спектров первый ярко выраженный максимум достигается на тест-периоде, который является периодом размытого тандемного повтора.

Аналогичная картина характеристических спектров проявляется и для текстовых строк со скрытой профильной периодичностью

н

9000 6000 3000

о

-3000

-1-1-1-1-1-1-1-1-

102 204 306 408

Н 900 600 300 0

-300

17

34

Н

500 -400 -300 200 100 -0 --100

0

12

—\—I— 16

л

аЗ н

х о

л о

4 я

а ь

Q- О

К Ч

* С

С

и

0,30 0,20 0,10 Н 0,00

..........

0,00 0,10 0,20 0,30 0,40 0,50 Частота

Рис. 1. Характеристические спектры размытых тандемных повторов из базы данных TRDB:

a — тандемный повтор с периодом 102 нукл. (Несовпадения=3%, Вставки/Делеции=0%, Копии паттерна=93,1) на хромосоме IV (688744 - 698236 нукл.) круглого червя C. elegans; б — тандемный повтор с периодом 17 нукл. (Несовпадения=12%, Вставки/Делеции=0%, Копии паттерна=41,8) на хромосоме V (1809784 - 1810492 нукл.) круглого червя C. elegans; в — тандемный повтор с периодом 12 нукл. (Несовпадения=17%, Вставки/ Делеции=0%, Копии паттерна=32,5) на хромосоме I (26399024 - 26399410 нукл.) мыши M. musculus; г — Фурье-спектр тандемного повтора (в). Максимальный пик достигается на частоте 0,25, соответствующей периоду в 4 нукл.

(рис. 2, a — в). Поэтому первый тест-период, на котором ярко выражен максимум характеристического спектра анализируемой текстовой строки, рассматривается как оценка размера паттерна скрытой профильной периодичности, или профильности.

Характеристический спектр анализируемой текстовой строки str длиной n в алфавите A определяется следующим образом. Для каждого тест-периода Л этой строки создается профильная строка

Tdm Л= Tdm Л (П str (Л), n) и вводится статистика Пирсона [12]:

я к

у/( П str (Я),П

(п

*1

Tdm

ni )2 nj )

ах n)=я ££ )

Я j=1 i=1 П j (1 - П j )

Х( к-1)я,

(1)

jj

где Пstr(Я) = (п*j)f и ПTdmл (Я) = (nj)f; xN - X2 — распределение

с N степенями свободы. Когда Л = 1, значение характеристического спектра И(Л) на тест-периоде Я вычисляется по формуле

H (Я) = W( П str (Я), П Tdm 1 (1), n) - E ( x\K-1)Я ),

(2)

где E(xN) — математическое ожидание ^-распределения с N степенями свободы.

Н

160 80 0 -80

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

i i i i i i i i i i i i i i i i i i i i 33

66 х

Н 240 160 80 0 -80

i i i i i i i i i i i i i i i i i i i i i i i 33 66

Н

560 400 240 80 -80

X Л

ч

с

О

0,08 -

0,04 -

0,00

I I I I I I I I I I I I I I

0,00 0,10

33 ß

66 X

0,20 0,30 0,40 Частота г

0,50

Рис. 2. Характеристические спектры кодирующих районов мРНК аполипопротеинов семейства Pfam PF01442:

a — Apo E мыши M. musculus (GenBank M12414, 1-936 нукл.); 6 — Apo A-I морского леща S. aurata (GenBank AF013120, 34-816 нукл.); в — Apo A-IV курицы G. gallus (GenBank Y16534, 37-1137 нукл.); г — Фурье-спектр кодирующего района мРНК Apo A-IV курицы G. gallus. Максимальный пик достигается на частоте 0,33, соответствующей регулярной неоднородности в 3 нукл.

Как было отмечено выше, первый тест-период L с ярко выраженным максимальным значением спектра H служит оценкой скрытого периода профильности в строке str (см. рис. 2, a — в).

Оценка паттерна скрытой профильной периодичности. Пусть L — предлагаемая оценка размера паттерна скрытой профильной периодичности анализируемой текстовой строки str длиной n в алфавите A из K букв. Тогда, в качестве оценки паттерна скрытой периодичности этой строки предлагается паттерн периодичности профильной

строки TdmL = TdmL (П str (L), n). Следовательно, StrL (П str (L)) —

предполагаемая оценка паттерна скрытой периодичности для анализируемой строки str. Если такая оценка верна, то строка str статистически неотличима от профильной строки TdmL. В этом случае строка str может рассматриваться как реализация строки TdmL.

Для проверки статистической неотличимости строк str и TdmL используется спектр DL отклонения от L-профильности в строке str. Спектр Dl на тест-периоде Я строки str принимает значение:

Пп str (А),П TdmL (А n)

Dj (А) =-2-L-, (3)

L zL ((K - 1)А,а)

r\

где статистика у введена в (1) и хсгц (N ,а) — левостороннее критическое значение ^"распределения на уровне значимости а = 0,05. Когда L = 1, спектр D1 называется спектром отклонения от однородности в строке str. На тест-периоде Я строки str спектр D1 принимает значение:

D ,(А) = V( П Г(Я)-П Tdm 1(А),") , (4)

Хы, ((K - 1)А,а)

где Tdm 1= Tdm 1( П str (1), n).

Гипотеза о статистической неотличимости строк str и TdmL= = TdmL (П str (L), n) принимается, если выполняется условие NL/ Lmax < n

< 0,05, где Lmax - и NL — количество тест-периодов, на которых

значения спектра DL < 1. Например, как видно из рис. 3, для кодирующего района мРНК Apo A-IV курицы Gallus gallus эта гипотеза принимается, если L = 33, и отвергается, если L = 3.

Подтверждение оценки паттерна периодичности. Для проверки

корректности оценки StrL (П str (L)) паттерна скрытой профильности

Рис. 3. Спектры отклонения от предполагаемой скрытой профильности (см. (3)): a — 33-профильности и б — 3-профильности — для кодирующего района мРНК Apo A-IV курицы G. gallus (GenBank Y16534, 37-1137 нукл.)

в анализируемой текстовой строке строится реконструкция спектра В1 (см. (4)) отклонения от однородности в строке ^г. Из всех спектров отклонения от профильности (см. (3)) спектр В1 наиболее информативен.

Реконструкция реализуется на основе паттерна (П(Ь)), индуцирующего периодичную профильную строку. Поэтому, по аналогии с формулой (4), в качестве теоретической реконструкции спектра В1 выбирается спектр ТЬь, который на тест-периоде Я строки ^г принимает значение

Thr(X) = ■

v(ПTdm, ПTdm, И)

(5)

хсги((К - 1)Я,о)

Если спектр ТЬь повторяет спектр В1 (рис. 4, а, б), то оценка пат терна (П^ (Ь)) скрытой Ь-профильной периодичности (Ь-про фильности) в анализируемой текстовой строке ^г признается коррект

Di

15 10 -5 -

0

~~I I I I I I I Г"

33

Th

66 X

'33 15

10

АШАШалДА /

III llll lll 1111 I I I I I

33

66 х

St

33 15

10

Th

3 15

10

I I I I I I I I I I I I I I I I I I

33

66

АААААААааа/

I I I i I I I г I I I I I I Г I Г I I I I Г г

0 33

Рис. 4. Подтверждение оценки паттерна скрытой профильной периодичности в 33 нукл. (33-профильности) для кодирующего района мРНК аполипопротеина Аро А-1У курицы О. gallus (СепБапк У16534, 37-1137 нукл.) (подробности см. в тексте): а — спектр отклонения от однородности (см. (4)); б — теоретическая (см. (5)) и в — статистическая (см. (6)) реконструкции спектра отклонения от однородности в предположении скрытой 33-профильности района; г — теоретическая реконструкция спектра отклонения от однородности в предположении скрытой 3-профильности района

ной. Тем самым подтверждается существование в строке ^г скрытой Х-профильной периодичности (Х-профильности).

Вместо спектра теоретической реконструкции (см. (5)) можно использовать статистическую реконструкцию спектра (см. рис. 4, а, б). В этом случае, используя датчик случайных чисел, с помощью главной Х-профильной матрицы П (Х) строки Тйш1 создается текстовая строка ^г*, являющаяся реализацией строки Тйшг Тогда, по аналогии с формулой (4), значение спектра 8^ на тест-периоде Я вычисляется по формуле

Х(Х) =-5-1-, (6)

Х2СГ«((К - 1)А,а)

где Тйш*1 = Тйшх( П ^г*(1), п). Статистическая реконструкция используется в том случае, когда регулярные минимумы спектра существенно отклоняются от нуля.

Результаты и обсуждение. В настоящей работе были предложены методы распознавания скрытой периодичности в текстовых строках

Н

950 700 450 200 -50

щ

I I I I I I I I I I I II I I IIII I I Г1 I I I

0 21 42 63 84 X a

0,00 0,11 0,23 0,34 0,45 Частота в

Рис. 5. Спектры 2С-подхода (см. (2), (3)) и Фурье-спектр кодирующей последовательности ДНК для белка 285A из группы «цинковых пальцев» (KEGG, hsa:26974, zinc finger protein 285A, 1773 нукл.):

a — характеристический спектр (см. (2)); б — спектр отклонения от 84-профильности (см. (3)); в — Фурье-спектр; г — спектр отклонения от 3-профильности (см. (3))

(последовательностях ДНК), названной скрытой профильной периодичностью или профильностью. Специфика профильной периодичности в том, что ее паттерн периодичности является случайным. Профильная матрица паттерна определяет статистическую периодичность появления букв в текстовой строке. В результате в анализируемой строке проявляется скрытая профильная периодичность.

Далее рассмотрим ряд примеров по распознаванию скрытой про-фильности в последовательностях ДНК.

Профильно-статистическая основа структурных доменов в семействах белков. Применение методов, предложенных в настоящей работе, позволило выявить наличие скрытой профильности в ЗЗ нукл. (ЗЗ-профильности) в кодирующих районах генов семейства аполипо-протеинов PFQ1442 из базы белковых семейств Pfam (database of Protein families, http://pfam.sanger.ac.uk/). Это семейство содержит аполиропро-теины Apo A, Apo C и Apo E, являющиеся членами мультигенного семейства, которое, вероятно, эволюционировало от общего предкового гена. Аполипопротеины осуществляют транспорт липидов, являются кофакторами ферментов и лигандами клеточных рецепторов. Семейство содержит более 8QQ последовательностей белков из 1QQ различных видов. Продемонстрируем процедуру распознавания скрытой профильности на примере этого семейства.

На рис. 2, а — в показаны характеристические спектры кодирующих районов генов аполипопротеинов Apo E мыши Mus musculus, Apo A-I морского леща Sparus aurata и Apo A-IV курицы Gallus gallus. В этих спектрах первый ярко выраженный максимум достигается на тест-периоде в ЗЗ нукл. Поэтому предлагается оценка размера паттерна в ЗЗ нукл. Максимальные значения спектров отклонения от ЗЗ-профильности (см. (З)) не превышают единицы (D33 < 1) для Apo A-IV курицы (см. рис. З, a). В результате для рассматриваемых кодирующих районов можно предложить оценки паттернов скрытой ЗЗ-профильной периодичности. Эти оценки определяются выборочной ЗЗ-профильной матрицей соответствующего анализируемого района. Корректность каждой оценки паттерна подтверждается сходством спектра отклонения от однородности с его теоретической (или статистической) реконструкцией в анализируемом кодирующем районе. На рис. 4 показан пример подтверждения оценки паттерна скрытой ЗЗ-профильности для кодирующего района Apo A-IV курицы. Сравнение рис. 4, a и 4, г опровергает наличие в этом районе скрытой З-про-фильности, хотя в Фурье-спектре (см. рис. 2, г) доминирует пик на частоте Q^, соответствующей тест-периоду в З нукл.

Известная вторичная структура аполипопротеинов семейства PFQ1442 содержит несколько пар a-спиралей, состоящих из 11 и 22 аминокислотных остатков. Такая структура коррелирует с профильной

периодичностью генов аполипопротеинов в 33 нукл. Характерный размер паттерна скрытой профильной периодичности в генах семейства РР01442, возможно, влияет на формирование типичной вторичной структуры белков семейства и согласуется с гипотезой о происхождении семейства от общего древнего гена.

Проявление различных уровней организации кодирования генетической информации. В характеристических спектрах кодирующих районов наблюдается регулярность пиков в 3 нукл. (см. рис. 2, а — в, 5, а и 6, а). Так проявляется первый уровень организации кодирования, обусловленный генетическим триплетным кодом. Часто в спектрах Фурье этому уровню соответствует доминирующий пик на частоте 0,33 (см. рис. 2, г и 6, в). При наличии 3-регулярности скрытая про-фильность, отличная от 3-профильности, выявляет второй уровень организации кодирования. На этот уровень организации указывает ярко выраженный максимум характеристического спектра (см. рис. 2, а — в и 5, а). Как правило, его нельзя выделить с помощью спектра Фурье, в котором даже нет доминирующего пика на частоте 0,33 (см. рис. 5, в). На тест-периоде, соответствующем максимуму характеристического

Н 200

150 -100 -50 -0 -50

D,

1111111111111111111111111111111 0 30 60

90 X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,5 -

М I I I I I I I I I I I I I I I I I I I I I I I I I I I I I

30 60

90 X

Д ñ

й 5 0,02

§ о

5 о

s 5 o,oi

С С

и

о

Ml

0,00 ОД 0 0,21 0,31 0,42 Частота

в

Рис. 6. Спектры 2С-подхода (см. (2), (3)) и Фурье-спектр кодирующей последовательности ДНК белка — принимающего сигнал рецептора (KEGG, hsa:6734, signal recognition particle receptor (docking protein), 1917 нукл.);

a — характеристический спектр (см. (2)); б — спектр отклонения от 3-профильности (см. (3)); в — Фурье-спектр

спектра, проверяется наличие скрытой профильной периодичности. Наличие скрытой профильности в 84 нукл. (см. рис. 5, а, б) в кодирующей последовательности ДНК соответствует в белке повторяющемуся домену «цинкового пальца», содержащему одну a-спираль и две антипараллельные ^-структуры. Как правило, «цинковый палец» включает около 20 аминокислот и стабилизируется одним или двумя ионами цинка. Основной группой белков с «цинковыми пальцами» являются ДНК-связывающие факторы транскрипции.

На рис. 6, а показан характеристический спектр кодирующей последовательности ДНК для белка-рецептора, связывающего передающие сигнал частицы. На фоне очевидной 3-регулярности пиков этого спектра невозможно выделить несомненно доминирующий пик. Однако, как видно из спектра на рис. 6, б, в анализируемой кодирующей последовательности белка нельзя признать и существование скрытой 3-про-фильности. Следовательно, характеристический спектр (см. рис. 6, а) последовательности отражает лишь ее неоднородность вследствие трип-летного кодирования аминокислот. Именно неоднородностью этой кодирующей последовательности в 3 нукл. обусловлен доминирующий пик на частоте 0,33 в спектре Фурье на рис. 6, в.

С помощью предложенных методов 2С-подхода было проанализировано наличие 3-регулярной и скрытой профильной структур в 18140 кодирующих последовательностях ДНК человека из базы данных KEGG (Kyoto Encyclopedia of Genes and Genomes, http://www.genome.jp/ kegg/), получивших экспериментальное подтверждение. С учетом погрешности статистических методов кодирующие последовательности являются неоднородными и 3-регулярными. Кроме того, в 74% кодирующих последовательностей ДНК наблюдается скрытая профильная периодичность. Второй уровень кодирования (отличный от 3-профиль-ности) проявляется в 11% проанализированных кодирующих последовательностей.

В предложенных методах не учитывались повреждения последовательности ДНК вставками и делециями. Возможно, этим объясняется отсутствие профильного уровня организации в 3-регулярных последовательностях, составляющих 21% от исходных кодирующих последовательностей ДНК.

Аналогичный анализ был выполнен и для интронов. Многие гены человека имеют «мозаичную» структуру, в которой кодирующая последовательность ДНК прерывается некодирующими фрагментами — интронами. Длина отдельных интронов может составлять десятки тысяч нуклеотидов. Чтобы информация о белке могла быть прочитана на рибосоме, специальные генетические механизмы удаляют такие фрагменты из последовательности гена.

Рассматривались 277477 последовательностей интронов (некоди-рующих фрагментов генов) человека из базы данных EID (The Exon-Intron Database, http://utoledo.edu/med/depts/bioinfo/database) [20]. Неоднородность была выявлена для 24 % всех интронов. Доля 3-регулярных последовательностей среди них составила 3 % от исходного числа интронов. То есть в рамках погрешности статистических методов можно считать, что для интронов характерно отсутствие 3-регулярности. Скрытая профильность в неоднородных, но не 3-регулярных, интро-нах была выявлена для 13 % исходного числа всех интронов. Если в кодирующих последовательностях ДНК скрытая профильная периодичность часто служит генетической основой для формирования структурных доменов соответствующих белков, то вопрос о том, какую роль может играть скрытая профильность в интронах, требует будущих исследований. Одной из причин выявления профильности в интронах могут являться размытые тандемные повторы [3].

Заключение. В работе предложены методы распознавания скрытой профильной периодичности в текстовых строках. Эффективность методов продемонстрирована на примере анализа последовательностей ДНК. В некоторых случаях осуществляется двухуровневое кодирование. Размер алфавита исходной текстовой строки достаточно мал (менее 5 букв). Все строки фиксированной длины этого алфавита являются кодонами новой транслируемой строки. В результате алфавит транслируемых строк имеет достаточно большой размер (более 20 букв). Поэтому статистический анализ структуры транслируемых строк затруднен вследствие недостатка статистического материала. Тем не менее такая структура может быть индуцирована соответствующей структурой в исходной кодирующей строке, где для распознавания структуры статистического материала достаточно. Следовательно, при таком кодировании возникает два уровня его организации. Первый уровень обусловлен размером кодонов. Второй уровень соответствует более высокой структурной организации исходной кодирующей строки. Именно такой способ кодирования реализуется для последовательностей ДНК.

В кодирующих районах ДНК скрытая профильность позволяет различать два уровня организации кодирования генетической информации. Первый уровень (уровень триплетного кодирования), выявляемый также методами Фурье-анализа, отражает феномен регулярной неоднородности в кодирующих районах ДНК. Второй уровень организации кодирования обусловлен скрытой профильной периодичностью последовательности ДНК.

С помощью предложенных методов спектрально-статистического подхода к распознаванию скрытой профильной периодичности (про-фильности) в последовательностях ДНК был проведен сравнитель-

ный анализ структурных свойств кодирующих последовательностей ДНК и интронов человека. Показано, что фундаментальным свойством кодирующих последовательностей ДНК является 3-регулярность, обусловленная неоднородностью последовательности на длине в 3 нукл. вследствие триплетного кодирования аминокислот. Строго говоря, феномен 3-регулярности не гарантирует наличия скрытой периодичности в кодирующей последовательности ДНК, на что ранее не обращали внимания. Такая 3-регулярность сама по себе или совместно с возникающей на ее основе скрытой 3-профильной периодичностью (3-профильностью) составляет первый уровень в организации кодирования генетической информации. Второй уровень в организации кодирования представляет скрытая профильная периодичность, отличная от 3-профильности. Этот уровень может коррелировать с особенностями структуры кодируемых белков. Существующие на сегодняшний день статистические методы анализа последовательностей ДНК не выделяют уровни организации кодирования в последовательностях ДНК.

СПИСОК ЛИТЕРАТУРЫ

1. L o b z i n V V., C h e c h e t k i n V. R. 2000 Order and correlations in genomic DNA sequences. The spectral approach, Physics - Uspekhi, 43 (1), 55-78.

2. L i W. 1997, The study of correlation structures of DNA sequences: a critical review, Computers Chem., 21, 257-271.

3. B e n s o n G. 1999, Tandem repeats finder: a program to analyze DNA sequences, Nucl. Acids Res., 27, 573-580.

4. M e t z g a r D., B y t o f J., W i l l s C. 2000 Selection against frameshift mutations limits microsatellite expansion in coding DNA, Genome Res., 10, 72-80.

5. B o r s t n i k B., P u m p e r n i k D. 2002 Tandem repeats in protein coding regions of primate genes, Genome Res., 12, 909-915.

6. T s o n i s A. A., E l s n e r J. B., T s o n i s P. A. 1991 Periodicity in DNA coding sequences: Implications in gene evolutions, J. Theor. Biol., 151, 323-331.

7. G u t i e r r e z G., O l i v e r J., M a r i n A. 1994 On the origin of the periodicity of three in protein coding DNA sequences, J. Theor. Biol., 167, 413-414.

8. F i c k e t t J. W., T u n g C.-S. 1992 Assessment of protein coding measures, Nucleic Acid Res., 20, 6441-6450.

9. S i l v e r m a n B. D., L i n s k e r R. 1986 A measure of DNA periodicity, J. Theor. Biol., 118, 295-300.

10. T i w a r i S., R a m a c h a n d r a n S., B h a t t a c h a r y a A., B h a t t a c h a r y a S., R a m a s w a m y R. 1997 Prediction of probable genes by Fourier analysis of genomic sequences. Comput. Appl. Biosci., 13, 263-270.

11. I s s a c B., S i n g h H., K a u r H., R a g h a v a G. P. S. 2002 Locating probable genes using Fourier transform approach, Bioinformatics, 18, 196-197.

12. C h a l e y M. B., K u t y r k i n V A. 2008, Model of perfect tandem repeat with random pattern and empirical homogeneity testing poly-criteria for latent periodicity revelation in biological sequences, Math. Biosci., 211, 186-204.

13. K o r o t k o v E. V, K o r o t k o v a M. A., K u d r y a s h o v N. A. 2003 Information decomposition method to analyze symbolical sequences, Phys. Lett. A, 312, 198-210.

14. G a t h e r e r D., Mc E w a n N. R. 2003 Analysis of sequence periodicity in E. coli proteins: empirical investigation of the "duplication and divergence'' theory of protein evolution, J. Mol. Evol, 57, 149-158.

15. C h a l e y M. B., K u t y r k i n V. A. 2010 Structure of proteins and latent periodicity in their genes, Moscow Univ. Biol. Sci. Bull., 65 (4), 133-135.

16. K o l p a k o v R., K u c h e r o v G. 2003 mreps: efficient and flexible detection of tandem repeats in DNA, Nucleic Acids Res., 31, 3672-3678.

17. P a r i s i V., F o n z o V D., A l u f f i-P e n t i n i F. 2003 STRING: finding tandem repeats in DNA sequences, Bioinformatics, 19, 1733-1738.

18. M u d u n u r i S. B., N a g a r a j a r a m H. A. 2007 IMEx: Imperfect microsatellite extractor, Bioinformatics, 23, 1181-1187.

19. S h a r m a D., I s s a c B., R a g h a v a G. P. S., R a m a s w a m y R. 2004 Spectral Repeat Finder (SRF): identification of repetitive sequences using Fourier transformation, Bioinformatics, 20, 1404-1412.

20. S h e p e l e v V., F e d o r o v A. (2006) Advances in the Exon-Intron Database, Brief. Bioinform, 7(2), 178-185.

Статья поступила в редакцию 27.10.2011.

Кутыркин Владимир Андреевич родился в 1952 г. Окончил механико-математический факультет (отделение математики) Московского государственного университета им. М.В. Ломоносова в 1974 г. Канд. физ-мат. наук, доцент кафедры «Выгаислитель-ная математика и математическая физика» МГТУ им. Н.Э. Баумана. Научные интересы: прикладная математическая статистика, вычислительная и дискретная математика, биоинформатика. Автор более 50 публикаций.

Чалей Мария Борисовна родилась в 1963 г. Окончила Московский физико-технический институт в 1988 г. Канд. наук, старший научный сотрудник Института математических проблем биологии РАН. Научные интересы: биоинформатика, анализ генетических текстов, молекулярная эволюция. Автор более 50 публикаций.

i Надоели баннеры? Вы всегда можете отключить рекламу.