Научная статья на тему 'Стохастические модели кодирования и распознавание структурно-статистических характеристик кодирующих последовательностей'

Стохастические модели кодирования и распознавание структурно-статистических характеристик кодирующих последовательностей Текст научной статьи по специальности «Математика»

CC BY
213
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОФИЛЬ СЛУЧАЙНОЙ СТРОКИ / ПРОФИЛЬНАЯ ПЕРИОДИЧНОСТЬ / ПАТТЕРН ПРОФИЛЬНОЙ ПЕРИОДИЧНОСТИ / СТОХАСТИЧЕСКИЙ КОДОН / МУЛЬТИПОЛИНОМИАЛЬНАЯ МОДЕЛЬ

Аннотация научной статьи по математике, автор научной работы — Кутыркин В.А., Чалей М.Б.

Предложены стохастические модели, объясняющие реальные характерные зако-номерности кодирующих районов из геномов различных организмов. Вследствие нарастающего объема данных по секвенированным геномам возникает проблема их автоматизированного анализа. С использованием этих моделей разработаны методы распознавания структурно-статистических свойств геномных последо-вательностей ДНК, которые могут быть использованы для разработки алгорит-мов и компьютерных программ для автоматизированной обработки большого объема данных. Свойства предложенных стохастических моделей кодирования продемонстрированы в численных экспериментах с бинарно перекодированными абзацами литературных произведений на английском и итальянском языках.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Стохастические модели кодирования и распознавание структурно-статистических характеристик кодирующих последовательностей»

УДК 519.25

БОТ 10.18698/2309-3684-2017-3-119138

Стохастические модели кодирования и распознавание структурно-статистических характеристик кодирующих последовательностей

© В.А. Кутыркин1, М Б. Чалей2

1МГТУ им. Н.Э. Баумана, Москва, 105005, Россия 2ИМПБ РАН — филиал ИПМ им. М.В. Келдыша РАН, г. Пущино, Московская обл., 142290, Россия

Предложены стохастические модели, объясняющие реальные характерные закономерности кодирующих районов из геномов различных организмов. Вследствие нарастающего объема данных по секвенированным геномам возникает проблема их автоматизированного анализа. С использованием этих моделей разработаны методы распознавания структурно-статистических свойств геномных последовательностей ДНК, которые могут быть использованы для разработки алгоритмов и компьютерных программ для автоматизированной обработки большого объема данных. Свойства предложенных стохастических моделей кодирования продемонстрированы в численных экспериментах с бинарно перекодированными абзацами литературных произведений на английском и итальянском языках.

Ключевые слова: профиль случайной строки, профильная периодичность, паттерн профильной периодичности, стохастический кодон, мультиполиномиальная модель

Введение. Исследование структурно-статистических свойств и способов кодирования в геномах различных организмов — актуальная и комплексная проблема анализа быстро нарастающих данных о сек-венированных последовательностях геномов. Для разных аспектов этой проблемы постоянно требуется разрабатывать новые алгоритмы и создавать на их основе программы, обеспечивающие автоматизированную обработку большого объема данных. Такие комплексные проблемы характерны и для других областей науки [1, 2].

Настоящее исследование направлено на разработку стохастических моделей кодирования, объясняющих основные статистические закономерности, характерные для кодирующих текстов с некоторым смысловым содержанием. При этом предполагается, что при создании этих текстов используются кодоны одного размера в фиксированном текстовом алфавите, полученные с помощью равномерного кода. На основе таких стохастических моделей в настоящей статье предложены статистические методы и алгоритмы для распознавания в кодирующих последовательностях структурно-статистических свойств, информацию о которых можно получать при автоматизированной обработке большого объема данных.

Ранее [3-5] в численных экспериментах были выявлены характерные структурно-статистические свойства кодирующих районов

нуклеотидных последовательностей ДНК из геномов 10 разных организмов (в том числе из генома человека) и бинарно перекодированных абзацев литературных произведений на английском и итальянском языках.

Согласно генетическому коду, кодирующие районы последовательностей ДНК впоследствии транслируются с помощью равномерного кода в белковые последовательности, состоящие из аминокислотных остатков. При такой трансляции каждая аминокислота представлена в кодирующей последовательности ДНК кодоном из трех нуклеотидов. Для кодирования белковых последовательностей используется равномерный код (генетический код) с кодонами размера три в алфавите ДНК <а, I, g, с> из четырех нуклеотидов.

В численных экспериментах с литературными текстами для кодирования букв латинского алфавита и синтаксических знаков абзацев текстов использовались кодоны размера пять в бинарном алфавите <0, 1>.

В результате анализа численных экспериментов с кодирующими районами последовательностей ДНК в этих районах были выявлены характерные структурно-статистические свойства, которые не наблюдаются в некодирующих районах (интронах) последовательностей ДНК [3]. В подавляющем большинстве кодирующих районов распознавался недавно введенный тип скрытой периодичности, названный скрытой профильной периодичностью (скрытой профильностью) [6-8]. При этом размер ее периода был равен или кратен трем, что соответствует длине кодона размера три в генетическом коде. Кроме того, практически во всех кодирующих районах было обнаружено так называемое свойство 3-регулярности [3, 4, 8].

В численных экспериментах с бинарно перекодированными абзацами литературных текстов были выявлены аналогичные результатам анализа кодирующих районов последовательностей ДНК статистические закономерности [3-5]. Единственное отличие состояло в том, что при перекодировании с помощью бинарных кодонов размера пять в кодирующих текстах наблюдалась скрытая профильность с размером периода, равным или кратным пяти. Соответственно свойство 3-регулярности сменилось на свойство 5-регулярности.

Для распознавания скрытой профильной периодичности и регулярности в последовательностях ДНК в работах [7-9] были предложены статистические методы и критерии. Опора на такие методы обусловлена тем, что для описания профильной периодичности использовалась стохастическая модель в виде профильной строки, состоящей из независимых случайных букв со значениями в буквах фиксированного текстового алфавита. Ранее [10-12] для описания скрытой периодичности в последовательностях ДНК использовалась модель совершенного текстового тандемного повтора, состоящего из

последовательно повторяющейся текстовой строки. На ее основе было введено понятие скрытой периодичности в виде размытого тан-демного повтора, где возможны небольшие искажения (~20 %) по сравнению с совершенным тандемным повтором. Однако оказалось, что размытые тандемные повторы занимают достаточно небольшую часть (~10 %) в кодирующих районах последовательностей ДНК. Косвенные методы [13-15] определения размера периода скрытой периодичности (анализ Фурье и т. п.), не опирающиеся на какую-либо модель для описания скрытой периодичности, как показано в работе [7], могут приводить к недостоверным оценкам.

Однако предложенная ранее [6, 16] модель периодической профильной строки, состоящей из независимых случайных букв, вряд ли отражает реальную статистическую структуру кодирующих районов ДНК. Более полное отражение наличия скрытой профильной периодичности в последовательности ДНК требует объяснения с помощью других моделей, которые предложены в настоящей работе. Методы и основанные на них алгоритмы распознавания скрытой профильной периодичности опираются на эти стохастические модели. При таком подходе анализируемая текстовая строка рассматривается как реализация соответствующей случайной строки (стохастической модели) в алфавите исследуемых текстовых строк. Информация об этой стохастической модели представляется в виде соответствующей профильной строки, состоящей из независимых случайных букв. При этом происходит свертка информации о стохастической модели в виде профильной строки, называемой профилем стохастической модели (исходной случайной строки), сохраняющим изучаемые структурно-статистические характеристики исходной случайной строки, с которой получен этот профиль. Эти характеристики имеют вид функциональных зависимостей, аргументами которых являются тест-периоды профиля. Под тест-периодом профильной строки понимают длину подстрок, на которые последовательно разбивается анализируемая строка.

В настоящей статье правомерность предлагаемых стохастических моделей кодирования демонстрируется в численных экспериментах с бинарно перекодированными абзацами литературных текстов.

Модели профильной периодичности в случайных строках. Предлагается стохастическая модель профильной периодичности в случайных строках, частный случай которой позволил ранее [6, 16] ввести новое понятие скрытой периодичности в последовательностях ДНК (текстовых строках), названной скрытой профильной периодичностью (скрытой профильностью). После этого среди случайных строк в заданном текстовом алфавите выделяются более общие случайные строки (стохастические модели), обладающие профильной периодичностью. В настоящей работе для реализаций таких случай-

ных строк введено понятие скрытой профильной периодичности и предложены алгоритмы для ее распознавания в текстовых строках (последовательностях ДНК).

Опишем структуру случайных строк, обладающих профильной периодичностью.

Случайная строка STR(n, A, p) определяется своей длиной n, текстовым алфавитом A = {al, о^, ..., aK) и дискретным вероятностным распределением p на совокупности Wn (A) текстовых строк длиной n в алфавите A. Следовательно, если w eWn (A), то p(w) — вероятность реализации строки w для случайной строки STR(n, A, p). В частности, если n = 1, то случайная строка STR(1, A, p) называется случайной буквой в алфавите A и для ее обозначения используется Chr(A, p). Случайная буква Chr(A, p) характеризуется вероятност-

12 KT

ным распределением p в виде столбца p = (p , p , ..., p ) , где p(a;-) = pl — вероятность реализации буквы ai е A для i = 1, K.

Текстовую букву ai е A можно отождествлять со случайной буквой Chr(A, p), где p = (1, 0, ..., 0) . Аналогичные отождествления возможны и для остальных букв алфавита A. Тогда случайная буква, служащая аналогом текстовой буквы, называется сосредоточенной случайной буквой.

Если алфавит A зафиксирован в контексте, для случайной строки STR(n, A, p) и случайной буквы Chr (A, p) используются более краткие обозначения STR(n, p) и Chr(p) соответственно.

Пусть для каждого j е 1, m определена случайная строка (подстрока) STR(nj, A, pj). Тогда выражение STR(n1, A, p1) x x STR(n2, A, p2)...STR(nm, A, pm) = STR обозначает специальную

случайную строку из перечисленных в указанном порядке независимых случайных подстрок. Другими словами, такую специальную случайную строку STR можно рассматривать как схему из m независимых испытаний, где в j-м испытании осуществляется реализация случайной подстроки STR(nj, A, pj). Если все указанные подстроки

являются подстроками единичной длины, т. е. случайными буквами, то такая случайная строка STR называется профильной строкой.

Для обозначения профильных строк в отличие от общих случайных используем выражение Str.

Текстовую строку можно отождествлять с профильной строкой, где случайные сосредоточенные буквы отождествлены с соответствующими буквами этой текстовой строки.

Случайной строке 5ТК(п, р) ставится в соответствие единственная профильная строка. Пусть а1 — /-я буква алфавита А, г = 1, п, Жп (А, /, г) е Жп (А) — подмножество строк длины п, в которых г -ю позицию занимает буква а1. Тогда ргг = Р{н е Жп (А, /, г)} — вероятность того, что в реализации н еЖп (А) случайной строки 8ТЯ(п, р) в г -й позиции находится буква а1 е А. Это позволяет определить

1 2 К Т

случайную букву СИг(рг), где рг = (рг, рг, ..., рг ) , и профильную строку = СИг(р1)СИг(р2)...СИг(рп), называемую профилем случайной строки 8ТЯ(п, р). Для обозначения такой профильной строки

/ К

используется выражение &гп (к), где К = (р1, ..., рп) = (Ку )п — матрица из п указанных столбцов вероятностей случайных букв строки = (л). Матрицу л = (р1, ..., р п) назовем профильной матрицей строки 5ТК(п, р).

Профильная строка = &гп (л) называется паттерном профильной периодичности, если ее нельзя представить в виде

= ... ,

4-V-''

д-йтея

*

где д > 1, — некоторая другая профильная строка.

В свою очередь, понятие паттерна профильной периодичности позволяет выделить случайные строки, обладающие профильной периодичностью.

Случайная строка 5ТК(п, р) называется Ь -профильной строкой, если ее профиль = &гп (л) имеет вид

&г = (щ^ь (Ю)... (щ№гк (К1). Здесь профильная строка $>1гЬ (л0) — паттерн; к < Ь, &гк (л1) — подстрока строки &гЬ (л0) (пустая строка, если к = 0). В этом случае профильная строка = &гп (л) называется (стохастическим) профильным тандемным повтором. Для ее обозначения используется выражение = ТйтЬ (л0, п). Кроме того, профильная строка

$>1гЬ (л0) называется паттерном профильной периодичности строк £ТК(п, р) и = &гп (л), матрица л0 — матрицей паттерна профильной периодичности строк 5ТК(п, р) и ТётЬ (л0, п) = 81гп(л).

Если профиль случайной строки является 1-профильной строкой, то такую случайную строку и ее профиль будем называть профильно-

однородными строками. Таким образом, случайная строка обладает профильной периодичностью, если ее профиль является периодической случайной строкой, индуцированной соответствующим паттерном профильной периодичности.

Основные структурно-статистические свойства случайной строки и ее реализаций индуцируются ее профильно-матричным спектром, который определяется далее.

Профильно-матричные спектры случайных и текстовых строк. Основу методов распознавания скрытой профильной периодичности в текстовых строках составляют профильно-матричные спектры случайных и текстовых строк, которые однозначно вычисляются для анализируемой случайной или текстовой строки. В следующем разделе на основе профильно-матричных спектров будут введены другие спектры, анализ которых позволяет создать достоверные статистические методы и критерии для распознавания скрытой профильной периодичности в текстовых строках.

Введем профильно-матричные спектры случайных и текстовых строк. Для случайной строки STR(n, p) в алфавите A = {a1, a2,..., aK)

создается ее профиль в виде профильной строки Str = Strn (л). Профильно-матричный спектр случайной строки STR(n, p) совпадает с профильно-матричным спектром ПSr ее профиля Str, который создается следующим образом. Для каждого тест-периода X профиль Str случайной строки STR(n, p) последовательно разбивается на подстроки длиной X (последняя подстрока может быть неполной). Для наглядности предположим, что профиль Str последовательно разбит на m = n / X подстрок. Каждая из таких m подстрок характеризуется своей профильной матрицей размера K xX . Таким образом, для тест-периода X формируется список из m профильных матриц (л1, л2, ..., лm), который определяет матрицу

1 m

nstr (X)=- ^. mi=1

Матрицы с диапазоном тест-периодов от 1 до Lmax ~ n / 5K образуют профильно-матричный спектр nStr случайной строки STR(n, p) и ее профиля Str. Если длина n нацело не делится на тест-период X , то при определении матрицы П^ (X) вносятся соответствующие поправки.

Пусть случайная строка имеет периодический профиль TdmL (л0, n), тогда ее профильно-матричный спектр однозначно индуцируется профильной матрицей л0 паттерна StrL (л0) этого про-

филя. Следовательно, матрица я0 служит оценкой паттерна профильной периодичности рассматриваемой случайной строки и содержит информацию об основных статистических зависимостях в реализациях рассматриваемой случайной строки.

Для анализируемой текстовой строки ¿¿т длиной п в том же алфавите А выборочный профильно-матричный спектр Псовпадает с профильно-матричным спектром профильной строки Шт, полученной при отождествлении букв текстовой строки ¿¿т с соответствующими случайными сосредоточенными буквами. Для текстовой строки предполагается, что спектр П&тг определен в диапазоне

(1, 2, ..., Ьшах ~ п/5К) тест-периодов текстовой строки ¿-¿т.

Алгоритмы распознавания скрытой профильной периодичности в реализациях случайных строк. В предлагаемом подходе проверяется гипотеза о том, что текстовая строка является реализацией соответствующей случайной строки, обладающей профильной периодичностью. С помощью разработанных статистических методов и критериев распознается наличие скрытой профильной периодичности в анализируемой текстовой строке. Кроме того, дается оценка размера паттерна профильной периодичности и его вида для соответствующей случайной строки.

Если рассматривать случайную строку, обладающую профильной периодичностью с достаточно большим количеством повторов периода, то для ее реализаций и реализаций ее профиля результаты используемого подхода будут статистически неразличимы. Таким образом, фактически предлагаемый подход применяется к профилю случайной строки. Данный подход основан на количественной обработке и анализе статистических спектров, вычисляемых по заданной анализируемой строке и имеющих вид функциональных зависимостей, аргументы которых принадлежат фиксированному диапазону тест-периодов этой строки. Такие функциональные зависимости называются статистическими спектрами, поскольку их значения являются статистиками. По этой причине в предлагаемом спектрально-статистическом подходе для распознавания скрытой профильной периодичности используются статистические методы и критерии.

Определим соответствующие спектры, необходимые для распознавания скрытой профильной периодичности (профильности) в анализируемой строке. Для профиля случайной строки ШТЯ(п, р) в алфавите А = <а1, а2, ..., аК) введем спектр сравнения с профильно-однородной (1-профильной) строкой ШТ = СИт(р)СИт(р)... СИт(р), где

4-V-'

п-Ише5

1 К Т

р = (р , ..., р ) = Цйг(1). Для тест-периода X из диапазона от 1 до Апах ~ п /5К профильные матрицы Ц*(X) = я* = (к* )£ =

= (Р, р, ...,р), Ц^.(X) = (к))К и Ц^(1) = р = (р1, ..., рК)Т

опре-

Х-йотет

деляют значение ^1(Х) спектра ^ строки в виде статистики Пирсона

У1(Х) = Х

Х)=1»=1

X К

(к ) -к* )2

Х)=1»=1

X К

К 2

к

*1

(к ) - р1)

(1)

Для спектра А-профильной строки справедливо следующее утверждение [3, 4]: спектр профильной строки , обладающей профильной периодичностью с длиной периода А, периодичен с тем же периодом А и, кроме того, максимальное значение этого спектра достигается только на тест-периоде А и его обертонах.

Для профиля случайной строки 5ТК(п, р) спектр (см. формулу (1)) будет называться спектром первого порядка этих строк. На рис. 1, а показан спектр ^ профильно-однородной строки

Тёт1(р, п), где п = 1002, и на рис. 1, б представлена ее матрица паттерна 1-профильной периодичности (1-профильности). Для периодических профильных строк примеры аналогичных спектров первого порядка и их паттернов профильной периодичности показаны на рис. 2.

1

а 0.27

< 0.19

ё 0.32

с 0.22

45 X

Рис. 1. Спектр первого порядка профильно-однородной строки (а) и матрица паттерна профильной периодичности этой строки (б)

1 К Т

Пусть р = (р , ..., р ) = Цг(1) — столбец частот встречаемости букв алфавита А в текстовой строке ^г длиной п и X — ее тест-

период из диапазона 1..Хшах. Тогда по аналогии с формулой (1) для текстовой строки введем выборочный спектр первого порядка сравнения с однородной профильной строкой

= СИг (р)СИг (р)... СИг (р).

4-V-'

п-Нше.?

В этом случае в формуле (1) для тест-периода X запишем матрицу к = (К )К = Пг (X).

0 12 24 36 4В а 60 72 84 X 0 9 18 27 б 36 45 X

1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а 1.0 1.0 1.0 а 0.38 0.32 0.24 0.14 0.16 0.28 0.30 0.39 0.20

1.0 1.0 1.0 Г 0.14 0.22 0.28 0.06 0.15 0.23 0.15 0.25 0.20

8 1.0 1.0 1.0 8 0.21 0.17 0.29 0.68 0.60 0.30 0.32 0.10 0.24

с 1.0 1.0 1.0 с 0.27 0.29 0.20 0.11 0.08 0.19 0.23 0.26 0.36

Рис. 2. Спектры первого порядка для совершенного текстового тандемного повтора (а) и для периодической 9-профильной строки (б), матрицы паттернов профильной периодичности совершенного текстового тандемного повтора (в) и 9-профильной строки (г)

На рис. 3, а приведен пример выборочного спектра первого порядка для реализации 9-профильной строки с паттерном профильной периодичности, показанным на рис. 2, г. Из сравнения графиков спектров первого порядка следует, что выборочный спектр первого порядка (рис. 3, а) отличается от спектра первого порядка 9-профиль-ной строки (см. рис. 2, б) на некоторую линейную функцию. Аналогично отличие на ту же самую линейную функцию наблюдается между выборочным спектром первого порядка (см. рис. 3, б) реализации профильно-однородной строки и ее спектром первого порядка (см. рис. 1, а).

Как показано в работах [1, 2], для алфавита А размера К такую линейную функцию можно аппроксимировать зависимостью

М (X) = (К - 1)(Х -1) = Е (х2( К-1)(х-1)), (2)

2 2 где Е(%N) — математическое ожидание % -распределения с N степенями свободы. Исходя из этого, вместо выборочного спектра первого порядка ^ текстовой строки в работах [1, 2] введен характеристический спектр С, который на тест-периоде X имеет вид

С(X) = VI (X) -М(X) = ^(Х) - Е(%2(Г_1)(,_!)) = ^(Х) - (К - 1)(Х-1). (3)

Характеристический спектр реализации 9-профильной строки показан на рис. 3, в, спектр первого порядка показан на рис. 2, б. Сравнение рис. 2, б и рис. 3, в демонстрирует наглядное сходство спектра первого порядка 9-профильной строки и характеристического спектра ее реализации. Такое сходство наблюдается для подавляющего числа реализаций периодических профильных строк.

VI, м

-100

Рис. 3. Графики линейной зависимости М и выборочного спектра первого порядка реализации 9-профильной строки (а) и графики линейной зависимости М и выборочного спектра первого порядка реализации профильно-однородной строки (б) и соответствующие им характеристические спектры (в), (г)

Такие свойства характеристического спектра анализируемой текстовой строки позволяют оценить длину периода скрытой профильной периодичности следующим образом [3, 4]. Минимальный тест-период, на котором достигается максимальное значение характерис-

тического спектра С (с учетом статистической погрешности) анализируемой текстовой строки, рассматривается в качестве оценки длины периода скрытой профильной периодичности. Например, в качестве реализации 9-профильной строки, спектр первого порядка которой показан на рис. 2, б, был рассмотрен кодирующий район для белка (фактора некроза опухоли) из генома человека (КБОО, Ьва:338872, 1002 Ьр) [17]. Согласно сформулированному правилу, из анализа характеристического спектра этой последовательности (см. рис. 3, в) тест-период 9 выбирается в качестве оценки длины периода скрытой профильной периодичности.

Опишем статистические критерии проверки корректности подобных оценок. Пусть Ь (Ь < Ьтах) — оценка длины периода скрытой

профильной периодичности, полученная из характеристического спектра анализируемой текстовой строки длиной п. В этом случае рассмотрим эту последовательность как реализацию Ь -профильной случайной строки, профиль которой имеет вид = ТёшЬ (Пз/г (Ь), п).

Для тест-периода X из диапазона тест-периодов 1...Ьтах~ п/ 5К профильные матрицы Пз,г (X) = (к )к и П^ (X) = я = (к j )х определяют значение уь (X) выборочного спектра уь строки в виде статистики Пирсона

п X к (к' -к)2

уь (X)и -^К^ (4)

х j=1 /=1 к >

Спектр уь позволяет сравнивать строку (анализируемую последовательность ДНК) с Ь-профильной строкой. Его также называют спектром Ь -го порядка строки . Для реализаций Ь -профильной строки Тёть(Ко,п) справедливо соотношение

у ь г1к-1)( х-l). (5)

В связи с этим для проверки существования в последовательности ДНК Ь-профильной периодичности, согласно статистике Пирсона (4), используется спектр Бь отклонения анализируемой текстовой строки от Ь-профильной периодичности (Ь-профильности). Учитывая соотношение (5), для каждого тест-периода X из диапазона тест-периодов 1...Ьтах ~п/5К (где п — длина строки з1г в алфавите А

размера К) значение БЬ (X) этого спектра полагаем равным

Бь(X) = уь(X)/xL ((К -1)^-1),а), а = 0.05, (6)

2 2 где %сШ а) — правое критическое значение % -распределения

с N степенями свободы (%м) на уровне значимости а = 0.05, т. е.

вероятность Р{%%^ > %2Ы1 (N, а)} = а.

Алгоритм проверки корректности оценки длины периода Ь скрытой профильной периодичности в текстовой строке начинается с анализа спектра Б! отклонения строки от профильно-однородной

строки = Тёш1 (Ц^ (1), п). Согласно статистике Пирсона (4), где

Ь = 1, и соотношениям (5) и (6), если значение спектра Б1 на тест-периоде Ь и его обертонах превышает единицу, то анализируемая текстовая строка признается неоднородной. На рис. 4, а показан спектр Б1 отклонения от профильной однородности (1-профильности)

для кодирующего района белка — фактора некроза опухоли из генома человека (КЕОО, Ьва:338872, 1002 Ьр) [17]. Согласно принятому правилу, этот район признается неоднородным.

о 9 18 27 36 45 X 0 9 18 27 36 45 X

0 9 18 27 36 45 X

в

Рис. 4. Спектры отклонения от профильной однородности (1-профильности) (а), 9-профильности (б) и 3-профильности (в) для кодирующего района фактора некроза опухоли из генома человека (КЕвв, И5а:338872, 1002 нукл.) [17]

Пусть получена оценка Ь > 1 длины периода скрытой профильной периодичности, и строка признана неоднородной. В этом случае для подтверждения достоверности оценки используется спектр (см. формулу (6)) отклонения анализируемой текстовой строки от Ь -профильности. Тогда (см. формулы (5) и (6)), если значения спектра Бь меньше единицы на 95 % тест-периодов из диапазона 1...Ьтах, признается гипотеза о том, что в строке распознается скрытая Ь -профильная периодичность (Ь-профильность). На рис. 4, б приведен спектр Б9 для кодирующего района последовательности ДНК (фактора некроза опухоли) из генома человека (КЕОО, Ьва:338872, 1002 нукл.) [17]. Согласно принятым статистическим критериям, в этой последовательности распознается скрытая 9-профильная периодичность.

Свойство регулярности в кодирующих текстах. На рис. 4, в показан спектр Б3 отклонения от 3-профильности в кодирующем районе

последовательности ДНК (фактора некроза опухоли) из генома человека. Согласно принятому статистическому критерию, в этой последовательности отсутствует 3-профильная периодичность (3-профильность). Однако заметим, что в характеристическом спектре этого кодирующего района практически все локальные максимумы наблюдаются на тест-периодах, кратных трем (см. рис. 3, в). Как правило, на таких тест-периодах также наблюдаются отклонения от однородности (см. рис. 4, а). Такое свойство последовательности ДНК в работах [3, 4, 8] введено как свойство 3-регулярности последовательности ДНК. В общем случае наличие свойства 3-регулярности не гарантирует существования в строке какой-либо скрытой профильности. Однако практически во всех кодирующих районах последовательностей ДНК из исследованных геномов различных организмов, обладающих скрытой профильно-стью с периодом, кратным трем, проявляется свойство 3-регулярности [3, 4, 8]. При отсутствии скрытой профильности наличие свойства 3-регулярности можно было бы назвать «размытой триплетной периодичностью.» (или «размытой 3-профильностью»).

В работах [3, 4], исходя из анализа максимумов в характеристических спектрах кодирующих районов последовательностей ДНК из геномов различных организмов, на основе введенного достаточно высокого порогового значения индекса 3-регулярности был выработан критерий наличия в последовательности свойства 3-регулярности. Оказалось, что согласно выработанному критерию, практически все кодирующие районы были признаны 3-регулярными. Однако численные эксперименты с некодирующими районами (интронами) последовательностей ДНК из генома человека показали практическое отсутствие в них свойства 3-регулярности и скрытой профильной периодичности с размером периода, кратного трем [3].

Результаты численных экспериментов. Рассмотрим результаты распознавания структурно-статистических свойств в кодирующих районах последовательностей ДНК из геномов различных организмов [3, 4, 8]. Для сравнения приведем результаты численных экспериментов по аналогичному распознаванию для бинарно перекодированных абзацев двух литературных произведений в латинском алфавите на английском (Jerom K. Jerom "Three Men in a Boat") и итальянском (Carlo Collodi "Le avventure di Pinocchio") языках [3, 4]. Бинарные кодоны размера 5 синтаксических символов и букв латинского алфавита (знаков) приведены в таблице (пробелы не учитывались). Удовлетворительность предложенного введения кодонов для этих знаков иллюстрирует рис. 5, на котором показана схожесть частотного распределения знаков в произведениях на двух разных языках (английском и итальянском).

Соответствие букв латинского алфавита и символов пунктуации (знаков) бинарным кодонам размера 5 в алфавите {1, 0}

Номер знака, N 7 c Знак C Кодон BC Номер знака, N c Знак C Кодон BC

1 A a 00000 17 Q q 10101

2 B b 10000 18 R r 01011

3 C c 01000 19 S s 01101

4 D d 00100 20 T t 11010

5 E e 00010 21 U u 10110

6 F f 00001 22 V v 01110

7 G g 11000 23 W w 11100

8 H h 01100 24 X x 11001

9 I i 00110 25 Y y 10011

10 J j 00011 26 Z z 00111

11 K k 10001 27 - 11110

12 L l 01001 28 ' " 11101

13 M m 00101 29 , 11011

14 N n 10010 30 10111

15 O o 10100 31 ! ? 01111

16 P P 01010 32 Other 11111

Численные эксперименты с бинарным перекодированием показали [3, 4] количественную аналогию структурно-статистических свойств кодирующих районов последовательностей ДНК и бинарно перекодированных абзацев литературных произведений. Скрытая профильная периодичность с периодом, кратным трем, обнаружилась в ~90 % кодирующих районах последовательностей ДНК (в ~76 % —

триплетная периодичность, в ~14 % — периодичность с периодом, кратным трем). Практически во всех кодирующих районах было выявлено свойство 3-регулярности. Аналогичные закономерности наблюдались и в бинарно перекодированных абзацах литературных произведений. Единственное существенное отличие состояло в том, что в бинарно перекодированных абзацах была выявлена профильная периодичность с длиной периода, кратной или равной пяти, и свойство 5-регулярности [3, 4].

4 8 12 16 20 24 28 Nc

Рис. 5. Распределения частот FC встречаемости знаков латинского алфавита в анализируемых литературных произведениях:

--Jerom K. Jerom "Three Men in a Boat";--Carlo

Collodi "Le avventure di Pinocchio"

Стохастические модели кодирования, обеспечивающие проявление скрытой профильной периодичности в кодирующих текстах. Приведем стохастические модели, отражающие статистическую организацию кодирования в текстах с некоторым смысловым содержанием, объясняющие проявление в них скрытой профильной периодичности и свойства регулярности.

Опишем наиболее общую из предлагаемых моделей. В ее основе лежит понятие стохастического кодона Cdn = STR(L, p), профиль которого является стохастическим паттерном и, следовательно, случайной профильной строкой длиной L в текстовом алфавите A = <«!, a2, ..., aK>.

Пусть Cdnj, Cdn2, ..., Cdnm — такие случайные кодоны размера Л в алфавите A = <a1, a2, ..., aK>, что профиль Ptn = StrmA(л) случайной строки STR о = CdnjCdn2...Cdnm является стохастическим паттерном. Тогда случайную строку STR = STR0STR0. ..STR0, где

V-V-'

q-times

q /5K > 1, будем рассматривать в качестве стохастической кодонной мультиполиномиальной модели (СКмП-модели) со случайными кодо-

нами размера Л в алфавите А. В этом случае профиль такой случайной строки STR имеет вид

Str = PtnPtn... P Ш.

4-V-'

q-times

Следовательно, этот профиль является L -профильной строкой Шш1 (л, цЬ) = Str, где L = тЛ.

Такую модель можно отождествить с мультиполиномиальной схемой независимых испытаний, где в первом испытании происходит реализация кодона Cdn1, во втором — кодона Cdn 2, ..., в т-м испытании — кодона Сёпт. Затем блок из таких т испытаний повторяется ц раз. Как и ранее, вследствие значительного количества повторов ( ц > 5К ) паттерна профильности РШ, статистический анализ реализаций такой случайной строки STR будет приводить к таким же результатам, что и статистический анализ реализаций Ь -профильной строки Str, т. е. ее профиля. Таким образом, практически во всех реализациях строки (СКмП-модели) STR будет распознаваться Ь -профильная периодичность. Кроме того, если Л — простое число, то в реализациях строки (СКмП-модели) STR будет проявляться исключительно Л -регулярность. Такая СКмП-модель, где Л = 3 и т > 1, объясняет наличие свойства 3-регулярности в значительном количестве кодирующих районов последовательностей ДНК, в которых распознается Ь -профильная периодичность с длиной периода, кратной, но не равной трем.

Как было отмечено выше, аналогичное явление для Л = 5 наблюдается и в бинарно перекодированных абзацах литературных текстов. В общем случае такое явление было названо двухуровневой организацией кодирования [8, 16]. Первый уровень обусловлен наличием свойства Л -регулярности. Второй уровень связан с распознаванием скрытой профильной периодичности, длина периода которой кратна, но не равна Л. В работах [8, 16] наличие такой двухуровневой организации кодирования в кодирующих районах последовательностей ДНК продемонстрировано для аполипопротеинов (Ь = 33), цинковых «пальцев» (Ь = 84) и др. В этих случаях размер паттерна скрытой профильной периодичности в кодирующих районах коррелировал с размером повторяющихся функциональных доменов в кодируемом белке. Следует отметить, что экспериментальное выявление таких доменов — весьма сложная задача.

Когда т = 1, предлагаемая стохастическая модель состоит из единственного последовательно повторяющегося стохастического кодона Сёп1 размера Л. Следовательно, в реализациях такой модели

будет проявляться Л -профильность и Л -регулярность, значит такая модель не служит объяснением наблюдаемой в кодирующих текстах двухуровневой организации кодирования. Такую модель можно назвать стохастической кодонной полиномиальной моделью (СКП-моделью) [1, 2].

В работах [8, 16] приведены примеры кодирующих районов в последовательностях ДНК, в которых распознавалась различная локальная скрытая профильная периодичность, но на всей длине этого района проявлялось только свойство 3-регулярности. Такое явление в рамках предложенных моделей должно проявляться в том случае, когда весь район является реализацией последовательно соединенных различных последовательных СКмП-моделей со стохастическими кодонами одного размера.

Заключение. Предложены стохастические модели кодирования, описывающие и объясняющие проявление характерных структурно-статистических свойств (профильной периодичности и регулярности), которые присущи кодирующим последовательностям, транслируемым в тексты с некоторым смысловым содержанием. В качестве таких последовательностей рассмотрены кодирующие районы последовательностей ДНК из целой серии геномов различных организмов. Свойства предложенных стохастических моделей продемонстрированы в численных экспериментах с бинарно перекодированными абзацами литературных произведений на английском и итальянском языках.

Полученные результаты численных экспериментов позволяют выдвинуть гипотезу о том, что при кодировании текста, имеющего смысловое содержание, и использовании равномерного кода кодирующим последовательностям присуща скрытая профильная периодичность с длиной периода, равной или кратной размеру кодонов этого кода.

В рамках рассмотренных стохастических моделей предложены методы распознавания скрытой профильной периодичности и регулярности в кодирующих текстах. Эти методы могут быть использованы для разработки алгоритмов и создания на их основе автоматизированного программного обеспечения для распознавания структурно-статистических свойств в последовательностях ДНК. Актуальность его создания обусловлена быстро возрастающим объемом секвенированных геномов различных организмов, для которых необходимо проводить предварительный анализ структуры.

ЛИТЕРАТУРА

[1] Александров А.А., Димитриенко Ю.И. Математическое и компьютерное моделирование — основа современных инженерных наук. Математическое моделирование и численные методы, 2014, № 1 (1), с. 3-4. БО! 10.18698/2309-3684-2014-1-Ыопе

[2] Зарубин В.С., Кувыркин Г.Н. Особенности математического моделирования технических устройств. Математическое моделирование и численные методы, 2014, № 1 (1), с. 5-17. DOI 10.18698/2309-3684-2014-1-517

[3] Chaley M., Kutyrkin V. Stochastic model of homogeneous coding and latent periodicity in DNA sequences. Journal of Theoretical Biology, 2016, vol. 390, pp. 106-116.

[4] Кутыркин В.А., Чалей М.Б. Модель организации кодирования в прокарио-тических организмах. Математическая биология и биоинформатика, 2016, т. 11, № 1, c. 24-45. DOI 10.17537/2016.11.24

[5] Chaley M., Kutyrkin V. Spectral-statistical approach for revealing latent regular structures in DNA sequence. Data Mining Techniques for the Life Sciences. New York, Springer Science+Business Media, 2016, pp. 315-340.

[6] Chaley М., Kutyrkin V. Model of perfect tandem repeat with random pattern and empirical homogeneity testing poly-criteria for latent periodicity revelation in biological sequences. Mathematical Biosciences, 2008, vol. 211, iss. 1, pp. 186-204. DOI 10.1016/j.mbs.2007.10.008

[7] Chaley M.B., Kutyrkin V.A. Structure of proteins and latent periodicity in their genes. Moscow University Biological Sciences Bulletin, 2010, vol. 65, iss. 4, pp. 133-135.

[8] Chaley M., Kutyrkin V. Profile-statistical periodicity of DNA coding regions. DNA Research, 2011, vol. 18, iss. 5, pp. 353-362. DOI 10.1093/dnares/dsr023

[9] Кутыркин В.А., Чалей М.Б. Спектрально-статистический подход к распознаванию скрытой профильной периодичности в последовательностях ДНК. Математическая биология и биоинформатика, 2014, т. 9, вып. 1, c. 33-62. DOI 10.17537/2014.9.33

[10] Benson G. Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Research, 1999, vol. 27, pp. 573-580.

[11] Sánchez J. 3-base periodicity in coding DNA is affected by intercodon dinucleo-tides. Bioinformation, 2011, vol. 6, pp. 327-329.

[12] Sokol D., Benson G., Tojeira J. Tandem repeats over the edit distance. Bioin-formatics, 2007, vol. 23, pp. 30-35. DOI 10.1093/bioinformatics/btl309

[13] Marhon S.A., Kremer S.C. Gene prediction based on DNA spectral analysis: a literature review. Journal Computational Biology, 2010, vol. 18, pp. 639-676. DOI 10.1089/cmb.2010.0184

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[14] Issac B., Singh H., Kaur H., Raghava G.P.S. Locating probable genes using Fourier transform approach. Bioinformatics, 2002, 18, pp. 196-197.

[15] Howe E.D., Song J.S. Categorial spectral analysis of periodicity in human and viral genomes. Nucleic Acids Research, 2013, vol. 41, pp. 1395-1405.

DOI 10.1093/nar/gks1261

[16] Кутыркин В.А., Чалей М.Б. Структурные различия кодирующих и некоди-рующих районов последовательностей ДНК генома человека. Инженерный журнал: наука и инновации, 2012, № 2. DOI 10.18698/2308-6033-2012-2-46

[17] KEGG. Kyoto encyclopedia of genes and genomes. URL: http://www.kegg.jp (дата обращения 23.11.2017).

Статья поступила в редакцию 14.06.2017

Ссылку на эту статью просим оформлять следующим образом:

Кутыркин В.А., Чалей М.Б. Стохастические модели кодирования и распознавание структурно-статистических характеристик кодирующих последовательностей. Математическое моделирование и численные методы, 2017, № 3, с. 119-138.

Кутыркин Владимир Андреевич — канд. физ.-мат. наук, доцент кафедры «Вычислительная математика и математическая физика» МГТУ им. Н.Э. Баумана. Автор более 50 печатных работ. Область научных интересов: численные методы, биоинформатика, математическое моделирование. e-mail: vkutyrkin@yandex.ru

Чалей Мария Борисовна — канд. биол. наук, доцент, старший научный сотрудник ИМПБ РАН — филиала ИПМ им. М.В. Келдыша РАН. Автор более 50 печатных работ. Область научных интересов: биоинформатика, математические методы компьютерного анализа генетических текстов. e-mail: maramaria@yandex.ru

Stochastic coding models and recognition of structural and statistical characteristics of coding sequences

© V.A. Kutyrkin1, MB. Chalei2

:Bauman Moscow State Technical University, Moscow, 105005, Russia

2Institute of Mathematical Problems of Biology, RAS, branch of Keldysh Institute of Applied Mathematics, RAS (IMPB RAS — Branch of KIAM RAS), Puschino, Moscow Region, 142290, Russia

The paper introduces stochastic models explaining real characteristic regularities of coding regions from genomes of various organisms. Due to the growing volume of data on sequenced genomes, there arises a problem of its computer-aided analysis. By using these models, we developed methods for recognizing the structural and statistical properties of genomic DNA sequences, which can be used to find algorithms and computer programs for the automated processing of large amounts of data. The properties of the proposed stochastic coding models are demonstrated in numerical experiments with binary recoded paragraphs of literary works in English and Italian.

Keywords: profile line of a random string, profile periodic behaviour, periodic behaviour pattern, stochastic codon, multi-polynomial model

REFERENCES

[1] Aleksandrov A.A., Dimitrienko Yu.I. Matematicheskoe modelirovanie i chislennye metody — Mathematical Modeling and Computational Methods, 2014, no. 1 (1), pp. 3-4. DOI 10.18698/2309-3684-2014-1-None

[2] Zarubin V.S., Kuvyrkin G.N. Matematicheskoe modelirovanie i chislennye metody — Mathematical Modeling and Computational Methods, 2014, no. 1 (1), pp. 5-17. DOI 10.18698/2309-3684-2014-1-517

[3] Chaley M., Kutyrkin V. Journal of Theoretical Biology, 2016, vol. 390, pp. 106-116.

[4] Kutyrkin V.A., Chaley M.B. Matematicheskaya biologiya i bioinformatika — Mathematical Biology andBioinformatics, 2016, vol. 11, no. 1, pp. 24-45. DOI 10.17537/2016.11.24

[5] Chaley M., Kutyrkin V. Spectral-statistical approach for revealing latent regular structures in DNA sequence. Data Mining Techniques for the Life Sciences. New York, Springer Science+Business Media, 2016, pp. 315-340.

[6] Chaley М., Kutyrkin V. Mathematical Biosciences, 2008, vol. 211, no. 1, pp. 186-204. DOI 10.1016/j.mbs.2007.10.008

[7] Chaley M.B., Kutyrkin V.A. Moscow University Biological Sciences Bulletin, 2010, vol. 65, no. 4, pp. 133-135.

В.А. KymbipKun, ME. Haneü

[8] Chaley M., Kutyrkin V. DNA Research, 2011, vol. 18, no. 5, pp. 353-362. DOI 10.1093/dnares/dsr023

[9] Kutyrkin V.A., Chaley M.B. Matematicheskaya biologiya i bioinformatika — Mathematical Biology andBioinformatics, 2014, vol. 9, no. 1, pp. 33-62.

DOI 10.17537/2014.9.33

[10] Benson G. Nucleic Acids Research, 1999, vol. 27, pp. 573-580.

[11] Sánchez J. Bioinformation, 2011, vol. 6, pp. 327-329.

[12] Sokol D., Benson G., Tojeira J. Bioinformatics, 2007, vol. 23, pp. 30-35. DOI 10.1093/bioinformatics/btl309

[13] Marhon S.A., Kremer S.C. Journal Computational Biology, 2010, vol. 18, pp. 639-676. DOI 10.1089/cmb.2010.0184

[14] Issac B., Singh H., Kaur H., Raghava G.P.S. Bioinformatics, 2002, 18, pp. 196-197.

[15] Howe E.D., Song J.S. Nucleic Acids Research, 2013, vol. 41, pp. 1395-1405. DOI 10.1093/nar/gks1261

[16] Kutyrkin V.A., Chaley M.B. Inzhenerny zhurnal: nauka i innovatsii — Engineering Journal: Science and Innovation, 2012, no 2.

DOI 10.18698/2308-6033-2012-2-46

[17] KEGG. Kyoto encyclopedia of genes and genomes. Available at: http://www.kegg.jp (accessed November 23, 2017).

Kutyrkin V.A., Cand. Sc. (Phys.-Math.), Assoc. Professor, Department of Computational Mathematics and Mathematical Physics, Bauman Moscow State Technical University. Author of over 50 scientific publications. Science research interests include numerical methods, bioinformatics, mathematical simulation. e-mail: vkutyrkin@yandex.ru

Chaley M.B., Cand. Sc. (Bio.), Assoc. Professor, Senior Research Fellow, Institute of Mathematical Problems of Biology, RAS, branch of Keldysh Institute of Applied Mathematics, RAS (IMPB RAS — Branch of KIAM RAS). Author of over 50 scientific publications. Research interests include bioinformatics, mathematical methods of computer analysis of genetic texts. e-mail: maramaria@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.