Научная статья на тему 'Методы обнаружения логических закономерностей в структуре геномов'

Методы обнаружения логических закономерностей в структуре геномов Текст научной статьи по специальности «Математика»

CC BY
221
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛОГИКО-ВЕРОЯТНОСТНАЯ МОДЕЛЬ / БИНАРНАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ / СТРУКТУРА ГЕНОМА / LOGICAL-AND-PROBABILISTIC MODEL / BINARY SEQUENCE / STRUCTURE OF THE GENOME

Аннотация научной статьи по математике, автор научной работы — Гусев Виктор Александрович, Лбовгеннадий Сергеевич, Полякова Галина Леонидовна, Алтынцева Вера Сергеевна, Габриэль Виктор Александрович

Подтверждена гипотеза о наличии логических закономерностей в структуре геномов как микроорганизмов на примере E. coli, так и высших форм на примере X и Y хромосом человека. Для анализа рассматриваемых геномов был использован алгоритм полного перебора конъюнкций (L-грамм) с целью выявления логических закономерностей, обладающих высокой относительной частотой их встречаемости в бинарной последовательности. Приведено описание логико-вероятностных моделей для бинарных последовательностей и алгоритма обнаружения логических закономерностейв бинарнойпоследовательности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гусев Виктор Александрович, Лбовгеннадий Сергеевич, Полякова Галина Леонидовна, Алтынцева Вера Сергеевна, Габриэль Виктор Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS FOR THE DISCOVERY OF LOGICAL REGULARITIES IN THE STRUCTURE OF THE GENOMES

The hypothesis of the presence of logical regularities in the structure of the genomes of organisms as in the example E.coli, and the higher forms by the example of X and Y chromosomes of Homo sapiens. For the analysis of these genomes has been used exhaustive search algorithm conjunctions (L-gram) for the discovery of logical regularities, which have high relative frequency of their occurrence in a binary sequence. An algorithm for the discovery of logical regularities in a binary sequence is proposed. The examples of the obtained logical-and-probabilistic models are given.

Текст научной работы на тему «Методы обнаружения логических закономерностей в структуре геномов»

УДК 519.6+576.895.42+519.2

1 Институт математики СО РАН пр. Акад. Коптюга, 4, Новосибирск, 630090, Россия

2 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

E-mail: vgus@math.nsc.ru; http://lbovgenady.narod2.ru Polyakova@math.nsc.ru; Altynya@gmail.com, vitek-novosib@mail.ru

МЕТОДЫ ОБНАРУЖЕНИЯ ЛОГИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ В СТРУКТУРЕ ГЕНОМОВ *

Подтверждена гипотеза о наличии логических закономерностей в структуре геномов как микроорганизмов на примере Е. соїі, так и высших форм на примере X и У хромосом человека. Для анализа рассматриваемых геномов был использован алгоритм полного перебора конъюнкций (Х-грамм) с целью выявления логических закономерностей, обладающих высокой относительной частотой их встречаемости в бинарной последовательности. Приведено описание логико-вероятностных моделей для бинарных последовательностей и алгоритма обнаружения логических закономерностей в бинарной последовательности.

Ключевые слова: логико-вероятностная модель, бинарная последовательность, структура генома.

Введение

Обширная библиотека расшифрованных генетических последовательностей (ОепБапк) является в настоящее время объектом пристального внимания математиков. Как правило, работы по математическому анализу геномов посвящены применению различных математических методов для выявления регуляторных и кодирующих участков в структуре геномов [1-3]. Этот анализ основан на сопоставлении различных символьных последовательностей исследуемых геномов с паттернами ДНК, функции которых уже известны.

В работах [4-10] авторы проводили анализ структуры генетического кода, т. е. кодонаминокислотного соответствия с использованием методов теоретико-группового анализа. Это позволило обнаружить неизвестные ранее молекулярным биологам и биохимикам закономерности в структуре кода.

Логично предположить, что соответствующие алгебраические и арифметические, т. е. символьные и числовые, закономерности генетического кода должны иметь отображения в нуклеотидной последовательности геномов. Для поиска числовых закономерностей необходимо представить стандартную символьную последовательность из а! и gc пар в геноме в цифровом виде. Мы воспользовались данными работы [8], в которой показано, что молекулярные массы а! и gc пар в составе двойной спирали равны соответственно 259 и 260 независимо от ориентации, т. е. принадлежности нуклеотида к конкретной нити ДНК. Таким образом, чередование а! и gc пар в двойной спирали соответствует чередованию только двух

* Работа выполнена при финансовой поддержке РФФИ (проект № 10-01-00113-а).

1818-7900. Вестник НГУ. Серия: Информационные технологии. 2012. Том 10, выпуск 4 © В. А. Гусев, Г. С. Лбов, Г. Л. Полякова, В. С. Алтынцева, В. А. Габриэль, 2012

чисел. Следовательно, для анализа рассматриваемых символьных последовательностей можно их представить в виде последовательностей нулей и единиц. Поиск возможных закономерностей в таком бинарном ряду чисел был проведен в рамках подхода к анализу эмпирической информации, изложенного в монографиях [11-13]. Подход сводится к построению логико-вероятностной модели объекта исследования. Под логико-вероятностной моделью понимается список логических закономерностей, обладающих достаточно большой прогнозирующей способностью (см. ниже). Целью данной работы является поиск логических закономерностей в бинарных последовательностях, сопоставленных кодирующим фрагментам генома прокариот E. coli, а также фрагментам X и Y хромосом эукариотического генома вида Homo Sapiens.

Обнаружение логических закономерностей

Метод поиска (обнаружения) логических закономерностей в бинарной последовательности состоит из выбора наилучшего разбиения, полученного для слова длины l и его окружения длины s, по некоторому критерию. Для каждого разбиения определяются частоты перехода из множества окружений слова х в множество слов y для всех пар < х, y > на основе анализа исходной последовательности; затем определяется порядок для всех пар по их частотам появления и выделяются пары с наибольшими частотами, которые и будут логическими закономерностями.

Пусть имеется последовательность gene длины L: gene = (nucl1,nucl2, ..., nuclL), где

nuclm e Dnucl, m = 1,..., L и множество Dnucl представляет собой неупорядоченный набор значений элементов последовательности Dnucl = {a, t, c, g}.

Переходим к бинарной последовательности заменой в исходной последовательности символов а и t на 0, с и g на 1. Получаем последовательность b = (b1,b2,...,bL), где bm e {0,1}, m = 1, ..., L.

Под словом длины l в алфавите {0,1} понимается бинарная последовательность длины l (например, при l = 4 «слово» имеет вид 0110; заметим, что число возможных слов длины l в этом случае равно 24 = 16 ). Рассматриваем слова длины l.

Предположим, что частота возникновения слова wk = (Ък,Ък+1,..., Ък+l _1) длины l, начинающегося с к-й позиции в последовательности Ъ, зависит только от некоторых из s1 ближайших слева и s2 ближайших справа элементов («окружения»), т. е. зависит от некоторых из элементов Ък = (Ък_^Ък_^..^Ък_^Ък+l...,Ък+l+s2_1^ где s = s1 + s2; ^ s2 - некот°рые параметры к = s1 +1,..., L _ l _ s2 +1. Например, при s1 = 3, s2 = 2 для указанного выше слова «окружение» из 3 ближайших слева и 2 ближайших справа элементов может иметь вид 110 (0110) 01.

Логической закономерностью для указанного слова называется логическое высказывание на символах окружения, которое с большой частотой характеризует данное слово. Например, для указанного слова 0110 высказывание «(слева в 1-й позиции стоит 1) и (справа в 1-й позиции стоит 0)» появляется в рассматриваемой бинарной последовательности с относительной частотой P >5 = 0,95 , 5 - параметр; а для всех других слов появляется с частотой, близкой к нулю.

Сопоставим каждому участку bks набор значений некоторых бинарных переменных X = X1,X2,...,Xn, n = s1 + s2. Dj = {0,1} - область определения переменной Xj . Пусть

хк = X(Ъ) = (X1(b'l),X2(bf),...,Xn(b)); Xj(b) - значение переменной Xj для участка bks .

Для указанного выше примера окружение имеет вид: (х1 = 1, х2 = 1, х3 = 0, х4 = 0, х5 = 1).

Частоту встречаемости данного слова w длины l в последовательности Ъ определим как - N

P(w) = —w, где N = L _ l _ s +1 - число всех слов длины l (совпадающих и несовпадающих), N

которые можно получить из последовательности Ь сдвигом на один символ с позиции к = 51 +1 в последовательности Ь до позиции к = Ь — I — в2 +1; - число повторов слова

w среди всех таких N слов. Для надежности метода необходимо выбрать среди всевозможных слов длины I слово w* наиболее высокой частоты встречаемости.

Сопоставим слову wk = (Ьк,Ьк+1,...,Ьк+1—1), начинающегося с к-й позиции в последовательности Ь, к = 51 +1,...,Ь — I — s2 +1, значение целевой (прогнозируемой) переменной У . Будем считать, что ук = У^к) = 1, если слово wk = w*; ук = У^к) = 2, если слово

Сопоставив каждому значению х значение у , получим таблицу данных V = {х , у }, размерностью п хК , где п = 51 + s2, N = Ь — I — s +1. Можно определить по таблице данных число N(1) объектов первого образа и число N(2) объектов второго образа.

Требуется по этим наблюдениям найти логические закономерности, обладающие большой прогнозирующей способностью, для предсказания значения у в зависимости от «окружения» х . Множество таких закономерностей представляет логико-вероятностную модель, отражающую причинно-следственные взаимосвязи между характеристиками. В процессе построения закономерностей автоматически отбираются наиболее информативные характеристики.

Задача обнаружения всех закономерностей является N - трудной задачей. Для обнаружения закономерностей используются алгоритмы класса ТЕМР [11-14], которые дают возможность значительно сократить время вычислений, учитывать разнотипность переменных, перебирать конъюнкции различной длины. Эти алгоритмы обнаруживают все логические закономерности на реальных таблицах за приемлемое время.

Обозначим 3(а,Е.) предикат, принимающий значения «истина» или «ложь». Предикат

3(а, Е. ) эквивалентен утверждению: X. е Е., а е Г - объект из некоторой генеральной совокупности, описываемый характеристиками Х1, ..., Хп, У; Е . является подмножеством множества значений Б., . = 1,...,п .

Назовем Б (а, Е) = 3(а, Е^ )л... л 3 (а, Е.а ) конъюнкцией длины d. Областью истинности

конъюнкции Б (а, Е) является подмножество Е = П Е. , Е. ^ Б. . Обозначим через ц нор-

/=1

мированную меру подмножества Е . Для любой конъюнкции Б (а, Е) можно определить по таблице данных V число объектов первого образа N(1 б ) и число объектов второго образа N(2 §), на которых указанная конъюнкция истинна.

Конъюнкцию Б (а,Е) будем называть логической закономерностью, с большой вероятно” Л N(l,Б) -^5 N(2,s) ^ п

стью характеризующей первый образ, если выполняются неравенства: ---------------------> о, -< р,

N(1) N(2)

где 5 и р - некоторые параметры; 0 < р < 5 < 1. Чем больше 5 и меньше р, тем сильнее логи-

^ *

ческая закономерность. Множество всех закономерностей обозначим через 5 .

Конъюнкцию Б (а,Е) будем называть потенциальной логической закономерностью для

первого образа (обозначим ее через Б"), если выполняются неравенства: —> 5, —< р .

^1) N2)

Множество потенциальных закономерностей обозначим через Б'. Очевидно, что из 8'е Б'

гг *

можно получить закономерность Б последовательным присоединением предикатов, т. е.

£' л /(а,Е^ л...; если для некоторой конъюнкции £(а,Е) выполняется неравенство

N(1, £) о

------>о, то конъюнкция £ по определению не является закономерностью и присоединение

N1)

к ней какого-либо предиката не даст закономерности (множество таких конъюнкций обозначим через Б). Таким образом, любая конъюнкция £(а,Е) может быть трех типов: Б , Б',

Б.

Алгоритм обнаружения логических закономерностей состоит в последовательном выполнении следующих шагов.

На первом шаге рассматриваются всевозможные конъюнкции длины один, т. е. конъюнкции вида £ (а, Е ) = /(а, Е.), Е. является подмножеством множества значений П.,

. = 1,..., п . Если £ (а, Е )е Б , то она включается в список закономерностей и соответствующее подмножество Е. исключается из дальнейшего перебора; если £ (а, Е )е Б', то соответствующее подмножество Е. оставляется для дальнейшего перебора; если £ (а, Е )е Б, то соответствующее подмножество Е7 исключается из дальнейшего перебора. Обозначим через 0^7 множество подмножеств Е7, оставленных для дальнейшего перебора после выполнения первого шага алгоритма.

На втором шаге рассматриваются всевозможные конъюнкции длины два, т. е. конъюнкции вида £ (а, Е) = / (а, Ег )л / (а, Е. ), / Ф ., Е1 е 07, Е. е 07. Если £ (а, Е)е Б*, то

соответствующие подмножества Ei и Е. исключаются из дальнейшего перебора и соответствующая конъюнкция включается в список закономерностей; если £ (а, Е) е Б', то соответствующие подмножества Е{ и Е. оставляются для дальнейшего перебора; если £ (а, Е )е Б, то соответствующие подмножества Ei и Е. исключаются из дальнейшего перебора. Аналогично обозначаем 0. множество подмножеств Е., оставленных для дальнейшего перебора

после выполнения второго шага алгоритма.

Далее, аналогично рассматриваются конъюнкции длины три, четыре, пять и т. д. В результате работы алгоритма получаются конъюнкции небольшой длины. Например, максимальная длина полученных конъюнкций в задаче, описанной ниже, не больше 6.

Закономерности в генетических последовательностях

В результате работы алгоритма было найдено несколько закономерностей. Вероятность образования таких закономерностей при условии равномерного распределения Р(£ | Н0)

различна. Из всех таких закономерностей естественно считать наилучшей ту, для которой эта вероятность минимальна.

Меру ц можно рассматривать как вероятность попадания в область Е при равномерном распределении, Е ^ П ; 1 -ц - как вероятность попадания в область П \ Е . Следовательно,

вероятность Р(£ | Н0) образования закономерности заданной длины при известных N(1 £), ^(2,£), N(1), N(2) и ц может быть вычислена следующим образом:

Р(£ | Н0) = С^£) ц%£) (1 - ц)^ -%£) • С%(™) ц^2'£) (1 - ц)%) -%'£) .

Чем больше длина конъюнкции, тем меньше мера ц и меньше вероятность Р(£ | Н0) ; следовательно, при одинаковых значениях N(1 £), N(2,£), N(1), N(2) предпочтительней будут конъюнкции большей длины.

Был проанализирован весь геном Е. евИ (4 266 генов, ОепБапк '). Приведем в качестве примера только некоторые из полученных результатов.

Для кодирующей последовательности гена ШгЬ Е.евИ (длина 63 символа) приведем гистограммы частот встречаемости слов в соответствующей бинарной последовательности. Примеры гистограмм, отражающих среднюю частоту встречаемости слов соответствующей длины, приведены на рис. 1, 2.

Рис. 1. Частоты встречаемости слов длины 3 в бинарной последовательности

Рис. 2. Частоты встречаемости слов длины 4 в бинарной последовательности

1 http://www.ncbi.nlm.nih.gov/ (ОепБапк)

Исследования проводились при длине слова от 3 до 7 символов. Ограничение длины слова обусловлено большими затратами машинного времени. Вероятность появления слова длины

I при условии «чисто» случайной последовательности равна —- . Вероятности появления при

I = 3, 4, 5, 6, 7 равны 0,1250; 0,0625; 0,0312; 0,0156; 0,0078. Полученные частоты закономерностей на порядок превышают указанные вероятности.

Найдены следующие закономерности.

1. Для слова 011 окружение «(слева в 10-й позиции стоит 1) и (слева в 9-й позиции стоит 0) и (справа в 7-й позиции стоит 0)» появляется в рассматриваемой бинарной последовательности с относительной частотой 0,778; для всех остальных слов длины 3, не равных данному,

с относительной частотой 0. Вероятность Р(Б | Н0) приближенно равна 1,83е 7 .

2. Для этого же слова 011 окружение «(слева в 10-й позиции стоит 1) и (слева в 9-й позиции стоит 0) и (слева в 3-й позиции стоит 0) и (справа в 7-й позиции стоит 0)» появляется в рассматриваемой бинарной последовательности с относительной частотой 0,778; для всех остальных слов длины 3, не равных данному, с относительной частотой 0. Вероятность

Р(Б | Н0 ) приближенно равна 1,49е 8.

3. Для слова 0110 окружение «(слева в 10-й позиции стоит 1) и (слева в 9-й позиции стоит 0) и (слева в 3-й позиции стоит 0) и (справа в 6-й позиции стоит 0)» появляется в рассматриваемой бинарной последовательности с относительной частотой 0,778; для всех остальных слов длины 4, не равных данному, с относительной частотой 0. Вероятность Р(Б | Н0) приближенно равна 1,49е 8.

Вероятность образования первой закономерности при условии равномерного распределения Р(Б | Н0) больше, чем второй и третьей закономерностей, поэтому предпочтение отдается последним.

Для кодирующей последовательности гена уаИИ Е. соИ (длина 318 символов) на рис. 3 приведен пример гистограммы частот встречаемости слов в соответствующей бинарной последовательности и найдена закономерность.

Рис. 3. Частоты встречаемости слов длины 7 в бинарной последовательности

Для слова 1001111 окружение «(слева в 10-й позиции стоит 1) и (слева во 2-й позиции стоит 1) и (справа в 1-й позиции стоит 0) и (справа в 4-й позиции стоит 0) и (справа в 7-й позиции стоит 1)» появляется в рассматриваемой бинарной последовательности с относительной частотой 0,727; для всех остальных слов длины 7, не равных данному, с относительной частотой 0,046.

Вероятность образования такой закономерности при условии равномерного распределения Р(Б | Н0) приближенно равна 1,25е 17, что дает право считать ее логической закономерностью. В качестве сравнения использовались случайные последовательности, сгенери-

Рис. 4. Относительная частота встречаемости закономерности в хромосоме У

Рис. 5. Относительная частота встречаемости закономерности в хромосоме X

рованные в соответствии с частотами а! и gc пар в исходных генетических последовательностях. Было проанализировано по 100 случайных последовательностей для каждого исследуемого гена. Ни в одной из них закономерностей не было найдено.

Следующая часть статьи посвящена проверке гипотезы о том, что в структуре генома человека, в частности в специальной паре хромосом, определяющих половую принадлежность, также содержатся логические закономерности.

Исследования проводились при длине слова от 3 до 7 символов. В результате были выделены наиболее часто встречающиеся закономерности в хромосомах X и У. Затем в случайной бинарной последовательности определена относительная частота встречаемости для полученных закономерностей.

На рис. 4, 5

Рис. 1 приведены графики частот встречаемости выявленных закономерностей при l = 5 , s = 6 и N = 7000 . Отражены частоты появления слов, состоящих из пяти символов (по оси абсцисс средняя строка - пример выявленных закономерностей), с соответствующим окружением (по оси абсцисс первая и третья строки). Нижняя кривая соответствует встречаемости аналогичных комбинаций слов и окружения в рандомизированных последовательностях аналогичной длины.

Как видно из графиков, относительные частоты встречаемости закономерностей в хромосомах X и Y человека на порядок отличаются от встречаемости аналогичных комбинаций в случайных последовательностях. Это говорит о том, что полученные пары с большой частотой встречаемости практически не могут получиться из случайной последовательности. Поэтому в соответствии с гипотезой такие пары являются закономерностями в исходной после -довательности.

Заключение

Анализ частот встречаемости слов различной длины в последовательностях показал, что частота слов в генетической последовательности значительно отличается от частот слов в случайной последовательности. Это дает основание утверждать, что наблюдаемые в геномах закономерности являются истинными. Следует особо подчеркнуть, что найденные закономерности в кодирующих последовательностях генома E. coli, а также во фрагментах X и Y хромосом человека имеют семантическую природу и непосредственно не связаны с триплет-ной структурой генома.

Благодарности

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Авторы выражают признательность сотрудникам Института цитологии и генетики СО РАН В. А. Лихошваю и Ю. Г. Матушкину за конструктивную дискуссию в процессе постановки задачи.

Список литературы

1. Орлов Ю. Л. Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов: Автореф. дис. ... канд. биол. наук. Новосибирск, 2004. 35 с.

2. Abnizova I., Schilstra M., te Boekhorst R., Nehaniv C. L. A Statistical Approach to Distinguish between Different DNA Functional Parts // WSEAS Transactions on Computational Methods. 2003. Vol. 2. Is. 4. P. 1188-1196.

3. Abe T., Kanaya S., Kinouchi M, Ichiba Y., Kozuki T., Ikemura T. Informatics for Unveiling Hidden Genome Signatures // Genome Res. 2003. Vol. 13 (4). P. 693-702.

4. Duplij D., Duplij S. Determinative degree and nucleotide content of DNA strands // Biophys. Bull. 2000. Vol. 497. P. 1-7.

5. Jimenez-Montano M. A., de la Mora-Basanez C. R., Poschel T. The Hypercube Structure of the Genetic Code Explains Conservative and Non-Conservative Aminoacid Substitutions in vivo and in vitro // BioSystems. 1996. Vol. 39. P. 117-125.

6. Jimenez-Montano M. A. Protein Evolution Drives the Evolution of the Genetic Code and Vice Versa // BioSystems. 1999. Vol. 54. P. 47-64.

7. Negadi T. Rumer’s Transformation in Biology as the Negation in Classic Logic // Int. Journ. of Quant. Chem. 2003. Vol. 94. P. 65-82.

8. Shcherbak V. I. Arithmetic inside the universal genetic code // BioSystems 2003. Vol. 70. P.187-209.

9. Карасев В. А. Генетический код: новые горизонты. СПб.: ТЕССА, 2003. 116 с.

10. Гусев В. А. Арифметика и алгебра в структуре генетического кода, логика в структуре генома и биохимическом цикле самовоспроизводства живых систем // Информационный вестник ВОГиС. 2005. Т. 9, № 2. С. 153-161.

11. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Изд-во Наука, 1981. 160 с.

12. Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд-во Ин-та математики, 1999. 212 с.

13. Лбов Г. С., Бериков В. Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. Новосибирск: Изд-во Ин-та математики, 2005. 218 с.

14. Лбов Г. С., Полякова Г. Л. Метод прогнозирования в классе логических решающих функций // Вестн. Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. 2010. Вып. 5 (31). С. 42-45.

Материал поступил в редколлегию 20.12.2011

V. A. Gusev, G. S. Lbov, G. L. Polyakova, V. S. Altynceva, V. A. Gabriel

METHODS FOR THE DISCOVERY OF LOGICAL REGULARITIES IN THE STRUCTURE OF THE GENOMES

The hypothesis of the presence of logical regularities in the structure of the genomes of organisms as in the example E.coli, and the higher forms by the example of X and Y chromosomes of Homo sapiens. For the analysis of these genomes has been used exhaustive search algorithm conjunctions (L-gram) for the discovery of logical regularities, which have high relative frequency of their occurrence in a binary sequence. An algorithm for the discovery of logical regularities in a binary sequence is proposed. The examples of the obtained logical-and-probabilistic models are given.

Keywords: logical-and-probabilistic model, binary sequence, structure of the genome.

i Надоели баннеры? Вы всегда можете отключить рекламу.