Научная статья на тему 'Исследование идентификации информационных компонент генов методом спектрального и временного анализа'

Исследование идентификации информационных компонент генов методом спектрального и временного анализа Текст научной статьи по специальности «Математика»

CC BY
79
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕН MEF2A / ИНФОРМАЦИОННАЯ КОМПОНЕНТА / МЕТОДОД СПЕКТРАЛЬНОГО АНАЛИЗА / КОДИРОВАНИЕ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Бекасов Лев Степанович, Тверетин Алексей Александрович, Буканов Федор Федорович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование идентификации информационных компонент генов методом спектрального и временного анализа»

324 Вестник СамГУ — Естественнонаучная серия. 2008. №>3(62).

ТЕХНИЧЕСКИЕ СИСТЕМЫ

УДК 57.01+577.4

ИССЛЕДОВАНИЕ ИДЕНТИФИКАЦИИ ИНФОРМАЦИОННЫХ КОМПОНЕНТ ГЕНОВ МЕТОДОМ СПЕКТРАЛЬНОГО И ВРЕМЕННОГО АНАЛИЗА

© 2008 Л.С. Бекасов, А.А. Тверетин, Ф.Ф.Буканов1

Статья посвящена проблеме распознавания структурной организации информационной части генов Mef2A, которая, как известно, состоит из перетасованных (чередующихся случайным образом) рабочих (экзонов) и "дремлющих" (интронов) подразделов [1]. В частности, проанализированы три нуклеотидные последовательности, кодирующие одинаковые белки трех разных организмов. Приведены результаты теоретических исследований.

Ключевые слова: ген Mef2A, информационная компонента, методод спектрального анализа, кодирование.

Введение

В общем случае генетический текст (далее текст) может быть сопоставлен с адекватным сложным временным сигналом с большой зашумленностью, который, кроме того, модулирован по частоте и амплитуде.

Еще одна особенность определяется тем, что структура текста не является однозначной из-за вырожденности кодонов по отношению к аминокислотам и мутационной динамике [2]. Более того, экзоны и интроны по своему объему имеют отличия на порядок и "перетасованы" между собой произвольным образом [3]. Между тем эти участки постоянны по своей структуре, но полностью не идентичны, в том числе и, возможно, имеют функциональные отклонения за счет большого количества шума.

Стремительное увеличение количества проектов по секвенированию геномов (иначе представлению их нуклеотидными последовательностями) человека, животных, растений, бактерий и вирусов привело к лавинообразному росту объема информации о таких последовательностях. Их анализ,

1 Бекасов Лев Степанович, Тверетин Алексей Александрович, Буканов Федор Федорович, кафедра электронных систем и информационной безопасности Самарского государственного технического университета

обобщение и накопление знаний о структуре и функции генетических молекул относятся к числу наиболее важных проблем молекулярной генетики. Одним из подходов к решению этих проблем является функциональная аннотация новых генов с помощью компьютерных программ на основе анализа последовательностей ДНК и экспериментальной информации, накопленной в базах данных.

1. Методы и средства

Как известно, классическая теория спектрального анализа сигналов базируется на использовании комплексной экспоненциальной системы базисных функций:

{е1кюог} _ { ^-йюог 1 е1»ог ^й»г } (1)

где I = ^Т; к — номер базисной функции; »о — угловая частота [4]. Если сигнал рассматривать как периодический несинусоидальный сигнал, отвечающий условиям Дирихле, то такой сигнал можно представить рядом Фурье как суперпозицию конечного или бесконечного числа базисных функций вида (1). Тогда спектральный состав разложения может быть охарактеризован дискретной спектральной функцией

т/2

5 (к»о) = J ДгУкю°гйг. (2)

-Т/2

Одним из замечательных свойств преобразования Фурье в экспоненциальном базисе является свойство инвариантности амплитудно-частотного спектра

5 (к»о) = |5 (к»о)| (3)

к сдвигам сигнала /(г), благодаря которому значительно упрощается проблема сопоставления различных спектров.

В то же время необходимо отметить, что при получении спектральных признаков с помощью экспоненциального базиса (2) теряется в явном виде структурная информация о сигнале, что только отрицательным образом может отразиться на вероятности правильного принятия решения [5]. Действительно, согласно (2), для каждого значения к фактически вычисляется значение взаимной энергии между сигналом /(г) и к-й базисной функцией. При большом к анализ полученного спектра осложняется, особенно если данные имеют нечеткий характер, а при отбрасывании части гармоник теряется информация о сигнале. Очевидно, что в случае с нечеткими данными необходимо сжатие, причем оно должно учитывать самые небольшие изменения сигнала, что не выполняется при использовании (2).

Поэтому возникает задача получения такого спектра, который бы, с одной стороны, содержал частотную информацию, причем амплитудно-частотный спектр был бы инвариантен к сдвигам анализируемого сигна-

ла, а, с другой стороны, в явном виде содержал информацию о структуре анализируемого сигнала, а также для формирования которого требовалось бы минимальное время.

Для решения перечисленных проблем в [6] была предложена базисная комплексная система импульсных функций, с помощью которой можно получить спектр, отвечающий указанным требованиям. Предложенная система функций определяется на дискретном множестве

M = {l : l = 0,1,2,..., 2n - 1} (4)

и имеет вид

Bahkul = cu(l) - isu(l), (5)

где u = 0,1,2,3,...,n - 1; 2n — число подынтервалов, составляющих период некоторого подлежащего анализу дискретного сигнала f(l).

д£ д£

Функции cu(l) и su(l) формируются на основе вспомогательных функ-

k k

ций cu(l) и su(l) посредством их сдвигов на k подынтервалов, где

k = q,..., 2n-u-1, q — позиция первого подынтервала.

kk

Функции cu(l) и su(l) определяются как:

co(l) = 1, so(l) = 0, l е M. (6)

В случае u ф 0 и l, изменяющегося от 0 до 2n с шагом 2n-u-1,

2n-1

cu(l) = ^ (cos(2u-nnm))e(l - m), (7)

m=0 2n-1

su(l) = ^ (sin(2u-nnm))e(l - m). (8)

m=0

Если l принимает другие значения, то cu(l) = su(l) = 0. Величина e(l - m) представляет собой единичный импульс, определяемый из следующих условий:

e(l - ni) = { o\ l = m.; (9)

Формирование амплитудно-частотного спектра анализируемого сигнала f(l) осуществляется в соответствии с выражением

2n-u-1_ 1

Fu =2 Fl (10)

k=q

где u = 0,1,2,3,...,n - 1, q — позиция первого подынтервала;

2й"1-! 2й"1-!

FUu = V^*)2 " аи= Z f(lm)Z(iy, (11)

m=0 m=0

f(lm) — значение анализируемого сигнала в точке lm, где lm = 2n-u-1m.

Для получения структурной информации об анализируемом сигнале можно воспользоваться функциями cU(I) и sU(i), с помощью которых фактически генерируется последовательность единичных импульсов, сдвинутых относительно друг друга на один шаг дискретизации.

Этот метод авторы использовали применительно к генетическим текстам, заимствованным на странице GenBank (http://www.ncbi.nlm.nih.gov). Индексы базы GenBank соответственно AJ010072, U30823, DQ323505. Последовательности проанализированы с позиции кодона начала трансляции "ATG". Проанализированы нуклеотид-ные последовательности, кодирующие ген Mef2a трех организмов: "Gallus gallus", "Mus musculus domesticus", "Rattus norvegicus".

Ген под названием "Mef2a" играет роль в защите стенок артерии от появления закупорок, которые препятствуют притоку крови и вызывают сердечные приступы. Мутация этого гена вызывает многие болезни сердца.

Для применения метода представления данных с использованием спектрального анализа на основе комплексной системы импульсных функций требуется, чтобы данные имели числовой характер. Каждой букве генетического текста поставлено в соответствие весовое значение, определенное с помощью молекулярного веса [4].

Пусть

0, Xi = С;

1, Xi = A;

2, Xi = T ;

3, Xi = G,

Pi = j „/ (12)

у

где Xi — i-й нуклеотид в последовательности.

2. Результаты и их обсуждение

Проанализированы полученные последовательности нуклеотидов, кодирующие ген Mef2a, для трех организмов: "Gallus gallus", "Mus musculus domesticus", "Rattus norvegicus". Все три гена имеют разную длину, поэтому возникает вопрос выбора количества интервалов п. Предложено анализировать ген методом скользящего окна, где п = 5. Понятно, что с ростом п информация о структуре сигнала будет уменьшаться. Нахождение оптимальной величины п не является целью данной статьи и будет рассмотрено в дальнейших исследованиях.

Для всех трех последовательностей найдены числовые эквиваленты в соответствии с (12), где i = 1..1487. Выбор диапазона i обусловлен количеством нуклеотидов в самой короткой последовательности (Rattus norvegicus). Далее, найдены семейства F'u, U = 0..4 в соответствии с (10) для каждой позиции скользящего окна qi = (i - 1) ■ 2n + 1, где i — номер окна.

Проведено сравнение значений Fui для каждого i между генами всех

трех организмов попарно. Получены коэффициенты корреляции Пирсона К [7]. На рис. 1 по оси ординат представлены значения К между значениями ¥1и в соответствии с формулой (10).

К,

Рис. 1. Коэффициент корреляции Пирсона K¡, i = 1..30 между значениями F'u для гена Mef2a (— Gallus gallus / Mus musculus domesticus, — Mus musculus domesticus / Rattus norvegicus, -- Gallus gallus / Rattus norvegicus)

Результаты показывают, что гены у всех трех организмов имеют ярко выраженные участки, на которых Ki стремится к единице, например, в диапазонах i = 1..12 и i = 22..24. Для оценки эффективности на рис. 2 приведены значения Pj, j = 65..96 в соответствии с (12). Из рис. 2 видно, что высокие значения Ki (0.997; 0.999; 0.995), где i = 3, соответствуют высоким коэффициентам корреляции KP (0,733; 0,985; 0,738), где i = 3, между соответствующими значениями Pj, j = 65..96.

Рис. 2. Функция Pj, j = 65..96 для гена Mef2a (— Gallus gallus, — Mus musculus domesticus, — Rattus norvegicus)

Выводы

1) Применение метода представления данных с использованием спектрального анализа на основе комплексной системы импульсных функций позволяет получить амплитудно-частотный спектр конкретного генетического текста.

2) Применение скользящего окна с малым значением n позволяет выделить участки генетических текстов с разной степенью схожести, выраженной значением K(.

3) Примененный метод чувствителен к многочисленным сдвигам внутри нуклеотидной последовательности и позволяет получить описание структуры сигнала даже при его большой зашумленности.

4) Применение данного метода позволяет выделять образы, которые довольно точно описывают функциональную принадлежность нуклео-тидной последовательности.

Литература

[1] Франк-Каменецкий, М.Д. Компьютерный анализ генетических текстов / М.Д. Франк-Каменецкий. - М.: Наука, 1990. - 267 с.

[2] Сингер, М. Гены и геномы / М. Сингер, П.Берг. - М.: Мир, 1998. -373 с.

[3] Писарчик, А.В. Простые повторяющиеся последовательности и экспрессия генов / А.В. Писарчик, Н.А. Картель // Молекулярная биология. -№34(3). - С. 357-362.

[4] Кристалинский, Р.Е. Преобразование Фурье и Лапласа в системах компьютерной математики: учебн. пособие для вузов / Р.Е. Кристалинский. - М.: Горячая линия - Телеком, 2005. - 216 с.

[5] Трахтман, А.М. Введение в обобщенную спектральную теорию / А.М. Трахтман. - М.: Сов. радио, 1972. - 352 с.

[6] Bahrushina, G.I. Development and Investigation of a New Retangular Orthogonal System Function for Invariant Object Recognition / G.I. Bahrushina, A.P. Bahrushin // Proceedings of the Sixth International Conference "Advanced Computer Systems"/ Szezecin-Poland. November 1999. - P. 64-67.

[7] Курникова, Е.Л. Основы статистики / Е.Л.Курникова, Л.В.Тарлец-кая. - М.: МГИМО, 2008. - 144 с.

Поступила в редакцию 15/Л/2008; в окончательном варианте — 15/Л/2008.

THE RESEARCH OF IDENTIFICATION GENE COMPONENTS INFORMATION BY SPECTRAL AND TIME ANALYSIS METHODS

© 2008 Bekasov L.S., Tveretin A.A., BukanovF.F.2

The subject of this paper is structure organization recognizing problem of Mef2A gene information part, which, as known, consists of random mixed exon and intron segments [1]. Specifically, three nucleotide sequences, which encodes the proteins of three organisms was analyzed. The results of theoretical research were produced.

Keywords: Mef2A gene, information component information, spectral analysis method, coding.

Paper received 15////2008. Paper accepted 15////2008.

2Bekasov Lev Stepanovich, Tveretin Alexey Alexsandrovich, Bukanov Fedor Fedorovich, Dept. of Electronic Systems and Informaton Security, Samara State Technical University, Samara, 443010, Russia.

i Надоели баннеры? Вы всегда можете отключить рекламу.