УДК 577.71:528.854
В. А. Дюк, д-р техн. наук, Ю. И. Сенкевич, д-р техн. наук,
Санкт-Петербургский институт информатики и автоматизации РАН (СПИИРАН)
Поиск паттернов
в молекулярно-генетических данных на основе эффекта информационного структурного резонанса
Ключевые слова: биоинформатика, ДНК-последовательности, интеллектуальный анализ данных, информационный структурный резонанс
Приводится классификация, эмпирико-стати-стических методов исследования геномов. Рассматриваются примеры поиска шаблонов с джокерами в молекулярно-генетических данных на основе эффекта информационного структурного резонанса.
Введение
Начало XXI века считают стартом новой эпохи в развитии молекулярной биологии и генетики, которую характеризует получение знаний о структурной и функциональной организации полных геномов. Работа в этом направлении получила название аннотации геномов.
К задачам аннотации геномов относятся определение областей геномов, участвующих в синтезе белков, нахождение границ генов, целых оперонов, а также фрагментов, называемых в геномике пунктуационными знаками и выполняющих роль регуляторов различных молекулярно-биологических и биохимических процессов. Перед исследователями геномов стоят также задачи локализации неслучайных повторов, палиндромов, поиска перио-дичностей и других особенностей геномов, характерных для определенных классов организмов и др.
Основную роль в решении указанных задач все больше играют методы компьютерного анализа мо-лекулярно-биологических данных. Это обусловлено тем, что происходит лавинообразный рост объемов банков таких данных (в том числе секвенирован-ных последовательностей ДНК), которые не могут быть исследованы традиционным экспериментальным путем [1].
Информация, заключенная в геномной ДНК, должна воспроизводиться, распознаваться, считываться и служить своеобразной программой для запуска са-
мых разнообразных молекулярных механизмов [2]. Многообразие путей молекулярной эволюции и различия в условиях существования живых организмов приводят к большому разнообразию функционально-структурных связей. Одна из стандартных задач компьютерного анализа последовательностей ДНК состоит в том, чтобы выделить воспроизводимые структурные особенности и связать их с соответствующими функциями. Отбор и фиксация таких связей в процессе молекулярной эволюции позволяют использовать подход, основанный на сравнительном анализе последовательностей в базах данных.
В настоящее время все данные (за исключением результатов некоторых исследований, выполненных по заказам фармацевтических корпораций) свободно доступны через международную электронную сеть Интернет. Основные данные по геномным последовательностям ДНК сосредоточены в GenBank (Лос-Аламос, США) и базах данных Европейской молекулярно-био-логической лаборатории (ЕМБЛ) (Гейдельберг, Германия) и Европейского института биоинформатики (филиал ЕМБЛ в Кембридже, Англия). В сводных базах данных каждая последовательность ДНК помещена под своим кодом доступа. Кроме сводных баз данных, имеется свыше пятидесяти специализированных банков данных. Их подробное описание и электронные адреса можно найти на страницах сайта Объединенного центра вычислительной биологии и биоинформатики http://www.jcbi.ru.
1. Классификация эмпирико-статистических методов исследования геномов
Ниже представлены отредактированные нами выдержки из обзорной работы [4], где перечисляются программные инструменты для исследования
№ 4(10)/20"ю~|'
биотехносфера
структуры генома и дается краткая характеристика используемым математическим методам. В процитированной работе можно найти ссылки на подробное описание этих инструментов.
Программы GeneModeler, GenelD, SORFIND используют эвристические правила для поиска всех рамок считывания, которые не имеют внутри стоп-кодонов.
Программа GenLang предназначена для распознавания синтаксических паттернов с использованием средств математической лингвистики для нахождения генов и других особенностей в биологических последовательностях.
Программа GENESCAN использует дискретное преобразование Фурье символьной последовательности для нахождения коротких автокорреляций. Эта программа позволяет находить периодичности длиной 3, характерные для экзонов.
Ряд программ использует метод динамического программирования, которое получило широкое распространение в решении многих задач компьютерной биологии, особенно в выравнивании последовательностей нуклеотидов и аминокислот, предсказании вторичных структур РНК и белков. В динамическом программировании решение задачи сводится к локально оптимальному решению подзадач, при этом подзадачи вытекают одна из другой по нарастающей: от решения самой маленькой подзадачи к решению всей большой задачи. К программам, использующим метод динамического программирования, относятся GRAIL2, GeneParser, Glim-merM, Morgan.
Многие программы нацелены на поиск гомологов в базах данных. Это GeneParser PROCRUSTES, PRO-PLUS, ААТ, PRO-EST.
Широкое распространение получили методы, основанные на предварительном обучении программ на выборках генов. Программы используют для этого нейронные сети (GRAIL2, GeneParser), обобщенные скрытые марковские модели (Genie, Genscan, HMMgene), интерполированные марковские модели генов (Glimmer, GlimmerM). Линейный дискри-минантный анализ использует программа FGENEH, квадратичную дискриминантную функцию для многовариантного статистического распознавания образов — программа MZEF.
Известны попытки создания самообучающихся программ, как, например, GeneHacker, которая использует итеративную процедуру, на каждом шаге переобучаясь на результатах своего предсказания на предыдущем шаге. Для упомянутых программ характерно то, что в них используются комбинированные подходы. Это означает, что в одной программе применяются различные математические методы для распознавания экзонов и для последующей реконструкции структур генов (GeneParser, Genie, GRAIL2, FGENEH). Эти продукты часто сравниваются по качеству распознавания. Для сравнения результатов и обучения программ созданы спе-
циальные непротиворечивые и неизбыточные выборки настоящих (экспериментально определенных) генов из базы данных GenBank.
Все чаще появляются интегрированные системы автоматического аннотирования геномов. В качестве примера можно привести системы GAIA, GeneQuiz, Genotator, GESTALT, SEALS. Как правило, такие системы используют множество отдельных программ-распознавателей, которые определяют на новой последовательности не только структуры генов (и не только одним методом), но и различные другие знаки пунктуации. Такие системы предназначены для того, чтобы предоставить исследователям геномов максимум «информации к размышлению», для этого они снабжены развитыми графическими возможностями представления информации, но они не берут на себя принятие экспертных решений. Другие системы (например, PEDANT) являются закрытыми для пользователя, они лишь представляют результаты огромной работы в виде готовых аннотаций некоторых новых геномов.
Более современные обзоры дополняют вышеприведенный список следующими популярными программами:
• ACT (Artemis Comparison Tool) — геномный анализ;
• BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей;
• BioNumerics — коммерческий универсальный пакет программ;
• BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей;
• ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей;
• ClustalX — множественное выравнивание нуклеотидных и аминокислотных последовательностей;
• JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей;
• Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей, более быстрое и точное по сравнению с ClustalW;
• T-Coffee — множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей, более чувствительное, чем в ClustalW/ ClustalX.
С позиций теории анализа данных и, если говорить более точно, с позиций теории методов обнаружения закономерностей в многомерных данных представляется целесообразной классификация методов исследования геномов (рис. 1).
Наиболее обширная группа методов основана на препроцессинге последовательностей молекулярно-биологических данных с применением так называемого множественного выравнивания. Сравнение многих строк — «Святой Грааль» — так называется
биотехносфера
| № 4(10)/2СТ0
Методы анализа последовательностей
С множественным выравниванием
Без множественного выравнивания
Весь арсенал методов — Частот-
прикладной нечисловой ный ана-
статистики лиз
— Поиск ком-
бинаций
Процедура
«Гусеница»
Спектральный анализ
■ Фрактальный анализ Вейвлет-анализ
■ Марковские цепи
Поиск мотивов и т. п.
Рис. 1
Классификация эмпирико-статистических методов исследования геномов
глава в популярной книге Дэна Гасфилда «Строки, деревья и последовательности в алгоритмах» [5]. В свою очередь, это сравнение производят на основе множественного выравнивания строк, которое называют одной из центральных задач биоинформатики (см. например, [6]).
Пусть дан набор (конечных) последовательностей произвольной длины в фиксированном алфавите, например в 4-буквенном: А, С, Т, G. Задача состоит в том, чтобы расположить эти последовательности друг под другом, вставляя в них произвольное число раз знак пробела «=» так, чтобы все полученные в результате последовательности имели уже одинаковую длину и при этом в них образовалось как можно больше «консервативных» (т. е. состоящих из как можно меньшего числа букв) столбцов (в итоговой матрице). Эта задача сегодня наиболее часто решается с помощью программ ClustalW/ClustalX, основанных на динамическом программировании.
После применения процедуры множественного выравнивания для анализа полученной матрицы «объект—признак» может быть применен весь арсенал методов прикладной статистики, в том числе большой набор инструментов технологии Data Mining. Некоторые инструменты требуют перевода символьных значений в числовую форму (перекодировки исходных данных). В то же время, как известно, ряд методов Data Mining способен работать с разнотипными признаками. При наличии обучающей информации, относящей строки матрицы к определенным функциональным классам, используют дискриминантный анализ, нейросетевой подход, метод опорных векторов, метод ближайших соседей, деревья и леса (сети) деревьев, алгоритмы
ограниченного перебора и др. При отсутствии обучающей информации применяют методы исследования многомерной структуры данных (различные варианты кластерного анализа, методы визуализации многомерных данных и др.).
Применению методов Data Mining в биоинформатике посвящено много современной литературы (например, [7-9]). Как правило, в этих публикациях присутствует раздел, посвященный препро-цессингу исходной информации, и предполагается, что молекулярно-биологические данные подвергаются процедуре множественного выравнивания. Вместе с тем, на наш взгляд, указанная процедура ведет к произволу в представлении информации для дальнейшего анализа. Особенно это становится заметным при больших длинах исследуемых символьных рядов, когда различные варианты множественного сравнения приводят к близким значениям функционала качества.
В связи с вышесказанным наше внимание, как и ряда других исследователей (в том числе отечественных [10]), сконцентрировано на проблеме поиска регулярностей в молекулярно-биологических последовательностях без использования процедуры множественного выравнивания.
Для поиска регулярностей в молекулярно-био-логических последовательностях наиболее часто применяются методы, берущие свое начало в анализе временных рядов. Это методы спектрального и фрактального анализа, методы теории скрытых марковских цепей, методы, использующие дескриптивную статистику в скользящем окне, методы поиска мотивов в рядах, сигнатурные методы и др.
Продуктивным направлением анализа рядов сегодня является подход, связанный с преобразованием ряда в матрицу с помощью однопараметри-ческой сдвиговой процедуры «Гусеница» [11]. Этот подход независимо разрабатывался в России (Санкт-Петербург, Москва) и США (там его аналог получил название SSA — Singular Spectrum Analysis) и показал себя эффективным средством исследования временных рядов (в основном в метеорологии, гидрологии, климатологии). .Алгоритм преобразования ряда в матрицу данных состоит в следующем.
Анализу подвергается ряд, образованный последовательностью N значений некоторой (возможно, случайной) функции f(i):
xi = f(i), где i = 1, 2, ..., N.
Выбирают некоторое число М < N, называемое длиной гусеницы, и первые М значений последовательности f представляют в качестве первой строки матрицы X. В качестве второй строки матрицы берут значения последовательности с x2 по x^+i. Последнюю строку с номером k = N - М +1 составляют последние М элементов последовательности.
Построенную матрицу, элементы которой равны xij = xi + j_i, можно рассматривать как М-мерную выборку объема k или М-мерный временной ряд,
№ 4(10)/2010~|'
биотехносфера
которому соответствует М-мерная траектория (ломаная в М-мерном пространстве из звена k - 1). Матрица X (ее называют матрицей ряда) представлена в традиционном для прикладной статистики виде «строка — объект, столбец — признак». Для ее дальнейшей обработки теперь можно применять различные методы из богатого арсенала математического аппарата многомерного анализа. Это уже упоминавшиеся выше методы дискриминантного анализа, ней-росетевой подход, метод опорных векторов, метод ближайших соседей, деревья и леса (сети) деревьев, алгоритмы ограниченного перебора и др. В следующем разделе описывается опыт использования разработанного нами подхода к поиску логических закономерностей в многомерных данных на основе эффекта информационного структурного резонанса.
2. Примеры поиска шаблонов с джокерами в молекулярно-генетических данных на основе эффекта информационного структурного резонанса
Для поиска логических правил в экспериментальных данных использовалась технология SRMD (Structural Resonance in Multidimensional Data), основанная на представлениях локальной геометрии [12, 13]. В этой технологии используются модифицированный аппарат линейной алгебры и процедура активного формирования информационного структурного резонанса в многомерных данных.
Основные характеристики технологии SRMD: нахождение «сильных» (наиболее полных при заданной точности) «если — то» правил для каждой записи базы данных; построение и тестирование классификаторов данных на основе «если — то» правил; построение «нечетких» «если — то» правил. С помощью технологии SRMD удается создавать компактные и эффективные экспертные системы для получения высокоточных диагностических и прогностических решений [14-16]. Программная реализация технологии — система Argos Data Mining (Свидетельство об официальной регистрации программы для ЭВМ № 2007612080).
На рис. 2 приведен сравнительно несложный, но показательный пример результатов поиска паттернов в небольшом фрагменте ДНК e coli (кишечной палочки). Этому фрагменту соответствует первая строка таблицы. Правая часть таблицы (выделенный прямоугольник), обозначенная как «область поиска», — М-мерная матрица ряда (М = 23). К этой части была также присоединена не показанная на рисунке случайно сгенерированная таблица такого же размера (в ней вероятности появления каждого из четырех символов A, С, G, Т одинаковы и равны 0,25).
В рассмотренном примере во фрагменте ДНК удалось найти шаблон АхААхА, где в позиции «х» может стоять любой из четырех символов A, С, G, Т.
Обращает на себя внимание то, что найденный шаблон появляется в последовательности ДНК через различные по длине интервалы (8, 8, 7, 8).
Для следующего более сложного примера использованы данные из базы данных Eukaryotic Promoter Database (EPD) [17]. Это база данных аннотированных эукариотических промоторов РНК-полимеразы II, для которых экспериментально определен сайт старта транскрипции. Информация привязана к промоторной последовательности путем указания номера позиции на последовательности в базе EMBL. Каждый документ содержит библиографические данные, ссылки на родственные базы данных и содержит информацию, касающуюся картирования инициирующих сайтов транскрипции. EPD ограничивается промоторами, узнаваемыми системами РНК-полимераз II у высших эукариот, исключая грибы, водоросли и простейших. Тем не менее, так как промоторы рассматриваются как физиологические элементы, зависящие от правильной интерпретации trans-действующим окружением, в базу включено и классифицировано много вирусных промоторов вместе с промоторами их хозяев.
Из базы были извлечены 1871 последовательность нуклеотидов Homo sapiens (man) в диапазоне -100 +100 от сайта старта транскрипции. Фрагмент записей, полученных из базы EPD, приведен на рис. 3.
Каждая последовательность нуклеотидов была преобразована в матрицу с помощью процедуры «Гусеница» (длина гусеницы — 80 позиций). К матрице ряда была «пристыкована» матрица «шума» — случайно организованных последовательностей, количество которых в 5 раз превышало количество строк в матрице исходного ряда. При этом для генерации случайных последовательностей использовалась специальная процедура, особенность которой заключалась в том, что матрица «шума» образовалась из исходной матрицы реальной последовательности путем случайной перестановки в ней элементов столбцов. Тем самым в матрице «шума» соблюдалась полная идентичность частот символов частотам символов в столбцах реальной матрицы, тогда как связи между элементами строк становились разрушенными. Фрагмент таблицы для дальнейшего анализа приведен на рис. 4.
В результате анализа подготовленных описанным способом данных с помощью программы Argos Data Mining в каждой из таблиц удалось найти примерно от 3 до 10 логических правил, характерных для «реальных» частей таблицы данных. Частота выполнения логических правил на «реальных» частях таблицы была невысока. Она не превышала 10 % от размера этих частей. Процедура синтеза паттернов из полученных правил проиллюстрирована рис. 5.
На рис. 5 первая верхняя строчка (исключая названия столбцов) — это анализируемая последо-
биотехносфера
| № 4(Ю)/2010
Биомедицинская информатика
3 ц ||J2 TGACAO^A G АА А — А >CTGATX^A Т АА С"
ТА с1 А А щ с Т С Ч а А С A G / * Ч? % х G С Т G А Т т J X 7 К ч
т А С А А т Hi т G А С А G т -* G х ч А X G С Т G А т т - G \ Т X
Т А С А А 1 т А С Т G А С А G s т * G V А X G С Т G А т Т G к т
т А С А 1 т * С Т G А С А с Т * G \ ч А X с С Т G А Т Т \ G ч
т А С А А 1 т ч С Т G А С А С Т * G X" ч А X G С Т G А Т т G
т А С А А т X € Т G А С А G V Т * S X Ч А \ G С Т G А т Т
т А С А А т А С Т G А С А G \ Т X G \ ч А \ G С Т G А Т
Т А С А А т ч С Т G А С А G \ т * G * ч А А G С Т G А
Т А С А А т ч С Т G А С А G Т * G X * А X G С Т G
Т А С А А т X С Т G А С А G S Т * G ч1 А X G С Т
Т А С А А т X С Т G А С А G т1 * G У ч А х G С
Т А С А А т X С Т G А С А С т1 * G х А А \ G
Т А С А А т X € Т G А С А G \ Т Ч G \ ч. А X
Т А С А А т X С Т G А С А G Т Ч * G ■ X ь А
Т А С А А Т X, С Т G А С А G Т ч G \ X
Т А С А А т \ К С Т G А € А G \ Т ч G X
Т А С А А т X С Т G А С А G > т \ G
Т А С А А т X С Т G А С А G Т ^
Т А С А А т X С Т G А С А С Т
Т А С А А т к С Т G А С А G
Т А С А А т X С Т G А С А
Т А С А А т X С Т G А €
Т А С А А т X С Т G А
Т А С А А т X С Т G
Т А С А А т т V С Т
Т А С А А т X С
Т А С А А т X
Т А С А А т
Т А С А А
Т А С А
Т А €
ТА
Т
L
А С А А Т AT А А С А С А Т С G С С TACAATATAACACATCGC TTACAATATAACACATCG \ Т Ч\ с\ Т Т АСААТ AT ААСАСАТ С
G\ Т Ч\ с\ Т Т АСААТ AT ААСАСАТ
> \ ч л
Т G \ Т 'А Д С^ТТАСААТАТААСАСА Т Т G \ Т Ч X сЧ ТТАСААТАТААСАС
S Ч N л
AT Т G\T \\C\T Т АСААТ AT А А С А
4 ч
G А Т Т G \ Т \\ С Л ТТАСААТАТААС Т GAT Т б\ Т \\ с\ ТТАСААТАТАА СТ G А Т Т GX Т \Х С^Т Т АСААТ AT А G С Т G А Т Т G Т "Л \ с X ТТАСААТАТ
А С А А Т А АСААТ
jp?Т А С А <ГА т ¿ :[а т Т А с А А Т|А|Т
AACABATCGCCAA
АТА С A CATCGCCA
Ктт
XGCTGATTG\T кЛС\ Т Т А A0G С Т G A T Т G|A|T|A|A"|C|A|T Т \ Ali G С Т G А Т Т
V4- \
\д а \ g с т g
\ ^
\ А Л G \ V А \
G\?VA A.GCT
G XX. Т \ G \\ А \|
GATAACATTACAA АСА
Область поиска
I
Т А С
\
GCTGATTGATAACATTA GCTGATTGATAACATT G Т AG A.\AX.GCTGATTGATAACAT A G Т V G \\ А X G С Т G А Т Т G А Т А А С А
N 4 \ \
С A G Т J\GA.\AÍ\_GCT GAT Т GAT AAC А С A G Т X G \\ А \ G С Т G А Т Т G А Т АА G А С A G Т \ G \\ AXGCTGATTGATA
Т G А С A G
т X б\\ А\ G С Т
\\
G А Т Т G А Т
СТ G А С А в Т \ в W А \ G С Т GAT Т G А
*,ctgacagt^g\\.a\
T0C Т G А С A G T|A]G|A|A"]A|A]
gctgattg
G С Т G А Т Т
AT ACT GACAGT AGAAAAGCT GAT AATACTGACAGTAGAAAAGCTGA С A A T ACT GACAGT AGAAAAGCT G А С A A T ACT GACAGT AGAAAAGCT TACAATACTGACAGTAGAAAAGC
Рис. 2 | Методами локальной геометрии во фрагменте ДНК найден шаблон с джокерами и изменяющимся периодом
s snRNA U1 (pUl-6); range -100 to 100.
GT GT СA GGGC TAGGAAGGC T С GGGGGT GC GC GG GGCAAGT GAC CAT GT GT GTAAAGGGT G AGGTAT AT GGAGC T GT GACAGGGCAGAAGT GT G T GAAGT СATAC T TAC С T GGCAGGGGA G ATAC CAT GAT СAC GAAGGT GGT T T T С С СAGGGC GAGGC T TAT С CAT T GCAC T С С GGAT G T GCTGACCCCTGCGATTTCCCC
>EP17031 (-) Hs snRNA U1 (pHUl-1); range -100 to 100. T GT СAG GGC T GGAAAGGGC T С GGGAGT GC GC GG GGCAAGT GAC С GT GT GT GTAAAGAGT G AGGC GT AT GAGGC T GT GT С GGGGCAGAGC С С GAAGAT С T СATAC T TAC С T GGCAGGGGA G АТАС CAT GAT СAC GAAGGT GGT T T T С С СAGGGC GAGGC T TAT С CAT T GCAC T С С GGAT G T GCTGAC CCCTGCGATTTCCCC
Рис. 3 | Пример записей, извлеченных из базы данных EPD
№ 4(Ю)/2010~|'
биотехносфера
зсЬдарда I
TCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACA CTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAA TCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAAT CGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATA GGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATAT GCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATA ССТТТТ GGCTAAGAT CAAGT GTAGT AT CT GTT CTT^&T CAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATAT CTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTT 42p Д Г1 tL U+^P c ЛЯРЙ Ж^ПР CTCTATCCGAGGACAATATATT TT TT GGCTAAGAT CAAGT GTAGTAT CT GT T CT ТА T С Ä^Yf тТА ГЯТТ toHVcWtTC TCTATCCGAGGACAATATATTA TTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAA
TGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAAT GGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATG GCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGG CT AAGAT CAAGT GTAGT AT CT GTT CT TAT CAGTTTAATАТ|ЩТ GATACGTCCTCTATCCGAGGACAATATATTAAATGGA
AAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATT
Real Real Real Real Real Real Real Real Real Real Real Real Real Real Real Real Real Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise Noise
CT'G6ÖTCÖCTÄ6CÖAAAÖ(iACAACGCGTTAGTCTGTTGCGACCCTGCCAATCGATCAAGTTAGGAGCGCGCCAACGCAC
CAGACGCTGGCCCAGTTGAGCTATGTGGTGCTTCGCAGTTTCGGTTGTACGTTATGGGATAGAAGATCCCTTGATCCGT CT CCGGCAAGCGGCAGAGGCGAT AT CCCAGGGAT CGT AGGGGGACGAAAGAT GACCGAGAT GAT CCT ACT GT ACT AGAA AGTTGTGCCGCGCTGGCTCATGAGTTCGGTCCACGTATATAGGCGTTAACGCCTATTGTGGGGCGTCGTTTATGGGGTG GGACCAGCTCAGAGCCGCGGGTAGTTCCAGTAGGTGGTCGTAAGCGAAACGACATTAGGGCCTGTCTGAGTGTTTACAA TGACTGACGTTGCTAGAGGCACGTAAGACTCACTGCTTATGTCGGCATACTTCGGCGGTCGGTATATGTGCTGAAACGA CAGCGTACGGACCCTACGTATGCTAGGGATGCGATAGTGGAATTGCTAGATAGCGTCATCGCCGTTTACCCTTGCGGGG TAACT GCGCAGAGGT GGGCTAACGACGAGGAT GCGCCJrAÄWWA.UW öi ЛСММ^ T GTAGGTTTTTATATTCGCATA AAACGGGGCGAT CT CACGAAAT T CAGTAAT AGGGAC TlVtClcicp fcfUlCU T ШУтХпСг GTCCTTTACGGGGTATGGCTACG AGT GGT GGGAT GAGCCCCGAGCCGCAGT T T T AGGT GAACCG (TG С GGfC АС GC AT T GC С AGGGT T GT ACGGAGGT T С С AT T ATAGATGGGGTCTGGGTCACGTGTATTGGGAGGCATGGGCTGCGCCACTAGTTCGCGCGAAAATTGAATTCTTTTGGAA GTCCATGCTGGTTATGCTGTCGGGACCCACCTGTAGATAGAGGGAAGCGGTTTTTTAATATAGGGAGGGTCTTCGATGA GCCGGCGTGGGGCAACGTCGAAAGTTAGGCGCAAATAGGGCCGGAAGGGAAGTAGTCTGAAAGGTTGACTTTTGGCCCT GCGTTTCGGGGCGTCGGGCTGTTAGGGTATCCCAGGTTCTAGCGTTGCTGCGTATGTACCCCCATTAGTTCTTATTAAG GGGGAGGTTCAGTGCTAATACCCGCGTGCGCTGCGAGAATTGTGTGTGTAGGTCTGGTCTGGACTTTCGATAGGTCTTC TGTGGACGGATCGACAAAAGAGCTAGGGATGGGGCTAAATGTTGTATGCTGTCGTAATGGCTATGCCCGCGTAGCCCTC ATAGGGTAAGCCTACGATTTTTCGTTCACTGTTGAGGCTCTGGGTAATTGCACTCCCGGTTTTACGTTGTGCGTTCTAC TCATGCGGAGCGAGTGATATGTGGTGAGGATGTTGGATGGGAGATTTCATGCTGTCTGGGTCTATCTGGGGCGCTCCGA AGATACGACCGGGGCGTGGATAGATTGTAATCGCAGCGGCGTACGACATTCTAGGTTCCGCCACATTACTCGATCCTCC
Рис. 4 Подготовленная таблица данных
Рис. 5 Иллюстрация процедуры синтеза паттернов на последовательности из правил
вательность нуклеотидов, содержащая промоторы в генах человека. Подчеркиваниями выделены строки, на которых срабатывают найденные логические правила (комбинации символов в определенных позициях строки). В верхней строчке обведены найденные шаблоны в последовательности.
В приведенной иллюстрации обращает на себя внимание своеобразная картина, которая в значитель-
ной мере перекликается с паттерном для ДНК e coli. В ДНК e coli был найден паттерн АхААхА, в котором как бы в пакете идет символ А. В последнем примере наблюдается аналогичная ситуация только с символами G и С. Для этих символов найдены идентичные паттерны GxGxGxGG и СхСхСхСС, где «х» — джокер. Подобная картина, более или менее выраженная, нередко наблюдалась и для других последо-
биотехносфера
| № 4(10)/20Ю
вательностей ДНК человека с промоторами из базы EPD. Этот занятный факт, конечно, пока нельзя принимать как открытие нового явления, он нуждается в многократной перепроверке.
Выводы
1. Поиск сложных непериодических шаблонов в последовательностях символов методами локальной геометрии представляет интерес для целого ряда областей, связанных с анализом временных и иных рядов в биологии, медицине, технике и экономике.
2. Особую ценность данные методы, по-видимому, имеют в современных молекулярно-генетиче-ских исследованиях, в которых наступил этап выяснения функционального смысла различных участков секвенированной ДНК.
3. В ряде анализируемых последовательностей ДНК (е coli и Homo sapiens) с помощью технологии информационного структурного резонанса удалось обнаружить относительно сложные шаблоны с джокерами, следующие с изменяющимся периодом, которые могут представить интерес для теоретической геномики.
| Л и т е р а т у р а |
1. Biomediale. Современное общество и геномная культура // Сост. и общ. ред. Д. Булатова. Калининград: КФ ГЦСИ, «Янтарный сказ», 2004.
2. Лобзин В. В., Чечеткин В. Р. Порядок и корреляции в геномных последовательностях ДНК. Спектральный подход/ УФН 170 57. 2000.
3. Werner Т. Models for prediction and recognition of euka-ryotic promoters // Mamm. Genome. 1999. Vol. 10. P. 168-175.
4. Назипова H. H., Устинин M. H. Решение задач расшифровки генетической информации, заложенной в биоло-
гических последовательностях. В кн.: Компьютеры и суперкомпьютеры в биологии // Под ред. В. Д. Л а х-н о, М. Н. Устинин а. М.; Ижевск: Ин-т компьютер. исследований, 2002. С. З48—4З2.
б. ^сфи^ Дэн. Строки, деревья и последовательности в алгоритмах. Изд-во BHV, 200З. бб4 с.
б. Любецкий В. А., Pyбaнoв Л. И., Селиверстов А. В. Выравнивание последовательностей на основе дерева // Тр. 9-й Междунар. конф. РАН «Распознавание образов и анализ изображений: новые информационные технологии». 2008, 1б—20 сент. Ниж. Новгород. С. 1ЗЧ—140.
Ч. Wang J. T. L., Zaki M. J., Toivonen H. T. T., Shasha D. E. Data Mining in Bioinformatics. 200б, Springer. З40 p.
8. Frank E., Hall M., Trigg L., Holmes G. Witten I. H. Data mining in bioinformatics using Weka // Bioinformatics. Oct. 2004. N 20. P. 24Ч9—2481.
9. Gewehr J. E., Szugat M., Zimmer R. BioWeka extending the Weka framework for bioinformatics // Bioinformatics. March 1. 200Ч. N 2З(б). P. бб1—ббЗ.
10. Mиpoнoв А. А. Метод поиска консервативных структур РНК // Молекулярная биология. T. 41. № 4, июль-август 200Ч. С. Ч11—Ч18.
11. Равные компоненты временных рядов: метод «Гусеница» / Под ред. Д. Л. Д а н и л о в а и А. А. Ж и г-лявского. СПб.: СПбГУ. 199Ч.
12. Дюк В. А. Обработка данных на ПК в примерах. СПб.: Питер, 199Ч. 240 с.
13. Дюк В. А., Эмaнyэль В. Л. Информационные технологии в медико-биологических исследованиях. СПб.: Питер, 200З. б2б с.
14. Дюк В. А., Kl«^'^!^^!« И. А, Эмaнyэль В. Л. Информационные технологии в клинической лабораторной диагностике// Клиническая лабораторная диагностика. 2004. № 9. С. 1б—1Ч.
1б. Дюк В. А. Технологии Data Mining в медико-биологических исследованиях // Новости искусственного интеллекта. 2004. № З. С. 1б—2З.
1б. Здpaевcкaя О. H., Дюк В. А., Эмaнyэль В. Л., ^вик В. И., Ллидл С. Б. Диагностическая значимость метода лазерной корреляционной спектроскопии при воспалительных и опухолевых заболеваниях легких // Клин. ла-боратор. диагностика. 200б. № б. С. 21—24.
1Ч. Eukaryotic Promoter Database — http://www.epd.isb-sib.ch/.
№ 4(10)/2ст0~[
биотехносфера