УДК 681.3:004.8
И. В. Хомичёва \ Е. Е. Витяев 2, Е. В. Игнатьева 1, Е. А. Ананько \ Т. И. Шипилов 2
1 Институт цитологии и генетики СО РАН пр. Акад. Лаврентьева, 10, Новосибирск, 630090, Россия
2 Институт математики СО РАН пр. Акад. Коптюга, 4, Новосибирск, 630090, Россия
E-mail: [email protected]; [email protected]; [email protected]; [email protected]; [email protected]
ПРИМЕНЕНИЕ ПРОГРАММНОЙ СИСТЕМЫ EXPERTDISCOVERY ДЛЯ ПОИСКА ЗАКОНОМЕРНОСТЕЙ СТРУКТУРНО-ФУНКЦИОНАЛЬНОЙ ОРГАНИЗАЦИИ РЕГУЛЯТОРНЫХ РАЙОНОВ ГЕНОВ *
Появление качественно новых экспериментальных технологий в таких областях современной биологии, как геномика, транскриптомика, протеомика, клеточная биология, нанобиоинженерия и др. привело к экспоненциальному росту объемов экспериментальных данных, требующих систематизации и осмысления. Новые методы интеллектуального анализа данных призваны решить задачу интеграции первичных экспериментальных данных, которые слабо связаны, плохо структурированы, имеют разную степень полноты и сами по себе не позволяют реконструировать полноценный портрет изучаемой биологической системы или процесса. Одной из таких сложных и не решенных задач является задача выявления закономерностей организации регуляторных районов генов. Для решения этой задачи нами разработан интегрированный метод извлечения знаний ExpertDiscovery, обнаруживающий комплексные закономерности организации регуляторных районов генов эукариот. В качестве элементарных сигналов для построения комплексных сигналов система использует различные характеристики, обнаруженные, например, другими методами извлечения знаний. Объединяя закономерности, обнаруженные на всех уровнях исследования, система ExpertDiscovery позволяет построить иерархическую модель регуляторных районов специфической группы генов.
Ключевые слова: комплексный сигнал, реляционный метод извлечения знаний, интеграционный подход, иерархический анализ, регуляторные районы генов, распознавание, сравнение оценок точности.
Введение
В основе создания медицинских препаратов нового поколения, предупреждения, профилактики наследственных заболеваний и др., лежит задача управления экспрессией генов эукариот. Экспрессия генов - сложный многостадийный процесс, первым этапом которого является транскрипция. У эукариотических организмов транскрипция осуществляется в ядрах клеток. В ходе транскрипции происходит синтез определенного количества продуктов генов - молекул РНК. Интенсивность транскрипции каждого конкретного гена подвержена очень точной регуляции в зависимости от клеточных условий (типа клеток и тканей, стадии развития организма, клеточного цикла, индукторов либо репрессоров, действующих на клетки).
Возможность гибкой регуляции транскрипции генов эукариот обеспечивается наличием протяженных регуляторных районов генов, имеющих сложную блочно-иерархическую структуру [ 1; 2].
Первый уровень иерархии включает сайты связывания различных транскрипционных факторов (ССТФ), короткие участки ДНК, служащие местом посадки для регуляторных белков (транскрипционных факторов) [3]. Встречаемость и расположение ССТФ в регуля-торных районах генов отражает ткане- и стадиеспецифичные особенности регуляции их экспрессии. Все известные к настоящему времени методы распознавания ССТФ имеют достаточно высокие уровни недопредсказания (либо перепредсказания). Причиной этому является большое разнообразие ДНК-белковых взаимодействий между сайтами и транскрипциоными
* Работа поддержана грантом РФФИ № 08-07-00272-а; интеграционными проектами СО РАН № 47, 115, 119; Госконтрактом с ФАО № П721, а также выполнена при финансовой поддержке Совета по грантам Президента РФ и государственной поддержке ведущих научных школ (проект НШ-335.2008.1, НШ-2447.2008.4).
ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2010. Том 8, выпуск 1 © И. В. Хомичёва, Е. Е. Витяев, Е. В. Игнатьева, Е. А. Ананько, Т. И. Шипилов, 2010
факторами, различные ткане-, стадиеспецифичные механизмы регуляции транскрипции, специфичность контекста, окружающего ССТФ в регуляторных районах.
Следующий иерархический уровень организации регуляторных районов генов соответствует упорядоченным сочетаниям ССТФ: композиционным элементам и цис-регуляторным модулям (CRM). Пара сближенных сайтов образует композиционный элемент, если совместный эффект взаимодействующих с ними регуляторных белков существенно отличается от эффекта, который мог бы получиться в результате их простого суммирования. При этом эффект может оказаться синергичным (неаддитивно высоким) либо, наоборот, антагонистичным (смена активации на репрессию).
Цис-регуляторные модули (CRM), включают устойчивые сочетания сайтов связывания факторов различных типов и других мотивов [4]. Их наличие характерно для регуляторных районов генов, экспрессирующихся тканеспецифическим образом, и отражает наличие тка-неспецифичного набора транскрипционных факторов, функционирующих в каждой конкретной ткани. Задача, соответствующая данному уровню иерархии строения регуляторных районов генов, состоит в обнаружении закономерностей расположения ССТФ. Однако, поскольку каждый ген содержит уникальную комбинацию ССТФ в своем регуляторном районе, необходимую для регуляции экспрессии в определенных условиях, разрабатываемые методы сталкиваются с плохой репрезентативностью данных обучения, содержащих недостаточное число частных случаев более общего явления.
Высший уровень иерархии строения регуляторных районов генов соответствует системе интегральной регуляции транскрипции, основанной на суперпозиции разных кодов ДНК (линейных, конформационных) [5].
Анализ регуляторных последовательностей генов представляет собой актуальную проблему биологии и вызов для разработки новых методов извлечения знаний (Knowledge Discovery in Databases and Data Mining, KDD & DM).
Такие подходы KDD & DM, как нейронные сети, решающие деревья, генетические алгоритмы, Байесовские сети и т. д. эффективно применяются для решения широкого круга задач системной биологии. Несмотря на разнообразие математических подходов направления KDD & DM, использование различных парадигм обучения, гибкость подходов, огромную базу приложений в различных областях, методы KDD & DM не предлагают адекватного решения задачи распознавания регуляторных районов генов эукариот [6]. Эти подходы, как правило, чувствительны только к конкретным характеристикам и, как следствие, дают хорошие результаты распознавания на одной группе последовательностей и низкую точность распознавания на другой.
Для решения задачи анализа и распознавания регуляторных районов генов эукариот в общем случае необходимо учитывать различные контекстные, физико-химические и конфор-мационные особенности ДНК, таким образом, моделируя процесс распознавания регулятор-ных районов эукариотической транскрипционной машиной. Построение интегрированного метода распознавания, который бы объединял сигналы различных типов, полученные в результате примения других методов, а также создавал модель регуляторного района, является актуальной задачей.
Интересным примером исследования в направлении интеграции является программа PromoterExplorer [7]. На вход программе подается высокоразмерный вектор, компонентами которого являются существенные для анализа характеристики ДНК, такие как: 1) локальное распределение совершенных пентамеров, обладающих наибольшей апостериорной вероятностью (по Байесу); 2) потенциальные CpG острова; 3) оцифрованная последовательность ДНК. Далее происходит многоуровневое обучение программы отличать последовательности промоторов от других последовательностей, не принадлежащих анализируемому классу. Причем на каждом очередном уровне обучения решающий функционал усложняется.
Задача распознавания регуляторных районов генов эукариот
Задача анализа и распознавания регуляторных районов генов эукариот является достаточно сложной и в настоящее время не решенной до конца задачей. Для решения этой задачи мы применили реляционный подход к обнаружению знаний (Relational Data Mining) [8-11]. Этот
подход и реализующая его система Discovery успешно применялись для решения ряда практических задач в различных областях знаний - психофизике, диагностике раковых заболеваний, предсказании курсов акций ценных бумаг и т. д. (смотри [Scientific Discovery Web Site]).
Реляционный подход состоит в следующем.
1. Из данных извлекается информация, интерпретируемая в онтологии Предметной Области (ПО). Для этого используются теория измерений и онтология ПО с целью символьного представления (в логике первого порядка) содержащейся в данных информации. Разработана оригинальная методика такого преобразования [12].
2. Символьное представление информации, содержащейся в данных, потребовало разработки логическо-вероятностного метода (в языке первого порядка) их анализа. Такой метод в виде системы Discovery, относящейся к классу методов обнаружения правил (rule-based) в языке первого порядка, был разработан авторами статей [8-11]. В последнее время подобные методы стали разрабатываться в рамках направления Probabilistic Logic Programming. В отличие от этих методов система Discovery основана на определенном синтезе логики и вероятности [13] в виде специального семантического вероятностного вывода (СВВ). Идея ССВ состоит в последовательном уточнении гипотез таким образом, чтобы на каждом последующем шаге получались гипотезы с большей вероятностью и определенностью. При этом осуществляется проверка статистической значимости полученного результата при помощи статистических критериев.
Формально под семантическим вероятностным выводом понимается такая последовательность правил Cb C2 , ... , Cn, что:
1) C,. = (A1 &...&A; ^ G), i = 1, ..., n;
2) Ci - подправило правила Ci + ь т. е. {Ai,..., A^ } с {Ai+1,..., A^ };
3) Prob(Q) < Prob(C; + i), i = 1, 2, ..., n - 1, где условная вероятность правила C определяется следующим образом:
Prob(Ci) = Prob(G/A1 &...&A;) = =Prob(G&A1 &...&A; )/Prob(A1&...&A;);
4) Ci - вероятностные законы, т. е. для любого подправила С' = (A1&...&Aj ^ G) правила Ci, {A1,..., Ay} с {A1,..., Ak} выполнено неравенство Prob(C') < Prob(C;);
5) Cn - сильнейший вероятностный закон, т. е. правило Cn не является подправилом никакого другого вероятностного закона.
Система Discovery практически реализует семантический вероятностный вывод и обнаруживает знания в виде множества вероятностных законов, сильнейших вероятностных законов и максимально специфических законов [8; 10; 13].
Реляционный подход был применен для решения задачи анализа регуляторных районов генов. Информацией, извлекаемой из данных (ДНК), являлись комплексные сигналы.
Комплексные сигналы (КС) определяются рекурсивно по индукции на основе элементарных сигналов:
- элементарный сигнал является КС;
- ориентация КС (прямая, симметричная, инвертированная) является КС;
- упорядоченная пара КС с расстоянием между ними, варьирующимся в определенном интервале, является КС. Пользователем указывается, что дистанция между сигналами может варьировать от min до max, и при этом имеет значение порядок расположения сигналов;
- принадлежность КС некоторому интервалу относительно старта транскрипции (либо начала фазированной последовательности) является КС. Указывает, что входной сигнал следует искать только в интервале от min до max, где min и max - абсолютные значения относительно первого символа последовательности;
- повторение КС N раз (2 < Nmin < N < Nmax) является КС. При этом расстояние между соседними копиями сигнала принадлежит заданному пользователем диапазону. Пользователь указывает Nmin, Nmax и диапазон (от min до max) расстояний между соседними повторами.
КС можно представить иерархическим деревом. Пример такого дерева в случае, когда элементарными сигналами являются нуклеотиды, приведен на рис. 1. В этом примере нук-
леотид G расположен между нуклеотидами А и Т, причем расстояние между А и О, О и Т варьируется в диапазонах, заданных пользователем. Этот комплексный сигнал повторяется как минимум дважды (Д^), и максимум Ытах раз в последовательности ДНК.
Рис. 1. Иерархическое дерево комплексного сигнала
Элементарными сигналами могут быть:
1) нуклеотиды, контекстные сигналы, любые слова в расширенном коде IUPAC (Cornish-Bowden, 1985); олигонуклеотиды [14];
2) потенциальные функциональные сайты, предсказанные по гомологии (или посредством весовой матрицы), с аннотированными последовательностями из специализированных моле-кулярно-биологических баз данных;
3) участок с консервативными для сайтов связывания конформационными или физико-химическими характеристиками (углы двойной спирали между соседними нуклеотидами, температура плавления ДНК) [15];
4) элемент вторичной структуры (Z-ДНК, шпилька РНК);
5) участок низкой сложности текста (политракт) [16];
6) сайты позиционирования нуклеосом [17].
Элементарный сигнал - неделимый сигнал, который характеризуются именем и местами в последовательности, где он присутствует.
На основе информации, извлеченной из ДНК с помощью КС, был разработан вариант системы Discovery, оперирующий этой информацией. В результате была создана система ExpertDiscovery, позволяющая пользователю (эксперту-биологу) задавать используемые элементарные сигналы и обнаруживать с их помощью КС с параметрами, заданными пользователем.
Элементарные сигналы могут задаваться экспертом интерактивно, а также загружаться в систему в виде аннотации последовательностей ДНК. Они могут быть получены применением известных программ распознавания сигналов. Самым простым примером элементарного сигнала является буква. Более сложным примером - некоторое слово. Другие элементарные сигналы могут соответствовать физико-химическим и конформационным свойствам участков последовательности.
Система ExpertDiscovery, начиная с элементарных сигналов, конструирует КС путем изменения ориентации сигналов, взятия пары сигналов с некоторым расстоянием, фиксации некоторого интервала относительно старта транскрипции, в котором должен находиться сигнал, и рассмотрением повторов сигналов. Обнаруженные КС используются для создания новых КС. Усложнение КС осуществляется в соответствии с семантическим вероятностным выводом, в котором применяются некоторые статистические критерии для проверки 3, 4-го свойства СВВ.
Таким образом, эксперт-биолог может автоматически обнаруживать КС, просматривать расположение этих сигналов в последовательностях ДНК и определять их статистические параметры на анализируемой контрастной выборке данных.
Система ExpertDiscovery
Ключевым в алгоритме системы ExpertDiscovery является класс рассматриваемых гипотез и процесс их уточнения. Для работы алгоритма требуется определить множество SetO операций (изменения ориентации, взятия пары сигналов, фиксации интервала, повторение сигналов), которые будут использоваться для генерации КС, а также задать критерии отбора КС.
На первом шаге алгоритм рассматривает в качестве первой популяции КС все элементарные сигналы. На последующих шагах мы уточняем КС текущей популяции. Для уточнения рассматриваемого КС делается следующее:
1) выбирается один из элементарных сигналов данного КС;
2) из набора операций SetO берется одна из операций, и осуществляется замена элементарного сигнала на эту операцию, примененную к некоторым другим элементарным сигналам;
3) у полученного КС проверяются критерии отбора:
• если они выполнены, то данный КС записывается в результирующее множество ResKC обнаруженных КС;
• иначе проверяются критерии ветвления. В случае их выполнения сигнал переносится в следующую популяцию;
• если ни один из предыдущих критериев не выполнился, то КС отсеивается.
После этого алгоритм переходит к рассмотрению следующего КС текущей популяции. Когда все КС текущей популяции рассмотрены, алгоритм переходит к обработке следующей популяции.
Этот цикл продолжается до тех пор, пока не получится пустая популяция КС. Результатом работы алгоритма является совокупность ResKC обнаруженных КС.
Для вычисления критериев отбора и ветвления КС необходимы две выборки YES и NO. Выборка YES содержит последовательности, содержащие сигналы, выборка NO содержит последовательности некоторых других классов или случайно сгенерированные и используется для подсчета статистических параметров сигнала.
В системе используются следующие критерии, используемые как при отборе, так и при ветвлении KC:
• порог условной вероятности КС - минимальное значение условной вероятности, которое должен иметь сигнал;
• порог статистической значимости по критерию Фишера для проверки свойств 3 и 4 СВВ.
Кроме того, для критерия отбора используется порог покрытия позитивной выборки, а для критерия ветвления - минимальная и максимальная сложность КС, количество входящих в состав КС операций.
Используемые в критериях величины определяются следующим образом:
1) условная вероятность P = a11 / (a10 + a11) принадлежности КС выборке YES, где a11 -общее количество реализаций КС на выборке YES; a10 - общее количество реализаций КС на выборке NO;
2) статистическая значимость КС по критерию Фишера - точный критерий независимости Фишера для таблиц сопряженности [18];
3) порог покрытия позитивной выборки в % - минимальный процент последовательностей выборки YES, содержащих КС.
Построение моделей и распознавание
сайтов связывания транскрипционных факторов
Регуляторные районы генов содержат в своем составе сайты связывания транскрипционных факторов (ССТФ). Компьютерная аннотация ССТФ важна для понимания регуляции экспрессии гена. Вместе с тем, задача распознавания ССТФ в настоящее время не может считаться до конца решенной.
В процессе исследования была показана эффективность системы ExpertDiscovery в экспериментах по обнаружению КС и распознаванию как выровненных последовательностей ССТФ, так и не выровненных последовательностей ССТФ.
Эксперимент 1. Выровненные выборки сайтов связывания транскрипционных факторов. В случае, когда элементарными сигналами для построения комплексных являются нук-леотиды, система ExpertDiscovery обнаруживает закономерности нуклеотидного контекста [19-22].
Мы проанализировали последовательности ДНК сайтов связывания 5-ти семейств транскрипционных факторов, SF1 (steroidogenic factor-1), SREBP (sterol regulatory element binding protein), EGR1 (early growth response factor 1), CEBP (CCAAT enhancer-binding protein), HNF4 (Hepatocyte nuclear factor 4). Обучающие данные (расширенные последовательности ДНК для экспериментально подтвержденных ССТФ этих пяти типов) были извлечены из базы данных регуляторных районов транскрипции TRRD [23] и проверены экспертами-биологами.
Выборки данных содержали 53 последовательности, соответствующие сайтам связывания SF1, 38 - сайтам SREBP (SRE типа), 22 - EGR1, 88 - CEBP и 30 - HNF4 (табл. 1). Каждая выборка данных содержала последовательности, между которыми установлено соответствие, т. е. осуществлено множественное выравнивание. Контрастные выборки последовательностей, негативное обучение, необходимое для построения метода ExpertDiscovery, и негативный контроль состояли из случайных последовательностей, сгенерированных с сохранением частот встречаемости нуклеотидов, как в выборках реальных последовательностей.
Таблица 1
Анализируемые последовательности ССТФ
ССТФ Объем выборки Длина Ошибка второго рода (перепредсказание)
последовательности ExpertDiscovery PWM
SF1 53 13 5.01E-05 6.87E-05
SREBP 38 18 1.97E-04 8.32E-04
EGR1 22 10 8.09E-04 4.06E-03
CEBP 88 28 1.03E-04 5.12E-04
HNF4 30 13 7.00E-05 2.14E-04
* Ошибка перепредсказания для системы ExpertDiscovery и метода PWM, полученная для контрольных последовательностей на фиксированном пороге, соответствующем ошибке недопредсказания равной 50 %.
Точность распознавания ССТФ системой ExpertDiscovery оценивалась в сравнении с точностью распознавания ССТФ методом оптимизированной весовой матрицы (position weight matrix, PWM [24]). Сравнение оценок точности проводилось в соответствии со стандартными процедурами скользящего контроля и «складного ножа» (bootstrap и jackknife) [25].
В табл. 1 приведены ошибки второго рода (перепредсказание) для методов ExpertDiscovery и PWM, соответствующие ошибке первого рода (недопредсказание) 50 %. Рис. 2 отражает результаты всей процедуры «складного ножа», примененной для сравнения точностей распознавания ССТФ HNF4 методами ExpertDiscovery и PWM.
Сравнение показало, что на исследованных примерах система ExpertDiscovery улавливает закономерности нуклеотидного контекста и имеет точность, сравнимую или превосходящую метод PWM. Значительное улучшение может быть достигнуто в случае адекватного размера обучающих данных, содержащих репрезентативную выборку ССТФ.
Метод PWM, наряду с другими методами распознавания ССТФ, основанными на выявлении консенсуса [26; 27], использует упрощающее априорное предположение о независимом вкладе каждой позиции в формирование комплекса ДНК/белок. Ряд работ [28-31] указывает на то, что это предположение не верно и противоречит биологическим принципам формирования комплекса и предпочтениям факторов определенных сочетаний нуклеотидов, которые совокупно вносят вклад в энергию связывания. В пределах ССТФ выделяются консерватив-
ные участки (коровые районы), разделенные вариабельными (спейсерами). Число коровых районов может быть от одного до нескольких. Наличие коровых районов связано с тем, что транскрипционные факторы имеют модульную структуру и могут содержать несколько доменов или входящих в них субъединиц, выполняющих специфичные функции. В отличие от метода PWM система ExpertDiscovery обнаруживает зависимости между нуклеотидами, достаточно удаленными друг от друга в общем случае. Комплексные сигналы (КС) покрывают биологически осмысленные подгруппы последовательностей.
Рис. 2. Зависимость ошибки перепредсказания от ошибки недопредсказания ССТФ Н№4 для методов 'ExpertDiscovery' и PWM
Для того, чтобы продемонстрировать на примере данное утверждение, рассмотрим некоторые КС, обнаруженные программой ExpertDiscovery при анализе нуклеотидных последовательностей сайтов связывания SF1. Матрица абсолютных нуклеотидных частот, приведенная в табл. 2, характеризует анализируемую выборку.
Таблица 2
Матрица абсолютных нуклеотидных частот сайта связывания SF1
1 2 3 4 5 6 7 8 9 10 11 12 13
A 7 8 3 47 51 0 0 3 3 36 9 15 17
T 10 25 1 0 0 0 0 34 10 2 10 13 9
G 27 5 6 6 1 53 53 1 2 7 18 14 21
C 9 15 43 0 1 0 0 15 38 8 16 11 6
g t C A A G G t c a g a g
* Последняя строка содержит нуклеотиды, частота встречаемости которых в данной позиции максимальна. Предположительная последовательность кора выделена заглавными буквами.
Инвариантные нуклеотидные позиции определяют консенсус сайта (см. табл. 2, заглавные буквы), или так называемый коровый район. Анализ КС, автоматически сгенерированных программой ExpertDiscovery, позволяет извлечь необходимое знание о биологической модели связывания в частном случае, по сравнению с информацией, полученной от PWM.
Системой ExpertDiscovery обнаружен КС «Consensus», соответствующий коровому району ССТФ SF1. Иерархическое дерево сигнала «Consensus» определяет пять соседних нук-леотидов, преобладающих в таблице данных.
a IJ.I.UJ.UIU
EJ S...S Distance from 0 to 0 taking into account order 0 -S..S Distance from 0 to 0 taking into account order © X" from family "_LETTER5_" © "A" from family "_LETTERS_" B S-S Distance from 0 to 0 taking into account order &■!..! Distance from 0 to 0 taking into account order : &■■(■••) Interval from 3 to 6
•■■■ ® "A" from family ".LETTERS_" S (.„) Interval from 3 to 6
® "G" from family "_LETTERS_" B (—) Interval from 3 to 6
L ■ <T> "G" from family "_LETTERS_"
G T C A A G G C A A T T T
A T C A A G G T C C A A G
G T A G A G G T C A G G A
G T C A A G G T T A C T T
T T C A A G G T A A T G A
C C C A A G G T C C A C T
T T C G A G G T C A T G G
G A C A A G G G C G C A G
G A C A A G G T C A G A A
G G C A A G G C C A C T A
G A C A A G G T C A G G A
G G C A A G G C C A C T G
G T C A A G G C T G G A G
G A C A A G G T C A G G G
Справа жирным выделены нуклеотиды, участвующие в закономерности. Запись 'Distance from 0 to 0 taking into account order' означает два соседних комплексных сигнала. Эта закономерность выполнена для 39 объектов (74 %) позитивного обучения и 45 объектов (0,3 %) негативного обучения.
Параметры комплексного сигнала: Probability - условная вероятность; Pos./Neg. Coverage - уровень покрытия, число последовательностей, удовлетворяющих закономерности; Fisher - уровень значимости сигнала по критерию Фишера.
В General information
Probability Pos. coverage Neg. coverage Fisher
46.428571% (39 / 84) 73.584906% (39 / 53) 0.281250% ( 45 / 16000 ) 0.000000
В соответствии с методологией Discovery система усложняет (уточняет) текущий КС, если условная вероятность уточненного КС увеличилась, а уровень значимости по критерию Фишера уменьшился. Далее представлен КС, полученный как уточнение КС «Consensus», который определяет две нуклеотидные позиции, фланкирующие консенсус, вероятно, информативных для ДНК / белок связывающего механизма.
Reinforced Consensus
s.^S Distance from 0 to 0 taking into account order B S...S Distance from 0 to 0 taking into account order B u Distance from 1 to 1 taking into account order ® "G" from family "_LETTER5_" © "C" from family "_LETTER5_" B (•■■) Interval from 3 to 6
© "A" from family "_LETTER5_" B-SJ Distance from 0 to 0 taking into account order B-s.-.s Distance from 0 to 0 taking into account order - (...) Interval from 3 to 6
© "A" from family "_LETTERS_" B (...) Interval from 3 to &
E- © "G" from family "_LETTER5_" & w Distance from 2 to 2 taking into account order B (•■•) Interval From 3 to 6
© "G" from family "_LETTERS_" © "A" from family "_LETTERS_"
G T C A A G G C A A T T T
A T C A A G G T C C A A G
G T A G A G G T C A G G A
G T C A A G G T T A C T T
T T C A A G G T A A T G A
C C C A A G G T C C A C T
T T C G A G G T C A T G G
G A C A A G G G C G C A G
G A C A A G G T C A G A A
G G C A A G G C C A C T A
G A C A A G G T C A G G A
G G C A A G G C C A C T G
G T C A A G G C T G G A G
G A C A A G G T C A G G G
Справа жирным выделены нуклеотиды, участвующие в КС. Запись 'Distance from 0 to 0 taking into account order' означает два соседних комплексных сигнала. Этот сигнал «Reinforced Consensus» является одним из самых значимых КС из полученной совокупности, его условная вероятность составила 93 %. Закономерность выполнена для 14 ССТФ SF1 и только для 1 объекта негативного обучения (из 16 000).
В General information
Probability 93.333333% (14/ 15 )
Pos. coverage 26.415094% (14/53)
Neg. coverage 0.006250% (1 Л 6000)
Fisher 0.000000
Параметры комплексного сигнала: Probability - условная вероятность; Pos./Neg. coverage -уровень покрытия, число последовательностей, удовлетворяющих закономерности; Fisher -уровень значимости сигнала по критерию Фишера.
Эксперимент 2. Невыровненные выборки сайтов связывания транскрипционных факторов. В случае, когда информация о выравнивании последовательностей не подается априори на вход системе ExpertDiscovery, система обнаруживает КС (1) статистически значимые, (2) иерархически усложняющиеся, (3) содержащие гэпы, без привязки к конкретным нуклео-тидным позициям [32].
Нами проведен эксперимент по сравнению точностей распознавания ССТФ системой ExpertDiscovery и PWM. В качестве модельного объекта использовалась выровненная выборка ССТФ CEBP и выборка, которая не подвергалась предварительной процедуре выравнивания. Длина последовательностей в выборке составляла 50 нуклеотидов, объем выборки -96 сайтов.
На рис. 3 приведены результаты процедуры «складного ножа», примененной для сравнения точностей распознавания ССТФ CEBP двумя методами.
Ошибка недопредсказания, %
Рис. 3. Зависимость ошибки перепредсказания от ошибки недопредсказания ССТФ СЕВР для методов ExpertDiscovery и PWM
Сравнение показало, что метод ExpertDiscovery не уступает PWM во всей области принятия решения в случае выровненных последовательностей ССТФ и имеет несколько худшую точность по сравнению с PWM в случае невыровненных последовательностей ССТФ.
Рассмотрим пример КС, обнаруженного программой ExpertDiscovery при анализе ССТФ СЕВР в случае невыровненных последовательностей сайтов. Консенсусом сайтов СЕВР представленной выборки является последовательность Т(Т/0)(Л/0)К0(Л/С)ЛЛ (рис. 4).
! ! TT il:
I
II
и
■
ISC □ G ИТ ■ A
1 3 5 7 9 11 13 15 17 19 21 23 25 27 Позиция нуклеотида в выровненной последовательности ССТФ CEBP
Рис. 4. Диаграмма относительных частоты встречаемости нуклеотидов в анализируемой выборке ССТФ CEBP
КС, покрывающий консенсус сайтов CEBP, обнаруживается, в общем случае, с некоторым смещением, что соответствует реальному расположению сайтов в ДНК последовательности. Комплексный сигнал, обнаруженный системой ExpertDiscovery при анализе ССТФ CEBP в случае невыровненных последовательностей. Слева представлена визуализация расположения сигнала в данных, справа представлено иерархическое дерево сигнала и параметры:
B -S...S Distance from 0 to 0 taking into account order 0-s.s Distance from 0 to 0 taking into account order | b® "T" from family ".LETTERS."
Distance From 2 to 2 taking into account order © T from family ".LETTERSJ' EhS-S Distance from 0 to 0 taking into account order B -S...S Distance from 0 to C taking into account order © "G" from family '.LETTERS." © "C" From family ".LETTERS." ® "ft" from Family ".LETTERS." © "A" from family ".LETTERS _"
General information
Probability Pos coverage Meg. coverage Fisher
21.649485% [21 /97) 28.000000% (21 ПЪ j 0.500000% (75 Л 5000) Г511385Е-023
А G T T A G S С A A T T T G С С A A T A A T T А A
С С T T С A G T G A G С A A A С A T A T G A с т С
G Т T T T A S T T A С G A A A T G С G T T G 6 G С
Т Т 8 с С A A T G T G G T A A G A G С с с G с С T
А А T T T T G A A A T С T T G С T T A T G С A А С
А А с T T T T С A G С A A С A T С T С A G A A А T
А А с A T A T T A A G С A A T T A T С С A G A т A
G G G G A G A G G G G T G G A G A A A G С T G G A
А Т С T G A S G С A A T С С G С С T G A A A A С T
Т С A G T T A T T T G G С A A G A A С A С A 6 G A
Т G G A A С A D С A С A T T T A T G T T G T A А G
С А T G A G G T T A G G С A A С T A T -t G T T т T
А G A A G T G A A T G G G T T A A G T T T A G с A
Т G A T A A A A A G G A A G С A A T с с T A T с G
с С G G G A S T T T G G С A A A С T с с T С С с С
с С T С С T G A T T С С G С A A A С A с с G G А T
т G G С С A A G T G A T G T A A С с С T с С T С T
G G A G A G T T G G G С A A T G T т T T G G G А A
G А G T T G A G A A A G A G С A A T с T T T T G С
6 G С С T A T T G G G С A A T A G G G T G G 6 G С
А G A A G T a G T G A С G A с A T С A T T G A T с
0 G С A G T G A T T A G С С A A T A T T G A G т D
А A G G A G A A A G G A A T T G A A A T С A G G G
Т G G A С T T G A A T G С A A С A G G A A G С A G
С A С С T G A С A G G G G G T G G G T A A A С A G
А A T A G A G T G G G С A A A С A G С A A G С T G
А G T G С A G T G A С A С A A T С T с A T С T С A
G G G T G T С T A T T G G G С A A С A G G G с G G
Т T G G С A Q G G A A С С A A T С G С T A G с С G
G С G G G G A T G A T G С A A T G T T T G G с A A
С с T G G G T T A T G С A A G A G G с с A T т G G
С A G A G T A T T T
С С T T T С T T G A С A G A T A С A T A G С A T T G G T T С G G T G A С T С T T A A A A A О С С T D G T T A С G С G T T С T G С T С С A S С T G G G С A A С С A С A 6 С D A A A G T A G С A G
A С .
G G
G A T T D
A С A G G
С G G G G
С С A С A
G G С A A
С G G T С
С С G G T
100%
80%
60%
40%
20%
0%
Следует отметить, что сайт связывания CEBP имеет очень вырожденную структуру и плохо поддается процедуре выравнивания, что сильно сказывается на качестве распознавания этого типа сайтов традиционными методами, например, с помощью PWM. Как показывает описанный выше пример (а также другие данные, не приведенные в статье), для сайтов с подобной вырожденной структурой метод ExpertDiscovery работает лучше традиционных методов распознавания. Он дает более качественное распознавание и к тому же не требует выравнивания обучающих данных.
Построение иерархических моделей регуляторных районов коэкспрессирующихся генов на основе данных о расположении потенциальных сайтов связывания транскрипционных факторов
Данный анализ проводился в случае, когда элементарными сигналами для построения комплексных являлись потенциальные ССТФ, обнаруженные методом PWM [19; 20].
В качестве группы коэкспрессирующихся генов были выбраны гены, экспрессия которых индуцируется в ответ на интерфероны (стимуляторы иммунной системы). Выборка регуля-
торных районов интерферон-индуцируемых генов эукариот была составлена на основе информации, взятой из базы данных 1Ю-ТККО [33]. Промоторные последовательности 74 генов были экстрагированы из контигов хромосом человека и фазированы [-500; +200] относительно старта транскрипции. Негативные обучающие данные были составлены из промоторных районов 2 140 генов первой хромосомы человека и также фазированы относительно старта транскрипции.
Закономерности, обнаруженные системой, могут быть проинтерпретированы как иерархически вложенные модели сигналов, начиная с простой модели, состоящей из двух ССТФ, удаленных друг от друга на варьирующее расстояние. Если расстояние между ССТФ варьирует в пределах от 10 до 40 нуклеотидов, то такая пара ССТФ образует композиционный элемент, или, в общем случае, статистически значимую пару ССТФ (табл. 3, первые три строки). ЕхреГ;В18СОУегу отбирает наиболее значимые, удовлетворяющие критериям ветвления, простые модели ССТФ и усложняет их в случае, если новые модели обладают большим значением условной вероятности и меньшим уровнем значимости по критерию Фишера (см. табл. 3, последние три строки). Наше исследование показало, что комбинации не только из двух, трех, но и более упорядоченных ССТФ являются статистически значимыми, вероятно, соответствуя транскрипционному регуляторному модулю.
Система обнаружила порядка 200 закономерностей. Число закономерностей зависит от выходных параметров, заданных пользователем: условная вероятность (больше 50 %) и уровень значимости по критерию Фишера (меньше 0,05).
Таблица 3
Иерархически усложняющиеся комплексные сигналы, обнаруженные программой ЕхреГ;В18СОУегу и соответствующие регуляторным модулям интерферон-индуцируемых генов
№ п/п
Усложняющиеся модули ССТФ
Биологическая функция
Синергизм действия факторов, усиление индукции [34]
Прологация индукции [35]
Стабилизация комплекса ДНК / белок, усиление стимулирующего эффекта [36]
Кумулятивный эффект [37]
Кумулятивный эффект
СЕВР 1КР 15СРЗ ОСТ
>ю ¡-¡^ >ю>/\1 >10 [ Д | >10 -500 + 200
£
Кумулятивный эффект
1
2
3
4
5
6
Приведенные в табл. 3 закономерности имеют биологическую значимость и известны в научной литературе. Так, пара факторов NFkB и IRF влияют на транскрипцию гена значительно сильнее, если их сайты связывания расположены на расстоянии от 10 до 40 пар оснований и образуют так называемый «композиционный элемент» (см. табл. 3, первая строка). Этот эффект известен как синергизм действия факторов. Если в промоторной области гена присутствуют сайты связывания двух транскрипционных факторов, IRF и ISGF3, то это способствует более длительной повышенной экспрессии гена в ответ на интерферон, поскольку ISGF3 действует только в первые полчаса индукции, а IRF начинает работать после, и его действие длится до 12 часов (пролонгация индукции, см. табл. 3, вторая строка). Если фактор ISGF3 связывается с двумя сайтами, расположенными на небольшом расстоянии друг от друга, это приводит к стабилизации комплекса ДНК и транскрипционных факторов и усиливает стимуляцию транскрипции (см. табл. 3, третья строка). Одновременное присутствие в промо-торном районе сайтов связывания нескольких транскрипционных факторов, работающих в иммунных клетках (IRF, STAT1, ISGF3, NF^, CEBP, OCT) и активирующихся различными путями передачи сигналов, приводит к кумулятивному эффекту этих факторов на транскрипцию (см. табл. 3, строки 4-6).
Заключение
В работе был адаптирован реляционный подход Discovery к задаче анализа регуляторных районов генов эукариот. Прежде всего, был формализован вид гипотез эксперта, комплексный сигнал, создана библиотека элементарных сигналов, разработан универсальный формат разметки последовательностей элементарными сигналами; определены операции над комплексными сигналами. Также был разработан алгоритм автоматического построения, уточнения и проверки гипотез на основании заданных экспертом критериев.
На этапе практического внедрения системы ExpertDiscovery показана применимость системы для анализа контекстной структуры регуляторных районов генов на разных уровнях структурно-функциональной иерархии.
Во-первых, система обнаруживает закономерности контекстной организации последовательностей ССТФ. В отличие от метода весовых матриц, система ExpertDiscovery обладает необходимой гибкостью для обнаружения зависимостей между нуклеотидами, достаточно удаленными друг от друга, в общем случае. Комплексные сигналы покрывают биологически осмысленные подгруппы последовательностей. Сравнение оценок точности распознавания системы ExpertDiscovery и PWM показало, что система ExpertDiscovery имеет точность, сходную или превосходящую метод PWM.
Во-вторых, используя анализ расположения ССТФ, система ExpertDiscovery осуществляет иерархический анализ регуляторных районов, обнаруживая биологически целесообразные иерархически усложняющиеся модели районов от простых композиционных моделей, состоящих из двух ССТФ, до сложных моделей сигналов, соответствующих комплексной регуляции транскрипции. Данные модели обладают прогностической силой и позволяют обнаруживать потенциальные регуляторные районы анализируемой группы генов. Учет построенных моделей может обеспечить планирование наиболее экономичного эксперимента.
Общий характер системы выгодно отличает ее от других программ распознавания. Так, закономерности, обнаруживаемые программой PromoterExplorer, упомянутой во введении, представляют собой частный случай комплексных сигналов, так как данная программа использует линейные комбинации различных характеристик промоторных районов ДНК и не учитывает закономерные взаимосвязи между ними.
Благодарности
Авторы статьи выражают благодарность Виктору Георгиевичу Левицкому за любезно предоставленную библиотеку весовых матриц и Юрию Васильевичу Кондрахину за составление контрольных выборок.
Список литературы
1. Dynan W. S. Modularity in promoters and enhancers // Cell. 1989. Vol. 58 (1). P. 1-4.
2. Arnone M. I., Davidson E. H. The hardwiring of development: organization and function of genomic regulatory systems // Development, 1997. Vol. 124 (10). P. 1851-1864.
3. Nikolov D. B, Burley S. K. RNA polymerase II transcription initiation: A structural view // Proc. Natl. Acad. Sci. USA. 1997. Vol. 94. P. 15-22.
4. Blanchette M, Bataille A. R., Chen X., Poitras C, Laganiere J., Lefebvre C, Deblois G, Gi-guere V., Ferretti V., Bergeron D, Coulombe B., Robert F. Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression // Genome Res. 2006 May. Vol. 16 (5). P. 656-668.
5. Trifonov E. N. Genetic level of DNA sequences is determined by superposition of many codes // Mol. Biol. (Mosk). 1997. Vol. 31. P. 759-767.
6. Витяев Е. Е, Орлов Ю. Л, Хомичёва И. В., Шипилов Т. И. Методы извлечения знаний и логического анализа регуляторных геномных последовательностей // Системная компьютерная биология / Отв. ред. Н. А. Колчанов, С. С. Гончаров, В. А. Лихошвай, В. А. Иванисенко. Новосибирск: Изд-во СО РАН, 2008. С. 126-136.
7. Xie X., Wu S, Lam K.-M, Yan H. PromoterExplorer: an effective promoter identification method based on the AdaBoost algorithm // Bioinformatics. 2006. Vol. 22. P. 2722-2728.
8. Витяев Е. Е. Извлечение знаний из данных. Компьютерное познание. Модели когнитивных процессов: Монография. Новосибирск, 2006. 293 с.
9. Vityaev B. Y., Kovalerchuk B. Relational Methodology for Data Mining and Knowledge Discovery // Intelligent Data Analysis. Special issue on «Philosophies and Methodologies for Knowledge Discovery and Intelligent Data Analysis» / Eds. Keith Rennolls, Evgenii Vityaev. IOS Press, 2008. Vol. 12 (2). P. 189-210.
10. Vityaev E, Kovalerchuk B. Empirical Theories Discovery based on the Measurement Theory // Mind and Machine. 2004. Vol. 14, № 4. P. 551-573.
11. Kovalerchuk B., Vityaev E. Data Mining in Finance: Advances in Relational and Hybrid methods. (Kluwer international series in engineering and computer science; SECS 547). Kluwer Academic Publishers, 2000. P. 308.
12. Kovalerchuk B., Vityaev E. Symbolic Methodology for Numeric Data Mining // Intelligent Data Analysis. Special issue on «Philosophies and Methodologies for Knowledge Discovery and Intelligent Data Analysis» / Eds. Keith Rennolls, Evgenii Vityaev. IOS Press, 2008. Vol. 12 (2). P.165-188.
13. Vityaev E. The logic of prediction. In: Mathematical Logic in Asia. Proceedings of the 9th Asian Logic Conference (August 16-19, 2005, Novosibirsk, Russia) / Ed. by S. S. Goncharov, R. Downey, H. Ono. World Scientific, Singapore, 2006. P. 263-276.
14. Vishnevsky O. V., Kolchanov N. A. ARGO: a web system for the detection of degenerate motifs and large-scale recognition of eukaryotic promoter // Nucleic. Acid. Res. 2005. Vol. 33. P.417-422.
15. Oshchepkov D. Y., Vityaev E. E, Grigorovich D. A, Ignatieva E. V., Khlebodarova T. M. SITECON: a tool for detecting conservative conformational and physicochemical properties in transcription factor binding site alignments and for site recognition // Nucleic. Acid. Res. 2004. Vol. 32 (Web Server issue). P. 208-212.
16. Orlov Y. L., Potapov V. N. Complexity: an internet resource for analysis of DNA sequence complexity // Nucleic. Acid. Res. 2004. Vol. 32 (Web Server issue). P. 628-633.
17. Levitsky V. G., Katokhin A. V., Podkolodnaya O. A, Furman D. P., Kolchanov N. A. NPRD: Nucleosome Positioning Region Database // Nucl. Acid. Res. 2005. Vol. 33. P. 67-70.
18. КендалМ., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973. 899 с.
19. Khomicheva I. V, Vityaev E. E, Ananko E. A., Levitsky V. G., Shipilov T. I. Hierarchical analysis of the eukaryotic transcription regulatory regions based on the DNA codes of transcription // Proceedings of the 3-rd Moscow conference on computional molecular biology. Moscow, Russia, July 27-31, 2007а. P. 142-144.
20. Khomicheva I. V., Vityaev E. E, Ananko E. A., Levitsky V. G., Shipilov T. I. Hierarchical analysis of the eukaryotic transcription regulatory regions based on the DNA codes of transcription.
Proceedings of the 3-rd Moscow conference on computional molecular biology. Moscow, Russia, July 27-31, 2007б. P.142-144.
21. Khomicheva I, Demin A, Vityaev E. Transcription Factor Binding Site Discovery by the Probabilistic Rules. PKDD Proceedings: Joost N. Kok, Jacek Koronacki, Ramon Lopez de Mantaras, Stan Matwin, Dunja Mladenic, Andrzej Skowron, Knowledge Discovery in Databases: PKDD 2007 // XIth European Conference on Principles and Practice of Knowledge Discovery in Databases. Warsaw, Poland, September 17-21, 2007в; Proceedings. Lecture Notes in Artificial Intelligence 4702, Springer 2007в. P. 104-109.
22. Khomicheva I. V., Vityaev E. E, Shipilov T. I., Levitsky V. G. Transcription factor binding sites recognition by the ExpertDiscovery system based on the recursive complex signals // Proceedings of the Fifth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS2006, 16-22 July, Novosibirsk, Russia), ICG, Novosibirsk, 2006. Vol. 1. P. 77-80.
23. Kolchanov N. A, Ignatieva E. V., Ananko E. A., Podkolodnaya O. A, Stepanenko I. L., Mer-kulova T. I., Pozdnyakov M. A., Podkolodny N. L., Naumochkin A. N., Romashchenko A. G. Transcription Regulatory Regions Database, (TRRD): its status in 2002 // Nucleic. Acid. Res. 2002. Vol. 30. P. 312-317.
24. Stormo G. D. DNA binding sites: representation and discovery // Bioinformatics. 2000. Vol. 16. P. 16-23.
25. Efron B., Gong G. A leisurely look at the bootstrap the jackknife and resampling // American Statistician. 1983. Vol. 37. P. 36-48.
26. Schneider T, Stephens R. Sequence logos: A new way to display consensus sequences // Nucleic. Acid. Res. 1990. Vol. 18; 20. P. 6097-6100.
27. Ulyanov A., Stormo G. Multi-alphabet consensus algorithm for identification of low specificity protein-DNA interactions // Nucl. Acid. Res. 1995. Vol. 23. P. 1434-1440.
28. Benos P. V., BulykM. L., Stormo G. D. Additivity in protein-DNA interactions: how good an approximation is it? // Nucleic. Acid. Res. 2002. Vol. 30. P. 4442-4451.
29. Man T. K, Stormo G. D. Non-independence of Mnt repressoroperator interaction determined by a new quantitative multiple fluorescence relative affinity (QuMFRA) assay // Nucleic. Acid. Res. 2001. Vol. 29. P. 2471-2478.
30. Barash Y., Elidan G., Friedman F., Kaplan T. Modeling dependencies in protein-DNA binding sites // RECOMB, 2003. P. 28-37.
31. Udalova I. A, Mott R., Field D., Kwiatkowski D. Quantitative prediction of NF-kB DNAprotein interactions // Proc. Natl. Acad. Sci. USA. 2002. Vol. 99. P. 8167-8172.
32. Khomicheva I. V., Vityaev E. E, Shipilov T. I. Discovery of the transcription factor binding sites in the aligned and unaligned DNA sequences. Proceedings of the Fifth International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2008, 22-28 June, Novosibirsk, Russia), ICG, Novosibirsk, 2008. P. 116.
33. Ананько Е. А., Бажан С. И., Белова О. Е, Кель А. Э. Механизмы регуляции транскрипции интерферон-индуцируемых генов: Описание в информационной системе IIG-TRRD // Молекулярня биология. 1997. № 31. C. 701-713.
34. Leblanc J. F., Cohen L., Rodrigues M., Hiscott J. Synergism between distinct enhanson domains in viral induction of TI the human beta interferon gene // Mol. Cell. Biol. 1990. Vol. 10 (8). P. 3987-3993.
35. Lew D. J, Decker T, Strehlow I., Darnell J. E. Overlapping elements in the guanilate-binding protein gene promoter TI mediate transcriptional induction by alpha and gamma interferons // Mol. Cell. Biol. 1991. Vol. 11 (1). P. 182-191.
36. Li X, Leung S., Burns C, Stark G. R. Cooperative binding of Stat 1-2 heterodimers and ISGF3 to tandem DNA elements // Biochimie. 1998. Vol. 80. P. 703-710.
37. Mirkovitch J, Decker T, Darnell J. E. Interferon induction of gene transcription analyzed by in vivo footprinting // Mol. Cell. Biol. 1992. Vol. 12 (1). P. 1-9.
Материал поступил в редколлегию 08.10.2009
26
M. B. XoMMHeBa, E. E. BuiTieB, E. B. MrHaTbeBa, E. A. AHaHbKO, T. M. HlnnnnoB
I. V. Khomicheva, E. E. Vityajev, E. V. Ignatjeva, E. A. Anan'ko, T. I Shipilov PROGRAM SYSTEM EXPERTDISCOVERY FOR DNA REGULATORY REGIONS ANALYSIS
The appearance of advanced experimental technologies in such fields of modern biology as genomics, transcriptomics, proteomics, cell biology, nanobioengineering, est. resulted in exponential growth of experimental data, that need to be analyzed and mined. The new methods of intelligent data analysis are challenged to solve the task of integration of primary raw experimental data, that are poorly consistent and structured, contain gaps, and separately can't reconstruct completely the biologic system or process. We developed the integrated data mining method ExpertDiscovery, discovering the complex regularities of eukaryotic DNA regulatory regions organization. As the elementary signals to build the complex signals the system takes the different DNA characteristics, obtained, for instance, by another data mining tools. Using the regularities, discovered on the levels of research, the system allows to construct the hierarchical model of regulatory regions of specific group of genes.
Keywords: complex signal, relational data mining, integrated system, hierarchical analysis, regulatory regions of genes, recognition, accuracy comparison.