Научная статья на тему 'Comatch – поиск партнерских сайтов связывания с транскрипционными факторами'

Comatch – поиск партнерских сайтов связывания с транскрипционными факторами Текст научной статьи по специальности «Медицинские технологии»

CC BY
165
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сайты связывания / транскрипционные факторы / ДНК / РНК / весовые матрицы / Р-значение / алгоритм / пары сайтов связывания / binding sites / transcription factors / DNA / RNA / position weight matrices / P-value / algorithm / binding sites pairs

Аннотация научной статьи по медицинским технологиям, автор научной работы — С И. Никитин, Е С. Черемушкин

Распознавание коротких последовательностей, называемых сайтами связывания с транскрипционными факторами, в регуляторных районах ДНК является одной из важнейших задач биоинформатики ввиду того, что эта задача существенно улучшает понимание механизмов работы живой клетки. В настоящее время разработано около 100 алгоритмов решения данной задачи, и их количество непрерывно растет. Однако единственно верное решение на данный момент не найдено, так как на вероятность связывания фактора с некоторым участком ДНК влияет большое количество параметров. Например, в сложных живых организмах транскрипционные факторы во время связывания объединяются в составные комплексы, что позволяет говорить о необходимости исследования таких связей. В рамках данной задачи авторами разработано средство поиска статистически перепредставленных пар сайтов, один из которых принадлежит наперед заданному фактору, а другой фактор необходимо найти. Метод использует два набора последовательностей – экспериментальный и фоновый, и находит значимые статистические различия экспериментальных результатов по отношению к фоновым данным. Также были проведены исследования зависимости результата от взаимного расстояния между матрицами, выбора пороговых значений для весовых матриц и влияния раз-мера фоновых данных на итоговую значимость результатов. Результатом работы программы является набор таких пар с соответствующими P-значениями, характеризующими вероятность получения такого результата по случайным причинам, а также значение FDR (False Discovery Rate), характеризующее вероятность ошибочного предсказания. Для последовательностей, перенасыщенных сайтами связывания для выбранной весовой матрицы, был реализован режим коррекции Р-значения. В этом случае исключается зависимость P-значения от перепредставленности фиксированной матрицы и повышается значимость полученных результатов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским технологиям , автор научной работы — С И. Никитин, Е С. Черемушкин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMATCH. A SEARCH ENGINE FOR TRANSCRIPTION FACTORS COOPERATIVE BINDING SITES

Recognition of short sequences called transcription factor binding sites is one of the most important problems in bioinformatics. Transcription factor binding sites are short sequences located in DNA regulatory areas and play a key role in transcription process, which is a basic element of every living organism. About 100 algorithms are developed to solve this problem and a number of algorithms is still growing. However, there is no universal algorithm due to many factors that influ-ence binding. For example, in complex living organisms transcription factors are joining into complexes during binding to DNA. Here we present a novel algorithm, which predicts statistically overrepresented transcription factors binding sites pairs. In this case the first site in a pair belongs to initially known fixed transcription factor and another factor should be found. The method uses two kinds of input data: an experimental sequence set and a background sequence set. It searches for significant difference between sites in experimental and background sets. As a result, a user obtains the list of binding sites pairs with P-values, which characterizes the probability to get a pair accidentally, and FDR (False Discovery Rate) is calculated for every pair. In addition, the authors developed a P-value correc-tion option for datasets overrepresented by the anchor matrix binding sites. In this case, dependence between P-value and the selected anchor matrix is made invisible. As a result, the significance of obtained results increases.

Текст научной работы на тему «Comatch – поиск партнерских сайтов связывания с транскрипционными факторами»

УДК 519.688 Дата подачи статьи: 13.10.15

Б01: 10.15827/0236-235Х.113.101-107

СОМАТСН - ПОИСК ПАРТНЕРСКИХ САЙТОВ СВЯЗЫВАНИЯ С ТРАНСКРИПЦИОННЫМИ ФАКТОРАМИ

С.И. Никитин, аспирант, [email protected]; Е.С. Черемушкин, к.ф.-м.н., научный сотрудник, evgeny.cheryomushkin@gmaiLcom (Институт систем информатики им. А.П. Ершова СО РАН; компания «Новые вычислительные системы в биологии», просп Лаврентьева, 6, г. Новосибирск, 630090, Россия)

Распознавание коротких последовательностей, называемых сайтами связывания с транскрипционными факторами, в регуляторных районах ДНК является одной из важнейших задач биоинформатики ввиду того, что эта задача существенно улучшает понимание механизмов работы живой клетки. В настоящее время разработано около 100 алгоритмов решения данной задачи, и их количество непрерывно растет. Однако единственно верное решение на данный момент не найдено, так как на вероятность связывания фактора с некоторым участком ДНК влияет большое количество параметров. Например, в сложных живых организмах транскрипционные факторы во время связывания объединяются в составные комплексы, что позволяет говорить о необходимости исследования таких связей.

В рамках данной задачи авторами разработано средство поиска статистически перепредставленных пар сайтов, один из которых принадлежит наперед заданному фактору, а другой фактор необходимо найти. Метод использует два набора последовательностей - экспериментальный и фоновый, и находит значимые статистические различия экспериментальных результатов по отношению к фоновым данным. Также были проведены исследования зависимости результата от взаимного расстояния между матрицами, выбора пороговых значений для весовых матриц и влияния размера фоновых данных на итоговую значимость результатов.

Результатом работы программы является набор таких пар с соответствующими P-значениями, характеризующими вероятность получения такого результата по случайным причинам, а также значение FDR (False Discovery Rate), характеризующее вероятность ошибочного предсказания. Для последовательностей, перенасыщенных сайтами связывания для выбранной весовой матрицы, был реализован режим коррекции Р-значения. В этом случае исключается зависимость P-значения от перепредставленности фиксированной матрицы и повышается значимость полученных результатов.

Ключевые слова: сайты связывания, транскрипционные факторы, ДНК, РНК, весовые матрицы, Р-значение, алгоритм, пары сайтов связывания.

Совершенствование методов исследований в молекулярной биологии и генетике привело к лавинному нарастанию объемов экспериментальных данных. Благодаря этому все более востребованными становятся производительные компьютерные технологии, предназначенные для автоматизации анализа, хранения и преобразования результатов, полученных в лабораториях, что, в свою очередь, дает импульс научной деятельности в области биоинформатики [1].

Несмотря на молодость этой науки, а биоинформатика появилась в 1970-х годах, в ней уже сформировались некоторые традиционные направления исследований, такие как анализ ДНК и РНК, распознавание функциональных сайтов, реверс-моделирование пространственных структур биополимеров и т.п.

Одной из наиболее важных задач является разработка алгоритмов распознавания сайтов связывания с транскрипционными факторами (ССТФ) (см., например [2]). Как известно, синтез нового белка в клетке начинается с процесса транскрипции, то есть считывания информации ДНК с помощью РНК-полимеразы (см. рисунок). Фермент РНК-полимераза определяет начало необходимого участка ДНК, присоединяется к нему и производит считывание РНК. РНК-полимераза не может присоединиться к ДНК без участия транскрипционных

факторов, специфических белков, которые формируют место для посадки РНК-полимеразы. Эти белки прикрепляются к специфичным участкам -ССТФ. Различные белки присоединяются к различным по набору нуклеотидов участкам ДНК.

На сегодня разработано порядка 100 алгоритмов распознавания ССТФ. Такие алгоритмы используют нейронные сети [3], различные статистические модели [4], основаны на оценке физико-химических свойств [5], на использовании олиго-нуклеотидных матриц [6], весовых матриц [7] и др., а также учитывают комбинации ССТФ, контекст и/или гомологичные последовательности других организмов [8]. Однако невозможно выделить какой-либо алгоритм в качестве лидера. Все существующие алгоритмы имеют как свои достоинства, так и недостатки или ограничения, а качество распознанных данных очень низкого уровня [9].

Существует несколько моделей, используемых для поиска сайтов связывания белков с ДНК, наиболее распространенными среди них являются представление в виде консенсуса (регулярного выражения) и в виде позиционной весовой матрицы (ПВМ, PWM - position weight matrix) [4]. Консенсус имеет вид слова, составленного из нуклеоти-дов, наиболее часто встречающихся на соответствующих позициях сайта (табл. 1). На каждой по-

Схематичное изображение процесса транскрипции. Сверху вниз: начало синтеза транскрипции (РНК-полимераза присоединяется к участку ДНК, наполненному транскрипционными факторами); РНК полимераза движется вдоль цепи ДНК, производя матричную РНК; завершение синтеза матричной РНК (РНК-полимераза отсоединяется от ДНК, а матричная РНК обрабатывается далее, обычно производя белок

A schematic diagram of a transcription process. From top downward: a) transcription initiation (RNA-polymerase binds with a specific DNA area with transcription factors); b) transcription elongation (RNA-polymerase moves along a DNA chain and produces mRNA); c) transcription termination (RNA polymerase unbinds from a DNA chain and releases the newly synthesized mRNA (mRNA usually used to produce new proteins))

зиции консенсуснои последовательности стоит буква, которая наиболее часто встречается в соответствующей позиции сайта. Если часто встречаются две или более букв, то применяется буква, вы-

бранная согласно определенному коду. Позиции, не имеющие фиксированного нуклеотида, обозначают вырожденным символом в соответствии с нормами IUPAC Консенсусы хорошо подходят

для описания консервативных (редко меняющихся) последовательностей сайтов связывания факторов транскрипции.

Таблица 1 Пример формирования и описания последовательности ССТФ в виде консенсуса

Table 1

The example showing how to build consensus sequence for transcription factor binding site

codB CCCACGAAAACGATTGCTTTTT

purE GCCACGCAACCGTTTTCCTTGC

pyrD GTTCGGAAAACGTTTGCGTTTT

purT CACACGCAAACGTTTTCGTTTA

cvpA CCTACGCAAACGTTTTCTTTTT

purC GATACGCAAACGTGTGCGTCTG

purM GTCTCGCAAACGTTTGCTTTCC

purH GTTGCGCAAACGTTTTCGTTAC

purL TCTACGCAAACGGTTTCGTCGG

Консенсус ACGCAAACGTTTTCGT

Однако для варьирующихся последовательностей консенсусы недостаточно функциональны. ПВМ, которые впервые были введены для характеристики сайтов инициации транскрипции и трансляции у E.coli (кишечная палочка), гораздо лучше подходят для описания сайтов связывания факторов транскрипции и способны количественно охарактеризовать частые и редкие вариации в последовательности сайтов.

Таблица 2 Пример последовательности ССТФ в виде позиционной весовой матрицы

Table 2

The example of a transcription factor binding site as a position weight matrix

PWM a C G c A A A C G t T T k C k T

A 6 0 0 2 9 9 8 0 0 1 0 0 0 0 0 0

C 1 8 0 7 0 0 1 9 0 0 0 0 0 9 1 0

G 1 1 9 0 0 0 0 0 0 1 1 0 5 0 5 0

T 1 0 0 0 0 0 0 0 0 7 8 9 4 0 3 9

Позиционная весовая матрица представляет собой матрицу размера 4*Ь, где Ь - длина сайта, а номер столбца соответствует позиции нуклеотида в сайте. В таблице 2 по горизонтали расположены позиции в сайте связывания с ТФ, а по вертикали количество букв, встретившихся в соответствующей позиции в экспериментально известных сайтах. Например, в группе экспериментальных сайтов в первой позиции шести сайтов встретилась буква А, в одном сайте буква С, в одном - буква G и в одном - буква Т. В каждой ячейке матрицы хранится частота встречаемости_/-го нуклеотида на г-й позиции. Вес, порождаемый матрицей при выравнивании с некоторым участком последовательности, обычно вычисляется как сумма элементов матрицы, соответствующих нуклеотидам, стоящим в каждой позиции рассматриваемого участка. Для удобства полученное значение нормируют на отре-

зок [0, 1] следующим образом: w =

( w - w )

V c min /

(w

О

где wmin и wmax - минимальныи и максимальный вес последовательности соответственно.

Таким образом, ПВМ предоставляет достаточно полное описание участка ДНК, с которым способен связываться конкретный белок, и может быть применена при сканировании геномной последовательности для поиска сайтов, дающих достаточно хороший вес w, приблизительно соответствующий вероятности связывания белка с последовательностью. Использование ПВМ позволяет достаточно эффективно предсказывать сайты связывания белков. Однако следует отметить, что у весовых матриц есть свои недостатки. Одним из них является то, что стандартная ПВМ не учитывает взаимное влияние соседних позиций сайта, однако наличие таких зависимостей было показано для некоторых факторов [10].

Авторы данного исследования разработали метод поиска статистически перепредставленных пар сайтов связывания, из которых одна матрица является фиксированной, а другая может варьироваться. Пользователь может задать длину окна, в которое должны попадать пары сайтов, ориентацию сайтов, а также направление последовательностей. Для каждой пары матриц программа вычисляет частоту встречаемости, p-value, и долю ложных отклонений гипотез (FDR, False Discovery Rate). Одной из матриц в паре будет выступать фиксированная наперед заданная матрица, другой матрицей будет каждая матрица из профиля, заданного пользователем. Данный метод включает в себя использование алгоритма match для распознавания ССТФ с помощью весовых матриц, распространяемого компанией Biobase.

Алгоритмы

Опишем общую идею алгоритма.

Для каждой фиксированной позиции p рассмотрим все сайты связывания, распознанные на отрезке [p, p+win], где win - заданный размер окна. Для очередного найденного сайта St=(xt, Mk) можно рассчитать число пар данного сайта с остальными сайтами, попавшими в рассматриваемый отрезок. Таким образом, сформируем таблицу Tk:

Matrix-1 Matrix-2 Matrix-3 Matrix-4 Matrix-Am

Count-1 Count-2 Count-3 Count-4 Count-Am

Для очередного распознанного сайта корректируем значения следующим образом.

1. Вычитаем из таблицы сайты, которые выпали после сдвига окна, то есть вычитаем все такие, что х< Хк -1, если Хк > Хк-1.

2. Добавляем к значениям таблицы те распознанные сайты связывания, которые попали в рассматриваемое окно после сдвига.

3. Заполняем результирующую таблицу Т путем добавления значений из таблицы Тк.

4. Переходим к следующему сайту.

Далее на основании полученной таблицы Т и фоновых данных подсчитаем статистику для всех пар матриц, которые подходят заданным входным параметрам. Для каждой такой пары матриц вычисляем следующие параметры.

• Средняя частота встречаемости пары

F(Mk, М) = Т(Мк, М) * 1000 / ЬБ, win 2

где LS = Y,

L --

, L > win,

% L

< win.

• Средняя фоновая частота встречаемости пары Fe(Mk, М/) = М х РЕ(Мк, М/) х win / wino, где wino -размер окна, с которым вычислены фоновые данные; РЕ(Мк, М1) - частота встречаемости пары матриц в фоновом наборе данных; М - понижающий множитель, значение которого зависит от входных данных. Значение М тем меньше, чем сильнее фиксируется модель распознавания. Например, для самого общего случая, когда рассматривается модель с учетом любой позиции фиксированной матрицы и учитываются все направления (модель **), М = 1. В то же время, если установить конкретную позицию фиксированной матрицы (например, фиксированная матрица должна стоять первой в паре), М примет значение 'А. Также, если зафиксировать какое-либо направление (например модель >*), получим М = 3/8 и так далее.

• Значение 5 = \Ге - / Я,

М

fwin

™ winn где R = - 0

* R * LS

LPS = £

LPS

L —

2 l

* win, L, > win,

< win.

• Р-значение р = 2хф(Б), где Ф - функция стандартного нормального распределения.

В случае сильного перепредставления сайтов фиксированной весовой матрицы в фоновом наборе последовательностей рекомендуем вычислять восстановленное Р-значение: р = 2хф(БСО)Т),

ГДе Scorr =

F =-

\Fe - F

I corr

R

N *iooo

F =

corr

SF,

~F\

F,

I, (А -¿м, )■

Здесь ЬМ1 - длина сайта фиксированной матрицы; N - количество распознанных сайтов фиксированной матрицы; БР(Мк) - количество распознанных сайтов матрицы Мк в фоновом наборе последовательностей.

• FDR (false discovery rate) - отношение ошибочно распознанных пар сайтов к общему числу распознанных пар сайтов. Если pval - набор P-зна-чений, упорядоченных по возрастанию, pvalCount - количество элементов в массиве pval, то для каждого pvali найдем fdrt следующим образом:

for (i = 0; i < pvalCount)

Ifdr = min(l.0,pvalj *(pvalCount/i

Пример работы программы представлен в таблице 3. Найденные пары сайтов отсортированы в порядке возрастания p-value. Matrixl - это фиксированная матрица; Matrixl - варьирующая матрица; F - частота встречаемости данной пары в пользовательском наборе данных; Fcorr - частота встречаемости пары в пользовательском наборе, скорректированная с учетом различия частот фиксированной матрицы в пользовательском наборе и в фоновом наборе последовательностей; Fe - фоновая частота пары, оцененная на основании фоновой выборки. Score - характеристика отличия частот в пользовательской и фоновой выборках с учетом дисперсии.

Для сравнения в таблице 4 представлены результаты, полученные без применения коррекции p-value. Для вычисления Score, в отличие от предыдущей таблицы, используется оригинальная частота пары сайтов F, которая сравнивается с Fe. Частота F не скорректирована, то есть не учитывает перепредставленность фиксированной матрицы V$AP1_Q6_02 в пользовательской выборке. Этот режим оценивает различие представленности данной пары по отношению к фоновой выборке.

В обоих случаях зафиксирована весовая матрица V$VJUN_01. Анализ проводился на данных JUN ChIP из библиотеки Proteome. Коррекция P-значения включена, так как JUN ChIP области перенасыщены сайтами матрицы V$VJUN_01.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выбор размера окна для анализа

Какой-либо стратегии выбора размера окна нет: пользователь может самостоятельно решить, какое окно использовать. По умолчанию используется окно win = 200 нуклеотидов. Тесты показали, что нет прямой зависимости расстояния между сайтами в паре и качеством распознанных результатов. Для исследования этого вопроса рассматривалась пара матриц Ets/AML на промоторах и в межгенных областях разной длины (1 000, 2 000, 11 000 нуклеотидов для каждого вида данных). Результаты показали случайное распределение расстояния между сайтами в паре.

Выбор пороговых значений для весовых матриц

Точный подбор пороговых значений для весовых матриц, возможно, имеет некоторое положи-

Таблица 3

Результат работы программы comatch c фиксированной матрицей V$AP1_Q6_02 на примере JUN ChIP данных

Table 3

Comatch output data for the V$AP1_Q6_02 anchor matrix and JUN ChIP dataset

Matrix1 Matrix2 F F corr Fe Score p-value FDR

V$AP1_Q6_02 V$CREB1_Q6 96.71919 58.06734 28.83838 13.59777 0 0

V$AP1_Q6_02 V$ERALPHA_Q6_01 144.4394 86.71712 53.50927 10.10403 0 0

V$AP1_Q6_02 V$HMGIY_Q3 271.137 162.7826 306.5361 6.263606 0 0

V$AP1_Q6_02 V$TATA_01 115.889 69.57636 140.758 5.63142 0 0.000001

V$AP1_Q6_02 V$FREAC3 01 120.2709 72.2071 123.7488 5.508862 0 0.000001

V$AP1_Q6_02 V$MRF2_01 10.98388 6.594398 14.95683 5.469942 0 0.000001

V$AP1_Q6_02 V$HNF3B_Q6 53.60161 32.18082 58.68057 5.339473 0 0.000002

V$AP1_Q6_02 V$PLZF_02 238.5489 143.2177 242.3141 5.187373 0 0.000004

V$AP1_Q6_02 V$FAC1_01 217.8989 130.8201 204.8044 5.117321 0 0.000006

V$AP1_Q6_02 V$ARID5A 03 25.38238 15.23883 37.16886 5.114948 0 0.000005

V$AP1_Q6_02 V$DRI1_01 18.17015 10.90882 23.06163 4.943014 0.000001 0.000011

V$AP1_Q6_02 V$CDX2_Q5_02 36.78822 22.08656 38.94254 4.934135 0.000001 0.000011

V$AP1_Q6_02 V$HOXB13 01 695.2369 417.3997 647.1451 4.900617 0.000001 0.000012

V$AP1_Q6_02 V$ISL1_Q3 31.87403 19.13623 36.50681 4.859901 0.000001 0.000013

V$AP1_Q6_02 V$MEF2_03 18.11821 10.87764 23.93164 4.830111 0.000001 0.000015

V$AP1_Q6_02 V$MEF2A_Q6 20.31888 12.19886 31.53836 4.826382 0.000001 0.000014

Таблица 4

Результаты, полученные без применения коррекции P-значения

Table 4

Results without P-value correction

Matrix1 Matrix2 F Fe Score p-value FDR

V$AP1_Q6_02 V$CREB1_Q6 96.71919 28.83838 31.57922 0 0

V$AP1_Q6_02 V$ERALPHA_Q6_01 144.4394 53.50927 27.66695 0 0

V$AP1_Q6_02 V$ZIC1_05 653.9175 346.697 22.43977 0 0

V$AP1_Q6_02 V$RFX_Q6 187.4011 91.31675 20.53217 0 0

V$AP1_Q6_02 V$MAF_Q4 175.6642 85.07334 19.92911 0 0

V$AP1_Q6_02 V$BEN_01 312.1448 164.399 19.87424 0 0

V$AP1_Q6_02 V$SREBP_Q6 208.551 103.704 18.5197 0 0

V$AP1_Q6_02 V$RFX1_01 164.3038 88.33033 17.8143 0 0

V$AP1_Q6_02 V$P53_Q3 126.7756 66.18529 16.4497 0 0

V$AP1_Q6_02 V$PBX_Q3 218.23 111.6939 16.29779 0 0

V$AP1_Q6_02 V$GKLF_Q4 224.3192 123.6162 15.91999 0 0

V$AP1_Q6_02 V$IK_Q5_01 167.0044 95.84678 15.90287 0 0

V$AP1_Q6_02 V$DBP_Q6 360.8192 205.0278 15.90065 0 0

V$AP1_Q6_02 V$ERALPHA_01 83.29444 41.92043 15.4965 0 0

V$AP1_Q6_02 V$P53 04 179.5138 98.41349 15.35163 0 0

V$AP1_Q6_02 V$REST_Q5 62.65747 32.57349 15.2094 0 0

тельное влияние на результат. Иными словами, некоторые пороговые значения лучше подходят для распознавания пар сайтов связывания.

Авторы предлагают использовать профиль vertebrate_шn_redundant_minFN.prf, который минимизирует ошибку исключения верных результатов. Такой статистики достаточно для большинства весовых матриц. Если пользователь хочет использовать другой профиль, фоновая статистика также должна быть пересчитана с помощью алгоритма, представленного далее. Алгоритм получения фоновой статистики тоже встроен в разработанное авторами java-приложение.

Очевидно, что для некоторых матриц можно получить очень мало распознанных результатов, поэтому пользователю следует использовать достаточно большие наборы последовательностей, чтобы получить статистику по таким весовым матрицам.

Выбор фонового набора последовательностей

Количество сайтов в разных наборах последовательностей различно для разных матриц. Некоторые сайты перепредставлены во всех регуля-

торных областях, другие сайты равномерно распределены между промоторами и межгенными участками. Предлагаем использовать промоторные регионы в качестве фонового набора последовательностей. Таким образом, фиксируется область применения описываемого алгоритма только для регуляторных регионов, что хорошо соотносится с задачей распознавания регуляторных модулей. В то же время пользователь не ограничен каким-либо набором последовательностей и может выбрать любые данные для расчета фоновой статистики.

Получение файла фоновой статистики

Для получения корректного файла фоновой статистики требуется большое количество фоновых данных. Для расчета фоновой статистики требуется не менее 200 групп последовательностей с суммарной длиной 50 000 нуклеотидов в каждой группе. Файл фоновой статистики содержит три набора данных: частота встречаемости распознанных сайтов связывания, частота встречаемости и стандартное отклонение пар распознанных сайтов связывания для каждой пары весовых матриц. Обозначим группы последовательностей О^ количество групп gCount, количество последовательностей в одной группе seq_in_group.

1. Разделим исходный набор на группы по seq_in_group последовательностей в каждой. Если в последнюю группу попало меньше, чем seq_in_group последовательностей, исключаем ее из дальнейших вычислений.

2. Для каждой группы Оi проводим поиск пар Р'к,\ (рассматриваются все направления матриц, все обходы последовательностей, а также позиции матриц в парах ММ1 и М/Мк).

3. Вычисляем частоты встречаемости распознанных сайтов связывания, частоты встречаемости и стандартные отклонения пар распознанных сайтов связывания.

4. Сохраняем статистику в файл в соответствии с форматом.

• Частота встречаемости сайтов связывания

SF(Mk): SF(Mk)=-

LS„

-х 1000,

Ls - Lk , L > Lk ,

к Г|0,к <ьк,

где Ьк - длина матрицы; Мк, Ы'к - количество сайтов связывания, распознанных матрицей Мк в группе О.

• Частота встречаемости пар сайтов связывания

Р¥(Мк, М):

1 Рк,1

PF (Mk, Mt ) = -

LS

-х 1000,

LS = Y

T win0

L---, L > win,,

L

—, L, < win,,.

21

• Стандартное отклонение пар сайтов связывания PSD(Mk, Ml): PSD (Mk, Mi ) =

gCount * LPS Г"" (Pi' - )2 / SCO""1

LS2

х1000,

1 Pk

Ek J =

gCount

LPS = X

L win0

' win, L > win0,

LL 2

, L. < win„

Comatch можно запускать в двух режимах: в стандартном и с коррекцией P-значения. В зависимости от этого пользователь получит разные P-зна-чения и FDR. Пользователь сам решает, какой режим использовать. Авторы рекомендуют включать коррекцию P-значения в ситуациях, когда входной набор последовательностей сильно обогащен сайтами исследуемой фиксированной весовой матрицы. В этом случае исключается зависимость P-значения от перепредставленности фиксированной матрицы и можно утверждать, что получены значимые результаты для пар с P-значением до 0,05.

В ином случае (без использования коррекции P-значения) в результатах отразится общая перепредставленность каждой конкретной пары сайтов связывания по сравнению с другими парами в фоновой статистике. Имеет смысл использовать этот режим, если входные данные не перенасыщены сайтами фиксированной весовой матрицы.

В результате разработана программа, которая проводит поиск перепредставленных пар сайтов связывания в наборе последовательностей, причем одна из весовых матриц в паре фиксированная. Результатом ее работы является файл, в котором для каждой пары содержатся P-значения и значения FDR.

FDR определяет процент ложных результатов из тех результатов, которые имеют меньший или такой же FDR.

Результаты тестов (в том числе приведенного примера) показали, что разработанный алгоритм верно предсказывает пары вероятных сайтов связывания, активируемых совместно, находит значимые статистические различия по сравнению с фоновыми значениями.

Работа выполнена по заказу компании Biobase GmbH с использованием БД Transfac.

Литература

1. Schattner P1. Genomics made easier: an introductory tutorial to genome datamining. Genomics, 2009, vol. 93, no. 3, pp. 187-95.

2. Hannenhalli S1. Eukaryotic transcription factor binding sites—modeling and integrative search methods. Bioinformatics, 2008, vol. 24, no. 11, pp. 1325-1331.

3. Liu D., Xiong X., DasGupta B., Zhang H. Motif discoveries in unaligned molecular sequences using self-organizing neural network. IEEE Transactions on Neural Networks, 2006, vol. 17, pp. 919-928.

4. Down T.A., Hubbard T.J.P. NestedMICA: sensitive inference of over-represented motifs in nucleic acid sequence. Nucleic Acids Research, 2005, vol. 33, pp. 1445-1453.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Djordjevic M., Sengupta A.M., and Shraiman B.I. A biophysical approach to transcription factor binding site discovery. Genome Res., 2003, vol. 13, no. 11, pp. 2381-2390.

6. Liang S. cWINNOWER algorithm for finding fuzzy DNA motifs. IEEE Computer Society Bioinformatics Conf., 2003, pp. 260-265.

7. Kel A.E., Gobling E., Reuter I., Cheremushkin E., Kel-Margoulis O.V. and Wingender E. MATCH: a tool for searching transcription factor binding sites in DNA sequences. Nucleic Acids Research, 2003, vol. 31, no. 13, pp. 3576-3579.

8. Carmack C.S., McCue L.A., Newberg L.A., Lawrence C.E. PhyloScan: identification of transcription factor binding sites using cross-species evidence. Algorithms for Molecular Biology, 2007, vol. 2, p. 1.

9. Modan K. Das and Ho-Kwok Dai. A survey of DNA motif finding algorithms. BMC Bioinformatics, 2007, vol. 8 (suppl 7), p. 21.

10. Zhou Q., Liu J.S. Modeling within-motif dependence for transcription factor binding site predictions. Bioinformatics, 2004, vol. 20, no. 6, pp. 909-916.

DOI: 10.15827/0236-235X.113.101-107 Received 13.10.15

COMATCH. A SEARCH ENGINE FOR TRANSCRIPTION FACTORS COOPERATIVE BINDING SITES Nikitin S.I., Postgraduate Student, [email protected];

Cheremushkin E.S., Ph.D (Physics and Mathematics), Research Associate, [email protected]

(A.P. Ershov Institute of Informatics Systems (IIS), Siberian Branch of the Russian Federationn Academy of Sciences, Lavrentev Av. 6, Novosibirsk, 630090, Russian Federation;

Novel Computing Systems in Biology, Lavrentev Av. 6, Novosibirsk, 630090, Russian Federation)

Abstract. Recognition of short sequences called transcription factor binding sites is one of the most important problems in bioinformatics. Transcription factor binding sites are short sequences located in DNA regulatory areas and play a key role in transcription process, which is a basic element of every living organism. About 100 algorithms are developed to solve this problem and a number of algorithms is still growing. However, there is no universal algorithm due to many factors that influence binding. For example, in complex living organisms transcription factors are joining into complexes during binding to DNA.

Here we present a novel algorithm, which predicts statistically overrepresented transcription factors binding sites pairs. In this case the first site in a pair belongs to initially known fixed transcription factor and another factor should be found. The method uses two kinds of input data: an experimental sequence set and a background sequence set. It searches for significant difference between sites in experimental and background sets.

As a result, a user obtains the list of binding sites pairs with P-values, which characterizes the probability to get a pair accidentally, and FDR (False Discovery Rate) is calculated for every pair. In addition, the authors developed a P-value correction option for datasets overrepresented by the anchor matrix binding sites. In this case, dependence between P-value and the selected anchor matrix is made invisible. As a result, the significance of obtained results increases.

Keywords: binding sites, transcription factors, DNA, RNA, position weight matrices, P-value, algorithm, binding sites pairs.

References

1. Schattner P1. Genomics made easier: an introductory tutorial to genome datamining. Genomics. 2009, vol. 93, no. 3, pp. 187-195.

2. Hannenhalli S1. Eukaryotic transcription factor binding sites - modeling and integrative search methods. Bioinformatics. 2008, vol. 24, no. 11, pp. 1325-1331.

3. Liu D., Xiong X., DasGupta B., Zhang H. Motif discoveries in unaligned molecular sequences using self-organizing neural network. IEEE Transactions on Neural Networks. 2006, vol. 17, pp. 919-928.

4. Down T.A., Hubbard T.J.P. NestedMICA: sensitive inference of over-represented motifs in nucleic acid sequence. Nucleic Acids Research. 2005, vol. 33, pp. 1445-1453.

5. Djordjevic M., Sengupta A.M., Shraiman B.I. A biophysical approach to transcription factor binding site discovery. Genome Res. 2003, vol. 13, no. 11, pp. 2381-2390.

6. Liang S. cWINNOWER algorithm for finding fuzzy DNA motifs. IEEE Computer Society Bioinformatics Conf. 2003, pp. 260-265.

7. Kel A.E., Gobling E., Reuter I., Cheremushkin E., Kel-Margoulis O.V., Wingender E. MATCH: a tool for searching transcription factor binding sites in DNA sequences. Nucleic Acids Research. 2003, vol. 31, no. 13, pp. 3576-3579.

8. Carmack C.S., McCue L.A., Newberg L.A., Lawrence C.E. PhyloScan: identification of transcription factor binding sites using cross-species evidence. Algorithms for Molecular Biology. 2007, vol. 2, p. 1.

9. Modan K Das and Ho-Kwok Dai: A survey of DNA motif finding algorithms. BMC Bioinformatics. 2007, vol. 8 (suppl 7), p. 21.

10. Zhou Q., Liu J.S. Modeling within-motif dependence for transcription factor binding site predictions. Bioinformatics. 2004, vol. 20, no. 6, pp. 909-916.

i Надоели баннеры? Вы всегда можете отключить рекламу.