Научная статья на тему 'Алгоритм предварительного отбора белковых последовательностей для множественного выравнивания в условиях априорной неопределенности на основе теории графов'

Алгоритм предварительного отбора белковых последовательностей для множественного выравнивания в условиях априорной неопределенности на основе теории графов Текст научной статьи по специальности «Математика»

CC BY
122
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Биотехносфера
ВАК
Область наук
Ключевые слова
БЕЛКОВЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ / PROTEIN SEQUENCES / МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ / MULTIPLE ALIGNMENT / АПРИОРНАЯ НЕОПРЕДЕЛЕННОСТЬ / PRIORY UNCERTAINTY / ТЕОРИЯ ГРАФОВ / GRAPH THEORY / ПЕРКОЛЯЦИЯ / PERCOLATION

Аннотация научной статьи по математике, автор научной работы — Богачев Михаил Игоревич, Маркелов Олег Александрович, Каюмов Айрат Рашитович

Предложен подход к предварительному отбору последовательностей при поиске консенсусных фрагментов в первичной структуре белковых молекул методом множественного выравнивания. Подход основывается на положениях теории случайных графов и теории перколяции. Применение показано на примерах множественного выравнивания группы аминокислотных последовательностей белков, относящихся к различным функциональным классам, специфично распознаваемых внутриклеточным регуляторным белком.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Богачев Михаил Игоревич, Маркелов Олег Александрович, Каюмов Айрат Рашитович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An algorithm for protein sequences preselection before multiple alignment under a priori uncertainty based on graph theory

A novel approach for protein sequences preselection in the consensus sequence search algorithm before the multiple alignment procedure under a priory uncertainty on the quantitative description of the former experimental results that are used in the original data classification is suggested. The approach is based on the preselection of those sequences that form a global (infinite) cluster in the graph defined by the pairwise identity estimated by a local alignment algorithm just above the percolation threshold. Application of the suggested approach to the multiple alignment of amino acid sequences in proteins of various functional classes that are specifically binded by an intracellular regulatory protein is illustrated.

Текст научной работы на тему «Алгоритм предварительного отбора белковых последовательностей для множественного выравнивания в условиях априорной неопределенности на основе теории графов»

УДК 577.21; 577.29; 621.37

М. И. Богачев, канд. техн. наук, О. А. Маркелов, аспирант,

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

А. Р. Каюмов, канд. биол. наук.,

Казанский (Приволжский) федеральный университет

Алгоритм предварительного отбора белковых последовательностей для множественного выравнивания в условиях априорной неопределенности на основе теории графов1

Ключевые слова: белковые последовательности, множественное выравнивание, априорная неопределенность, теория графов, перколяция.

Key words: protein sequences, multiple alignment, a priory uncertainty, graph theory, percolation

Предложен подход к предварительному отбору последовательностей при поиске консен-сусных фрагментов в первичной структуре белковых молекул методом множественного выравнивания. Подход основывается на положениях теории случайных графов и теории перколяции. Применение показано на примерах множественного выравнивания группы аминокислотных последовательностей белков, относящихся к различным функциональным классам, специфично распознаваемых внутриклеточным регуляторным белком.

Введение

Протеолитические ферменты, широко распространенные в природе и выполняющие гидролиз белков, участвуют в различных процессах, в частности, в адаптационных и деструктивных катабо-лических процессах, функционируют на этапе посттрансляционного процессинга белков, осуществляют избирательное расщепление химически устойчивой пептидной связи в белках. Направленный высокоспецифичный протеолиз необходим для поддержания баланса клеточного протеома, регуляторных процессов и контроля качества белков в клетке [1—3]. В клетках Б.эиЫШв эту функцию выполняют внутриклеточные АТФ-зависимые ААА+ протеина-

1 Работа выполнена при поддержке Совета по грантам Президента Российской Федерации (грант для государственной поддержки молодых российских ученых, шифр МК-556.2011.8, дог. № 16.120.11.556-МК от 18.02.2011).

зы, такие как ClpAP, ClpCP, ClpXP [3,4]. Поскольку протеолитическое расщепление — процесс необратимый, распознавание белка мишени должно быть высокоспецифичным. Некоторые белки напрямую распознаются ААА+ протеиназами, другие же распознаются и доставляются к месту протеолиза специальными адаптерными белками [4]. Несмотря на то что интерес к направленном протеолизу не иссякает, во многих случаях механизм узнавания белка-мишени остается неизвестным [1,2,5].

Протеиназа ClpP в клетках бактерий находится в олигомерном комплексе с АТФазами ClpA, ClpC или ClpX и осуществляет направленный протеолиз регуляторных и дефектных белков [3]. В бактериях сигналом для распознавания, как правило, является последовательность гидрофобных ароматических аминокислот (тирозина, триптофана, фенилалани-на и лейцина) [6]. На сегодняшний день неизвестна консенсусная аминокислотная последовательность, необходимая для распознавания АТФазами ClpA, ClpC и ClpX.

Для решения задачи поиска консенсусных последовательностей биомолекул используется группа так называемых алгоритмов выравнивания. Среди классических работ в этой области следует, в первую очередь, отметить алгоритмы Needleman-Wunsch [7] и Smith-Waterman [8]. Если первый подход ориентирован на выравнивание по всей длине последовательности, то второй направлен на поиск локальных консенсусных фрагментов произвольной длины. На базе данных двух подходов, получивших дальнейшее развитие в работах [9,10], были синтезированы алгоритмы множественного выравнивания для групп последовательностей [11,12].

Дополнительную информацию о топологических свойствах первичной структуры белка можно получить за счет использования нелинейных методов, в частности, фрактального анализа [13-16] и анализа интервальных статистик [17-18], которые успешно применяются для анализа первичной структуры биомолекул [19-21].

Решение задачи поиска консенсусных фрагментов биомолекулярных последовательностей в значительной степени осложняется в условиях неизвестной достоверности экспериментов, подтверждающих общие биохимические и/или функциональные свойства белков. Включение в алгоритм множественного выравнивания существенного числа последовательностей, искомые функции и/или биохимические свойства которых недостоверны, приводит к значительному искажению результатов анализа. В рамках теории статистических решений повышение достоверности множественного выравнивания может быть выполнено за счет учета вероятностей наличия искомых свойств у каждой из последовательностей, показателей эффективности биохимического взаимодействия в случаях, когда речь идет о связывании белка с ДНК или другим белком, и иных доступных данных экспериментальных исследований. К сожалению, не всегда трудоемкость и стоимость применяемых методов биомолекулярных исследований позволяют реализовать необходимое число повторных экспериментов, чтобы количественная оценка данных показателей стала возможной. В условиях подобной априорной неопределенности актуальной является выработка подхода, позволяющего осуществить предварительный отбор последовательностей, участвующих во множественном выравнивании.

Материалы и методы

В качестве альтернативы может быть предложен подход с использованием положений теории случайных графов и теории просачивания, или перко-ляции (percolation). Суть данного явления наиболее просто можно продемонстрировать на примере квадратной решетки, элементы которой заполняются по случайному закону, при этом соседние заполненные элементы, не разделенные незаполненными элементами, считаются составляющими единый кластер. С ростом вероятности заполнения отдельной ячейки p вначале заполненные ячейки формируют отдельные, не связанные между собой кластеры, которые в дальнейшем объединяются в единый кластер, занимающий весь размер решетки, а при дальнейшем росте вероятности p единый кластер увеличивается, пока все элементы решетки не войдут в него. Пороговое значение вероятности p, соответствующее формированию единого кластера, называется порогом просачивания, или порогом перколяции pc. Значение pc определяется топологией пространства, на котором заданы от-

дельные элементы, претендующие на включение в кластер, а также их взаимные корреляционные свойства. Для классического примера с квадратной решеткой при условии заполнения по случайному закону рс - 0,593 [13].

В рамках поставленной задачи предварительный отбор последовательностей для выравнивания производился по критерию принадлежности к графу, в который включались последовательности, локальная попарная нормированная идентичность которых, определенная согласно алгоритму [10], превышала пороговый уровень. На основе данных экспериментов [3] была сформирована выборка из 26 внутриклеточных белков В.виЫШв 168, которые специфически распознаются АТФазой С1рС для последующей деградации протеиназой С1рР. В состав выборки входят белки различных функциональных классов: внутриклеточные ферменты циклов биосинтеза аминокислот, компонентов клеточной стенки, нуклеотидов и витаминов, белки холодового шока, рибосомальные белки, ДНК и РНК полимеразы [3]. Путем повышения порога из выборки последовательно исключались белки, которые характеризовались наименьшей максимальной идентичностью по отношению хотя бы к одному белку в исходной выборке.

Результаты и обсуждение

Множественное выравнивание по сформированной выборке выполнялось с помощью алгоритма локального выравнивания [11]. Граф, иллюстрирующий выборку вблизи рс, показан на рис. 1. На рис. 2, а—в приведены результаты анализа для трех различных случаев: а — для полной выборки; б — для выборки, сформированной единым кла-

Рис. 1 \ Пример графа идентичности для p > pc

№ 5-6(17-183/2011 |

биотехносфера

а)

б)

Рис. 2 | Результаты множественного выравнивания (см. окончание на с. 10)

в)

Рис. 2 | Окончание, начало на с. 9

стером (р а рс); в — для выборки, сформированной несколькими отдельными кластерами (р < рс).

Из литературы известно, что участок, распознаваемый АТФазами С1рС, С1рА, С1рХ, включает, как правило, гидрофобные аминокислоты [6]. По результатам множественного выравнивания были идентифицированы позиции, соответствующие гидрофобным валину (V), лейцину (Ъ) и изолейцину (I) в составе предполагаемой консенсусной области (см. рис. 2). Повышение порога (р » рс) приводило к снижению специфичности распознавания консенсуса (см. рис. 2, а). Наоборот, снижение порога (р ^ рс) повышало специфичность идентификации общих позиций в последовательностях (см. рис. 2, в). Однако подобное решение приводило к исключению большого числа членов выборки, поэтому и достоверность консенсусной последовательности вызывает сомнения. Вероятно, это может быть связано с наличием общего структурного домена в оставшемся отдельном кластере анализируемых белков. При р а рс наблюдалась максимальная специфичность распознавания и была идентифицирована последовательность KххVхVIхххQ, в которой обе позиции валина (V) и изолейцина (I) соответствуют гидрофобным аминокислотам почти во всех анализируемых белках (см. рис. 2, б). На основании проведенных исследований можно предположить, что данный участок может являться сайтом распознавания белком С1рР.

Заключение

Таким образом, предложенный подход может быть использован для оптимизации процедуры формирования выборки с целью множественного выравнивания в задаче поиска локальной консен-сусной последовательности в условиях априорной неопределенности о количественных показателях экспериментальных исследований, на основании которых была сформирована исходная выборка данных.

| Литература |

1. Kayumov A., Heinrich A., Sharipova M. et al. Inactivation of the general transcription factor TnrA in Bacillus subtilis by proteolysis // Microbiology. 2008. Vol. 154. P. 2348-2355.

2. Kayumov A., Heinrich A., Fedorova K. et al. Interaction of the general transcription factor TnrA with the PII-like protein GlnK and glutamine synthetase in Bacillus subtilis // FEBS Journal. 2011. Vol. 278 (10). P. 1779-1789.

3. Gerth U., Kock H., Kusters I. et al. // Journal of Bacteriology. 2008. Vol. 190 (1). P. 321-331.

4. Gottesman S. Proteolysis in bacterial regulatory circuits // Annu. Rev. Cell Dev. Biol. 2003. Vol. 19. P. 565-587.

5. Каюмов A. P., Федорова К. П., Ильинская О. Н., Шарипо-ва М. P. Содержание и локализация регуляторных белков TnrA и GlnK в клетках Bacillus subtilis в условиях азотного голодания // Молекулярная биология. 2010. Т. 44. № 4. С.743-745.

6. Tobias J. W., Shrader T. E., Rocap G., Varshavsky A. The N-end rule in bacteria // Science. 1991. Vol. 254. P. 1374-1377.

7. Needleman S. B., Wunsch C. D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // J. Mol. Biol. 1970. Vol. 48. P. 443-453.

8. Smith T. F., Waterman M. S. Identification of common molecular subsequences. // J. Mol. Biol. 1981. Vol. 147. P. 195-197.

9. Altschul S.F., Gish W., Miller W. et al. Basic local alignment search tool // J. Mol. Biol. 1990. Vol. 215. P. 403-410.

10. Barton G. J. An efficient algorithm to locate all locally optimal alignments between two sequences allowing for gaps // CABIOS. 1993. Vol. 9 (6). P. 729-734.

11. Thompson J. D., Higgins D. G., Gibson T. J. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specific gap penalties and weight matrix choice // Nucleic Acid Research. 1994. Vol. 22 (22). P. 4673-4680.

12. Altschul S. F., Madden T. L., Schaeffer A. A. et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acid Research. 1997. Vol. 25 (17). P. 3389-3402.

13. Bunde A., Havlin S. Fractals and Disordered Systems. Heidelberg: Springer, 1991. 350 p.

14. Yu Z.-G., Ahn V., Lau K.-S. Multifractal and correlation analyses of protein sequences from complete genomes // Phys. Rev. E. 2003. Vol. 68. P. 021913 (1-10).

15. Yu Z.-G., Ahn V., Lau K.-S. Chaos game representation of protein sequences based on the detailed HP model and their

№ 5-Б(17-18)/2011 |

биотехносфера

multifractal and correlation analyses // Journal of theoretical biology. 2004. Vol. 226. P. 341-348.

16. Yang J.-Y., Yu Z.-G., Ahn V. Clustering structures of large proteins using multifractal analyses based on a 6-letter model and hydrophobicity scale of amino acids // Chaos, Solitons and Fractals. 2009. Vol. 40. P. 607-620.

17. Bogachev M. I., Eichner J. F., Bunde A. Effect of nonlinear correlations on the statistics of return intervals in multi-fractal data sets // Phys. Rev. Lett. 2007. Vol. 99. P. 240601 (1-4).

18. Bogachev M. I., Eichner J. F., Bunde A. The effect of multi-fractality on the statistics of return intervals // Eur. Phys. J. Spec. topics. Vol. 161. P. 181-193.

19. Богачев М. И., Каюмов А. Р., Михайлова Е. О. Анализ структуры сигналов и функциональной организации биокаталитических систем с использованием математического аппарата интервальных статистик // Изв. вузов России. Радиоэлектроника. 2010. Вып. 3. С. 8—16.

20. Богачев М. И., Каюмов А. Р. Сравнительный анализ первичной структуры белков патогенных и непатогенных микроорганизмов при помощи математического аппарата интервальных статистик // Биомедицинские технологии и радиоэлектроника. 2010. № 11. С. 4—9.

21. Богачев М. И., Каюмов А. Р. Исследование статистических свойств первичной структуры факторов патогенно-сти белковой природы // Биомедицинские технологии и радиоэлектроника. 2011. № 5. С. 24—27.

УДК 612.822.3.08; 612.821.2

В. А. Дюк, д-р техн. наук, Ю. И. Сенкевич, д-р техн. наук, О. В. Цветков, канд. техн. наук,

Санкт-Петербургский институт информатики и автоматизации РАН

Исследование влияния фазоконтрастных визуальных стимулов на спектральные характеристики ээг

Ключевые слова: электроэнцефалограмма, спектральный анализ, статистический анализ данных. Key words: the electroencephalogram, spectral analysis, statistical analysis.

Экспериментально подтверждено, что в динамических спектрах ЭЭГ содержится информация, отражающая эффект воздействия на испытуемого некоторыми видами фазоконтрастных визуальных стимулов. Описана процедура пре-процессинга ЭЭГ, включающая сглаживание, дифференцирование, селекцию эпох ЭЭГ и переход к автонормированным периодограммам. Приводятся результаты трех видов статистического анализа (дисперсионный и дискриминантный анализ, поиск логических закономерностей в многомерных данных). Показано, что многомерный анализ данных позволяет эксплицировать более выраженные системные связи классов фазоконт-растных визуальных стимулов с формой спектров ЭЭГ.

Введение

Исследование биоэлектрической активности головного мозга с помощью скальповой электроэнцефалографии (ЭЭГ) является распространенным

методом инструментальной диагностики состояния ЦНС в норме и при различных патологических состояниях. Рядом авторов установлено отражение в ЭЭГ изменений психического состояния человека, обусловленных различными эндогенными и экзогенными факторами (например, [1]).

В настоящей работе описываются результаты экспериментального исследования влияния фазо-контрастных визуальных стимулов на спектральные характеристики ЭЭГ. Эксперимент был построен следующим образом.

Общее описание эксперимента

Перед началом теста испытуемый получал исчерпывающий инструктаж, обычно предваряющий рутинное электроэнцефалографическое исследование. В дополнение испытуемому указывалось на необходимость смотреть на установленный перед ним экран в течение всего эксперимента (за исключением того периода, когда его глаза будут закрыты). О цели исследования и характере воздействия испытуемые не знали, о безопасности эксперимента они были информированы.

i Надоели баннеры? Вы всегда можете отключить рекламу.