DOI 10.24412/1829-0450-fm-2024-1-56-60 УДК 577
Поступила: 22.03.2024г. Сдана на рецензию: 25.03.2024г. Подписана к печати: 09.04.2024г.
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ПРОГРАММ ПРЕДСКАЗАНИЯ СТРУКТУР БЕЛКОВ НА ПРИМЕРЕ 14-3-3.
А.К. Паронян1,2
1 Российско-Армянский (Славянский)университет 2 Институт молекулярной биологии НАН РА [email protected] ORCID: 0009-0005-9315-6606
АННОТАЦИЯ
Изучение третичных структур белков очень важно для понимания молекулярных механизмов действия, особенно если данный белок играет ключевую роль в патогенезе заболеваний. На данный момент имеется большой спектр программных пакетов и серверов, позволяющие смоделировать полноразмерные структуры белков, исходя из аминокислотной последовательности. В данной работе были рассмотрены три наиболее используемые и точные программы по предсказанию структур белков: "AlphaFold2", "Rosetta", "I-TASSER". Ключевые слова: моделирование структур белков, "in silico", "AlphaFold2", "Rosetta", "I-TASSER".
Введение
Моделирование третичных структур белков является актуальной проблемой для решения задач по дизайну лекарственных препаратов, а также для выяснения механизмов действия белков при патогенезе. Для проведения рентгенографического анализа необходимо вырастить кристаллы белка, поместить один из них под рентгеновский луч и собрать данные дифракции луча, обработав которые можно определить структуру. Некоторые белки легко кристаллизуются, а другие - нет, и исследователи не могут определить их структуру [1]. На данный момент ученые создают и конструируют программы и алгоритмы, которые решают проблему моделирования структур белков, для которых не известны их кристаллографические структуры. Целью данного исследования являлось сравнительный анализ программ моделирования структур белков на примере 14-3-3е, для выявления наилучшей полноразмерной модели.
Изоформы белка 14-3-3 были первыми белками, идентифицированными как специфически связывающие фосфосерин/фосфотреонин содержащие мо-
тивы [2]. 14-3-3 участвуют в передаче клеточных сигналов, регуляции развития клеточного цикла, нейродегенеративных процессах, апоптозе, канцерогенезе, аутофагии, а также в процессе репликации вирусов [4].
В клетках млекопитающих имеется семь изоформ белка 14-3-3, каждая из которых обозначается греческой буквой ф-бета, у-гамма, 5-дельта, е-эпси-лон, Z-дзета, 9/т-тета/тау, n-eta) [5]. Изоформа 14-3-3е является наиболее консервативным членом семейства 14-3-3. 14-3-3е сильно экспрессируется в головном мозге и взаимодействует с множеством белков, которые могут играть критическую роль в функциях мозга, и общепризнано, что 14-3-3 е связан с множеством неврологических заболеваний [6].
Материалы и методы
Для оценки качества программ по моделированию третичных структур существует конкурс CASP ("Critical Assessment of protein Structure Prediction"), который проводится раз в два года и результатом которого является выявление наилучшей смоделированной модели. В связи с этим, в контексте данного исследования были рассмотрены три наиболее распространенных программы по моделированию структур белков. Сервер I-TASSER представляет собой онлайн-платформу, реализующую основанные алгоритмы предсказания структуры и функции белка [7]. Было разработано множество методов для создания белковых структур "ab initio". Одним из подходов является метод сборки на основе фрагментов, идея Боуи и Айзенберга [8]. В Rosetta использовались библиотеки фрагментов из трех и девяти остатков [9]. AlphaFold2 является программой искусственного интеллекта, разработанная "DeepMind", которая выполняет прогнозирование структуры белка и разработана как система глубокого обучения [10].
Оценочными критериями достоверности полученной модели принято считать несколько, из них самыми распространенными являются: RMSD (среднеквадратичное отклонение положений атомов), GDT-TS (является критерием сходства между двумя белковыми структурами), TM-score (метрика для оценки топологического сходства белковых структур). Для оценки TM-score и GDT-TS был использован веб-сервер от Zhang
Lab [11]. Для оценки RMSD была использована программа ICM-Pro 3.87 [12]. В качестве контрольной модели для проверки была использована доступная кристаллографическая структура из базы данных PDB (PDB ID: 7C8E). Так как для своего нормального функционирования 14-3-3 должен быть в димерной форме, необходимо провести белок-белковый докинг, что было сделано с помощью программы ICM-Pro 3.8-7 [13].
58
А.К. Паронян
Результаты и обсуждение
На Рис. 1. указаны полученные смоделированные модели. В случае "AlphaFold2" программа дает возможность создавать комплексы сразу без необходимости дальнейших манипуляций, которые были сделаны после полученных моделей "Rosetta" и "I-TASSER", а именно белок-белковый докинг с преобразование Фурье (FFT) [13].
Рисунок 1. Полученные модели. А: 14-3-3е полученная с помощью "Rosetta"; Б: 14-3-3е полученная с помощью "AlphaFold2"; В: 14-3-3е полученная с помощью "I-TASSER ".
Все структуры были суперимпозированы по отношению к кристаллографической структуре PDB ГО: 7C8E и получены оценки моделирования, которые указаны в Табл. 1.
Таблица 1. Оценочные значения полученных структур.
Структура Оценка TM s core RMSD GDT-TS
14-3-3s I-TASSER 0.7998 4.4472 0.6473
14-3-3s Rosetta 0.9830 1.8173 0.9168
14-3-3s AlphaFold2 0.3881 5.4922 0.2217
Исходя из Табл., можно заметить, что наилучшие результаты по оценкам у программы "Rosetta", где TM score 0.9830, RMSD 1.8173 и GDT-TS 0.9168. Но стоит отметить и тот факт, что мы рассматривали структуру в димерной
форме, если рассмотреть по мономерам, то наилучший результат по значению RMSD у программы "AlphaFold2" и равняется 1.6343 (TM-score 0.8788, а GDT-TS 0.8422, т.е. по этим двум критериям у "Rosetta" значения немного выше).
Полученные результаты дают нам возможность, проведя сравнительный анализ, выявить наилучшую димерную модель 14-3-3s, что в дальнейшем позволит проводить моделирование структур остальных изоформ. Несмотря на то, что у "AlphaFold2" результаты за последние года самые высокие и достоверные, стоит учитывать тот факт, что при моделировании и другими программами возможно получение хороших результатов, и как показал анализ на отдельных мономерах, у "AlphaFold2" и "Rosetta" получение оценки очень близки.
ЛИТЕРАТУРА
1. Ronda L., Bruno S., Bettati S., Storici P. andMozzarelli A. (2015). From protein structure to function via single crystal optical spectroscopy Front. Mol. Biosci. 2.
2. Obsil T. and Obsilova V. (2011). Structural basis of 14-3-3 protein functions // Seminars in Cell & Developmental Biology. 22. 663-72.
3. Shimada T., Fournier A.E. and Yamagata K. (2013). Neuroprotective Function of 14-3-3 Proteins in Neurodegeneration // BioMed Research International. 2013. 1-11.
4. Fu H., Subramanian R.R. and Masters S.C. (2000). 14-3-3 Proteins: Structure, Function, and Regulation // Annu. Rev. Pharmacol. Toxicol. 40. 617-47.
5. Aghazadeh Y., Zirkin B.R. and Papadopoulos V. (2015). Pharmacological regulation of the cholesterol transport machinery in steroidogenic cells of the testis // Vitam Horm. 98. 189227.
6. Yin S.-J., Lee J.-R., KwakH., Lee B.-N., Han J.-W., HahnM.-J., Park Y.-D. and Yang J.-M. (2020). Functional study of 14-3-3 protein epsilon (YWHAE) in keratinocytes: microarray integrating bioinformatics approaches // Journal of Biomolecular Structure and Dynamics. 38. 2633-49.
7. Yang J., Yan R., Roy A., Xu D., Poisson J., Zhang Y. (2015)The I-TASSER Suite: Protein structure and function prediction //Nature Methods, 12: 7-8.
8. Bowie J. U. and Eisenberg D. (1994). An evolutionary approach to folding small alpha-helical proteins that uses sequence information and an empirical guiding fitness function // Proc. Natl. Acad. Sci. U.S.A. 91 4436-40.
9. Rohl C.A., Strauss C.E.M., Misura K.M.S. and Baker D. (2004). Protein Structure Prediction Using Rosetta // Methods in Enzymology, vol 383 (Elsevier). PP. 66-93.
10. Jumper J., Evans R., Pritzel A., Green T., Figurnov M., Ronneberger O. et al. (2021). Highly accurate protein structure prediction with AlphaFold // Nature. 596 583-9.
11. Zhang Y., Skolnick J. (2004). Scoring function for automated assessment of protein structure template quality, Proteins, 57: 702-710.
12. Cardozo T., TotrovM. andAbagyan R. (1995). Homology modeling by the ICM method // Proteins 23(3): 403-414.
13. Totrov M. and Abagyan R. (1994). Detailed ab initio prediction of lysozyme-antibody complex with 1.6 A accuracy. Nat. Struct. Biol. 1. 259-263.
60
A.K. napoHMH
A COMPARATIVE ANALYSIS OF PROTEIN STRUCTURE PREDICTION PROGRAMS USING THE EXAMPLE OF 14-3-3.
A. Paronyan1,2
1Russian-Armenian (Slavonic) University 2 Institute of Molecular Biology NAS RA
ABSTRACT
Identifying the tertiary structures of proteins is very important for understanding the molecular mechanisms of action, especially if a given protein plays a key role in disease pathogenesis. A wide range of software packages and servers are currently available to model the full-length structures of proteins based on the amino acid sequence. In this paper, we reviewed the three most common programs for predicting protein structures: Al-phaFold2, Rosetta, and I-TASSER.
Keywords: protein structure modeling, in silico, prediction methods, Al-phaFold2, Rosetta, I-TASSER.