УДК 616.1+616.61:575.191
БИОИНФОРМАЦИОННЫЙ АНАЛИЗ В КАРДИОЛОГИИ И НЕФРОЛОГИИ В ПОСТГЕНОМНУЮ ЭРУ
Карташова1 Е. А., Ибрагимов2В. М., Сарвилина3 И.В., Батюшин1 М.М.
1ФГБОУ ВО «Ростовский государственный медицинский университет», г. Ростов-на-Дону, Российская Федерация. 2ФГБОУ "Дагестанский государственный медицинский университет", г. Махачкала, Республика Дагестан, Российская Федерация.
3ООО «Медицинский центр «Новомедицина», г. Ростов-на-Дону, Российская Федерация.
Аннотация. В научном обзоре представлены основные цели и задачи, определения и направления развития биоинформатики как науки, связанной с прогрессом молекулярной медицины. Представлены методы исследования в молекулярной медицине и инструменты биоинформационного анализа. В качестве примеров внедрения биоинформационного анализа в практику клинических исследований показаны результаты изучения протеомных карт биологических жидкостей (кровь, моча) пациентов с изолированной систолической артериальной гипертензией и диабетической нефропатией, а также межмолекулярных взаимодействий, выполненных с помощью современных инструментов биоинформатики. Ключевые слова: биоинформатика, геномика, протеомика, гипертензия, диабет.
Сегодня прогресс молекулярной диагностики заболеваний человека и фармакологии связан с новыми возможностями проследить путь экспрессии биомолекул - от транскрипции генов до трансляции и экспрессии белков. Мы являемся свидетелями прогрессивного развития биоинформационного анализа в различных областях молекулярной медицины и фармакологии. Биоинформатика готова предоставить данные о десятках тысяч новых мишеней действия лекарств, предсказывая функцию генов и расшифровывая последовательность белков. Перспективные биоинформационные разработки представлены в таких разделах медицины, как кардиология и нефрология.
Биоинформатика как наука. Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач. В настоящее время биоинформатика решает задачи молекулярной биологии, фармакологии, молекулярной медицины. За 20-25 лет накоплен большой объем экспериментального материала о строении и функционировании биологических молекул, пример - геном человека. Поэтому биоинформатика в подавляющем большинстве мировых научных центров понимается как синоним вычислительной молекулярной биологии.
Сегодня выделены основные направления этого раздела науки, в зависимости от исследуемых объектов: биоинформатика последовательностей; структурная биоинформатика; компьютерная геномика. Биоинформатику также можно условно разделить на несколько направлений в зависимости от типа решаемых
задач: применение известных методов анализа для получения новых биологических знаний; разработка новых методов анализа биологических данных; разработка новых баз данных.
Наиболее эффективной областью применения биоинформатики является анализ геномов. В результате хорошо автоматизированной процедуры уже получено огромное количество генетических текстов. Первый тип биоинформационной задачи - это задача поиска в нуклеотидных последовательностях особых участков, участков, кодирующих белки, участков, кодирующих РНК, участков связывания с регуляторными белками.
Сравнение последовательностей является важнейшей задачей биоинформатики, которая решается с помощью программ BLAST P Национального центра биотехнологической информации (США), CLUSTAL X, UCD (Ирландия) [1]. Генетические тексты - тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белком - регулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Достоверность результата в биоинформатике обеспечивается применением теории вероятности и математической статистики.
Таким образом, основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем: выравнивание и определение сходства двух последовательностей; построение
—--—
Журнал включен в Перечень рецензируемых научных изданий ВАК
множественных выравниваний; распознавание генов; предсказание сайтов связывания регуляторных белков; предсказание вторичной структуры РНК.
Создание новых экспериментальных методов ставит перед биоинформатикой новые задачи. Например, развитие масс-спектрометрии (МС) позволяет в одном эксперименте проанализировать весь набор белков, присутствующий в клетке. Для решения этой задачи необходим совместный анализ спектров масс и геномов. Открытие новых биологических явлений также приводит к появлению новых задач. Хорошим примером служит открытие РНК интерференции (2006 г., Нобелевская премия по физиологии), которое способствовало появлению большого объема биоинформационных данных, посвященных поиску участков связывания микроРНК и новых микроРНК.
Экспериментальное определение функции только одного гена требует интенсивной работы одной лаборатории как минимум в течение нескольких месяцев. Компьютерный анализ позволяет с известной степенью точности охарактеризовать несколько тысяч генов силами небольшой группы примерно за неделю. Компьютерный анализ геномов состоит из следующих основных элементов: предсказание генов в последовательностях; предварительная аннотация по сходству и другим особенностям белковых последовательностей; сравнительный анализ геномов; исследование регуляции работы генов; поиск «пропущенных» генов; исследование генов-транспортеров.
Сравнительная геномика принесла уже несколько значительных открытий, в т.ч, открытие принципиально новой системы регуляции - рибопереключате-лей - специфической структуры РНК, которая стабилизируется при непосредственном связывании с низкомолекулярным веществом и блокирует синтез матричной РНК [2]. Другой класс исследований, проводимых компьютерной геномикой - полногеномный анализ и исследование эволюции.
Каждый белок обладает уникальным способом укладки в пространстве. Задачу предсказания структурной конформации по последовательности также является задачей биоинформатики. Структурная биоинформатика занимается анализом пространственных структур, уже выявленных экспериментально. Задачи структурной биоинформатики включают определение участков белковой молекулы, важных для той или иной функции белка; сравнительный анализ структур родственных белков, классификацию белков на основе их пространственной структуры; анализ структур комплексов двух или нескольких молекул белка, комплексов молекул белка с другими молекулами; предсказание воздействия молекул химических веществ на молекулы белков; предсказание структуры белка по структуре белка с похожей последовательностью.
Основная задача биоинформатики при создании новых лекарственных средств состоит в предоставлении
технологий, которые позволяют сформировать целевые мишени для направленного действия лекарства, имеющего специфическую для этой мишени структуру. Важным является тот факт, что соединение возможностей биоинформатики и фармакогеномики способствуют существенному сокращению сроков (до 6-7 лет) и стоимости создания новых лекарств на основе высокопроизводительного скрининга, который позволяет одновременно анализировать несколько тысяч различных соединений в параллельном режиме и проводить отбор молекул-кандидатов. Найденные таким способом базовые структуры путем их химической модификации превращаются в конечное лекарство.
Итак, биоинформатика (определение Арчакова А.И.) - это область науки, разрабатывающая и применяющая вычислительные алгоритмы для анализа и систематизации генетической информации с целью выяснения структуры и функции макромолекул с последующим использованием этих знаний для создания новых лекарственных препаратов. Биоинформатика включает в себя следующие составляющие: базы данных, в которых хранится биологическая информация, набор инструментов для анализа тех данных, которые находятся в таких базах, а также применение компьютерных методов для качественного решения биомедицинских задач в исследовании. Основными задачами биоинформатики являются: анализ геномов, выделение в их составе отдельных генов, их экзон-интронной структуры, сигнальных последовательностей; предсказание функции генов и экспрессируемых ими продуктов; выявление генов-потенциальных мишеней действия новых лекарств; оценка роли отдельных участков аминокислотной последовательности в функционировании белка; построение молекулярных моделей белков и нуклеиновых кислот на основе известных последовательностей; исследование механизмов функционирования макромолекул на основе их молекулярных моделей; компьютерное конструирование лекарств, основанное на рациональном выборе генов-мишеней и молекулярных моделей их белковых продуктов [3].
Методы исследования в молекулярной медицине и инструменты для биоинформационного анализа. Существует широкий спектр методов и инструментов для компьютерного анализа биологических данных. Программное обеспечение системы, интегрирующей информацию по биомедицине от физиологического до молекулярного уровня, должно удовлетворять следующим функциональным требованиям: объем системы должен быть практически неограничен; система должна быть достаточно гибкой для обеспечения перестройки по мере заполнения; система должна создаваться в среде, поддерживающей не только стандартные мультимедиа форматы, но и ряд специальных форматов (пространственные структуры молекул, химические структурные формулы), так как в системе должна быть интегрирована информация,
представленная в международных базах данных в специальных форматах; эксплуатация и пополнение системы должны быть легко доступны через компьютерные сети пользователям, не имеющим специальной компьютерной подготовки (биологи, врачи).
Любой компьютерный анализ биологических данных является экспериментом и здесь важны четкость постановки и соответствующие контроли. Значительная часть работ по биоинформатике сделана с применением уже существующих средств. Часто биоинформационный анализ предшествует постановке эксперимента. При этом массовый (например, геномный) анализ требует использования простейших программ собственного исполнения. Разработка новых методов анализа биологических данных является необходимой, когда существующие программы недостаточны для решения поставленных задач, имеют недостаточную точность, для интересующей исследователя биологической задачи нет подходящих средств или появился новый тип данных.
Значительная биологическая информация поступает в различные банки данных, содержащих первичную информацию, которая перерабатывается, в том числе, с привлечением научной литературы. В результате возникают литературные, курируемые и вторичные банки данных. BLAST - наиболее популярный сервис для поиска похожих последовательностей в базах данных, программы множественного выравнивания аминокислотных последовательностей, предсказания вторичных структур РНК, визуализации пространственных структур, моделирования динамики пространственных структур и многое другое [1].
Белки являются ключевыми участниками всех физиологических процессов на уровне клетки - от каталитических биохимических реакций метаболизма до обработки и интеграции молекулярных сигналов. Белки синтезируются посредством трансляции информации, кодируемой молекулой РНК в полипептидную цепь, которая принимает определенную трехмерную структуру. Белки вовлечены в метаболические пулы, составляющие белковый гомеостаз. Последние разработки в диапазоне большого объема данных геномики, транскриптомики и протеомики поставили новые задачи для биоинформационного анализа этих данных. В случае протеомики эти задачи необходимо решать на всех этапах биоинформационного анализа от пробо-подготовки и сбора данных до интеграции необработанных данных и создания базы данных с функциональной интерпретацией каждой молекулы. Применяя итеративную стратегию протеомного анализа, интерпретацию данных и систематизацию данных, можно сформировать гипотезу и модифицировать существующую гипотезу, что приводит к генерации нового знания.
МС является методологической базой для исследований в области протеомного анализа биологических
жидкостей организма человека, позволяющая точно измерять и сравнивать изменения в биообразцах пациентов в эпидемиологических когортных исследованиях. При этом необходимой является задача интерпретации значительного объема данных, произведенных современными масс-спектрометрами. Поэтому были разработаны методы и инструменты, позволяющие решать 4 главные задачи: идентификации пептидов, белков и их модификаций; определения количества идентифицированных объектов; определения биологической роли идентифицированных объектов; создание и интегрированное применение баз данных в режиме он-лайн.
В настоящее время представлены следующие рабочие платформы для биоинформационного анализа в протеомике.
1. Преобразование первичного ряда файлов с данными по биоинформатике рекомендуется с помощью приложения MSConvert, являющегося частью программного решения Proteowizard package (http://proteowizard.sourceforge.net/tools.shtml), и программы OpenMS (https://www.openms.de), рекомендуемой для обработки данных файла.
2. База данных UniProt (http://www.uniprot.org) с целью получения наиболее широкого массива данных об анализируемых пептидах и белках биообразцов человека, для детального анализа протеомных данных можно применить программу dbtoolkit (https://github.com/compomics/dbtoolkit).
3. Принадлежность тех или иных пептидов к спектрам устанавливается с помощью двух поисковых систем, которые могут применяться в открытом доступе - OMSSA (http://proteomicsresource.washington.edu/ protocols06/omssa.php) и X!Tandem (http://www.thegpm.org/tandem/), доступных с помощью программного инструмента SearchGUI8.
4. Для анализа результатов протеомного исследования биообразца человека, выявления ключевых пептидных и белков-участников биологического процесса, валидации данных протеомики рекомендуется применять PeptideShaker (http://compomics.github.io/ projects/peptide-shaker.html).
5. Наиболее важными для исследователя являются курируемые базы данных, за достоверность информации в которых отвечают создатели базы данных. Другой тип баз данных называется производный, который получается в результате обработки данных из архивных и курируемых баз данных. В интернете доступно большинство баз данных и программных продуктов для биоинформационного анализа: UniProt http://www.uniprot.org), Reactome9 http://www.reac-tome.org), PICR10 (http://www.ebi.ac.uk/Tools/picr) и Dastyll (http://www.ebi.ac.uk/dasty).
6. Для размещения собственной исследовательской информации в области протеомики в общественном доступе применяются базы данных
ProteomeXchange (http://proteomexchange.org) и PRIDE (http://www.ebi.ac.uk/pride).
Списки программного обеспечения для выполнения биоинформационного анализа и баз данных в области протеомики с краткой характеристикой представлены в таблицах 1,2. Новые успехи молекулярного
анализа связаны с обогащением и фракционированием белков или пептидов, когда сложность образца может быть уменьшена или появляется необходимость анализа подмножества белков и пептидов, в т.ч., специфического протеома органелл или субстехиометрические посттрансляционные модификации пептидов [4].
Таблица 1
Список программного обеспечения для выполнения биоинформационного анализа в области протеомики
Функциональные характеристики Название программного продукта Краткая характеристика
Конвертер ProteoWizard Программа-конвертер, которая анализирует наибольшее количество форматов данных МС и переводит их в открытые форматы
Анализатор формата mzML jmzML Анализатор масс-спектрометрических файлов формата mzML
Пакет программного обеспечения для биоинформационного анализа большого объема протеомных данных OpenMS Пакет программного обеспечения для протеомики, позволяющий разработать дизайн технологической платформы с графическим интерфейсом
TPP Пакет инструментов для протеомики
MaxQuant Программное обеспечение для идентификации и количественной оценки протеомов
PeptideShaker* Интерпретация идентифицированных протеомов из многочисленных источников
Пост-процессорная идентификация MassSieve Программное обеспечение для идентификации пептидов и белков
Сиквенс de novo PepNovo Инструмент для сиквенса de novo
PEAKS Инструмент для сиквенса de novo
Целевое сиквенирование GutenTag Программа обнаружения пептидного паттерна в МС
DirecTag Обнаруживает пептидный паттерн в МС
Поисковая система с базой данных Sequest Поисковая система с базой данных
Mascot Поисковая система с базой данных
OMSSA Поисковая система с базой данных
X!Tandem Поисковая система с базой данных
Morpheus Поисковая система с базой данных
Inspect Поисковая система с базой данных
MyriMatch Поисковая система с базой данных
MassWiz Поисковая система с базой данных
MS Amanda Поисковая система с базой данных
Andromeda Поисковая система с базой данных (MaxQuant)
Применение дружественных интерфейсов SearchGUI Графический интерфейс для поисковых систем
PRIDE Inspector Графический интерфейс для проверки файлов PRIDE XML
TOPPAS Графический интерфейс для дизайна рабочих платформ OpenMS
Поисковые библиотеки спектральных данных NIST MS search Поисковая система: спектральные библиотеки
X!Hunter Поисковая система: спектральные библиотеки
SpectraST Поисковая система: спектральные библиотеки
Анализаторы для идентификации файла MascotDatFile Анализатор Java для файлов Mascot .dat
Анализатор OMSSA Анализатор Java для файлов OMSSA .omx
Анализатор X!Tandem Анализатор Java для файлов X!Tandem XML
Таблица 2
Список программных продуктов и баз данных для выполнения биоинформационного
анализа в области протеомики
Данные о структуре compomics-utili-ties Структура объекта Java для обработки и визуализации идентифицированных данных различных поисковых систем
Пересчет PSM Percolator Компьютерный алгоритм пересчета PSMs и отнесение их к диапазону вероятности p
PeptideProphet Компьютерный алгоритм присвоения PSMs a PEP (интегрированные в TPP)
PepArML Компьютерный алгоритм слияния результатов различных поисковых систем с веб - интер-фейсом:https://edwardsШ>.bmcb.georgetown.edu/pymsю
Управление базой данных Dbtoolkit Инструмент управляет базами данных и создает их пользовательские версии
Заключение о пептиде iProphet Инструмент для статистического пост-процессинга пост-трансляционных модификаций (интегрированы в ТРР)
Заключение о выявленных белках ProteinProphet Инструмент для формирования заключения о выявленных белках (интегрированы в ТРР)
IDPicker Инструмент для формирования заключения о выявленных белках
MassSieve Программный продукт для идентификацион-ного процессинга
Описание белка UniProtKB База данных по протеомике
Dasty Программный продукт для перекрестной информации из протеомных баз данных
Данные для генной онтологии GOTree Программный продукт для сбора данных по генной онтологии
Onotologizer Программный продукт для сбора данных по генной онтологии
DAVID Интерфейс для расширения идентификационных результатов анализа
3D структуры Jmol Программный продукт для построения 3D структур
Патологические пути Reactome Интерфейс для формирования карты молекулярного патологического пути
Взаимодействия STRING Интерфейс для исследования белок - белковых взаимодействий
Хранилище данных PRIDE Хранилище идентифицирован-ных белков
Атлас пептидов Хранилище идентифицированных пептидов
GPMDB Хранилище идентифицированных пептидов и белков
Контроль качества SimpatiQCo Контроль качества для протеомных исследований
Управление локальными данными MASPECTRAS Система LIMS
Proteios Система LIMS
ms lims Система LIMS
Два основных подхода исследования протеома биообразцов человека направлены на раскрытие деталей функционирования протеома и увеличение объема информации для определенных групп белков/пептидов. Полученные тандемные масс-спектры позволяют получить информацию об аминокислотной последовательности пептида, что является ключом к его идентификации, которая проводится в информационно-зависимом режиме. Данные могут быть представлены как 3D-карта с показателями масс-заряд (m/z), время удержания (RT) и интенсивности экспрессии пептидов вместе с фрагментированными масс-спектрами пептидов, которые были отобраны в ходе информационно-зависимых циклов. Показатель интенсивности экспрессии конкретного пептида может быть определен в диапазоне RT в полученном хроматографическом пике. Пло-шадь под хроматографической кривой применяется для определения количества соответствующего пептида с одновременной идентификацией пептида.
Большое количество масс-спектров, генерированных последними поколениями масс-спектрометров, требует создания и работы автоматизированных поисковых систем, способных идентифицировать и определять количество выявленных пептидов. Цель работы поисковых алгоритмов состоит в переводе зарегистрированного масс-спектра в аминокислотную последовательность пептида на основе данных, накопленных в предварительной базе данных, выполняя поиск соответствия аминокислотной последовательности пептида экспериментальным данным в соответствии с определенным уровнем вероятности или ложным уровнем открытия (FDR).
Базы данных по протеомике связаны с базами данных по геномике, а также возможно применение спектральных библиотек или базы данных мРНК. Последний шаг заключается в сборке идентифицированных пептидов в молекулы белков. Объединение разных
стратегий в идентификации пептидов и белков способствуют уменьшению ложноположительных результатов и точному обнаружению пептида и белка. По аналогии с хранилищами геномных данных создаются большие репозитарии протеомных данных, которые могут быть использованы для создания баз данных. Объединение таких больших хранилищ протеомных данных, как PRIDE, Proteome Commons и Peptide Atlas в проекте the Proteome Exchange (http://www.proteomeexchange.org) обеспечивает прямой доступ к большинству сохраненных протеомных данных и является ценным источником данных для биоинформационного анализа.
В то время как названия генов стандартизированы, имена белков могут отличаться в различных базах данных. Существует несколько веб-алгоритмов, которые способны соединять информацию о белках с наименованиями генов (PICR, CRONOS) [5]. Некоторые функциональные базы данных (Uniprot, Ensembl, International Protein Index) интерпретируют данные по вводимому идентификатору белка [6].
Первым шагом для интерпретации функции белка из результирующего списка обнаруженных молекул является соединение идентификатора с данными генетической базы данных Gene Ontology (http://www.geneontology.org). Применение базы данных Gene Ontology помогло преодолеть избыточность в терминологии для описания биологических процессов. Для одиночных белков самым простым направлением поиска аннотации для белка в базе данных GO является применение инструмента Amigo, представленного на вебсайте GO. Для анализа и систематизации больших наборов белков некоторые алгоритмы поиска протеомных данных (MaxQuant, Proteome Discoverer, X!tandem) включены в базу данных GO в качестве аннотационных этапов. В связи с тем, что не все белки имеют аннотацию в базе данных GO, представляется возможным анализ и систематизация этой группы белков через биоинформационную систему BLAST с помощью поискового инструмента BLAST2 GO. Следующим шагом после получения аннотационной информации по белку в базе данных GO является расширенный сравнительный анализ данных, представленных в базе данных GO, c данными о естественной биологической активности исследуемого белка из референсных баз данных, в т.ч., баз данных клеточных линий, терапевтических ингибиторов белка. Выявляя функции, существенно расширяющие знания о белках в одной биообразце с помощью более чем в 2 базах данных, рассчитывается показатель вероятности p, который демонстрирует специфичность данных в базе GO, что является необходимым для расширения кластера терминологии и аннотационной информации в базе данных GO. Существует также много других веб-связанных программных продуктов, обеспечивающих аналогич-
ные функции расчета вероятности достоверности полученных биоинформационных данных (DAVID и Babelomics).
Белки, включенные в биохимические реакции и те из них, которые оказывают регуляторную функцию, объединены в базы данных молекулярных физиологических и патологических путей. Такие сравнительные базы данных биологических и патологических молекулярных путей, как KEGG, Reactome, Ingenuity Pathway Knowledge Base или BioCarta включают большое количество данных о разветвленных межмолекулярных взаимодействиях, которые являются результатом внутриклеточных реакций метаболизма, сигнальных молекулярных путей, генетических взаимодействий или влияния активных лекарственных веществ [7]. Кроме сравнительных биоинформационных ресурсов, высокоспецифичными базами данных, описывающими процессы сигнальной передачи в клетке, являются PANTHER, GenMAPP, PID [8].
Сегодня доступен расширенный анализ, включающий молекулярные патобиохимические пути, представленные в большинстве баз данных, поэтому можно получить большой массив информации об измененных белках, в т.ч., об их экспрессии и/или посттрансляционных модификациях в патобиохимических молекулярных путях. Опубликован сравнительный анализ двух веб-продуктов для анализа патобиохимических путей и межмолекулярных взаимодействий - Ingenuity Pathway Analysis (IPA) и STRING. Протестированы массивы данных о ключевых белках-участниках 5 различных патобиохимических путей (Wnt, App, инсули-новой сигнализации, митохондриального апоптоза, та-уфосфорилирования), которые получены на основе данных литературы и данных протеомного анализа клеточной линии HEK293 (контроль) о ключевых регулируемых белках. Показаны близкие результаты по данным анализа in vivo и in silico.
Большинство белков формируют временные или стабильные комплексы с другими белками, которые действуют в клетке как интегрированные комплексы или регулируют активность самого белка. Информация о белковых взаимодействиях в комплексах находится в таких базах данных, как MINT, BioGRID, IntAct или HRPD. В зависимости от применяемой базы данных можно обеспечить высокий процент предсказания анализируемых межбелковых взаимодействий и взаимодействий, основанных на данных литературы, например, в базах STRING или iRefWeb. С этой целью разработана наиболее известная база данных PubMed, в которой представлены абстракты экспериментальных и клинических исследований всего мира. Полученные карты межбелковых взаимодействий - это результат применения сложных алгоритмов анализа, включающего большие базы данных литературы о межбелковых взаимодействиях из многочисленных веб-ресурсов. Широко применяемый веб-ресурс для
анализа межбелковых взаимодействий STRING, является не только базой данных, но и связан с несколькими другими ресурсами с большим объемом источников литературы [9]. Графический инструмент Cytoscape позволяет сформировать сетевые взаимодействия высокой степени сложности. Cytoscape позволяет получать достаточный объем информации за счет подключения к другим базам данных.
Недавно была запущена веб-платформа, интегрирующая данные по молекулярным путям развития патологических процессов и анализу межмолекулярных взаимодействий, включающая 6 различных баз данных (KeGG, Bio-Carta, Gene Ontology, Reactome, Wiki, NCI pathways) и взаимодействующая функционально с базой данных по молекулярной активности белков (Interpro) и базой комплексной информации о белках (Corum). Этот биоинформационный продукт позволяет разрабатывать списки молекулярных путей развития патологии и создавать высокоуровневые интерактивные функциональные карты, которые могут скачиваться и визуализироваться в Cytoscape.
Идентификация белка в исследовании биообразца должна сопровождаться детальным анализом его первичной, вторичной и третичной структуры, а также его посттрансляционных модификаций и межмолекулярных взаимодействий. Подобный анализ предоставляет поисковая система BLAST. Амнокислотную последовательность белка можно проанализировать в таких программных продуктах, как Pfam, Interpro, SMART или DAVID [10], тогда как анализ последовательности посттрансляционных модификаций белка можно выполнить с помощью таких алгоритмов, как MotifX или PhosphoMotif Finder [11].
Биоинформационный анализ межмолекулярных взаимодействий при изолированной систолической артериальной гипертензии (ИСАГ). Главной проблемой мировых систем здравоохранения является продолжительность жизни пожилых людей с сердечно-сосудистой патологией. Наиболее интересной моделью старения сердечно - сосудистой системы является артериальная гипертензия (АГ). 2/3 населения мира старше 65 лет имеют АГ [12]. У лиц старше 65 лет развивается ИСАГ с систолическим артериальным давлением (САД)>140 мм рт.ст. и диастолическим артериальным давлением (ДАД)<90 мм рт.ст. Старение способствует развитию процессов ремоделирования в сердечно-сосудистой системе [13]. Сегодня нет данных о причинных молекулярных патологических путях, формирующих уровни АД у пожилых пациентов. Задача поиска молекулярных диагностических маркеров и разработка режима фармакологической коррекции механизмов старения у пациентов с АГ является актуальной и способствует комплексному решению проблем геномики и протеомики в кардиологии.
Как следует из экспериментальных и клинических данных, опубликованных за период 1998 г. - 2017 г., в
развитии АГ важную роль играет генетическая экспрессия и синтез таких внутриклеточных белков и пептидов, как ангиотензин-превращающий фермент (АПФ), ангиотензиноген, ангиотензин I и II, АТ1-ре-цепторы, эндотелины, рецепторы к эндотелинам, син-таза окиси азота 3 (NOS3), бета2 -адренорецепторов, аденозин-монофосфат деаминазы (AMPD1), фактора, индуцируемого гипоксией, 1 альфа (HIF1A), дельта-рецепторов, активируемых пероксисомальным проли-фератором (PPARD), альфа 1С субъединицы вольтаж-зависимых кальциевых каналов L типа (CACNA1D) [14]. Фенотипическим проявлением генетических полиморфизмов является изменение протеомного профиля биологических жидкостей и тканей при обязательном учете посттрансляционных модификаций белков и взаимодействий в системе белок - белок на основе биоинформационного анализа.
В период 2008 г.-2017 г. нами выполнен поиск геномных и протеомных диагностических маркеров АГ как патологического пути старения сердечно-сосудистой системы в популяционном исследовании в разных возрастных группах на базе кардиологического отделения клиники ГБОУ ВПО «РостГМУ» (г.Ростов-на-Дону), медицинского центра «Новомедицина» (г.Ростов-на-Дону) [15].
В исследование было включено 306 человек, выделена когорта лиц без ИСАГ (I группа, n=60) и когорт-ная популяция пациентов с ИСАГ (II группа, n=246) в возрастной группе, соответствующей раннему периоду старости - 65-74 года согласно критериям включения / не включения в исследование. Категория пациентов с ИСАГ соответствовала критериям классификации уровней АД - САД »140 мм рт.ст. и ДАД<90 мм рт.ст. и стратификации риска - средний (n=136) и высокий дополнительные риски (n=110), предложенным ВОЗ/МОГ (1999 г.), Российскими рекомендациями по диагностике и лечению АГ (третий пересмотр, 2008 г.), 2013 ESH/ESC Guidelines for the management of arterial hypertension. Длительность ИСАГ на момент включения в исследование 13,5 лет. Молекулярное фенотипи-рование включало выполнение протеомного анализа методом время - пролетной матриксной масс-спектро-метрии с лазерной десорбцией-ионизацией (MALDI-TOF-MS/MS, Ultraflex II, «Bruker», США), который выявил молекулярный паттерн плазмы крови пациентов без ИСАГ и с ИСАГ. Выполнялось генетическое фенотипирование (Complete GeneChip® Instrument System, Affymetrix, США). Идентификация пептидов и белков выполнена с помощью веб-инструмента Mascot Search (Великобритания). Биоинформационный анализ взаимодействий и функциональных особенностей пептидов и белков выполнен с помощью программы STRING 10.0. По идентификатору белка интерпретирована его функциональная активность в базах данных (Uniprot, Ensembl, International Protein Index).
У пациентов с ИСАГ обнаружены полиморфизмы генов АПФ (генотип DD-119 чел., генотип ГО - 127 чел.), НШ1А (генотип С1772Т: СТ -145 чел., СС - 47 чел., ТТ - 54 чел.), PPARD (полиморфизм Т294С: генотип СС-145 чел., генотип ТТ-92 чел., генотип СТ-9 чел.), САС^Ш (полиморфизм p.Gly403Arg c.1207G>C - 171 чел., p.Пe770Met с.2310С^-75чел.), ассоциированные с риском возникновения АГ, а также высокая экспрессия следующих пептидов и белков в крови: активатора морфогенеза 1, миозина X, неприли-зина, АПФ, CACNA1D, карбоксиметил-лизина, эндо-телина I, и сниженная экспрессия таких пептидов и белков, как АпоD, мозговой формы спектрина, метил-CpG-связывающего белка, белка 2, регулирующего ишемическое прекондиционирование, HIF1A, PPARD. Выявленная динамика абсолютного количества лиц с различной экспрессией белков-маркеров в плазме
крови отражает прогрессирование ишемических, метаболических, дистрофических и морфогенетических процессов в сердечно-сосудистой системе организма пациентов с ИСАГ. В качестве примера на рисунке 2 приведен биоинформационный анализ межмолекулярных взаимодействий белка PPARD, выполненный с помощью веб-ресурса. Уменьшение экспрессии белка PPARD - ядерного рецептора, который выступает в роли транскрипционного фактора для ряда генов, в плазме крови лиц без АГ и пациентов с АГ с увеличением возраста означает нарушение процесса р-окисле-ния жирных кислот в кардиомиоцитах, отсутствие защиты миоцитов от апоптоза, вызванного окислительным стрессом, с помощью увеличения экспрессии ка-талазы, которая разлагает перекись водорода. На рисунке 2 представлена схема межмолекулярных взаимодействий белка PPARD (веб-ресурс STRING 10.0.).
Рис. 2. Межмолекулярные взаимодействия белка PPARD (данные STRING 10.0) Примечание. PPARD - дельта-рецепторы, активируемые пероксисомальным пролифератором; UCP3 - ми-тохондриальный непарный белок 3; PTGS2 -простагландин-эндопероксид-синтаза 2; PPARGC1A - коактива-тор 1 альфа, гамма - рецепторы, активируемые пероксисомальным пролифератором; CTNNB1 - катенин, бета 1; UTRN - утрофин; CREBBP - CREB - связывающий белок; EP300 - микроРНК 1281; YWHAE - тирозин 3-монооксигеназа, эпсилон-полипептид; UCP2 - митохондриальный непарный белок 3; RXRG - ретиноидный рецептор X, гамма.
У лиц без АГ и у пациентов с АГ нами выявлена биологическая роль группы белков, связанная как с прогрессированием, так и с защитой от развития молекулярных путей старения сердечно-сосудистой системы. Одновременно были обнаружены белки в плазме крови лиц без АГ, экспрессия которых связана с процессами старения в сердечно-сосудистой системе, но не приводит к появлению повышенного АД.
Таким образом, молекулярный паттерн плазмы крови пациентов с АГ, включающий гены-кандидаты, пептиды и белки, может быть рекомендован для раннего выявления старения сердечно-сосудистой си-
стемы и развития АГ, а также для выбора индивидуального, эффективного и безопасного гипотензивного лекарства.
Биоинформационный анализ межмолекулярных взаимодействий на модели диабетической нефропатии (ДН). Одна из главных причин смертности среди пациентов с сахарным диабетом (СД) 2 типа - ДН, которая приводит к терминальной почечной недостаточности (5-10% причин случаев смерти при СД 2 типа) [16]. Экспериментальные и клинические исследования, проведенные с 1998 г. до 2016 г., показали, что гипергликемия [17], гиперлипидемия, высокий уровень креатинина крови, гломерулярная гиперфильтрация, протеинурия, АГ, анемия могут играть важную
роль в развитии ДН у пациентов с СД 2 типа. Установлено, что генетические факторы (гены перлекана, N-деацетилазы, интерлейкин-1, рецептор к интерлей-кину-1, альдозоредуктаза, каталаза, супероксиддисму-таза 2, параоксоназа) могут определять развитие ДН совместно с другими генами (гены ангиотензиногена, ренина, АПФ, рецептор 1 типа к ангиотензину II), определяющими развитие сердечно-сосудистой патологии [18]. Современные методы протеомного анализа позволяют обнаружить новые прогностические маркеры в биообразцах человека (кровь, моча), в т.ч., исследовать патологические пути формирования ДН у пациентов с СД 2 типа. Сегодня необходим прогресс в разработке и клиническом применении новых молекулярных скрининговых тестов и методов биоинформационного анализа, отражающих ключевые геномно-протеомные взаимодействия, лежащие в основе ДН у пациентов с СД 2 типа.
Нами выполнено проспективное когортное сравнительное исследование с параллельным дизайном поиска молекулярных прогностических маркеров ДН различных стадий с применением методов протеомики и биоинформационного анализа на базе нефрологиче-ского отделения клиники ГБОУ ВПО «Дагестанский государственный медицинский университет» (г.Махачкала, Дагестан), ГБОУ ВПО «РостГМУ» (г.Ростов-на-Дону), медицинского центра «Новомедицина» (г.Ростов-на-Дону) [19].
Исследование включало 205 пациентов с СД 2 типа и ДН в соответствии с критериями включения/не включения в исследование. Пациенты соответствовали критериям классификации ДН, предложенной Комитетом по ДН [20]. Продолжительность ДН -10,5 лет. Молекулярное фенотипирование биообразцов (моча) выполнялось с помощью методов протеомики: префракцио-нирования, разделения белков с помощью стандартных наборов (MB-HIC C8 Kit, MB-IMAC Cu, MB-Wax Kit, «Bruker», США), MALDI-TOF-MS/MS (Ultraflex II, «Bruker», США). Отдельные сиквенсы были идентифицированы в системах "BLAST protein-protein" и в базе данных Swissprot для раздела Homo sapiens с проверкой идентифицированных белков в базе данных MASCOT (Matrix Science, Великобритания). Данные о межмолекулярных взаимодействиях и функциональной активности получены на основе базы данных STRING 10.0.
Обнаружена высокая экспрессия белков мочи, отражающих прогрессирование эпителиально - мезен-зхимальной трансформации (ЭМТ) и изменение в экстрацеллюлярном матриксе (ЭЦМ) почек у пациентов с СД 2 типа и ДН. Биоинформационный анализ показал, что молекулы взаимодействуют между собой и
с другими молекулами-участниками патологических путей развития ДН, являющихся ключевыми звеньями формирования ЭМТ и изменений в ЭЦМ почек: Smad, p38 MAPK, TLRs, Wnt, mTOR, Notch, малыеГТФазы и Hedgehog, PI3K/AKT- сигнальные пути.
Увеличенное накопление фибронектина обнаружено при ДН с его высокой экспрессией в моче, что связано с локальной стимуляцией в мезангии и эпителиальных клетках продукции нерастворимой или клеточной формы фибронектина. Мы обнаружили более высокую экспрессию церулоплазмина у пациентов с ДН в сравнении с контролем, даже в нормоальбумину-рической стадии. Церулоплазмин является перспективным маркером поражения гломерул почек при ДН. E-кадгерин экспрессирован в мембране и цитоплазме почечных тубулярных эпителиальных клеток, отмечено снижение его синтеза при ДН по сравнению с контролем. Мы обнаружили высокую экспрессию в моче цистатина С - маркера тубулярного повреждения при ДН.
Высокая экспрессия в моче аутокринных факторов трансформирующего фактора роста-бета (ТФР-Р), мак-рофагального фактора хемоаттракции-1 и связанного с желатиназой липокалина нейтрофилов (NGAL), связана с прогрессированием ДН. Очевидно, что ауто-кринная сигнальная сеть стимулировала гипертрофию, расширение мезангиального матрикса и атрофию проксимальных канальцев. Биоинформационный анализ позволил предположить, что ТФР-Р является ключевым медиатором в патогенезе почечного фиброза, который активирует киназу рецептора 1 к ТФР-Р (TpRI), фосфорилирует рецептор-регулируемые Smads, Smad2 и Smad3, олигомерный комплекс со Smad4 и таргетную генетическую транскрипцию, включающую Smad7. Специфические белки подоци-тов-ранние маркеры ДН, особенно подоцин. Биоинформационный анализ патобиохимических путей развития ДН показал, что подоцин взаимодействует с PI3K/AKT сигнальным патологическим каскадом. Появление подоцина в моче запускает процесс гломеру-лосклероза посредством увеличения синехий между подоцитами и базальной мембраной гломерул. Мы обнаружили увеличенную продукцию коллагена IV типа в моче, постоянного компонента утолщенной базаль-ной мембраны и расширенного мезангия при ДН с микроальбуминурией или выраженной протеинурией. Выявлена активация в моче матриксной металлопротеи-назы 9 (MMP9), что связано с прогрессированием ре-моделирования ЭЦМ при ДН. Пример межмолекулярных взаимодействий белка NGAL представлен на рисунке 3, выполненный с помощью веб-ресурса STRING 10.0.
Рис. 3. Межмолекулярные взаимодействия белка NGAL (данные STRING 10.0) Примечание. LCN2 - липокалин 2 (NGAL); MMP9-матриксная металлопептидаза 9; LRP2-липопротеин очень низкой плотности 2; ERBB2- гомолог 2 вирусного онкогена эритробластической лейкемии 2; 1L3- интерлейкин 3; НМ0Х1-гем-оксигеназа 1; lLUA-интерлейкин 17A; LEP-лептин; lNS-инсулин; TLR2-толл-подоббный рецептор 2; CDH1- E-кадгерин.
Динамика протеомной карты мочи у пациентов с ДН позволила выявить молекулярный механизм развития ДН. Биоинформационный анализ сигнальных патологических путей и молекул, синтезируемых, секре-тируемых и формирующих ЭЦМ, лежит в основе разработки стратегий профилактики ДН.
Таким образом, будущее биоинформатики связано с развитием экспериментальной геномики с разработкой типичного сценария развития организма человека, начиная с постнатального периода, что должно произвести революцию в медицине и здравоохранении. Разработка методов систематического анализа всех белков в клетке и последующее изучение их функциональной активности позволяет открывать новые для исследования пути развития патологии человека. Биоинформационный анализ позволяет разрабатывать новые методы лечения заболеваний человека. Однако для создания надежных и точных биоинформационных инструментов анализа молекулярных данных должны быть согласованы международные стандарты обработки данных и интерпретации полученных результатов исследований. Необходимой является разработка образовательной программы по курсу биоинформатики на базе медицинских ВУЗов России, рассчитанных на выпуск высококачественных специалистов по алгоритмическим вопросам биоинформатики, востребованных как в науке, так и в индустрии.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
[1] Altschul S., Gish W., Miller W., Myers E., Lipman D. Basic local alignment search tool. Journal of Molecular Biology, 1990, vol.215, №3, pp.403-410.
[2] Garst A., Edwards A., Batey R. Riboswitches: structures and mechanisms. Cold Spring Harbor perspectives in biology, 2011,vol. 3, №6, pp. a003533.
[3] Ivanov A., Poroikov V., Archakov A. Bioinformatics education in the Institute of Biomedical Chemistry RAMS: course «Bioinformatics - the way from gene to drug» and special course «Bioinformatics and computer-aided drug design». In: Proceedings of the Fifth International Conference on Bioinformatics of Genome Regulation and Structure. Eds. N. Kolchanov, R. Hofest, Novosibirsk, 2006, vol.3, pp.262-265.
[4] Johnson H., Eyers C. Analysis of Post-translational Modifications by LCMS/MS. Methods Mol. Biol., 2010, № 658, pp.93-108.
[5] Waegele B., Dunger-Kaltenbach I., Fobo G., Montrone C., Mewes H., Ruepp A. CRONOS: the cross-reference navigation server. Bioinformatics, 2009, vol.25, №1, pp.141143.
[6] Kersey P., Duarte J., Williams A., Karavidopoulou Y., Bir-ney E., Apweiler R. The International Protein Index: An in-tergrated database for proteomics experiments. Proteomics, 2004, vol. 4, № 7, pp.1985-1988.
[7] Croft D., O'Kelly G., Wu G., Haw R., Gillespie M., Matthews L., Caudy M., Garapati P., Gopinath G., Jassal B., et al. Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res., 2011, №39(Database), pp. D691-D697.
[8] Mi H., Guo N., Kejariwal A., Thomas P. PANTHER version 6: protein sequence and function evolution data with expanded representation of biological pathways. Nucleic Acids Res., 2007, №35, pp.D247-D252.
[9] Snel B., Lehmann G., Bork P., Huyen M. STRING: a webserver to retrieve and display the repeatedly occuring neighborhood of a gene. Nucleic Acids Res., 2000, vol.28, №18, pp.3442-3444.
[10] Punta M., Coggill P., Eberhardt R., Mistry J., Tate J., Boursnell C., Pang N., Forslund K., Ceric G., Clements J.,
et al: The Pfam protein families database. Nucleic Acids Res., 2012, №40(Database), pp.D290-D301.
[11] Amanchy R., Periaswamy B., Mathivanan S., Reddy R., Tattikota S., Pandey A. A curated compendium of phosphorylation motifs. Nat. Biotech., 2007, vol.25, №3, pp.285-286.
[12] Basile J. Hypertension in the elderly: a review of the importance of systolic blood pressure elevation. J. Clin. Hy-pertens. (Greenwich), 2002, vol. 4, № 2, pp. 108-112.
[13] Nielsen W., Vestbo J., Jensen G. Isolated systolic hypertension (ISH): The most powerful risk factor of stroke and MI. American Journal of Hypertension, 1995, vol. 8, №4,p.41A.
[14] Caulfield M., Munroe P., Pembroke J. MRC British Genetics of Hypertension Study. Genome-wide mapping of human loci for essential hypertension. Lancet, 2003, vol.361, № 9375, pp.2118-2123.
[15] Kartashova E., Sarvilina I. Effectiveness of Personalized Therapy in Elderly Patients with Isolated Systolic Hypertension. International Journal of Biomedicine, 2015, vol. 5, №4, pp. 203-206.
[16] Shestakova M., Shamalova M. Diabetic nephropathy: clinic, diagnostic, therapy. Edited by Dedov I.I. Moscow, 2009,27 pp.
[17] King P., Peacock I., Donnelly R. The UK Prospective Diabetes Study (UKPDS): clinical and therapeutic implications for type 2 diabetes. Br. J. Clin. Pharmacol., 1999, vol. 48, №5, pp. 643-648.
[18] Ha S., Seo J. Insertion/deletion polymorphism in ACE gene as a predictor for progression of diabetic nephropathy. Kidney Int. Suppl.,1997,vol.60, pp.28-32.
[19] Ibragimov V., Sarvilina I., Batjushin M. The search of molecular prognostic markers of diabetic nephropathy in patients with type 2 diabetes mellitus. International Journal of Biomedicine, 2016, vol. 6, № 1, pp. 65-69.
[20] Haneda M., Utsunomiya K., Koya D. et al. Joint Committee on Diabetic Nephropathy. A new Classification of Diabetic Nephropathy 2014: a report from Joint Committee on Diabetic Nephropathy. J. Diabetes Investig., 2015, vol.6, №2, pp.242-246.
BIOINFORMATK ANALYSIS IN THE CARDIOLOGY AND NEPHROLOGY IN THE POST-GENOMIC ERA
Kartashova1 E.A., Ibragimov2 V.M., Sarvilina3of I.V., Batyushin1 M.M.
1 Rostov state medical university, Rostov-on-Don, Russian Federation.
2Dagestan state medical university, Makhachkala, Republic of Dagestan, Russian Federation. 3Medical centre "Novomeditsina", Rostov-on-Don, Russian Federation.
Annotation. There are main objectives and tasks, definitions and directions of the development of bioinformatics as the science bound with the progress of molecular medicine presented in scientific review. There are research methods in molecular medicine and tools of bioinformatic analysis also presented. We have shown results of study of proteomic maps of biological liquids (blood, urine) in patients with isolated systolic arterial hypertension and diabetic nephropathy as examples of the introduction of bioinformatic analysis in the practice of clinical trials, and also the intermolecular interactions executed by modern tools of bioinformatics. Key words: bioinformatics, genomics, proteomics, hypertension, diabetes mellitus