Научная статья на тему 'Применение параллельных эволюционных алгоритмов оптимизации в задачах структурной биоинформатики'

Применение параллельных эволюционных алгоритмов оптимизации в задачах структурной биоинформатики Текст научной статьи по специальности «Математика»

CC BY
378
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ / ЭВОЛЮЦИОННЫЕ ВЫЧИСЛЕНИЯ / РОЕВАЯ ОПТИМИЗАЦИЯ / СТРУКТУРНАЯ БИОИНФОРМАТИКА / GLOBAL OPTIMIZATION / EVOLUTIONARY COMPUTATION / SWARM OPTIMIZATION / STRUCTURAL BIOINFORMATICS

Аннотация научной статьи по математике, автор научной работы — Полуян Сергей Владимирович, Ершов Николай Михайлович

Настоящая работа посвящена исследованию области применения стохастических эволюционных алгоритмов оптимизации в задачах структурной биоинформатики: предсказание трехмерной структуры пептида по аминокислотной последовательности и предсказание структуры комплекса пептид-белок. Продемонстрированы основные положения, сводящие рассматриваемые задачи к задаче непрерывной глобальной оптимизации, и предложен способ использования эволюционных алгоритмов. Описана схема применения параллельных вычислений и проведена параллельная реализация алгоритмов. Представлены результаты разнообразных численных экспериментов. Показаны перспективы использования эволюционных алгоритмов в актуальных задачах структурной биоинформатики.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Полуян Сергей Владимирович, Ершов Николай Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Parallel evolutionary algorithms for solving optimization problems in structural bioinformatics

The paper presents an exploration of the scope of application of the evolutionary optimization algorithms in the problems in structural bioinformatics: prediction of three-dimensional peptide structure from amino acid sequence and peptide-protein docking. This paper presents the main assumptions that reduce the above-described tasks to the continuous global optimization problem and provides a way of using evolutionary optimization algorithms. The used scheme of parallel computations was described. The parallel realization of the considered algorithms was carried out. The paper presents the results of various numerical experiments and emphasizes the most effective. The prospect of using evolutionary algorithms in contemporary issues of structural bioinformatics was shown.

Текст научной работы на тему «Применение параллельных эволюционных алгоритмов оптимизации в задачах структурной биоинформатики»

ISSN 1992-6502 (Print)

2017. Т. 21, № 4 (78). С. 143-152

Вестник УГАТУ

ISSN 2225-2789 (Online) http://journal.ugatu.ac.ru

УДК 519.6

Применение параллельных эволюционных алгоритмов оптимизации

в задачах структурной биоинформатики

1 -) с. в. пОЛУЯН1, н. м. еРШОВ2

1 svpoluyan@gmail.com, 2 ershov@cs.msu.ru

1 ГБОУ ВО МО «Университет «Дубна» 2 ФГБОУ ВО «Московский государственный университет имени М. В. Ломоносова»

Поступила в редакцию 16.09.2017

Аннотация. Настоящая работа посвящена исследованию области применения стохастических эволюционных алгоритмов оптимизации в задачах структурной биоинформатики: предсказание трехмерной структуры пептида по аминокислотной последовательности и предсказание структуры комплекса пептид-белок. Продемонстрированы основные положения, сводящие рассматриваемые задачи к задаче непрерывной глобальной оптимизации, и предложен способ использования эволюционных алгоритмов. Описана схема применения параллельных вычислений и проведена параллельная реализация алгоритмов. Представлены результаты разнообразных численных экспериментов. Показаны перспективы использования эволюционных алгоритмов в актуальных задачах структурной биоинформатики.

Ключевые слова: глобальная оптимизация; эволюционные вычисления; роевая оптимизация; структурная биоинформатика.

ВВЕДЕНИЕ

Белки являются макромолекулами, состоящими из а-аминокислот, соединенных в цепочку пептидной связью, тем самым образуя полипептидную цепь. Предсказание структуры белка - предсказание по аминокислотной последовательности трехмерной структуры белка, которая определяет на-тивное, т.е. функционально активное, состояние (выделяют вторичную, третичную и четвертичную). Короткие белки называют пептидами.

Пептиды играют ключевую роль во многих внутриклеточных процессах, причем как индивидуально, так и при взаимодействии с белками. Например, при иммунном ответе или в различных сигнальных системах клеток. В настоящее время изучение

Работа рекомендована программным комитетом международной научной конференции «Суперкомпьютерные дни в России 2017».

этих взаимодействий различными вычислительными методами приобретает все большую популярность в силу меньшей дороговизны относительно традиционных экспериментальных методов [1].

Наиболее широко принимаемая гипотеза, объясняющая процесс самоорганизации белковых молекул, была сформулирована Анфинсеном [2]. Основные идеи предложенной им «термодинамической гипотезы» следующие: нативное состояние белка уникально; нативное состояние белка находится в глобальном минимуме свободной энергии. Таким образом, процесс сворачивания полипептидной цепи можно представить как процесс минимизации свободной энергии белка, при этом задача предсказывания структуры сводится к задаче поиска глобального минимума свободной энергии, т.е. к задаче глобальной оптимизации.

Если поставить задачу классификации методов предсказывания структуры белка,

то можно выделить два основных подхода. Первый состоит в использовании информации известных белковых структур. Такие методы предсказывания называют моделированием по гомологии. Второй подход называют ab initio, где процесс сворачивания цепи рассматривается без привлечения каких-либо дополнительных эмпирических предположений. При таком подходе для предсказания структуры используются различные вычислительные методы, например метод молекулярной динамики или методы стохастической оптимизации. Необходимо отметить, что в случае пептид-белок докин-га применение методов молекулярной динамики является чрезвычайно ресурсоемкой задачей и может занимать несколько месяцев [3]. При этом применение методов оптимизации привлекательно не только в вычислительном отношении, но также позволяет гибко использовать в процессе поиска оптимальной структуры как целевую функцию, описывающее силовое поле, так и различные статистически известные данные и различные упрощения.

ПОСТАНОВКА ЗАДАЧИ

В настоящей работе рассматриваются две задачи структурной биоинформатики: задача поиска двух основных регулярных вторичных структур встречающихся у пептидов а-спирали и Р-листа) и задача предсказания структуры комплекса пептид-белок.

В задаче предсказания структуры комплекса пептид-белок (или пептид-белок до-кинг) необходимо найти оптимальное место связывания белка и пептида при взаимодействии друг с другом, а также соответствующую этой связи конформацию комплекса. При этом предоставляется структура белка определяющая его нативное состояние и аминокислотная последовательность пептида. Оптимальное состояние комплекса пептид-белок находится в глобальном минимуме свободной энергии, т.е. данная задача также может быть сведена к задаче глобальной оптимизации.

С точки зрения наличия информации об месте связывания пептида и белка можно выделить два типа докинга: слепой и

прямой докинг. В настоящей работе рассматривается докинг в окрестности места связывания. Важно отметить, что в при взаимодействии с пептидом в структуре белка и пептида могут происходить сильные взаимосвязанные неспецифичные для свободного состояния конформационные изменения, как правило, слабо поддающиеся статистическому анализу и моделированию по гомологии.

С момента появления термодинамической гипотезы исследователями были предложены различные способы применения методов оптимизации, в которых на различных этапах задача поиска оптимальной структуры представима как задача нелинейной непрерывной глобальной оптимизации. При этом используют различные стохастические алгоритмы оптимизации, в том числе эволюционные, а точность предсказания напрямую зависит от используемого алгоритма оптимизации. Актуальность применения и совершенствования современных методов оптимизации показана в различных работах [4]. Настоящая работа посвящена исследованию области применения стохастических эволюционных алгоритмов оптимизации в поставленных задачах.

Важно отметить, что основная цель исследования - сравнение различных эволюционных алгоритмов и выявление наиболее эффективных стратегий в рамках силового поля и рассматриваемых задач. В общем случае такого рода задачи решаются комбинированными методами, где может учитываться различная информация о представленных структурах, однако такого рода предсказания выходят за рамки текущего исследования.

Предсказание структуры. Задача поиска структуры пептида ставится в непрерывном пространстве степеней свободы пептида, которые описаны ниже.

• Торсионные углы главной цепи пептида. Углы ф, у и ю для каждого аминокислотного остатка пептида, за исключением ф первого и у, ю последнего остатка. Вводится ограничение [-п, п] на диапазон значений для углов ф и у. Для угла ю вводится ограничение [п-5, п+5], где 5 = 0,2 рад., поскольку в рассматриваемых задачах данный

угол находится в /гаш-конформации и стремится быть планарным.

• Торсионные углы для каждой боковой цепи пептида. Углы х1-4 с ограничением [-п, п], за исключением пролина, для которого вводятся аналогичные углу ю отклонения от идеализированных значений, используемых в силовом поле.

В задаче поиска структуры комплекса пептид-белок к параметрам пептида, описанным выше, добавляются следующие параметры с непрерывными значениями.

• Вектор для смещения пептида относительно белка. При этом вводятся ограничения в несколько ангстрем относительно начального положения белка.

• Вектор и угол поворота пептида в трехмерном пространстве относительно начального положения. Ограничения [-1,1] и [0, п].

• Торсионные углы боковых цепей белка, которые находятся в непосредственной близости к пептиду.

Силовое поле. В численных экспериментах использовалось силовое поле Roset-ta 3,8 [5]. Отличительной особенностью данного силового поля является использование, при вычислении энергии макромолекулы, неявного растворителя, различных потенциалов и статистически полученных данных.

Целевая функция (именуемая также ско-ринг-функцией) представляет собой сумму так называемых термов, которые входят в состав суммы с определенным весом. Веса термов калибруются на определенной

выборке белков. Термы описывают межатомные взаимодействия с использованием классической молекулярной механики (силы отталкивания и притяжения Леннарда-Джонса, электростатические взаимодействия), и эмпирически известных данных (планарность торсионного угла ю главной цепи и водорода в гидроксильной группе). Водородные связи разбиты на четыре группы: взаимодействия между атомами основной цепи в зависимости от положения в первичной структуре (близкие и дальние); взаимодействия между атомами главной цепи и боковыми цепями; взаимодействия между боковыми цепями. В рассматриваемых скоринг-функциях использовалось приблизительно 15 термов. В связи с тем, что при вычислении целевой функции используются эмпирические термы и все веса термов откалиброваны, невозможно говорить о получаемой энергии пептида как о потенциальной энергии, выражаемой в килокалориях на моль. Вместо этого рассматривается просто получаемое значение ско-ринг-функции.

В качестве целевых функций использованы две скоринг-функции - score 12 и talaris2014, соответствующие предыдущему и текущему стандарту скоринг-функции у силового поля Rosetta. Принципиальное различие score12 и talaris2014 заключается в способе вычисления электростатических взаимодействий. В первом случае используется терм, описывающий статистически полученные данные из PDB [5], во втором случае в явном виде вычисляется кулонов-ский потенциал.

Рис. 1. Описывающие смещение и поворот пептида в трехмерном пространстве, а также степени свободы пептида и белка параметры на примере пептида DLLHI и белка 1JWG (код PDB)

Выбор силового поля обусловлен широкой распространенностью, быстродействием и ориентированностью к проблеме предсказания пространственной структуры белков. Также из преимуществ стоит отметить удобный фреймворк для разработки с возможностью использования Python или C++ современного стандарта.

Использование статистической информации. В силу большого числа экспериментально полученных структур белков достаточно высокого разрешения известны наиболее часто встречающиеся значения торсионных углов у аминокислотных остатков. Существует ряд библиотек [5-7], предоставляющих эти эмпирические данные в различной форме. Например, с помощью терма rama2b средствами Rosetta можно получить плотность распределения наиболее часто встречающихся углов ф, у главной цепи и тем самым исключить из рассмотрения физически невозможные конформа-ции. На рис. 2 показана нормализованная плотность распределения углов главной цепи аспарагина в окружении тирозина и пролина.

Торсионные углы боковых цепей центрируются за счет sp3-sp3 гибридизации атомных орбиталей и образуют три приблизительно симметричных пика. Например, на рис. 2 показана плотность распределения углов гистидина, где xi находится в состоянии gauche+ {g+}, trans {t} и gauche- {g-}, в позициях 60°, 180° и 300° соответственно. Такие углы называют ротамерными (rotameric). Неротамерные (non-rotameric)

углы боковых цепей центрируются за счет

3 2

sp -sp гибридизации и демонстрируют

более широкие и ассиметричные плотности, например, угол Х2 гистидина. На рис. 2 показано независимое от углов главной цепи распределение углов боковой цепи гисти-дина.

Гораздо больший интерес представляют библиотеки [6], в которых можно получить вероятность нахождения угла боковой цепи в зависимости от значений углов главной цепи и от позиции предшествующих торсионных углов аминоксилотного остатка. Например, на рис. 2 показаны возможные состояния для неротамерного угла глута-мина в зависимости от углов главной цепи ф = -40°, у = 10° и положения предшествующих ротамеров: первый в состоянии {§}, второй в состоянии {§}.

С помощью представленной выше информации о торсионных углах можно значительно сократить пространство поиска, чтобы в процессе предсказания структуры стохастическим алгоритмом оптимизации не рассматривать невозможные конформации. Для этого достаточно построить соответствующие функции распределения и перед вычислением целевой функции сделать перерасчет значений. Такой подход был реализован в рамках исследования. Для случая углов главной цепи с использованием терма ra.ma.2b выполняется построение двумерных функций распределения с зависимостью от соседних остатков в главной цепи, для случая углов боковой цепи - одномерные функции распределения, так как библиотекой Dunbrack [6] предоставляются значения ротамеров в виде среднего значения и отклонения. Для случая библиотеки Тор500 [7] размерность функции распределения составляет от одного до четырех.

Рис. 2. Нормализованная плотность распределения углов главной цепи аспарагина. Распределение углов боковой цепи гистидина. Предпочтительные значения угла х3 глутамина

Поскольку предоставляемые библиотеками значения дискретны, для получения однозначного отображения и непрерывности пространства поиска использовалась линейная интерполяция. Так как значения в функции распределения отсортированы по возрастанию, для получения нового значения достаточно использовать бинарный поиск.

Сложность распределения одного параметра в среднем и худшем случае будет составлять O(log2n) операций, где n - число шагов сетки, что несущественно, так как максимальное n = 720. Увеличение числа шагов не будет играть никакой роли из-да дискретности предоставляемых библиотеками значений. Недостатком такого метода является значительное потребление оперативной памяти. Однако, для рассматриваемых задач, оно несущественно.

Важно отметить, что реализованные функции распределения позволяют получать обратные значения, что позволяет на любом этапе работы алгоритмов добавлять измененные вне процесса работы решения в популяцию.

ЭВОЛЮЦИОННЫЕ АЛГОРИТМЫ ОПТИМИЗАЦИИ

Для поиска оптимальной структуры использовались следующие эволюционные алгоритмы оптимизации: адаптивная дифференциальная эволюция JADE [8], эволюционная стратегия ESCH [9], метод роя частиц PSO [10] с локальным поиском SW [11], алгоритм бактериального поиска с адаптивным изменение шага SABFO [12], алгоритм роевой оптимизации со стратегией соревнования особей CSO [13], неоднородный клеточный генетический алгоритм NCGA [14], эволюционная стратегия с адаптацией матрицы ковариаций CMAES [15], гибрид дифференциальной эволюции с CMAES для локальной оптимизации JDE-CMAES [16]. Выбор рассматриваемых алгоритмов обусловлен хорошими результатами при решении различных практических и тестовых задач оптимизации [13].

Необходимо отметить, что, несмотря на разнообразие стратегий поиска, приведенные эвристики имеют схожую структуру,

напоминающую структуру классического генетического алгоритма, в котором популяция решений несколько раз проходит три этапа - мутацию, скрещивание и отбор. Практически во всех рассматриваемых алгоритмах в явном виде присутствует оператор отбора решений, а в модификациях дифференциальной эволюции присутствует оператор скрещивания. При этом шаги, определяющие движение членов популяции в роевых алгоритмах, выполняют роль мутации и осуществляют локальный поиск. Во всех приведенных алгоритмах операторы мутации разные: в случае с JADE используется стратегия current-to-best; в JDE -классическая для дифференциальной эволюции стратегия rand; в NCGA - классическая стратегия для генетического алгоритма. Отдельно следует отметить алгоритм CMAES, который показывает в начале оптимизации самую высокую скорость сходимости среди всех алгоритмов, однако дает один из худших результатов, показывая тем самым только локальную эффективность.

Следует подчеркнуть, что сходимость у эволюционных алгоритмов в значительной степени зависит от используемых параметров, причем их число варьируется от двух (CSO) до 12 (SABFO). В проводимых экспериментах часть параметров подбирались с учетом размерности, границ рассматриваемой задачи, рекомендаций авторов и собственных исследований. Для максимальной объективности сравнения эксперименты проводились на одинаковом размере популяции решений. Чувствительность алгоритмов к размеру популяции в данном случае нивелируется достаточно большим числом итераций.

ПАРАЛЛЕЛЬНАЯ РЕАЛИЗАЦИЯ

Поскольку у эволюционных алгоритмов операция вычисления целевой функции для каждого члена популяции обычно выносится из основных операторов в общий для популяции шаг вычисления целевой функции, практически все из них довольно просто распараллеливаются. В результате выполненной работы произведена параллельная реализация данного этапа у большинства рассматриваемых алгоритмов.

Используемая схема распараллеливания следующая. Популяция решений сначала разбивается на части пропорционально количеству используемых узлов с помощью технологии MPI по принципу: один узел -один MPI процесс. Внутри каждого процесса с применением технологии OpenMP вычисляется значение целевой функции для полученной из главного процесса части популяции.

Все вычисления выполнены на кластере ОИЯИ HybriLIT [17], где каждый вычислительный узел имеет два 12-ядерных процессора Intel Xeon. Результаты приведены в табл. 1 для алгоритма JADE. Важно отметить, что некоторые операторы алгоритмов также поддаются параллелизации, в связи с этим можно добиться более заметных результатов.

РЕЗУЛЬТАТЫ ЧИСЛЕННЫХ ЭКСПЕРИМЕНТОВ

Как указывалось выше, основным мотивом исследования является проверка работы различных эволюционных алгоритмов в рамках довольно сложного энергетического ландшафта предоставляемого используемым силовым полем. Обычно алгоритмы оптимизации сравниваются на широком ряде тестовых функций [12], которые носят отчасти синтетический характер в силу присутствия однотипных базовых функций. Даже при сравнении с использованием сложных по структуре функций или на ряде практических задач различные алгоритмы дают очень неоднозначные результаты [13]. Таким образом, становится актуальным вы-

явление эффективных эволюционных операторов в рамках решения поставленных задач.

Таблица 1

Производительность применяемой схемы параллельных вычислений

Количество потоков / узлов Ускорение Эффективность

4 / 1 3,31 0,82

8 / 1 6,28 0,78

12 / 1 9,03 0,75

16 / 1 11,84 0,74

24 / 1 17,1 0,71

24 / 2 15,85 0,66

48 / 2 31,1 0,64

Предсказание пространственной структуры пептидов. На первом этапе вычислительных экспериментов ставилась задача нахождения оптимальной структуры модельного декапептида Аю [18], с искомой структурой - а-спираль. Размерность задачи составила 27 параметров. Количество вызовов целевой функции ограничено одним миллионом. Для каждого алгоритма выполнено 25 независимых запусков. Результаты показаны на рис. 3.

Оптимальная структура для рассматриваемого пептида получена с помощью сервера PEP-FOLD [19], предсказывающим структуру пептида с использованием статистической информации (низкоэнергетических фрагментов) для получения пула крупнозернистых моделей и последующей полноатомной минимизацией.

На рис. 3 показано среднеквадратичное отклонение координат атомов а-углерода

2 3 4 Са RMSD

2 3 4 5 Са RMSD

Рис. 3. Результаты 25 независимых запусков

JADE • ESCH х PSO SW SABFO О

CSO NCGA CMAES JDE CMAES •

Рис. 4. Найденные модельные а-спираль Y(MEARA)3 и р-лист V7G2V7

главной цепи, получаемое после оптимизации пептидов относительно найденной с помощью PEP-FOLD структуры. Так как вторичную структуру определяет конфор-мационное расположение атомов главной цепи, такой способ сравнения наиболее объективен. Силовое поле, используемое в методе PEP-FOLD, отличается от Rosetta, поэтому перед сравнением здесь и далее получаемая PEP-FOLD структура проходит процедуру локальной оптимизации в Rosetta стандартными средствами пакета. Следует отметить, что первичная цепочка для оптимизации алгоритмами порождалась средствами Rosetta с идеализированными значениями валентных углов и длин ковалентных связей. В рассматриваемом случае при оптимизации эти значения не изменялись и конечные структуры несколько отличаются от получаемой с помощью PEP-FOLD.

Можно заметить, что меньшее значение целевой функции соответствуют большему отклонению атомов главной цепи. Здесь необходимо учесть локальный характер

оптимизации для структуры полученной с помощью PEP-FOLD.

На рис. 4 представлены получаемые с помощью алгоритма JADE структуры для модельных пептидов [18] длиной 16 аминокислотных остатков. Использовалось силовое поле talaris2014. Размерность задач составила 78 и 59 параметров, количество вызовов целевой функции 107 и 5 106 для а-спирали и Р-листа соответственно. Время запуска на одном вычислительном узле составило « 40 мин для а-спирали. Среднеквадратичное отклонение атомов главной цепи относительно структуры, найденной с помощью PEP-FOLD, для которой показана вторичная структура и выделен синий цвет, меньше одного ангстрема. Поиск осуществлялся с использованием библиотеки Dunbrack и с сокращением пространства поиска для углов главной цепи.

На рис. 5 представлены результаты для пептида 1UAO (код PDB) длиной десять аминокислотных остатков. Параметры на-тивной структуры оптимизированы средствами Rosetta. Показаны результаты без сокращения пространства поиска (without),

1 111 V. X Х V X X -

- : Ш: ■ X Xх >i< V

i without X

д bbind ■

bbind + ф,ф ■

bbdep •

• 1 III bbdep — <t>,i)> •

О 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Са RMSD

Рис. 5. Результаты для пептида 1UAO

ч *

о

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

СЧ

-240

-250

-260 -

-270 -

-280

-290 h

best -300

I •

—i-1-1-1—

FlexPepDock •

JADE •

« •

.Л.У

-

0 1

4 5 6 Ca RMSD

Рис. 6. Стартовая позиция (серый цвет) и нативное положение (зеленый цвет) пептида. Результат JADE (красная сетка и пептид) и FlexPepDock (синий пептид и серая поверхность)

ю

с распределением для углов главной цепи (ф, ф), с использованием библиотеки Top500 (bbind) и Dunbrack (bbdep), т.е. данные независимые и зависимые от углов главной цепи соответственно. Представлены 25 независимых запуска алгоритма JADE для каждого случая. Количество вызовов целевой функции равно 2-106 для каждого запуска.

Предсказание структуры комплекса пептид-белок. На втором этапе вычислительных экспериментов ставилась задача пептид-белок докинга. Необходимо отметить, что докинг даже коротких пептидов, длиной 2-5 аминокислотных остатка, представляет собой сложную задачу даже для специально разработанных пакетов [1, 4]. Сравнение эволюционного алгоритма JADE производилось с протоколом Rosetta FlexPepDock [20], выполняющим докинг в окрестности места связывания алгоритмом Монте-Карло с локальной оптимизацией. Выбор алгоритма JADE обусловлен результатами, приведенными на рис. 3.

Рассматривался докинг пептида AP в белок 2CYH [1] (код PDB) со стартовой позицией пептида в 3 -х ангстремах от места связывания в случайной конформации. Поиск производился в 5-ти ангстремах от стартовой позиции с участием боковых цепей белка находящихся в радиусе 10 ангстрем от стартовой позиции. Размерность задачи составила 25 параметров. Время 10 запусков FlexPepDock соответствуют 20-ти запускам JADE c количеством вызовов целевой функции 5 • 106 для каждого запуска.

Преимущество использования JADE заключается в получении меньших значений скоринг-функции, что показано на рис. 6.

ЗАКЛЮЧЕНИЕ

В результате выполненной работы проведено исследование применимости эволюционных алгоритмов оптимизации к поставленным задачам. Для некоторых рассматриваемых алгоритмов произведена параллельная реализация.

На основании проведенных исследований можно заключить, что часть рассматриваемых алгоритмов способна находить оптимальную структуру коротких пептидов длиной порядка 10 аминокислотных остатков, а при использовании сокращения пространства поиска длина может быть увеличена до 15 остатков. Также эволюционные алгоритмы оптимизации применимы к задаче пептид-белок докинга при сопоставимом количестве остатков, с пределом в 30-50 параметров. Важно отметить, что в актуальных задачах пептид-белок докинга необходимо рассматривать пептиды длиной 10-15 аминокислотных остатков, а с учетом степеней свободы белка, размерность задачи возрастает как минимум в 2-3 раза, что приводит к невозможности их использования в полноатомном разрешении.

На основании представленных результатов и перечисленных выше аргументов можно сделать вывод, что при решении поставленных задач принципиальными оператором является оператор мутации диффе-

ренциальной эволюции, причем со стратегией current-to-best. Необходимо отметить, что в рассматриваемом алгоритме вероятность мутации и скрещивания являются адаптивными параметрами и, как показывают исследования, вероятность скрещивания практически все время работы алгоритма крайне мала в отличии от вероятности мутации. Однако, как показывают исследования [8, 14], именно оператор скрещивания осуществляет глобальный поиск и его применение напрямую влияет на эффективность работы алгоритма. Описанные выше результаты указывают на предположения [21], что эволюционные алгоритмы используют в своей работе неявную вероятностную модель распределения, образующуюся в процессе оптимизации.

Целью дальнейшей работы является проверка идей алгоритмов оценки распределений, позволяющих строить вероятностные модели с использованием, например, байесовских сетей. При таком подходе можно добиться эффективного использования статистических известных данных и привлечь к поиску локальную оптимизацию.

Авторы выражают благодарность:

• А. В. Головину, д-р хим. наук, ст. науч. сотр. НИИ ФХБ им. А. Н. Белозерского, преподавателю ФББ МГУ им. Ломоносова за ценные консультации, указание актуальных задач в области докинга и подбор силового поля;

• коллективу гетерогенного кластера HybriLIT ОИЯИ за поддержку и предоставление вычислительных ресурсов.

СПИСОК ЛИТЕРАТУРЫ

1. Rentzsch R., Renard B. Y. Docking small peptides remains a great challenge: an assessment using AutoDock Vina // Briefings in Bioinformatics. 2015. Vol. 16, № 6. Pp. 1045-1056. [ R. Rentzsch, B. Y. Renard, "Docking small peptides remains a great challenge: an assessment using AutoDock Vina", in Briefings in Bioinformatics, vol. 16, no. 6, pp. 1045-1056, 2015. ]

2. Anfinsen C. Principles that Govern the Folding of Protein Chains // Science. 1973. Vol. 181. Pp. 330-331. [ C. Anfinsen, "Principles that Govern the Folding of Protein Chains", in Science, vol. 181, pp. 330-331, 1973. ]

3. Huangz Z., Wong C. F. Docking Flexible Peptide to Flexible Protein by Molecular Dynamics Using Two Implicit-Solvent Models: An Evaluation in Protein Kinase and Phosphatase

Systems // The Journal of Physical Chemistry B. 2009. № 113. Pp. 14343-14354. [ Z. Huangz, C. F. Wong, "Docking Flexible Peptide to Flexible Protein by Molecular Dynamics Using Two Implicit-Solvent Models: An Evaluation in Protein Kinase and Phosphatase Systems", in The Journal of Physical Chemistry B, no. 113, pp. 14343-14354, 2009. ]

4. Solving molecular flexible docking problems with me-taheuristics: A comparative study / Lopez-Camacho E., et al. // Applied Soft Computing. 2015. [ E. Lopez-Camacho, et al., "Solving molecular flexible docking problems with metaheuris-tics: A comparative study", in Applied Soft Computing, 2015/ ]

5. The Rosetta all-atom energy function for macromolecu-lar modeling and design / Alford R. F. [et al.]. 2017. [ R. F. Alford, et al., The Rosetta all-atom energy function for macromolecular modeling and design, 2017. ]

6. Shapovalov M., Dunbrack R. L. A Smoothed Backbone-Dependent Rotamer Library for Proteins Derived from Adaptive Kernel Density Estimates and Regressions // Structure. 2011. Vol. 19. Pp. 844-858. [ M. Shapovalov, R. L. Dunbrack, "A Smoothed Backbone-Dependent Rotamer Library for Proteins Derived from Adaptive Kernel Density Estimates and Regressions", in Structure, vol. 19, pp. 844-858, 2011. ]

7. MolProbity's ultimate rotamer-library distributions for model validation / Hintze B. J. [et al.]. // Proteins: Structure, Function, and Bioinformatics. 2016. Vol. 84. Pp. 1177-1189. [ B. J. Hintze, et al., "MolProbity's ultimate rotamer-library distributions for model validation", in Proteins: Structure, Function, and Bioinformatics, vol. 84, pp. 1177-1189, 2016. ]

8. Zhang J., Sanderson A. JADE: Adaptive differential evolution with optional external archive // IEEE Transactions on Evolutionary Computation. 2009. Vol. 13. Pp. 945-958. [ J. Zhang, A. Sanderson, "JADE: Adaptive differential evolution with optional external archive", in IEEE Transactions on Evolutionary Computation, vol. 13, pp. 945-958, 2009. ]

9. Silva-Santos C. H., Goncalves M. S., Hernandez-Figueroa H. E. Designing Novel Photonic Devices by Bio-Inspired Computing // IEEE Photonics Technology Letters. 2010. Vol. 22. P. 1177-1179. [ C. H. Silva-Santos, M. S. Gon-calves, H. E. Hernandez-Figueroa, "Designing Novel Photonic Devices by Bio-Inspired Computing", in IEEE Photonics Technology Letter, vol. 22, pp. 1177-1179, 2010. ]

10. Kennedy J., Eberhart R. Particle swarm optimization // Proceedings of IEEE International Conference on Neural Networks. 1995. Vol. 4. P. 1942-1948. [ J. Kennedy, R. Eberhart. "Particle swarm optimization", in Proceedings of IEEE International Conference on Neural Networks, vol. 4, pp. 1942-1948, 1995. ]

11. Solis F. J., Wets R. J-B. Minimization by random search techniques // Mathematics of Operation Research. 1981. Vol. 6. P. 19-30. [ F.J. Solis, R.J-B. Wets, "Minimization by random search techniques", in Mathematics of Operation Research, vol. 6, pp. 19-30, 1981. ]

12. Полуян С. В., Рейнгард Н. М., Ершов Н. М. Самоадаптация в алгоритмах роевой оптимизации // Вестник Российского университета дружбы народов: Серия Математика, информатика, физика. 2014. № 2. С. 415-418. [ S. V. Poluyan, N. M. Reinhard, N. M. Ershov, "Self-Adaptation in Swarm Optimization Algorithms", (in Russian), in Vestnik RUDN. Seriia Matematika. Informatika. Fizika., no. 2, pp. 415418, 2014. ]

13. Cheng R., Jin Y. A Competitive Swarm Optimizer for Large Scale Optimization // IEEE Transactions on Cybernetics. 2015. Vol. 45. P. 191-204. [ R. Cheng, Y. Jin, "A Competi-

tive Swarm Optimizer for Large Scale Optimization", in IEEE Transactions on Cybernetics, vol. 45, pp. 191-204. 2015. ]

14. Ершов Н. М. Неоднородные клеточные генетические алгоритмы // Компьютерные исследования и моделирование. 2015. Т. 7, № 3. С. 775-780. [ N. M. Ershov, "Non-uniform cellular genetic algorithms", (in Russian) in Kompyuternye issledovaniya I modelirovanie, vol. 7, № 3, pp. 775-780, 2015. ]

15. Hansen N., Ostermeier A. Adapting arbitrary normal mutation distributions in evolution strategies: The covariance matrix adaptation // Proc. of the 1996 IEEE International Conference on Evolutionary Computation. 1996. P. 312-317. [ N. Hansen, A. Ostermeier, "Adapting arbitrary normal mutation distributions in evolution strategies: The covariance matrix adaptation", in Proc. of the 1996 IEEE International Conference on Evolutionary Computation, pp. 312-317, 1996. ]

16. Brest J., Zamuda A., et al. Large scale global optimization using self-adaptive differential evolution algorithm // IEEE World Congress on Computational Intelligence. 2010. P. 1-8. [ J. Brest, A. Zamuda, et al., "Large scale global optimization using self-adaptive differential evolution algorithm", in IEEE World Congress on Computational Intelligence, pp. 1-8, 2010. ]

17. HybriLIT [Электронный ресурс]. URL: http://hybrilit.jinr.ru (дата обращения: 15.05.2017). [ HybriLIT (2017, May 15) [Online]. Available: http://hybrilit.jinr.ru ]

18. Galzitskaya O. V., Higo J., Finkelstein A. V. a-Helix and в-Hairpin Folding from Experiment, Analytical Theory and Molecular Dynamics Simulations // Current Protein and Pep-tide Science. 2002. Vol. 2. P. 191-200. [ O. V. Galzitskaya, J. Higo, A. V. Finkelstein, "a-Helix and в-Hairpin Folding from Experiment", in Current Protein and Peptide Science, vol. 2, pp. 191-200, 2002. ]

19. PEP-FOLD3: faster denovo structure prediction for linear peptides in solution and in complex / Lamiable A. [et al.] // Nucleic Acids Research, 2016. Vol. 44. [ A. Lamiable, T. Pierre, et al., "PEP-FOLD3: faster denovo structure prediction for linear peptides in solution and in complex", in Nucleic Acids Research, vol. 44, 2016. ]

20. Rosetta FlexPepDock ab-initio: Simultaneous Folding, Docking and Refinement of Peptides onto Their Receptors / [ Raveh B., [et al.] // in PLoS ONE. 2011. Vol. 6. [ B. Raveh, N. London, et al., "Rosetta FlexPepDock ab-initio: Simultaneous Folding, Docking and Refinement of Peptides onto Their Receptors", in PLoS ONE, vol. 6, 2011. ]

21. Moradabadi B., Beigy H. A new real-coded Bayesian optimization algorithm based on a team of learning automata for continuous optimization // Genetic Programming and Evolvable Machines. 2014. Vol. 15. Pp. 169-193. [ B. Morada-badi, H. Beigy, "A new real-coded Bayesian optimization algorithm based on a team of learning automata for continuous optimization", in Genetic Programming and Evolvable Machines, vol. 15, pp. 169-193, 2014. ]

ОБ АВТОРАХ

ПОЛУЯН Сергей Владимирович, асп. каф. системного анализа и управления «Университета «Дубна». Маг. в обл. прикл. мат. и информатики.

ЕРШОВ Николай Михайлович, ст. науч. сотр. факультета ВМК МГУ им. М.В. Ломоносова, канд. физ.-мат. наук по спец. мат. моделирование, числ. методы и комплексы программ (ВМК МГУ, 1995). Иссл. в обл. эволюционных и роевых методов оптимизации.

METADATA

Title: Parallel evolutionary algorithms for solving optimization

problems in structural bioinformatics. Authors: S. V. Poluyan 1, N. M. Ershov2 Affiliation:

1 Dubna State University, Russia.

2 Lomonosov Moscow State University, Russia. Email: 1 svpoluyan@gmail.com, 2 ershov@cs.msu.ru Language: Russian.

Source: Vestnik UGATU (scientific journal of Ufa State Aviation Technical University), vol. 21, no. 4 (78), pp. 143-152, 2017. ISSN 2225-2789 (Online), ISSN 1992-6502 (Print). Abstract: The paper presents an exploration of the scope of application of the evolutionary optimization algorithms in the problems in structural bioinformatics: prediction of three-dimensional peptide structure from amino acid sequence and peptide-protein docking. This paper presents the main assumptions that reduce the above-described tasks to the continuous global optimization problem and provides a way of using evolutionary optimization algorithms. The used scheme of parallel computations was described. The parallel realization of the considered algorithms was carried out. The paper presents the results of various numerical experiments and emphasizes the most effective. The prospect of using evolutionary algorithms in contemporary issues of structural bioinformatics was shown.

Key words: global optimization; evolutionary computation; swarm optimization; structural bioinformatics.

About authors:

POLUYAN, Sergey Vladimirovich, postgrad. student of Institute of System Analysis and Control (Dubna State University). Master of applied mathematics and informatics (Dub-na State University, 2014). ERSHOV, Nikolay Mikhaylovich, PhD., senior research associate of faculty of computational mathematics and cybernetics, Lomonosov Moscow State University (MSU). Research in evolutionary and swarm optimization algorithms.

i Надоели баннеры? Вы всегда можете отключить рекламу.