Научная статья на тему 'Реализация докинга для молекулярного моделирования на реконфигурируемых вычислительных системах'

Реализация докинга для молекулярного моделирования на реконфигурируемых вычислительных системах Текст научной статьи по специальности «Автоматика. Вычислительная техника»

112
28
Поделиться
Ключевые слова
АППАРАТНАЯ РЕАЛИЗАЦИЯ / ДОКИНГ / СУПЕРКОМПЬЮТЕРНОЕ МОЛЕКУЛЯРНОЕ МОДЕЛИРОВАНИЕ / РЕКОНФИГУРИРУЕМЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ / ЛИГАНД

Аннотация научной статьи по автоматике и вычислительной технике, автор научной работы — Дордопуло Алексей Игоревич, Левин Илья Израилевич, Сорокин Дмитрий Анатольевич

Статья посвящена описанию методов оптимизации фрагментов задачи и адаптации архитектуры реконфигурируемой вычислительной системы под структуру решаемой задачи при аппаратной реализации докинга метода молекулярного моделирования. Отличительной особенностью описываемого решения по сравнению с известными реализациями является функционально завершенное решение полной задачи докинга на реконфигурируемой вычислительной системе, обеспечивающее согласованность функционирования всех фрагментов задачи в едином вычислительном контуре.

Похожие темы научных работ по автоматике и вычислительной технике , автор научной работы — Дордопуло Алексей Игоревич, Левин Илья Израилевич, Сорокин Дмитрий Анатольевич,

DOCKING REALIZATION FOR MOLECULAR MODELING ON RECONFIGURABLE COMPUTER SYSTEMS

The paper is devoted to description of methods of task fragments optimization and adaptation of architecture of reconfigurable computer system to the structure of the solving task of docking (method of molecular modeling) hardware realization. In comparison with existing realizations, the distinctive feature of the viewed solution is all-in-one solution of complete problem of docking on reconfigurable computer system, providing coordinated functioning of all fragments of the task in a single computer system.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Текст научной работы на тему «Реализация докинга для молекулярного моделирования на реконфигурируемых вычислительных системах»

Bereza Andrew Nicolaevich

The Volgodonsk Institute of Service (branch) of the South-Russian State University of Economy and Service.

E-mail: anbirch@mail.ru.

6, Volgodonsk, Chernikova Street, Volgodonsk, 347360, Russia.

Phone: +79281574449.

The Department of Information; Cand. of Eng. Sc.; Associate Professor; Head of Department.

Liyshov Maksim Vasilievich

E-mail: maxl85@mail.ru.

Phone: +79604591974.

Master of Engineering.

УДК 004.382.2

А.И. Дордопуло, И.И. Левин, ДА. Сорокин

РЕАЛИЗАЦИЯ ДОКИIIГА ДЛЯ МОЛЕКУЛЯРНОГО МОДЕЛИРОВАНИЯ НА РЕКОНФИГУРИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ

Статья посвящена описанию методов оптимизации фрагментов задачи и адаптации архитектуры реконфигурируемой вычислительной системы под структуру решаемой задачи при аппаратной реализации докинга - метода молекулярного моделирования. Отличительной особенностью описываемого решения по сравнению с известными реализациями является функционально завершенное решение полной задачи докинга на реконфигурируемой вычислительной системе, обеспечивающее согласованность функционирования всех фрагментов задачи в едином вычислительном контуре.

Аппаратная реализация; докинг; суперкомпьютерное молекулярное моделирование; реконфигурируемые вычислительные системы; лиганд.

A.I. Dordopulo, I.I. Levin, D.A. Sorokin

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

DOCKING REALIZATION FOR MOLECULAR MODELING ON RECONFIGURABLE COMPUTER SYSTEMS

The paper is devoted to description of methods of task fragments optimization and adaptation of architecture of reconfigurable computer system to the structure of the solving task of docking (method of molecular modeling) hardware realization. In comparison with existing realizations, the distinctive feature of the viewed solution is all-in-one solution of complete problem of docking on reconfigurable computer system, providing coordinated functioning of all fragments of the task in a single computer system.

Hardware realization; docking; supercomputer molecular modeling; reconfigurable computer systems; ligand.

Введение. Создание новых лекарственных средств и повышение эффективности существующих препаратов является актуальной сферой применения высокопроизводительной вычислительной техники. Правильный выбор перспективных соеди-

-

материальные затраты, а также продолжительность и эффективность последующих этапов исследований нового лекарства, занимающих в среднем около 5 лет.

Для выбора соединений-кандидатов широко используются методы моле, -ингибитора (лиганда) в активный центр молекулы-мишени (белка). Процедура докинга [1,2] представляет собой перебор пространственных конфигураций моле-,

молекулы-лиганда и молекулы-белка. Докинг обеспечивает достаточную точность получаемых решений, но характеризуется высокой вычислительной сложностью, которая обусловлена большим числом входных параметров для модели взаимодействующих молекул и принадлежностью задачи к классу № [2]. Поэтому на практике при решении задачи докинга широко используют суперкомпьютерные

, -бора [3] и, в частности, генетический алгоритм [2,4]. Использование кластерных многопроцессорных вычислительных систем позволяет сократить время решения , , числу задействованных вычислительных узлов.

Для более эффективного решения задачи докинга необходимы средства адаптации архитектуры вычислительной системы к структуре решаемой задачи, , ,

(РВС), построенные на основе программируемых логических интегральных схем (ПЛИС) [5], успешно применяемые для решения вычислительно-трудоемких задач. Известны [6-10] реализации отдельных фрагментов докинга на РВС [6-10], но качественно новое решение задачи докинга, удовлетворяющее требованиям по , -ментов задачи в едином вычислительном контуре.

Описание математической модели и структуры решаемой задачи. Настоящая статья описывает аппаратную реализацию метода докинга лигандов в активный центр белка-мишени, обоснование и подробное математическое описание которого представлено в работе [2]. Физическим смыслом докинга является поиск оптимального положения лиганда в поле белка, которое характеризуется минимумом энергии связывания комплекса «лиганд-белок», что в вычислительном плане представляет собой расчет значения энергии такого комплекса, зависящего от пространственной конфигурации и ориентации лиганда в многомерном пространстве.

Поиск оптимального положения лиганда в поле белка является итерационным процессом, в котором можно выделить следующие этапы: создание очередной пространственной конфигурации лиганда (с учетом его ориентации относительно центра белка), вычисление энергетических характеристик созданной конфигурации и оценку конфигурации лиганда по критериям задачи.

Наибольшая вычислительная трудоемкость характерна для первых двух этапов. Так, на этапе создания очередной пространственной конфигурации выполняются расчет конфигурации лиганда с учетом вращения фрагментов молекулы (гибкий докинг) и позиционирование лиганда в многомерном пространстве с учетом вращения молекулы как целого, что требует неоднократного пересчета координат каждого атома. На этапе вычисления энергетических характеристик созданной конфигурации выполняется расчет общей энергии связывания, состоящей из трех основных слагаемых, вычисление каждого из которых является вычислительно трудоемким и зависит от рассчитанных на предыдущем этапе координат и типа каждого атома лиганда.

На этапе оценки конфигурации лиганда по критериям задачи выполняется сравнение рассчитанных энергетических характеристик текущей конфигурации с допустимым по условию пороговым значением и с лучшим из рассчитанных значений для определения целесообразности хранения и дальнейшего использования

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

.

Для решения задачи используются следующие параметры:

♦ число атомов лиганда не превышает 200, каждый атом характеризуется своими пространственными координатами х, у и ъ (32-р^рядные вещественные числа);

♦ число точек внутреннего вращения (торсионные степени свободы) не превышает 20, каждая точка внутреннего вращения характеризуется углом в интервале [0, п] и положением в молекуле (номера двух атомов, характеризующие неподвижную и подвижную части молекулы);

♦ угол вращения молекулы как единого целого в интервале [0, п] задается с помощью системы кватернионов.

, , -гурацию лиганда, составляет 27, что позволяет с большим запасом учитывать как , -паратов и белков.

Структура вычислений в задаче докинга представлена на рис.1. Для позиционирования лиганда в поле белка осуществляются расчет координат атомов лиганда с учетом поворота фрагментов молекулы в точках внутреннего вращения (блок R) и расчет координат всех атомов лиганда относительно центра молекулы белка с учетом поступательного и вращательного движения лиганда как целого (блок RT). Затем производится расчет суммарной энергии связывания Eall (блок E) для текущей конфигурации, значение которой поступает на блок оценки конфигурации лиганда (блок MPS). В зависимости от результатов оценки параметры текущей конфигурации либо сохраняются в списке лучших конфигураций и передаются на блок создания новых конфигураций (блок GEN), либо в случае неудовлетворительного значения суммарной энергии связывания не сохраняются и не учитываются.

Рис. 1. Основные фрагменты задачи

-

фрагменты R, RT, E и Gen, оперирующие 32-р^рядными значениями с плавающей .

Аппаратной платформой для решения задачи докинга является плата вычислительного модуля (ПВМ) 16V5-75, содержащая 16 вычислительных ПЛИС XC5VLX110 по 11 млн. эквивалентных вентилей в каждой, 2 Гбайта распределен. 250 ,

32-р^рядной арифметики с плавающей запятой составляет 140 Гфлопс. Внешний 16V5-75 . 2.

Для эффективного решения задачи докинга на РВС необходимо реализовать этапы создания новых конфигураций лиганда, вычисления энергетических характеристик конфигурации и оценки конфигурации лиганда, обеспечив при этом как их согласованную работу, так и сбалансированную загрузку фиксированного аппаратного ресурса - одной ПВМ 16V5-75.

Рис. 2. ПВМ16У5-75

Оптимизация фрагментов задачи и адаптация архитектуры РВС под структуру решаемой задачи. Для решения задачи докинга на ПВМ 16У5-75 необходимо в едином вычислительном контуре построить эффективный вычислительный конвейер, удовлетворяющий условиям задачи по критерию «производительность/объем аппаратного ресурса», для чего, как правило, используется структурный [5] метод организации вычислений на РВС.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Предварительный анализ структурной реализации задачи докинга показал, что требуемый вычислительный ресурс значительно превышает имеющийся на ПВМ 16У5-75, поэтому для успешного решения задачи необходимо выполнить оптимизацию организации вычислений для вычислительно-трудоемких фрагментов и адаптировать ресурсы РВС под структуру решаемой задачи.

Для удовлетворения заданным параметрам по занимаемому ресурсу и быстродействию к фрагментам задачи докинга были применены следующие разработанные методы оптимизации:

1) редукция вычислительной структуры графа фрагмента задачи путем эквивалентных математических преобразований исходных формул, позволяющая сократить занимаемый аппаратный ресурс реконфигурируемой вычислительной системы;

2) использование предвычисленных массивов для хранения результатов по-

, -

,

ПЛИС и сократить объем используемого вычислительного оборудования;

3) согласованное распараллеливание подграфов графа задачи, обеспечивающее сбалансированную загрузку вычислительных устройств для существенно переменных по интенсивности информационно-значимых потоков данных, возрастающих на два десятичных порядка в процессе решения по сравнению с входным

;

4) использование специальной структуры хранения данных с распределением по банкам динамической памяти, позволяющее в 9-10 раз ускорить доступ к памяти.

Рассмотрим применение разработанных методов на примере структурной

- .

Вычислительно-трудоемкий фрагмент И выполняет расчет внутренней геометрии лиганда для текущей конфигурации путем преобразования координат каждого атома лиганда для каждой точки вращения. В вычислительной структуре задачи это соответствует циклическим вызовам этого фрагмента в последовательной програм-

ме, число которых определяется числом торсионных связей вращения, максималь-

20. -числений [5] циклические вызовы процедуры последовательной программы соответствуют параллельной по числу точек вращения реализации фрагментов И. Время вычисления преобразований И в этом случае можно вычислить по формуле

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

¿Я ~ ^агвш ^ ^а(0т , (1)

где Nа0т - число атомов в лиганде, ¿а0т - время вычисления преобразований для одного атома лиганда. При 20-кратном распараллеливании фрагмента И (а0т составит один такт ПВМ (один такт работы ПВМ 16V5-75 на частоте 250 МГц составляет 4 не). Следовательно, для максимального количества атомов Ма1от=200 время вычислений ^ составит 200 тактов.

Преобразование декартовых координат атомов при прямой структурной реализации вычислений потребует 76 устройств, реализующих 32-р^рядные математические операции в стандарте 1ЕЕЕ754. Структурная реализация с 20-кратным распараллеливанием преобразования И задействует 1520 устройств, что превышает доступный ресурс ПВМ 16V5-75 и приводит к необходимости сокращения занимаемого ресурса с помощью методов оптимизации организации вычислений во фрагменте И.

Применение редукции вычислительного графа (метод 1) для фрагмента И и , ( 2), позволяют сократить аппаратный ресурс для одной реализации фрагмента И с 77 до 22 устройств. При требуемом 20-кратном распараллеливании фрагмента И теперь понадобится 440 устройств, реализующих 32-р^рядные математические операции в стандарте 1ЕЕЕ754. Редукция вычислительного графа фрагмента И приводит к построению конвейера с последовательной обработкой координат атома лиганда, что увеличивает время обработки в 3 раза (¿а{от=3, а ^ для максимального числа атомов составит 600 тактов), но позволяет сократить необходимый ресурс на построение вычислительной структуры И в 3,5 раза при сохранении точности вычислений.

Структурная реализация вычислительно-трудоемкого фрагмента ИТ, выполняющего пересчет декартовых координат атомов лиганда с учетом вращательных степеней свободы лиганда как целого, требует 51 устройство, реализующее 32-р^рядные математические операции в стандарте 1ЕЕЕ754. Для согласования скорости обработки в фрагментах И и ИТ в последнем целесообразно использовать конвейерные вычисления с последовательной обработкой координат атома лиган-. 3 (17 ) -

гласованную работу этих фрагментов задачи, т.е. ¿^-=^=600 тактов.

- Е,

реализующий расчет энергии связывания комплекса «лиганд-белок» и содержащий расчет нескольких компонентов суммарной энергии по формуле:

Его1а1 ~ ЕИв -ро ^ Етнвг , (2)

где Е\щ-рГоЛ - энергия лиганда в поле протеина,

Етег - внутренняя энергия лиганда.

Энергия лиганда в поле протеина представляет собой сумму трех составляющих Е0;, Е1., Е2., рассчитанных на трехмерных сетках потенциалов по ММЕБ94 для всех атомов лиганда [2]. Вычисление каждой составляющей ведётся методом трилинейной интерполяции. Структурная реализация вычислений Ец&-ргоЛ 55 , 32-

стандарте 1ЕЕЕ754. Время обработки одного лиганда определяется по формуле:

tElig -prot N Х tat0m ,

где tatom - время чтения коэффициентов для одного атома лиганда из массивов трехмерных сеток потенциалов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для хранения массивов трехмерных сеток потенциалов необходимо около 200 Мб памяти, поэтому требуется задействовать распределенную память ПВМ 16V5-75, организованную на микросхемах типа SDRAM DDR2.

При вычислении энергии лиганда в поле протеина Eiig_prot для каждого атома выполняется чтение коэффициентов из массивов трехмерных сеток потенциалов, что приводит к чтению из памяти по произвольному адресу, время которого опре-

DDR2.

DDR2 имеет максимальную пропускную способность при «линейном чтении» в пределах строки (содержащей 512 32-р^рядных слов), а поскольку переключение между строками микросхемы памяти при произвольной адресации будет происхо-, .

Время обработки запроса к одному из массивов составит, в среднем, 15 тактов, а обработка одного атома лиганда tatom~45 тактов соответственно, что составит примерно 72000 тактов работы фрагмента расчета энергии лиганда в поле протеина для лиганда с максимальным числом атомов Natom=200.

Для решения задачи в едином вычислительном контуре возникает необходимость согласования темпа обработки в фрагментах R, RT и Eugprot. Для этого к фрагменту Eug_prot применим методы оптимизации 3 и 4.

Первое преобразование состоит в сокращении объема используемых для данного лиганда данных в массивах трехмерных сеток потенциалов: в распределенную память ПВМ 16V5-75 загружаются только те коэффициенты, которые соответствуют типам атомов обрабатываемого лиганда, число сочетаний которых, как правило, для одного лиганда не превышает 8. Это позволяет уменьшить требования к объему памяти для массивов трехмерных сеток потенциалов до значения 32 Мб.

Второе преобразование состоит в объединении массивов трехмерных сеток потенциалов в единый массив, каждый элемент которого представляет собой кортеж из трех подряд идущих энергетических коэффициентов массивов трехмерных . ,

16V5-75, в случае нелинейного чтения позволяет организовать режим, при котором происходит чередование обращений к «строкам» между «банками» памяти, что позволяет сократить время обработки одного запроса при равномерном (или близком к нему) обращении к каждому банку памяти. При организации такого ре-

tatom 4 .

На практике, среднее реальное время обработки одного атома не превышает 4,75

, -, , .

Третье преобразование заключается в согласованном распараллеливании вычислений Eug_prot по восьми интерполяционным точкам для каждого атома лиганда. Это позволяет эффективно задействовать имеющуюся распределенную память 16V5-75.

8- . -

256 ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в то же время увеличивает скорость обработки EUg_prot также в 8 раз.

Как показали практические исследования, при такой оптимизации время обработки лиганда Natom=200 не превышает tEiiprot ~ 950 тактов. Это значение времени обработки будем считать опорным для согласования скорости обработки фрагментов задачи докинга при объединении в единый вычислительный контур, реализация которого будет представлена во второй части статьи.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Молекулярная стыковка: http://ru.wikipedia.org/wiki/floKHnr.

2. Романов AM., Кондакова (ХА., Григорьев Ф.В. и др. Компьютерный днзайн лекарственных средств: программа докинга SOL // Вычислительные методы и программирование. - 2008. - Т. 9. - С. 213-233.

3. Генегический алгоритм http://ru.wikipedia.org/wiki^eHCTH4ecKHe_MropHTMbi.

4. AutoDock. http://autodock.scripps.edu/.

5. . ., . ., . ., . . -

/ . 2- , ., . / . . .. .- -

- - : - , 2009. - 344 .

6. Van Court T. FPGA acceleration of rigid molecule interactions / T. Van Court, Y. Gu, M. Her-bordt // Int. Conf. Field Programmable Logic and Applications (FPL 2004). - Antwerpen, Belgium, 2004. - P. 862-867.

7. Van Court T., Gu Y., Mundada M.C., Herdbordt M. C. Rigid molecular4 docking: FPGA recin-figuration for alternative force laws // J Appl. Signal Processing v. 2006, 2006. - P. 1-10.

8. Herdbordt M. C., Gu Y., Van Court T., Model J., Sukhwani B., Chiu M. Computing models for FPGA-based accelerations with case studies in molecular modeling // Porcced. of the Reconfigurable systems summer institute (RSSI 2008), 2008.

9. Sukhwani B. Acceleration of a production rigid molecule docking code / B. Sukhwani, M. Herbordt // Int. Conf. Field Programmable Logic and Applications (FPL 2008). - Heidelberg, Germany, 2008. - P. 341-346.

10. Sukhwani B., Herdbordt M.C. FPGA accelaration of rigid-molecule docking codes // IET Computers & digital techniques (ACM-TRETS), 2009 (accepted for publication).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Статью рекомендовал к опубликованию д.т.н., профессор Я.Е. Ромм.

Левин Илья Израилевич -

имени академика А.В. Каляева федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет».

E-mail: levin@mvs.tsure.ru.

347922, . , . , . 224/1, . 65.

.: 88634623226.

Заместитель директора по науке; д.т.н.

Сорокин Дмитрий Анатольевич

E-mail: jotun@inbox.ru.

347922, г. Таганрог, переулок Украинский, д. 21, кв. 30.

.: 88634393820.

.

Дордопуло Алексей Игоревич

« ».

E-mail: scorpio@mvs.tsure.ru.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

347900, г. Таганрог, 10-й переулок, 114/1, кв. 6.

Тел.: 88634368651.

Старший научный сотрудник; к.т.н.

Levin Ilya Israilevich

Kalyaev Scientific Research Institute of Multiprocessor Computer Systems at Southern Federal University.

E-mail: levin@mvs.tsure.ru.

224/1, Lenin Street, Ap. 65, Taganrog, 347922, Russia.

Phone: +78634623226.

Deputy Director of Science; Dr. of Eng. Sc.

Sorokin Dmitry Anatolievich

E-mail: jotun@inbox.ru.

21, Ukrainskiy Lane, Ap. 30, Taganrog, 347922, Russia.

Phone: +78634393820.

Scientific Associate.

Dordopulo Alexey Igorevich

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Southern Scientific Centre of the Russian Academy of Sciences.

E-mail: scorpio@mvs.tsure.ru.

114/1, 10th Lane, Ap. 6, Taganrog, 347900, Russia.

Phone: +78634368651.

Senior Staff Scientist; Cand. of Eng. Sc.

УДК 681.3

АЗ. Саак

АНАЛИЗ ВЗАИМОДЕЙСТВИЯ ПОЛЬЗОВАТЕЛЕЙ И ОБСЛУЖИВАЮЩЕЙ КОМПЬЮТЕРНОЙ СИСТЕМЫ

Анализируется взаимодействие пользователей и обслуживающей компьютерной системы (МВС, Grid- системы) в форме комбинаторных многомерных моделей экспериментов спроса и предложения для некоторых основополагающих дисциплин обслуживания. Предлагается вариантный признак равновесия целочисленных сред в форме совпадения вариантных мощностей входа-выхода в системе компьютерного обслуживания множест-. -сительно общего ресурса предложений формализуемые усечением комбинаторных экспе-.

Пропускная способность многопроцессорных и Grid- систем; однородно- ресурсное диспетчирование; комбинаторные эксперименты спроса- предложения.

A.E. Saak

THE ANALYSIS OF AN INTERACTION OF USERS AND THE COMPUTER

SERVICE SYSTEM

An interaction of users and the computer service system (MPS, Grid- system) in the form of combinatorial multidimensional models of demand and supply experiments for some fundamental service procedures is analyzed. It is suggested the variant sign of the equilibrium of integer-valued surroundings in the form of coincidence of input-output variant capacities in the multiplex type computer service system. Phenomena of demand overflow relative to shared supply resource that are formalizable by the truncation of combinatorial experiments are explored on basis of these models.

The capacity of multiprocessor systems and Grid- systems, uniformly resource dispatching control, the demand and supply combinatorial experiments.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.