Научная статья на тему 'Исследование задачи молекулярной динамики на эмуляторе потоковой параллельной вычислительной системы'

Исследование задачи молекулярной динамики на эмуляторе потоковой параллельной вычислительной системы Текст научной статьи по специальности «Математика»

CC BY
187
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
задача молекулярной динамики / параллельная потоковая вычислительная система / параллелизм / эмулятор системы / the task of molecular dynamics / parallel dataflow computing system / parallelism / system emulator

Аннотация научной статьи по математике, автор научной работы — Змеев Дмитрий Николаевич, Климов Аркадий Валентинович, Левченко Николай Николаевич, Окунев Анатолий Семенович

Задачи молекулярной динамики требуют больших вычислительных ресурсов, а для эффективного использования этих ресурсов нужно создавать программы с высокой степенью масштабируемости. Многие программы, исполняемые на высокопроизводительных кластерах, используют «простой» параллелизм и плохо масштабируются – максимально до сотен ядер, а при большем количестве ядер производительность падает.Авторами был разработан полностью асинхронный эффективный алгоритм задачи молекулярной динамики, опирающийся только на локальные взаимодействия между вычислительными ядрами, ответственными за соседние области. Этот алгоритм был реализован в потоковой модели вычислений с динамически формируемым контекстом. В статье описаны основные особенности этой модели вычислений и архитектуры вычислительной системы, её реализующей.В статье описываются также основные подходы к определению возможностей и анализу эффективности применения параллельной потоковой вычислительной системы для задач молекулярной динамики. Эксперименты на эмуляторе системы показали улучшение соотношения между числом атомов задачи, приходящихся на одно вычислительное ядро системы, и количеством ядер системы, что позволяет распараллеливать задачу молекулярной динамики без потери производительности на значительно большее число ядер по сравнению с кластерными системами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Змеев Дмитрий Николаевич, Климов Аркадий Валентинович, Левченко Николай Николаевич, Окунев Анатолий Семенович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF THE TASK OF MOLECULAR DYNAMICS ON THE EMULATOR OF PARALLEL DATAFLOW COMPUTING SYSTEM

The task of molecular dynamics requires large computing resources, and for the efficient use of these resources it is necessary to create programs with a high degree of scalability. Many programs (executed on high-performance clusters) use “simple” parallelism and have a bad scaling – up to a maximum of hundreds of cores, but the performance degrades with a large amount of cores. The authors have developed a fully asynchronous efficient algorithm for the task of molecular dynamics, based only on the local interactions between cores, which are responsible for neighboring areas. This algorithm has been implemented in the dataflow computing model with dynamically formed context. The article describes the main features of this computing model and the architecture of the computing system, which implements it. The article also describes the main approaches to identify opportunities and to analyze the efficiency of application of the parallel dataflow computing system for molecular dynamics. The experiments on the emulator of system show the improvement in the ratio between the number of atoms of the task, for a single core of the system, and the total number of cores. It allows to parallelize the task of molecular dynamics without loss of performance on a much larger amount of cores in comparison with cluster systems.

Текст научной работы на тему «Исследование задачи молекулярной динамики на эмуляторе потоковой параллельной вычислительной системы»

ИССЛЕДОВАНИЕ ЗАДАЧИ МОЛЕКУЛЯРНОЙ ДИНАМИКИ НА ЭМУЛЯТОРЕ ПОТОКОВОЙ ПАРАЛЛЕЛЬНОЙ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ

Змеев Дмитрий Николаевич

научный сотрудник, Институт проблем проектирования в микроэлектронике Российской академии наук, 124365, Россия, Москва, г. Зеленоград, ул. Советская, дом 3

Климов Аркадий Валентинович

старший научный сотрудник, Институт проблем проектирования

в микроэлектронике Российской академии наук, 124365, Россия, Москва, г. Зеленоград, ул. Советская, дом 3

Левченко Николай Николаевич

кандидат техн. наук, заведующий отделом, Институт проблем проектирования в микроэлектронике Российской академии наук, 124365, Россия, Москва, г. Зеленоград, ул. Советская, дом 3

Окунев Анатолий Семенович

кандидат техн. наук, ведущий научный сотрудник, Институт проблем проектирования в микроэлектронике Российской академии наук, 124365, Россия, Москва, г. Зеленоград, ул. Советская, дом 3

ANALYSIS OF THE TASK OF MOLECULAR DYNAMICS ON THE EMULATOR OF PARALLEL DATAFLOW COMPUTING SYSTEM

Dmitry Zmejev

Research scientist, Institute for Design Problems in Microelectronics of Russian Academy of Sciences, 124365, Russia, Moscow, Zelenograd, Sovetskaya Street, 3

Arkady Klimov

Senior research scientist, Institute for Design Problems in Microelectronics of Russian Academy of Sciences, 124365, Russia, Moscow, Zelenograd, Sovetskaya Street, 3

Исследование задачи молекулярной динамики на эмуляторе потоковой параллельной вычислительной системы // Universum: Технические науки : электрон. научн. журн. Змеев Д.Н. [и др.]. 2015. № 11 (22) . URL: http://7universum.com/ru/tech/archive/item/2761

Nikolay Levchenko

Candidate of Engineering sciences, head of the department, Institute for Design Problems in Microelectronics of Russian Academy of Sciences,

124365, Russia, Moscow, Zelenograd, Sovetskaya Street, 3

Anatoly Okunev

Candidate of Engineering sciences, a leading research scientist, Institute for Design Problems in Microelectronics of Russian Academy of Sciences,

124365, Russia, Moscow, Zelenograd, Sovetskaya Street, 3

АННОТАЦИЯ

Задачи молекулярной динамики требуют больших вычислительных ресурсов, а для эффективного использования этих ресурсов нужно создавать программы с высокой степенью масштабируемости. Многие программы, исполняемые на высокопроизводительных кластерах, используют «простой» параллелизм и плохо масштабируются - максимально до сотен ядер, а при большем количестве ядер производительность падает.

Авторами был разработан полностью асинхронный эффективный алгоритм задачи молекулярной динамики, опирающийся только на локальные взаимодействия между вычислительными ядрами, ответственными за соседние области. Этот алгоритм был реализован в потоковой модели вычислений с динамически формируемым контекстом. В статье описаны основные особенности этой модели вычислений и архитектуры вычислительной системы, её реализующей.

В статье описываются также основные подходы к определению возможностей и анализу эффективности применения параллельной потоковой вычислительной системы для задач молекулярной динамики. Эксперименты на эмуляторе системы показали улучшение соотношения между числом атомов задачи, приходящихся на одно вычислительное ядро системы, и количеством ядер системы, что позволяет распараллеливать задачу молекулярной динамики без потери производительности на значительно большее число ядер по сравнению с кластерными системами.

ABSTRACT

The task of molecular dynamics requires large computing resources, and for the efficient use of these resources it is necessary to create programs with a high degree of scalability.

Many programs (executed on high-performance clusters) use “simple” parallelism and have a bad scaling - up to a maximum of hundreds of cores, but the performance degrades with a large amount of cores.

The authors have developed a fully asynchronous efficient algorithm for the task of molecular dynamics, based only on the local interactions between cores, which are responsible for neighboring areas. This algorithm has been implemented in the dataflow computing model with dynamically formed context. The article describes the main features of this computing model and the architecture of the computing system, which implements it.

The article also describes the main approaches to identify opportunities and to analyze the efficiency of application of the parallel dataflow computing system for molecular dynamics. The experiments on the emulator of system show the improvement in the ratio between the number of atoms of the task, for a single core of the system, and the total number of cores. It allows to parallelize the task of molecular dynamics without loss of performance on a much larger amount of cores in comparison with cluster systems.

Ключевые слова: задача молекулярной динамики, параллельная потоковая вычислительная система, параллелизм, эмулятор системы.

Keywords: the task of molecular dynamics, parallel dataflow computing system, parallelism, system emulator.

Введение

Задачи молекулярной динамики требуют больших вычислительных ресурсов, а для использования этих ресурсов необходимо создавать программы с высокой степенью масштабируемости. Большое число программ, которые

выполняются на высокопроизводительных кластерах, используют «простой» параллелизм и плохо масштабируются - максимально до сотен ядер. При большем количестве ядер производительность падает.

В настоящее время актуальны задачи, для решения которых требуется загрузка всего или значительной части суперкомпьютера (до миллионов вычислительных ядер) под одну задачу. Существует много алгоритмов задач молекулярной динамики (МД), которые пытаются распараллеливать на кластерных системах. Для этих алгоритмов распараллеливание по данным оказывается проблематичным из-за нерегулярности этого класса задач. Так, написанный на Charm++ алгоритм NAMD2 [11] распараллеливается на тысячу ядер, а на десятки и сотни тысяч ядер этот алгоритм не может быть распараллелен. Поскольку известные алгоритмы для задач этой области построены на синхронизации после каждого шага, они трудно распараллеливаются. Для обеспечения синхронизации в основном применяются глобальные барьеры. Они используются при пересчетах списков соседних частиц. Именно такие барьеры являются препятствием на пути повышения степени масштабируемости задач молекулярной динамики на суперкомпьютерах кластерного типа.

Авторами был разработан полностью асинхронный эффективный алгоритм, опирающийся только на локальные взаимодействия между вычислительными ядрами, ответственными за соседние области в оригинальной парадигме вычислений. Аналогичной цели пытались достичь и другие авторы, однако они использовали исключительно традиционные подходы к программированию на кластерах, такие как MPI, библиотека RDMA [10], Java RMI [12] и другие.

В отличие от этих подходов, описываемый в статье алгоритм задачи молекулярной динамики реализован на потоковой модели вычислений с динамически формируемым контекстом. Данная модель вычислений предоставляет «удобные» возможности для создания алгоритмов

без использования глобальных барьеров. Потоковая модель вычислений

с динамически формируемым контекстом, с нашей точки зрения, является наиболее перспективной для решения проблемы падения реальной производительности и преодолением трудностей параллельного программирования.

Модель вычислений

В ходе развития потоковой модели вычислений [8; 9], авторами были устранены многие недостатки, присущие классической потоковой (dataflow) модели вычислений, такие как отсутствие управления локализацией вычислений и их планированием [2; 4], трудности при построении иерархии памяти [6] и др.

Основа потоковой модели вычислений с динамически формируемым контекстом базируется на активации вычислительных квантов по готовности данных. Под вычислительным квантом понимается «небольшая» программа (её размер фактически определяет требуемую степень параллелизма программы). Эта программа после своей активации выполняется до конца без «подкачки» дополнительной информации, то есть процесс вычислений не приостанавливается на «подкачку» дополнительных «внешних» (по отношению к этой программе) данных. Вычислительные кванты между собой взаимодействуют и изменяют состояние исключительно через отправку токенов, которые активируют новые кванты. Токеном называется структура, состоящая из операнда, контекста, однозначно определяющего положение операнда в виртуальном адресном пространстве задачи, и набора служебных полей. В программном узле-отправителе определяется не только передаваемое значение, но и адрес получателя. Это позволяет работать в парадигме «раздачи». Традиционная же парадигма программирования (парадигма «сбора») заключается в том, что вычислительный процесс сам запрашивает нужные ему данные из памяти или у других процессов.

В разработанной модели вычислений динамически формируемый контекст позволяет осуществлять одновременное и параллельное выполнение программы узла над различными вычислительными квантами, которые имеют

разный контекст. Контекст, представляющий собой часть токена, по которому осуществляется поиск «совпадающих» токенов, полностью доступен для программиста. Программа узла получает всю необходимую информацию из контекста о местоположении токена и, соответственно, знает, куда и какое число результирующих токенов послать в зависимости от выполняемого программного узла.

Архитектура вычислительной системы

Авторами ведется работа над созданием параллельной потоковой вычислительной системы (ППВС) [8; 9], которая реализует потоковую модель вычислений с динамически формируемым контекстом. Аппаратура сможет выявлять неявный параллелизм (заложенный на уровне данных, готовых к обработке; при этом логика выполнения вычислительного процесса не нарушается) задачи, что упрощает как само параллельное программирование, так и создание компиляторов [5].

ППВС представляет собой многоядерную масштабируемую вычислительную систему. Каждое вычислительное ядро систем состоит из исполнительного устройства, процессора сопоставления, коммутатора токенов, блока хэширования. В системе между вычислительными ядрами передаются единицы информации в виде токенов. Коммутация токенов между вычислительными ядрами осуществляется по вырабатываемому в блоке хэширования (на основе содержимого полей токена и настраиваемой программистом функции распределения) номеру вычислительного ядра.

Параллельная потоковая вычислительная система обладает целым рядом преимуществ: это хорошая масштабируемость системы, что позволяет создать, как многоядерный кристалл, так и многопроцессорную вычислительную систему на базе таких кристаллов; возможность аппаратного извлечения неявного параллелизма, заложенного в алгоритме задачи, в ходе ее выполнения; асинхронная работа отдельных блоков системы; нивелирование задержки в коммуникационной сети за счет потоковой организации вычислительного

процесса; высокая производительность при работе с разреженными и сложно организованными данными, что позволяет добиться высокой эффективности использования аппаратуры вычислительных средств, и другие преимущества.

Описание алгоритма

Результаты экспериментов по прохождению задачи МД на кластерных системах, приведенные в статье [7], демонстрируют оптимальное соотношение числа атомов задачи и количества вычислительных ядер системы, выделенных для ее решения.

На высокопроизводительных вычислительных системах кластерного типа, как показывают эксперименты, оптимальным для решения задачи МД является число атомов 104-105, обсчитываемых на одном вычислительном ядре системы. Под оптимальным мы понимаем такое число атомов, которое является достаточным для загрузки одного вычислительного ядра. Если же число атомов меньше, то падает масштабируемость системы на этой задаче, которая выражается отношением реальной производительности системы на задаче к пиковой производительности.

Для ППВС разработан алгоритм решения задачи МД на оригинальном параллельном языке DFL. В разработанном алгоритме одним экземпляром узла рассчитывается шаг эволюции одной частицы. Каждая частица взаимодействует с набором близких частиц, расположенных в пределах сферы с радиусом отсечения Rc. Взаимодействие между частицами реализовано посредством посылки токенов и их сопоставлением в ассоциативной памяти по принципу - «одной частице соответствует один токен».

Распараллеливание по ядрам в данном алгоритме основано на принципе пространственной декомпозиции. Каждое вычислительное ядро обрабатывает частицы, находящиеся в его собственной области пространства - кубоиде. Для каждого кубоида выполняются следующие действия:

• импортируются частицы от соседних кубоидов;

• обрабатываются попарные взаимодействия;

• экспортируется вычисленная суммарная сила, действующая на каждую из принятых частиц, в ее «домашний» кубоид.

За основу при моделировании задачи МД был взят метод «средней точки» (рисунок 1), предложенный в работе [10]. Данный метод относится к так называемой группе методов «нейтральной территории». Согласно этому методу в кубоиде вычисляется взаимодействие между двумя частицами (причем этот кубоид может и не содержать ни одной из частиц данной пары). Таким кубоидом в методе «средней точки» является кубоид, содержащий середину отрезка между этими двумя частицами. В этом варианте объем информации (о частицах), передаваемой между кубоидами, минимален [10]. Это позволяет снизить нагрузку на коммуникационную среду.

Область

импорта

Зоны

экспорта

Рисунок 1. Взаимодействие частиц методом «средней точки»

Частицы из соседних кубоидов импортируются, попарно взаимодействуют, при этом силы локально суммируются, а потом экспортируются обратно в домашний кубоид каждой частицы, где происходит окончательное суммирование. Затем каждая частица под действием предыдущей силы экспортируется в соседние кубоиды, принимает силы из соседних кубоидов и суммирует их. Взаимодействие должно начинаться по мере импорта частиц в кубоид, а экспорт частиц - по мере определения их новых позиций.

Каждый кубоид, в дополнение к собственным частицам, должен импортировать все те частицы из других кубоидов, которые могут оказаться членами пары взаимодействующих в этом кубоиде частиц. Для выполнения этого условия достаточно импортировать все частицы, находящиеся на расстоянии не более чем Rc/2 от поверхности данного кубоида.

Предполагается, что 1< Rc/b<2-2s, где b - длина стороны кубоида и s>0. Область импорта ограничена 26 соседними кубоидами и изолирована от других кубоидов слоем, толщина которого не менее s.

Результаты экспериментов

Созданный алгоритм был запрограммирован на языке DFL, а затем адаптирован для прохождения на эмуляторе вычислительной системы [3] на суперкомпьютерах кластерного типа, таких как «Ломоносов» и «Чебышёв», установленных в МГУ.

На рисунке 2 приведены результаты прохождения задачи на эмуляторе вычислительной системы, который запускался на суперкомпьютере «Ломоносов» [1].

32 64

Количество ядер

64К

16К

Рисунок 2. Зависимость времени прохождения задачи от количества ядер на суперкомпьютере «Ломоносов» для задачи МД

100,000

16

128

256

Эксперименты проводились на различных конфигурациях системы -от 8 до 256 вычислительных ядер и с различной размерностью задачи (от 1К до 64К атомов). На графиках (64К, 16К, 4К) видно, что с ростом количества ядер происходит практически линейное уменьшение времени выполнения

задачи на эмуляторе. Это означает, что размерность самой задачи и параллелизм, заложенный в реализованном алгоритме, обеспечивают эффективное использование имеющихся вычислительных ресурсов.

Эксперименты на классических системах показывают, что при числе атомов в 32К на задаче МД линейный рост степени масштабирования системы прекращается на 128 вычислительных ядрах [7]. В свою очередь, на эмуляторе ППВС (рисунок 2) на задаче с числом атомов 16К (т. е. размерность задачи меньше в два раза) и даже на задаче размерностью 4К (рисунок 2) линейный рост масштабирования продолжается вплоть до 256 ядер. Надо отметить, что часть вычислительной нагрузки при работе эмулятора составляют накладные расходы на организацию работы самого эмулятора, поэтому можно предположить, что масштабируемость создаваемой аппаратуры на этой задаче будет еще выше.

Заключение

Описанные подходы к определению возможностей и анализу эффективности применения ППВС для задач МД будут востребованы. Тем более что на параллельном языке DFL алгоритм выражается более естественно и адекватно, а само программирование на языке DFL ведется в парадигме «раздачи» (с использованием односторонних сообщений). В предлагаемой форме представления алгоритма полностью определена вычислительная схема, при этом не накладываются какие-либо ограничения (сверх требуемого минимума) на способ организации и порядок этих вычислений.

Кроме того, ППВС обеспечивает независимость работы механизма распределения вычислений от самого процесса вычислений. Таким образом, создав программу, можно применять различные методы распределения вычислений, не внося изменений в отлаженный текст программы. Предложенный базовый вариант решения задачи МД для параллельной потоковой вычислительной системы сохраняет полную свободу параллелизма. Накладывая некоторые ограничения на порядок вычислений и параллелизм,

можно получить иные варианты программ, предназначенные для работы на вычислительных системах других архитектур.

Проведенные исследования задачи МД на эмуляторе ППВС с использованием кластерного суперкомпьютера «Ломоносов»

продемонстрировали значительно лучшее соотношение между числом атомов задачи и числом вычислительных ядер системы (102-103 атомов на одно вычислительное ядро), что позволяет распараллеливать задачу без потери производительности на значительно большем числе ядер по сравнению с кластерными системами. Масштабируемость подобных задач на параллельной потоковой вычислительной системе минимум на порядок будет выше.

Список литературы:

1. Воеводин Вл.В., Жуматий С.А., Соболев С.И. и др. Практика

суперкомпьютера «Ломоносов» // Открытые системы. - М.: Издательский дом «Открытые системы», 2012. - № 7. - С. 36-39.

2. Змеев Д.Н., Левченко Н.Н., Окунев А.С. Управление вычислениями в системе ввода данных параллельной потоковой вычислительной системы «Буран» // Материалы 3-й Всероссийской научно-технической конференции «Суперкомпьютерные технологии» (СКТ-2014). - 2014. - Т. 1 - С. 48-51.

3. Змеев Д.Н., Окунев А.С., Левченко Н.Н. и др. Реализация параллельной модели вычислений с управлением потоком данных на кластерных суперкомпьютерах // Научный сервис в сети Интернет: все грани параллелизма: Труды Международной суперкомпьютерной конференции (23-28 сентября 2013 г., г. Новороссийск). - М.: Изд-во МГУ, 2013. - С. 375-377.

4. Климов А.В., Змеев Д.Н., Левченко Н.Н. и др. Способы регулирования вычислений в параллельной потоковой вычислительной системе // Проблемы разработки перспективных микро- и наноэлектронных систем -2014. Сборник трудов / под общ. ред. академика РАН А.Л. Стемпковского. -М.: ИППМ РАН, 2014. - Часть IV. - С. 79-82.

5. Климов А.В., Левченко Н.Н., Окунев А.С. и др. Автоматическое распараллеливание для гибридной системы с потоковым ускорителем // Информационные технологии и вычислительные системы. - 2011. - № 2. -С. 3-11.

6. Климов А.В., Левченко Н.Н., Окунев А.С. и др. Суперкомпьютеры, иерархия памяти и потоковая модель вычислений // Программные системы: теория и приложения: электрон. научн. журн. - 2014. - T. 5. -№ 1(19). - С. 15-36 / [Электронный ресурс]. - Режим доступа: URL: http://psta.psiras.ru/read/psta2014_1_15-36.pdf (дата обращения: 01.11.2015).

7. Куксин А.Ю., Ланкин А.В., Морозов И.В. и др. ЗАЧЕМ и КАКИЕ нужны

суперкомпьютеры эксафлопсного класса? Предсказательное моделирование свойств и многомасштабных процессов в материаловедении // Программные системы: теория и приложения: электрон. научн. журн. - 2014. - T. 5. - № 1(19). - С. 191-244 / [Электронный ресурс]. - Режим доступа: URL:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

http://psta.psiras.ru/read/psta2014_1_191-244.pdf (дата обращения:

01.11.2015).

8. Стемпковский А.Л., Климов А.В., Левченко Н.Н. и др. Методы адаптации параллельной потоковой вычислительной системы под задачи отдельных классов // Информационные технологии и вычислительные системы. -2009. - № 3. - С. 12-21.

9. Стемпковский А.Л., Левченко Н.Н., Окунев А.С. и др. Параллельная потоковая вычислительная система - дальнейшее развитие архитектуры и структурной организации вычислительной системы с автоматическим распределением ресурсов // Информационные технологии. - 2008. - № 10. -С. 2-7.

10. Bowers K.J., Chow E., Xu X. еt al. Scalable Algorithms for Molecular Dynamics Simulations on Commodity Clusters // Proceedings of the ACM/IEEE Conference on Supercomputing (SC06). - NY: IEEE, 2006. - Article No. 84.

11. Laxmikant K., Robert S., Milind B. et al. NAMD2: Greater Scalability for Parallel Molecular Dynamics // Journal of Computational Physics. - 1999. -Vol. 151. - P. 283-312.

12. Mederski J., Mikulski L., Bala P. Asynchronous Parallel Molecular Dynamics Simulations // Lecture Notes in Computer Science. - 2008. - Vol. 4967. -P. 439-446.

References:

1. Voevodin Vl.V., Zhumatij S.A., Sobolev S.I., Antonov A.S., Bryzgalov P.A., Nikitenko D.A., Stefanov K.S., Voevodin Vad.V. Practice of supercomputer “Lomonosov”. Otkrytye sistemy [Open Systems]. Moscow, Izdatel'skii dom “Otkrytye sistemy” Publ., 2012, no. 7, pp. 36-39. (In Russian).

2. Zmeev D.N., Levchenko N.N., Okunev A.S. Management of computations in the system of data input of the parallel dataflow computing system “Buran”. Materialy 3-j Vserossijskoj nauchno-tehnicheskoj konferencii “Superkomp'juternye tehnologii” (SKT-2014). [Proceedings of the Third All-Russia Scientific and Technical Conference “Supercomputer technologies” (SCT-2014)]. 2014, vol. 1, pp. 48-51. (In Russian).

3. Zmeev D.N., Okunev A.S., Levchenko N.N., Klimov A.V. The implementation of parallel computing model with control of dataflow on clustered supercomputers. Nauchnyj servis v seti Internet: vse grani parallelizma: Trudy Mezhdunarodnoj superkompjuternoj konferencii [Scientific service in the Internet: all facets of parallelism: Proceedings of the International Supercomputer Conference]. Moscow, MGU Publ., 2013, pp. 375-377. (In Russian).

4. Klimov A.V., Zmeev D.N., Levchenko N.N., Okunev A.S. Methods of regulation of computation in parallel dataflow computating system. Problemy razrabotki perspektivnyh mikro- i nanojelektronnyh sistem [Problems of Advanced Micro- and Nanoelectronic Systems development. Proceedings]. Moscow, IPPM RAN Publ., 2014, part IV, pp. 79-82. (In Russian).

5. Klimov A.V., Levchenko N.N., Okunev A.S., Stempkovskiy A.L. Automatic parallelization for hybrid system with dataflow accelerator. Zhurnal “Informacionnye tehnologii i vychislitel'nye sistemy” [Journal of Information Technologies and Computing Systems]. 2011, no. 2, pp. 3-11. (In Russian).

6. Klimov A.V., Levchenko N.N., Okunev A.S., Stempkovskij A.L.

Supercomputers, memory hierarchy and the dataflow computing system. Programmnye sistemy: teoriia i prilozheniia [Program systems: theory

and applications], 2014, vol. 5, no. 1(19), pp. 15-36. Available at: http://psta.psiras.ru/read/psta2014_1_15-36.pdf (Accessed 1 November 2015).

7. Kuksin A.Ju., Lankin A.V., Morozov I.V., Norman G.Je., Orehov N.D.,

Pisarev V.V., Smirnov G.S., Starikov S.V., Stegajlov V.V., Timofeev A.V. Predictive modeling and simulation of properties and multi-scale processes in materials science. Tasks for Exaflops-era supercomputers. Programmnye sistemy: teoriia iprilozheniia [Program systems: theory and applications]. 2014, vol. 5, no. 1, pp. 191-244. Available at:

http://psta.psiras.ru/read/psta2014_1_191-244.pdf (Accessed 1 November 2015).

8. Stempkovskiy A.L., Klimov A.V., Levchenko N.N., Okunev A.S. Methods of Parallel Dataflow Computing System Adaptation for Problems of Individual Classes. Informacionnye tehnologii i vychislitel'nye sistemy [Information Technologies and Computing Systems]. 2009, vol. 3, pp. 12-21. (In Russian).

9. Stempkovskij A.L., Levchenko N.N., Okunev A.S., Cvetkov V.V. Parallel dataflow computing system: further development of architecture and structural organization of the computing system with automatic distribution of resources. Informacionnye tehnologii [Information technologies]. 2008, no. 10, pp. 2-7. (In Russian).

10. Bowers K.J., Chow E., Xu X. et al. Scalable Algorithms for Molecular Dynamics Simulations on Commodity Clusters. Proceedings of the ACM/IEEE Conference on Supercomputing (SC06). NY: IEEE, 2006. Article No. 84.

11. Laxmikant K., Robert S., Milind B. et al. NAMD2: Greater Scalability for Parallel Molecular Dynamics. Journal of Computational Physics. 1999, Vol. 151. P. 283-312.

12. Mederski J., Mikulski L., Bala P. Asynchronous Parallel Molecular Dynamics Simulations. Lecture Notes in Computer Science Volume 4967. 2008. P. 439-446.

i Надоели баннеры? Вы всегда можете отключить рекламу.