Научная статья на тему 'Использование имитационного моделирования для настройки параметров масштабируемых алгоритмов при высокопроизводительных вычислениях'

Использование имитационного моделирования для настройки параметров масштабируемых алгоритмов при высокопроизводительных вычислениях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
449
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / АГЕНТНО-ОРИЕНТИРОВАННАЯ СИСТЕМА / МАСШТАБИРУЕМЫЕ ПАРАЛЛЕЛЬНЫЕ АЛГОРИТМЫ / SIMULATION / AGENT-ORIENTED SYSTEM / SCALABLE PARALLEL ALGORITHMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Глинский Б. М., Родионов А. С., Марченко М. А., Караваев Д. А., Подкорытов Д. И.

Целью работы является разработка новых эффективных методов имитационного моделирования сверхмасштабируемого программного обеспечения суперкомпьютеров с пета и экзафлопсным уровнем производительности, а также разработка программных решений в области создания агентно-ориентированной системы имитационного моделирования алгоритмов для суперЭВМ. В работе рассмотрены несколько классов параллельных вычислительных алгоритмов, для которых проведено имитационное моделирование с использованием многоядерных вычислительных систем Центра Коллективного Пользования Сибирского суперкомпьютерного центра СО РАН.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Глинский Б. М., Родионов А. С., Марченко М. А., Караваев Д. А., Подкорытов Д. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The use of the simulation for the configure of scalable algorithms parameters in high-performance computing1The Institute of Computational Mathematics and Mathematical Geophysics Siberian Branch of the Russian Academy of Sciences, ICM&amp

The main objective of this paper is development of new and efficient methods of simulation of super-scale software for supercomputers with peta and exza flops level of performance. Another objective is the development of the agent-oriented system for the simulation of algorithms for supercomputers. Several classes of parallel computing algorithms, for which the simulation with the use of multicore computing systems of the Siberian Supercomputer Center SB RAS was carried out were considered.

Текст научной работы на тему «Использование имитационного моделирования для настройки параметров масштабируемых алгоритмов при высокопроизводительных вычислениях»

Уфа : УГАТУ, 2013

"Е&ОШШС QjrAQnQj

Т. 17, № 5 (58). С. 200-209

УДК 004.942, 519.876.5

Использование имитационного моделирования

для настройки параметров масштабируемых алгоритмов при высокопроизводительных вычислениях

1 ? 3

Б. М. Глинский , А. С. Родионов , М. А. Марченко ,

4 Ц 6

Д. А. Караваев , Д. И. Подкорытов , Д. В. Винс

1 [email protected], 2 [email protected], 3 [email protected], 4 [email protected], 5 [email protected], 6 [email protected]

ФГБУН «Институт вычислительной математики и математической геофизики СО РАН»

Поступила в редакцию 04.04.2013

Аннотация. Целью работы является разработка новых эффективных методов имитационного моделирования сверхмасштабируемого программного обеспечения суперкомпьютеров с пета и экзафлопсным уровнем производительности, а также разработка программных решений в области создания агентно-ориентированной системы имитационного моделирования алгоритмов для суперЭВМ. В работе рассмотрены несколько классов параллельных вычислительных алгоритмов, для которых проведено имитационное моделирование с использованием многоядерных вычислительных систем Центра Коллективного Пользования Сибирского суперкомпьютерного центра СО РАН.

Ключевые слова: имитационное моделирование; агентно-ориентированная система; масштабируемые параллельные алгоритмы

ВВЕДЕНИЕ

Исследование масштабируемости параллельных алгоритмов является важной задачей при оценке эффективности их реализации на будущих экзафлопсных суперкомпьютерах. Реальные экзафлопсные компьютеры по прогнозам экспертов появятся в 2018-2020 гг., однако оценить поведение алгоритмов, путем реализации их на имитационной модели, содержащей тысячи и миллионы вычислительных ядер, можно уже сейчас. Имитационная модель позволит выявить узкие места в алгоритмах, понять, как нужно модифицировать алгоритм, какие параметры необходимо настраивать при его масштабировании на большое количество ядер. В работе [1] показана возможность применения

Настоящая работа проводилась в рамках реализации федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-13 годы», гос. контракт 07.514.11.4016, а также при финансовой поддержке грантов РФФИ № 10-0700454, 12-01-00034, 12-01-00727, 13-07-00589, 13-0100746; МИП № 39 СО РАН, МИП № 47 СО РАН, МИП № 126 СО РАН, МИП № 130 СО РАН.

агентно-ориентированной системы имитационного моделирования для решения некоторых проблем, возникающих при создании суперЭВМ экзафлопсной производительности.

В данной работе рассматриваются особенности масштабирования двух типов алгоритмов: распределенного статистического моделирования и численного моделирования 3D-сейсмических полей.

Моделирование исполнения параллельных алгоритмов для анализа масштабируемости проводилось на гибридном кластере ССКЦ, который состоит из 40 вычислительных узлов HP SL390s G7. Каждый узел содержит: два 6-ядерных CPU Xeon X5670 (2.93GHz); 96 ГБ оперативной памяти; три карты NVIDIA Tesla M2090. Каждая карта содержит GPU с 512 ядрами и 6 Гб оперативной памяти. Суммарно гибридный кластер содержит 80 процессоров (480 ядер) CPU и 120 процессоров (61440 ядер) GPU. Пиковая производительность - 85 TFlops, на тесте Linpak - 38 TFlops. Моделирование проводилось с использованием распределенной агентно-ориентированной системы имитационного моделирования AGNES, разработанной в ИВМиМГ СО РАН [2].

ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ МАСШТАБИРУЕМЫХ АЛГОРИТМОВ

Проблема исследования свойств масштабируемости параллельных алгоритмов выходит за уровень технологических задач и требует научно-исследовательского подхода к ее решению. Вычислительные алгоритмы, как правило, являются более консервативными по сравнению с развитием средств вычислительной техники. Оценить поведение алгоритмов можно путем реализации их на имитационной модели, отображающей тысячи и миллионы вычислительных ядер.

Среди работ по моделированию масштабируемых алгоритмов следует отметить Проект BigSim (http : //charm .cs.uiuc.edu/research/bigsim, руководитель проекта Kale Laxmikant, США, Университет Урбана-Шампань, Иллинойс) направлен на создание имитационного окружения, позволяющего проводить разработку, тестирование и настройку посредством моделирования ЭВМ будущих поколений, одновременно позволяя разработчикам ЭВМ улучшать их проектные решения с учетом специального набора приложений.

Работы коллектива академика П. И. Иван-никова (Россия, ИСП РАН). Разработана модель параллельной программы, которая может эффективно интерпретироваться на инструментальном компьютере, обеспечивая возможность достаточно точного предсказания времени реального выполнения параллельной программы на заданном параллельном вычислительном комплексе. Модель разработана для параллельных программ с явным обменом сообщениями, написанных на языке Java с обращениями к библиотеке MPI, и включена в состав среды ParJava.

Имитационная модель позволяет выявить узкие места в алгоритмах, понять, как нужно модифицировать алгоритм, какие параметры необходимо настраивать при его масштабировании на большое количество ядер при заданной архитектуре вычислительной системы.

МОДЕЛЬ ЭКЗАФЛОПСНОЙ СУПЕРЭВМ

В настоящее время нет определенности в архитектуре ЭВМ экзафлопсной производительности (ЭП). Предполагаем экстенсивное развитие инструментального вычислительного кластера НКС-ЗОТ+GPU ЦКП ССКЦ СО РАН (многократное увеличение количества существующих ядер). Тем самым делается оценка производительности «снизу», поскольку естествен-

но ожидать повышения характеристик ядер и интерконнекторов ЭВМ ЭП по сравнению с существующими.

Модель программы представляется взвешенным графом переходов между блоками программы с указанием параллельных ветвей. Временные задержки в блоках определяются на основе измерений, производимых в тестовых прогонах реальных программ на НКС-ЗОТ+GPU. Прогоны реальных программ на конфигурациях с более чем 30 ООО ядер позволяют надеяться на учет в измеренных задержках эффектов от системной составляющей.

АГЕНТНО-ОРИЕНТИРОВАННАЯ СИСТЕМА ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ AGNES

Пакет AGNES (AGent NEtwork Simulator) базируется на Java Agent Development Framework (JADE) [3]. JADE - это мощный инструмент для создания мультиагентных систем на JAVA, и он состоит из 3 частей: среда исполнения агентов; библиотека базовых классов, необходимых для разработки агентной системы; набор утилит, позволяющих наблюдать и администрировать МАС (мультиагентная система). Для моделирования больших вычислений важно, что JADE - это FIPA-совместимая, распределенная агентная платформа, которая может использовать один или несколько компьютеров (узлов сети), на каждом из которых должна работать только одна виртуальная JAVA-машина.

AGNES использует преимущества, предоставляемые JADE, и расширяет мультиагентную систему до системы моделирования. AGNES состоит из двух типов агентов:

управляющие агенты (УА), которые создают среду моделирования;

функциональные агенты (ФА), которые образуют модель, работающую в среде моделирования.

Приложение AGNES - это распределенная МАС, называемая платформой. Платформа AGNES состоит из системы контейнеров, распределенных в сети. Обычно на каждом хосте находится по одному контейнеру (но при необходимости их может быть несколько). Агенты существуют внутри контейнеров.

Достоинства пакета AGNES:

• отказоустойчивость;

• сбалансированное распределение нагрузки;

• наличие проблемно-ориентированных библиотек агентов;

• возможность динамического изменения модели в ходе эксперимента.

Рис. 1. Схема параллельных вычислений методов Монте-Карло

Мультиагентный подход органично подходит для задачи имитации вычислений. В качестве атомарной, независимой частицы в модели вычислений выбран вычислительный узел и исполняемый на нем код алгоритма. Каждый функциональный агент эмулирует поведение вычислительного узла кластера и программу вычислений, работающую на этом узле. Вычисления представляются в виде набора примитивных операций (вычисление на ядре; запись/чтение данных в память; парный обмен данными; синхронизация данных между вычислителями) и временных характеристик каждой операции.

Далее рассмотрим применение системы AGNES для исследования масштабируемости распределенного статистического моделирования и численного моделирования распространения сейсмических полей в SD-неоднородных упругих средах.

ИМИТАЦИЯ РАСПРЕДЕЛЕННОГО СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ

(ЗАДАЧА ДИНАМИКИ РАЗРЕЖЕННОГО ГАЗА ПО МЕТОДУ ПСМ)

С целью изучения возможности масштабирования распределенного статистического моделирования на большое число вычислительных ядер производилось имитационное моделирование работы экзафлопсного суперкомпьютера, загруженного такого рода задачами. Мы имеем в виду задачи статистического моделирования, требующие всей вычислительной мощи многопроцессорного суперкомпьютера, т. е. требующие моделирования экстремально большого количества независимых реализаций [4]. К числу таких проблем относятся задачи моделиро-

вания с использованием прямого статистического моделирования (ПСМ) течений разреженного газа с учетом химических реакций, задачи переноса излучения и теории дисперсных систем. Схема параллельных вычислений методов Монте-Карло представлена на рис. 1.

Шаг 1: подготовка к моделированию независимых реализаций на группах ядер.

Шаг 2: моделирование реализаций, вычисление выборочных средних для группы.

Шаг 3: сбор и осреднение данных.

Имитационное моделирование проводилось с использованием мультиагентной системы AGNES [2]. Для имитации вычислений методов Монте-Карло созданы два класса функциональных агентов, рис. 2.

Ялрл- ,-

абычиелитмн» I_I

\

CD

а _

fljpff- KÎflpmHKi

CD

y а

Ядра-

1ИыЧИСЛЬ|№1н»

\

Ядро- чсб-орщик» У* 1-го уровня

N

. CD

Ядро- «сборщик» 1-го уровня

Ядро- «сборщик» 1-гоуров=ня

CZD

-7

Ядой- -

«вычислители» \_J

■-^ Ядра-

«вычнслнтелшг

Рис. 2. Имитация работы суперкомпьютера, метод Монте-Карло

DataAgregator: ядро-«сборщик» собирает информацию об вычислениях, обрабатывает и агрегирует ее. Возможно иерархическое по-

строение «сборщиков», которые на нижнем уровне обрабатывают данные непосредсвенно вычислителей, а затем передают их вышестоящему агенту DataAgregator. На вершине этой пирамиды всегда стоит одно главное ядро-«сборщик», подготавливающее итоговые данные обо всех вычислениях и сохраняющее их на жесткий диск.

MonteCarlo: агент, имитирующий расчет методов Монте-Карло, ядро-«вычислитель». Каждый агент проводит независимые вычисления согласно схеме вычислений и взаимодействует только с соответствующим DataAgregator. Основными характеристиками агента являются временные и статистические свойства, оценки которых получены на основе реальных вычислений.

В результате работы модели собираются следующие отчеты.

Набор времен, потраченных на каждую итерацию вычислений каждым агентом. Эти времена позволяют получить статистические характеристики протекающих в модели вычислений для оценки правдоподобия модели.

Информация о количестве итераций вычислений, совершенных каждым агентом MonteCarlo. При помощи данной статистики можно, например, отследить, как влияет количество вычислителей на скорость расчетов.

Информация об интенсивности получения данных агентами DataAgregator от вычислителей, либо нижестоящих DataAgregator, в данном случае регистрируется количество полученных за равные промежутки времени пакетов.

Исходные данные для имитационного моделирования получены с использованием библиотеки PARMONC, предназначенной для использования на современных суперкомпьютерах те-ра- и петафлопсного уровня [5]. Область применения библиотеки: «большие» задачи статистического моделирования в естественных и гуманитарных науках (физика, химия, биология, медицина, экономика и финансы, социология и др.) Библиотека PARMONC установлена на кластерах Сибирского суперкомпьютерного центра (ЦКП ССКЦ СО РАН) и может использоваться на вычислительных системах с аналогичной архитектурой. При этом использование библиотеки не привязано к каким-то определенным компиляторам языков C и FORTRAN или MPI. Инструкции по использованию библиотеки с примерами можно найти по ссылкам [6, 7].

Как известно, теоретическое ускорение при распараллеливании для методов статистического моделирования практически «идеальное»,

что подтверждается численными расчетами при числе вычислительных ядер порядка нескольких тысяч [8]. Тем не менее, при числе ядер порядка сотен тысяч или нескольких миллионов вопросы организации счета требуют серьезного исследования, поскольку при этом возникают проблемы с большой загрузкой ядер-«сбор-щиков», которые периодически собирают статистику с ядер-«вычислителей». А именно -проведенное имитационное моделирование показало, что при большом числе используемых вычислительных ядер (больше 10000) реальное ускорение от распараллеливания существенно отличается от теоретического, что связано с большой загрузкой выделенных ядер-«сборщиков», которые обрабатывают поступающие пакеты данных с ядер-«вычислителей». При этом до 1000 ядер ускорение в модели совпадает с ускорением в реальных расчетах. С целью повышения эффективности распараллеливания исследовались различные варианты организации обмена данными между ядрами.

Целесообразно осуществлять периодическую пересылку результатов промежуточного осреднения реализаций, независимо полученных на загруженных ядрах (ядрах-«вычис-лителях»), на выделенные ядра (ядра-«сбор-щики»), объединенные в многоуровневую структуру. Ядра-«сборщики» будут периодически получать переданные им данные и осред-нять их, передавая затем результаты на ядро (с номером 0), соответствующее вершине многоуровневой структуры. Будем называть такое ядро главным ядром-«сборщиком»; в числе его задач - сохранение осредненных данных на диск. Рассчитанные на главном ядре-«сбор-щике» осредненные значения будут соответствовать выборке, полученной совокупно на всех ядрах-«вычислителях». Распределенное статистическое моделирование на разных вычислительных ядрах-«вычислителях» производится в асинхронном режиме. Отправка и получение результатов статистического моделирования также осуществляется в асинхронном режиме [1, 8].

Далее приводятся некоторые результаты по оценке масштабируемости, полученные путем решения конкретной задачи динамики разреженного газа по методу прямого статистического моделирования, связанному с моделированием реализаций ансамбля тестовых частиц. На кластере НКС-30Т Сибирского суперкомпьютерного центра с использованием библиотеки РАЯМОКС был произведен ряд расчетов для общего числа ядер от 48 до 968. Реальные затраты машинного времени на независимое модели-

рование реализаций на ядрах-«вычислителях» и обмен данными (выборочными средними) с главным ядром-«сборщиком» были использованы для калибровки имитационной модели в AGNES. По результатам расчетов был сделан вывод, что требуемый уровень относительной статистической погрешности в 0.1 % достигается при объеме выборки L, равном 240 000. Среднее время моделирования одной реализации составило 12 сек. Для ядер-«вычислителей» обмен данными с главным ядром-«сборщиком» происходил после каждой смоделированной на них реализации.

ИМИТАЦИЯ ВЫЧИСЛЕНИЙ МЕТОДОМ МОНТЕ-КАРЛО С ИСПОЛЬЗОВАНИЕМ AGNES

При имитационном моделировании с использованием AGNES предполагалось, что архитектура экзафлопсного суперкомпьютера не отличается от архитектуры кластера НКС-30Т [6]. Рассматривались два варианта организации обмена данными с главным ядром-«сбор-щиком»: одноуровневый и двухуровневый. В двухуровневом варианте ядра-«вычислители» были поделены на N равных частей (N = 10, 20, 100), для каждой из которых данные с ядер-«вычислителей» сначала отправлялись на свое выделенное промежуточное ядро-«сборщик». В свою очередь, N промежуточных ядер-«сборщиков» отправляли данные на главное ядро-«сборщик». В одноуровневом варианте (будем считать, что число промежуточных ядер-

«сборщиков» равно нулю: N = 0) данные с ядер-«вычислителей» непосредственно отправлялись на главное ядро-«сборщик».

Ускорение от распараллеливания при расчетах на М ядрах определим так:

БЬ(М) = Т1(Мтт)/Г1(М),

где ТЬ(М) - машинное время на центральном ядре-«сборщике», затраченное на моделирование и сохранение выборочных средних для Ь реализаций случайной оценки; Мтт - наименьшее число ядер, использованных при расчетах.

Приведем (рис. 4-6) сравнение ускорения для имитационной модели с теоретической оценкой, которая в предложении о пренебрежимо малом времени на обмен данными дает

БЬ(М) = М/Мтп .

ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ 3Б-СЕЙСМИЧЕСКИХ ПОЛЕЙ

Аналогичные исследования были проведены и для другого класса алгоритмов, основанного на применении разностного метода. В работе рассмотрен алгоритм численного моделирования 3D сейсмических полей в изотропной неоднородной упругой среде [8]. Такого вида задачи характеризуются большим объемом вычислений, поскольку область моделирования представляется достаточно подробно для проведения 3D моделирования.

Рис. 3. Сравнение ускорения до М = 1000. Результаты ускорения для модели совпадают с ускорением при расчетах с использованием PARMONC

Рис. 4. Сравнение ускорения распределенного статистического моделирования для разных вариантов организации обмена данными для числа ядер М до 10 000

Рис. 5. Сравнение ускорения распределенного статистического моделирования для разных вариантов организации обмена данными для числа ядер М до 100 000 (горизонтальная ось -в логарифмическом масштабе)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 6. Сравнение ускорения распределенного статистического моделирования для разных вариантов организации обмена данными для числа ядер М до 500 000 (горизонтальная ось -в логарифмическом масштабе)

Рис. 7. Схема параллельной реализации вычислений в сеточных методах

Схема параллельной реализации вычислений для алгоритма численного моделирования представлена на рис. 7.

Предполагается, что вычислительные модули кластера состоят из нескольких CPU и GPU. Поэтому разработана программа на основе масштабируемого параллельного алгоритма при использовании комбинации технологий программирования CUDA и MPI. Для проведения расчетов различных 3D-моделей была рассмот-

рена следующая организация параллельного алгоритма и программы: 3D-область моделирования разделяется на слои, каждый слой рассчитывается независимо на выделенном GPU, а обмены данными между соседними GPU проводятся посредством MPI. При этом вычисления для слоя производятся посредством CUDA в 2D.

Способ декомпозиции расчетной области для организации параллельных вычислений представлен на рис. 8.

х

Рис. 8. Схема декомпозиции расчетной области

ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ СЕТОЧНОГО МЕТОДА С ИСПОЛЬЗОВАНИЕМ СИСТЕМЫ AGNES

Для исследования реализации алгоритма численного моделирования на предполагаемую модель экзафлопсного компьютера выбран следующий критерий масштабируемости - время счета алгоритма меняется незначительно при следующих допущениях: размер 3D-модели увеличивается пропорционально количеству вычислительных узлов; каждый вычислительный узел совершает одно и то же количество итераций для своей подобласти. Исследование проводилось с использованием имитационного моделирования работы экзафлопсного суперкомпьютера в вышеупомянутой системе AGNES. Для проверки адекватности результатов имитационного моделирования проводилось их сравнение с результатами работы данного алгоритма на гибридном кластере НКС-30Т ССКЦ.

Для имитации сеточных методов реализован класс функциональных агентов Grid - узел-вычислитель, имитирующий расчет сеточных методов на одном вычислителе. Моделируются вычисления, когда область исследование режет-

ся вдоль одной оси, и полученные области загружаются на вычислители. Таким образом, получается, что у каждого вычислителя есть пересечение по данным максимум с 2 вычислителями («крайние» вычислители обмениваются только с одним соседом). Каждый вычислитель на первом шаге рассчитывает свои граничные области, затем асинхронно передает насчитанные результаты соседям. Расчет внутренних областей идет на втором шаге, получив данные от соседей и просчитав изменение свой области, агент переходит к шагу один.

Общие результаты изменения времени счета в зависимости от количества доступных ядер GPU (при пропорциональном увеличении размера 3D-модели) в логарифмическом масштабе приведены на рис. 9. Показано хорошее соответствие экспериментальных и модельных результатов на начальном участке кривой (до 30720 ядер). При значительном увеличении количества вычислительных узлов с пропорциональным увеличением размера 3D-модели время счета увеличивается, но несущественно (при росте числа узлов от 7680 до 1024000 время увеличилось на 17,5 %).

В заключение данного раздела приведем тестовый пример имитационного моделирования выполнения алгоритма решения этой задачи и реальный расчет на высокопроизводительном суперкомпьютере. На рис. 10 приведено соотношение вычислительных ядер используемых для реальных расчетов и для имитационного моделирования. В реальном расчете понадобилось 30720 ядер, а для имитационной модели только 12 вычислительных ядер! А при моделировании работы данного алгоритма с использованием до 1,5 млн ядер в системе AGNES нам понадобилось только 144 ядра!

Рис. 9. Изменение времени расчета алгоритма численного моделирования в зависимости от числа вычислительных ядер (горизонтальная ось - в логарифмическом масштабе)

Рис. 10. Соотношение между количеством вычислительных ядер (горизонтальная ось), используемых для реальных расчетов и для имитационного моделирования

(вертикальная ось)

Проведенное имитационное моделирование показало возможность масштабирования алгоритмов на большое число (сотни тысяч и даже миллионы) вычислительных ядер предполагаемого экзафлопсного суперкомпьютера, а также возможность исследования поведения алгоритмов при таком большом масштабировании.

Таким образом, в настоящее время для оценки масштабируемости вычислительного алгоритма на гибридном кластере можно рекомендовать следующее:

• составить схему выполнения программы;

• прогнать параллельную программу на небольшом количестве ядер от сотен до нескольких тысяч ядер;

• ввести в имитационную модель задержки, отображающие время счета на вычислительных ядрах, полученные из реальных расчетов;

• исследовать поведение алгоритма при большом количестве ядер (от сотен тысяч до миллионов вычислительных ядер);

• протестировать правильность расчета на имитационной модели путем сравнения на начальном участке реального и модельного расчетов;

• провести, при необходимости, коррекцию вычислительной схемы, реализующей данный алгоритм.

Система AGNES установлена в ЦКП ССКЦ ИВМиМГ СО РАН и доступна по ссылке http://www2.sscc.ru/PPP/Mat-Libr/agnes.htm.

ЗАКЛЮЧЕНИЕ

В работе исследуется возможность масштабирования распределенного статистического

моделирования и решения задачи распространения сейсмических волн в неоднородной изотропной среде сеточным методом на большое число (сотни тысяч и даже миллионы) вычислительных ядер предполагаемого экзафлопсного суперкомпьютера. Актуальность предмета исследования обосновывается необходимостью выяснения вычислительной эффективности алгоритмов в свете ожидаемого появления к концу десятилетия суперкомпьютеров экзафлопсного уровня производительности.

Исследование масштабируемости алгоритма на большое количество ядер проводилось с использованием агентно-ориентированной системы имитационного моделирования (AGNES). Исследование показало, что даже при явном распараллеливании алгоритма прямого статистического моделирования на большое количество ядер не происходит ожидаемого ускорения, близкого к линейному закону. Это связано с тем, что при числе ядер порядка сотен тысяч или нескольких миллионов возникают проблемы с большой загрузкой ядер-«сборщиков», которые периодически собирают статистику с ядер-«вычислителей». Следовательно, при масштабировании необходима модификация параллельной вычислительной программы, например, увеличение количества ядер-«сборщиков».

Аналогичные эксперименты проведены с численным моделированием сейсмических полей в SD-неоднородных упругих средах. В качестве метода решения используется сеточный разностный метод, а область моделирования представляется изотропной 3D-неоднородной сложно построенной упругой средой. Моделирование показывает, что при решении этой задачи можно использовать 1 млн и более вычислительных ядер, следовательно,

можно значительно ускорить время счета прямых задач, необходимых для интерпретации данных вибросейсмического зондирования.

Таким образом, проведенные исследования показывают эффективность имитационного моделирования при настройке параметров масштабируемых алгоритмов и исследовании их поведения при реализации на большом количестве вычислительных ядер.

СПИСОК ЛИТЕРАТУРЫ

1. Глинский Б. М., Родионов А. С., Марченко М. А., Подкорытов Д. И., Винс Д. В. Агентно-ориентированный подход к имитационному моделированию суперЭВМ эк-зафлопсной производительности в приложении к распределенному статистическому моделированию // Вестник ЮУрГУ. 2012. № 18 (277), вып. 12. С. 93-106.

2. Podkorytov D., Rodionov A., Choo H. Agent-based simulation system AGNES (AGent NEtwork Simulator) for networks modeling // Proc. 6th Int. Conf. on Ubiquitous Information Management and Communication, ICUIMC'12. 2012.

3. Bellifemine F. L., Caire G., Greenwood D. Developing Multi-Agent Systems with JADE. Wiley, 2007.

4. Марченко М. А., Михайлов Г. А. Распределенные вычисления по методу Монте-Карло // Автоматика и телемеханика. 2007. Вып. 5. С. 157-170.

5. Marchenko M. A. PARMONC - A software library for massively parallel stochastic simulation // LNCS. 2011. Vol. 6873. P. 302-315.

6. Страница библиотеки PARMONC на сайте ССКЦ КП СО РАН [Электронный ресурс]. URL: http://www2.sscc.ru/ S0RAN-INTEL/paper/2011/parmonc.htm; Документация к библиотеке PARMONC на сайте ССКЦ КП СО РАН [Электронный ресурс]. URL: http://www2.sscc.ru/S0RAN-INTEL/paper/2011/parmonc.pdf (дата посещения 22.08.13).

7. Glinsky B., Rodionov A., Marchenko M., Podkorytov D., Weins D. Scaling the distributed stochastic simulation to exaflop supercomputers // Proc. 2012 IEEE 14th Int. Conf. High Performance Computing and Communications. P. 11311136.

8. Глинский Б. М., Караваев Д. А., Ковалевский В. В., Мартынов В. Н. Численное моделирование и экспериментальные исследования грязевого вулкана «Гора Карабето-ва» вибросейсмическими методами // Вычислительные методы и программирование. М.: Изд-во Моск. гос. ун-та, 2010. Т. 11, № 1, С. 99-108.

ОБ АВТОРАХ

ГЛИНСКИЙ Борис Михайлович, зав. лаб. Д-р техн. наук. Иссл. в обл. архитектур высокопроизводительных выч. систем и параллельных вычислений в геофизике.

РОДИОНОВ Алексей Сергеевич, зав. лаб. Д-р техн. наук. Иссл. в обл. имитационного моделирования, надежности и живучести больших сетей.

МАРЧЕНКО Михаил Александрович, уч. секретарь. Канд. физ.-мат. наук. Иссл. в обл. стат. моделирования, числ. решения кинетических уравнений.

КАРАВАЕВ Дмитрий Алексеевич, мл. науч. сотр. Канд. физ.-мат. наук. Иссл. в обл. мат. моделирования в геофизике, разраб. паралл. алгоритмов и программ.

ПОДКОРЫТОВ Дмитрий Игоревич, мл. науч. сотр. лаборатории моделирования дин. процессов в инф. сетях. Канд. техн. наук.

ВИНС Дмитрий Владимирович, мл. науч. сотр. отд. Сибирского суперкомпьютерного центра. Иссл. в обл. планирования и балансировки нагрузки на суперкомпьютерные ВС, моделирования систем принятия управл. решений.

METADATA

Title: The use of the simulation for the configure of scalable

algorithms parameters in high-performance computing. Authors: B. M. Glinsky, A. S. Rodionov, M. A. Marchenko,

D. A. Karavaev, D. I. Podkorytov, and D. V. Weins Affiliation: Institute of Computational Mathematics and Mathematical Geophysics SB RAS (ICM&MG SB RAS), Russia. Email: [email protected]. Language: Russian.

Source: Vestnik UGATU (scientific journal of Ufa State Aviation Technical University), vol. 17, no. 5 (58), pp. 200-209, 2013. ISSN 2225-2789 (Online), ISSN 1992-6502 (Print). Abstract: The main objective of this paper is development of new and efficient methods of simulation of super-scale software for supercomputers with peta and exza flops level of performance. Another objective is the development of the agent-oriented system for the simulation of algorithms for supercomputers. Several classes of parallel computing algorithms, for which the simulation with the use of multicore computing systems of the Siberian Supercomputer Center for collective use SB RAS (SSCC SB RAS) was carried out were considered. Key words: Simulation; agent-oriented system; scalable parallel algorithms. References (English Transliteration):

1. B. M. Glinsky, A. S. Rodionov, M. A. Marchenko, D. I. Podkorytov, and D. V. Weins, "Agent-oriented approach to imitating modeling of exzaflops performance supercomputers as applied to distributed statistical modeling," (in Russian), Vestnik IURGU, vol. 12, no. 18 (277), pp. 93-106, 2012.

2. D. Podkorytov, A. Rodionov, and H. Choo, "Agent-based simulation system AGNES (AGent NEtwork Simulator) for networks modeling," in Proc. 6th Int. Conf. Ubiquitous Information Management and Communication, ICUIMC'12, 2012.

3. F. L. Bellifemine, G. Caire, D. Greenwood, Developing Multi-Agent Systems with JADE. Wiley, 2007.

4. M. A. Marchenko and G. A. Mikhaylov, "Distributed computations using Monte Carlo method," (in Russian), Avtomatika i Telemekhanika, vol. 5, pp. 157-170, 2007.

5. M. A. Marchenko, "PARMONC - A software library for massively parallel stochastic simulation," LNCS, vol. 6873, pp. 302-315, 2011.

6. PARMONC Library page at the site of the SSCC SB RAS [Online]. Available: http://www2.sscc.ru/SORAN-INTEL/paper/2011/parmonc.htm

PARMONC Library documentation at the site of the SSCC SB RAS [Online]. Available: http://www2.sscc.ru/SORAN-INTEL/paper/2011/parmonc.pdf

7. Boris Glinsky, Alexei Rodionov, Mikhail Marchenko, Dmitry Podkorytov, and Dmitry Weins, "Scaling the distributed stochastic simulation to exaflop supercomputers," in Proc.

E. M. MuHCKMM U dp. • Hcn0^b30BAHME MМMТАЦMОННОГО MOflE^HPOBAHHfl

209

2012 IEEE 14th Int. Conf. High Performance Computing and Communications, p. 1131-1136.

8. B. M. Glinsky, D. A. Karavaev, V. V. Kovalevsky, and V. N. Martynov, "Numerical modeling and experimental research into the mud volcano «Gora Karabetova» with vibroseismic methods," Vichislitelnie Methodi i Programmirovanie, vol. 11, no. 1, p. 99-108, Moscow: Edited by Moscow State University, 2010.

About authors:

GLINSKY, Boris Mikhailovich, Head of Laboratory, Dr. (Habil.) Tech. Sci. Research into the field of architectures of high-performance computing systems and parallel computing in geophysics.

RODIONOV, Alexey Sergeevich, Head of Laboratory on Modeling of Dynamic Processes in Information Networks, the ICM&MG SB RAS, Dr. of Tech. Sci. Research into the field of simulation, safety and vitality of large networks.

MARCHENKO, Mikhail Alexandrovich, Academic Secretary, the ICM&MG SB RAS, Cand. of Physico-Mathematical Sci. Research into the field of statistical modeling, numerical solution of kinetic equations.

KARAVAEV, Dmitry Alexeevich, Jr. Sci. Researcher, the ICM&MG SB RAS, Cand. of Physico-Mathematical Sci. Research into the field of mathematical modeling in geophysics, development of parallel algorithms and programs.

PODKORYTOV, Dmitry Igorevich, Jr. Sci Researcher, ICM&MG SB RAS, Cand. Tech. Sci. Labaratory on Modeling of Dynamic Processes in Information Networks.

WEINS, Dmitry Vladimirovich, Jr. Sci. Researcher, the SSCC ICM&MG SB RAS. Research into the field of scheduling and load-balancing to supercomputers, modeling of systems for decision making.

i Надоели баннеры? Вы всегда можете отключить рекламу.