Научная статья на тему 'Теоретические и практические оценки эффективности параллельной реализаций метода Стоуна'

Теоретические и практические оценки эффективности параллельной реализаций метода Стоуна Текст научной статьи по специальности «Математика»

CC BY
258
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД СТОУНА / ОЦЕНКИ ЭФФЕКТИВНОСТИ ДЛЯ СИСТЕМЫ С МАССОВЫМ ПАРАЛЛЕЛИЗМОМ / STONE IMPLICIT PROCEDURE (SIP) / EFFICIENCY ASSESSMENT FOR MPP SYSTEM

Аннотация научной статьи по математике, автор научной работы — Сухинов Александр Иванович, Гадельшин Валерий Камельянович, Любомищенко Денис Сергеевич

В работе приведены теоретические и практические оценки эффективности параллельной версии алгоритма неполного LU-разложения Стоуна (SIP) для суперпроизводительной вычислительной системы. В качестве базового подхода распараллеливания используется метод декомпозиции области моделирования на подобласти (domain decomposition). В рамках данного подхода рассматриваются: двумерная декомпозиция по данным без учета общего волнового фронта; двумерная декомпозиция по данным с учетом общего волнового фронта; одномерная декомпозиция по данным с учетом общего волнового фронта и пакетной организацией обменов. Показано, что для задачи приземной аэродинамики наилучшие результаты из трех оцениваемых параллельных версий дает алгоритм одномерной декомпозиции c учетом общего волнового фронта. Приведены оценки оптимального размера пакета передачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Сухинов Александр Иванович, Гадельшин Валерий Камельянович, Любомищенко Денис Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TEORETICAL AND PRACTICAL EFICIENCY ASSESSMENT OF PARALLEL VERSION OF STONE METHOD

In the paper there are theoretical and practical efficiency assessments of parallel method of incomplete factorization of Stone (SIP) for supercomputer. Domain decomposition is used as background parallel method. 2D data decomposition without wave front,2D decomposition with wave front and 1D data decomposition with wave front and pocket data exchange are considered. The best results among three algorithm versions of parallel realization are achieved for wave front algorithm and 1D domain decomposition. The assessment of optimal package size is given.

Текст научной работы на тему «Теоретические и практические оценки эффективности параллельной реализаций метода Стоуна»

Sukhinov Alexander Ivanovich

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: sukhinov@gmail.ru

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: +78634310599.

The Head of TIT SFedU; Dr. of Phis.-Math. Sc.; Professor.

Chistyakov Alexander Evgenjevich

E-mail: cheese_05@mail.ru.

Phone: +78634371606.

The Department of Higher Mathematics; Assistant.

Bondarenko Juliana Sergeevna

E-mail: juliana_bond@mail.ru.

Phone: +78634371606.

Postgraduate Student.

УДК 519.86

А.И. Сухинов, B.K. Гадельшин, Д.С. Любомищенко

ТЕОРЕТИЧЕСКИЕ И ПРАКТИЧЕСКИЕ ОЦЕНКИ ЭФФЕКТИВНОСТИ ПАРАЛЛЕЛЬНОЙ РЕАЛИЗАЦИЙ МЕТОДА СТОУНА

В работе приведены теоретические и практические оценки эффективности параллельной версии алгоритма неполного LU-разложения Стоуна (SIP) для суперпроизводи-тельной вычислительной системы. В качестве базового подхода распараллеливания используется метод декомпозиции области моделирования на подобласти (domain decomposition). В рамках данного подхода рассматриваются: двумерная декомпозиция по данным без учета общего волнового фронта; двумерная декомпозиция по данным с учетом общего волнового фронта; одномерная декомпозиция по данным с учетом общего волнового фронта и пакетной организацией обменов.

Показано, что для задачи приземной аэродинамики наилучшие результаты из трех оцениваемых параллельных версий дает алгоритм одномерной декомпозиции с учетом общего волнового фронта. Приведены оценки оптимального размера пакета передачи.

; .

A.I. Sukhinov, V.K. Gadelshin, D.S. Lyubomishchenko

TEORETICAL AND PRACTICAL EFICIENCY ASSESSMENT OF PARALLEL VERSION OF STONE METHOD

In the paper there are theoretical and practical efficiency assessments of parallel method of incomplete factorization of Stone (SIP) for supercomputer. Domain decomposition is used as background parallel method. 2D data decomposition without wave front,2D decomposition with wave front and 1D data decomposition with wave front and pocket data exchange are considered. The best results among three algorithm versions of parallel realization are achieved for wave front algorithm and 1D domain decomposition. The assessment of optimal package size is given.

Stone Implicit Procedure (SIP); efficiency assessment for MPP system.

Для решения задач атмосферного моделирования очень важным аспектом является выбор параллельного алгоритма. Процесс построения параллельной программы не всегда может быть ограничен простой переделкой последовательных линейных конструкций в параллельное представление. Такой подход может дать параллельный аналог алгоритма, который при масштабировании на большое коли-

чество узлов параллельной вычислительной системы будет давать незначительное преимущество или не давать преимуществ вовсе по сравнению с последователь, . Также стоит отметить, что многие параллельные алгоритмы вовсе не имеют по, . Поэтому перед началом создания программного средства для многопроцессорной вычислительной системы необходимо произвести теоретические оценки эффек-.

Анализ производительности параллельных алгоритмов чаще всего проводят с использованием понятий ускорения и эффективности, определяемых соответственно по формулам

T

Sn = T , (1)

С= T, (2)

n nT

n

где Ts - время выполнения лучшего последовательного алгоритма, Tn - время

выполнения параллельного алгоритма на n процессорах.

Получим теоретические оценки эффективности параллельных реализаций метода SIP с учетом основных параметров параллельной вычислительной системы. В ТТИ ЮФУ установлен HPC-кластер, представляющий собой систему с рас-

пределенной памятью из 128 узлов, объединенных сетью InfiniBand. Каждый узел кластера является системой с общей памятью (SMP-системой) с 16-ю вычислителями и объемом ОЗУ 32 Гбайт. Фактическая пропускная способность и латентность сети Infiniband для узлов в разных корзинах (худший случай):

♦ латентность: 7,761 40 3 с;

♦ среднее время одной one рации с плавающей точкой: т = 5,376 • 107 с;

♦ среднее время пересылки одного элемента массива: Tsmd = 8,595 • 10 9 с;

♦ пропускная способность: 1224,38 Гбайт/с;

♦ пиковая производительность одного вычислительного ядра узла кластера:

9,2 .

В работе рассматривается одномерная и двумерная топологии процессоров. Количество процессоров в параллельной вычислительной системе равно p . Для

двумерной топологии p = px • py , где px и py равны количеству процессоров соответственно в направлениях X и y . Для определенности будем считать, что область моделирования имеет квадратное основание и одинаковое количество контрольных объемов (КО) Nh в горизонтальных направлениях и Nv - количество КО в вертикальном направлении.

Подсчитаем время Ts работы одной итерации последовательного алгоритма

SIP .

алгоритма, т.е. декомпозицию, прямую подстановку, обратную подстановку:

Ts = Tdec + Tfrw + Tbkw, (3)

T,c - N2 28, f = N2 Nr 47, Thkw - N2 Nr• 5, (4)

frw h

2

T - 50 Nh2 N r.

(5)

Подсчитаем время Tp работы одной итерации параллельного алгоритма без учета общего волнового фронта. Это время складывается из времен, необходимых

SIP , -

ных на границе:

t1 = т\ + T , (6)

p calc sync ’ v /

где

Tcalc - Tdec + Tfrw + Tbkw - 50Nh NvT ■

Время синхронизации равно

T1 - T \ + T1

sync

lat

send '

ТУ - время, необходимое на организацию обмена; T d -

(7)

(8)

время на пере-

ГДе *-\at - врсмл, псиилидимис па upi ани-^ациги иимспа, ^ send

x , -

y . x , -

y .

X протекает в два этапа: сначала осуществляются обмены нечетных и четных , .

двух обменов 2riat и двух пересылок двух плоскостей данных синхронизации

/

2

2NhN

h v

\

send

К py J

вается время

. Таким образом, на синхронизацию в направлении X затрачи-

2 NhNv

py

(9)

а в направлении y - время

2тш + 2

2 NhN

h v

V

px

Тогда общее время синхронизации равно

^2 NhN Л

____h v

send

T - 8т t + 4

sync lat

send

+ 4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 NhN

____h v

send

\

(10)

(11)

/

V

Время работы одной итерации алгоритма двумерной декомпозиции без учета общего волнового фронта равно

{ . . Л

T1 - 50N т + 8т, t + 8NhN

p v lat h v

p p

у py

1 1 — + —

px

send

(12)

Время работы алгоритма с учетом волнового фронта так же как и в последовательном случае складывается из временных затрат на три этапа алгоритма SIP:

T 2 ___t 2 і T 2 і T 2

p dec frw bkw .

(ІЗ)

Каждый из этапов проходит px + py — 1 j -стадий и на px + py — 2j-

стадиях требуется осуществлять синхронизационные обмены. :

Tdec — {Px + Py — ) _ calc + {Px + Py — 2 )Tc Tfrw —(px + py — 1)Tfrw _ calc +(px + py — 2 )Tj Tbkw —(Px + Py — 1)Tbkw _ calc +(Px + Py — 2 )Tb

2

dec _ sync '

~<2

L frw _ sync ’

■>2

L bkw _ sync

Времена, необходимые на осуществление процесса расчета для этапов декомпозиции, прямой и обратной подстановок, запишутся соответственно как

(14)

(ІЗ)

(Іб)

T

dec _ calc

N N — 28 Nt,

Px Py V

t2 l —17 ^^Nt,

frw calc V ’

Px Py

— 5 Nt.

Px Py V

T

bkw _ calc

(І7)

(І8)

(19)

На этапе декомпозиции и прямой подстановки необходимо передавать одну плоскость синхронизационных данных в каждом направлении, а на этапе обратной подстановки - две плоскости в каждом направлении. Как и прежде, время синхронизации по каждому направлению складывается из времени на организацию соединения и времени на передачу данных. Таким образом, времена синхронизации равны

T

dec _ sync

T

frw _ sync

P

y

NhN т л—h—— т

send send '

Px

T

2

bkw _ sync

2NhN

Tlat +

2 NhN т л---------------h—— т

send send

(20)

(21)

вид

Ру Рх

В итоге время работы алгоритма волнового фронта на р -процессорах имеет

N N / \

50 h h NV Px + Py — 1)T +

+ (Px + Py — 2)

Px Py

f \

1 1 I

+ — Тsend

P y px J

(22)

Рассмотрим алгоритм одномерной декомпозиции по данным с учетом общего волнового фронта и пакетной организацией обменов. Время работы алгоритма, как и в случае двумерной декомпозиции с учетом общего волнового фронта, имеет вид

где

(23)

(24)

(25)

^ . (26)

Ькм _ зуис 4 7

Пусть т - количество пакетов синхронизации для каждого вычислителя, тогда времена, необходимые на осуществление процесса расчета для этапов де, ,

Tdec _{Px + py ~ !)TL_calc +{Px + Py ~ 2)Tc

f _(Px + Py - )_calc +(Px + Py - 2)

Tbkw _{Px + Py - tybkw_calc + (Px + Py - 2)Tl

dec _ sync '

T

dec _ са1с

T

frw _ calc

T

bkw calc

N N _ 28 —-—hNvT, P m v

_ 17 —L—^NvT, P m v

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

_5N t.

(27)

(28) (29)

р т

Так как декомпозиция осуществляется по одному направлению, то и синхронизация проходит только в одном направлении. Времена синхронизации для трех этапов равны

N

Т3 _Tfr _T]t + ^N t

dec _ sync frw _ sync lat " •

m

send

Tl _ T t +

bkw _ sync la t

2 N

m

hNTsend.

Время на осуществление одной операции:

Тр = 50(р + т - 1)т + (р + т - 2) р т

3ТШ + 4 ~N■ T

m

v send

(30)

(31)

(32)

E\

Запишем формулы для теоретических оценок эффективности алгоритмов [5,6]:

Т СПЛТ2

50 N2 N. т

PTI

/ \

™ N N 1 1

PxPy ■ 50 h hNvT + 8тш + 8 NhNv — + — Tsend

y * 1 I Py Px J

(33)

pTp

SO N2 Nt

(34)

pxpy ■

N N / \

SO-h-hNv ( + py -1) +

pxpy

+ ( px + py - 2 )

6Tlat + 4 NhNv

/ \ ~

1 1

— + — Tsend

x y p

pTp,

SO N2 NT

. (3S)

p ■

SO —h—-hNv (p + m - 1)t+ (p + m - 2)[ Зтш + 4—NvT, pm у m s

send

Построим графики теоретических оценок эффективности с учетом того, что = 2000, ^ = 40, рх = ру =у[р (рис. 1).

Рис. 1. Результаты теоретических оценок эффективности параллельных версий

алгоритма SIP

Из результатов теоретических оценок эффективности становится ясно, что алгоритм двумерной декомпозиции по данным с учетом общего волнового фронта можно применять только на небольшом (<16) количестве вычислителей. Алгоритм без учета общего волнового фронта дает отличную асимптотическую эффективность, однако в теоретических оценках не было учтено ограничение на пропускную способность сети многопроцессорной системы, которое на практике является естественным ограничителем алгоритма. Также в алгоритме без учета общего волнового фронта сходимость итерационного процесса может быть существенно снижена за счет отсутствия необходимых обменов на этапах декомпозиции, прямой и .

двумерным алгоритмом волнового фронта за счет сокращения в 2 раза временных издержек на передачу синхронизационных данных на границе. Поэтому целесообразным является реализация алгоритма двумерной декомпозиции по данным без учета волнового фронта и алгоритма одномерной декомпозиции по данным с пакетной передачей сообщений.

Найдем оптимальное значение параметра разбиения т в алгоритме одномерной декомпозиции при заданном количестве вычислителей р. Для этого нуж-

но минимизировать время Tр :

Tp = Tm + -m

-2

50 (p -1)-^ —т + 4 (p - 2 )-h-,Ts p

send

+

(3б)

N2 N ,

+50 ^,.т + 4-fN,Te.,ll + 3(р - 2 )г, Р 1

Нетрудно видеть, что минимум достигается при

lat'

m ■

50(p - 1)-^—vт + 4(p - 2)-h-vTse„d

___________p_________________________

(37)

lat

В результате для р = 128 оптимальное значение I = 6, т^. процесс синхронизации необходимо осуществлять после обработки шести строк каждым процес.

В табл. 1 приведены временные затраты и практические замеры эффективно.

1

Время выполнения одной итерации и эффективность

Количество процессоров Время Tp, с. E3 p

2 8,3823 0,743

4 4,7790 0,б51

8 2,б520 0,587

1б 1,4100 0,552

32 0,7913 0,492

б4 0,4730 0,411

128 0,2930 0,332

Рис. 2.Теоретическая (прерывистая)и практическая (сплошная)кривые

эффективности

Как и ожидалось, результаты практических замеров показали существенное ухудшение характеристик алгоритма (рис. 2). Это связано с тем, что в практических оценках не учитываются ограничения на пропускную способность сети, время на выделение, удаление и доступа к памяти массивов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Сух иное А.К,Гадельшин В.К., Любомищенко Д.С Математическое моделирование поля ветровых течений в условиях городской застройки с применением SIP-метода // Известия ЮФУ. Технические науки. - 2009. - № 8 (97). - С. 30-37.

2. Сух иное А.И.,Гаделыиин В.К., Любомищенко Д.С Математическая модель распространения вредных выбросов от автотранспортных средств на основе метода контрольного

// -

тия ЮФУ. Технические науки. - 2009. - № 2 (91). - С. 8-14.

3. Ferziger J., Peric M. Computational Methods for Fluid Dynamics - 3., rev. ed. - Berlin; Heidelberg; New York; Barcelona; Hong Kong; London; Milan; Paris; Tokyo: Springer, 2002.

- 423 p.

4. Stone H.L. Iterative Solution of Implicit Approximations of Multidimensional Partial Differential Equations, SIAM J. Numerical Anal. - 1968. - Vol. 5. - P. 530-558.

5. Гергель В.П. Теория и практика параллельных вычислений: Учебное пособие. - М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2007. - 423 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Корнеев В.В. Параллельные вычислительные системы. - М.: Ноледж, 1999. - 320 с.

7. Параллельная версия алгоритма неполного LU -р^ложения Стоуна [Электронный

ресурс] Parallel Versions of Stone's Strongly Implicit Algorithm; авт. J.S. Reeve, A.D. Scurr and J.H. Merlin / Department of Electronics and Computer Science University of Southampton. - . . - Southampton, [2001]. - :

http://eprints.ecs.soton.ac.uk/7614/, свободный. Дата доступа: 25.10.2010. Загл. с экрана.

- . .

8. Сух иное А.И. Двумерные схемы расщеплен ия и некоторые их приложения. - М.: МАКС Пресс, 2005. - 408 с.

Статью рекомендовал к опубликованию д.т.н., профессор Н.Н. Чернов.

Сухинов Александр Иванович

Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: sukhinov@gmail.ru.

347928, г. Таганрог, пер. Некрасовский, 44.

Тел.: 88634310599; 89281021106.

; . .- . .; .

Гадельшин Валерий Камельянович

Тел.: 88634601461.

Кафедра высшей математики; к.т.н.; доцент.

Любомищенко Денис Сергеевич

E-mail: dexusint@gmail.com.

.: 88634601219.

Кафедра высшей математики; ассистент.

Sukhinov Alexander Ivanovich

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: sukhinov@gmail.ru

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: +78634310599.

The Head of TIT SFedU; Dr. of Phis.-Math. Sc.; Professor.

Gadelshin Valeriy Kamel’ianovich

Phone: +78634601461.

The Department of Higher Mathematics; Cand. of Eng. Sc.; Associate Professor.

Lyubomishenko Denis Sergeevich

E-mail: dexusint@gmail.com.

Phone: +78634601219.

The Department of Higher Mathematics; Assistant.

i Надоели баннеры? Вы всегда можете отключить рекламу.