Решение разреженных СЛАУ большой и сверхбольшой размерности многосеточным методом на РВС

Подопригора Александр Владимирович; Чекина Мария Дмитриевна

18. Boyko V.A. Razrabotka algoritma sborki i analiza bol'shikh genomov [Development algorithm for the assembly and analysis of big genomes], Molodoy uchenyy [Young Scientist], 2017, No. 3, pp. 27-28. Available at: https://moluch.ru/archive/137/38530/ (accessed 10 November 2018).

19. Zerbino D.R., McEwen G.K., Margulies E.H., Birney E. Pebble and rock band: heuristic resolution of repeats and scaffolding in the velvet short-read de novo assembler, PLoS One, 2009, No. 4 (12): e8407.

20. Alekseeva A.E., Brusnigina N.F. Vozmozhnosti i perspektivy primeneniya metodov massivnogo parallel'nogo sekvenirovaniya v diagnostike i epidemiologicheskom nadzore za infektsionnymi zabolevaniyami [Opportunities and prospects of application of methods of massive parallel sequencing in diagnostics and epidemiological surveillance of infectious diseases], MediAl' [Medial], 2014, No. 2 (12).

21. Levina A.I. Apparatnaya realizatsii sborki genoma iz korotkikh chteniy na osnove grafa de Bryuyna [Hardware implementation of genome Assembly from short readings based on de Bruijn graph], Х!Уezhegodnaya molodezhnaya nauchnaya konferentsiya studentov, aspirantov i molodykh uchenykh «Dostizheniya i perspektivy molodykh uchenykh v interesakh razvitiya Yuga Rossii» [XIV annual youth scientific conference of students, postgraduates and young scientists "Achievements and prospects of young scientists in the interests of development of the South of Russia"]. Rostov-on-Don, 2018, pp. 75.

22. Varma B.S.C., Paul K., Balakrishnan M. and Lavenier D. Hardware acceleration of de novo genome assembly, Int. J. Embedded Systems, 2017, Vol. 9, No. 1, pp. 74-89.

Статью рекомендовал к опубликованию д.т.н. Э.В. Мельник.

Левина Анастасия Ильинична - ООО"НИЦ супер-ЭВМ и нейрокомпьютеров"; e-mail: anastasijalewina@yandex.ru; 347900, г. Таганрог, пер. Итальянский, 106; тел.: +78634612111; конструктор.

Семерникова Евгения Евгеньевна - e-mail: semernikova_e@mail.ru; научный сотрудник.

Сорокин Дмитрий Анатольевич - e-mail: jotun@inbox.ru; начальник отдела прикладного программного обеспечения; к.т.н.

Levina Anastasia Ilinichna - Supercomputers and Neurocomputers Research Center; e-mail: anastasijalewina@yandex.ru; 347900, Taganrog, Italyansky lane, 106; phone: +78634612111; designer.

Semernikova Evgeniya Evgenievna - e-mail: semernikova_e@mail.ru; research scientist.

Sorokin Dmitry Anatolievich - e-mail: jotun@inbox.ru; head of application software department; cand. of eng. sc.

УДК 004.273 DOI 10.23683/2311-3103-2018-8-212-221

А.В. Подопригора, М.Д. Чекина

РЕШЕНИЕ РАЗРЕЖЕННЫХ СЛАУ БОЛЬШОЙ И СВЕРХБОЛЬШОЙ РАЗМЕРНОСТИ МНОГОСЕТОЧНЫМ МЕТОДОМ НА РВС

Рассматривается возможность применения РВС для решения больших и сверхбольших разреженных систем линейных алгебраических уравнений. На сегодняшний день компьютерное моделирование приобретает все большую актуальность и применяется во многих областях науки и техники, заменяя собой натурные модели, а также позволяя прогнозировать природные процессы и явления. В основе подобного моделирования, как правило, лежат физико-математические модели, дискретизация которых естественным образом приводит к появлению систем линейных алгебраический уравнений (СЛАУ), где базовый оператор имеет разреженную структуру. Решение больших и сверхбольших разреженных СЛАУ позволит увеличить точность вычислений и даст возможность обрабатывать

большее количество данных. Для оценки эффективности РВС при решении разреженной СЛАУ большой и сверхбольшой размерности был выбран многосеточный метод, который характеризуется быстрой сходимостью результата вычислений, а также точностью проводимых вычислений. Многосеточный метод решения СЛАУ на РВС относится к классу вычислительно трудоемких сильносвязных задач, который подразумевает, что число межпроцессорных информационных обменов и обменов между процессорами и элементами памяти сравнимо или превышает число выполняемых операций. В связи с этим для эффективной реализации данной задачи возникает необходимость обеспечения многоканально-сти в сочетании с нелинейным доступом к данным. Такой подход считается практически не осуществимым на вычислительных системах традиционной архитектуры, что напрямую отражается на производительности. Было установлено, что высокая производительность может быть достигнута за счет мультиконвейерной организации вычислений. В связи с этим возникает необходимость использовать другие более гибкие архитектуры вычислительных систем, такие как РВС, в основе которых лежат ПЛИС. Самой трудоемкой операцией многосеточного метода является операция вида «умножение матрицы на матрицу», где матрицы являются разреженными. На примере этой операции было показано, что использование реконфигурируемых вычислительных систем позволяет значительно сократить время решения разреженных СЛАУ большой и сверхбольшой размерности. В сравнении с вычислительными системами, традиционно применяемыми для реализации таких задач, РВС демонстрирует многократное преимущество.

Cверхбольшие разреженные системы линейных алгебраических уравнений; многосеточный метод; реконфигурируемые вычислительные системы; системы линейных алгебраический уравнений.

A.V. Podoprigora, M.D. Chekina

MULTIGRID METHOD TO SOLVE SPARSE LARGE AND EXTRA-LARGE SLAE BY RECONFIGURABLE COMPUTING SYSTEM

This paper presents the possibility of solving large and extra-large sparse systems of linear algebraic equations having used multigrid method by reconfigurable computing systems (RCS). At the present moment, computer modeling is becoming topical. Replacing prototype models, it is being used in many areas of science of technology, and makes it possible to predict natural process and phenomena, as well as enable us to predict natural processes and phenomena. This mode of modeling is based on Physics and Mathematics models in occurrence of systems of linear equations and the main matrix operator is provided with sparse structure. To attack large and extralarge sparse systems of linear equations will permit to improve calculation accuracy enable to increase data processing. Multigrid method is chosen for assessing efficiency of RCS, for attacked sparse large and extra-large SLAE, because of it is speed of convergence solution and precision of calculates. Multigrid method of solving SLAE by RSC is classified as strongly connected type task of high performance mean that both of interprocessor exchanges and intermemory exchanges which are compatible to or exceed the number of executed operations. In connection with this thereby efficient implementation of this task requires to both multichannel access and nonlinear memory access. This approach is impossible to implement by using compute systems of traditional architecture and directly affects the performance. High performance can be achieved due to multiconveyer calculations, so we use more flexible architecture compute system, as RSC, which are based on FPGA. Recent studies have revealed that most demanding function of multigrid method is sparse general matrix-matrix multiplication (spGEMM).Utilization of RSC can decrease problem time large and extra-large sparse SLAE, research result has showed by the example of sparse general matrix-matrix multiplication. Comparison of RSC productivity with multiprocessing compute system show multiple advantages of RSC.

Extra-large sparse systems of linear algebraic equations; spGEMM; multigrid method; reconfigurable computing systems; systems of linear algebraic equation; SLAE.

Введение. В настоящее время одним из основных исследовательских инструментов является компьютерное моделирование, которое применяется во многих областях науки и техники и позволяет за меньшее время получать качественные

данные о разных процессах и явлениях. В результате компьютерного моделирования можно увидеть структуру исследуемого процесса и его взаимодействие с окружающим пространством. Немаловажными являются возможность воздействия на исследуемый объект и прогнозирование последующих явлений и событий, вызванных исследуемым объектом.

Например, в рамках фундаментальных исследований существует множество работ по моделированию гидродинамических процессов, процессов теплопроводности, механических процессов, в том числе строительной механики и т.д. [2, 3]. Все эти физико-математические модели сводятся к решению дифференциальных уравнений в частных производных [20, 21]. Из них, используя методы конечных элементов или конечных разностей, формируются системы линейных алгебраических уравнений. В большинстве своем СЛАУ, образованные таким образом, являются разреженными [16]. Точного математического определения разреженной матрицы не существует, однако в общем случае число ненулевых элементов для матрицы п-го порядка обозначается как О(п). С практической точки зрения принято, что в каждой строке матрицы должно быть не больше определенного количества ненулевых элементов.

В большинстве своем ресурсоемкие вычислительные задачи такого рода решаются с применением сверхпроизводительных вычислительных [18] систем на основе процессоров общего назначения с графическими ускорителями, имеющих разные типы памяти. Однако даже для высокопроизводительных систем существует множество трудностей при организации таких сложных вычислений. Например, для решения сложной задачи, используя вычислительную системы с распределенной памятью, необходимо учитывать, что данные в памяти каждого вычислителя должны будут распределены таким образом, что часть информации одного вычислительного ядра будет дублировать данные соседнего, синхронизируя таким способом вычисления [9, 10]. Ожидание синхронизации такого рода на больших и сверхбольших задачах будет занимать большое число временных затрат такой системы, что в разы замедляет получение результата трудоемких задач.

Обычно процесс решения разреженных СЛАУ сопровождается применением специальных алгоритмов, которые включают в себя особые методы хранения матриц и операций над ними. Это позволяет экономить ресурс вычислительной системы, решающей задачу решения разреженной СЛАУ большой и сверхбольшой размерности. Применительно к данной задаче выявленные особенности традиционных вычислительных систем будут сильно замедлять пиковую производительность при решении задач рассматриваемого класса.

В процессе исследования было установлено, что для многопроцессорной вычислительной системы необходимо учитывать такое явление, как задержки при межпроцессорном обмене, которые при увеличении размерности задачи будут пропорционально увеличиваться, а значит, увеличивать время решения задачи. Стоит учесть и такой фактор, что при использовании общей памяти могут возникать коллизии, которые будут вызывать кратковременные сбои системы. Такие явления могут повлиять как на время решения задачи, так и на точность результатов работы вычислительной системы. Таким образом, многопроцессорные системы на основе процессоров общего назначения с общей, распределенной или гибридной памятью не смогут показать пиковую производительность в силу характерных особенностей жесткой архитектуры, а значит, возникает необходимость использования другого подхода к решению представленной задачи.

Анализ вычислительной структуры задачи решения СЛАУ многосеточным методом. Многосеточный метод имеет достаточно сложную итерационную структуру, которая содержит два разнородных алгоритма решения СЛАУ и мно-

жество итераций, в которых размерность обрабатываемых матриц изменяется от максимального значения до минимального значения и обратно с заранее определенным шагом [1, 19].

Рассмотрим многосеточный метод решения СЛАУ, показанный на рис. 1. Многосеточный метод разделяется на две этапа. Первый этап - подготовительный, представляет собой построение необходимых матриц для реализации. На этом этапе формируются такие атрибуты алгоритма, как набор матриц сглаживания, матриц интерполяции, а также сеточных операторов. Эти наборы матриц представляют собой наборы матриц, имеющих разную размерность - от самой минимальной до самой максимальной, где задаются размерности начальных и конечных матриц и шаг изменения разрядностей.

PHI F R R1 R2 R PHI

Repeat Until Convergence

Рис. 1. Алгоритм многосеточного метода

Следующий этап производит вычисление необходимых нам значений, точнее, нахождение вектора или матрицы неизвестных. Этап вычислений, в свою очередь, тоже можно разбить на две основные части. Первая часть метода PHI ^ F and R ^ R1 - огрубление исходной сетки, подсчет величины ошибки и вычисление грубого решения, вторая часть метода R2 ^ R ^ PHI - уточнение с каждой итерацией (увеличение размерности) сетки и коррекция величины ошибки результата. Этап огрубления исходной матрицы содержит операцию перехода, преобразуя исходную матрицу за счет использования оператора интерполяции на более крупную (меньшей размерности) сетку, на переход R ^ R1. После последней итерации огрубления исходной СЛАУ вычисляется вектор/матрица неизвестных на основании полученных результатов от огрубления матрицы одним из классических алгоритмов решения СЛАУ, эта операция соответствует R1 ^ R2. Таким образом, формируется начальное значение результата для второго этапа. Второй этап содержит операции перехода от грубой к более точной сетке R2 ^ R за счет операторов интерполяции и операторы коррекции ошибки. Таким образом, с каждой последующей итерацией решение приводится к размерности исходной задачи PHI [5].

На основе описанного многосеточного метода была разработана вычислительная структура, позволяющая реализовать вычислительный конвейер для получения численного решения СЛАУ. Рассмотрим подробно вычислительную структуру многосеточного метода на рис. 2 [6].

(a+b|,+b|+b(,+b(>uo = q p

[0^ (0) (0) (0) (0) A B ,) |.B + j.

p"

ш

b(-\ B(-)j.

yrn?

u0 д smoo™g A[M) !MOO™„G

11'' 1 1 1 11 1 г

a[0)b[vw°v

u(-)*[

4

u[-2).

U(-1)

—u[2)

Рис. 2. Вычислительная структура многосеточного метода

B(0)|.

B(-«|.

u0

«r»-

-p(~v

Операции GRID REDUCTION, SMOOTHING, DISCREPANCY, INTERPOLATION формируют типовую структуру многосеточного метода, соответствующего R^Ri (см. рис. 1), и реализуют огрубление исходной матрицы до определенного минимального значения, а также вычисляют значение добавочной ошибки. При обратном ходе применяются следующие операции: GRID REDUCTION, SMOOTHING, ERORR REDUCTION, GRID INCREASION, за счет которых реализуется операция перехода от грубой сетки к более точной. Большинство операций R2^\R схожи с операциями огрубления исходной матрицы R^-RL

Каждая из названных операций имеет свою сложную структуру, которые и рассмотрим далее.

GRID REDUCTION - операция уменьшения/увеличения разрядности сетки, реализуется на основе двойного перемножения на оператор интерполяции, в математическом представлении показана формулой (1).

A(n)=p(nX A(n-1)-p(n)T (1)

SMOOTHING - операция сглаживания, необходима для получения приближенных результатов исходной матрицы, которые будут использоваться для получения невязки. Обычно используется один из итерационных методов решения СЛАУ. В данном случае предполагается использовать метод прогонки. Это обусловлено тем, что большинство СЛАУ, полученных из физико-математических задач, имеет преобладание ненулевых элементов на диагонали исходной матрицы. В итоге по формуле (2) формируется сглаживание.

U(n)'=(1-®)T(n)+®/A(n)1J^(B(n)1+T(n)+B(n)1.T(n)+B(n)J+T(n)+B(n)j.T(n)). (2)

DISCREPANCY - операция вычисления невязки. Реализуется на основе рассчитанных ранее данных начального приближения. Формула (3) показывает вычисление невязки и соответствует обычному представлению о ней.

r(n)' =C-A(n)-U(n)'. (3)

INTERPOLATION - операция интерполяции, подразумевает редукцию размерности матрицы с определенным шагом, что в точности повторяет процедуру GRID REDUCTION.

COMPUTE SLAE - промежуточная операция, отвечающая за нахождение точного значения СЛАУ на минимальной разрядности, которая находится непосредственно после прямого хода и перед обратным ходом метода. Это представляется возможным за счет того, что на последнем этапе разрядность решаемой матрицы уменьшается на много порядков относительно начальной размерности. В качестве алгоритма можно использовать разные точные алгоритмы, для простоты выбран метод Гаусса.

ERORR REDUCTION - операция коррекции ошибки. Используя рассчитанные значения из первой части метода по огрублению исходной матрицы и рассчитанные на предшествующей операции значения результата, производится коррекция за счет суммирования величин. Математическое представление описанной операции соответствует формуле (4).

U1(n-1)=U0(n-1)+U(n-1). (4)

Анализ вычислительной структуры задачи решения СЛАУ многосеточным методом. Проведенный анализ показал, что в реализуемой вычислительной структуре можно выделить несколько основных операций: матричное умножение, матричное сложение, умножение матрицы на скаляр. Для перехода к оценке ресурса на эти операции необходимо уточнить такое понятие как «разреженная матрица». В данном примере для сверхбольшой матрицы порядка 10 в каждой строке количество ненулевых элементов не должно превышать 10-ти, то есть разреженность матрицы составляет 0.0001 %.

Рассмотрим на примере наиболее трудоемкой операции умножение матрицы на матрицу, каждая из которых является разреженной, структуру вычислительного конвейера, которая представлена на рис. 3

Рис. 3. Вычислительная структура операции умножения разреженных матриц

Для реализации представленной структуры вычислительного конвейера операции умножения разреженных матриц необходимо учитывать следующие характеристики вычислительной системы: пропускную способность данных между памятью, хранящей СЛАУ, и вычислительными конвейерами и количество вычислительного ресурса системы. Подсчитаем необходимые ресурсы на базе ПЛИС XCKU095 фирмы Xilinx. Данные об этой микросхеме представлены в табл. 1.

Таблица 1

Расчет критического ресурса при полном заполнении ПЛИС XCKU095,

реализация операции умножения матриц

Типы операций Ресурс

FF LUT DSP BRAM GTH/GTY 100G Ethernet

Сложение 575 362 0 0 - -

Умножение 164 90 2 0 - -

Базовый конвейер 9198 5698 14 14 2 х 17.6 Гб/с

XCKU095 1075200 537600 768 3456 521.6 Гб/с 400 Гб/с

Коэффициент 116 94 54 246 51

Проведем анализ производительности для операции умножения разреженных матриц. Исходя из максимальной пропускной способности микросхемы XCKU095 Xilinx в общей сумме портов GTH и 100G Ethernet, составляющей 921.6 Гб/с, можно вычислить коэффициент распараллеливания по строкам, посчитав пропускную способность одного конвейера. В соответствии со структурной схемой для множимой матрицы достаточно одного порта с пропускной способностью в 17.6 Гб/с, в то время как остальные порты будут заняты на подачу матрицы множителя. Таким образом, мы можем распараллелить систему на 51 поток. Определим длину одной вычислительной линии по допустимому количеству ресурса, исходя из коэффициента распараллеливания по строкам, разделив общий ресурс ПЛИС на выведенный коэффициент распараллеливания по строкам. Критическим ресурсом будет DSP блок, максимальное число блоков в каждой линии будет равняться 7-ми.

Исходя из разработанной вычислительной структуры, работая на частоте 500 МГц, производительность одной линии вычислительного конвейера будет составлять 10.5 Гфлопс в соответствии с вычислительной структурой, в то время как полностью заполненный кристалл сможет достичь производительности в 535.5 Гфлопс. За счет масштабирования можно предположить, что у РВС «Терциус-2», построенной на базе восьми программируемых логических интегральных схем Kintex UltraScale XCKU095 производства фирмы Xilinx, производительность составит порядка 4.284 Тфлопс [7].

Был проведен анализ вычислительных средств, реализующих операцию умножения разреженных матриц сверхбольшой размерности [8]. Вычислительная система на основе процессора Intel core i7-4770K (4 cores, 3.5 GHz, 8MB L3 cache, 16GB DDR3-1600) и графического ускорителя GeForce GTX TITAN [17] (14 Kepler SMs, 192 cores/MP, 6 GB Global Memory, 876MHz, 1.5 MB L2 cache, ECC off) [13] показала производительность 1,1 Гфлопс на примере матрицы [11, 12].

Заключение. В работе была показана возможность реализации эффективной вычислительной структуры, выполняющей операцию решения разреженной СЛАУ многосеточным методом на РВС. Сравнительный анализ использования разных вычислительных систем для решения задачи перемножения разреженных матриц, размерность которых соответствует порядку 107, показал многократное превосходство использования РВС над многопроцессорными вычислительными системами (МВС) с использованием графического ускорителя последнего поколения в качестве сопроцессора для повышения производительности на несколько порядков.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Тихонов А.Н., Самарский А.А. Уравнения математической физики. - М.: Изд-во Московского университета, 1999. - 6-е изд. - 798 с. Научная библиотека диссертаций и авторефератов disserCat. - http://www.dissercat.com/content/razrabotka-i-issledovanie-ekonomichnykh-algoritmov-resheniya-setochnykh-zadach-na-klastere-r#ixzz5WvO2qG2e (дата обращения: 23.11.2018).

2. Сухинов А.И., Чистяков А.Е., Проценко Е.А. Математическое моделирование транспорта наносов в прибрежных водных системах на многопроцессорной вычислительной системе // Вычислительные методы и программирование. - 2014. - Т. 15. - С. 610-620.

3. Сухинов А.И., Никитина А. В., Чистяков А.Е., Семенов И.С. Математическое моделирование условий формирования заморов в мелководных водоемах на многопроцессорной вычислительной системе // Вычислительные методы и программирование. - 2013.

- Т. 14:1. - С. 103-112.

4. Сударева О.Ю. Встречная оптимизация класса задач трехмерного моделирования для архитектур многоядерных процессов // На правах рукописи. - 2018. - С. 101-118.

- http://www.ispras.ru/dcouncil/docs/diss/2018/sudareva/dissertacija-sudareva.pdf (дата обращения: 23.11.2018).

5. Самарский А.А. Введение в теорию разностных схем. - М.: Наука, 1971. - 552 с. Научная библиотека диссертаций и авторефератов disserCat. - http://www.dissercat.com/ content/razrabotka-i-issledovanie-ekonomichnykh-algoritmov-resheniya-setochnykh-zadach-na-klastere-r#ixzz5WvOBEVuA (дата обращения: 23.11.2018).

6. Подопригора А.В., Чекина М.Д. Решение больших и сверхбольших разреженных СЛАУ на реконфигурируемых вычислительных системах // Суперкомпьютерные технологии (СКТ-2018): Материалы 5-ой Всероссийской научно-технической конференции: в 2 т. (17-22 сентября 2018 г.). - Ростов-на-Дону: Изд-во ЮФУ, 2018. - С. 201.

8. Максимов Д.Ю., Филатов М.А. Исследование нелинейных многосеточных методов решения задач однофазной фильтрации // Препринты ИПМ им. М.В. Келдыша. - 2011. - № 43. - 26 с.

- URL: http://library.keldysh.ru/preprint.asp?id=2011-43 (дата обращения: 12.10.2017).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Жуков В.Т., Новикова Н.Д., Феодоритова О.Б. Параллельный многосеточный метод для разностных эллиптических уравнений. Ч. I. Основные элементы алгоритма // Препринты ИПМ им. М.В. Келдыша. - 2012. - № 30. - 32 с.

10. Жуков В.Т., Новикова Н.Д., Феодоритова О.Б. Параллельный многосеточный метод для разностных эллиптических уравнений. Ч. II // Препринты ИПМ им. М.В. Келдыша.

- 2012. - № 30. - URL: http://www.keldysh.ru/papers/2012/prep2012_30.pdf (дата обращения: 23.11.2018).

11. База разреженных матриц. Матрица группы Williams - webbase-1M. by Tim Davis, last updated 12-Mar-2014. - https://www.cise.ufl.edu/research/sparse/matrices/Williams/webbase-1M.html (дата обращения: 10.11.2018).

12. Kunchum R. On Improving Sparse Matrix-Matrix Multiplication on GPUs (Thesis). The Ohio State University. - 2017. - P. 36-42 - https://etd.ohiolink.edu/ietd.send_file? acces-sion=osu1492694387445938&disposition=inline.

- https://www.nvidia.com/ru-ru/titan/titan-v/ (дата обращения: 10.11.2018).

14. Дордопуло А.И. Каляев И.А., Левин И.И., Семерников Е.А. Семейство многопроцессорных вычислительных систем с динамически перестраиваемой архитектурой // Многопроцессорные вычислительные и управляющие системы: Материалы научно-технической конференции. - Таганрог, 2007. - С. 11 -17.

15. Каляев И.А., Левин И.И., Семерников Е.А., Дордопуло А.И. Реконфигурируемые вычислительные системы на основе ПЛИС семейства VIRTEX-6 // Параллельные вычислительные технологии (ПАВТ'2011): Труды международной научной конференции.

- 2011. - С. 203-211.

16. Максимов Д.Ю., Филатов М.А. Исследование нелинейных многосеточных методов решения задач однофазной фильтрации // Препринты ИПМ им. М. В. Келдыша. - 2011.

- № 43. - 26 с. - URL: http://library.keldysh.ru/preprint.asp?id=2011-43 (дата обращения: 9.10.2018).

17. Параллельные вычисления CUDA / NVIDIA Corporation. - 2018. - URL: http://www.nvidia.ru/ object/cuda-parallel-computing-ru.html (дата обращения: 10.11.2018).

18. Суперкомпьютер RoadRunner. Лаборатория Параллельных информационных технологий НИВЦ МГУ. - 2008. - URL: http://parallel.ru/computers/reviews/RoadRunner.html (дата обращения: 25.08.2017).

19. Васильев Ю.В. Ольшанский М.А. Краткий курс по многосеточным методам и методам декомпозиции области. - М., 2007.

20. Федоренко Р.П. Релаксационный метод решения разностных эллиптических уравнений // Вычислительной математики и математической физики. - 1961. - Т. 1, № 5. - C. 922-927.

21. Копченова Н.В., Марон И.А. Вычислительная математика в примерах и задачах. - М.: Наука, 1972. - 367 с.

REFERENCES

1. Tikhonov A.N., Samarskiy A.A. Uravneniya matematicheskoy fiziki [Mathematical physics equations]. Moscow: Izd-vo Moskovskogo universiteta, 1999. 6 ed. 798 p. Science library dissertation and abstracts disserCat. Available at: http://www.dissercat.com/content/razrabotka-i-issledovanie-ekonomichnykh-algoritmov-resheniya-setochnykh-zadach-na-klastere-r#ixzz5WvO2qG2e (accessed 23 November 2018).

2. Sukhinov A.I., Chistyakov A.E., Protsenko E.A. Matematicheskoe modelirovanie transporta nanosov v pribrezhnykh vodnykh sistemakh na mnogoprotsessornoy vychislitel'noy sisteme [Mathematical modeling of sediment transport in coastal water systems by multiprocessor computing system], Vychislitel'nye metody i programmirovanie [Computational methods and programming], 2014, Vol. 15, pp. 610-620.

3. Sukhinov A.I., Nikitina A. V., Chistyakov A.E., Semenov I.S. Matematicheskoe modelirovanie usloviy formirovaniya zamorov v melkovodnykh vodoemakh na mnogoprotsessornoy vychislitel'noy sisteme [Mathematical modeling of the formation pestilence in shallow waters by a Multiprocessor Computing System], Vychislitel'nye metody iprogrammirovanie [Computational methods and programming], 2013, Vol. 14:1, pp. 103-112.

4. Sudareva O.Yu. Vstrechnaya optimizatsiya klassa zadach trekhmernogo modelirovaniya dlya arkhitektur mnogoyadernykh protsessov [Counter-optimization of the class of three-dimensional modeling problems for multi-core process architectures], Na pravakh rukopisi [Manuscript], 2018, pp. 101-118. Available at: http://www.ispras.ru/dcouncil/docs/diss/ 2018/sudareva/dissertacija-sudareva.pdf (accessed 23 November 2018).

5. Samarskiy A.A. Vvedenie v teoriyu raznostnykh skhem [Introduction to the theory of difference schemes]. Moscow: Nauka, 1971, 552 p. Scientific library of dissertations and abstracts disserCat. Available at: http://www.dissercat.com/content/razrabotka-i-issledovanie-ekonomichnykh-algoritmov-resheniya-setochnykh-zadach-na-klastere-r#ixzz5WvOBEVuA (accessed 23 November 2018).

6. Podoprigora A.V., Chekina M.D. Reshenie bol'shikh i sverkhbol'shikh razrezhennykh SLAU na rekonfiguriruemykh vychislitel'nykh sistemakh [Multigrid method to solve sparse large and extralarge slae y reconfigurable compute system], Superkomp'yuternye tekhnologii (SKT-2018): Materialy 5-oy Vserossiyskoy nauchno-tekhnicheskoy konferentsii [Super computers technology (SKT-2018): files of 5-s all-Russian science-technology conference: v 2 t. (17-22 september 2018 g.)]: in 2 vol. (17-22 September 2018). Rostov-on-Don: Izd-vo YuFU, 2018, pp. 201.

7. NITS SE i NK. Tertsius-2. © Copyright 2004-2018. OOO "NITS super-EVM i neyrokomp'yuterov" [SRC SC & NC. Tertsius-2. © Copyright 2004-2018. OOO "Supercomputers and Neurocomputers Research Center"]. Available at: http://superevm.ru/ in-dex.php?page=tertsius-2 (accessed 10 November 2018).

8. MaksimovD.Yu., FilatovM.A. Issledovanie nelineynykh mnogosetochnykh metodov resheniya zadach odnofaznoy fil'tratsii [Investigation of nonlinear multigrid methods for solving singlephase filtration problems], Preprinty IPM im. M.V. Keldysha [Preprints of IPM name M.V. Keldysh], 2011, No. 43, 26 p. Available at: http://library.keldysh.ru/ pre-print.asp?id=2011-43 (accessed 12 October 2017).

9. Zhukov V.T., Novikova N.D., Feodoritova O.B. Parallel'nyy mnogosetochnyy metod dlya raznostnykh ellipticheskikh uravneniy. Ch. I. Osnovnye elementy algoritma [Parallel multigrid method for difference elliptic equations. Part I. The main elements of the algorithm], Preprinty IPM im. M. V. Keldysha [Preprints of IPM name M.V. Keldysh], 2012, No. 30, 32 p.

10. Zhukov V.T., Novikova N.D., Feodoritova O.B. Parallel'nyy mnogosetochnyy metod dlya raznostnykh ellipticheskikh uravneniy [Parallel multigrid method for difference elliptic equations]. Part II. Preprinty IPM im. M.V. Keldysha [Preprints of IPM name M.V. Keldysh], 2012, No. 30. Available at: http://www.keldysh.ru/papers/2012/prep2012_30.pdf (accessed 23 November 2018).

11. Baza razrezhennykh matrits. Matritsa gruppy Williams - webbase-1M. by Tim Davis, last updated 12-Mar-2014 [Base of sparse matrices. Group matrix Williams - webbase-1M. by Tim Davis, last updated 12-Mar-2014]. Available at: https://www.cise.ufl.edu/research/ sparse/matrices/Williams/webbase-1M.html (accessed 10 November 2018).

12. Kunchum R. On Improving Sparse Matrix-Matrix Multiplication on GPUs (Thesis). The Ohio State University, 2017, pp. 36-42 Available at: https://etd.ohiolink.edu/ietd.send_file? acces-sion=osu1492694387445938&disposition=inline.

14. Dordopulo A.I. Kalyaev I.A., Levin I.I., Semernikov E.A. Semeystvo mnogoprotsessornykh vychislitel'nykh sistem s dinamicheski perestraivaemoy arkhitekturoy [Family of multiprocessor computing systems with dynamically tunable architecture], Mnogoprotsessornye vychislitel'nye i upravlyayushchie sistemy: Materialy nauchno-tekhnicheskoy konferentsii [Multiprocessor computing and control systems: Materials of scientific and technical conference]. Taganrog, 2007, pp. 11-17.

15. Kalyaev I.A., Levin I.I., Semernikov E.A., Dordopulo A.I. Rekonfiguriruemye vychislitel'nye sistemy na osnove PLIS semeystva VIRTEX-6 [Reconfigurable computer systems based on the FPGA of the VIRTEX-6 family], Parallel'nye vychislitel'nye tekhnologii (PAVT'2011): Trudy mezhdunarodnoy nauchnoy konferentsii [Parallel computing technologies (PAVT'2011): Proceedings of the international scientific conference], 2011, pp. 203-211.

16. MaksimovD.Yu., FilatovM.A. Issledovanie nelineynykh mnogosetochnykh metodov resheniya zadach odnofaznoy fil'tratsii [Study of nonlinear multigrid methods for solving single-phase filtration problems], Preprinty IPMim. M. V. Keldysha [Preprints of IPM name M.V. Keldysh], 2011, NO. 43, 26 p. Available at: http://library.keldysh.ru/preprint.asp?id=2011-43 (accessed 09 October 2017).

17. Parallel'nye vychisleniya CUDA / NVIDIA Corporation [Parallel computing CUDA / NVIDIA Corporation], 2018. Available at: http://www.nvidia.ru/object/cuda-parallel-computing-ru.html (accessed 10 November 2018).

18. Superkomp'yuter RoadRunner. Laboratoriya Parallel'nykh informatsionnykh tekhnologiy NIVTS MGU [RoadRunner supercomputer. Laboratory of Parallel Information Technologies NIVTs MSU], 2008. Available at: http://parallel.ru/computers/reviews/RoadRunner.html (accessed 25 August 2017).

19. Vasil'ev Yu.V. Ol'shanskiy M.A. Kratkiy kurs po mnogosetochnym metodam i metodam dekompozitsii oblasti [Short course on multigrid methods and methods of region decomposition]. Moscow, 2007.

20. Fedorenko R.P. Relaksatsionnyy metod resheniya raznostnykh ellipticheskikh uravneniy [Relaxation method for solving difference elliptic equations], Vychislitel'noy matematiki i matematicheskoyfiziki [Computational Mathematics and Mathematical Physics], 1961, Vol. 1, No. 5, pp. 922-927.

21. Kopchenova N.V., Maron I.A. Vychislitel'naya matematika v primerakh i zadachakh [Computational Mathematics in Examples and Tasks]. Moscow: Nauka, 1972, 367 p.

Статью рекомендовал к опубликованию д.т.н. Э.В. Мельник.

Подопригора Александр Владимирович - ООО "НИЦ супер-ЭВМ и нейрокомпьютеров";

e-mail: podoprigora@superevm.ru; 347900, г. Таганрог, пер. Итальянский, 106; тел.:

+78634612111; конструктор.

Чекина Мария Дмитриевна - e-mail: elfik55@gmail.com; программист.

Podoprigora Alexander Vladimirovich - Supercomputers and Neurocomputers Research Center; e-mail: podoprigora@superevm.ru; 106, Italyansky lane, Taganrog, 347900, Russia; phone:

+78634612111; designer.

Chekina Maria Dmitrievna - e-mail: elfik55@gmail.com; programmer.

УДК 004.382.2 Б01 10.23683/2311-3103-2018-8-221-230

И.И. Левин, К.Н. Алексеев

РЕАЛИЗАЦИЯ ОБРАТНОЙ КИНЕМАТИЧЕСКОЙ ЗАДАЧИ СЕЙСМОРАЗВЕДКИ ДЛЯ МИКРОСЕЙСМИЧЕСКОГО МОНИТОРИНГА НА РЕКОНФИГУРИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ В РЕАЛЬНОМ МАСШТАБЕ ВРЕМЕНИ

Рассмотрена возможность построения цифровых моделей месторождений углеводородов в режиме реального времени на основании данных «пассивного» микросейсмического мониторинга. Обработка первичной сейсмической информации на многопроцессорных вычислительных системах традиционной архитектуры в режиме реального времени невозможна ввиду большого объема обрабатываемых данных, сложности в организации хранения промежуточных результатов и трудоемкости выполняемых операций. Существует иная парадигма организации вычислительного процесса при решении трудоемких

Решение разреженных СЛАУ большой и сверхбольшой размерности многосеточным методом на РВС Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Подопригора Александр Владимирович, Чекина Мария Дмитриевна

Похожие темы научных работ по математике , автор научной работы — Подопригора Александр Владимирович, Чекина Мария Дмитриевна

MULTIGRID METHOD TO SOLVE SPARSE LARGE AND EXTRA-LARGE SLAE bY RECONFIGURABLE COMPUTing SYSTEM

Текст научной работы на тему «Решение разреженных СЛАУ большой и сверхбольшой размерности многосеточным методом на РВС»