Вычислительные технологии
Том 12, Специальный выпуск 4, 2007
ОРГАНИЗАЦИОННОЕ И ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛЕНИЙ В ИВТ СО РАН
Ю.И. Шокин, М.П. Федорук, Д. Л. Чубаров, А. В. Юрченко Институт вычислительных технологий СО РАН, Новосибирск, Россия e-mail: [email protected], [email protected], [email protected], [email protected]
We present an overview of the current state of high performance computational resources in the Institute of Computational Technologies and their future prospects. There are several ongoing projects using parallel and high performance computations to develop faster codes, improve the accuracy of the models and their level of detal-ization. At the same time the Institute has an ongoing effort to educate the users and to introduce a new high performance computational technologies for research in the Institute and other research organizations of the Siberian region.
Введение
В процессе решения широкого круга актуальных прикладных и фундаментальных научных задач возникает потребность в применении высокопроизводительной вычислительной техники. Одними из актуальных направлений, требующих высокопроизводительных вычислений, являются математическое и численное моделирование, криптография и криптоанализ, задачи обработки статистических данных и др. Их потребности стали мощным стимулом для создания больших многопроцессорных вычислительных систем.
В Институте вычислительных технологий (ИВТ) СО РАН давно назрела необходимость проведения расчетов на высокопроизводительных вычислительных системах. Такие системы значительно расширяют возможности исследователей, позволяя использовать более сложные вычислительные модели и алгоритмы, существенно сокращать характерные времена решения задач, повышать точность и детальность расчетов. Задачи, решаемые сотрудниками института, разрабатываемые и применяемые при этом математические модели, численные методы и алгоритмы требуют вычислительных ресурсов, которые не покрываются мощностями самых современных рабочих станций.
Обеспечение научного и инженерного персонала высокопроизводительными вычислительными ресурсами, разработка, внедрение и регулярное обновление ресурсной базы являются важными направлениями деятельности соответствующих подразделений
© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2007.
академических и отраслевых исследовательских институтов. Эти задачи не могут ограничиваться лишь установкой и администрированием вычислительных комплексов. Эффективное использование современной вычислительной техники возможно только при грамотном сопровождении и при наличии соответствующей квалификации как у обслуживающего персонала, так и у пользователей,
В данной статье описываются текущее состояние вычислительных ресурсов общего пользования ИВТ СО РАН, некоторые задачи, для решения которых в институте применяются многопроцессорные вычислительные системы, усилия, предпринимаемые для повышения квалификации сотрудников в направлении использования высокопроизводительных вычислительных систем в научно-исследовательской деятельности, а также ближайшие перспективы развития института по этим направлениям,
1. Вычислительные ресурсы
В ИВТ СО РАН создаются условия, позволяющие сотрудникам осваивать новые технологии по применению высокопроизводительных вычислительных систем в их научно-исследовательской деятельности. Для этого, в частности, развиваются связи с крупными вычислительными центрами в России и за рубежом, что позволяет, с одной стороны, использовать имеющиеся в этих вычислительных центрах высокопроизводительные комплексы, а с другой — обмениваться опытом, получать консультации квалифицированных специалистов в области высокопроизводительных и параллельных вычислений, совместно решать сложные вычислительные задачи. Крупные вычислительные центры располагают вычислительными ресурсами, покрывающими текущие потребности большинства пользователей. Высокая степень централизации ресурсов позволяет оптимизировать затраты на обслуживание компьютерной техники, эффективно использовать имеющееся программное обеспечение. Сотрудники ИВТ СО РАН пользуются вычислительными ресурсами, предоставляемыми МСЦ РАН, ССКЦ СО РАН, I П.НЯ (Штутгарт, Германия), а также университетскими ресурсами, такими как ВЦ ЮУрГУ и др.
Для решения не слишком ресурсоемких задач эффективно использовать системы с более оперативным доступом, чем системы общего пользования больших вычислительных центров, К задачам, для решения которых крайне желателен интерактивный доступ к вычислительному комплексу, относятся, в частности, задачи отладки, анализа производительности и усовершенствования кода параллельных алгоритмов. Кроме того, важный фактор для успешности изучения, освоения и повышения эффективности применения новых вычислительных технологий и систем — это оперативность взаимодействия рядовых пользователей со специалистами и системными администраторами, особенно в случае систем с коллективным доступом. Здесь в полной мере проявляются преимущества собственного вычислительного комплекса — близость к пользователям (как самого комплекса, так и его администраторов), как следствие, наличие возможностей для быстрого и гибкого реагирования на изменяющиеся потребности пользователей, оперативное консультирование и организация практических учебных курсов.
Развитие собственных вычислительных ресурсов ИВТ СО РАН осуществляется исходя из необходимости решения таких задач, как обеспечение сотрудников возможностью экспериментировать с написанием новых параллельных программ и распараллеливанием существующих, в том числе выполнять отладку и анализ производительности параллельного кода. При этом учитывается, что пользователям, возможно, придется
98
ДО. И. Шокш 1, М. П. Фадорук, Д. Л. Чубаров, А. В. Юрчеико
проводить основные расчеты па удаленных вычислительных комплексах с различной архитектурой, построенных па различных платформах, поэтому локальный вычислительный комплекс должен интегрировать ресурсы с различными типами параллелизма, в частности, позволяя реализовывать модели как с общей, так и с распределенной памятью, а также различные гибридные архитектуры.
В 2004 I'. в институте был установлен и введен в эксплуатацию собственный вычислительный комплекс (ARBYTE/8), Комплекс имеет один управляющий и четыре вычислительных узла, которые объединены сетью стандарта IEEE 802.3ab (Gigabit Ethernet) па основе неуправляемого коммутатора 3Com ЗС17401. Узлы построены на базе платформы Intel SE7501 и оснащены процессорами Pentium 4 Xeon с тактовой частотой 3.06 ГГц и оперативной памятью объемом 2Гбайта, Управляющий узел соединен с локальной сетью института каналом Fast Ethernet (100 Мбит/с). Таким образом, вычислительная часть комплекса имеет восемь процессоров, и ее пиковая производительность составляет приблизительно 49 Гфлопс. Реальная производительность вычислительной системы, по результатам тестов на пакете LIXPACK, составляет более 30Гфлопс, т.е. эффективность комплекса достигает 62.5 % и более.
На рис. 1 представлены результаты измерения производительности кластера па пакете LIXPACK в случае, когда па узел приходится один процесс MPI (слева) и когда на узле запускается два процесса MPI (справа). Запуск двух процессов MPI па одном SMP-узле не самый эффективный способ задействования всех процессоров этого кластера из-за особенностей SMP-архитектуры в реализации Intel. Одно из последствий — нестабильность такой характеристики, как время счета (и, как следствие, производительность комплекса) в зависимости от числа блоков, па которое разбивается матрица (ХВ), и топологии этого разбиения. Более эффективного использования данного вычислительного комплекса можно добиться с помощью гибридной иараллелизации алгоритмов с применением MPI для межузловых коммуникаций и ОрепМР для распараллеливания внутри вычислительных узлов.
В 2006 I'. вычислительные ресурсы ИВТ СО РАН пополнились новым вычислительным кластером гибридной архитектуры (ТУМАН/28), состоящим из семи двухпроцессорных вычислительных узлов на платформе Tyan Transport GT24, укомплектованных двухъядериыми процессорами AMD Opteron 280 и 4 Гбайт оперативной памяти. Также
GFlops
16000 14000 12000 0000
GFlops
cl: 4 CPUs
cl: 8 CPUs
30000
Рис. 1. Измерение производительности кластера ARBYTE/8 с помощью пакета UNPACK
был закуплен многофункциональный восьмипроцессорный сервер (MIST) на платформе Tyan VX50 с двухъядерными процессорами AMD Opteron 880 и 32 Гбайт оперативной памяти. Таким образом, к имевшемуся в институте комплексу, состоящему из узлов с традиционной SMP-архитектурой Intel, добавились системы с неоднородной архитектурой памяти (NUMA) на базе AMD, Наличие в оперативном доступе систем с различными архитектурами позволяет инициировать исследования по архитектурно-ориентированной оптимизации алгоритмов, что является одним из наиболее актуальных направлений деятельности подразделений, обеспечивающих высокопроизводительные вычисления.
Имеющиеся в I IB Г СО РАН вычислительные модули интегрируются в единую систему (рис, 2), где MIST (цифра "1" на схеме) выступает в качестве управляющего узла, сервера подготовки и обработки расчетных данных, их визуализации, а также как сервер nfs для доступа всех вычислительных модулей к системе хранения данных HP MSA-1500 (цифра "4"), к которой MIST подключается через высокоскоростной (4Гбит/с) оптический интерфейс (hba). Кластер ARBYTE/8 дополняется узлом, освобождающимся от функций управляющего, и переименовывается в ARBYTE/10 (цифра "3"), Все вычислительные модули — MIST, ARBYTE/10 и ТУМАН/28 (цифра "2") — объединяются сетью Gigabit Ethernet (цифра "5"), Кроме того, в новом кластере ТУМАН/28 планируется отделить трафик MPI от управляющего и nfs-трафика, для чего будут задействованы дополнительные Gigabit Ethernet адаптеры, интегрированные в платформу. Комплекс соединяется через управляющий узел 1 с локальной сетью института (цифра "6") каналом Fast или Gigabit Ethernet,
Общая пиковая производительность вычислительных ресурсов I IB Г СО РАН составляет более 270Гфлопс, из них порядка бОГфлопс приходится на ARBYTE/10, 135Гфлопс — на ТУМАН/28 и 75Гфлопс — на MIST, В настоящее время новые вычислительные модули находятся в опытной эксплуатации, В частности, выполнено тестирование производительности сервера MIST с помощью пакета LINPACK (рис, 3), Тестирование показало, что при MPI-распараллеливании на архитектуре NUMA от AMD вычисленная производительность системы существенно меньше зависит от числа блоков NB и в этой зависимости нет характерных для гибридной архитектуры с SMP-узлами скачкообразных изменений. Эффективность системы MIST на данных тестах превышает 83%, что практически недостижимо для систем кластерной архитектуры,
Рис. 2. Схема вычислительного комплекса ИВТ СО РАН
100
ДО. И. Шохин, М. 17. Фадорук, Д. Л. Чубаров, А. Б. Юрчеико
Рис. 3. Измерение производительности сервера MIST с помощью пакета UNPACK
использующих в качестве иптеркоппекта GigE и даже Infiniband. Конечно, это лишь предварительные результаты, требующие дальнейших, более подробных исследований.
2. Применение многопроцессорных вычислительных систем в научно-исследовательской деятельности
Первый опыт использования установленного в институте вычислительного комплекса ARBYTE/8 связан с проведением параметрических расчетов па последовательных задачах. По мере повышения квалификации пользователей появились параллельные реализации и версии расчетных программ. Наличие собственного вычислительного комплекса стимулировало создание среды для обмена повседневным опытом работы и совместного решения однотипных технических задач использования многопроцессорной вычислительной техники. Накопленный опыт реализуется в конкретных проектах, выполняемых сотрудниками института, а комплекс используется как для проведения относительно ресурсоемких, но не требующих суперкомпыотерных мощностей расчетов, так и для создания, отладки и анализа производительности параллельных программ.
Один из первых реализованных в институте проектов, использующих параллельные вычисления на современной вычислительной технике, — это численное моделирование процесса раскрытия подушек безопасности, применяемых в автомобилестроении. С помощью специалистов из Центра высокопроизводительных вычислений (HLRS — The High Performance Computing Center in Stuttgart, Germany) выполнена параллельная реализация алгоритма решения уравнений, а расчеты проведены в основном на ресурсах HLRS [1|.
После установки кластера ARBYTE/8 в 2004 г. коллективом научных сотрудников института разработан комплекс программ для оптимизации формы рабочего колеса гидротурбин [2|, Для решения задачи мпогопараметрической оптимизации был применен многоцелевой генетический алгоритм, для которого разработана параллельная реализация, предназначенная для работы на вычислительном комплексе с распределенной памятью. Благодаря использованию институтского многопроцессорного вычислительного комплекса ARBYTE/8 время расчета сократилось с 3-5 сут. до 17-22 ч при том же уровне точности и детализации.
а б
Рис. 4. Ускорение, полученное на кластере ИВТ (а) и на кластере НБРЭ (б).
Важный класс задач, для решения которых применяются многопроцессорные системы, — это задачи криптографии и криптоанализа [3, 4]. Процедуры проверки статистических свойств криптографических генераторов и эффективности различных видов криптографических атак весьма трудоемки и требуют больших объемов вычислений на системах с большими объемами оперативной памяти. При этом такие процедуры достаточно эффективно распараллеливаются. Применение многопроцессорных систем на этом классе задач позволяет существенно сократить время выполнения соответствующих процедур.
Многопроцессорные вычислительные комплексы активно используются в ИВТ СО РАН при решении задач нелинейной оптики, связанных с моделированием и оптимизацией высокоскоростных оптоволоконных линий связи [5, 6]. Первоначально это были параметрические расчеты с использованием последовательного кода, но переход к более сложным моделям потребовал начать работу по созданию параллельных алгоритмов. В результате был реализован основанный на декомпозиции областей параллельный алгоритм решения нестационарных уравнений Максвелла методом конечных объемов [7]. Эксперименты показали хорошее ускорение при использовании институтского кластера ЛНВУТК 8. а тестовые расчеты, выполненные на кластере в III.НЯ. позволили установить, что ускорение сохраняется и при дальнейшем увеличении числа используемых процессоров (рис. 4). Это демонстрирует хорошую масштабируемость алгоритма и перспективность его применения на высокопроизводительных вычислительных комплексах.
3. Мероприятия, направленные на освоение
высокопроизводительной вычислительной техники
Одним из препятствий на пути перехода к применению высокопроизводительных многопроцессорных вычислительных систем является отсутствие или недостаток опыта параллельного программирования и навыков работы с системами коллективного пользования. Для создания и поддержания квалификации научных сотрудников и инженеров, использующих новую вычислительную технику и современные вычислительные средства, на уровне, необходимом для ее эффективного применения, желательно наличие
102
К). If. Шокшн, М. П. Федорук, Д. Л. Чубаров, А. В. Юрченко
централизованных образовательных программ и специализированных курсов, В этом направлении деятельность I IB Г СО РАН развивается достаточно успешно, чему в немалой степени способствует тесное сотрудничество с III.HS.
Институтом вычислительных технологий СО РАН, с одной стороны, и HLRS, с другой стороны, создан Российско-германский центр вычислительных технологий и высокопроизводительных вычислений. Среди основных задач центра обозначены организация и проведение ежегодных совещаний Российско-германской рабочей группы по вычислительным и информационным технологиям и ежегодных Российско-германских школ по параллельным вычислениям на высокопроизводительных вычислительных системах, Среди основных целей совещаний рабочей группы стоит назвать организацию взаимодействия сотрудников института и их коллег из Германии, поиск возможностей и разработку совместных проектов, связанных с высокопроизводительными вычислениями, обмен опытом по решению актуальных задач математического и численного моделирования, криптографии и криптоанализа, оптимизации сложных систем. Основными задачами школы являются подготовка специалистов в области высокопроизводительных вычислений и параллельного программирования и повышение их квалификации. Школа по параллельному программированию ориентирована, в первую очередь, на молодых сотрудников институтов СО РАН, однако география участников школы выходит далеко за пределы Сибирского федерального округа. Школа является мощным инструментом для развития высокопроизводительных вычислений как в IIIП СО РАН, так и в других научно-исследовательских институтах и вузах, направляющих своих сотрудников для участия в школе. Слушатели школы получают базовые представления об особенностях современных высокопроизводительных систем, знания и навыки по параллельному программированию на многопроцессорных системах с распределенной и общей памятью, а также на гибридных вычислительных комплексах, о методах создания параллельных программ с использованием MPI и ОрепМР, Лекции и практические занятия в школе проводят квалифицированные специалисты из HLRS и IIIП СО РАН, имеющие богатый опыт как в создании параллельных программ и использовании суперкомпьютеров, так и в разработке новых стандартов для параллельного программирования и сопутствующего программного инструментария.
Программа школы ежегодно обновляется с целью обеспечения слушателей наиболее актуальной информацией по высокопроизводительным вычислениям, обучения их использованию самых современных методик и средств разработки параллельных алгоритмов и программ. Поэтому участники предыдущих школ часто становятся слушателями последующих, В 2007 г, проведена четвертая школа по параллельным вычислениям, В программу школы включены теоретические и практические занятия по технологиям MPI, MPI-2 и ОрепМР, способам и средствам отладки и анализа производительности параллельных программ Intel Thread Checker и Valgrind, методам распараллеливания в научных задачах (метод декомпозиции областей, распараллеливание явных разностных схем). Особое внимание было уделено вопросам оптимизации как параллельных, так и последовательных программ. Кроме того, сделан обзор библиотеки OpenMPI, разрабатываемой в HLRS совместно с Ливерморской национальной лабораторией (США) при поддержке Cisco Systems и Sun Microsystems, прочитана лекция по композиции вычислительных моделей в грид-средах — одному из актуальных направлений развития высокопроизводительных вычислений и соответствующих сервисов.
Проведение в IIIП СО РАН ежегодной Российско-германской школы по параллельным вычислениям стало существенным стимулом для освоения сотрудниками пне гиту-
та, особенно молодыми, параллельного программирования. Взаимный обмен опытом, совместное разрешение проблем по применению высокопроизводительных вычислений, возникавших в исследовательской деятельности слушателей школы, образование новых связей между представителями различных научных центров и институтов формируют своеобразный распределенный коллектив специалистов по параллельному программированию и высокопроизводительным вычислениям, который состоит в основном из молодых научных сотрудников и администраторов вычислительных ресурсов.
Заключение
В настоящий момент можно констатировать, что в I IB Г СО РАН происходит активное освоение современных многопроцессорных вычислительных систем, внедрение технологий параллельного программирования в решение задач математического и численного моделирования, криптографии и криптоанализа, задач оптимизации сложных систем, Этому способствуют активные связи института с крупными вычислительными центрами, наличие собственных многопроцессорных вычислительных комплексов, широкая образовательная деятельность в данном направлении. Особенно активно в процессы освоения современных вычислительных средств включаются молодые научные сотрудники. Все это открывает широкие перспективы для расширения областей применения высокопроизводительных вычислений в институте, их внедрения в процессы решения новых прикладных и фундаментальных научных задач, стоящих перед институтом и его коллективом, что, в свою очередь, позволит повысить эффективность научно-исследовательской деятельности в IIIП СО РАН,
Список литературы
fl] Rychkov A.D., Shokina N., Boenisch Т. et al. Parallel numerical modelling of gas-dynamic processes in airbag combustion chamber // Proc. 2nd Russian-German Workshop, Stuttgart, Germany. 2005. P. 29-39.
[2] JIobapeba И.Ф., Черный С.Г., Чирков Д.В. и др. Многоцелевая оптимизация формы лопасти гидротурбины // Вычисл. технологии. 2006. Т. 11, № 5. С. 63-76.
[3] Ryabko В., Monarev V., Shokin Yu. A new type of attacks on block ciphers // Problems of Information Transmission. 2005. Vol. 41, N 4. P. 385-394.
[4] Ryabko B.Ya., Monarev V.A. Using information theory approach to randomness testing // J. of Statistical Planning and Inference. 2005. Vol. 133, N 1. P. 95-110.
[5] Штырина О.В., Турицын С.К., Федорук М.П. Исследование волоконно-оптических линий связи с оптической регенерацией сигналов // Квантовая электроника. 2005. Т. 35, № 2. С. 169-174.
[6] Shapiro E.G., Fedoruk М.Р., Turitsyn S.K. Flat-top spectrum data format for Nx40 Gbit/s WDM transmission with 0.8bit/s/Hz spectral efficiency //J. Opt. Comm. 2006. Vol. 27, N 4. P. 216-218.
[7] Прокопьева Л. Параллельная реализация метода конечных объемов для решения нестационарных уравнений Максвелла на неструктурированной сетке // Тр. VII Всерос. конф. молодых ученых по математическому моделированию и информационным технологиям. 2006. С. 26-27.
Поступила в редакцию 17 июля 2007 г.