УДК 681.3
А.А. ЯКУБА 1, Э.И. КОМУХАЕВ, С.Г. РЯБЧУН
РАЗВИТИЕ УСКОРИТЕЛЕЙ СПЕЦИАЛИЗИРОВАННЫХ ВЫЧИСЛЕНИЙ
Abstract. Modern high performance computing is increased by the application of new hardware of a general purpose, their software perfection and, increasingly, by the application of accelerators of specialized calculations. The features of five basic types of such accelerators are analysed in the article. An occurrence of units of accelerators in clusters of Kyiv of the NAS of Ukraine (two types are in the Main Astronomical Observatory, one type is in the Institute of Cybernetics named after V. Gluskov) is noted.
Key words: HPC, accelerators Cell, ClearSpeed, graphic, on FPGA, GRAPE.
Анотація. Швидкодію сучасних високопродуктивних комп'ютерів підвищують застосуванням нових апаратних засобів загального призначення, вдосконаленням їх ПЗ і, все ширше, застосуванням прискорювачів спеціалізованих обчислень. У статті проаналізовано особливості застосування п’яти основних типів таких прискорювачів. Відмічена поява вузлів прискорювачів у київських кластерах НАН України (два типи в Головній астрономічній обсерваторії, один - в Інституті кібернетики ім. В.М. Глушкова).
Ключові слова: HPC, прискорювачі Cell, ClearSpeed, графічні, на FPGA, GRAPE.
Аннотация. Быстродействие современных высокопроизводительных компьютеров повышают применением новых аппаратных средств общего назначения, совершенствованием их ПО и, все шире, применением ускорителей специализированных вычислений. В статье проанализированы особенности применения пяти основных типов таких ускорителей. Отмечено появление узлов ускорителей в киевских кластерах НАН Украини (два типа в Главной астрономической обсерватории, один - в Институте кибернетики им. В. М. Глушкова).
Ключевые слова: HPC, ускорители Cell, ClearSpeed, графические, на FPGA, GRAPE.
1. Введение
Наибольший вклад в современные разработки, внедрение ускорителей специализированных вычислений для суперкомпьютеров вносят специалисты США, Японии, Китая, России. Последний 34-й список мирового рейтинга Тор 5QQ наиболее мощных суперкомпьютеров включает уже 12 суперкомпьютерных систем, содержащих различные ускорители специализированных вычислений. В отдельных публикациях, в частности, посвященных военному суперкомпьютеру Roadrunnes, впервые в мире преодолевшему петафропный барьер производительности, внедренные в эту систему ускорители специализированных вычислений называют также специализированными процессорами. Ниже отражены особенности различных типов ускорителей.
2. Модернизация аппаратных средств HPC (High Performance Computing)
Постоянно наращиваются мощности новых HPC (недавно достигнута рекордная производительность в один петафлоп-квадрильйон операций с плавающей запятой в секунду) для обеспечения растущих запросов науки, техники, экономики, медицины, обороны, формирования долгосрочных прогнозов и др.
Уже анонсированы проекты HPC с производительностью 2, 3, 10, 20, 40 PFLOPS. Для этих проектов отрабатываются многие инновационные решения повышения производительности, новые пути преодоления существующих ограничений, особенно в отношении энергозатрат.
Жесткие ограничения по энергопотреблению практически заблокировали развитие процессорных проектов, связанных с ростом значений тактовой частоты свыше 3 - 4 ГГц. Теперь главным направлением разработок повышения быстродействия вычислений стала реализация перспектив параллелизации процессов обработки и ресурсов гибридизации ряда инновационных аппаратных средств.
1Q
Эффективные средства ускорения различных, даже конкурирующих, производителей нередко используются пользователями совместно. Например, в суперкомпьютере Tsubame Токийского института технологий, занявшего 56 место в последней, 34 редакции списка Top500, используются: многоядерные процессоры Intel Xeon 5400, процессоры и платы компаний AMD, Sun, nVidia, решения виртуализации, MPI, InfiniBand, сотни ускорителей ClearSpeed типа CSX600, каждый из которых содержит чип FPGA Virtex-4. Производительность Tsubame по тесту LINPACK вскоре намечено повысить до 2 PFLOPS.
Замедлилось наращивание многоядерности процессоров общего применения для обработки параллельных потоков данных из-за недостаточного существующего уровня знаний в области процессов параллельной обработки, отсутствия эффективных алгоритмов. В [1] делается вывод, что на данном этапе дальнейший рост многоядерности процессоров общего назначения обеспечит повышение быстродействия HPC не более, чем на порядок. Из-за задержек при создании эффективных решений параллельного ПО для многих ядер главные производители многоядерных процессоров преимущественно совершенствуют параметры четырехъядерных и начинают выпускать шестиядерные процессоры. Компания Intel за последние годы представила уже три семейства четырехъядерных процессоров серий Xeon 5000, их параметры приведены в табл. 1.
Таблица 1. Параметры X53QQ, X54QQ, X55QQ
Технол. изготовл., нм Тактовая частота, ГГц Мощность, Вт Объем кэшпамяти, Мб Аппаратные средства виртуали- зации Примечания
65 нм (X53QQ) 1,6 - 2,66 80 - 120 8 (L2) Да Каждому ядру назначают до 4 МБ кэш Ь2
45 нм (X54QQ) 2 - 3,2 80 - 150 12 (L2) Да Увеличена производит. относительно Х5300 до 50%
45 нм (X55QQ) 2 - 3,2 38 - 130 4 - 8 (L3) Да Введен интегриров. контроллер памяти РРРЗ
Трудности согласований обменов с памятью связаны с тем, что ежегодно производительность процессоров растет примерно на 60%, а задержки при обращении к памяти снижаются лишь на 7% [2]. Для ускорения обменов с памятью интегрируют в кристалл контроллеры памяти. Такие контроллеры сравнительно давно и эффективно в своих процессорах применяет компания АМР.
Оказалось, что решения параллельного ПО для специализированных вычислений намного проще оптимизировать даже для сотен ядер и обеспечить при этом рост быстродействия вычислений на несколько порядков. Такие решения широко реализуются в ускорителях, рассмотренных в разд. 3.
GT200
2003
2004
2005
2006
2007
2008
Рис. 1. Сравнение роста производительности CPU и GPU
3. Особенности ускорителей специализированных вычислений
Наибольший прирост производительности за счет специализированных вычислений на базе ускорителей, по сравнению с использованием СРи, достигается, когда, например, при обработке больших объемов данных используется единая последовательность математи-
ческих операций, в частности, для случаев плотных (dense) матричных вычислений. Для многих приложений производительность вычислений на видеочипах с каждым годом все значительнее превышает производительность расчетов на основе CPU. Об этом свидетельствует график на рис. 1, который приводит компания NVIDIA [3, 4].
Отметим, что на графике показатели для видеочипов даны для одинарной точности, а для CPU - для двойной. Показатели, взятые при сравнениях для двойной точности, более близки, видеочипы почти на порядок медленнее обрабатывают данные с двойной точностью, чем с одинарной.
Roadrunner: петафлопная эра с процессором Cell
СеІІ-ускорители для вычислительных узлов
Возможность добавления Cell для каждого из узлов
Многопроцессорные многоядерные кластерные \па на Optcron
• ••
(Сотни кластерных узлов)
Узлы
ввода-
вывода
Наибольшую известность и применение получили следующие разновидности ускорителей для HPC:
- Cell-процессоры, разработка IBM совместно с компаниями Sony, Toshiba;
- платы компании ClearSpeed (Великобритания - США);
- платы на базе FPGA разработок компаний Celoxica, Nallatech, DRC и др. [5];
- блоки и платы GPGPU (General Purpose Graphical Processing Units) разработок компаний NVIDIA, AMD (ATI);
- платы GRAPE, разработанные университетом Токио.
Наиболее широкий спектр эффективно решаемых задач обеспечивают ускорители Cell, которые, в частности, применены для реализации суперкомпьютера IBM Roadrunner петафлопной производительности. Главная
Масштабируемый модуль связи Рис. 2. Структура системы Roadrunner
особенность его структуры (рис. 2) в присоединениях Cell-ускорителей к каждому кластерному узлу на многоядерных процессорах AMD Opteron, которые выполняют основные системные операции.
Здесь задействованы 6120 двухъядерных процессоров AMD Opteron и 12240 девятиядерних процесоров IBM Power X Cell8i. Последние выполняют математические и вспомогательные операции, где необходимо максимальное быстродействие. Сформировано 3060 структурных компонентов-модулей TriBlade (рис. 3), в каждом из них объединены два blade -сервера IBM QS22 (Cell) и один blade - сервер IBMLS21 (Opteron).
Для объединения компонентов использовано около десяти тысяч соединений InfiniBand и Gigabit Ethernet. Важным достижением этой системы - рекордсмена продуктивности - является
сравнительно высокий показатель энергоэффективности, а именно уровень 437 MFlops/Вт.
Важным фактором расширения применений ускорителей является предоставление пользователям ускорителей библиотек и драйверов средств оценки эффективности решения задачи на базе предоставляемого соответствующего программного обеспечения.
3.1. Особенности Свіі-процессоров
Компания ІВМ в партнерстве с компаниями Бопу, ТоэЫЬа в 2005 году разработала высокопроизводительный процессор с новой СеІІ-архитектурой, предназначенной ускорить в 100 раз выполнение алгоритмов игровых и медийных устройств, значительно ускорить приложения в режиме
Рис. З. Структурная схема блейд-модуля TriBlade
реального времени. Сегодня СеІІ-процессор уже широко используется и в структурах НРС. Девятиядерный СеІІ-процессор является многопроцессорной микросхемой, включающей 64 бит-
процессорный элемент РРЕ и 8
Рис. 4. Функциональные узлы Cell-процессора
специализированных сопроцессоров ЭРЕ на базе SIMD-архитектуры, специализированную высокопроизводительную шину Е1В, контроллер памяти и контроллер ввода - вывода (рис. 4).
РРЕ распределяет задачи на ЭРЕ, контролирует системные операции ввода-
вывода с системной памятью и внешними устройствами, а ЭРЕ ускоренно выполняют несложные математические операции. В процессоре РошегХСе11& значительно ускорен обмен с системной
памятью за счет введения в каждый SPE до 256 КБ локальной памяти с быстрым доступом. С нее могут перемещаться данные в основную память и обратно, даже с упреждением, без прерывания вычислительного процесса в SPE. Все SPE и PPE имеют ускоренный доступ к основной памяти через контроллер разделяемой памяти и внутреннюю объединяющую магистраль.
Основным инструментом программирования ускорителей Cell является IBM SDK for Multicore Acceleration. В его составе компиляторы, отладчики, библиотеки BLAS, FFT, генерации случайных чисел и др.
3.2. Ускорители компании ClearSpeed
Компания ClearSpeed из г. Бристоль в 2005 году разработала чип CSX600, в котором размещен восьмипотоковый процессор с 96 ядрами. В систему команд процессора входят монокоманды для внутреннего исполнения и поликоманды для исполнения в режиме SIMD всеми 96 ядрами процессора: над собственными наборами регистров, над данными узлов встроенной памяти. В чипе треды (потоки) взаимодействуют между собой и вводом-выводом на базе аппаратно реализованных семафоров. Два порта чипа позволяют реализацию многокристальных систем. Каждое ядро оснащено 6 Кб кэша, имеется общий кэш объемом 128 Кб, используемый всеми ядрами. На основе многоядерного чипа CSX600 (производство по техпроцессу 130 нм) компания ClearSpeed выпускает два типа плат-ускорителей: Advance X 620 с интерфейсом PCI-X и Advance e 620 с интерфейсом PCI-Express. Каждый из ускорителей содержит по 2 чипа CSX 600 и чип Xilinx FPGA Virtex-4 для реализаций интерфейсных функций. В 2008 году компанией ClearSpeed начат выпуск усовершенствованных моделей плат Advance e710, e720 с одним чипом CSX 700 по технологическому процессу 90 нм. Обеспечивается производительность 96 GFLOPS/25 W при точности 64 или 32 бит с плавающей запятой согласно стандарту IEEE 754. На плате размещена память 2 GB 533 MHz DDR2 с аппаратной коррекцией ошибок. Применение платы поддерживают прилагаемые библиотеки для функций BLAS, LAPACK, Standard C, Vector, FFT Random number generator. Программный набор инструментария CleerSpeed Visual Profiler позволяет оптимизировать для задач число требуемых ускорителей. Компания C^rSpeed представила [6], в частности, последовательность протестированных показателей соотношений производительность/энергопотребление для ряда конкурирующих плат ускорителей при решении задач FFT с точностью 1024 x 1024 2D. Соответственно указаны значения: 2,86 GFLOPs/W (для плат на CSX 700), 0,95 GFLOPs/W(для плат на Cell при 8 SPE ), 0,29 GFLOPs/W(для плат на S 870-Tesla ),
0,12 GFLOPs/W(для плат на x 86). Отмечается, что при различных вычислениях с производительностью около 100 GFLOPs с двойной точностью плата Advance e 710 потребляет всего 12W, а плата Tesla - около 170 W.
3.3. Ускорители на FPGA
Аппаратноперестраиваемые (реконфигурируемые) ускорители на FPGA развиваются сравнительно давно, особенно для решения задач распознавания, включая поиск шаблонов ДНК и др. По сравнению с вычислениями на CPU для ряда специализированных задач ускорители на FPGA обеспечивают прирост производительности на два - три порядка. Разработка программ прошивок
FPGA весьма трудоемка, требует знания языков VHDL. Так, в проекте HPC Maxwell [5] для плат на FPGA Virtex-4 создание прошивки для типовой задачи с использованием метода Монте-Карло обеспечило ускорение примерно в 300 раз, потребовало несколько человеконедель труда программиста. В феврале 2009 г. созданы компанией Xilinx усовершенствованные FPGA Virtex-6, выпускаемые по технологии 40 нм, которые за счет встроенных в кристалл решений на 50% ускоряют процесс проектирования прошивок, а также значительно ускоряют вычисления, снижают энергозатраты, стоимость. Уже через полтора месяца после анонсирования выпуска Virtex-6 появились сообщения о свыше 700 проектах на базе Virtex-6, например, мировой лидер приборостроения компания Agilent начала разработку нового поколения высокопроизводительных осциллографов с использованием Virtex-6. Прогнозируют широкие применения Virtex-6 для HPC. Например, весьма реальна замена двух чипов Virtex-4 одним чипом Virtex-6 в плате ускорителя RCHTX компании Celoxica, представленной на рис. 5.
Существующий вариант платы
обеспечивал прирост в 200 раз ускорения решений задач из области финансов, нефтегазовой области, биологии, медицины. RCHTX используются, в частности, в составе кластера в г. Пермь, занимающего место 26 в рейтинге Top50. После модернизации на базе Virtex-6 значительно улучшатся практически все Рис. 5. Ускоритель RCHTX параметры таких ускорителей. Компания Celoxica
анонсировала выпуск линейки ускорителей на базе новых чипов FPGA Xilinx с подключением к платформам Intel посредством PCI Express.
Новые FPGA - решения с использованием новых чипов компаний Xilinx, Altera внедряются для ряда HPC компаний Cray, Silicon Graphics, NEC и др. Значительно упрощаются реализации приложений на FPGA-ускорителях благодаря созданию высокоуровневых языков ImpulseC, Mitrion-C, Handel-C. В частности, последний используется для приложений упомянутых ускорителей компании Celoxica, язык Mitrion-C для FPGA- ускорителей компании Nallatech, платформ Cray XD1, SGI RASC.
3.4. Графические ускорители
Интенсивно расширяется применение графических процессоров для ускорения неграфических вычислительных функций HPC на базе средств и технологий компании NVIDIA и компании AMD (ATI).
Кратко перечислим часто используемые термины и акронимы. GPGPU (General - Purpose Graphics Processing Units) - технологии использования графического процессора для ускорения общих вычислений, ранее выполняемых центральными процессорами (CPU); Direct X - набор низкоуровневых программных интерфейсов мультимедиа-приложений; Open CL (Open Computing Langnage) - открытый язык вычислений для написания компьютерных программ, реализующих параллельные вычисления на различных графических и центральных процессорах. Open CL для
GPGPU обеспечивает параллелизм на уровне инструкций и на уровне данных. NVIDIA CUDA -инновационная архитектура совокупности программных и аппаратных средств для упрощенной и гибкой реализации на графических процессорах компании NVIDIA вычислений. CUDA (Compute Unified Device Architecture) с 2007 года получила широкое признание и позволяет пользователям решать сложные вычислительные задачи на многоядерных графических процессорах за меньшее время, чем при использовании CPU. CUDA отмечена премиями “Выбор читателей” от издания HPCWire, “Лучшая новинка” от журнала Popular Science, “Техническое превосходство” от PC Magazine. Инструменты CUDA (предоставляемые бесплатно) ускоряют решения многих ресурсоемких задач, включая поиск нефти и газа, вывод медицинских изображений. Для NVIDIA CUDA главным конкурирующим средством становится средство AMD CTM-Brook.
Серию решений компании NVIDIA, ориентированных на высокопроизводительные вычисления, называют Tesla. А серия решений графических процессорных устройств компании AMD, ориентированная на ускорение вычислений, получила название FireStream. Далее подробнее рассмотрим возможности и особенности двух упомянутых основных типов средств GPGPU, представляющих разработки наиболее современного, третьего поколения [3]. Устройства третьего поколения содержат набор сотен потоковых процессоров, работающих с общей памятью (видео ОЗУ) объемом порядка 1 ГБ.
Крупнейшим поставщиком графических средств является компания NVIDIA. Ее средства третьего поколения включают новый чип GT200, видеокарты серии GeForce GTX200, плату ускорителя расчетов Tesla C1060, blade-плату Tesla S1070 Computing System, CUDA версий 1.0,
1.1, 2.0. Видеочип GT200 создан для решения вычислительных задач при помощи технологии CUDA второго поколения. GT200 является программируемым мультипроцессором с 240 вычислительными ядрами, работающими на частоте 1,3 ГГц, имеет общую память, поддерживает вычисления с плавающей точкой двойной точности. Базовая одночиповая плата Tesla требует для работы около 170 Вт.
Производительность одного чипа GT200 - 933 GFLOPS, а производительность платы C1060 округляют до 1TFLOPS. NVIDIA начала выпуск еще более мощной платы Tesla C1070 с использованием четырех чипов GT200 и соответственно 960 потоковых процессоров. Эта плата поддерживает технологию NVIDIA CUDA второго поколения, вычисления с одинарной и двойной точностью. Плата имеет системный интерфейс PCIe x16 или x8, интерфейс памяти 4х512 бит, пропускную способность памяти 408 ГБ/c, частоту потоковых процессоров 1500 МГц, объем 16 ГБ GDDR3 памяти, энергопотребление 700 Вт.
NVIDIA разрабатывает новый графический чип GT300, который будет иметь двукратный прирост производительности в сравнении с GT200 и поддержку стандартного программного интерфейса Microsoft Direct11. Видеокарты серии NVIDIA8000 выпускаются с поддержкой программного интерфейса Direct X10 с конца 2006 года.
Главный конкурент компании NVIDIA по разработкам вычислительных средств на базе графических чипов компания AMD уже представила свой графический процессор с поддержкой Direct X11. Компания AMD для своих средств ускорения вычислений использует стандартные платформы Open CL и Direct X, в то время как NVIDIA преимущественно ориентируется на
собственную платформу CUDA. Специалисты AMD недавно значительно ускорили работу компилятора Brook+ в составе средств программирования AMD CTM-Brook.
К аппаратным графическим средствам вычислений третьего поколения компании AMD относятся наборы Radeon XIK-HD4K. Выделяется высокими характеристиками новая графическая карта Radeon HD4870, которая послужила основой для ускорителя FireStream 9270. Здесь используется чип с 800 потоковыми процессорами, суммарная производительность которых около 1,2 TFLOPS с одинарной точностью и 240 GFLOPS с удвоенной точностью. На плате установлены два гигабайта памяти GDDR5, тактируемые частотой 850 МГц.
В кластерах чаще применяются ускоряющие средства компании NVIDIA Tesla - CUDA. Так, компания Evolved Machines собрала кластер на базе 14 CPU AMD Phenom и 42 графических карт Tesla с пиковой производительностью свыше 40 TFLOPS для моделирования устройств искусственного интеллекта. Компания “Т-Платформы” в 2009 году модернизировала в Киеве кластер GOLOWOOD Главной астрономической обсерватории НАНУ, добавив девять серверов на процессорах Intel Xeon 5420, память на узлах - до 8 ГБ, девять ускорителей NVIDIA GeForce GTX 280. За счет ввода указанного сочетания средств производительность кластера возросла с 1 TFLOPS до 6 TFLOPS.
3.5. Ускорители GRAVE, MPRACE для научных расчетов
Для ускорения расчетов взаимодействий тел, частиц в астрофизике, химии,биологии все чаще к узлам кластеров подключают ускоряющие вычисления платы GRAVE, GRAVE-DR разработок университета Токио [7], а также платы MPRACE1, MPRACE2 разработок университета Гейдельберга [8]. Среди активных пользователей этих ускорителей научные учреждения США, Японии, Германии, Украины и других стран. В частности, реализуются расчеты, связанные с решениями гравитационной задачи N тел [4].
Эволюция системы N гравитирующих тел (материальных точек) описывается следующей системой уравнений:
где mx,ri,vi - масса, радиус-вектор и скорость i-го тела соответственно (i изменяется от 1 до N),
G - гравитационная постоянная. Массы тел, а также положения и скорости в начальный момент времени считаются известными. Необходимо найти положения и скорости всех частиц в произвольный момент времени.
С развитием высокопроизводительных средств вычислений расширяется моделирование и изучение свойств систем гравитирующих тел путем численного решения системы уравнений движения. Ввод ускорителей не только повышает быстродействие решений, но за счет аппаратной реализации укрупненных специализированных операций значительно упрощает программирование задач. Развитие семейств чипов, плат GRAPE, MPGRACE обеспечивает пользователям ряд
dvi N
r. - r
преимуществ по сравнению с использованием стандартных CPU. На рис. 6 представлена структура вычислительных схем чипа GRAPE-6 [7].
Разработчики семейств чипов GRAPE приводят, в частности, следующие сравнительные данные для чипов GRAPE-6, созданных в 1999 году по технологиям 250 нм, и чипов Intel Xeon 5365, созданных в 2006 году по технологиям 65 нм. Соответственно для GRAPE указаны частота 90 MHz, пиковая производительность 32,4 GFLOPS, потребляемая мощность 10W, производительность на один ватт 3,24 GFLOPS, а для Xeon 3GHz, 48 GFLOPS, 120W, 0,4GFLOPS. В кластере GOLOWOOD Главной астрономической обсерватории НАНУ в Киеве с 2006 года используются восемь плат GRAPE6 - BLX64, по одной в каждом узле совместно с процессором Xeon 5130 и памятью 2ГБ. Этот кластер c 2006 года обеспечивал решения задач гравитационного взаимодействия многих тел, но его производительности (примерно 1 TFLOPS) недоставало для
решения ряда других задач. Поэтому в 2009 году его модернизировали за счет более современных
ускорителей (см. 3.4).
В 2006 году специалисты Токийского университета создали многоядерный чип GRAPE DR, представляющий собой специализированный процессор для выполнения до 512 млрд операций с плавающей точкой в секунду. Каждое из его 512 ядер ориентировано на выполнение отдельной операции. Ядра процессора разделены на 16 групп, по 32 ядра в каждом. Причем каждая группа адаптирована на обработку определенного набора инструкций. Чип производится по 90-му нм
техпроцессу, использует тактовую частоту в 500 МГц, потребляет под максимальной нагрузкой 60
Вт, в простое менее 30 Вт. На платах чип GRAPE DR взаимодействует с чипом FPGA Altera StratixII, который осуществляет интерфейсные и вспомогательные операции. Чип GRAPE DR на платах расширения размещается с интерфейсом PCI-X. Платы с четырьма чипами рассчитаны обеспечивать производительность 2TFLOPS.
Растущие вычислительные возможности чипов GRAPE-DR предназначены для эффективной реализации задач: моделирования в астрономии, изучения динамики молекулярных процессов, квантово-молекулярного моделирования, исследований цепочек генома, гидродинамических взаимодействий частиц, обработки плотных (dense) матриц.
К 2011 году специалисты Токийского университета планируют на базе перехода на техпроцесс 45 нм и новых решений для чипов GRAPE DR создать вычислительную систему с производительностью 1 - 10 PFLOPS.
4. Применение ускорителей
Растущему применению ускорителей посвящен прошедший в США в 2009 Symposium on Application
Рис. 6. Структура чипа GRAPE-6
Accelerators in High Performance Computing. В его программе анализ развития применения рассмотренных выше разновидностей ускорителей в сочетании с чипами CPU, а также проекты их интеграции (Intel’s Larrabee, AMD Fusion).
Автор известного тестового пакета LINPACK Джек Донгарра считает, что будущее HPC за гибридными решениями, объединяющими возможности графических ускорителей и многоядерных центральных процессоров. Однако этот прогноз не снижает целесообразность развития остальных разновидностей ускорителей, которые, видимо, будут чаще ориентированы на совместные подключения для ускорения решений конкретных задач. Такую тенденцию гибридизации ускорителей иллюстрирует как рис. 7, на котором к каждому HOST на CPU подключены по два типа ускорителей для решения задач астрофизики, биологии, так и табл. 5, где представлены пары различных ускорителей в составах трех из пяти новых HPC, использующих ускорители специализированных вычислений.
В табл. 2 даны примеры использования пяти разновидностей ускорителей
специализированных вычислений в реальных системах HPC.
Таблица 2. Примеры применения ускорителей
mpRACE GRAPE
j I L і r 1 i І
HOST
mpRACE GRAPE
HOST
Hiflnlbend network switch
HOST
mpRACE
GRAPE
HOST
mpRACE GRAPE
Рис. 7. Сочетания CPU и ускорителей [8]
Место установки HPC Тип CPU Тип ускорит, средств Производит. НРС (ТПс^) Примечания
DOE/NNSA/ LANL, США Opteron DC 1.8 GHz PowerXCell 8i 3.2 GHz по ШРАСК -1105, Рреак -1456.7 Данная система возглавляет список Тор500 в редакциях 31, 32, 33
GSIC Center, Япония Opteron QC 2.3 GHz, Xeon E5440 2.833 GHz Clear Speed CSX600, nVidia GT200 По ШРАСК -87.01, Рреак -163.19 В 33 редакции списка Тор50о эта система занимает место 41
Кластер компании Evolved Machines, США 14 четырехъядерных AMD Phenon 42 платы NVIDIA Tesla Пиковая производит свыше 40 Предназначен для моделирования биологических нейронных сетей
Кластер GOLOWOOD ГАО НАНУ, Украина 9 узлов на Intel Xeon 5130, добавлены 9 серверов на Intel Xeon 5420 С 2006 г. задействова-но 8 ускор. плат GRAPE6-BLX64, в 2009 г. добавлены ускорит. NVIDIA GeForce GTX280 Реальная производит, была 1 TFlops, после модернизации -6 TFlops Ускорители GRAPE6 обеспечивали только решения задач N тел для астрофизики; добавленные в 2009 году ускорители NVIDIA значительно расширили круг решаемых задач
Кластер университ. штата Иллинойс, США 16 узлов на двухъядерн. AMD Opteron NVIDIA G80GL, платы Nallatech FPGA (Virtex-4) Пиковая производит 23 Предназначен для решения задач молекулярной динамики, моделирования погоды
5. Выводы
1. Все более эффективным и доступным средством повышения производительности HPC становится гибридизация CPU и ускорителей специализированных вычислений. Создавать требуемое параллельное ПО для многоядерных ускорителей специализированных вычислений оказалось намного проще, чем для многоядерных процессоров общего назначения, в частности, поддерживается обработка в ускорителях 192, 800 ядер.
2. Наибольшие применения в HPC получили следующие пять разновидностей ускорителей специализированных вычислений:
- Cell-процессоры;
- платы ускорения Clearspeed;
- платы ускорения на базе FPGA;
- платы ускорения на графических процессорах;
- платы ускорения GRAPE.
В составе ряда HPC уже используются 1-2 разновидности ускорителей. Чаще всего внедряются ускорительные платы на базе графических чипов.
3. После проведения в США первого ежегодного симпозиума по применению ускорителей для HPC (2009 Symposium on Application Accelerators in High Performance Computing) его устроители прогнозируют, что вскоре применение ускорителей для HPC станет нормой.
СПИСОК ЛИТЕРАТУРЫ
1. Кузнецов С. Перспективы наноэлектроники. Обзор публикаций / C. Кузнецов // IEEE Computers Society. -2008. - Vol. 41, N 5. - Режим доступа: www.citforum.ru/computer/2008-05/.
2. Волков Д. Оценка быстродействия нерегулярного доступа к памяти / Д. Волков, А. Фролов // Открытые системы. - 2008. - № 1. - С. 15 - 19.
3. Берилло А. NVIDIA CUDA - неграфические вычисления на графических процессорах / А. Берилло. - Режим доступа: www.ixbt.com/video3/cuda-t.shtml.
4. Модернизация суперкомпьютера ГАО НАНУ. - Режим доступа: www.pcnews.ru/golowood.
5. www.parallel.ru/FPGA/Maxwell.html.
6. www.clearspeed.com.
7. From Newton to Einstein - N. Body Dynamics / R. Spurzem, P. Berczik [et al.] // Journal of Phisic: Conference Series 78. - 2007. - N 012071.
8. www.scidacreview.ora/0902/html/hardware.html.
Стаття надійшла до редакції 06.10.2009