ЭНЕРГЕТИКА, ЭЛЕКТРИФИКАЦИЯ И ЭНЕРГЕТИЧЕСКОЕ МАШИНОСТРОЕНИЕ
УДК 004.272.43
И. А. Каляев, И. И. Левин, Е. А. Семерников
СЕМЕЙСТВО ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С ВЫСОКОЙ РЕАЛЬНОЙ ПРОИЗВОДИТЕЛЬНОСТЬЮ НА ОСНОВЕ ПЛИС
В статье рассматриваются вопросы создания реконфигурируемых вычислительных систем (РВС) с высокой реальной производительностью, в которых в качестве основного вычислительного элемента используются программируемые логические интегральные схемы (ПЛИС), соединенные в большие вычислительные поля. Вычислительные структуры, которые могут быть созданы в больших вычислительных полях, составленных из множества ПЛИС, обладают значительно большим вычислительным потенциалом, чем при использовании отдельных кристаллов в качестве акселератора для универсального микропроцессора. На ряде примеров реализации базовых модулей и блоков показаны различные способы организации аппаратной платформы РВС и проводятся качественные оценки технических решений. Вычислительные системы с высокой производительностью; ПЛИС
ВВЕДЕНИЕ
Известно, что высокую реальную производительность суперЭВМ с кластерной архитектурой демонстрируют, в основном, только при решении класса слабосвязанных задач, не требующих большого количества информационных обменов, в то время как при решении задач других классов их реальная производительность существенно снижается и не превышает 5-15% от декларируемой пиковой производительности системы [1-3]. Это является следствием неадекватности данной конкретной архитектуры суперкомпьютера информационной структуре решаемой задачи и невозможности адаптации его «жесткой» архитектуры под структуру задачи. Многие исследователи считают, что традиционные методы увеличения производительности кластерных суперЭВМ, такие как повышение тактовой частоты и механическое наращивание числа серийно выпускаемых вычислительных узлов на базе универсальных микропроцессоров, в настоящее время практически исчерпаны. Прорыв в направлении повышения реальной производительности суперЭВМ может быть достигнут только за счет поиска других концептуальных подходов при построении высокопроизводительных систем, обладающих практически линейным ростом производительности при увеличении аппаратного ресурса.
Недостатки суперЭВМ традиционной архитектуры могут быть устранены на пути создания высокопроизводительных реконфигурируемых вычислительных систем (РВС), которые развиваются в рамках созданной в НИИ многопроцессорных вычислительных систем имени академика А. В. Каляева Южного федерального
университета (НИИ МВС ЮФУ) концепции многопроцессорных вычислительных систем с программируемой архитектурой [3, 4]. В отличие от многопроцессорных вычислительных систем с «жесткой» архитектурой, в частности, кластерных суперЭВМ, архитектура РВС может динамически изменяться в процессе функционирования. В результате у пользователя появляется возможность адаптации архитектуры вычислительной системы под структуру решаемой задачи. В качестве элементной базы для построения РВС используются ПЛИС высокой интеграции, соединенные в вычислительные поля. Вычислительные структуры, реализуемые в доступном пользователю ресурсе ПЛИС, обеспечивают высокую реальную производительность и пропорциональный рост производительности при увеличении задействованного оборудования.
ОСОБЕННОСТИ ПОСТРОЕНИЯ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ РВС
Рассмотрим особенности построения высокопроизводительных РВС с большими вычислительными полями на примере старших представителей семейства РВС, созданных по Государственному контракту № 02.524.12.4002
«Создание семейства высокопроизводительных многопроцессорных вычислительных систем с динамически перестраиваемой архитектурой на основе реконфигурируемой элементной базы и их математического обеспечения для решения вычислительно трудоемких задач», выполняемого по заданию Федерального агентства по науке и инновациям в рамках Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития науч-
Контактная информация: [email protected]
но-технологического комплекса России на 2007-2012 годы».
Целью разработки являлось создание на единых архитектурных принципах семейства программно-совместимых реконфигурируемых высокопроизводительных вычислительных систем производительностью от 0,025 Тфлопс до 6 Тфлопс. В результате выполнения Государственного контракта создано семейство РВС, в состав которого входят: РВС-5 - высокопроизводительная система производительностью 6 Тфлопс; РВС-1Р и РВС-1К - системы производительностью более 1 Тфлопс; РВС-0.2-РС -рабочая станция производительностью 300 Гфлопс; РУПК-50 и РУПК-25 - ускорители персональных компьютеров производительностью 50 и 25 Гфлопс.
Старшие представители семейства РВС-5, РВС-1Р и РВС-0.2-РС создаются на принципах модульной наращиваемости и обладают почти линейным ростом реальной производительности в зависимости от увеличения аппаратного ресурса [3, 4]. Реальная производительность всех представителей семейства РВС на задачах различных классов составляет более 50% от указанной пиковой производительности.
В статье [5] подробно рассматривались конструктивные особенности созданного в рамках Государственного контракта № 02.524.12.4002 семейства РВС - компоновка и основные подсистемы, здесь же мы сосредоточим наше внимание на принципах организации основных вычислительных частей этих систем, представляющих собой вычислительные поля из ПЛИС, рассмотрим некоторые характеристики этих систем в сравнении с ранее созданными РВС.
Высокая реальная производительность старших представителей семейства РВС и почти линейный рост их производительности в зависимости от наращивания аппаратного ресурса обусловлен как архитектурными и конструктивно-технологическими особенностями построения вычислительных полей, так и организацией вычислительного процесса в них. В [3, 4] показано, что с увеличением ресурсов вычислительного поля растет и эффективность РВС в целом, поэтому рассмотрим принципы построения вычислительных полей и пути наращивания их аппаратного ресурса. Все старшие представители семейства строятся на основе одного типа базового модуля - 16У5-75, имеющего следующие параметры:
Производительность (64 разряда), 75
Гфлопс
Производительность (32 разряда), 140
Гфлопс
Потребляемая мощность, ВА 200
Объем оперативной распределенной 1,25
памяти, Мбайт
ПЛИС решающего поля ХС5УЬХ110, 16
шт.
Количество эквивалентных вентилей в 11-10'
ПЛИС, шт.
Тактовая частота, МГц 250
Количество ЬУБ8 каналов, шт. 224
Скорость межмодульного обмена, >250
Гбит/сек
Структура базового модуля 16V5-75 показана на рис. 1. Вычислительное поле базового модуля содержит шестнадцать ПЛИС Virtex 5 XC5VLX110-2FF1153 фирмы Xilinx - ПЛИС, расположенных в узлах двумерной решетки
4 х 4 и соединенных между собой ортогональной системой связей по близкодействию. Связи по близкодействию позволяют существенно упростить печатную плату и улучшить ее частотные характеристики, поскольку соединения между соседними микросхемами не превышают четыре сантиметра. Данные между несмежными микросхемами передаются по транзитным каналам через промежуточные микросхемы, используя систему ортогональных связей.
Отличительной особенностью базового модуля 16V5-75 является реализация связей между ПЛИС вычислительного поля на основе стандарта LVDS.
Стандарт LVDS позволяет снизить потребляемую мощность выходных каскадов, уменьшить уровень создаваемых электромагнитных излучений, обеспечивает невосприимчивость к синфазным электромагнитным помехам и имеет поддержку в микросхемах семейства Vertex 5 в виде аппаратно реализованных периферийных контроллеров. Физически шины связи представляют собой набор пар дифференциальных полосковых передающих линий, с обоих концов подключенных к определенным выводам микросхем. Для надежной передачи данных по LVDS в 16V5-75 задействованы специальные ресурсы семейства микросхем Vertex 5, поддерживающие алгоритм оптимальной битной и кадровой синхронизации и позволяющие учесть все нюансы линии передачи.
Разъемы для соединения с другими базовыми модулями ВычиСЛитВЛЬНОВ ПОЛВ
Рис. 1. Структура базового модуля 16У5-75
Для создания больших вычислительных полей базовый модуль 16У5-75 имеет специальные ЬУБ8-разъемы QTE-056. Эти разъемы, подключенные к периферийным ПЛИС вычислительного поля базового модуля, предназначены для передачи промежуточных результатов вычислений непосредственно из микросхем данного модуля непосредственно в микросхемы вычислительных полей других базовых модулей. Передача осуществляется посредством специальных кабелей, подключаемых к соединителям типа QTE-056. Всего на каждом базовом модуле для наращивания вычислительного ресурса имеется 224 ЬУБ8-канала, работающих на частоте 1,2 ГГц с общей пропускной способностью свыше 250 Гбит в секунду.
Базовый модуль содержит также ряд вспомогательных подсистем, которые предназначены для обеспечения его основных функций. Особое место среди них занимает контроллер базового модуля (КБМ), выполняющий функции управления всеми подсистемами базового модуля, а также функции передачи информации между базовым модулем и управляющим контроллером (ЭВМ типа 1ВМ РС). Связь КБМ с управляющим контроллером осуществляется
посредством ЬУБ8-каналов через два разъема QTE-014, а также с помощью канала ЕШегпе!
На рис. 2, а показан внешний вид платы с установленными электронными элементами, а на рис. 2, б - базовый модуль 16У5-75 в сборе с подсистемой охлаждения, крепежной рамкой и кабелями ЬУБ8.
Таким образом, базовый модуль 16У5-75 представляет собой мощный вычислительный узел производительностью свыше 75 (140) Гфлопс. На его основе могут строиться вычислительные блоки, содержащие от одного до восьми базовых модулей производительностью от 75 до 600 (от 140 до 1120) Гфлопс. В то же время базовый модуль обладает достаточной автономностью и может легко комплексиро-ваться с персональным компьютером типа ІВМ РС в качестве ускорителя и использоваться при решении различных задач.
Первый этап наращивания ресурса вычислительного поля на основе вычислительных полей базовых модулей 16У5-75 воплощен при создании рабочей станции РВС-0.2-РС и блока РВС-0.2-ВБ производительностью свыше 300
Гфлопс. Основу этих изделий составляет объединенное вычислительное поле, включающее
в себя вычислительные поля четырех базовых модулей, соединенные между собой в единый вычислительный ресурс быстрыми каналами ЬУБ8.
б
Рис. 2. Плата базового модуля 16У5-75 (а) и базовый модуль в сборе (б)
Рабочая станция РВС-0.2-РС является представителем семейства РВС и предназначена для решения прикладных задач проектирования изделий микроэлектроники, управления в реальном времени сложными объектами, моделирования сложных технических и природных объектов и процессов, построения систем мониторинга, дистанционного зондирования, томографии и др.
Вычислительный блок РВС-0.2-ВБ практически полностью повторяет архитектуру рабочей станции РВС-0.2-РС, однако конструкции этих изделий значительно отличаются. Конструктивные отличия определяются назначением этих изделий: рабочая станция — это настольный вариант вычислительной системы, предназначенный для автономного использования, а вычислительный блок - это встраиваемый вариант, предназначенный для комплектования стоек СТ-1Р в составе представителей семейства РВС-1Р и РВС-5 и для создания суперЭВМ различных конфигураций. Вычислительный блок РВС-0.2-ВБ обладает теми же техническими параметрами, что и рабочая станция РВС-0.2-РС, и предназначен для решения перечисленных выше задач в составе РВС-1Р и РВС-5.
Аппаратно-программные средства РВС-0.2-РС и РВС-0.2-ВБ позволяют динамически перестраивать архитектуру в процессе решения задачи на двух уровнях: программном - на уровне элементарных процессоров и каналов распределенной памяти, обеспечивающем высокую скорость реконфигурации системы на задачи из данного класса, и схемотехническом - на уровне логических ячеек ПЛИС, обеспечивающем модернизацию системы команд элементарных процессоров и высокую удельную производительность системы при переходе на задачи различных классов. Структура рабочей станции показана на рис. 3.
Объединенное вычислительное поле РВС-0.2-РС/
Блок
питания
AC-DC
16V5-75
БМ0
16V5-75
БМ1
16V5-75
БМ2
16V5-75
БМ3
Сервисные устройства: контроль, индикация, управление
Управляющий
контроллер
(^ PC)
Коммутатор
Ethernet
Периферийное
оборудование
Ethernet КБ 0
Ethernet КБ 1
Рис. 3. Структура рабочей станции РВС-0.2-РС (РВС-0.2-ВБ)
Архитектурные отличия РВС-0.2-ВБ от РВС-0.2-РС заключаются в особенностях соединения ресурсов базовых модулей в объединенное вычислительное поле. На рис. 4 и рис. 5 показана структура связей в вычислительных полях рабочей станции РВС-0.2-РС и блоке РВС-0.2-ВБ. В вычислительном поле рабочей станции базовые модули соединяются в кольцо, а в вычислительном поле блока РВС-0.2-ВБ крайние базовые модули БМ0 и БМ3 имеют выходы за пределы блока с целью комплексирова-ния вычислительных полей нескольких изделий РВС-0.2-ВБ в единую структуру с вычислительным полем до нескольких сотен ПЛИС в составе стойки СТ-1Р. Во всем остальном архитектура РВС-0.2-ВБ совпадает с архитектурой РВС-0.2-РС.
На рис. 4 и рис. 5 стрелками показаны ЬУБ8-каналы между ПЛИС базовых модулей и ЬУБ8-каналы, соединяющие вычислительные поля отдельных базовых модулей в общий вычислительный ресурс вычислительных полей.
< > < ► < >
♦ < і ♦ ► < 1 - ♦ ► < ■ 1 ♦ > і
ф < ♦ > < £ ф >
♦ < ♦ ► ♦ >
< > < > < >
♦ < ♦ > < ♦ ► < і ♦ > і
і < і > < ф > < ф ►
♦ < ♦ > < ♦ ► < ♦ >
< > < ► < > *
ф < Ф > < Ф > < ї Ф ► і
♦ < ♦ > < Ф > < ї ♦ > ї
Ф < Ф > < Ф > < Ф >
< > < > < >
♦ < ♦ > < і ♦ > < і ♦ > і
і < Ф > < Ф > < Ф ►
♦ < ♦ > < ♦ ► < ♦ >
Рис. 4. Соединение базовых модулей в объединенное вычислительное поле РВС-0.2-РС
< > < > < >
Ф < і Ф > < Ф > < Ф > і
♦ < і Ф > < і Ф > < і Ф > і
♦ < Ф > < Ф > < Ф >
Вычислительное поле БМ 0
< > < > < >
Ф < і Ф > < Ф > < Ф >
Ф < і Ф > < і Ф > < і Ф > і
Ф < Ф > < Ф > < Ф >
Вычислительное поле БМ 1
Х6...Х9 - разъемы базовых модулей Х1...Х4 - внешние разъемы блока РВС-0.2-ВБ
< > < > < >
Ф < Ф > < і Ф > < Ф >
Ф < і Ф > < і Ф > < і Ф > і
< Ф > < Ф > < Ф >
Вычислительное поле БМ 2
< > < > < >
Ф < і Ф > < Ф > < і Ф >
Ф < і Ф > < Ф > < і Ф > і
Ф < Ф > < Ф > < Ф >
Вычислительное поле БМ 3
Рис. 5. Соединение базовых модулей в объединенное вычислительное поле РВС-0.2-ВБ
Темп передачи данных между вычислительными полями любых двух базовых модулей достигает 134 Гбит в секунду. Суммарный темп передачи данных между всеми компонентами объединенного вычислительного поля РВС-0.2-РС или РВС-0.2-ВБ может достигать более 3 Тбит в секунду.
На рис. 6 показаны рабочая станция РВС-0.2-ВБ и вычислительный блок РВС-0.2-ВБ со снятыми верхними крышками. Кабели на рис. 6а и на рис. 6б соединяют вычислительные поля отдельных базовых модулей в вычислительное поле РВС-0.2-РС или РВС-0.2-ВБ.
Системы охлаждения РВС-0.2-РС и РВС-0.2-ВБ имеют некоторые отличия, связанные с особенностями их назначения и эксплуатации. Автономная работа рабочей станции позволяет использовать для охлаждения ПЛИС базовых модулей только медные штыревые радиаторы и
проточно-вытяжную вентиляцию корпуса РВС-0.2-РС, что, в свою очередь, приводит к уменьшению габаритов рабочей станции по сравнению с РВС-0.2-ВБ, а также к уменьшению потребляемой мощности и шумности. Вычислительный блок РВС-0.2-ВБ работает в более жестких условиях из-за наличия фонового перегрева, создаваемого другими блоками, и необходимостью прогонять воздушный поток не только через корпус блока, но и через корпус стойки. Поэтому для РВС-0.2-ВБ используется система с проточной вентиляцией корпуса блока, дополненная вентиляторами прямого обдува, установленными непосредственно на медных штыревых радиаторах ПЛИС базовых модулей (см. рис. 2).
б
Рис. 6. Рабочая станция РВС-0.2-РС (а) и вычислительный блок РВС-0.2-В (б)
Следующий этап наращивания ресурса вычислительного поля на основе вычислительных полей блоков РВС-0.2-ВБ воплощен при создании вычислительной стойки СТ-1Р, предназначенной для комплектования РВС-1Р производительностью свыше 1,2 Тфлопс и РВС-5 производительностью свыше 6 Тфлопс.
Реконфигурируемая вычислительная система РВС-1Р предназначена для оснащения научных центров с целью проведения исследований в области физики, химии, биологии, космоса, построения информационно-управляющих систем для управления потенциально опасными производствами, решения задач аэрокосмической, автомобильной промышленности и энергетики. Пиковая производительность РВС-1Р составляет 1200 Гфлопс.
РВС-1Р включает с себя стойку СТ-1Р с подключенным к ней периферийным оборудованием. Вычислительная стойка СТ-1Р, помимо вспомогательных подсистем, содержит четыре блока РВС-0.2-ВБ, которые составляют ее основной вычислительный ресурс. Структурная схема СТ-1Р показана на рис. 7.
Вычислительные поля четырех вычислительных блоков РВС-0.2-ВБ объединяются с помощью ЬУБ8-каналов в единый вычислительный ресурс, содержащий до 16 базовых модулей 16У5-75 с общей пиковой производительностью 1,2 Тфлопс, как это показано на рис. 8.
Рис. 7. Структурная схема РВС-1Р
Рис. 8. Вычислительное поле стойки СТ-1Р
Межблочные связи являются продолжением межмодульных связей и, в свою очередь, продолжением связей между ПЛИС вычислительных полей базовых модулей. В целом подобная организация быстрых связей реализует в составе стойки СТ-1Р глобальный ЬУБ8-канал передачи данных с единым темпом продвижения информации в объединенном вычислительном поле стойки, содержащем 256 ПЛИС или, с учетом их интеграции, свыше 2,8 миллиардов эквивалентных вентилей. Внешний вид стойки СТ-1 Р вычислительной системы РВС-1 Р, установленной и эксплуатируемой в вычислительном зале НИИ МВС ЮФУ, показан на рис. 9.
Рис. 9. Внешний вид стойки СТ-1Р вычислительной системы РВС-1Р
Рассмотрим структуру ЕШетй-связей
в стойке СТ-1Р. Как было показано на рис. 3, каждый вычислительный блок РВС-0.2-ВБ имеет два канала ЕШетеІ для связи с внешними сетями - КБ0 и КБ1. Для осуществления функций управления и мониторинга управляющие контроллеры вычислительных блоков по выходам КБ1 (см. рис. 7) соединяются между собой посредством коммутатора ЕС1 под общим управлением ПЭВМ. Сетевые выходы КБ0 блока РВС-0.2-ВБ объединяются сетевым коммутатором стойки ЕС0, посредством которого можно установить прямые связи с любым из базовых модулей в составе стойки, минуя управляющие контроллеры блоков. Такое соединение вычислительных ресурсов позволит максимально эффективно использовать возможности реконфигурируемой элементной базы вычислительной системы РВС-1 Р. С одной стороны, быстрые каналы ЬУБ8 связывают вычислительные поля всех шестнадцати базовых модулей в единый вычислительный ресурс, позволяющий создавать многопроцессорную вычислительную систему со структурно-процедурной организацией вычислений в пределах четырех блоков РВС-0.2-ВБ, что дает возможность использовать все преимущества ресурсонезависимого программного обеспечения РВС. С другой стороны, система связей вычислительных блоков РВС-0.2-ВБ, благодаря сетевым технологиям, позволяет вычислительной системе РВС-1 Р приобретать черты кластерной ЭВМ, где в качестве элементов кластерной системы могут выступать как блоки РВС-0.2-ВБ, так и базовые модули 16У5-75.
ЕС0.4
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
ЕСО.З
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
I.
Стойка СТ-1Р#1
ЕС0.2
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
I
Стойка СТ-1Р #2
Ж
ЕС0.1
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
Стойка СТ-1 Р #3
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
РВС-0.2-ВБ
Стойка СТ-1Р #
Рис. 10. Сетевое соединение фрагментов вычислительных полей РВС-5
Старшим представителем семейства РВС является изделие РВС-5 с пиковой производительностью более 6 Тфлопс. Система РВС-5 предназначена для научно-исследовательских центров при решении прикладных задач различных предметных областей, требующих интенсивных информационных обменов, а также задач, допускающих «мелкозернистое» распараллеливание, таких как: моделирование сложных геофизических и гидродинамических процессов; цифровая обработка сигналов и изображений; молекулярное моделирование лекарств и материалов нового поколения; криптоанализ; мониторинг цифровых систем связи; томография; обработка информации и управление в реальном времени.
Вычислительная часть РВС-5 содержит пять стоек СТ-1Р, коммутатор ЕШете! ЕК5 и управляющую ЭВМ (УЭВМ). К управляющей ЭВМ с целью взаимодействия с оператором и для контроля состояния системы подключаются монитор, клавиатура, ручной манипулятор
(«мышь») и другие периферийные устройства.
Основным вычислительным ресурсом РВС-
5 являются вычислительные поля пяти стоек СТ-1Р. Между ПЛИС вычислительных полей стоек нет непосредственных быстрых ЬУБ8-каналов и в этом плане нет смысла говорить об объединенном вычислительном поле РВС-5. В РВС-5 одновременно функционируют пять вычислительных полей объемом 256 ПЛИС,
расположенных в пяти стойках СТ-1Р. Однако фрагменты этих вычислительных полей, составленные из вычислительных полей базовых модулей 16У5-75, блоков РВС-0.2-ВБ и стоек СТ-1 Р, могут соединяться множеством различных способов с помощью Б1Ьете1>связей с использованием сетевых технологий под общим управлением УЭВМ. Один из возможных способов соединения вычислительных ресурсов РВС-5 показан на рис. 10. Приведенная схема соединения может реализовать, как один из вариантов, сеть типа 2Б-тор для вычислительных полей блоков РВС-0.2-ВБ.
Современная концепция построения высокопроизводительных РВС и их базовых модулей на основе ПЛИС сложилась к началу 2000-х годов, когда для этого появилась возможность использования логических матриц с интеграцией в несколько миллионов эквивалентных вентилей. В период с 2000 по 2009 годы в НИИ МВС ЮФУ были созданы десятки типов базовых модулей и более десяти РВС различной производительности и назначения на их основе. В этом плане представляет несомненный интерес процесс эволюции аппаратной платформы высокопроизводительных РВС, созданных в НИИ МВС ЮФУ, поскольку он отражает передовой научно-технический уровень в области создания систем с большими вычислительными полями на основе ПЛИС.
В качестве примера рассмотрим характеристики базовых модулей 16Р25 и 16М50 [4, 6] в сравнении с характеристиками описанного выше базового модуля 16У5-75. В качестве объекта для сравнения с блоком РВС-0.2-ВБ целесообразно взять блок М200, созданный в 2006 году в НИИ МВС ЮФУ по Государственному контракту № 02.447.11.1007 в рамках федеральной целевой программы «Исследования и раз-
работки по приоритетным направлениям развития науки и техники на 2002-2006 гг.». Блок М200 включает четыре базовых модуля 16М50.
На рис. 11 показаны графики суммарной скорости передачи данных в каналах между распределенной памятью и вычислительным полем, в каналах межмодульного обмена и в каналах обмена между ПЛИС вычислительного поля.
Тбит/с
1,25 4
00-
75-
0,50-
0,25-
0
_____Суммарная скорость обмена между блоками
| [распределенной памяти и вычислительным полем
I----1 Суммарная скорость обмена с
I----1 другими базовыми модулями
I----1 Суммарная скорость обмена данными
I----1 между ПЛИС вычислительного поля
0,608
3,225
0,303
0,051 0,044
0,065 0,068
0,268
0,205
16^2
£ 16М50 16У5-75
Рис. 11. Графики суммарной скорости передачи в каналах базовых модулей
Гфлопс
200
О п/се к
- 30*10п
160-
120-
80
20*10
- 10*10''
Г флопс
Операций в секунду
17 3,2*10
16Р25
6,9*10
16М50
29,1*10
УіПех-ІІ (2004) 3*106 вентилей
УіПех-4 (2006) 4*106 вентилей
УіПех-5 (2008)
11*106 вентилей
Рис. 12. Графики производительности базовых модулей
Гфлопс Оп/сек
600— 120*101:
400 — 80*101:
200 — 40*101;
647,7
92,0
113,4
27,8*10
535,2 116,2*101:
423,2
0 ,
Блок М200 Блок РВС-0.2-ВБ
Рис. 13. Значения реальной производительности вычислительных блоков М200 и РВС-0.2-ВБ
20 -
16 —
12 -
4 -
2600*10
17,9
| Гфлопс/дм I 109 оп. в сек/дм3
— 1000
695*10а
5,0
20 —100
10 —50
144,0
6,5
Блок М200 Блок РВС-0.2-ВБ Блок М200 Блок РВС-0.2-ВБ
Рис. 14. Значения показателей «компактности» и «эффективности» блоков М200 и РВС-0.2-ВБ
В базовых модулях 16Р25 и 16М50 связи между ПЛИС вычислительного поля выполнены в виде обычных соединений печатными проводниками и рассчитаны на темп передачи данных 100 и 200 МГц, межмодульные связи выполнены на основе стандарта ЬУБ8 с темпом передачи 400 и 640 МГц. На базовом модуле 16У5-75 связи между ПЛИС вычислительного поля и межмодульные связи реализованы на основе стандарта ЬУБ8 на частоте 1200 МГц, что позволило существенно (в 3 - 4 раза) увеличить суммарную пропускную способность как внутримодульных, так и межмодульных каналов передачи данных.
На рис. 12 показаны графики производительности базовых модулей для операций с плавающей запятой одинарной точности и байтных
операций в секунду для задач символьной обработки.
Сравним по ряду параметров вычислительные блоки М200 и блок РВС-0.2-ВБ, содержащие по четыре базовых модуля 16М50 и 16У5-75.
На рис. 13 показаны значения реальной производительности вычислительных блоков М200 и РВС-0.2-ВБ.
Показатели «компактности» - отношение производительности вычислительных блоков к объему и «эффективности» - отношение стоимости блоков к производительности - приведены на рис. 14.
ЗАКЛЮЧЕНИЕ
Высокие показатели производительности, компактности и эффективности базового модуля 16У5-75 и блока РВС-0.2-ВБ на его основе достигнуты не только за счет прогресса в области ПЛИС, но и за счет целого комплекса прогрессивных технических решений, положенных в их основу. Технические параметры базового модуля 16У5-75 и блока РВС-0.2-ВБ позволили выполнить все требования, предъявляемые к представителям семейства РВС, заложенные в Государственном контракте № 02.524.12.4002. Базовый модуль 16У5-75 и блок РВС-0.2-ВБ могут служить основой для создания РВС различных конфигураций с реальной производительностью от 200 Гфлопс до 20 Тфлопс.
СПИСОК ЛИТЕРАТУРЫ
1. СуперЭВМ: области применения и требования к производительности / О.С Аладышев [и др.] // Известия ВУЗов. Электроника. 2004. № 1. С. 13-17.
2. Воеводин В. В., Воеводин Вл. В. Параллельные вычисления. СПб.: БХВ-Петербург, 2002. 599 с.
3. Каляев А. В., Левин И. И. Модульно-наращиваемые многопроцессорные системы со структурно-процедурной организацией вычислений. М.: Янус-К, 2003. 380 с.
4. Реконфигурируемые мультиконвейерные вычислительные структуры / И. А. Каляев. Ростов-на-Дону: Изд-во ЮНЦ РАН, 2009. 344 с.
5. Каляев И. А., Левин И. И. Семейство реконфигурируемых вычислительных системы с высокой реальной производительностью // Параллельные вычислительные технологии: Тр. междунар. науч. конф. ПАВТ’2009 [Электронное издание]. Нижний Новгород: НГУ им. Н. И. Лобачевского, 2009. С. 186-196.
6. Семейство базовых модулей для построения реконфигурируемых многопроцессорных вычислительных систем со структурно-процедурной организацией вычислений / И. В. Беседин [и др.] // Научный сервис в сети Интернет: технологии распределенных вычислений: матер. Всероссийск. науч. конф. М.: Изд-во Московск. ун-та, 2006. С. 47-49.
¿А
ОБ АВТОРАХ
Каляев Игорь Анатольевич,
дир. НИИ многопроцессорн. вычислительн. систем Южн. фед. ун-та. Д-р техн. наук, чл.-кор. РАН.
Левин Илья Израилевич, зам. дир. по науке НИИ многопро-цессорн. вычислительн. систем Южн. фед. ун-та. Д-р техн. наук.
Семерников Евгений Андреевич, зав. лаб. Южн. науч. центра Российск. акад. наук, канд. техн. наук