Научная статья на тему 'Функционально-ориентированные процессоры ключевые компоненты встроенных суперкомпьютеров для систем реального времени'

Функционально-ориентированные процессоры ключевые компоненты встроенных суперкомпьютеров для систем реального времени Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
531
204
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФУНКЦИОНАЛЬНО-ОРИЕНТИРОВАННЫЕ ПРОЦЕССОРЫ / СПЕЦИАЛИЗИРОВАННЫЙ ПАРАЛЛЕЛИЗМ / СБИС / СЛОЖНОСТЬ ВЫЧИСЛЕНИЙ / БОРТОВЫЕ СИСТЕМЫ УПРАВЛЕНИЯ / ОДНОРОДНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ / FUNCTIONAL-ORIENTED PROCESSORS / SPECIAL-PURPOSE PARALLELISM / VLSI / COMPLEXITY OF COMPUTATIONS / BOARD CONTROL SYSTEMS / HOMOGENOUS COMPUTER ENVIRONMENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лукин Николай Алексеевич

Среди возможных разновидностей суперкомпьютеров можно выделить такие, которые встроены в состав систем реального времени. Оптимизация архитектур таких суперкомпьютеров по производительности и аппаратным затратам весьма важна с точки зрения повышения эффективности их применения. Рассматривается архитектурное направление обеспечения высокой производительности суперкомпьютеров, которое реализуется с помощью введения в их состав функционально-ориентированных процессоров (ФОП). Описываются результаты исследований и разработок конкретных типов таких процессоров, которые могут быть взяты за основу при создании СБИС ФОП. В частности, приведены технические характеристики следующих видов ФОП: таблично-алгоритмических процессоры для быстрого вычисления математических функций с гарантированной точностью; параллельные ФОП с архитектурой SIMD для реализации алгоритмов корреляционно-экстремальной навигации на борту летательного аппарата; двумерные SIMDи MIMD-массивы, состоящие из битовых процессорных элементов для обработки изображений в реальном времени.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лукин Николай Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FUNCTIONAL ORIENTED PROCESSORS KEY ELEMENTS OF EMBEDDED SUPERCOMPUTERS FOR THE REAL-TIME SYSTEMS

There are many various kinds of supercomputers exists in the modern research and development activity. The supercomputers embedded into real-time systems are key components for high performance of these systems. Optimization of the architectures for embedded supercomputers is important for its top level application efficiency. Increase in performance by means of functional-oriented processors (FOP) including in the architectures of embedded supercomputers is a subject of our paper. The results of research and development of the certain kinds of FOP describes in the paper. It may be used for ASIC design. In particular technical parameters and brief description are given for the following FOP's: table-algorithmic coprocessors for fast computations of mathematical functions with guaranteed accuracy; parallel FOP with SIMD architecture for implementation of the algorithms of air-vehicle correlation-extremal navigation; 2D-arrays containing a large number of bit-level processor elements; there are two types of the architecture of these arrays 2D-SIMD and 2D-MIMD architectures for real-time image and signal processing.

Текст научной работы на тему «Функционально-ориентированные процессоры ключевые компоненты встроенных суперкомпьютеров для систем реального времени»

5. Jung Woo Kim, Jin Hong, Kunsoo Park. Analysis of the Rainbow Tradeoff Algorithm Used in Practice - JACR Cryptology ePrint Archive, 2013. Available at: http://eprint.iacr.org/ 2013/591.pdf (Accessed: 31 October 2014).

6. Hong J. The cost of false alarms in Hellman and rainbow tradeoffs, Des. Codes Cryptography, Dec. 2010, Vol. 57, pp. 293-327.

7. Hong J. and Moon S. A comparison of cryptanalytic tradeoff algorithms, J. Cryptology, 2013, Vol. 26, pp. 559-637.

8. Lee G.W., Hong J. A comparison of perfect table cryptanalytic tradeoff algorithms, Cryptology ePrint Archive, Report 2012/540. Available at: http://eprint.iacr.org/2012/540 (Accessed: 31 October 2014).

9. Как правильно мерять производительность диска. Available at: www.habrahabr.ru/post/ 154235/ (Accessed: 31 October 2014).

10. Project fio. Available at: http://freecode.com/projects/fio (Accessed: 31 October 2014).

Статью рекомендовал к опубликовнию д.т.н., профессор В.Ф. Гузик.

Колодзей Александр Владимирович - Научно-технический центр закрытого акционерного общества «ИнформИнвестГрупп»; e-mail: ak@iigroup.ru; 117587, г. Москва, Варшавское шоссе, 125, стр. 17; тел.: +74952870035; зам. директора по научной работе.

Kolodzey Alexander Vladimirovich - Informlnvest Group, CJSC, Scientific and Technical Center; e-mail: ak@iigroup.ru; 125, Varshavskoe shosse build. 17, Moscow, 117587, Russia; phone: +74952870035; deputy director on scientific work.

УДК 004.2; 004.38; 621.38

Н.А. Лукин

ФУНКЦИОНАЛЬНО-ОРИЕНТИРОВАННЫЕ ПРОЦЕССОРЫ -КЛЮЧЕВЫЕ КОМПОНЕНТЫ ВСТРОЕННЫХ СУПЕРКОМПЬЮТЕРОВ ДЛЯ СИСТЕМ РЕАЛЬНОГО ВРЕМЕНИ*

Среди возможных разновидностей суперкомпьютеров можно выделить такие, которые встроены в состав систем реального времени. Оптимизация архитектур таких суперкомпьютеров по производительности и аппаратным затратам весьма важна с точки зрения повышения эффективности их применения. В работе рассматривается архитектурное направление обеспечения высокой производительности суперкомпьютеров, которое реализуется с помощью введения в их состав функционально-ориентированных процессоров (ФОП). Описываются результаты исследований и разработок конкретных типов таких процессоров, которые могут быть взяты за основу при создании СБИС ФОП. В частности, приведены технические характеристики следующих видов ФОП: таблично-алгоритмических процессоры для быстрого вычисления математических функций с гарантированной точностью; параллельные ФОП с архитектурой SIMD для реализации алгоритмов корреляционно-экстремальной навигации на борту летательного аппарата; двумерные SMD- и MIMD-массивы, состоящие из битовых процессорных элементов для обработки изображений в реальном времени.

Функционально-ориентированные процессоры; специализированный параллелизм; СБИС; сложность вычислений; бортовые системы управления; однородные вычислительные системы.

* Работа выполнена частично за счет программы Президиума РАН № 18 "Алгоритмы и математическое обеспечение для вычислительных систем сверхвысокой производительности" при поддержке УрО РАН (проект 12-П-1-1028).

N.A. Lookin

FUNCTIONAL ORIENTED PROCESSORS - KEY ELEMENTS OF

EMBEDDED SUPERCOMPUTERS FOR THE REAL-TIME SYSTEMS

There are many various kinds of supercomputers exists in the modern research and development activity. The supercomputers embedded into real-time systems are key components for high performance of these systems. Optimization of the architectures for embedded supercomputers is important for its top level application efficiency. Increase in performance by means of functional-oriented processors (FOP) including in the architectures of embedded supercomputers is a subject of our paper. The results of research and development of the certain kinds of FOP describes in the paper. It may be used for ASIC design. In particular technical parameters and brief description are given for the following FOP's: table-algorithmic coprocessors for fast computations of mathematical functions with guaranteed accuracy; parallel FOP with SIMD architecture for implementation of the algorithms of air-vehicle correlation-extremal navigation; 2D-arrays containing a large number of bit-level processor elements; there are two types of the architecture of these arrays - 2D-SIMD and 2D-MIMD architectures for real-time image and signal processing.

Functional-oriented processors; special-purpose parallelism; VLSI; complexity of computations; board control systems; homogenous computer environment.

Введение. На протяжении последних двадцати лет развития вычислительной техники наблюдается высокая динамика изменения архитектур на всех уровнях обработки данных - от систем до процессорных ядер. Известные решения в части параллельных вычислений на уровне систем, например, кластерные архитектуры суперкомпьютеров, обладают особенностью - при наращивании числа процессоров замедляется рост производительности всей системы. Это обусловлено наличием накладных расходов на вычисления, например, ростом числа конфликтов при обращении к общим ресурсам при увеличении числа процессоров в системе. Такое свойство архитектур систем связано с использованием в качестве вычислительных модулей универсальных процессоров, т.е. в данном случае имеет место универсальный параллелизм [1]. Большинство архитектур современных суперкомпьютеров являются плохо масштабируемыми, что может препятствовать пропорциональному сокращению времени решения сложных вычислительных задач с помощью увеличения числа процессоров.

В то же время существуют подходы к параллельным вычислениям, основанные на реализации специализированного параллелизма [1]. В этом случае архитектура системы ориентирована на максимально быстрое решение задач из определенной предметной области, что обеспечивает масштабируемость и, соответственно, большую производительность при сравнимых аппаратурных затратах для упомянутых задач.

С другой стороны, если для универсальных систем существуют подходы к созданию инструментального программного обеспечения, то для систем со специализированными архитектурами таких подходов не существует. Поэтому разработчики подобных систем создают специализированные языки программирования, взяв за основу какие-либо универсальные алгоритмические языки (например, С). Возникает противоречие между ориентацией конструкций универсального языка на реализацию императивных принципов управления вычислениями, свойственных процессорным архитектурам фон-неймановского типа, и специализацией обработки данных, реализуемой, например, в машинах потоков данных. К этому следует добавить, что в настоящее время не разрешена общая проблема эффективного отображения алгоритмов на архитектуры, это создает значительные трудности не только на пути теории и практики языков программирования для архитектур со специализированным параллелизмом обработки данных, но и на пути создания самих архитектур такого типа.

Таким образом, универсальный параллелизм как направление повышения производительности вычислительных систем начал себя исчерпывать, а специализированный параллелизм еще практически не развит [2], [3].

Среди возможных предметных областей применения концепции специализированного параллелизма выделим класс суперкомпьютеров, встроенных в состав систем реального времени (EScomp-Embedded Supercomputers) [4]. Главное требование к таким суперкомпьютерам - сверхвысокая производительность при минимальных объемно-массовых характеристиках и потребляемой мощности. В пределе EScomp должны занимать ресурсы не более чем одной СБИС [5], что в ряде применений требуется уже сегодня.

1. Функционально-ориентированные процессоры. Несмотря на отсутствие общей теории проектирования специализированных процессорных архитектур, имеется достаточно много интересных частных подходов, использующих специфику функций, процедур, алгоритмов. К ним можно отнести теоретические и практические результаты, полученные в течение ряда лет в Санкт-Петербургской научной школе СПбГТУ (ЛЭТИ), созданной на кафедре вычислительной техники профессором В.Б. Смоловым и развитой его коллегами и учениками. В 1970-1980-х гг. ими была сформирована концепция функционально-ориентированных процессоров (ФОП) [6], которая, по мнению автора настоящей работы, наиболее верно отражает существо эффективной реализации алгоритмов на специализированных процессорных архитектурах. Эта концепция не потеряла своей актуальности и в настоящее время. В то же время разработанные в 1980-х гг. методы и практические рекомендации в части эффективности обработки данных с помощью ФОП необходимо развить применительно к специфике построения вычислительных устройств в виде СБИС или их подсистем. По отношению к методам специализированного параллелизма это означает оптимизацию вычислений по критериям сложности. В качестве меры сложности в настоящей работе будем иметь в виду сложность функций в базисе схем из функциональных элементов L [7] как случай битовой сложности вычислений, введенной А.Н. Колмогоровым [8]. Соответственно, под быстрыми алгоритмами будем понимать алгоритмы, битовая сложность которых может быть оценена как Q (м (n) log°n), где c - некоторая константа [9].

В настоящей работе предполагается реализация параллельных методов обработки данных с помощью частично однородных двумерных (2D) процессорных архитектур. Оценки сложности вычислений в этом базисе являются основой определяющих соотношений, связывающих основные параметры алгоритмов и архитектур ФОП, их реализующих. Соотношения, в свою очередь, составляют основу формализованных методов построения эффективных (т.е. рациональных или даже оптимальных по параметрам сложности) архитектур ФОП. Разработка методов синтеза и оптимизации архитектур позволяет создавать однокристальные СБИС ФОП, которые обеспечивают минимальное время реализации сложных вычислительных алгоритмов. Это дает основание для использования ФОП в качестве сопроцессоров на различных уровнях обработки данных во встроенных суперкомпьютерах систем реального времени.

В Группе микропроцессорных архитектур Института машиноведения УрО РАН в течение многих лет развивается теория проектирования ФОП для систем реального времени. Кроме того, совместно с Институтом радиоэлектроники и информационных систем Уральского федерального университета и НПО автоматики имени академика Н.А. Семихатова разрабатываются ФОП для конкретных систем реального времени. В настоящей работе рассматриваются результаты некоторых исследований и разработок в области ФОП.

2. Таблично-алгоритмические ФОП для вычисления математических функций. Вычисление функций является одним из наиболее разработанных разделов численных методов и в то же время это широко используемый математический аппарат в различных алгоритмах систем реального времени. Существуют разнообразные алгоритмы нахождения значения функций [10], каждый из них имеет свои особенности. Можно выделить основные параметры численных методов, существенно влияющие на их реализацию - скорость сходимости, степень внутреннего параллелизма, типы базовых преобразований. Анализ показывает, что определенным преимуществом среди известных обладают методы полиномиальной сплайн-аппроксимации, так как:

♦ базовыми операциями данной группы методов являются умножение и сложение, принципы реализации которых, по-видимому, наиболее разработаны;

♦ коэффициенты полиномов могут храниться в таблицах ЗУ, реализация которых является наиболее успешной среди всех компонент вычислительной техники (в первую очередь, в силу однородности своей структуры);

♦ полиномы как математические конструкции предоставляют значительную вычислительную гибкость, так как они могут обеспечивать как максимальный внутренний параллелизм при вычислении полинома в виде

m

У A • x' , где m - степень полинома, так и полностью последовательную

'=0

форму для варианта схемы Горнера.

Это дает возможность найти однозначную взаимосвязь между аппаратурными затратами и быстродействием, что является основой для оптимизации ФОП по критериям аппаратных или временных затрат. Базовой зависимостью, реализуемой в таблично-полиномиальных ФОП, является следующая:

m

P( X1, X 2) = У 4 ( x !)( X 2)', (1)

'=o

где A - коэффициенты полинома, представляющие собой функции действительного аргумента m, для которых справедливо условие: lim | A.m |< а, где

а - произвольное действительное число; m - степень полинома. В общем случае X1 Ф X2, таким образом, полином P является функцией двух переменных. Полином в виде (1) обобщает множество полиномов различных типов.

" n-" J

Пример. Пусть x 1 = 2— , X 2 = уьк 2~(ni+k), где a}, bk е Е2; nl < п;

j=1 k=1

X1 + X2 = X; nl - число двоичных разрядов Xl; п - число двоичных разрядов X. Это соответствует представлению некоторой аналитической функции действительного аргумента Ffö) в виде ряда Тейлора. При этом X1 - значения аргумента, в которых заданы опорные значения функции F(X), а Х2 - приращения к Х1. Кроме того, множество значений Х разбивается на подмножества Х1 и Х2 так, что {X} = {X1} u {X 2} при {X1} n {X 2} = 0. Тогда

Х1е[0,1 -2-n); Х2е[0,2-% -2-n).

Таким образом, имеет место простая разделительная декомпозиция Х в виде Х1 и Х2, что важно с точки зрения реализации самого процесса вычисления полинома.

Вычисление Р(Х1, Х2) по формуле (1) может быть произведено различными способами. Конкретизируем все разнообразие в параллельных алгоритмах вычисления полиномов следующими условиями:

♦ все разряды Х обрабатываются одновременно;

♦ операции умножения выполняются на функциональных узлах, называемых, соответственно, полями конъюнкторов и сумматоров, которые реализуют одновременное перемножение всех разрядов сомножителей, что обеспечивает максимальную степень параллелизма;

♦ операции сложения или вычитания реализуются на комбинационных многоразрядных сумматорах с одновременным формированием разрядных сумм и последовательным распространением переносов;

♦ вычисление коэффициентов полинома производится с помощью отдельных функциональных узлов, которые, могут быть реализованы либо в виде таблиц постоянной памяти, либо в виде схем из функциональных элементов.

Базовая зависимость (1) с учетом описанного выше представления аргументов может быть реализована с помощью архитектуры ФОП, приведенной на рис. 1.Основной принцип вычисления функций с помощью этого ФОП состоит в том, что код аргумента X разбивается на две независимые части - XI и Х2, а затем

производятся независимые вычисления функций ), степеней (Х2)' и пере-

множение их между собой с последующим итоговым суммированием.

Рис. 1. Базовая архитектура таблично-алгоритмического ФОП

Исследования показывают, что существенными параметрами для оптимизации и проектирования математических ФОП, являются минимально-допустимая степень полинома т для заданной погрешности вычисления функции (5Р), число опорных значений функции, равное 2й1, аппаратная сложность вычисления элементарных логических функций от двух и одной переменных - конъюнкции (/&), дизъюнкции (¡\) и инверсии (I —1).

Минимально-допустимая степень полинома может быть определена с помощью следующего рекуррентного алгоритма быстрого поиска:

n\+log щ -1)2+n • 2-(log2 m-1) - (n\+log щ -1)

(2)

m,+i =

где n1 - "старшая" часть кода аргумента. Анализ алгоритма показал, что он сходится при любых начальных условиях, предел сходимости является решением n

уравнения--J0g т = п\ — 0,5. В работе [11] была получена верхняя оценка

m

сложности вычисления полинома (1) в базисе схем из функциональных элементов. Она имеет вид:

j-FOP

Lh_

m

=[n2n1 + (V2n - n\)2] > (3)

где - аппаратная сложность вычисления функции в базисе схем из функциональных элементов в классе архитектур таблично-алгоритмических ФОП.

Кроме того, было показано, что всегда найдется такое 0 < п1ор( < п, что принимает минимальное значение. В прикладном аспекте это означает, что существует такое единственное разбиение аргумента X на "старшую" и "младшую" части Х1 и Х2, при котором достигается минимум сложности вычислений. Этот факт служит основанием для оптимизации СБИС ФОП по критерию аппаратных затрат. В целом, при реализации таблично-полиномиальных ФОП в базисе элементов СБИС возможно уменьшение аппаратурных и временных затрат от 2 до 5 раз относительно не оптимизированного варианта (п1=0) только за счет оптимальной декомпозиции кода аргумента (п1=п1ор1;). Дальнейшие этапы оптимизации ФОП связаны с синтезом оптимальных конфигураций блоков вычисления коэффициентов полинома, умножителей и сумматоров, а также с декомпозицией ярусно-параллельных форм графов алгоритмов вычисления полиномов [12]. Совокупность этапов дальнейшей оптимизации после нахождения п10^ может дать дополнительный выигрыш в аппаратурных затратах на реализацию ФОП. При этом могут быть получены (синтезированы) варианты архитектур ФОП, существенно отличающиеся от базовой.

В целом применение математических ФОП, оптимизированных по критериям аппаратных затрат или времени вычисления, может ускорить вычисление функций более чем на порядок относительно микропрограммной реализации, принятой в современных процессорных ядрах.

На основе предложенных подходов были разработаны ряд архитектур математических ФОП для одного из образцов бортовой ЦВМ, а также логический проект на 1Р-ядро таблично-алгоритмического ФОП для класса 64-разрядных вычислений в формате фиксированной точки.

3. Параллельные ФОП с архитектурой SIMD. ФОП данного вида предназначены для реализации алгоритмов широкого круга задач с явно выраженным параллелизмом - сортировка, поиск, классификация, линейная алгебра и т.п. Как правило, в большинстве случаев параллельные алгоритмы конкретных прикладных задач могут быть реализованы на архитектурах типа 81МБ, что достигается за счет соответствующих преобразований алгоритмов. В течение ряда лет разрабатывается подход к синтезу архитектур ФОП, основанный на БИ-преобразованиях ярусно-параллельных форм (ЯПФ) алгоритмических графов [8], где Б - ширина алгоритмического графа, И - его высота [14]. В качестве примера можно привести результаты работ по созданию ФОП с параллельной архитектурой для реализации алгоритмов привязки в задаче корреляционно-экстремальной навигации.

В качестве исходной выступает задача привязки местоположения летательного аппарата к заданному участку местности. На рис. 2 приведен обобщенный граф алгоритма задачи привязки для рельефометрической корреляционно-экстремальной навигационной системы. Применение БИ-преобразований, в частности, порождение

сложных функций [15], приводит к построению максимальной ЯПФ алгоритмического графа. В результате получаем алгоритм с максимальной степенью параллелизма, его граф приведен на рис. 3.

Рис. 2. Обобщённый алгоритм решения задачи привязки для рельефометрической

КЭНС

Следующим этапом синтеза архитектуры ФОП является взвешивание вершин (т.е. функциональных преобразований алгоритма) максимальной ЯПФ оценками сложности вычислений в базисе схем из функциональных элементов СБИС. В данном примере в качестве таких элементов были взяты одноразрядный полный сумматор и булевы функции 2-х переменных, после чего были получены оценки сложности уже базовых преобразований алгоритма привязки. К таким преобразо-

ваниям относятся r-разрядное вычитание, возведение в квадрат r-разрядного числа и нахождение минимума в массиве целых чисел. Это и было проделано для описываемой задачи.

Верхние оценки аппаратной и временной сложности вычислений для алгоритма привязки имеют вид [13]:

Lf < 60Г^max JmaxM'max , ^ < 4г(14 + [lcg2 Цтах ]), ^

Lf < 1 ^rtjmaxJmax ' < ^ (ijx )] ,

где r - разрядность вычислений; ц - параметр цикла (число каналов радиовысотомера); i, j - параметры цикла (размерность матрицы так называемой гипотезной сетки [13]). Верхние индексы обозначают циклическую и разовую части алгоритма соответственно. Анализ (4) показал, что архитектура ФОП практически полностью будет определяться циклической частью алгоритма привязки.

Исследования показали, что из всех возможных вариантов SIMD-архитектур следует выделить 4 основных типа, которые непосредственно связаны с модификациями максимальной ЯПФ алгоритма привязки. Кроме того, анализ выявил предпочтительность одного типа параллельной архитектуры, число процессоров в которой равно Max(i, J) и которая обеспечивает максимальную производительность среди рассмотренных типов при заданных ограничениях на аппаратные затраты. Алгоритм привязки относится к классу алгоритмов классификации или распознавания, поэтому представляет интерес применения упомянутой методики к разработке соответствующих сопроцессоров для встроенных суперкомпьютеров.

Рис. 3. Максимальная ЯПФ графа задачи привязки

На рис. 4 приведена архитектура одного из разработанных SIMD-ФОП для реализации алгоритма привязки.

Анализ аппаратных затрат в вентилях типа 2И-НЕ показал, что данный ФОП может быть реализован в виде кремниевого кластера СБИС (примерно 10 % площади кристалла размером 10х 10 мм2 для технологии CMOS с нормами 90 нм).

4. Высокопроизводительные ФОП на основе однородных вычислительных сред (ОВС-ФОП). Одним из подходов к созданию сверхвысокопроизводительных архитектур ФОП является использование однородных вычислительных

сред (ОВС). Реализация массового параллелизма обработки данных, которую потенциально реализуют ОВС, теоретически позволяет обеспечить предельную производительность при решении конкретных вычислительных задач.

Рис. 4. Архитектура Б1МБ-ФОП

Это привлекает исследователей и разработчиков к ОВС. Кроме того, однородные архитектуры идеальны с точки зрения использования особенностей полупроводниковой микроэлектроники. Это направление возникло в середине 1960-х гг., но недостаточный уровень развития технологии не позволил широко использовать ОВС для создания спецпроцессоров. В течение последних 20 лет ОВС вновь служат объектом исследований и разработок в ряде стран и организаций, при этом создаются новые подходы к проектированию ОВС и систем на их основе [16], [17].

Требования эффективной реализации сложных алгоритмов в условиях жестких пространственно-временных ограничений приводят все большее число исследователей и разработчиков к целесообразности применения реконфигурируемых локально-связанных процессорных массивов. Такие массивы являются разновидностью ОВС. Они могут представлять собой как реконфигурируемый массив битовых ПЭ (мелкозернистый параллелизм), так и однородную структуру, состоящую из кластеров, каждый из которых представляет собой ОВС.

Для обеспечения разработки и успешного применения ОВС требуется решение целого ряда проблем. Основными из них являются:

♦ Проблемы алгоритмизации. Архитектуры рассматриваемых ОВС принадлежат к классу систолических и потоковых. Это накладывает ограничения на классы алгоритмов - некоторые из них реализуются неэффективно (как правило, графы таких алгоритмов содержат значительное число пересекающихся дуг), а некоторые не могут быть реализованы вовсе (циклические графы). Максимально же эффективно реализуются на ОВС алгоритмы, графы которых являются решетчатыми. Поэтому одной из важнейших для ОВС является проблема разработки методов преобразования произвольных алгоритмических графов к виду решетчатых.

♦ Проблемы программирования. В настоящее время большинство используемых в компьютерной практике языков программирования являются императивными (например, С). Поскольку большинство ОВС имеют архитектуру МГМБ и являются машинами потоков данных, то непосредствен-

ное применение таких языков затруднительно и более предпочтительными являются так называемые функциональные языки (например, Haskell), гораздо менее разработанные. Кроме того, отсутствует теория построения компиляторов, основанных на "упаковке" алгоритмических конструкций в двумерную решетку ПЭ.

♦ Проблемы физической реализации. Значительное число ПЭ, требуемое для реализации современных алгоритмов (порядка сотен тысяч), входит в противоречие с ограничением на число внешних контактов и потребляемую мощность современных СБИС. Это важно в случае применения ОВС в бортовых системах.

Таким образом, архитектуры ОВС делают возможным глобальный параллелизм выполнения любых операций, процедур и алгоритмов, но для обеспечения этого необходимо решение целого ряда научных и инженерных проблем, охватывающих весь спектр решений в области вычислительной техники - от алгоритмических до конструкторско-технологических.

В течение последних 15 лет усилиями сотрудников Группы микропроцессорных архитектур ИМАШ УрО РАН в кооперации с ведущими приборостроительными предприятиями России (в первую очередь, НПО автоматики им. ак. Н.А. Семихатова, Екатеринбург) был разработан ряд ОВС-ФОП для реализации сложных вычислительных алгоритмов в реальном времени. К ним относятся следующие:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а) ОВС-ФОП на базе геометрико-арифметического параллельного процессора (ГАММ, аналог - GAPP, NCR, USA). Основой этого ФОП является систолическое операционное устройство (СОУ), которое представляет собой 2D-массив процессорных элементов (ПЭ), связанных между собой локальными связями. Каждый ПЭ содержит битовое АЛУ, систему коммутаторов и ОЗУ емкостью 128 бит. Была разработана архитектура заказной СБИС СОУ размерностью 8x8 ПЭ. Структура ПЭ приведена на рис. 5, а структура ОВС-ФОП на ее основе - на рис. 6.

Рис. 5. Структура ПЭ ОВС-ФОП с архитектурой SIMD

Разработка технологии СБИС СОУ была проведена во ФГУП НПЦ "Элвис", а изготовление - на ПО "Ангстрем" (Зеленоград, Россия). Технические характеристики СБИС СОУ приведены в табл. 1, микрофотография кристалла - на рис. 7.

Рис. 6. Архитектура ОВС-ФОП Технические характеристики СБИС СОУ

Таблица 1

Наименование характеристики Значение

Количество процессорных элементов Тактовая частота работы, МГц Количество внешних выводов, шт. Потребляемая мощность при f=10 МГц, мВт Площадь кристалла, мм*мм Технология изготовления 64 (8х8) 10 128 35 9x9 1,5-мкм КМОП

Рис. 7. СБИС СОУ

Для обеспечения реализации ОВС-ФОП была разработана однослойная си-талловая печатная микроплата размером 60*48 мм2, на которой размещается 8 бескорпусных кристаллов СБИС, что позволяет иметь 512 ПЭ на одну плату. Разводка шин питания, адресов локальных ОЗУ и синхронизирующих импульсов осуществлялась на каждой плате отдельно, это обеспечивало соединение всех плат между собой только через внешние контакты.

Для технологических норм 45 нм CMOS-технологии возможно реализовать 2D-массив ПЭ размерностью 128*128 в одном кристалле. Это открывает перспективу использования ОВС-ФОП в качестве сопроцессоров в составе процессорных ядер общего назначения, персональных компьютеров и суперЭВМ. Достоинством SIMD ОВС-ФОП является обработка данных под управлением одного потока команд, что существенно упрощает как само программирование, так и создание компиляторов.

б) ОВС-ФОП с архитектурой М1МБ. Начиная со второй половины 1990-х гг., кооперацией предприятий "Суперкомпьютерные системы (СКС)" (Москва), ИМаш УрО РАН и НПО автоматики (Екатеринбург) проводились совместные работы в российской части проекта СКИФ «Разработка и освоение в серийном производстве семейства высокопроизводительных вычислительных систем с параллельной архитектурой (суперкомпьютеров) и создание прикладных программно-аппаратных комплексов на их основе». Это была одна из приоритетных программ Союзного государства России и Белоруссии, в рамках которой предприятием СКС была разработана СБИС «Мшкега» [18], архитектура которой развивает концепцию М1МБ-ОВС. Каждая СБИС содержала 25 ПЭ и работала на частоте 30 МГц, структура ПЭ приведена на рис. 8. В Лаборатории ФОП ИМаш УрО РАН были проведены исследования, посвященные принципам реализации с помощью ОВС Мшкега алгоритмов повышенной вычислительной сложности для применения в БЦВС. Это быстрые алгоритмы умножения и деления числами произвольной разрядности со знаками, параллельной сортировки в больших массивах чисел, цифровой обработки точечных изображений, цифровой обработки сигналов, некоторых алгоритмов криптографии.

Рис. 8. Структура ПЭ ОВС Mtera 2

Общей особенностью реализации рассмотренных алгоритмов на МТМБ ОВС-ФОП является то, что всегда найдется такое значение параметров алгоритмов, начиная с которого время вычисления на МГМБ ОВС-ФОП будет всегда меньше, чем для известных процессорных платформ. Основной причиной этого является глобальное распараллеливание обработки данных, реализованное в М1МБ ОВС-ФОП. Была показана высокая эффективность ОВС данного типа при реализации широкого круга задач систем реального времени. В связи с этим можно рассматривать МГМБ-ОВС в качестве аппаратной основы для создания высокопроизводительных сопроцессоров в ВС различного назначения - от бортовых ЦВМ до суперкомпьютеров.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Лукин Н.А. Основы теории проектирования архитектур функционально-ориентированных процессоров для систем реального времени // Материалы Пятой Международной научной молодежной школы и Пятой Международной молодежной научно-технической конференции «Высокопроизводительные вычислительные системы», 31 августа - 6 сентября 2008, Таганрог. - Таганрог: Изд-во ТТИ ЮФУ, 2008. - С. 115-166.

2. Cui J., Bordim J.L., Nakano K., Hayashi T., Ishii N. Multithreaded Parallel Computer Model with Performance Evaluation // Workshop on Advances in Parallel and Distributed Computational Models. IPDPS 2000 Workshop.

3. Cristina Nicolescu and Pieter Jonker. Parallel low-level image processing on a distributed-memory system // Parallel and Distributed Computing in Image Processing, Video Processing, and Multimedia. IPDPS 2000 Workshop.

4. http://en.wikipedia.org/ wiki/Embedded_Supercomputing.

5. Reddi V. Supercomputer Performance on a Chip Powers Next-Generation Embedded Image Processing. http://rtcmagazine.com/articles/view/102184.

6. Водяхо А.И., Смолов В.Б., Плюснин В.У., Пузанков Д.В. Функционально ориентированные процессоры / Под ред. В.Б. Смолова. - Л.: Машиностроение. Ленингр. отд-ние, 1988. - 244 с.

7. Лупанов О.Б. Курс лекций по дискретной математике. - М.: Изд-во МГУ, 2006. - 38 с.

8. КолмогоровА.Н. Теория информации и теория алгоритмов. - М.: Наука, 1987. - 305 c.

9. Карацуба Е.А. Быстрые алгоритмы и метод БВЕ. http://www.ccas.ru/personal/ karatsuba/alg.htm.

10. ПоповБ.А. Вычисление функций на ЭВМ. - Киев: Наукова Думка, 1984. - 600 c.

11. Лукин Н.А. Архитектурный синтез функционально-ориентированных процессоров математических функций // Гироскопия и навигация. - 2003. - № 3. - С. 109-120.

12. Лукин Н.А. Параллельные алгоритмы вычисления математических функций и их количественные характеристики // Новые информационные технологии в исследовании дискретных структур. Доклады II Всероссийской конференции. - Екатеринбург: УрО РАН, 1998. - C. 157-172.

13. Лукин Н.А. Системное проектирование функционально-ориентированных процессоров для бортовых корреляционно-экстремальных навигационных систем // Вестник Самарского государственного аэрокосмического университета им. академика С.П. Королёва.

- 2009. - № 4 (20). - С. 218-236.

14. Воеводин В.В. Математические модели и методы в параллельных процессах. - М.: Наука, 1986. - 296 c.

15. Лукин Н.А. Функционально-ориентированные процессоры с однородной архитектурой для реализации алгоритмов бортовых систем управления // Высокопроизводительные вычислительные системы. Параллельные вычисления и задачи управления PAC0'2010: Труды V Международной конференции, г. Москва, 26-28 октября 2010 г. - Институт проблем управления им. В.А. Трапезникова РАН. - С. 1177-1185.

16. Богачев М.П. Архитектура вычислительной системы с однородной структурой. В кн. Однородные вычислительные среды. - Львов: ФМИ АН УССР. 1981.

17. Шмойлов В.И. Пульсирующие информационные решетки и суперкомпьютеры класса А.

- Львов: Меркатор, 2005.

18. http://www.minitera.ru/rus/win/pbm_proc_arh.html.

REFERENCES

1. Lukin N.A. Osnovy teorii proektirovaniya arkhitektur funktsional'no-orientirovannykh protsessorov dlya sistem real'nogo vremeni [Fundamentals of the theory of design architecture functionally-oriented processors for real-time systems], Materialy Pyatoy Mezhdunarodnoy nauchnoy molodezhnoy shkoly i Pyatoy Mezhdunarodnoy molodezhnoy nauchno-tekhnicheskoy konferentsii «Vysokoproizvoditel'nye vychislitel'nye sistemy», 31 avgusta -6 sentyabrya 2008, Taganrog [The proceedings of the Fifth International youth scientific school and the Fifth International youth scientific and technical conference "High performance computing", 31 August - 6 September 2008, Taganrog]. Taganrog: Izd-vo TTI YuFU, 2008, pp. 115-166.

2. Cui J., Bordim J.L., Nakano K., Hayashi T., Ishii N. Multithreaded Parallel Computer Model with Performance Evaluation, Workshop on Advances in Parallel and Distributed Computational Models. IPDPS 2000 Workshop.

3. Cristina Nicolescu and Pieter Jonker. Parallel low-level image processing on a distributed-memory system, Parallel and Distributed Computing in Image Processing, Video Processing, and Multimedia. IPDPS 2000 Workshop.

4. Available at: http://en.wikipedia.org/ wiki/Embedded_Supercomputing.

5. Reddi V. Supercomputer Performance on a Chip Powers Next-Generation Embedded Image Processing. Available at: http://rtcmagazine.com/articles/view/102184.

6. Vodyakho A.I., Smolov V.B., Plyusnin V.U., Puzankov D.V. Funktsional'no orientirovannye protsessory [Functionally oriented processors]. Leningrad: Mashinostroenie. Leningr. otd-nie, 1988, 244 p.

7. Lupanov O.B. Kurs lektsiy po diskretnoy matematike [Lectures on discrete mathematics]. Moscow: Izd-vo MGU, 2006, 38 p.

8. Kolmogorov A.N. Teoriya informatsii i teoriya algoritmov [Information theory and theory of algorithms]. Moscow: Nauka, 1987, 305 p.

9. Karatsuba E.A. Bystrye algoritmy i metod BE [Fast algorithms and the method of BWE]. Available at: http://www.ccas.ru/personal/ karatsuba/alg.htm.

10. Popov B.A. Vychislenie funktsiy na EVM [Calculation functions on the computer]. Kiev: Naukova Dumka, 1984, 600 p.

11. Lukin N.A. Arkhitekturnyy sintez funktsional'no-orientirovannykh protsessorov ma-tematicheskikh funktsiy [Architectural synthesis of functionally-oriented processors mathematical functions], Giroskopiya i navigatsiya [Gyroscopy and navigation], 2003, No. 3, pp. 109-120.

12. Lukin N.A. Parallel'nye algoritmy vychisleniya matematicheskikh funktsiy i ikh koli-chestvennye kharakteristiki [Parallel algorithms for computing mathematical functions and their quantitative characteristics], Novye informatsionnye tekhnologii v issledovanii dis-kretnykh struktur. Doklady II Vserossiyskoy konferentsii [New information technologies in the study of discrete structures. The reports of the II all-Russian conference]. Ekaterinburg: UrO RAN, 1998, pp. 157-172.

13. Lukin N.A. Sistemnoe proektirovanie funktsional'no-orientirovannykh protsessorov dlya bortovykh korrelyatsionno-ekstremal'nykh navigatsionnykh sistem [System design functionally-oriented processors for on-Board correlation-extremal navigation systems], Vestnik Samar-skogo gosudarstvennogo aerokosmicheskogo universiteta im. akademika S.P. Koroleva [Vestnik of Samara state aerospace University. academician S.P. Korolev], 2009, No. 4 (20), pp. 218-236.

14. Voevodin V.V. Matematicheskie modeli i metody v parallel'nykh protsessakh [Mathematical models and methods in parallel processes]. Moscow: Nauka, 1986, 296 p.

15. Lukin N.A. Funktsional'no-orientirovannye protsessory s odnorodnoy arkhitekturoy dlya realizatsii algoritmov bortovykh sistem upravleniya [Functionally-oriented processors with homogeneous architecture for implementing algorithms on-Board control systems], Vysokoproizvoditel'nye vychislitel'nye sistemy. Parallel'nye vychisleniya i zadachi upravleniya PACO'2010: Trudy V Mezhdunarodnoy konferentsii, g. Moskva, 26-28 oktyabrya 2010 g [High-performance computing systems. Parallel computing and control problems PACO'2010: Proceedings of the V International conference, Moscow, 26-28 October 2010]. Institut problem upravleniya im. V.A. Trapeznikova RAN, pp. 1177-1185.

16. Bogachev M.P. Arkhitektura vychislitel'noy sistemy s odnorodnoy strukturoy. V kn. Odnorodnye vychislitel'nye sredy [Architecture of computing systems with a homogeneous structure. In the book of Homogeneous computing environment]. L'vov: FMI AN USSR. 1981.

17. Shmoylov V.I. Pul'siruyushchie informatsionnye reshetki i superkomp'yutery klassa A [Pulsating information grids and supercomputers class A]. L'vov: Merkator, 2005.

18. Available at: http://www.minitera.ru/rus/win/pbm_proc_arh.html.

Статью рекомендовал к опубликованию д.т.н., профессор Л.Г. Доросинский.

Лукин Николай Алексеевич - Институт машиноведения Уральского отделения РАН; e-mail: nicklookin@mail.ru; 620049, г. Екатеринбург, ул. Комсомольская, 34; тел.: +73433788903; с.н.с.

Lookin Nickolay Alexeevich - Institute of Engineering Science, Urals Department of RAS; e-mail: nicklookin@mail.ru; 34, Komsomol street, Yekaterinburg, 620049, Russia; phone: +73433788903; senior scientist.

УДК 681.324, 519.21

В.А. Павский, К.В. Павский

СТОХАСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ОЦЕНКИ РАЗМЕРА СТРУКТУРНОЙ ИЗБЫТОЧНОСТИ МАСШТАБИРУЕМЫХ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ*

В рамках теории массового обслуживания построена математическая модель для оценки надежности функционирования вычислительных систем со структурной избыточностью. Модель формализована системой дифференциальных уравнений. Анализ статистики отказов вычислительных систем показывает, что поток отказов вычислительных узлов (элементарных машин) описывается распределением Вейбулла с параметром формы 0,73 и 0,78. Однако для этих форм математическая модель оказывается громоздка и не допускает аналитического решения. В то же время при форме 1 (экспоненциальное распределение) аналитическое решение может существовать. Получено аналитическое решение, позволяющее рассчитать показатели надежности. Найдена вероятность нахождения вычислительных систем в состоянии низкой производительности в зависимости от размера структурной избыточности. Для этой вероятности приведена оценка и ее погрешность. Предложен расчет математического ожидания и дисперсии числа отказавших машин в зависимости от времени. Обосновано использование экспоненциального распределения. Для расчета моментов использован подход, позволяющий записать систему дифференциальных уравнений непосредственно, минуя нахождение вероятности состояний системы. Полученные формулы и их оценки просты и могут быть использованы в инженер-ныхрасчетах. Результаты подтверждены имитационным моделированием.

Распределенные вычислительные системы; структурная избыточность; математические модели; надежность; оценки показателей; распределение Вейбулла; анализ.

V.A. Pavsky, K.V. Pavsky

STOCHASTIC SIMULATION AND INDICES ESTIMATIONS OF STRUCTURAL REDUNDANCY OF LARGE-SCALE COMPUTER SYSTEMS

The mathematical model for estimation of reliability of distributed computer systems (CS) functioning with reserve is constructed by using methods of queuing theory. The model is formalized with system of differential equations. Based on the statistics of failure for cluster CSs, it is preferable to assume that the time between failures is Weibull distributed with a shape parameter value 0.73 and 0.78. But the mathematical model with these parameters is laborious and doesn't have analytical solution. But the analytical solution for shape parameter values of 1 (exponential distribution) is possible. The analytical solution allowing to calculate reliability indices is obtained. The functional dependency of the probability of computer system's low performance on the reserve size is found. The estimations for this probability are offered. The calculation of mathe-

*

Работа выполнена при поддержке РФФИ (грант №13-07-00160). 66

i Надоели баннеры? Вы всегда можете отключить рекламу.