Научная статья на тему 'О топологической отказоустойчивости масштабируемых вычислительных систем'

О топологической отказоустойчивости масштабируемых вычислительных систем Текст научной статьи по специальности «Математика»

CC BY
445
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАСШТАБИРУЕМЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ / ИХ ТОПОЛОГИЧЕСКАЯ ОТКАЗОУСТОЙЧИВОСТЬ. / SCALABLE COMPUTING SYSTEMS / THEIR TOPOLOGICAL FAULT-TOLERANCE

Аннотация научной статьи по математике, автор научной работы — Мелентьев Виктор Александрович

Рассматриваются проблемы анализа топологической отказоустойчивости масштабируемой вычислительной системы (ВС) и обеспечения ее устойчивости к отказам заданной кратности. Предложен критерий топологической отказоустойчивости, напрямую связывающий топологию с потенциальным параллелизмом системы при заданной кратности допускаемых отказов. Определена взаимосвязь функций топологической масштабируемости и топологической отказоустойчивости систем. Показана обусловленность минимума топологической отказоустойчивости обхватом графа вычислительной системы. Модель параллельных вычислений, а также функции топологической отказоустойчивости и масштабируемости адаптированы к наличию уникальных узлов в информационной топологии решаемой задачи. Предложен способ конфигурирования отказоустойчивых подсистем при дефицитной топологической отказоустойчивости ВС, при этом обеспечение заданной для приложения кратности отказов достигается дублированием подсистем, сконфигурированных для меньшей, чем заданная, кратности отказов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On topological fault-tolerance of scalable computing systems

Problems of the analysis of topological fault tolerance of the scalable computing system and ensuring its sustainability to fault of the given multiplicity are considered. The measure of topological fault tolerance is offered, which connects the computing system topology with its potential parallelism for the given fault multiplicity. The relationship between the functions of topological scalability and topological fault tolerance is defined. The dependence of the minimum of a topological fault tolerance by the girth of the system graph is shown. Model of parallel computings, and functions of the topological fault tolerance and scalability are adapted to the existence of unique nodes in information topology of the solved task. A method for configuring fault-tolerant subsystems for a deficient topological fault tolerance of a computing system is proposed, while providing the preassigned fault multiplicity for the solved task is achieved by duplicating subsystems which are configured for less, than the preassigned, fault multiplicity.

Текст научной работы на тему «О топологической отказоустойчивости масштабируемых вычислительных систем»

УДК 021.8 + 025.1 ББК 78.34

О ТОПОЛОГИЧЕСКОЙ ОТКАЗОУСТОЙЧИВОСТИ МАСШТАБИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ 1

о

Мелентьев В. А.

(ФГБУН Институт физики полупроводников им. А.В. Ржанова СО РАН, Новосибирск)

Рассматриваются проблемы анализа топологической отказоустойчивости масштабируемой вычислительной системы (ВС) и обеспечения ее устойчивости к отказам заданной кратности. Предложен критерий топологической отказоустойчивости, напрямую связывающий топологию с потенциальным параллелизмом системы при заданной кратности допускаемых отказов. Определена взаимосвязь функций топологической масштабируемости и топологической отказоустойчивости систем. Показана обусловленность минимума топологической отказоустойчивости обхватом графа вычислительной системы. Модель параллельных вычислений, а также функции топологической отказоустойчивости и масштабируемости адаптированы к наличию уникальных узлов в информационной топологии решаемой задачи. Предложен способ конфигурирования отказоустойчивых подсистем при дефицитной топологической отказоустойчивости ВС, при этом обеспечение заданной для приложения кратности отказов достигается дублированиемподсистем, сконфигурированных для меньшей, чем заданная, кратности отказов.

Ключевые слова: масштабируемые вычислительные системы, их топологическая отказоустойчивость.

1 Работа выполнена при поддержке Российского фонда фундаментальных исследований, проект №14-07-00169а.

2 Виктор Александрович Мелентьев, кандидат технических наук ([email protected]).

1. Введение

Масштабирование системы, как правило, имеет целью увеличение производительности системы на задачах, критичных к времени их решения. Однако сопутствующий горизонтальному масштабированию экстенсивный рост количества используемых компонентов ведет к уменьшению времени наработки на отказ: порядка 20% вычислительной мощности высокопроизводительных систем теряется по причине возникших неисправностей и восстановления после них [2]. Поэтому в [15] особо выделена необходимость оперативного реконфигурирования мультипроцессорных сред и изоляции отказавших в процессе счета элементов, сохраняющего при этом эффект масштабирования; там же указывается на определяющее при этом значение системной топологии. Взаимосвязь и топологическая обусловленность масштабирования и отказоустойчивого функционирования ВС определяют потребность в совместном исследовании этих проблем именно в топологическом аспекте.

Несмотря на то, что известные проекты суперкомпьютеров класса «экзаскейл» (например, проект КНР [2]) предполагают использование межблочных шин с производительностью более 200 Гбит/с и латентностью менее 1,5 мкс, ключевой и наиболее насущной проблемой эксплуатации таких систем считается масштабирование и портирование ранее созданных приложений [3] с тем, чтобы они могли демонстрировать параллельную эффективность на вычислительном поле, не меньшем 20% используемых мощностей. В 2011 году это соответствовало 20 тысячам ядер, а к 2013 году это число увеличилось уже на порядок - до 200 тысяч [14].

Понятно, что в связи с нарастающей глобализацией информационных и вычислительных ресурсов интенсивность и кратность возникающих в таких системах отказов существенно возрастает. Эффективное их парирование требует адекватной и своевременной реакции на возникающие в связи с этим ситуации и заключается в поддержании функциональной и топологической целостности системы. Для исследования и реализации топологической целостности параллельных систем используют, как правило, две основные модели: модель с полной

к-отказоустойчивостью подсистем [20] и модель к-отказоустойчивых подсистем с амортизацией отказов.

Для первой модели характерна неизменность ранга р решаемой в подсистеме задачи даже при наличии к отказов, и к -отказоустойчивость достигается выявлением в графе ВС подграфа с минимизированной для заданных р и к вершинной избыточностью, достаточной для изоморфного (даже при удалении любых к вершин) вложения в него информационного графа задачи ранга р. Использование основанных на этой модели подходов в усовершенствовании и сопоставлении топологий вычислительных систем с позиции отказоустойчивости достаточно широко представлено как зарубежными [21, 22, 26] , так и отечественными исследованиями [1, 4, 5]. В качестве основного критерия при этом используют, как правило, максимальный при заданной кратности отказов размер подсистемы, образуемой для решения задач с некоторой вполне определенной информационной топологией, или максимальную при заданном размере подсистемы кратность допускаемых отказов.

В данной работе проблема топологической отказоустойчивости вычислительных систем рассматривается в контексте модели с амортизацией отказов, согласно которой при возникновении в процессе решения задачи отказов ее ранг (размер подсистемы) может изменяться до приемлемого значения. При этом, в отличие от обговоренной выше модели, анализ обусловленной топологией отказоустойчивости ВС обычно осуществляют для системной сети связи в целом, не ограничивая ее рамками подсистем, образуемых для решения определенных, обладающих характерными информационными топологиями, задач и используя, как правило, сетевые показатели, статистически усредненные на множестве возможных при заданной кратности отказов конфигураций. Из критериев, имеющих отношение к проблеме отказоустойчивости, используют также критерий синхронизуемости [19], связывающий топологию сети с возможностью бесконфликтного (в пределах заданных вре-меннъгс ограничений, ограничений на приращение трафика и т.п.) общения произвольных вершин. В [18] предложен основанный на спектральных методиках подход к определению устойчивости этого критерия.

Отметим, что в силу экспоненциальной сложности точного вычисления большинство таких показателей являются стохастическими. Использование многокритериальной оптимизации в практике построения ВС, как правило, еще более усложняет процессы анализа и синтеза обладающих совокупностью заданных свойств топологий при том, что условия совместности/несовместности критериев также не безусловны и обосновываются стохастически. К тому же использование таких показателей в анализе топологической отказоустойчивости крупномасштабных систем представляется нам не вполне правомерным не только из-за их «комбинаторной взрывоопасно-сти», связанной с непропорциональным (масштабированию системы и увеличению кратности отказов) ростом числа возможных конфигураций.

Во-первых, это связано с тем, что потенциалы эффективного масштабирования решаемых в системе задач совпадают с потенциалом системы лишь до некоторых пределов ее масштабирования. Поэтому, если для задачи существует предел эффективного распараллеливания, масштабирование системы сверх этого предела не приводит к аналогичному масштабированию ранга этой задачи, и число задач из решаемого набора, полностью использующих вычислительные (соответственно, и сетевые) ресурсы, с масштабированием системы будет сокращаться. Понятно при этом, что чем меньше в сравнении с системой размер подсистемы, тем в меньшей степени будет справедливым отнесение к ней сетевых показателей системы в целом. О недостаточной достоверности характеристики отказоустойчивости сетей статистически усредненными сетевыми критериями (в частности, средним расстоянием между узлами) говорится, например, в [17]. То же самое можно сказать и об использовании в сопоставлении топологий ВС таких критериев устойчивости к отказам как стабильность нагрузки узлов [25], стабильность диаметра, стабильность средних межузловых расстояний [17], стабильность связности [16] и о других традиционно используемых в анализе сетевой отказоустойчивости [13, 23] показателях.

Во-вторых, - и это, пожалуй, наиболее существенно - оценки влияния отказов на изменения потенциала параллелизма

вычислительной системы являются опосредованными через изменения ее сетевых характеристик. Отсутствие при этом формального соответствия значений сетевых показателей ВС ее потенциалу допускает, таким образом, не более чем качественную оценку топологической отказоустойчивости - на уровне «лучше/хуже».

Основная цель настоящей работы состоит в разработке критериев, не опосредованно, а напрямую связывающих топологию системы с потенциальным ее параллелизмом при заданной кратности допускаемых отказов. Приведено описание используемой при этом модели параллельных вычислений, обусловливающей получение требуемых при реализации приложений значений ускорения и эффективности в решении задачи ее рангом и предельным расстоянием между информационно смежными ветвями. Представлены способы описания лимитированных достижимостью и заданными значениями кратности отказов топологий ВС. Дано определение свойства топологической адекватности системы решаемым на ней задачам, предложен критерий оценки топологической отказоустойчивости, определена обусловленность топологической отказоустойчивости ВС обхватом ее графа. Установлена формальная взаимосвязь функций топологической отказоустойчивости и масштабируемости. Модель параллельных вычислений и эти функции адаптированы к наличию в приложениях уникальных ветвей. Предложен способ отказоустойчивой реализации приложений при дефицитной топологической отказоустойчивости системы.

2. Моделирование топологически отказоустойчивой масштабируемой вычислительной системы

2.1. ОПИСАНИЕ МОДЕЛИ

Зависимость масштабируемости параллельных систем и решаемых на них задач от топологии оценивается в [9] на модели параллельных вычислений, разделенной на две составляющие: первая (пп. 1-4) отнесена к параллельным приложениям и приписывает им свойства неограниченной распараллеливаемо-сти, вторая (пп. 5-10) характеризует систему, ограничения параллелизма в которой обусловлены дефицитным быстродей-

ствием интерконнекта. Суть применения такой модели состоит не в том чтобы получить основанные на игнорировании архитектуры реальные оценки максимально возможного ускорения практически больших задач, а в формальном обосновании вносимых архитектурными компонентами системы (в данном случае - топологией интерконнекта) ограничений основного ее качества - параллелизма и в получении инструмента сопоставления топологий, исходя именно из этого качества. К сожалению, традиционно используемые в исследовании топологий интерконнекта сетевые критерии с указанным качеством систем непосредственного формального соответствия не имеют.

Понятно, что необходимость единообразного для всех топологий сопоставления по их влиянию на ограничения параллелизма потребовало выбора единой «точки отсчета» - эталонного приложения, обладающего идеальным в отношении параллелизма потенциалом. Только при этом условии допустимо считать, что все ограничения параллелизма в системе связаны исключительно с ее топологией, и соответственно, характеризовать топологию достигаемым с ее использованием потенциалом. Идеализация только приложений (пп. 1-4) обеспечивает возможность единообразного сопоставления топологий в отношении максимально достигаемого при их использовании потенциала параллелизма.

Заметим также, что принцип единообразного сопоставления систем по оценкам их пиковой производительности реализован выбором соответствующих тестов (например, LINPACK, НРЦ). Неполные соответствия тестов практическим задачам в части используемых параллельных алгоритмов, в части форматов представления данных и/или их объемов и т.п. не позволяют перенести полученные с их помощью абсолютные значения производительности систем на решаемые задачи. Однако эти данные повсеместно используют для единообразной рейтинговой оценки производительности систем в целом (в действующих их конфигурациях, включающих типы используемых процессоров, их число, интерконнектные топологии и технологии, интерфейсы программирования и т.п.).

Итак, исходные пункты описания модели содержат следующие обозначения: W и w - измеряемые временем объемы

вычислений при решении произвольной задачи на одном и на p процессорах вычислительной системы; Q и q - измеряемые информационными единицами (байтами) объемы подлежащих обмену данных, соответствующие одному и p задействованным в системе процессорам. Итак,

1. Задача допускает разбиение на произвольное число p информационно связанных параллельных ветвей: 1 <p < да. Информационный граф распараллеленной на p ветвей задачи может быть нерегулярным, но обязательно связен.

2. Масштабирование данных в задаче с коэффициентом m увеличивает объем вычислений W и объем Q подлежащих обмену данных в m раз.

3. Общий объем вычислений W и объем Q подлежащих обмену данных при разбиении задачи на p параллельных ветвей не зависят от числа процессоров p и распределяются по ним равномерно: w = W/p и q = Q/p.

4. Параллельный алгоритм не содержит скалярных фрагментов - это свойство вытекает из сформулированных выше пп. 1 и 3.

5. Все процессоры системы идентичны, их общее число n достаточно для реализации на них p параллельных ветвей, и первоначальное предварительное распределение входных данных по задействованным в параллельном приложении процессорам не требуется.

6. Топология ВС является регулярной1 и неполносвязной.

7. Общие объемы W и Q не зависят от топологии сети связи и от используемой NT, и ограничения на минимальные объемы w и q отсутствуют.

8. Вычислительные и коммуникационные элементы ВС допускают совмещенную во времени работу.

9. Временные затраты на обмены пропорциональны расстояниям между информационно-связанными задачей вершинами графа ВС.

1 Степени всех вершин графа ВС одинаковы.

10. Совокупность используемых в вычислительной системе топологии и NT гарантирует отсутствие сетевых коллизий и связанных с ними задержек.

Использование предложенной в [9] модели позволило установить формальную связь объемов W вычислений и Q обмениваемых данных распараллеливаемой на p ветвей задачи с предельно допускаемыми расстояниями д между информационно смежными ее ветвями при заданных значениях ускорения -S = T\/Tp (здесь T и Tp - времена решения задачи на одном и на p процессорах соответственно) или эффективности использования задействованных в решении процессоров - E = S/p:

(1а) дs (p) = (1б) дЕ (p) =

Естественно, что предельные (для рассматриваемых в конкретных ВС приложений) значения достижимостей д различаются между собой тем значительнее, чем больше отличия в быстродействии используемых в этих ВС сетевых технологий (далее NT - Network Technology). Формулы (1а) и (1б), в которых tNT - известная для NT зависимость времени задержки от объема передаваемой информации, достаточно наглядно демонстрируют это. Они же устанавливают зависимость предельного расстояния между информационно смежными ветвями распараллеливаемой задачи от заданного ускорения и присущих ей объемов вычислительных и обменных операций. Таким образом, реализуемые в исследуемой ВС1 параллельные приложения могут быть классифицированы по значениям предельных для информационно смежных ветвей расстояний, соответствующих требуемым значениям ускорения S и/или эффективности E при условии топологической адекватности системы этим приложениям.

W

_ s • N (Q/p)_,

W

Р • Е • tNT (QIP)

1 Здесь и далее понятие ВС предполагает использование в ней вполне определенной ^с характерной для нее функцией tNT(Q/p).

Определение. Вычислительная система топологически адекватна задаче с присущими ей объемами Ж вычислительных операций и Q обрабатываемых данных, если топология системы позволяет сконфигурировать подсистему, в которой число процессоров р и предельное расстояние д между информационно смежными процессорами соответствуют заданным значениям ускорения Б и/или эффективности Е ее решения.

Понятие топологической адекватности ВС и реализуемых на ней параллельных приложений неоднократно используется в последующем тексте и базируется на описанной выше модели и формальном ее выражении зависимостями (1а), (1б). Напомним, что если решение (Ж, Q)-задачи обусловлено получаемым для нее ускорением Б, то число параллельных ветвейр в подсистеме определяет нижнюю границу числа используемых при этом процессоров, если же критерием является эффективность Е использования процессоров, то число параллельных ветвей р в подсистеме определяет верхнюю границу их числа [9].

При необходимости одновременного удовлетворения критериям ускорения и эффективности, требования к топологии и к используемой системой сетевой технологии существенно ужесточаются: топология системы с действующей в ней ЫТ должна быть привязана к информационной топологии задачи так, чтобы обеспечить превышение верхней (определяемой требуемой эффективностью Е) границы числа р над его нижней (обусловленной заданным ускорением Б) границей. Такое превышение может быть обеспечено, например, использованием более быстродействующей ЫТ, что в соответствии с (1а) позволяет использовать меньшее число процессоров. При конструктивной невозможности такого рода модификаций технологии сети связи и ее топологии, или при недостаточности этого для совместности Е и Б следует прибегнуть к поиску компромисса между ними, возможно, с масштабированием обрабатываемых задачей и передаваемых между ее ветвями данных [9].

Как видно из (1а), (1б), связанное с отказами уменьшение числа исправных процессоров в реализующих параллельные приложения подсистемах отрицательно сказывается на ускорении, но не на эффективности решения параллельных задач. Поэтому в нашей работе по умолчанию предполагается, что

предельно допустимое для информационно смежных процессоров подсистемы расстояние д определено из (1а), т.е. в соответствии с требуемым при отказоустойчивом решении задачи ускорением

Понятие изоморфизма в теории графов отражает взаимную однозначность (биективность) отображения вершин сопоставляемых графов одного порядка - при этом каждой вершине одного из них соответствует ровно одна вершина другого, и отношения смежности вершин и их образов совпадают. В теории вычислительных систем проблема изоморфизма состоит в выявлении в графе G системы подграфа, изоморфного информационному графу параллельной задачи W(p) с заданным числом p параллельных ветвей. Имеющая при этом место дискретность в отношении изоморфизма вложения графа W(p) в G (да/нет) не позволяет численно оценивать степень топологической адекватности вычислительной системы и реализуемых ею параллельных приложений. Такую возможность предоставляет введенный в [11] показатель масштабируемости р^, Ga) системы с G-топологией1 в реализации на ней задачи с W-топологией при определяемом из (1а), (1б) значении достижимости д:

р№ G) = п^, G)/n(G); здесь п^, Gд) = п^, G) - порядок максимального, изоморфно вкладываемого в граф д-достижимости системы Gд, подграфа задачи с W-топологией.

Равенство единице показателя G), говорит о том, что такой максимально вкладываемый подграф или является сугра-фом2 графа Gд, или изоморфен ему. Понятно, что если Gд-граф полон, то масштабируемость в нем д-задач с любой топологией максимальна и равна единице, т.е. он адекватен любым д-задачам независимо от их информационной топологии. Меньшие значения этого показателя для рассматриваемых в системе задач соответствуют меньшей топологической ее адекватности этим задачам.

1 Здесь топология системы задана графом G.

2 Суграф, или остовный (вершинно-порожденный) подграф - часть графа, имеющая то же множество вершин, что и сам граф.

Ниже даны определение, способ получения и примеры использования графа д-достижимости в исследовании топологической адекватности систем и решаемых на них задач.

2.2. ГРАФ д-ДОСТИЖИМОСТИ

Напомним определение введенного в [6] понятия д-достижимости как отношения смежности вершин в графе Gд, расстояние (длина простого пути) между которыми в графе G вычислительной системы не превышает значения д. Проиллюстрируем это простым примером сопоставления кольцевого графа G (рис. 1) и соответствующих ему графов 2- и 3-достижимости (рисунки 2 а и 2 б соответственно).

Рис. 1. Кольцевой граф G порядка п(О) = 12

Отметим, что все вершины рассматриваемого кольцевого графа дистанционно эквивалентны: /-окрестности любой пары вершин и, V е V, вплоть до равного диаметру й(О) индекса /, -попарно равномощны. Поэтому при построении графа д-достижимости Gд(G) можно ограничиться рассмотрением лишь одной вершины и ее расстояний до остальных вершин графа G. Напомним, что /-окрестность вершины и е V есть подграф [и] = Gi(u), индуцированный множеством вершин,

находящихся от вершины и е G на расстоянии1 /. Множество вершин, составляющих /-окрестность вершины и названы ее /-окружением [8].

а - граф 2-достижимости G2; б - граф 3-достижимости G3

Построенная из любой вершины х кольца (рис. 1) минимально полная2 его проекция Р6(х) является 6-уровневой, и диаметр такого графа ^О) = 6. Для определенности в проекции (2) в качестве ракурсной выбрана вершина 0, она же составляет нулевой уровень этой проекции. Плотность рассматриваемого графа <р(О) = р(О1) = 2, это означает, что число р процессоров, которые могут быть задействованы в решении информационно полносвязных задач, лимитированных достижимостью д = 1, не превышает двух: р < 2. Для информационно неполносвязных задач это число может быть большим двух, вплоть до р = 12 - для задач с кольцевой топологией.

1 Расстояние ^и, V) между вершинами и и Vравно длине кратчайшего соединяющего их пути.

2 Проекция графа является полной, если она содержит в себе описания всех его вершин и инцидентных им ребер. Проекция с минимальным для ее полноты числом уровней является минимально полной.

<3<4<5<6))>> Х6'))) (2) /6(0) = 0 >>>.

Построение графа д-достижимости Од(О) можно осуществлять с помощью матрицы смежности исходного графа О, однако, в сравнении с использованием описаний графа в виде проекций [10], такие построения, наряду с большей сложностью, еще и менее иллюстративны. Поэтому в изложении последующего материала использованы проективные описания топологии ВС.

Полные, построенные из ракурсной вершины х, проекции Р(х)(Од) графа 5-достижимости Од при 1 < д < ё(О) получим «сжатием» в д раз полной проекции Р(Х)(О) исходного графа О. Первый уровень выстраиваемой проекции Р(Х)(Од) при этом составят вершины, входящие в составы /-окружений (1 < / < д) ракурсной вершины. На каждый последующий у -й уровень проекции поместим вершины, составляющие /-окружения вершин (у - 1)-го уровня и связанные таким образом с вершинами у -го уровня графа Од отношениями смежности. Напомним, что вершины, составляющие в получаемой проекции пути из ракурсной вершины х в вершину у, из /-окружения вершины у необходимо исключать [10].

Используя для взятого нами в качестве примера кольцевого графа О модульную арифметику с модулем т, равным порядку «кольца» п(О) = 12, получим одноуровневые проекции /-окрестностей [х]/ = О/(х) любой из его вершин. Для 1- и 2-окрестностей это будут

(3) / ([х\) = х™,

(4) / ([ х]2 ) = х(х+2,х-2).

Сжав вдвое проекцию (2) объединением 1- и 2-окружений из окрестностей (3) и (4), получим полную проекцию графа 2-достижимости для нулевой ракурсной вершины:

ро)(С2>= 0 , , , •

Как видим, полная проекция Р(0)(О2) графа 2-достижимости кольца в отличие от (2) содержит всего 3 уровня, соответственно уменьшается диаметр - й(О2) = 3, и увеличивается плотность - (р(О2) = 3 (максимальная, она же наибольшая, клика

графа О2 порождается любыми тремя подряд расположенными вершинами {х, х + 1, х + 2}). Такое увеличение плотности означает, что на задачах с лимитируемой достижимостью д = 2 число параллельно используемых процессоров р может быть увеличено, как минимум, от трех (для полносвязных задач) до п(О) = 12 (для кольцевых задач).

Построенная из произвольной ракурсной вершины х е V проекция 3-окрестности «кольца» О имеет вид: (5) Р1[х]з = х(х+3х - 3)

Сжав (2) с учетом (3), (4) и (5), получим полную проекцию Р(о)(О3) графа 3-достижимости:

(2(3,4,5Д1) .,(2,4,5,6) _4(2!3,5,6,7)Д0(7,8,9,11)Д1(2,8!9!10)) ^^(3,4,10,11) .,(1,4,5,6)„(1,3,5,6,7) ,5(3,4,6,7,8) ^(2,8^0^ ^

р0)(£з) = 0 , ,

^(_з(1(2,4,10,11),2(1,4,5,11),4(1,2,5,6,7),5(2,4,6,7,8) ,6(4,5,7,8,9)) д(6(3,4,5,7,8),7(4,5,6,8Д0),8(5,6,7,10Д1) Д„(1,7,8Д1) Д1(1,2,8,10)) ^ (,1()(1(2,3,4,11),7(4,5,6,8,9),8(5,6,7,9,11),р(6,7,8,11)Д1(1,2,8,9)^1(1(2,3,4,10),2(1,3,4,5),8(5,6,7,9,10),р(6,7,8,10)Д0(1,7,8,9))^

В этой проекции все вершины графа 3-достижимости определены двумя уровнями, и, хотя диаметр й(О3) = 2, полнота описания ребер в О3 и, соответственно, полнота его проекции, достигается не на двух, а, как и в графе 2-достижимости, на трех уровнях. Степень этого графа в сравнении с О2 возрастает с четырех до шести, д-плотность при этом повышается с <рО2) = 3 до р(О3) = 4.

Общеизвестно, что кольцевая топология обладает крайне ограниченными возможностями в реализации параллельных задач с отличной от кольцевой информационной топологией. Это подтверждается и рассмотренными примерами, из которых видно, что смещение вверх предельного расстояния д между информационно смежными в задаче процессорами (от д = 2 до д = 3), которое при тех же (Ж, ^-параметрах задачи может быть достигнуто только повышением быстродействия используемой в системе сетевой технологии, но это даст лишь незначительное увеличение параллелизма приложений: для информационно полносвязных задач число параллельных ветвей может быть увеличено с трех (при д = 2) всего лишь до четырех (д = 3).

3. Топологическая отказоустойчивость масштабируемых вычислительных систем

Как мы уже указывали в описании используемой здесь модели (раздел 2.1), реализуемые исследуемой ВС параллельные приложения могут быть классифицированы по значениям предельных для информационно смежных ветвей расстояний д. Подобные ограничения длины пути, связанные с недостаточным для актуальности информационных обменов быстродействием сетевых технологий, имеют место и в других, например, в распределенных информационных системах. Поэтому ценность исследований, отнесенных к сети в целом и игнорирующих при этом потребности актуализации в ней информационных обменов, с увеличением масштаба сетей связи существенно снижается. Традиционное представление сетей связи графами, в которых отношения смежности вершин соответствуют физической смежности сетевых узлов, также не способствует исследованию сетей в реализации лимитированных транзитных взаимодействий, доля которых в общем объеме информационных обменов растет непропорционально сетевым масштабам. В описанных в разделе 2.2 графах д-достижимости смежность вершин обусловлена заданным предельно допускаемым расстоянием д > 1 между ними, и это позволяет коррелировать характеристики сети допускаемыми в ней задержками. Кроме того, применение таких графов в конфигурировании в ВС подсистем позволяет исключить возможность превышения допустимых задержек между информационно смежными ветвями задач.

Для исследования топологических аспектов устойчивости ВС к отказам кратности I в данной работе мы используем графы д(к )-достижимости, в которых смежность вершин, в отличие от графов д-достижимости, лимитирована не только допускаемым расстоянием д между ними, но и числом к = I + 1 не превышающих этого расстояния независимых путей. Отметим при этом, что понятие отказоустойчивости имеет различную окраску при отнесении его к сети связи ВС или к реализующей параллельное приложение подсистеме. В первом случае вполне допустимо использование традиционных сетевых показателей, отнесенных,

однако, не только к исходному графу ВС (с д = 1), а к производным от него графам д(к)-достижимости (с д > 1, к > 1). Если при этом в качестве критерия д(/)-отказоустойчивости сети связи ВС выбрать, например, связность, то отношение порядка д(к)-компоненты связности (компоненты связности графа д(к)-достижимости) к порядку исходного графа ВС даст достаточно наглядное представление о присущем рассматриваемой топологии ВС уровне ее отказоустойчивости. Однако в данной работе нас интересуют не топологические возможности системы в целом, а возможности отказоустойчивой реализации в ней параллельных приложений, и именно в этом аспекте приведено изложение последующего материала.

3.1. ГРАФ д(к)-ДОСТИЖИМОСТИ

Определим граф д(к)-достижимости Оад(О), он же - граф к(д)-соединимости Оад(О) [6], как надграф графа О(У, Е), дополненный ребрами между вершинами и, V, е V при наличии между ними в графе О не менее к независимых путей с длиной, не превышающей значение заданной достижимости д. Очевидно, что число к таких путей (соединимость информационно смежных в подсистеме вершин подграфа системы) должно по меньшей мере превышать заданную кратность I отказов: к > I + 1. В этом случае при удалении I каких-либо вершин из соответствующего выполняемой задаче подграфа ВС любые две из оставшихся в нем информационно смежных вершин по-прежнему останутся соединенными путем с длиной, не превышающей предельной для этой задачи достижимости д.

Построить полную проекцию графа д(к)-достижимости можно сжатием всего одной полной проекции исходного графа. При этом критерием помещения вершины на у -й уровень выстраиваемой проекции будет не просто присутствие ее в составе /-окружений (при 1 < / < д) вершин (у - 1)-го уровня, а ее повторяемость с кратностью т > к. Вместе с этим должен быть проведен анализ на независимость всех т д-путей между вершинами (у - 1)-го уровня и порожденными ими вершинами у -го уровня сопоставлением промежуточных на каждом пути вершин, при этом пути с непустым множеством совпадений считаются зави-

симыми Большее или равное к число выявленных таким образом независимых путей между вершинами и и V в графе О соответствует наличию ребра между ними в графе Од(к)(О).

Как мы уже упоминали выше, все вершины рассматриваемого нами кольцевого графа О - дистанционно эквивалентны, поэтому для построения графа Од(к)(О) достаточно единственной проекции графа О. Однако более наглядным будет построение графа д(к)-достижимости Од(к)(О) с использованием п(О) д-уровневых проекций исходного графа О(У, Е). В этом случае единственный, стоящий над нулевым, уровень проекции Р,[х]г \1 е годь определяет перечень смежных по отношению к х вершин в графе 0^(0). Здесь го^ - последовательность всех натуральных чисел от единицы до д. Далее условие перебора I-окрестностей от I = 1 до I = д в проекции Р^х] \1 е <х>д1 для компактности опускаем - Р^х]-.

Из приведенной в (2) проекции Р6(0) понятно, что граф 0д(2)(0) д(2)-достижимости исходного (рис. 1) кольцевого графа О при д < 6 не содержит ребер и, таким образом, является пустым - д < 6 ^ Ух е V Р,[х]г = х. Единичное значение плотности при этом указывает на отсутствие в системе возможностей конфигурирования отказоустойчивых подсистем для задач с д < 6. Если же допускаемое задачей расстояние между информационно смежными процессорами д = 6, то Р^х] = х(х + 6), граф О6(2)(О) образован шестью 2-вершинными (со смежными в этом графе вершинами х их + 6) компонентами связности - плотность графа и максимальная степень параллелизма полносвязных задач при этом равны двум. Для д = 8 получим Р1 [х] I = х(х+6, х х + 8, х - 7, х - 8). Полная проекция графа 8(2)-достижимости, построенная из нулевой вершины, при этом имеет вид:

,,(8(1,2,3)9(1,2,3,5),0(2,3,5,6),1(3,5,6,7)) (1(6,7,8,9) ,,(1,2,3,4) ,„(2,3,4,6) „(3,4,6,7),

Р (О ) - 0(4( , ),5( ))

Р(0)(О8(2)) — 0 ,

(_б(1(5,7,8,9),2(7,8,9,10),10(2,3,4,5)Д1(3,4,5,7)^(1(5,6,8,9),2(6,8,9,10),3(8,9,10,11)Д1(3,4,5,6))^

(1(5,6,7,9) 2(6,7,9,10) 3(7,9Д0Д1) 4(9Д0Д1), 0(8(1 ,2 ,3 ,4 ))

Соответствующие полученным при д = 6 и д = 8 проекциям графы О6(2)(О) и О8(2)О) приведены на рис. 3а и 3б. Как нетруд-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

но заметить, диаметры их - ^06(2)) = го и ё(08(2)) = 2, а плотности - ф(Об(2)) = 2 и ф^8(2)) = 3.

а - граф 6(2)-достижимости G6(2)(G); б - граф 8(2)-достижимости С8(2)(С).

3.2. ОБХВАТ ГРАФА ВС И ЕЕ ТОПОЛОГИЧЕСКАЯ ОТКАЗО УСТОЙЧИВОСТЬ

Рассмотренные в предыдущем разделе примеры подтверждают общеизвестный факт крайне низкого потенциала кольцевых топологий в реализации на ВС отказоустойчивых приложений: даже для топологически адекватных системе задач возможность отказоустойчивой их реализации может появиться только при сравнимой с порядком «кольца» достижимости: д > _п/2_. Это существенно ограничивает возможности масштабирования требующих отказоустойчивости приложений даже при использовании в ВС сверхбыстродействующих сетевых технологий: каким бы ни было быстродействие ЫТ в кольцевой ВС, число независимых цепей между любыми двумя вершинами не превысит двух, таким образом, кратность допускаемых в ней отказов не может превышать единицы: I < 1.

Однако из этих же примеров видно, что ограничения топологической отказоустойчивости ВС связаны с обхватом1 ее графа, который для кольцевых систем имеет предельное, равное порядку «кольца» значение. Но очевидно, что подобная обусловленность имеет место и для систем с любой другой топологией.

Утверждение. Обхватg графа О вычислительной системы не должен превышать удвоенного для отказоустойчивого решения задачи Ж значения достижимости д(Ж): (3) g(G) < 2д.

Доказательство. Если обхват g(G) графа ВС превышает удвоенное значение регламентируемой задачей достижимости д, то в этом графе по определению обхвата не найдется и пары вершин и, V е V, связанных хотя бы двумя независимыми цепями с длинами, не превышающими этой достижимости: д < ^(О)/2! ^ к (и, V) < 1. Следовательно, граф

д(к)-достижимости Од(к) будет пустым при отличной от нуля кратности I отказов, порядок компоненты связности в нем равен единице, что отрицает возможность конфигурирования отказоустойчивых подсистем с д < ^(О)/2! в принципе.

Понятно, что для набора реализуемых в ВС отказоустойчивых приложений обхват графа ВС обусловлен минимальным в наборе таких приложений значением достижимости дшш:

g(G) < 2дш,п.

Из (3) и отсутствия кратных ребер между вершинами графа ВС ясно, что для задач, в решении которых из-за дефицитного быстродействия ЫТ не может быть обеспечено большее единицы значение достижимости - д > 1, свойство топологической отказоустойчивости не реализуемо в принципе: даже при использовании полносвязной топологии: д = 1 ^ I = 0. Поэтому для того чтобы, например, гиперкубическая ВС была способна парировать однократные отказы, быстродействие ее ЫТ должно быть достаточным для обеспечения достижимости д > 2.

1 Обхватом графа называется длина его кратчайшего цикла.

Очевидно, что при кратности I > 1 отказов (к > 2) обусловленное задачами ограничение (3) обхвата графа ВС дополняется ограничением снизу его степени, которая, как и обхват, также влияет на диаметр графа и на его порядок. Это объясняется тем, что в я-регулярном графе с заданными значениями порядка п и степени я наибольшей компактностью1 обладают графы с наибольшими обхватами [12], и тем, что число к независимых цепей между двумя вершинами регулярного графа не может превышать его степени: к < я. Поэтому утверждение о том, что «снижение диаметра графа межмашинных связей ведет к увеличению эффективности и повышению надежности системы...» [12], может быть справедливым лишь в отношении эффективности, но не в отношении отказоустойчивости, так как при заданных значениях порядка и степени графа стремление к минимизации его диаметра ётт(О) требует увеличения обхвата до максимального значения gmax(G), которое, как известно [7], равно удвоенному диаметру gmax(G) = 2^тт(О). Это нарушает условие (3) для всех задач с меньшей этого диаметра достижимостью д < ётт(О) и, таким образом, приводит к полной утрате свойства топологической отказоустойчивости системы при решении таких задач.

3.3. ФУНКЦИЯ ТОПОЛОГИЧЕСКОЙ ОТКАЗОУСТОЙЧИВОСТИ ВС

В принципе, введенная в [9] функция топологической масштабируемости /Ые(О) способна дать представление и о топологической отказоустойчивости вычислительной системы. Для этого необходимо функцию плотности < (Од) графа О системы заменить определенной в разделе 2.3 плотностью рО^) и аргументировать рОад) не числом п = п(О) узлов в ней (при нулевой кратности отказов I = 0), как это делается в ^дО), а кратностью I = к - 1 отказов. Изменив при этом обозначение

1 Компактные структуры ВС определены как s-регулярные заданного порядка графы с минимально возможным диаметром.

функции топологической масштабируемости с ^д(О) на /Лел(п), получим:

(6) Рдл(п) = р(Оад)/п(О).

Давая, однако, количественную характеристику потенциала параллелизма ВС (какая часть общего числа п(О) процессоров может быть использована в /-отказоустойчивом решении д-задач) функция топологической масштабируемости отказоустойчивой ВС (6) дает лишь качественное представление об изменении этого потенциала в сравнении с изначальным (при / = 0) потенциалом - р^О), который у топологически различающихся ВС одного порядка, как правило, тоже различен.

Поэтому топологическую /-отказоустойчивость Оп,д(/) системы с О-топологией (п = п(О)) в решении д-задач определим отношением плотности Рак)(О) = рО^) графа д(к)-достижимости Од(к), соответствующей определенной для задач из (1а), (1б) достижимости д, и заданной кратности / > 1отказов (к = / + 1), к исключающей наличие отказов (/ = 0) плотности рд(О) = р(Од) графа д-достижимости Од:

(7) вп,(1) = Рд(к)(О)/рд(О).

Сравнивая (6) и (7), нетрудно заметить, что для заданных значений п, д и / функция топологической /-отказоустойчивости Оп,з(/) равна отношению функции топологической масштабируемости /-отказоустойчивой ВС (6) к функции топологической масштабируемости системы ^д(О) = рд(О)/п(О), определяемой в предположении отсутствия (/ = 0) отказов:

ОпА/) = Мд,/(п)/рд(О).

В отличие от традиционно используемых в сопоставлении ВС с различными топологиями сетевых показателей (диаметра, ширины бисекции), позволяющих судить лишь о качестве (лучше/хуже, больше/меньше) влияния топологии на потенциал распараллеливаемости задач в системе, показатели топологической отказоустойчивости ВС - (6) и топологической ее масштабируемости - (7) позволяют численно оценивать нижнюю (при распараллеливании в системе информационно д-полносвязных задач) границу такого потенциала при возникновении в процессе их решения отказов кратности /. Следует помнить, однако,

что такая оценка справедлива лишь при паритетности (идентичности) всех параллельных ветвей задачи.

3.4. НЕПАРИТЕТНОСТЬ ВЕТВЕЙ ЗАДА ЧИ И ТОПОЛОГИЧЕСКАЯ ОТКАЗО УСТОЙЧИВОСТЬ ВС

В практике параллельных вычислений далеко не редкими являются задачи, в которых отдельные параллельные ветви функционально или топологически отличны от остальных и в этом смысле такие ветви уникальны. К примеру, в задачах со звездной топологией уникальной является центральная вершина «звезды». То же можно сказать и в отношении используемых в решении задач схем информационного взаимодействия: наличие центрального узла свойственно трансляционной и коллекторной схемам обменов. Понятно, что для наделения свойством /-отказоустойчивости сконфигурированных под такие задачи подсистем процессоры, соответствующие х уникальным ветвям, должны быть /-кратно продублированы. Поэтому в сравнении с плотностью р(Оад) число процессоров, задействованных в решении таких задач при их информационно полной связности, уменьшится на произведение х-/ - соответственно уменьшаются значения топологической /-отказоустойчивости и топологической масштабируемости /-отказоустойчивой системы:

дд(Г)(О) = (<к)(О - /-х)/РдО),

ЯвдО) = (рд(к)О) - /-х)/п(О).

Для информационно неполносвязных задач, параллельные алгоритмы решения которых предполагают наличие уникальных ветвей (х > 0), информационный граф Ж исследуемой задачи следует дополнить такими /-х вершинами и инцидентными им ребрами, что окружение дублирующей вершины совпадает с окружением дублируемой уникальной вершины. Модифицированный таким образом граф задачи Ж обозначим Ж/. Для определения топологических отказоустойчивости и масштабируемости ^дк)(Ж, О) = [¿(Ж, Одк)) системы при /-отказоустойчивой реализации решения такой Ж-задачи следует определить порядок п(Ж/, Оад) = па(к)(Ж, О) максимального изоморфного графу Ж подграфа в графе д(к)-достижимости Од{к), здесь - к = / + 1. Способ выявления изоморфного вложения информационного

графа задачи в такие графы предложен и подробно рассмотрен в [6] и [8]. Тогда топологические отказоустойчивость и масштабируемость системы в решении таких задач определятся выражениями:

(8) ет(Ж, О) = (п(Ж/, Оад) - /-х)/рд(О),

(9) #/ъ(Ж, О) = (п(Ж/, Оад) - /х)/п(О).

Из (8), (9) ясно, что использование алгоритмов с непаритетными ветвями, существенно ухудшает потенциал отказоустойчивого и параллельного решения задач даже при их полной топологической адекватности системе.

Резюмируя вышесказанное, отметим, что требование топологической отказоустойчивости в решении задач ограничивает потенциал параллелизма в их решении тем в большей степени, чем выше поднята планка кратности допускаемых при решении задач отказов, так как п(Ж/+1, Ощ+т) < п(Ж/, Од/+у)) (для полносвязных задач - р(Од(к+Г)) < рО^)). При этом может случиться так, что необходимое для обеспечения ускорения £ задачи число процессоров р, соответствующее достижимости д и заданной кратности / отказов, топологически не может быть обеспечено: р > п(Ж/, Од(/+1)). Один из возможных способов решения этой проблемы приведем ниже.

Пусть топология ВС задана графом О, информационная топология решаемой задачи - графом Ж. Кратность допускаемых при решении этой задачи отказов отлична от нуля. Необходимое для обеспечения топологической /-отказоустойчивости число к независимых путей между процессорами, реализующими информационно смежные в задаче ветви, к = / + 1. Пусть полученное из (1а) минимальное число р процессоров, необходимое для получения заданного в решении данной задачи ускорения превышает порядок максимального изоморфного графу Ж/ подграфа в графе д(к)-достижимости Оад - р > п(Ж/, Оад). Пусть при этом существует некоторая отличная от нуля величина у < /, дополняющая до / значение кратности / - у отказов, при которой р < п(Ж/-у, Одк-у)). Тогда если в графе Одк-у) может быть организовано у + 1 подграфов Ж/-у с (/ - у)-отказоустойчивой для рассматриваемой задачи топологией, то устойчивость к кратности / отказов в решении задачи может быть достигнута у-кратным

резервированием топологически (/ - ^-отказоустойчивых подсистем.

4. Заключение

Наращивание ресурсов в системе и стремление к увеличению их загрузки неизбежно приводят к увеличению вероятности отказов и их кратности [24]. В этой связи основное требование к масштабируемым системам, состоящее в том, что они должны допускать наращивание ресурсов, обеспечивающее пропорциональный прирост производительности без глобальной перестройки архитектуры, следует дополнить требованием повышения устойчивости к отказам или сохранения ее как минимум на уровне, предшествующем масштабированию.

Потенциал параллелизма системы во многом ограничен топологическим потенциалом обеспечения информационно-логической целостности решаемых задач. Традиционно используемые при сопоставлении вычислительных систем с различными топологиями сетевые характеристики квалифицируют лишь, собственно, топологии без учета потенциалов параллелизма, достигаемых системой при их использовании, и могут быть, таким образом, не более чем качественными (лучше/хуже). То же можно сказать и об использовании этих характеристик в сопоставлении отказоустойчивости топологически отличающихся систем.

В работе дано краткое описание модели, формально связывающей объемные параметры параллельной задачи (объемы вычислений и обрабатываемых данных) и требуемые значения критериев актуальности (ускорения) или эффективности ее решения, с необходимыми при этом и обусловленными быстродействием используемой в системе сетевой технологии числом процессоров и предельными расстояниями (достижимостью) между ними. Основанное на такой модели свойство топологической отказоустойчивости ВС предложено оценивать относительным, при увеличении кратности / отказов, изменением плотности графа д(к )-достижимости, где к = / + 1 - число независимых с длиной, не превышающей д, цепей между процессо-

рами, соответствующими информационно смежным ветвям задач.

Показана формальная обусловленность топологической отказоустойчивости системы обхватом ее графа. Установлена формальная взаимосвязь топологической отказоустойчивости и топологической масштабируемости систем. Модель параллельных вычислений, функции топологической отказоустойчивости и топологической масштабируемости адаптированы к задачам, в которых отдельные параллельные ветви функционально или топологически отличны от остальных и в этом смысле являются уникальными. Рассмотрен случай с дефицитной в сравнении с заданной топологической отказоустойчивостью ВС, и предложен способ решения этой проблемы, когда обеспечение заданной для приложения кратности отказов может быть достигнуто дублированием подсистем, сконфигурированных для меньшей кратности.

Результаты работы могут быть полезны при исследовании деградации параллелизма действующих в условиях отказов систем, при выборе или генерации топологий вычислительных систем, ориентированных на отказоустойчивую реализацию набора решаемых задач, а также при распараллеливании таких задач и при конфигурировании соответствующих им подсистем. Использование полученных в работе результатов открывает также возможности детерминированного исследования и проектирования крупномасштабных информационных сетей с заданной устойчивостью к отказам в отношении сохранности и актуальности предоставления тех или иных информационных ресурсов, а также оптимизированного в соответствии с этим размещения их в сети.

Сетевые модели в управлении Литература

1. АБРОСИМОВ М.Б. Графовые модели отказоустойчивости: дисс. докт. физ .-мат. наук. - URL: https://cs.msu.ru/sites/ cmc/files/theses/doktorskaya_abrosimov.pdf (дата обращения: 18.10.2016).

2. ГЕРГЕЛЬ В.П., ЛИНЁВ А.В. Проблемы и перспективы достижения экзафлопногоуровня производительности суперкомпьютерных систем // Информационные технологии. Вестник Нижегородского университета им. Н.И. Лобачевского. - 2012. - №3(1). - С. 189-198.

3. Китай планирует построить суперкомпьютер уровня «экзаскейла» в 2020 году. - URL: http://www.thg.ru/ technews/20160503_110013.html/esk_tex.pdf (дата обращения : 03.06.2016).

4. КАРАВАЙ М.Ф. Применение теории симметрии к анализу и синтезу отказоустойчивых систем // Автоматика и телемеханика. - 1996. - №6. - С. 159-173.

5. КАРАВАЙ М.Ф., ПОДЛАЗОВ В С. Расширенный обобщенный гиперкуб как отказоустойчивая системная сеть для многопроцессорных систем // Управление большими системами. - 2013. - Вып. 45. - С. 344-371.

6. МЕЛЕНТЬЕВ В.А. Вложение подсистем, лимитирующих длину и число путей между вершинами графа вычислительной системы // Управление большими системами. - 2015. -Вып. 47. - С. 212-246.

7. МЕЛЕНТЬЕВ В.А. Компактные структуры вычислительных систем и их синтез // Управление большими системами. - 2011. - Вып. 32. - С. 241-261.

8. МЕЛЕНТЬЕВ В.А. Предельное конфигурирование подсистем в гиперкубических вычислительных системах // Информационные технологии и вычислительные системы. -М.: Федеральный исследовательский центр «Информатика и управление» РАН, 2015. - №2. - С. 20-30.

9. МЕЛЕНТЬЕВ В.А. О топологической масштабируемости вычислительных систем // Управление большими системами. - 2015. - Вып. 58. - С. 115-143.

10. МЕЛЕНТЬЕВ В.А. Формальные основы скобочных обра -зов в теории графов // Труды Второй Междунар. конф. «Параллельные вычисления и задачи управления» (PACO), 4-6 октября 2004 г., Москва, Россия. - 2004. - С. 694-706.

11. МЕЛЕНТЬЕВ В.А., ШУБИН В.И., ЗАДОРОЖНЫЙ А.Ф. Топологическая масштабируемость гиперкубических параллельных систем и задач // ISJ Theoretical & Applied Science. - 2015. - №11. - С. 122-129.

12. ПИНЧУК В.П. Базовые графы для построения топологии управляющих сетей многопроцессорных систем // Искусственный интеллект. - 2004. - №4. - С. 46-58.

13. СНАРСКИЙ А.А., ЛАНДЭ Д.В. Моделирование сложных сетей. Учебное пособие. - Киев: НТУУ «КПИ», 2015. -212 с. - URL: http://freescb.info/sites/freescb.info/files/ mss-new.pdf (дата обращения: 20.10.2016)

14. СТЕГАЙЛОВ В В., НОРМАН Г.Э. Проблемы развития суперкомпьютерной отрасли в России: взгляд пользователя высокопроизводительных систем // Программные системы: теория и приложения. - 2014. - №1(19). - C. 111-152.

15. Эксафлопные технологии. Концепция по развитию технологии высокопроизводительных вычислений на базе суперэвм эксафлопного класса (2012-2020 гг.). - URL: http://filearchive.cnews.ru/doc/2012/03/esk_tex.pdf (дата обращения: 01.06.2016).

16. ADHIKARIN., TRIPATHY C.R. The Folded Crossed Cube: A New Interconnection Networkfor Parallel Systems // Int. Journal of Computer Applications. - July, 2010. - Vol. 4(3). -P. 43-50. - URL: http://www.ijcaonline.org/volume4/number3/ pxc3871147.pdf (дата обращения: 20.10.2016)

17. ALBERT R., JEONG H., BARABASI A. Error and attack tolerance of complex networks // Nature. - 2000. - Vol. 406. -P. 378-382. - URL: http://barabasi.com/f/77.pdf (дата обращения: 20.10.2016).

18. BARAHONA M., PECORA L.M. Synchronization in Small-world Systems // Phys. Rev. Lett. - 2002. - Vol. 89, Iss. 5. -URL: https://doi.org/10.1103/PhysRevLett.89.054101 (дата обращения: 20.10.2016).

19. DONETTIL., HURTADO P.I., MUFIOZ M.A. Entangled networks, synchronization and optimal network topology // Phys. Rev.

Lett. - 2005. - Vol. 95, Iss. 18. - URL: https://doi.org/10.1103/ PhysRevLett. 95.188701 (дата обращения: 20.10.2016).

20. HAYES J.P. A graph model for fault-tolerant computing system // IEEE Trans. Comput. - 1976. - Vol. C.-25, No. 9. -P. 875-884.

21. HARARY F., HAYES J.P. Edge fault tolerance in graphs // Networks. - 1993. - No. 23. - P. 135-142.

22. HO T.-Y., SUNG T.-Y., HSU L.-H. A note on edge fault tolerance with respect to hypercubes // Applied Mathematics Letters. - 2005. - No. 18. - P. 1125-1128.

23. KLAU G.W., WEISKIRCHER R. Robustness and Resilience // Network analysis. - 2005. - P. 417-437. - URL: http://homepages.cwi.n1/~klau/pubs/kw-rr:2005.pdf (дата обращения: 20.10.2016).

24. MELENT'EV V.A. Reliability of elements of the computing system and its fault tolerance // ISJ Theoretical & Applied Science. - 2014. - №9(17). - P. 34-45.

25. NEWMAN M.E.J. A measure of betweenness centrality based on random walks // Social Networks. - 2005. - Vol. 27. -P. 39-54. - URL: https://pdfs.semanticscholar.org/0a57/ 5498f9e6bc0cc43b977c6e952101f89be90c.pdf (дата обращения: 20.10.2016).

26. ZIMMERMAN G.W., ESFAHANIAN A.-H. Chordal rings as fault-tolerant loops // Discrete Applied Mathematics. - 1992. -No. 37/38. - P. 563-573.

ON TOPOLOGICAL FAULT-TOLERANCE OF SCALABLE COMPUTING SYSTEMS

Victor Melentiev, Rzhanov Institute of Semiconductor Physics Siberian Branch of RAS, Novosibirsk, Cand. Sc., senior research associate ([email protected]).

Abstract: Problems of the analysis of topological fault tolerance of the scalable computing system and ensuring its sustainability to fault of the given multiplicity are considered. The measure of topological fault tolerance is offered, which connects the computing system topology with its potential parallelism for the given fault multiplicity. The relationship between the functions of topological scalability and topological fault tolerance is defined. The dependence of the minimum of a topological fault tolerance by the girth of the system graph is shown. Model of parallel computings, and functions of the topological fault tolerance and scalability are adapted to the existence of unique nodes in information topology of the solved task. A method for configuring fault-tolerant subsystems for a deficient topological fault tolerance of a computing system is proposed, while providing the preassigned fault multiplicity for the solved task is achieved by duplicating subsystems which are configured for less, than the preassigned, fault multiplicity.

Keywords: scalable computing systems, their topological fault-tolerance.

Статья представлена к публикации членом редакционной коллегии Н.Н. Непейвода.

Поступила в редакцию 20.09.2016.

Опубликована 30.11.2017.

i Надоели баннеры? Вы всегда можете отключить рекламу.