Научная статья на тему 'ПРОБЛЕМЫ ОРГАНИЗАЦИИ ВЫЧИСЛЕНИЙ В МНОГОМАШИННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ С ПРОГРАММНО-УПРАВЛЯЕМОЙ СБОЕ- И ОТКАЗОУСТОЙЧИВОСТЬЮ. ЧАСТЬ III'

ПРОБЛЕМЫ ОРГАНИЗАЦИИ ВЫЧИСЛЕНИЙ В МНОГОМАШИННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ С ПРОГРАММНО-УПРАВЛЯЕМОЙ СБОЕ- И ОТКАЗОУСТОЙЧИВОСТЬЮ. ЧАСТЬ III Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕННАЯ МНОГОМАШИННАЯ ВЫЧИСЛИТЕЛЬНАЯ СИСТЕМА / СБОЕ- И ОТКАЗОУСТОЙЧИВОСТЬ / ДИНАМИЧЕСКАЯ ИЗБЫТОЧНОСТЬ / ВРАЖДЕБНАЯ НЕИСПРАВНОСТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ашарина Ирина Владимировна

В трех частях работы проведен анализ существующих подходов и методов организации сбое- и отказоустойчивых вычислений в распределенных многомашинных вычислительных системах (РМВС), определен и обоснован перечень задач, подлежащих решению. Рассмотрены области применения сбое- и отказоустойчивых систем управления сложными сетевыми и распределенными объектами. В части III, завершающей исследование проблем организации сбое- и отказоустойчивости в РМВС, выполненное в частях I и II данной работы, рассмотрены вопросы, связанные с диагностированием кратных неисправностей. Приведены особенности обеспечения отказоустойчивости в системах, имеющих широковещательные каналы связи и каналы связи "точка-к-точке".

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ашарина Ирина Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ISSUES OF ORGANIZING COMPUTATIONS IN MULTICOMPUTER SYSTEMS WITH THE SOFTWARE-CONTROLLED FAILURE- AND FAULT-TOLERANCE. PART III

This three-part paper analyzes existing approaches and methods of organizing failure- and fault-tolerant computing in distributed multicomputer systems (DMCS), identifies and provides rationale for a list of issues to be solved. We review the application areas of failure- and fault- tolerant control systems for complex network and distributed objects. The third part proceeds with the study of the problems of organizing failure- and fault-tolerant computing in distributed multicomputer systems (DMCS), carried out in parts I and II of this work, and deals with the issues related to the diagnosis of multiple faults. The paper describes the main differences in ensuring fault tolerance in systems with broadcast communication channels and point-to-point communication channels.

Текст научной работы на тему «ПРОБЛЕМЫ ОРГАНИЗАЦИИ ВЫЧИСЛЕНИЙ В МНОГОМАШИННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ С ПРОГРАММНО-УПРАВЛЯЕМОЙ СБОЕ- И ОТКАЗОУСТОЙЧИВОСТЬЮ. ЧАСТЬ III»

УДК 62-501.72:681.326.7

БОТ: 10.18698/2308-6033-2021-8-2106

Проблемы организации вычислений в многомашинных вычислительных системах с программно-управляемой сбое- и отказоустойчивостью. Часть III

© И.В. Ашарина АО «НИИ «Субмикрон», Москва, Зеленоград, 124460, Россия

В трех частях работы проведен анализ существующих подходов и методов организации сбое- и отказоустойчивых вычислений в распределенных многомашинных вычислительных системах (РМВС), определен и обоснован перечень задач, подлежащих решению. Рассмотрены области применения сбое- и отказоустойчивых систем управления сложными сетевыми и распределенными объектами. В части III, завершающей исследование проблем организации сбое- и отказоустойчивости в РМВС, выполненное в частях I и II данной работы, рассмотрены вопросы, связанные с диагностированием кратных неисправностей. Приведены особенности обеспечения отказоустойчивости в системах, имеющих широковещательные каналы связи и каналы связи «точка-к-точке».

Ключевые слова: распределенная многомашинная вычислительная система, сбое- и отказоустойчивость, динамическая избыточность, враждебная неисправность

Введение. Во второй части обзора [1] были рассмотрены вопросы системного, функционального, тестового диагностирования при построении необслуживаемых сбое- и отказоустойчивых систем. Отмечено, что технология самодиагностирования особенно важна при построении необслуживаемых систем.

Освещены вопросы полноты и надежности тестирования. Определено, что для современных систем со значительными сроками активного существования не подходят методы маскирования неисправностей, поскольку длительный срок активного существования может обеспечить только реализация управляемой деградации, использующей исправные компоненты системы до последней возможности. Приведены подходы к реализации метода обнаружения и идентификации проявлений допустимых неисправностей самого широкого класса в коммутационной структуре, определения на его основе возможных значений посылаемых данных и формирования предложений для следующего этапа деградации такой структуры.

Введено понятие самоуправляемой деградации среды, под которой понимается способность системы самостоятельно и своевременно обнаруживать и идентифицировать обнаруженные проявления неисправностей ее компонентов и при возникновении допустимых отказов реконфигурировать свою структуру и переходить в следующее допустимое работоспособное состояние с возможным приемле-

мым снижением собственных характеристик производительности и надежности с переходом в состояние безопасного останова при достижении критического уровня деградации.

Для достижения конечной цели системного диагностирования — восстановления работоспособного состояния системы — необходимы обнаружение и идентификация случившихся проявлений неисправностей как по месту возникновения неисправности, так и по их виду. В связи с этим предлагается следующее уточнение видов проявлений неисправностей:

• сбой цифровой вычислительной машины (ЦВМ);

• программный сбой ЦВМ;

• отказ ЦВМ.

Диагностирование кратных неисправностей. Современные сбое- и отказоустойчивые системы приобретают огромные масштабы, становятся многозадачными, проникают во все области человеческой деятельности. Поэтому останавливаться на диагностировании лишь одиночных неисправностей просто нет возможности. С учетом размеров систем требуется проведение исследований в области диагностирования кратных неисправностей, в том числе и носящих «враждебный» характер.

Наиболее часто встречающиеся модели многомашинных вычислительных систем (МВС) представляют собой те или иные графовые структуры, свойства которых в каждом конкретном случае максимально соответствуют рассматриваемым или обеспечиваемым свойствам реальной МВС. В работе [2] продолжены исследования графовых моделей отказоустойчивых систем, которые были построены с использованием методов синтеза, предложенных М.Ф. Караваем [3]. Эти исследования показали, что если число избыточных вершин графа совпадает со степенью отказоустойчивости к, то число избыточных хорд быстро возрастает с увеличением значения к. В [2] представлен способ реконфигурации избыточного графа, являющийся вариантом скользящего резервирования, позволяющий использовать избыточные хорды для устранения влияния некоторого числа т > к отказавших хорд графа, значение которого зависит от структуры целевого графа, значения к и топологии возникновения отказов.

Эта работа нашла свое продолжение в [4], где показан подход к организации путевого метода диагностирования цифровых систем (ЦС) со структурой симметричного двудольного графа. Для описания результатов тестирования модулей использована модель Препарата — Метце — Чжена (ПМЧ-модель) [5]. Предполагается, что в системе есть диагностический монитор, который инициирует процессы диагностирования. Для оценивания величины диагностируемо-сти анализируемых ЦС применен метод потенциальных синдромов.

Показано, что анализируемые ЦС являются не больше чем 1-диагностируемыми ЦС без ремонта. Для системы, включающей семь процессоров и семь блоков памяти, рассмотрен пример с недостоверным диагностированием трех неисправных компонентов.

Здесь под ЦС понимаются модели многомашинных или многопроцессорных вычислительных систем, отражающие необходимые диагностические свойства и параметры анализируемых МВС [6]. Модель рассматриваемой здесь МВС представлена симметричным двудольным графом, состоящим из двух подмножеств вершин X и У равной мощности п и имеющим ребра, одна из концевых вершин которых принадлежит подмножеству Х(У), а другая — подмножеству У(Х) [7]. В числе возможных областей применения графов указанного семейства называют структуры МВС, где, например, подмножество вершин X представляет совокупность процессорных элементов или вычислительных машин, а подмножество вершин У — блоки или банки памяти. Задача диагностирования компонентов ЦС со структурой симметричного двудольного графа раскрыта в [8, 9], где для описания результатов проверки компонентов использована модель Барси — Гран-дони — Маэстрини (модель БГМ) [10].

В путевом методе самодиагностирования технического состояния компонентов (модулей и линий связи) ЦС с циркулянтной структурой [11], особенностью которого является использование 0-путей (в терминологии из [12]) при выборе проверяющих модулей и передаче результатов выполненных проверок, для описания результатов проверки компонентов используется ПМЧ-модель [5].

Запуском процессов диагностирования в различных подсистемах ЦС и обработкой полученных результатов занимается исправный диагностический монитор (ДМ), который находится в модуле, внешнем по отношению к диагностируемой ЦС.

Разработан подход к организации путевого метода диагностирования ЦС со структурой симметричного двудольного графа, обеспечивающего ДМ достоверной информацией для дешифрации полученных результатов диагностирования состояния компонентов (процессоров, блоков памяти, линий связи) системы.

Максимальное число одновременно неисправных и произвольно расположенных компонентов, однозначно диагностируемых по результатам однократного тестирования системы, называется степенью I диагностируемости системы. Аналитические оценки степени диагностируемости ЦС, построенных с помощью двух (и более) типов компонентов, неизвестны.

Для получения искомой величины I анализируемой ЦС использован метод потенциальных синдромов [13].

Предложенная тематика получила развитие в [6], где разработан подход к оцениванию величин диагностируемости (ЦС) с новой структурой — минимального квазиполного графа размера 7*7. Предложенные оценки величин диагностируемости рассматриваемых ЦС устанавливаются на основе результатов диагностирования отка-зовых ситуаций в системе из 7 абонентов и 7 коммутаторов. Рассмотрено два варианта организации диагностирования компонентов анализируемой ЦС, для которых установлены различающиеся оценки диагностируемости.

Согласно [6], минимальный квазиполный граф образуется на основе однородного двудольного графа, одну долю которого составляют коммутаторы /*/, а другую — /-портовые абоненты. В одной доле имеется N коммутаторов, а в другой — N абонентов. Значение / выбирается минимальным, при котором любые два узла в одной доле связаны а путями длины два через разные узлы в другой доле. Каждый такой путь проходит через один коммутатор, и разные пути проходят через разные коммутаторы [14]. Для рассматриваемых топологий параметры N и / связаны соотношением

N = Щ-И +1 а

и не могут быть взяты произвольно.

В числе возможных областей применения графов с подобной новой структурой называют отказоустойчивые МВС реального времени, где подмножество вершин одной доли представляет совокупность процессорных элементов или вычислительных машин, а подмножество вершин другой доли — коммутаторы.

Максимальное число одновременно неисправных и произвольно расположенных компонентов, однозначно диагностируемых по результатам однократного тестирования системы (без ремонта), называется величиной I диагностируемости системы [5].

В [6] была поставлена цель — получить оценку величин диагно-стируемости компонентов (абонентов, коммутаторов) по результатам однократного диагностирования (без ремонта) ЦС со структурой минимального квазиполного графа размера 7*7.

Аналитические оценки величин диагностируемости ЦС, построенных с использованием двух (и более) типов компонентов, неизвестны. Для рассматриваемых ЦС, содержащих компоненты двух типов, в [6] предлагается ввести несколько оценок величин диагностируемости. Для единообразия абоненты названы компонентами 1 -го типа, а коммутаторы — компонентами 2-го типа.

Задача в [6] была поставлена следующим образом. Исходная ЦС со структурой минимального квазиполного графа размера 7*7 представлена структурным графом, у которого N вершин одной доли пред-

ставляют абоненты (процессоры) системы, N вершин другой доли — коммутаторы, причем каждый абонент связан с каждым другим абонентом двумя путями, проходящими через два разных коммутатора.

Согласно утверждению авторов [6], допускаются устойчивые, возникшие до проведения процесса диагностирования отказы ограниченного числа вершин: абонентов и коммутаторов, причем их неисправности прекращают работу компонентов, в которых они возникают, и не влияют на работоспособность смежных компонентов. Линии связи между компонентами считаются исправными. Диагностическими процедурами в системе занимается диагностический монитор, исправный по условию модели, однако в случае его неисправности модель не работает. Показано, что анализируемые ЦС являются не больше чем 1 -диагностируемыми ЦС без ремонта. Поэтому, несмотря на интересные модели и методы, предложенные в работах В.А. Ведешенкова [2, 4, 6, 8, 9, 11, 13], они не подходят для использования их необслуживаемых сбое- и отказоустойчивых распределенных системах ответственного применения с длительными сроками активного существования.

Широковещательный способ передачи в МВС часто используется при построении архитектуры МВС наряду со способом передачи «точка-к-точке». Но понятие широковещательной передачи с ограничениями по набору ($СВ-Ътоайса${) введенное в [15], представляет собой новую высокоуровневую коммуникационную абстракцию, которая фиксирует свойства упорядочения не между отдельными сообщениями, а между наборами сообщений. В [15] авторы поставили цель — предоставить пользователям соответствующего уровня абстракции, когда им приходится реализовывать объекты или распределенные задачи в асинхронной системе передачи сообщений, в условиях возможного проявления неисправности.

Предложенный в [15] способ передачи БСБ-Ьгоаёсав! подходит для асинхронных систем передачи сообщений, в которых вычислительные объекты (процессы) могут завершиться аварийно. БСБ-broadcast позволяет процессам транслировать сообщения и доставлять наборы сообщений (вместо последовательной доставки отдельных сообщений) и имеет следующие особенности:

• он может быть реализован в асинхронных системах передачи сообщений, где любое меньшинство процессов может оказаться неисправным;

• его временные затраты ограничены двукратной задержкой в сети, а сложность его алгоритма составляет 0(п2 );

• его совместимость аналогична атомарному регистру чтения/ записи (т.е. все, что может быть реализовано в асинхронных системах чтения/записи, может быть реализовано с помощью БСБ-Ьгоаёсав^;

• при заинтересованности пользователя в реализации параллель-

ного объекта ОЬ, простое ослабление атомарной реализации ОЬ на основе БСБ-широковещательной рассылки обеспечивает реализацию на основе алгоритма БСБ-Ьгоаёсав^ удовлетворяющую последовательной реализации, причем такая реализация более эффективна, чем атомарная.

В [16] рассмотрен устойчивый к враждебным неисправностям алгоритм БСБ-Ьгоаёсав! [15], названный авторами Ьвсё-Ьгоаёса81. Предложенный в [16] алгоритм предполагает надежную базовую отказоустойчивую широковещательную абстракцию. В отличие, во-первых, от оригинального алгоритма 8СБ-Ьгоаёсав1 [15], который устойчив к количеству неисправностей до т < п /2, (где п — количество вершин (вычислителей) в системе), во-вторых, от базового византийского широковещательного алгоритма, способного выдержать количество «враждебных» неисправностей т < п /3, алгоритм Ьвсё-ЬгоаёсаБ! стабилен к числу византийских неисправностей до т < п /4, если отправитель исправен, что является основным ограничением данного метода, препятствующим использованию предложенного метода для сбое- и отказоустойчивых МВС с длительными сроками активного существования.

Разработке метода взаимного информационного согласования в МВС с межмашинными каналами связи шинной архитектуры и широковещательным способом передачи межмашинных сообщений посвящена работа [17]. Этот метод позволяет обнаруживать и идентифицировать как по месту возникновения, так и по виду (сбой, программный сбой или отказ) проявления кратных неисправностей ЦВМ и передающих устройств сопряжения с каналами связи, случившиеся во всех раундах взаимообмена. Метод позволяет различить, во-первых, неисправности как ЦВМ, так и передающих устройств сопряжения, что еще более удлиняет траекторию управляемой деградации и, следовательно, повышает живучесть МВС, во-вторых, ситуации невыдачи сообщения в начальных раундах и выдачи этого сообщения с искажениями.

Большой интерес представляет предложенный авторами [17] алгоритм А7 5-сбоеустойчивого взаимного информационного согласования (ВИС) с повышенной точностью идентификации проявлений кратных враждебных неисправностей в начальных раундах процесса ВИС. Алгоритм основан на том, что каждой исправной ЦВМ, принимающей сообщение с согласуемыми данными, известен правильный формат этого сообщения.

Алгоритм АЛ3 ВИС, также представленный в [17], позволяет обнаруживать и идентифицировать проявления кратных неисправностей в МВС.

Оба разработанных алгоритма базируются на построении логических выражений, математические преобразования которых позволяют сформировать выражение подозреваемой области неисправностей в МВС. Особенно важно в [17] то, что предложенные методы не ограничиваются одиночными неисправностями и подходят для МВС с любыми каналами межмашинной связи.

Однако следует отметить один существенный недостаток — предложенные алгоритмы работают только для полносвязных МВС, что является серьезным ограничением структуры МВС.

Правда, уже в следующей своей работе [18] А.В. Лобанов представляет метод взаимного информационного согласования для непол-носвязных многомашинных вычислительных систем, свободный от ограничения, имеющего место в [17], и обеспечивающий согласованные, т. е. одновременные и одинаковые во всех исправных ЦВМ системы обнаружение и идентификацию по месту проявления и по виду (сбой, программный сбой или отказ) неисправностей допустимого числа ЦВМ.

В процессе ВИС каждая из участвующих в согласовании ЦВМ согласовывает собственное значение информации. В результате ВИС при наличии в системе не более т неисправных (сбившихся и отказавших) ЦВМ должны обеспечиваться два условия [19, 20]:

У1) согласованные значения во всех исправных ЦВМ, соответствующие согласуемому значению одной и той же ЦВМ-источника, должны быть одинаковыми;

У2) если ЦВМ-источник исправна, то согласованные значения для этой ЦВМ во всех исправных ЦВМ системы должны быть равны ее собственному согласуемому значению.

В [1 8] решается задача создания алгоритма ВИС для неполно-связных систем, обеспечивающего, во-первых, выполнение условий У1 и У2 ВИС, и, во-вторых, обнаружение и идентификацию по месту возникновения и типу (сбой, программный сбой и отказ ЦВМ) проявлений неисправностей допустимого числа ЦВМ, произошедших в процессе выполнения этого алгоритма.

Метод ВИС без обнаружения и идентификации проявлений неисправностей для неполносвязных систем предложен в [21], где также определены структурные свойства МВС, обеспечивающие достижение ВИС. Эти структурные особенности легли в основу разработанного в [18] метода ВИС для неполносвязных систем с обнаружением и идентификацией неисправностей. Точность идентификации определяется разнообразием проявлений имеющихся неисправностей: чем более разнообразны эти проявления, тем выше точность. Представленный метод ВИС требует синхронизации действий всех

ЦВМ системы с точностью до начала каждого кванта, где под квантом понимается неделимый далее временной отрезок, с точностью до которого обеспечивается определение моментов передачи и получения межмашинных сообщений и их обработки.

Заключение. Рассмотрены наиболее сложные вопросы, связанные с диагностированием кратных неисправностей, которые актуальны в современных сбое- и отказоустойчивых многозадачных системах. Размеры, сложность, глобальные масштабы целевых задач таких систем требуют исследований в области диагностирования кратных неисправностей, в том числе и носящих «враждебный» характер.

Определено понятие ¿-диагностируемости системы как максимальное число одновременно неисправных и произвольно расположенных компонентов, однозначно диагностируемых по результатам однократного тестирования системы.

Приведено понятие широковещательной передачи с ограничениями по набору (БСВ-Ьгоаёсав!) как новой высокоуровневой коммуникационной абстракции, которая фиксирует свойства упорядочения не между отдельными сообщениями, а между наборами сообщений. В связи с этим 8СВ-ЬгоаёсаБ1 приобретает возможность его использования даже для асинхронных систем передачи сообщений, в которых вычислительные объекты (процессы) могут завершиться аварийно.

Большой интерес представляет процесс 5-сбоеустойчивого взаимного информационного согласования с повышенной точностью идентификации проявлений кратных враждебных неисправностей в начальных раундах процесса ВИС, основанный на том, что каждой исправной ЦВМ, принимающей сообщение с согласуемыми данными, известен правильный формат этого сообщения.

Проанализирована задача создания алгоритма ВИС для непол-носвязных систем, что снимает наиболее жесткое ограничение полно-связности МВС, выводя процессы обеспечения живучести МВС на качественно новый уровень.

Таким образом, проблема увеличения сроков активного существования сбое- и отказоустойчивых МВС ответственного применения может быть решена путем взаимообмена сообщениями между различными ЦВМ системы только при обеспечении следующих условий:

• работа различных ЦВМ системы должна быть в определенной степени синхронизирована, т. е. необходимо наличие некоторых констант, ограничивающих время передачи сообщений между любыми двумя ЦВМ и соизмеряющих скорости обработки информации со стороны различных ЦВМ системы [22];

• необходимо, чтобы ЦВМ-получатель сообщения была способна определить ЦВМ-отправителя этого сообщения;

• требуется обеспечение избыточности п > 3т+1;

• должна обеспечиваться согласованность действий исправных ЦВМ системы, основанная на принятии ими одинаковых решений как в исправном состоянии системы, так и в присутствии неисправностей допустимого класса.

Механизмы, обеспечивающие эти условия, приведены в [23] и названы базовыми механизмами организации сбое- и отказоустойчивости в МВС.

ЛИТЕРАТУРА

[1] Ашарина И.В. Проблемы организации вычислений в многомашинных вычислительных системах с программно-управляемой сбое- и отказоустойчивостью. Часть II. Инженерный журнал: наука и инновации, 2021, вып. 7. http://dx.doi.org/10.18698/2308-6033-2021-7-2097

[2] Ведешенков В.А. Об использовании избыточных хорд ^-отказоустойчивого графа для устранения влияния отказавших компонент. Автомат. и телемех, 2003, № 4, с. 114-122.

[3] Каравай М.Ф. Инвариантно-групповой подход к исследованию k-отказоустойчивых структур. Автомат. и телемех., 2000, № 1, с. 144-156.

[4] Ведешенков В.А. О путевом методе системного диагностирования цифровых систем со структурой симметричного двудольного графа. Автомат. и телемех., 2014, № 9, с. 133-143.

[5] Preparata F.P., Metze G., Chien R.J. On connection assignment problem of diagnosable systems. IEEE Trans. El. Comput, 1967, vol. EC-16, no. 12, pp. 848-854.

[6] Ведешенков В.А., Курако Е.А., Лебедев В.Н. О диагностируемости цифровых систем со структурой минимального квазиполного графа размера 7 х 7. Автомат. и телемех., 2016, № 3, с. 152-165.

[7] Каравай М.Ф., Пархоменко П.П., Подлазов В.С. Комбинаторные методы построения двудольных однородных минимальных квазиполных графов (симметричных блок-схем). Автомат. и телемех., 2009, № 2, с. 153-170.

[8] Ведешенков В.А. Организация диагностирования цифровых систем со структурой симметричного двудольного графа. Проблемы управления, 2009, № 6, с. 59-67.

[9] Ведешенков В.А. Подход к мультиагентной организации системного диагностирования цифровых систем со структурой симметричного двудольного графа. Автомат. и телемех., 2009, № 11, с. 161-171.

[10] Barsi F., Grandoni F., Maestrini P. A theory of diagnosability of digital systems. IEEE Trans. Comput., 1976, vol. C-25, no. 6, pp. 585-593.

[11] Ведешенков В.А. Путевой метод самодиагностирования цифровых систем. Автомат. и телемех., 2005, № 3, с. 154-168.

[12] Пархоменко П.П. Определение технического состояния многопроцессорных вычислительных систем путем анализа графа синдромов. Автомат. и телемех, 1999, № 5, с. 126-134.

[13] Ведешенков В.А., Нестеров А.М. О двух методах дешифрации результатов диагностирования цифровых систем. Электронное моделирование, 1981, т. 3, № 2, с. 53-58.

[14] Каравай М.Ф., Подлазов В.С. Распределенный полный коммутатор как "идеальная" системная сеть для многопроцессорных вычислительных систем. Управление большими системами, 2011, вып. 34, с. 92-116.

[15] Imbs D., Mostefaoui A., Perrin M., Raynal M. Set-constrained delivery broadcast: definition, abstraction power, and computability limits. In: Bellavista P., Garg V.K., eds. Proceedings of the 19th International Conference on Distributed Computing and Networking, ICDCN 2018. Varanasi, India, January 4-7, 2018, pp. 7:1-7:10. ACM, 2018. DOI: 10.1145/3154273.3154296

[16] Auvolat A., Raynal M., Taiani F. Byzantine-Tolerant Set-Constrained Delivery Broadcast. Proceedings of the 23rd International Conference on Principles of Distributed Systems, OPODIS-2019. December 17-19, 2019, University of Neuchatel, Neuchatel, Switzerland. Leibniz, Leibniz International Proceedings in Informatics, 2019, article no. 16. DOI: 10.4230/LIPIcs.OPODIS.2019.16

[17] Гришин В.Ю., Лобанов А.В., Сиренко В.Г. Взаимное информационное согласование в многомашинных вычислительных системах с обнаружением и идентификацией кратных враждебных неисправностей. Автомат. и телемех., 2003, № 4, с. 123-132.

[18] Лобанов А.В. Взаимное информационное согласование с обнаружением и идентификацией враждебных неисправностей в неполносвязных многомашинных вычислительных системах. Автомат. и телемех., 2003, № 6, с. 175-185.

[19] Pease M., Shostak R., Lamport L. Reaching agreement in the presence of faults. J. ACM., 1980, vol. 27, no. 2, pp. 228-234.

[20] Lamport L., Shostak R., Pease M. The byzantine generals problem. ACM Trans. Progr. Lang. Syst., 1982, vol. 4, no. 3, pp. 382-401.

[21] Ашарина И.В., Лобанов А.В., Мищенко И.Г. Взаимное информационное согласование в неполносвязных многомашинных вычислительных системах. Автомат. и телемех., 2003, № 5, с. 190-198.

[22] Dolev D., Dwork C., Stockmeyer L. On the minimal synchronics needed for distributed consensus. Proc. 24th Ann. Symp. on Foundations of Computer Science. November 7-9, 1983, IEEE, Tucson, USA. IEEE, 1983, рр. 393-402.

[23] Лобанов А.В., Сиренко В.Г. Проблема отказоустойчивости в сетецент-рических информационно-управляющих системах. Образовательные ресурсы и технологии, 2014, № 2 (5), c. 115-121.

Статья поступила в редакцию 13.03.2021

Ссылку на эту статью просим оформлять следующим образом: Ашарина И.В. Проблемы организации вычислений в многомашинных вычислительных системах с программно-управляемой сбое- и отказоустойчивостью. Часть III. Инженерный журнал: наука и инновации, 2021, вып. 8. http://dx.doi.org/10.18698/2308-6033-2021-8-2106

Ашарина Ирина Владимировна — канд. техн. наук, доцент, старший научный сотрудник АО «НИИ «Субмикрон». e-mail: asharinairina@mail.ru

Issues of organizing computations in multicomputer systems with the software-controlled failure-and fault-tolerance. Part III

© I.V. Asharina

JSC "Scientific Research Institute "SUBMICRON", Moscow, 124460, Russia

This three-part paper analyzes existing approaches and methods of organizing failure-and fault-tolerant computing in distributed multicomputer systems (DMCS), identifies and provides rationale for a list of issues to be solved. We review the application areas of failure- and fault- tolerant control systems for complex network and distributed objects. The third part proceeds with the study of the problems of organizing failure- and fault-tolerant computing in distributed multicomputer systems (DMCS), carried out in parts I and II of this work, and deals with the issues related to the diagnosis of multiple faults. The paper describes the main differences in ensuring fault tolerance in systems with broadcast communication channels and point-to-point communication channels.

Keywords: distributed multicomputer system, failure- and fault-tolerance, dynamic redundancy, malicious fault

REFERENCES

[1] Asharina I.V. Inzhenerny zhurnal: nauka i innovatsii — Engineering Journal: Science and Innovation, 2021, iss. 7. http://dx.doi.org/10.18698/2308-6033-2021-7-2097

[2] Vedeshenkov V.A. Avtomatika i telemekhanika — Automation and Remote Control, 2003, no. 4, pp. 114-122.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3] Karavay M.F. Avtomatika i telemekhanika — Automation and Remote Control, 2000, no. 1, pp. 144-156.

[4] Vedeshenkov V.A. Avtomatika i telemekhanika — Automation and Remote Control, 2014, no. 9, pp. 133-143.

[5] Preparata F.P., Metze G., Chien R.J. On Connection Assignement Problem of Diagnosable Systems. IEEE Trans. El. Comput., 1967, vol. EC-16, no. 12, pp. 848-854.

[6] Vedeshenkov V.A., Kurako E.A., Lebedev V.N. Avtomatika i telemekhanika — Automation and Remote Control, 2016, no. 3, pp. 152-165.

[7] Karavay M.F., Parkhomenko P.P., Podlazov V.S. Avtomatika i telemekhanika — Automation and Remote Control, 2009, no. 2, pp. 153-170.

[8] Vedeshenkov V.A. Problemy upravleniya — Control Sciences, 2009, no. 6, pp. 59-67.

[9] Vedeshenkov V.A. Avtomatika i telemekhanika — Automation and Remote Control, 2009, no. 11, pp. 161-171.

[10] Barsi F., Grandoni F., Maestrini P. A theory of diagnosability of digital systems. IEEE Trans. Comput., 1976, vol. C-25, no. 6, pp. 585-593.

[11] Vedeshenkov V.A. Avtomatika i telemekhanika — Automation and Remote Control, 2005, no. 3, pp. 154-168.

[12] Parkhomenko P.P. Avtomatika i telemekhanika — Automation and Remote Control, 1999, no. 5, pp. 126-134.

[13] Vedeshenkov V.A., Nesterov A.M. Elektronnoe modelirovanie — Engineering Simulation, 1981, vol. 3, no. 2, pp. 53-58.

[14] Karavay M.F., Podlazov V.S. Upravlenie bolshimi sistemami — Large-Scale Systems Control, no. 34. Moscow, Trapeznikov Institute of Control Sciences of Russian Academy of Sciences Publ., 2011, pp. 92-116.

[15] Imbs D., Mostefaoui A., Perrin M., Raynal M. Set-Constrained Delivery Broadcast: Definition, Abstraction Power, and Computability Limits. In: Bellavista P., Garg V.K., eds. Proceedings of the 19th International Conference on Distributed Computing and Networking, ICDCN 2018. Varanasi, India, January 4-7, 2018, pp. 7:1-7:10. ACM, 2018. DOI: 10.1145/3154273.3154296

[16] Auvolat A., Raynal M., Tai'ani F. Byzantine-Tolerant Set-Constrained Delivery Broadcast. Proceedings of the 23rd International Conference on Principles of Distributed Systems, OPODIS-2019. December 17-19, 2019, University of Neuchatel, Neuchatel, Switzerland. Leibniz, Leibniz International Proceedings in Informatics, 2019, article no. 16. DOI: 10.4230/LIPIcs.0P0DIS.2019.16

[17] Grishin V.Yu., Lobanov A.V., Sirenko V.G. Avtomatika i telemekhanika — Automation and Remote Control, 2003, no. 4, pp. 123-132.

[18] Lobanov A.V. Avtomatika i telemekhanika — Automation and Remote Control, 2003, no. 6, pp. 175-185.

[19] Pease M., Shostak R., Lamport L. Reaching agreement in the presence of faults. J. ACM, 1980, vol. 27, no. 2, pp. 228-234.

[20] Lamport L., Shostak R., Pease M. The byzantine generals problem. ACM Trans. Progr. Lang. Syst., 1982, vol. 4, no. 3, pp. 382-401.

[21] Asharina I.V., Lobanov A.V., Mischenko I.G. Avtomatika i telemekhanika — Automation and Remote Control, 2003, no. 5, pp. 190-198.

[22] Dolev D., Dwork C., Stockmeyer L. On the minimal synchronics needed for distributed consensus. Proc. 24th Symp. on Foundationcs of Computer Science. USA, 1983, pp. 393-402.

[23] Lobanov A.V., Sirenko V.G. Obrazovatelnye resursy i tekhnologii — Educational Resources and Technologies, 2014, no. 2 (5), pp. 115-121.

Asharina I.V., Cand. Sc. (Eng.), Assoc. Professor, Senior Research Fellow, JSC "Scientific Research Institute "SUBMICRON". e-mail: asharinairina@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.