Научная статья на тему 'НЕОБХОДИМЫЕ УСЛОВИЯ СИСТЕМНОГО СА-МОДИАГНОСТИРОВАНИЯ МНОГОМАШИННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ'

НЕОБХОДИМЫЕ УСЛОВИЯ СИСТЕМНОГО СА-МОДИАГНОСТИРОВАНИЯ МНОГОМАШИННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
14
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОМАШИННЫЕ ВЫЧИСЛИТЕЛЬНЫЕ МАШИНЫ / ДИАГНОСТИЧЕСКАЯ МОДЕЛЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Песикова Ольга Владимировна

Рассмотрено системное самодиагностирование (ССД) многомашинных вычислительных систем (МВС). Проведен анализ подходов к процессу ССД, определяются необходимые условия ССД МВС.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Песикова Ольга Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INDISPENSABLE CONDITIONS OF DISTRIBUTED MULTICOMPUTER SYSTEMS SELF-DIAGNOSTICS

The system self-diagnostics of the distributed multicomputer systems (DMCS) has been considered. The different approaches to executing the DMCS process have been analyzed. As a result, the indispensable conditions of the DMCS diagnostics have been revealed.

Текст научной работы на тему «НЕОБХОДИМЫЕ УСЛОВИЯ СИСТЕМНОГО СА-МОДИАГНОСТИРОВАНИЯ МНОГОМАШИННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ»

УДК 62-501.72:681.326.7

Необходимые условия системного самодиагностирования многомашинных вычислительных систем

О.В. Песикова

ОАО «НИИ «Субмикрон» (г. Москва)

Рассмотрено системное самодиагностирование (ССД) многомашинных вычислительных систем (МВС). Проведен анализ подходов к процессу ССД, определяются необходимые условия ССД МВС.

Ключевые слова: многомашинные вычислительные машины, самодиагностирование, взаимное информационное согласование, диагностическая модель.

Внедрение компьютерных сетей, распределенных и многомашинных вычислительных систем (МВС), состоящих из цифровых вычислительных машин (ЦВМ), выдвигает на первый план проблемы обеспечения надежности их работы и достоверности выходных результатов. Системное диагностирование является традиционным направлением исследований в области анализа технического состояния МВС.

Системное диагностирование включает два этапа: выполнение каждой ЦВМ предписанных ей тестов и анализ результатов тестирования.

Анализ результатов тестирования может выполняться сосредоточенным методом с помощью исправных средств, не входящих в анализируемую систему (диагностирование сторонним наблюдателем) или распределенным методом при помощи самой же МВС (самодиагностирование) [1].

Для того чтобы МВС могла произвести диагностику своего технического состояния, необходимо преобладание в ее составе исправных ЦВМ, которые должны вынести единогласное решение, в противном случае утверждать о достоверности результата самодиагностирования не представляется возможным. Таким образом, все исправные ЦВМ в результате взаимного обмена должны сформировать одинаковую информацию о результатах тестирования, обработать полученную информацию по одному алгоритму, в результате которого получить одинаковые заключения о техническом состоянии диагностируемого объекта - МВС, а затем принять совместное решение о реконфигурации системы (отключать или не отключать неисправные ЦВМ).

Реализация системного самодиагностирования (ССД) предполагает введение дополнительных этапов - взаимного обмена сообщениями между ЦВМ системы и согласования полученных результатов обмена во всех ее исправных ЦВМ. ССД МВС включает четыре этапа: 1) выполнение каждой ЦВМ предписанных ей проверок; 2) передача результатов проверок в проверяющие ЦВМ; 3) взаимное информационное согласование (ВИС) полученных результатов; 4) анализ в каждой исправной ЦВМ системы полученных результатов проверок.

При выполнении 1-го этапа возникают следующие задачи: выбор модели неисправностей, подлежащих обнаружению и поиску, выбор тестов. Выполнение 2- и 3-го этапов включает задачу построения модели неисправности ЦВМ при выполнении ВИС, выполнение 4-го этапа - задачу построения диагностической модели МВС.

В настоящей работе рассматриваются проблемы, возникающие при решении задач

© О.В. Песикова, 2013

на всех этапах ССД. Также рассмотрены методы ССД [2, 3], в которых предлагаются разные подходы. В частности, различия заключаются в применении разных диагностических моделей МВС и алгоритмов ВИС. Исследование этих методов позволило выявить некоторые особенности ССД для рассмотренных диагностических моделей МВС и сформулировать необходимые условия ССД МВС.

Диагностические модели МВС. Модели неисправности ЦВМ. В исследованиях по системному диагностированию наибольшее распространение получили две диагностические модели МВС: модель Препарата - Метца - Чена (ПМЧ-модель) [4] и модель Барси - Грандони - Маестрини (БГМ-модель) [5]. Согласно [1, 2, 3, 6] данные модели наиболее приближены к реальной МВС.

Рассмотрим результаты провероку'-й ЦВМ со стороны 1-й ЦВМ при различном техническом состоянии данных ЦВМ с использованием ПМЧ- и БГМ-модели. Введем обозначение J для условия проявления неисправности у'-й ЦВМ и 1 - для условия отсутствия проявления неисправности этой ЦВМ. В табл.1 приведены все возможные сочетания технических состояний обеих ЦВМ, их представления в виде логических выражений, а также возможные результаты проверки при каждом из этих состояний в соответствии с ПМЧ-моделью [4] и БГМ-моделью [5].

Таблица 1

Результаты проверки с использованием ПМЧ- и БГМ-модели

Техническое состояние Логическое выражение технического состояния Возможный результат проверки

7-я ЦВМ у-я ЦВМ

ПМ Ч-модель

Исправна Исправна 11 0

Исправна Неисправна 13 1

Неисправна Исправна 11 0 или 1

Неисправна Неисправна и 0 или 1

БГ1 У1-модель

Исправна Исправна 11 0

Исправна Неисправна 11 1

Неисправна Исправна 11 0 или 1

Неисправна Неисправна 11 1

Для БГМ-модели нулевой результат проверки однозначно свидетельствует об исправности проверяемой ЦВМ.

Модель неисправности ЦВМ при выполнении ВИС может быть «дружественной» или «враждебной». При «враждебной» неисправности неисправные ЦВМ в ходе ВИС могут отправлять другим ЦВМ произвольные сообщения, в том числе и различающиеся. Модель «враждебной» неисправности является наиболее общей.

Методы ССД. Рассмотрим методы ССД, представленные в [2, 3]. Подход к ССД в [2] для полносвязных МВС предполагает последовательное выполнение четырех этапов ССД и использование ПМЧ-модели в качестве диагностической модели МВС. На 3-м этапе используется «классический» алгоритм ВИС [7] для полносвязных МВС. В [2] предполагается выполнение в системе ЦВМ следующих условий: 1) всем ЦВМ известен формат информации о результатах проверок, полученных на 2-м этапе ССД; 2) работа всех исправных ЦВМ осуществляется с необходимой степенью синхронно-

сти; 3) ЦВМ-получатель межмашинного сообщения может определить его отправителя. Эти условия являются необходимыми для любого другого метода ССД, поскольку их невыполнение исключает возможность проведения 1 - 3-го этапов ССД.

В [3] предлагается подход к организации процесса диагностирования в распределенной системе, основанной на следующем: необходимо выбрать начальную ЦВМ, которая должна быть исправной, найти ее исправных приемников и передавать информацию о результатах контроля по цепочке от одной исправной ЦВМ к другой, обязательно также исправной, пока все исправные ЦВМ не получат суммарную идентичную информацию о результатах контроля в системе.

Метод системного диагностирования [3] представлен как метод ССД, однако к данному методу необходимо сделать ряд уточнений, которые касаются выбора начальной вершины, ограничений, накладываемых на диагностический граф системы и случаев возникновения допустимых неисправностей в процессе диагностирования.

Необходимо рассмотреть подробнее проблему выбора начальной ЦВМ, которая может быть назначена либо сторонним наблюдателем, либо самой системой. В [3] упоминается, что «традиционно процесс контроля запускается центральной операционной системой (ЦОС)», что указывает либо на введение в процесс диагностирования стороннего наблюдателя, либо на наличие в системе выделенного ядра. Если в методе системного диагностирования начальная ЦВМ назначается сторонним наблюдателем, то данный метод по определению не может считаться методом самодиагностирования. Если в системе имеется выделенное ядро, то она уже не может считаться распределенной. Выбор начальной ЦВМ в распределенной системе без участия стороннего наблюдателя возможен только в том случае, если будет произведено предварительное самодиагностирование, которое однозначно выявит в составе системы хотя бы одну исправную ЦВМ.

К проблеме передачи недостоверной информации может привести ситуация, когда в качестве начальной вершины процесса контроля выбрана неисправная ЦВМ (обозначим ее номер /). Если 1-я ЦВМ проверяет хотя бы одну исправную ЦВМ (обозначим ее номер у) и результат проверки равен 0, то по алгоритму, описанному в [3], управление должно быть передано у-й ЦВМ. Однако если учитывается возможность отправки неисправной 1-й ЦВМ произвольного сообщения, то может возникнуть ситуация, в которой сообщение о передаче управления у-й ЦВМ будет направлено ЦВМ с другим номером, например ЦВМ с номером к (к Ф у), причем к-я ЦВМ также может быть неисправной. Далее результаты проверок других ЦВМ со стороны к-й ЦВМ уже сохраняются и передаются. Причем если используется модель враждебных неисправностей ЦВМ и к-я ЦВМ неисправна, то не исключается возможность отправки недостоверных сообщений, вследствие чего в исправных ЦВМ может формироваться недостоверная информация о результатах проверок в системе.

Отметим, что диагностический граф в [3] объединяет понятия графа проверок, согласно которому в системе выполняются проверки, и графа связей системы, по которому производится ВИС результатов проверок ЦВМ в системе. В [2] рассматриваются отдельно граф проверок, который может быть произвольным, и граф связей, который должен быть полносвязным [7]. В [3] диагностический граф должен быть однородным, т.е. степени всех его вершин должны быть равны между собой. Причем в этом графе должен быть путь, содержащий только все исправные вершины. При таком условии процедура сбора результатов проверок будет отработана каждым исправным модулем и сообщения об этих результатах будут передаваться между исправными модулями без искажений, которые могут возникать в результате прохождения через неисправный модуль. Однако однородность диагностического графа не гарантирует наличие такого пу-

ти. Например, в однородном диагностическом графе со степенью всех вершин, равной 2, при наличии двух неисправных модулей, каждый из которых связан только с исправными, путь, содержащий все исправные вершины, будет отсутствовать.

Если в алгоритме ВИС неисправность, появившаяся после первого раунда обмена, маскируется и все исправные ЦВМ (при выполнении условия п > 3т + 1, где п - общее число ЦВМ; т - допустимое число неисправных ЦВМ [7]) по окончании выполнения ВИС все равно получат одинаковую информацию, то в методе [3] применение алгоритма ВИС, при котором сообщения передаются по цепочке от одной исправной ЦВМ к другой, получение суммарной идентичной информации всеми исправными ЦВМ в системе не гарантируется. Например, согласно методу [3] информация собирается и передается от первой выявленной исправной ЦВМ ко всем остальным. Процесс продолжается до тех пор, пока не станет ясно, что все исправные ЦВМ получили управление ровно один раз и дальше передавать его будет некому.

Пронумеруем исправные ЦВМ следующим образом: присвоим исправной ЦВМ, получившей управление первой, номер 1, исправной ЦВМ, получившей управление второй, - номер 2 и т.д. Пусть в промежуточной исправной ЦВМ с номером к после передачи от нее управления к исправной (к + 1)-й ЦВМ возникла неисправность. Последняя получившая управление исправная ЦВМ имеет полную информацию о результатах проверок системы. Далее, проходя по обратной цепочке через к-ю ЦВМ, достоверная суммарная информация о результатах проверок системы может быть искажена ввиду возникшей неисправности в к-й ЦВМ, и тогда к - 1 исправных ЦВМ получат недостоверную информацию. Таким образом, в методе [3] возникновение неисправностей в процессе ССД является недопустимым.

В случае если в МВС граф проверок произвольный, предварительное диагностирование для выбора начальной исправной вершины не проводится и допускается возможность возникновения неисправностей в процессе самодиагностирования, то решение задачи ССД может быть основано только на использовании ВИС, в котором принимают участие как исправные, так и неисправные ЦВМ. При таком варианте ВИС каждая проверяющая ЦВМ вначале должна получить результаты проверок от проверяемых ЦВМ, а затем отправить согласно графу связностей системы полученные результаты в другие ЦВМ. Процесс ССД должен проводиться последовательным выполнением четырех этапов: 1) выполнение каждой ЦВМ предписанных ей проверок; 2) передача результатов проверок в проверяющие ЦВМ; 3) анализ результатов проверок в проверяющих ЦВМ, формирование результатов анализа, ВИС полученных результатов анализа; 4) анализ в каждой исправной ЦВМ системы полученных результатов согласования в отличие от процесса ССД в [3], где 1-3-й этапы «смешаны» и выполняются непоследовательно.

Применение ПМЧ-, БГМ-модели в методе ССД. Результаты применения различных диагностических моделей (ПМЧ и БГМ) в методе ССД [2] могут быть разными. В этом методе в алгоритме ВИС используется модель «враждебной» неисправности.

Пример. МВС имеет общее число ЦВМ п = 7, число неисправных ЦВМ т = 2. Пронумеруем ЦВМ от 1 до 7. Пусть неисправны ЦВМ с номерами 2 и 3. Граф проверок системы и возможные результаты проверок (0 или 1 около стрелок) приведены на рисунке.

В процессе обмена результатами проверок на 2-м этапе в каждой ЦВМ формируется вектор проверок длины п = 7. Пусть результат проверки 4-й ЦВМ со стороны 3-й равен 1. В табл.2 приведены векторы проверок, сформированные каждой ЦВМ на 2-м этапе, X - отсутствие проверки.

На 3-м этапе ССД все ЦВМ выполняют алгоритм ВИС для полученных результатов. Пусть в первом раунде обмена по алгоритму ВИС неисправная ЦВМ с номером 2 отправила всем исправным ЦВМ одинаковый вектор проверок ХХ0ХХХХ, а ЦВМ с номером 3 отправила всем исправным ЦВМ одинаковый вектор проверок ХХХ1ХХХ. Тогда в результате ВИС в каждой исправной ЦВМ системы будет сформирована матрица проверок, в которой строка с информацией о результатах проверки со стороны 2-й ЦВМ будет ХХ0ХХХХ [7].

На 4-м этапе производится дешифрация матрицы проверок в каждой исправной ЦВМ системы. Формируется конъюнкция выражений подозреваемых областей неисправностей. Применяя БГМ-модель, получим следующее выражение подозреваемой области неисправностей:

(12 V12 V 12)(23 V 23)(34 V 34 V 3 4)(45 V 45)(56 V 5 6)(67 V 67)(71 V 71).

Полученное выражение преобразуется к виду дизъюнкции конъюнкций. Из этого выражения исключаются все термы, содержащие обозначения условия неисправности и условия отсутствия неисправности одной и той же ЦВМ, а также термы, содержащие обозначения неисправности более чем т ЦВМ [2] (в примере т = 2). После этих преобразований выражение примет

вид одного терма 123456 7 . Полученное выражение указывает на неисправность ЦВМ с номерами 2 и 4, что не соответствует действительности.

Применяя для дешифрации полученной матрицы проверок ПМЧ-модель, получим следующее выражение подозреваемой области неисправностей:

(12 V12 V 12)(23 V 23 V 23)(34 V 34 V 34) х х (45 V 45 V 45)(56 V 56 V 56)(67 V 67 V 67)(71 V 71V 71).

После выполнения преобразований, таких же как для БГМ-модели, выражение подозреваемой области неисправностей примет вид: 1234567 V1234567. В данном выражении присутствует терм, указывающий на неисправность ЦВМ с номерами 2 и 3, т.е. применение ПМЧ-модели приводит к достоверному результату.

В общем случае дешифрация с помощью ПМЧ-модели дает выражение, отображающее всевозможные совокупности технических состояний всех ЦВМ системы, которые не противоречат действительности. Отметим, что в ходе дешифрации вначале формируется выражение, представляющее собой конъюнкцию дизъюнкций - ПХ, а затем оно приводится к виду дизъюнкции конъюнкций - ХП. Необходимо доказать, что в случае применения ПМЧ-модели в конечном выражении ХП всегда присутствует терм, отображающий реальное техническое состояние всех ЦВМ системы. В случае же применения БГМ-модели этот терм может и не присутствовать (см. пример). Рассмотрим причину возможного отсутствия этого терма. При использовании БГМ-модели проверка по схеме «неисправная ЦВМ проверяет неисправную ЦВМ» приводит к однозначному результату - 1 (см. табл. 2), а в ПМЧ-модели формируется неоднозначный результат - 0 или 1 (см. табл. 1). Эта неоднозначность компенсирует возможность передачи

Таблица 2 Векторы проверок

Номер проверяющей ЦВМ Сформированный вектор проверок 1 2 3 4 5 6 7 - номера проверяемых ЦВМ

1 Х 1 Х Х Х Х Х

2 Х Х 1 Х Х Х Х

3 Х Х Х 1 Х Х Х

4 Х Х Х Х 0 Х Х

5 Х Х Х Х Х 0 Х

6 Х Х Х Х Х Х 0

7 0 Х Х Х Х Х Х

недостоверных данных в ходе ВИС. Однозначный результат в обеих моделях возникает также, когда проверяющая ЦВМ является исправной, но в этом случае в ходе ВИС будут передаваться только достоверные данные. Таким образом, остается рассмотреть детально схему «неисправная ЦВМ проверяет неисправную ЦВМ».

Пусть 7-я неисправная ЦВМ проверяет у-ю неисправную ЦВМ с результатом 1. После выполнения алгоритма ВИС и дешифрации полученных результатов в конечном выражении ЕП должен присутствовать хотя бы один терм, указывающий на неисправность 7- иу-й ЦВМ, т.е. терм, содержащий конъюнкцию Ц. Возможны два варианта: 1) в результате ВИС в каждой исправной ЦВМ формируется матрица проверок, в которой результат проверки у-й ЦВМ со стороны 7-й ЦВМ равен 1; дешифрация этой проверки с использованием БГМ- и ПМЧ-моделей дает одно и то же выражение 11V11V11; 2) в ходе ВИС неисправными ЦВМ передаются недостоверные данные и в итоге формируется матрица проверок, в которой результат проверки у-й ЦВМ со стороны 7-й ЦВМ равен 0; дешифрация этой проверки с использованием ПМЧ-модели дает выражение 11V11V11, с использованием БГМ-модели - 11V11 = 1 (1V1).

Таким образом, во втором варианте при использовании БГМ-модели в выражении ПЕ будет присутствовать множитель 1, который даже при наличии терма, содержащего Ц, уничтожит его и в преобразованном к виду ЕП выражении термов, содержащих Ц, не будет. Если же для дешифрации будет использоваться ПМЧ-модель, то (см. табл.1 ) исходное выражение ПЕ будет включать только множители, состоящие из трех термов, а уничтожение Ц в выражениях вида 11V11 V11, 11 V11 V11 возможно

только когда в ПЕ присутствует терм либо 1, либо 1, т.е. когда имеет место однозначная идентификация исправности либо 7-й, либо у-й ЦВМ, а по условию и 7- и у-я ЦВМ неисправны. Следовательно, при использовании ПМЧ-модели в конечном выражении ЕП будет присутствовать хотя бы один терм, содержащий конъюнкцию Ц ч.т.д.

Совместное применение модели «враждебной» неисправности и БГМ-модели может привести к недостоверному результату, в то время как совместное применение модели «враждебной» неисправности и ПМЧ-модели дает выражение, отображающее всевозможные совокупности технических состояний всех ЦВМ системы, среди которых всегда находится состояние, соответствующее реальному.

Применение ПМЧ-модели всегда дает достоверный, но не обязательно точный результат. Для точного диагностирования состояния всех ЦВМ системы, т.е. когда в конечном выражении ЕП не остается дизъюнкций, необходимо чтобы в системе с т неисправными ЦВМ каждая ЦВМ проверялась не менее чем т тестами [4]. Поэтому в примере после дешифрации с использованием ПМЧ-модели конечное выражение описывает два возможных технических состояния системы, а для уточнения «диагноза» необходимо введение дополнительных проверок (стрелок на графе проверок).

Рассмотренные подходы к решению задачи ССД опираются на различные алгоритмы ВИС. В процессе ВИС могут принимать участие либо только исправные ЦВМ (такой подход накладывает ряд серьезных ограничений), либо наряду с исправными также неисправные ЦВМ (учитывается наиболее общий случай для диагностической модели МВС). Для последнего подхода показана невозможность применения БГМ-модели в случае отправки неисправной ЦВМ недостоверных сообщений. В результате дешифрации результатов проверок с применением БГМ-модели в каждой исправной ЦВМ возможно формирование логического выражения возможных технических состояний сис-

темы, не соответствующих действительности. Применение ПМЧ-модели всегда дает достоверный результат.

Таким образом, в случае допустимости возникновения неисправностей в процессе ССД и использования произвольного графа проверок МВС и модели «враждебной» неисправности необходимыми условиями ССД являются:

- отсутствие требования заранее известного исправного ядра системы;

- известность формата информации о результатах проверок, полученных на 2-м этапе ССД всем ЦВМ;

- необходимая степень синхронности в работе всех исправных ЦВМ;

- известность у ЦВМ-получателя межмашинного сообщения о его отправителе;

- любой предлагаемый метод ССД должен в обязательном порядке включать последовательное выполнение четырех этапов: 1) выполнение каждой ЦВМ предписанных ей проверок; 2) передача результатов проверок в проверяющие ЦВМ; 3) ВИС полученных результатов, в котором принимают участие все ЦВМ системы (должен применяться алгоритм ВИС, учитывающий возможность возникновения неисправностей в процессе ССД); 4) анализ в каждой исправной ЦВМ системы полученных результатов проверок с учетом ПМЧ-модели.

Литература

1. Микеладзе М.А. Развитие основных моделей самодиагностирования сложных технических систем // Автоматика и телемеханика. - 1995. - № 5. - С. 3-18.

2. Лобанов А.В., Сиренко В.Г. Распределенные методы системного диагностирования многомашинных вычислительных систем // Автоматика и телемеханика. - 2000. - № 8. - С. 165-171.

3. Ведешенков В.А. Метод локального самодиагностирования отказавших компонентов цифровых систем // Автоматика и телемеханика. - 2004. - № 5. - С. 126-141.

4. Preparata F.P., Metze G., Chein R.T. On the connection assignment problem of diagnosable systems // IEEE Trans. Electr. Comput. - 1967. - Vol. 16. - № 6. - P. 848-854.

5. Barsi F., Grandoni F., Maestrini P. A theory of diagnosability of digital systems // IEEE Trans. Comput. - 1976. - Vol. C-25. - N 6. - P. 585-593.

6. Ведешенков В.А. Организация самодиагностирования технического состояния цифровых систем // Автоматика и телемеханика. - 2003. - № 11. - С. 165-182.

7. Pease M., Shostak R., Lamport L. Reaching Agreement in the Presence of Faults // J. ACM. - 1980. -Vol. 27. - N 2. - P. 228-234.

Статья поступила после доработки 6 апреля 2012 г.

Песикова Ольга Владимировна - инженер-программист ОАО «НИИ «Субмикрон» (г. Москва). Область научных интересов: самодиагностирование многомашинных вычислительных систем. E-mail: OlgaPesikova@ya.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.