УДК 004.942 + 004.272.43 ББК 32.973.202
ПОДХОД К ОРГАНИЗАЦИИ ОТКАЗОУСТОЙЧИВЫХ ЦИФРОВЫХ СИСТЕМ СО СТРУКТУРОЙ МИНИМАЛЬНОГО КВАЗИПОЛНОГО ГРАФА С ДВУМЯ ПУТЯМИ МЕЖДУ ДВУМЯ АБОНЕНТАМИ (НА ПРИМЕРЕ ГРАФА РАЗМЕРА 11x11)
Ведешенков В. А.1,
(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)
Разработанный подход к организации отказоустойчивых анализируемых цифровых систем (ЦС) заключается в поочередном устранении влияния неисправного компонента различных фрагментов ЦС. Анализируемый фрагмент ЦС состоит из проверяемого абонента, коммутатора и двух линий связи коммутатора с проверяющим и проверяемым абонентами. Для каждого фрагмента строятся программные базовые модули трех видов. Устранение влияния неисправного компонента проводится замещением функций неисправного компонента функциями соответствующих исправных компонентов. Представленный подход гарантирует устранение влияния одного неисправного компонента любого типа ЦС анализируемой структуры. Необходимым условием реализации предлагаемого подхода является наличие двух сопряженных путей между каждой парой абонентов ЦС анализируемой структуры.
1 Виктор Алексеевич Ведешенков, доктор технических наук, старший научный сотрудник ([email protected], Москва, ул. Профсоюзная, д. 65, тел. (495) 334-75-90).
Ключевые слова: цифровая система, минимальный квазиполный граф, отказоустойчивость, фрагмент, абонент, базовый модуль.
1. Введение
В настоящей статье под цифровыми системами (ЦС) понимаются модели многомашинных или многопроцессорных вычислительных систем, отражающие необходимые диагностические свойства и параметры анализируемых вычислительных систем.
Минимальный квазиполный граф образуется на основе однородного двудольного графа, одну долю которого составляют коммутаторы m х m, а другую - m-портовые абоненты. Значение m выбирается минимальным, при котором любые два узла в одной доле связаны а путями длины 2 через разные узлы в другой доле. В одной доле имеется n коммутаторов, а в другой - n абонентов. Каждый такой путь проходит через один коммутатор, и разные пути проходят через разные коммутаторы. Для рассматриваемых топологий параметры n и m связаны соотношением n = m(m - 1)/а + 1 и не могут быть взяты произвольно [6, 7].
В числе возможных областей применения графов с подобной новой структурой называют отказоустойчивые многомашинные вычислительные системы (МВС) реального времени, где, например, подмножество вершин одной доли представляет совокупность процессорных элементов или вычислительных машин, а подмножество вершин другой доли -коммутаторы [8, 9].
В задачах диагностирования неисправных компонентов цифровых систем со структурой минимального квазиполного графа предполагалось, что последующее восстановление работоспособности ЦС проводится с участием обслуживающего персонала [1-4]. Между тем для обеспечения отказоустойчивости ЦС должна иметь программно-аппаратные средства автоматического восстановления работоспособности после отказа компонентов системы. Поскольку физический ремонт неисправных компонентов в ЦС анализируемой
структуры не может производиться, то в дальнейшем будем говорить об устранении влияния неисправных компонентов с помощью аппаратно-программной реконфигурации ЦС.
Методы построения отказоустойчивых систем существенно зависят от структуры и параметров объекта разработки. В связи с этим появление новых структур вычислительных систем требует безусловной коррекции или доработки известных методов. Трудности построения отказоустойчивых систем существенно возрастают с увеличением числа устраняемых отказавших компонентов. В связи с этим для построения отказоустойчивых ЦС представляется полезным фрагментный подход, в котором необходимые программные процедуры выполняются над частью (фрагментом) всей ЦС [4, 5]. Вследствие одинаковой структуры и состава фрагментов методы и средства обеспечения отказоустойчивости, разработанные для одного фрагмента, можно «настроить» для устранения влияния неисправных компонентов в других фрагментах.
2. Постановка задачи
Исходная ЦС со структурой минимального квазиполного графа представлена таблицей связей, в которой п вершин одной доли представляют абоненты (процессоры), п вершин другой доли - коммутаторы, причем каждый абонент связан с каждым другим абонентом двумя линиями связи, проходящими через два разных коммутатора.
Будем считать, что допускаются устойчивые отказы компонентов: абонентов, коммутаторов и линий связи, причем неисправности компонентов таковы, что прекращают работу тех компонентов, в которых они возникли, и не влияют на работоспособность других компонентов, не имеющих связей с данным неисправным компонентом.
Для обеспечения отказоустойчивости в ЦС выделены резервные компоненты.
Требуется разработать подход к обеспечению отказоустойчивости ЦС без изменения исходной структуры минимального квазиполного графа с двумя путями между двумя
абонентами (на примере графа с параметрами п = 11, т = 5, а= 2).
3. Подход к обеспечению отказоустойчивости ЦС со структурой минимального квазиполного графа с двумя путями между двумя абонентами (на примере графа размера 11x11)
Традиционный способ обеспечения отказоустойчивости вычислительных систем включает следующие этапы:
- контроль работоспособности системы и обнаружение факта ее отказа;
- диагностирование технического состояния компонентов с целью идентификации неисправных компонентов;
- замещение (ремонт) неисправных компонентов однотипными исправными компонентами;
- возобновление работы восстановленной системы.
Предлагаемый подход к обеспечению отказоустойчивости ЦС анализируемой структуры реализует эти этапы с учетом структурных особенностей ЦС и заключается в следующем.
С помощью контролирующего теста поочередно тестируется техническое состояние компонентов одного фрагмента ЦС: работоспособен - не работоспособен. В зависимости от результата тестирования проверяющий абонент данного фрагмента выбирает направление последующих действий:
- продолжить контроль ЦС - при успешном результате тестирования или
- перейти к восстановлению работоспособности данного фрагмента - при неудачном результате тестирования. Для этого проверяющий абонент выполняет диагностическую проверку и идентифицирует компонент или группу компонентов, подозреваемых в неисправности. Затем выполняются подпрограммы реконфигурации, замещающие исполнение функций неисправного компонента их исполнением соответствующими исправными компонентами. Такое замещение позволяет восстановить работоспособность ЦС и перейти к тестированию следующего фрагмента.
Реализация такого подхода основана на следующих положениях.
1. Для сохранения исходной структуры ЦС при разработке отказоустойчивой ЦС необходимы специализированные программные средства.
2. Для упрощения процедур обеспечения отказоустойчивости будем считать, что отказы компонентов являются достаточно редкими, чтобы интервалы между моментами возникновения двух соседних (по времени) отказов позволяли устранить влияние более ранних отказов.
3. Предположение об одном неисправном компоненте (в каждый момент времени) позволяет считать, что исправны все компоненты ЦС, кроме одного их тех, которые входят в состав фрагмента ЦС, отказ которого обнаружен контролирующим тестом. Это означает, что действия (операции), выполняемые этими компонентами ЦС, являются правильными, а их результаты достоверны. При разработке процедур устранения влияния последующих отказов компонентов нужно учитывать наличие ранее отказавших компонентов.
4. Неисправный компонент Kx не влияет на работоспособность других компонентов ЦС, а потому техническое состояние компонента Kx (работоспособен - не работоспособен) можно определить только по результату той проверки, в выполнении которой участвует компонент Kx.
5. Будем считать, что анализируемый фрагмент Fj включает абонент Aj,2, коммутатор С;>1 и линии связи /(а^-Ср), /(с;>1-а;;2). Назовем проверкой элементарную тестовую операцию над компонентами фрагмента Fj, выполняемую следующим образом.
Исправный проверяющий абонент AJ-,1 передает абоненту Aj,2 через коммутатор С;>1 и соответствующие линии связи запрос (проверку) Pj,1. Абонент A¿2, получив такое сообщение, подтверждает его получение абоненту Aj,1, который запоминает такой результат как оценку j = 0. Если в течение интервала Дт такого подтверждения от абонента Aj,2 не приходит, то абонент Ají запоминает этот результат как оценку j = 1. Эти оценки используются абонентом Aj,1 для выбора последующих тестовых процедур. (В последующем тексте будут использоваться
проверки четырех типов разного назначения, но обязательной функцией этих проверок является исполнение проверки в указанном выше смысле.)
6. Каждый абонент рассматриваемой ЦС связан с каждым другим абонентом двумя линиями связи, проходящими через два разных коммутатора.
Будем называть сопряженными пути, проходящие между абонентами А1 и А2 в одном и том же направлении, но через разные коммутаторы С1 и С2. Коммутаторы С1 и С2 также будем называть сопряженными относительно абонентов А1 и А2.
7. Из-за невозможности физического ремонта неисправных компонентов для восстановления работоспособности ЦС, нарушенной отказом компонента Кх, исполнение его функций нужно передать другим исправным компонентам и таким образом устранить влияние неисправного компонента Кх на работоспособность ЦС.
8. Для тестирования и устранения влияния неисправного компонента фрагмента Ру будем использовать базовые программные модули Б;д, Б,2, Бу,3 (в дальнейшем, просто базовые модули Б;Л, Бу,2, Б; 3), состоящие из проверок Руд, Ру,2, Ру,3, Ру,4, Ру,5 следующего функционального назначения:
- первая проверка Руд обнаруживает неисправный компонент в составе фрагмента Р};
- вторая проверка Ру,2 диагностирует техническое состояние фрагмента р и идентифицирует один или несколько компонентов, подозреваемых в неисправности;
- третья проверка Ру,3 - вход в (и выход из) программы восстановления функций, нарушенных первым отказом абонента Ау,2;
- четвертая проверка Ру,4 восстанавливает функции, нарушенные отказом второго компонента фрагмента Р};
- пятая проверка Ру,5 является сопряженной для проверки Ру,3.
9. Будем считать входом базового модуля Бу ту проверку Р}, с которой начинается исполнение проверок этого модуля.
Совокупность базовых модулей, построенных для тестирования технического состояния всех фрагментов ЦС, позволяет устранить влияние нескольких неисправных
компонентов ЦС. Точное число компонентов, чьи неисправности можно устранить с использованием данного подхода, зависит от ряда факторов, и прежде всего от взаимного расположения неисправных компонентов.
Рассмотрим подробнее процедуры, выполняемые при устранении влияния неисправных компонентов в ЦС с параметрами п = 11, т = 5, и= 2.
4. Состав контролирующего теста для ЦС
со структурой минимального квазиполного графа с двумя путями между двумя абонентами (с параметрами графа п = 11, т = 5, и = 2)
Структура связей анализируемой ЦС показана в таблице 1. Строки и столбцы таблицы 1 озаглавлены номерами абонентов А1}, Л2,к, }, к = 1, ..., 11. В клетке на пересечении }-й строки и к-го столбца записаны номера коммутаторов С1,8 и С2Д (5, ^ = 12, ..., 22), через которые проходят сопряженные пути для данной пары абонентов. Так как связи между абонентами двусторонние, то номера коммутаторов С\,} и С2,к, связывающих абонента }-й строки с абонентом к-го столбца, совпадают с номерами С1к и С2}-, связывающих абонента к-й строки с абонентом }-го столбца. Например, в клетках 3, 7 и 7, 3 записаны номера коммутаторов 14 и 18, являющихся сопряженными для абонентов 3 и 7. Поскольку каждую пару абонентов связывает «индивидуальная» пара путей, то такая пара коммутаторов записана только в этих двух клетках. Знаки 0 в диагональных клетках отражают тот факт, что абонент не взаимодействует сам с собой.
Все процедуры по устранению влияния неисправных компонентов в отказоустойчивой ЦС основаны на ее контролирующем тесте. Назначение контролирующего теста -протестировать техническое состояние каждого компонента системы хотя бы один раз.
В соответствии с записями таблицы 1 в состав рассматриваемой ЦС входят 11 абонентов с номерами 1, ..., 11, включая резервный абонент 6, 11 коммутаторов с номерами
12, ..., 22 и 110 линий связи между указанными абонентами и коммутаторами, причем половина из них являются резервными.
В таблице 2 показан вариант контролирующего теста для данной ЦС, включающий проверки Р}1, также приведены проверки Ру,2, сопряженные с проверками Руд. Все проверки таблицы 2 условно разделены на 11 групп, в каждой из которых проверяющий абонент является общим (имеет один и тот же номер). Количество проверок в одной группе равно значению т - числу портов у абонента и коммутатора.
Таблица 2 построена для т = 5. Таким образом, таблица контролирующего теста (таблица 2) содержит Я = п х т = 55 проверок типа Руд и 55 проверок типа Ру,2.
В таблице 2 приняты следующие обозначения: - проверки Р;д входят в состав контролирующего теста для начальной конфигурации ЦС, включающей исправные компоненты;
- проверки Ру,2 являются сопряженными для соответствующих проверок Руд (выделены курсивом, не входят в контролирующий тест для начальной конфигурации);
- полужирным шрифтом выделены проверки, исполняемые резервным абонентом 6 (они также не входят в контролирующий тест для начальной конфигурации). Таким образом, начальная (рабочая) конфигурация включает 10 абонентов, 11 коммутаторов и 45 линий связи.
При построении конкретных проверок Руд для каждого проверяющего абонента А1,у в таблице связей (таблица 1) нужно найти номера коммутаторов Су,ь к которым присоединен абонент Ау например, абонент 3 присоединен к коммутаторам 14, 15, 16, 18, 21, абонент 5 - к коммутаторам 12, 16, 17, 18, 20 и т.д. Таким образом, для любой проверки проверяющий абонент, коммутатор и линия связи между ними определяются однозначно с помощью записей таблицы 1.
Второй (проверяемый) абонент А2,^ для каждой проверки также выбирается из таблицы связей: он должен быть присоединен к коммутатору этой же проверки. Ограничения на подбор таковы: все вторые абоненты, тестируемые одним и тем же проверяющим абонентом, должны быть разными, а их общее количество должно быть равно т = 5. Подбор вторых абонентов
для проверок контролирующего теста имеет переборный характер, но позволяет получить приемлемое решение.
Таблица 1. Таблица связей ЦС
размера 11*11
1 2 3 4 5 6 7 8 9 10 11
1 0 13, 14, 16, 12, 13, 14, 12, 13, 12, 12,
14 16 19 16 19 19 19 16 14 13
2 13, 0 14, 15, 17, 13, 14, 15, 13, 14, 13,
14 15 17 20 17 20 20 20 17 15
3 14, 14, 0 15, 16, 18, 14, 15, 16, 14, 15,
16 15 16 18 21 18 21 21 21 18
4 16, 15, 15, 0 16, 17, 19, 15, 16, 17, 15,
19 17 16 17 19 22 19 22 22 22
5 12, 17, 16, 16, 0 17, 18, 12, 16, 12, 12,
16 20 18 17 18 20 20 20 17 18
6 13, 19 13, 17 18, 21 17, 19 17, 18 0 18, 19 19, 21 13, 21 17, 21 13, 18
7 14, 14, 14, 19, 18, 18, 0 19, 20, 14, 18,
19 20 18 22 20 19 20 22 22 22
8 12, 15, 15, 15, 12, 19, 19, 0 20, 12, 12,
19 20 21 19 20 21 20 21 21 15
9 13, 13, 16, 16, 16, 13, 20, 20, 0 21, 13,
16 20 21 22 20 21 22 21 22 22
10 12, 14 14, 17 14, 21 17, 22 12, 17 17, 21 14, 22 12, 21 21, 22 0 12, 22
11 12, 13, 15, 15, 12, 13, 18, 12, 13, 12, 0
13 15 18 22 18 18 22 15 22 22
Одно из ограничений, которое следует учитывать при выполнении этого перебора: для любой пары абонентов в клетке таблицы 1 записано два номера коммутаторов. Один из этих коммутаторов должен входить в состав проверки Р;д, а второй коммутатор - в состав проверки Р;;2, используемой для замещения соответствующих неисправных линий связи и коммутаторов. Следствием такого ограничения является то, что каждая линия связи будет тестироваться только в одной проверке типа Р^ или типа Р;;2, при этом и все проверки будут различными.
Таблица 2. Состав контролирующего теста для ЦС
Проверки Проверки
Бу Рул = Ау ^ Су ^ Ак Бу Ру,1 = Ау ^ Си ^ Ак
Ру,2 = Ау ^ Су ^ Ак Ру,2 = Ау ^ С,2 ^ Ак
1 Ри = 3^ 14 31 Р311 = 7 ^ 14 ^ 1
Р] 2 = 3^ 18 ^7 Р31,2 = 7 ^ 19 ^ 1
2 Р2Л = 3 ^ 15 ^ 2 32 Р321 = 7^ 18 ^ 6
Р2,2 = 3 ^ 14 ^ 2 Р32,2 = 7^ 19 ^ 6
3 Рз,1 = 3 ^ 16 ^ 1 33 Р331 = 7^ 19 ^ 4
Рз,2 = 3 ^ 14 ^ 1 Р33 2 = 7^ 22 ^ 4
4 Р4,1 = 3 ^ 18 ^ 5 34 Р341 = 7^ 20 ^ 9
Р4 2 = 3 ^ 16 ^ 5 Р34,2 = 7^ 22 ^ 9
5 Р51 = 3 ^ 21 ^ 6 35 Р351 = 7^ 22 ^10
Р52 = 3 ^ 18 ^ 6 Р35 2 = 7^ 14 ^10
6 Р6,1 = 5 ^ 12 ^ 1 36 Р361 = 8 ^ 12 ^ 10
Р6,2 = 5 ^ 16 ^ 1 Р36,2 = 8 ^ 21 ^ 10
7 Р71 = 5 ^ 16 ^ 3 37 Р371 = 8 ^ 15 ^ 11
Р7 2 = 5 ^ 18 ^ 3 Р37 2 = 8 ^ 12 ^ 11
8 Рз,1 = 5 ^ 17 ^ 2 38 Р38,1 = 8 ^ 19 ^ 7
Р8,2 = 5 ^ 20 ^ 2 Р38,2 = 8 ^ 20 ^ 7
9 Р91 = 5 ^ 18 ^11 39 Р391 = 8 ^ 20 ^ 2
Р9 2 = 5 ^ 12 ^11 Р39 2 = 8 ^ 15 ^ 2
10 Рю,1 = 5^ 20 ^ 8 40 Р401 = 8 ^ 21 ^ 9
Рю,2 = 5^ 12 ^ 8 Р40,2 = 8 ^ 20 ^ 9
11 Ри,1 = 1 ^12 ^ 11 41 Р411 = 9 ^ 13 ^ 1
Р112 = 1 ^13 ^ 11 Р412 = 9 ^ 16 ^ 1
12 Р12,1 = 13 ^ 6 42 Р421 = 9 ^ 16 ^ 5
Р122 = 19 ^ 6 Р42,2 = 9 ^ 20 ^ 5
13 Р13,1 = 14 ^ 10 43 Р431 = 9 ^ 20 ^ 2
Р132 = 12 ^ 10 Р43,2 = 9 ^ 13 ^ 2
14 Р141 = 16 ^ 4 44 Р441 = 9 ^ 21 ^ 10
Р142 = 19 ^ 4 Р44 2 = 9 ^ 22 ^ 10
15 Р151 = 19 ^8 45 Р451 = 9 ^ 22 ^ 4
Р15,2 = 12 ^8 Р45,2 = 9 ^ 16 ^ 4
16 Р16,1 = 2 ^ 13 ^ 9 46 Р461 = 10 ^ 12 ^ 11
Р16,2 = 2 ^ 20 ^ 9 Р4622 = 10 ^ 22 ^ 11
17 Р171 = 2 ^ 14 ^ 3 47 Р471 = 10 ^ 14 ^ 7
Р1722 = 2 ^ 15 ^ 3 Р472 = 10 ^ 22 ^ 7
18 Р18,1 = 2 ^ 15 ^ 4 48 Р481 = 10 ^ 17 ^ 6
Р18,2 = 2 ^ 17 ^ 4 Р482 = 10 ^ 21 ^ 6
19 Р191 = 2 ^ 17 ^ 10 49 Р491 = 10 ^ 21 ^ 3
Р192 = 2 ^ 14 ^ 10 Р49 2 = 10 ^ 14 ^ 3
20 Р20,1 = 2 ^ 20 ^ 5 50 Р501 = 10 ^ 22 ^ 9
Р20,2 = 2 ^ 17 ^ 5 Р50,2 = 10 ^ 21 ^ 9
Таблица 2 (продолжение).
21 Р21,1 = 4 ^ 15 ^ 8 Р21,2 = 4 ^ 19 ^ 8 51 Р511 =11 ^ 12 ^ 8 Р512 =11 ^ 15 ^ 8
22 Р22,1 = 4 ^ 16 ^ 9 Р22,2 = 4 ^ 22 ^ 9 52 Р52,1 = 11 ^ 13 ^ 2 Р52,2 = 11 ^ 15 ^ 2
23 Р23,1 = 4 ^ 17 ^ 5 Р23,2 = 4 ^ 16 ^ 5 53 Р531 = 11 ^ 15 ^ 3 Р53 2 = 11 ^ 16 ^ 3
24 Р24,1 = 4 ^ 19 ^6 Р242 = 4 ^ 17 ^6 54 Р541 = 11 ^ 18 ^ 7 Р54,2 = 11 ^ 22 ^ 7
25 Р25,1 = 4^ 22 ^ 7 Р25,2 = 4^ 19 ^ 7 55 Р551 = 11 ^ 22 ^ 4 Р55,2 = 11 ^ 15 ^ 4
26 Р26,1 = 6 ^ 13 ^ 11 Р 26622 = 6 ^ 18 ^ 11
27 Р27,1 = 6 ^ 17 ^ 5
28 Р27,2 = 6 ^ 18 ^ 5 Р28,1 = 6 ^ 18 ^ 3
29 Р28,2 = 6 ^ 21 ^ 3 Р291 = 6 ^ 19 ^ 1
30 Р292 = 6 ^ 13 ^ 1 Р301 = 6 ^ 21 ^ 8 Р302 = 6 ^ 19 ^ 8
Достоверность результатов выполнения проверок гарантируется исправностью проверяющих абонентов А Чтобы удовлетворить этому требованию, будем назначать проверку Рц к выполнению только в том случае, если исправность проверяющего абонента А^ подтверждена в ранее выполненных проверках.
Исключение составляет проверка Рц, для которой проверяющим является абонент 3: при его неисправности система контроля остановится. Чтобы обойти влияние его неисправности, нужно запустить контролирующий тест с другого начального абонента, например, с абонента 5. В предположении, что в ЦС есть только один неисправный компонент, такая смена начального абонента позволит гарантированно запустить контролирующий тест и довести процесс до идентификации неисправного компонента, в том числе, и абонента 3.
5. Состав базового модуля B1:1 для фрагмента исправной ЦС с параметрами графа п = 11, т = 5, & = 2
В таблице 3 показаны компоненты, входящие в состав базового модуля Б1,1 (одного из 55 базовых модулей, необходимых для анализа исправной ЦС). В таблице 3 абоненты и коммутаторы записаны их номерами (без символов компонентов), а линии связи показаны парой номеров (через черточку) в скобках.
При описании действий компонентов базового модуля Б1,1 приняты следующие обозначения:
- компоненты с номерами 3, 7, 6 обозначают абоненты А3, А7, А6 соответственно;
- компоненты с номерами 14, 18, 21 обозначают коммутаторы С14, С18, С21 соответственно;
- компоненты с номерами (3-14) и (14-7) обозначают линии связи 1^-^), /(^^7) соответственно.
Таким образом, запись Р1,1 = 3—>14—>7 означает следующее.
При выполнении проверки Р1,1 абонент 3 через линию связи (3-14), коммутатор 14 и линию связи (14-7) передает сообщение абоненту 7. Исправный абонент 7 отсылает ответ на запрос абоненту 3, который фиксирует в клетке столбца «Оценки» оценку Гц = 0, если же в течение интервала Лт ответ не придет, то оценку Г11 = 1.
Для записи формул диагноза использован алгебрологический метод из [8], являющийся формализацией хорошо известного в технической диагностике метода пересечений. В алгебрологическом методе для отображения технического состояния неисправного компонента используется его номер в прямой форме, а исправного компонента - номер с отрицанием. Так, для оценки Гц = 0 в клетке столбца «Диагноз» записана конъюнкция номеров с отрицанием, означающая, что все компоненты, участвовавшие в проверке Р1,1, исправны. Для оценки Г11 = 1 в клетке столбца «Диагноз» записана дизъюнкция номеров в прямой форме, означающая, что неисправен хотя бы один из компонентов, участвовавших в проверке Р1,1.
Таблица 3. Состав базового модуля Ви для исправной ЦС размера 11*11____
В,\ Проверки Рм Р,3 Проверяемые компоненты Оценки Диагноз Действия Следующие проверки
и Р\,\ = = 3—>14—>7 (344), 04-7), 7 Г\,\ = 0 (3-14) 44 • (14 - 7) • 7 —» Р2,\
Г\,\ = \ (3-Й)v14 V04-7)V7 —> Р\,нач 2
Р\,2 = = 3—18—7 7 Г\,\ = \ Г\,2 = 0 (344)VМ V 04-7) Кес\Х0 Р2,\
Г\,\ = \ Г\,2 = ! 7 —» Р\,3
Р\,з = = 3—21—6 Кх Г\,3 = 0 7 К Кес\Ъ0 Р2,\
Г\,3 = \ К Отказ ЦС -
Стрелка (—) в клетке столбца «Действия» означает переход к выполнению проверки, показанной в клетке последнего столбца. Таким образом, при оценке Г\,\ = 0 выполняется переход к проверке Р2,\, а при оценке Г\,\ = 1 выполняется переход к диагностической проверке Р\,2.
В проверке Р\,2 участвует коммутатор 18, сопряженный с коммутатором 14 из проверки Р\,\ для абонентов 3 и 7. Поэтому в клетке столбца «Проверяемые компоненты» для проверки Р\,2 записан только компонент 7 из числа компонентов, которые тестировались проверкой Р\,\.
Покажем подробности получения формул диагноза, показанных в строках для проверки Р\,2. Функции состояния компонентов, тестируемых на проверке Р\,2, определяются оценкой ее выполнения и имеют вид:
(при Г\,2 = 0) = 7 , (при Г\,2 = \) = 7.
Функции состояния компонентов по результатам тестирования на проверках Р\ \ и Р\,2, являются конъюнкцией функций состояния, полученных для каждой из этих проверок.
В результате получим формулы, показанные в клетках «Диагноз» для проверки Рг,2:
(при ги = 1) л Р\,2 (при г12 = 0) = [(3-14) V 14 V (1) V (14-7) V 7] л 7 = [(3-14) V 14 V (14-7)],
(при ги = 1) л Р\,2 (при г12 = 1) = [(3-14) V 14 V
V (14-7) V 7] л 7 = 7.
Поочередное выполнение проверок Р1л и Рх ,2 позволяет различить неисправность абонента 7 от неисправностей коммутатора 14 и прилегающих линий связи (3-14) и (14-7). Кроме того, подключение проверки Р12 вместо проверки Рц устраняет влияние неисправного компонента (3-14), 14 или (14-7), обнаруженного проверкой Ри. Таким образом, необходимая реконфигурация ЦС, обозначенная сокращением Кес\Х0, («реконфигурация после проверки с оценкой
г¡,2 = 0») состоит в замене Р^ на После получения оценки г 1,2 = 0 можно продолжать контролирующий тест ЦС с проверки Р2,1, что показано в последней клетке этой строки.
Как видно из формул (1), для пары оценок ги = 1 и ги = 1 формируется диагноз: подозревается в неисправности абонент 7. Для устранения влияния неисправного абонента 7 нужно заменить проверки с участием абонента 7 на соответствующие проверки, исполняемые резервным абонентом 6, показанные в таблице 4 раздела 5.3. Действия, проводимые для таких замещений, обозначены в клетке таблицы 3 сокращением Кес\х\ («реконфигурация после проверки Ри с оценкой г 1,2 = 1»). Выходом из программы этих действий является проверка Р1,3 = 3—>21—>6. После ее выполнения с оценкой г13 = 0 можно продолжить контролирующий тест ЦС с проверки Р2,1 базового модуля В2, что показано в последней клетке этой строки.
В двух строках проверки Р1,3 показан символ компонента Кх, который в неисправном состоянии может нарушить выполнение проверки Р13 и привести к оценке г13 = 1. Так как анализ функционирования ЦС при одновременном отказе двух компонентов не входил в постановку задачи, то такой диагноз отмечен словом «Отказ ЦС». При отсутствии второго неисправного компонента Кх получим оценку г1,3 = 0 и переход
к реконфигурации ЦС для устранения влияния неисправного абонента 7 (отмечен символом Лес1,30) с последующим возвратом на проверку Р2д контролирующего теста.
Базовый модуль Вц правильно выполнит проверки Р^, Р12, Р1,3 при условии, что абонент 3 исправен. Для того чтобы устранить влияние его неисправности на оценку г1,1 = 1 (проверка Рц не «прошла»), нужно запустить контролирующий тест с другого начального абонента А2,нач, что отмечено символом Р1,нач 2 в клетке столбца «Следующие проверки». Следует отметить, что в последующих базовых модулях Ву>1, у = 2, ..., 55, начальный абонент А у, включая абонент 3, исправен, диагноз будет правильным, и в клетке «Следующие проверки» будет вписана проверка Р/+1Д.
Для построения состава базового модуля Ву нужно знать состав проверки Руд из контролирующего теста и таблицу связей для нахождения коммутатора Сг-,2, сопряженного с коммутатором Сгд из проверки Руд. Заменив номера компонентов из проверки Р1,1 номерами компонентов из проверки Р;д в записях для базового модуля Вь получим содержимое строк для базового модуля Ву.
6. Способы устранения влияния первого отказавшего компонента фрагмента анализируемой ЦС
Для устранения влияния на работоспособность ЦС компонента, подозреваемого в неисправности, необходимо передать исполнение его функций другим исправным компонентам. Для реализации такого подхода в анализируемой ЦС предусмотрены следующие аппаратные резервы:
- абонент 6;
- 55 линий связи, сопряженных с 55 линиями связи из рабочей конфигурации и включенных в состав проверок типа Ру,2 (показаны курсивом в таблице 2);
- 10 линий связи, присоединенных к резервному абоненту 6, они будут использованы в проверках типа Ру,3 (показаны далее в таблице 5 полужирным шрифтом),
в зависимости от номера неисправного абонента в качестве резервных будут использованы те или иные линии связи.
Как показано в таблице 3, последовательное исполнение проверки Р;>\ с оценкой г;,\ = \ и проверки Р;>2 с оценкой г,2 = 0 диагностирует в числе подозреваемых в неисправности коммутатор 14 и линии связи (3-\4), (\4-7) и устраняет их влияние. Если же проверка Р;>2 исполнена с оценкой г;2 = 1, то абонент 7 диагностируется в числе подозреваемых в неисправности. Для устранения влияния неисправного абонента 7 исполняется проверка Р\,3. Если проверка Р\,3 исполнена с оценкой Г\,3 = 0, то это подтверждает правильность диагноза: неисправен абонент 7. Для устранения влияния неисправного абонента запускается подпрограмма, обозначенная символом Яес\30 (подробно рассматривается ниже), после исполнения которой управление передается входной проверке Р2,\ базового модуля В2,\.
Для восстановления работоспособности ЦС, нарушенной отказом одного из ее компонентов, предлагается использовать следующие способы устранения влияния неисправных компонентов, учитывающие функциональные особенности компонентов ЦС.
1. Неисправные коммутатор и линия связи.
Из приведенного описания видно, что влияние неисправного коммутатора и прилегающих линий связи устраняется единообразно - исполнением проверки Р;>2 с оценкой г,2 = 0 и последующим переходом на продолжение контролирующего теста с входной проверки Р;+\,\ следующего базового модуля В;+\,\.
При этом следует учесть, что каждый коммутатор участвует в пяти проверках. Поэтому действия по замене «отказавших» проверок Р]Л «исправными» проверками Р,2 нужно выполнить в пяти базовых модулях, в состав которых входит неисправный коммутатор.
Для примера, в левой части таблицы 4 показаны необходимые проверки Р,2 для устранения влияния неисправного коммутатора \4. Поскольку проверки Р,2 являются сопряженными с соответствующими проверками Р;;ь то они также показаны в таблице 4. (В правой части таблицы 4
приведены проверки /¿4, о которых подробнее будет рассказано в разделе 7.)
Таблица 4. Таблица резервных проверок для неисправного коммутатора 14_
Проверки Проверки
В,1 Рл = 4л ^ с,1 ^ 4,2 Р^2 = 4,1 ^ С,2 ^ 4/,2
Р,2 = 4,1 ^ Са ^ 4д Pj,4 = Ам ^ С,-,3 ^ А,з ^ С,,4 ^ Аа
Р11 = 3^ 14 ^7 Р12 = 3^ 18 ^7
£и Р1,2 = 3^ 18 ^7 Р14 = 3 ^ 15 ^
4 ^ 22 ^ 7
Р131 = 14 ^ 10 Р132 = 12 ^ 10
В13,1 Р13,2 = 12 ^ 10 Р134 = 1 ^ 13 ^ 9 ^ 21 ^ 10
Р171 = 2 ^ 14 ^ 3 Р172 = 2 ^ 15 ^ 3
В17,1 Р17,2 = 2 ^ 15 ^ 3 Р14 = 2 ^ 17 ^ 5 ^ 16 ^ 3
Р311 = 7 ^ 14 ^ 1 Р31,2 = 7 ^ 19 ^ 1
В31,1 Рз1,2 = 7 ^ 19 ^ 1 Р1 4 = 7 ^ 20 ^
8 ^ 12 ^ 1
В47,1 Р471 = 10 ^ 14 ^ 7 Р47,2 = 10 ^ 22 ^ 7 Р472 = 10 ^ 22 ^ 7 Р14 = 10 ^ 17 ^
4 ^ 19 ^ 7
Может показаться, что таблицы, подобные таблице 4, нужно строить для каждого коммутатора. Но в состав этих таблиц будут входить проверки Р;-,2, уже «вписанные» в состав соответствующих базовых модулей. Поэтому модули Р,2 выполнят необходимые замены автоматически, так как они проработаны заранее при построении базовых модулей Поэтому последовательная (в порядке выполнения контролирующего теста) замена пяти проверок Рц на Р,2 позволит устранить влияние неисправного коммутатора (в таблице 4 - коммутатора 14).
2. Неисправный абонент Для устранения влияния неисправного абонента в ЦС зарезервирован абонент 6. Влияние неисправного абонента устраняется с помощью резервных линий связи, подключающих в работу резервный абонент 6 вместо неисправного абонента.
Физически эти линии связи существуют в структуре ЦС с момента ее построения. Задача состоит в организации подключения этих линий связи для устранения влияния того или иного неисправного абонента.
Как видно из записей таблицы 2, в полном контролирующем тесте каждый абонент, включая резервный абонент 6, входит в состав пяти проверок в качестве проверяющего (назовем «активного») абонента и пяти проверок в качестве проверяемого (назовем «пассивного») абонента.
В таблице 5 приведены индексы резервных проверок для неисправного абонента 7. (Для описания проверок в таблице 5 использованы те же обозначения, что и в таблице 3.) В левом столбце таблицы 5 показаны проверки для ситуаций, когда неисправный абонент является пассивным (проверяемым), в правом столбце - для ситуаций, когда неисправный абонент является активным (проверяющим). Для каждой ситуации приведены две проверки: Р;;ь которая взята из контролирующего теста - таблицы 2, и Р;-,3 (показана полужирным шрифтом), построенная следующим образом. В проверке Р,\ номер неисправного абонента Ан (Л;Д или Л;-,2) заменяется номером резервного абонента Ар, и для пары: исправный абонент Л;-,\ и резервный абонент Ар (в левом столбце), резервный абонент Ар и исправный абонент Л; 2 (в правом столбце) по таблице связей (таблица \) находятся номера сопряженных коммутаторов С\ и С2.
В проверку Р;,3 подставляется один из этих номеров (С\ или С2), что автоматически определяет номера необходимых линий связи.
Аналогичные таблицы нужно построить и для каждого из остальных абонентов ЦС.
Каждая из частей таблицы 5, построенная для неисправного абонента 7, определяет состав проверок Р;-,3 конфигурации ЦС, устраняющей влияние неисправного абонента 7. Переход от исходной конфигурации исправной ЦС к этой конфигурации ЦС может быть организован разными способами. Функциональная роль любого способа заключается в замене номера неисправного абонента 7 номером резервного абонента 6 во всех сообщениях (проверках), в которых ранее участвовал, будучи исправным,
абонент 7. Возможность реализации выбранного способа не вызывает сомнений, так как реконфигурация выполняется исправными компонентами ЦС.
Таблица 5. Таблица резервных проверок для неисправного абонента 7
В,1 Проверки Рм = Лм — — Лн р,з = 4м — — Ар для пассивного абонента 7 В Проверки Рм = Лн — Си — ЛМ2 Р],3 = Ар — С, 2 — 4/,2 для активного абонента 7
В1Л Р11 = 3— 14 —7 Р13 = 3— 21 —6 В 31 Р311 = 7 — 14 — 1 Р31,3 = 6 — 13 — 1
В25,1 Р25,1 = 4— 22 — 7 Р253 = 4— 17 — 6 Вээ,1 Р331 = 7— 19 — 4 Р333 = 6— 17 — 4
В38,1 Рэ8,1 = 8 — 19 — 7 = 8 — 19 — 6 В34,1 Р341 = 7— 20 — 9 Р343 = 6— 21 — 9
В47,1 Р47,1 = 10 — 14 — 7 Р47,3 = 10 — 17 — 6 Вэ5,1 Р351 = 7— 22 —10 Р35,3 = 6— 17 —10
В54,1 Р541 = 11 — 18 — 7 Р54,3 = 11 — 13 — 6
Для устранения влияния каждого неисправного абонента в памяти резервного абонента 6 необходимо иметь таблицу, построенную аналогично таблице в правом столбце таблицы 5. Таким образом, для рассматриваемого примера в памяти резервного абонента 6 нужно иметь 10 таблиц замен для абонентов 1 - 5, 7 - 11.
7. Способы устранения влияния второго отказавшего компонента анализируемой ЦС
Для устранения влияния второго отказавшего компонента построим базовые модули типа В7-,2 и В^э, с которыми будут работать проверяющие абоненты Л]Л после того как в предыдущем цикле контроля и восстановления при исполнении проверки Р;д был зафиксирован отказ.
Базовый модуль типа Bj,2 имеет входную проверку Р,2 и запускается в том случае, если первым был отказ коммутатора или линии связи.
Базовый модуль типа Bj,3 имеет входную проверку Р; 3 и запускается в том случае, если первым был отказ абонента.
Для реализации функционального назначения базовых модулей типа Bj,2 и Bj,з введем проверки типа Р,;4 и Р,-5.
Проверки типа Pj,4 тестируют абонент А^2 через исправный абонент А;3 и коммутаторы С;,3, С;,4, отличные от коммутаторов С,ь С;-,2 в проверках Р;;1, Р;-,2. Поэтому назовем обходящей проверку типа Р;-,4, которая позволяет устранить влияние неисправного коммутатора С,2 и прилегающих линий связи во входной проверке Р;-,2.
Проверки типа Pj,5 являются сопряженными для проверок типа Р]г3 и выполняют функции, аналогичные функциям проверок типа Р,2 для проверок типа Рц.
Действия ЦС, выполняемые после обнаружения отказа второго компонента, однозначно определяются тем, проверкой какого типа обнаружен второй отказ. А именно:
- если отказ обнаружен проверкой Pj,1, то это означает, что второй отказавший компонент никак не связан с компонентами, неисправность которых обнаружена в первом цикле контроля, а потому действия по устранению влияния второго неисправного компонента нужно проводить как для первого отказавшего компонента в соответствии с правилами, определенными для базового модуля типа Bj,1;
- если же отказ обнаружен проверками Р;,2 или Pj,3, то это означает, что второй отказавший компонент связан с компонентами, неисправность которых обнаружена в первом цикле контроля; а потому действия по устранению влияния второго неисправного компонента нужно проводить в соответствии с правилами, определенными для базовых модулей Bj 2, Bj 3.
Рассмотрим подробнее эти действия для неисправных компонентов разных типов на примере базовых модулей B1,2 и B1,3 (таблица 6), построенных на основе базового модуля B1,1 (таблица 3); при этом будем рассматривать
отказовые ситуации, в которых второй неисправный компонент обнаружен проверками типа Р]-,2 или Р;,3. (Отметим, что обозначения и комментарии в таблице 6 аналогичны ранее использованным в таблице 3.)
Таблица 6. Состав базовых модулей В12 и В13
В1,2 В1,з Проверки Р1,2, Р1,4, Р13 Р1,5 Проверяемые компоненты Оценки Диагноз Действия Следующие проверки
Р1,2 = = 3—18—7 (3-18), 18, (18-7), 7 п,2 = 0 (3-18) 18 ■ (18 - 7) ■ 7 — Р2,1
П,2 = 1 (3-18)V18V V (18-7) v7 — Р1,4 (отказ ЦС)
1,2 Р1,4 = = 3—15—4—19—7 7 П,2 = 1 Г1,4 = 0 (3-18)V18V V (18-7) Кее1А0 Р2,1
П,2 = 1 П,4 = 1 7 — Р1,3
Р1,3 = 3— 21—6 К Г1,3 = 0 7 К Яеси,1 Р2,1
Г1,3 = 1 К Отказ ЦС -
1,3 Р1,3 = = 3—21—6 (3-21), 21, (21-6), 6 Г1,3 = 0 (3 - 21) 21 ■ (21-6) ■ 6 — Р2,1
Г1,3 = 1 (3-21)V21V V (21-6) V 6 — Р1,5
Р1,5 = = 3—18—6 6 Г1,5 = 0 (3-21)V21V V (21-6) — Р2,1 (отказ ЦС)
Г1,5 = 1 6 Отказ ЦС -
1. Неисправная линия связи.
Предположим, что неисправна одна из линий связи (3-18) или (18-7). Тогда в процессе контроля на проверке Р12 из базового модуля В12 будет получена оценка Г\,2 = 1, для которой диагноз имеет вид:
Бг = (3-18) V 18 V (18-7) V 7,
и последующая рекомендация: перейти к проверке Р1,4 = 3 ^ 15 ^4 ^ 19 ^ 7.
Исполнение этой проверки с оценкой г14 = 0 в сочетании с оценкой предыдущей проверки г12 = 1 позволяет заключить, что компонент 7 исправен, а влияние одного из подозреваемых в неисправности компонентов - коммутатора 18, линии связи (3-18), линии связи (18-7) - устранено подключением проверки Р14 вместо проверки Р12.
В общем случае между абонентами 3 и 7 можно построить 8 проверок типа Р], 4, различающихся номерами промежуточного абонента А;3. Если наложить ограничение, чтобы проверки типа Р,4 различались также номерами коммутаторов С],3, С],4, то останутся такие проверки:
Р1,41 = 3 ^ 15 ^4 ^ 19 ^ 7, Р1,42 = 3 ^ 21 ^8 ^ 20 ^ 7, РМ3 = 3 ^ 16 ^9 ^ 22 ^ 7.
В состав таблицы 6 нужно вставить любую из этого списка, так как по своим функциональным свойствам они равноценны.
2. Неисправный коммутатор. Предположим, что первым неисправным компонентом был коммутатор 14. Как видно из левого столбца таблицы 4, в процессе исполнения контролирующего теста его неисправность будет обнаружена проверками типа Р]-,1: Р1Ь Р131, Р17,1, Р31,1, Р47,1, и его влияние будет устранено проверками типа Р],2: Р1,2, Р13,2, Р17,2, Р31,2, Р47,2, при этом абоненты А]Л переключат входы на соответствующие базовые модули B]■,2.
Предположим, что вторым неисправным компонентом оказался коммутатор 18. В процессе второго прогона контролирующего теста его неисправность будет обнаружена проверками типа Р],1 :Р41, Р91, Р28,1, Р32,1, Р54,1, а его влияние будет устранено проверками типа Р],2: Р42, Р92, Р28,2, Р32,2, Р54,2, что нетрудно проверить с помощью записей таблицы 2. Кроме того, неисправность коммутатора 18 будет обнаружена проверкой Р12 из базового модуля B1,2 (таблица 6). Как видно из таблицы 6, для неисправного коммутатора 18 проверка Р12 даст оценку г12 = 1, а для устранения влияния неисправного коммутатора 18 потребуется обходящая проверка Р14.
Действуя по аналогии с данным примером, нетрудно показать, что обходящая проверка типа Р],4 нужна для устранения влияния кратной неисправности двух сопряженных коммутаторов, используемых в проверках типа Р],1 и Р],2.
Что касается несопряженных пар неисправных коммутаторов, то их влияние будет устранено двумя группами из пяти проверок, обнаруживающих каждый неисправный коммутатор как первый, построенными аналогично группе для коммутатора 14 из левого столбца таблицы 6.
3. Неисправный абонент.
В разделе 6 показано, что влияние первой неисправности компонента типа абонент устраняется замещением неисправного абонента резервным исправным абонентом и десяти проверок. Факт подобных действий фиксируется в соответствующих проверяющих абонентах переключением входа на базовый модуль B]■,3. Как видно из записей таблицы 6, последующая неисправность линии связи или коммутатора будет обнаружена проверкой Р13, а ее влияние будет устранено после исполнения проверки Р15 с оценкой г15 = 0. Так как для оценки г15 = 1 диагноз означает, что неисправен абонент 6, то в соседней клетке стоит запись Отказ ЦС. Такая запись объясняется тем, что для замещения неисправного абонента нужен исправный абонент; но второго резервного абонент в ЦС нет, а потому - отказ ЦС.
Из приведенного описания видно, что предложенный подход к организации устранения влияния неисправных компонентов правильно исполняет назначенные функции, если отказы компонентов обнаруживаются проверками типа Р],1. Более сложная организация требуется для устранения влияния кратных отказов, возникающих в компонентах, исполняющих функции одного и того же базового модуля B]■,1. Поэтому в клетке «Следующие проверки» таблицы 6 имеются две записи: Р14 и (отказ ЦС). Объяснение таково:
- при первом входе в базовый модуль B1,2 выполняется переход на обходящую проверку Р14 для устранения влияния обнаруженной неисправности;
- при втором входе в базовый модуль B1,2 производится останов ЦС из-за сложности возникшей отказовой ситуации.
4. Обобщая результаты разделов 6 и 7, можно сделать следующие выводы.
- Представленный подход гарантирует устранение влияния одного неисправного компонента цифровых систем анализируемой структуры.
- Подобные гарантии распространяются на устранение влияния второго неисправного компонента, если он не входит в состав компонентов, исполняющих функции того же базового модуля типа B]1, на котором обнаружен первый неисправный компонент.
- Для устранения влияния парных отказов коммутаторов и линий связи, исполняющих функции одного и того же базового модуля B]■,1, используются обходящие проверки типа Р14. Обходящие проверки успешно устраняют влияние соответствующего неисправного компонента, но их исполнение требует вдвое больше времени, чем проверки остальных типов. Такое замедление может оказаться неприемлемым для организации синхронных систем.
- Как видно из приведенных результатов, необходимым условием реализации предлагаемого подхода к устранению влияния неисправных компонентов является наличие двух сопряженных путей между каждой парой абонентов ЦС анализируемой структуры, т.е. нужно иметь параметр а = 2. В свою очередь, такое значение параметра а определяет только одну резервную линию связи для каждой рабочей линии связи. Для устранения влияния одновременного отказа такой пары линии связи необходима обходящая проверка, вносящая замедление в процесс функционирования ЦС.
7. Заключение
Разработанный подход к организации отказоустойчивости цифровых систем со структурой минимального квазиполного графа с двумя путями между двумя абонентами заключается в последовательном устранении влияния неисправного компонента отдельных фрагментов ЦС. Анализируемый фрагмент ЦС состоит из проверяемого абонента, коммутатора
и двух линий связи коммутатора с проверяющим и проверяемым абонентами. Для каждого фрагмента строятся программные базовые модули трех видов. На основании полученного диагноза технического состояния компонентов фрагмента проводится замещение функций компонента, подозреваемого в неисправности, функциями соответствующих исправных компонентов. Такое замещение позволяет восстановить работоспособность ЦС и перейти к тестированию следующего фрагмента.
Представленный подход гарантирует устранение влияния одного неисправного компонента любого типа цифровых систем анализируемой структуры. Подобные гарантии распространяются на устранение влияния второго неисправного компонента, если он не входит в состав компонентов, исполняющих функции того же базового модуля типа В^, на котором обнаружен первый неисправный компонент. Для устранения влияния парных отказов в компонентах, исполняющих функции одного и того же базового модуля В^, введены обходящие проверки, чье исполнение занимает вдвое больше времени, чем проверки остальных типов. Такое замедление может оказаться неприемлемым для организации синхронных систем.
Необходимым условием реализации предлагаемого подхода к устранению влияния неисправных компонентов является наличие двух сопряженных путей между каждой парой абонентов ЦС анализируемой структуры, т.е. нужно иметь параметр о = 2. Что же касается других параметров ЦС, то конкретные значения пит определяют количество необходимых базовых модулей Я = 3(п х т), но по существу не влияют на их организацию. Таким образом, представленный подход может быть использован для анализа ЦС со структурой минимального квазиполного графа с двумя путями между двумя абонентами с параметрами графа, отличными от размера 11 х 11 . Но параметры п и т должны удовлетворять соотношению п = т(т - 1)/о + 1 [1, 2].
Литература
1. ВЕДЕШЕНКОВ В. А., КУРАКО Е.А., ЛЕБЕДЕВ ВН.
О диагностируемости компонентов цифровых систем со структурой минимального квазиполного графа размера 7x7 с 2 путями между 2 абонентами // Управление большими системами. - 2015. - Вып. 58. - С. 90-114.
2. ВЕДЕШЕНКОВ В.А. Организация диагностирования одиночных неисправных компонентов цифровых систем со структурой минимального квазиполного графа размера 7*7 с 2 путями между 2 абонентами // Проблемы управления. -
2016. - №1. - С. 65-72.
3. ВЕДЕШЕНКОВ В.А. О диагностируемости цифровых систем со структурой минимального квазиполного графа размера 7*7 // Автоматика и телемеханика. - 2016. - №3. -С. 152-165.
4. ВЕДЕШЕНКОВ В.А. Подход к фрагментному диагностированию компонентов цифровых систем со структурой минимального квазиполного графа (на примере графа размера 7x7) // Проблемы управления. - 2016. -№6. - С. 53-58.
5. ВЕДЕШЕНКОВ В.А. Фрагментарный подход к диагностированию компонентов цифровых систем со структурой минимального квазиполного графа (на примере графа размера 7x7) // Управление большими системами. -
2017. - Вып. 66. - С. 171-197.
6. КАРАВАЙ М.Ф., ПОДЛАЗОВ В С. Распределенный полный коммутатор как «идеальная» системная сеть для многопроцессорных вычислительных систем // Управление большими системами. - 2011. - Вып. 34. - С. 92-116.
7. КАРАВАЙ М.Ф., ПАРХОМЕНКО П.П., ПОДЛАЗОВ ВС. Комбинаторные методы построения двудольных однородных минимальных квазиполных графов (симметричных блок-схем) // Автоматика и телемеханика. -2009. - №2. - С. 153-170.
8. ALVERSON B., FROESE E., KAPLAN L., ROWETH D. Cray XCTM Series Network, WP-Aries01-1112. 2012 Cray Inc. - 28 p. -URL: http://www.cray.com/sites/default/files/resources/ CrayXCNetwork.pdf (дата обращения: 16.03.2017).
9. ALVERSON R., ROWETH D., KAPLAN L. CRAY INC. The Gemini System Interconnect // 18th IEEE Symposium on High Performance Interconnects. - 2009. - P. 83-87.
THE APPROACH TO AN ORGANIZATION FAULT - TOLERANT DIGITAL SYSTEMS WITH MINIMAL QUASICOMPLETE GRAPH STRUCTURES WITH TWO PATHS BETWEEN TWO ABONENTS (AN EXAMPLE OF GRAPH BY DIMENSION 11 x 11)
Victor Vedeshenkov, Institute of Control Sciences of RAS, Moscow, Doctor of Science, senior researcher associate ([email protected]).
Abstract: The developed approach to the organization of analyzable fault-tolerant digital systems consists of an alternate elimination of the effect of one faulty component of various fragments of digital systems. The analysed fragment of digital system consists of tested abonent, a commutator and two lines of commutator with tested abonent and testing abonent. The programming basic modules of three types are developed for each fragment. The elimination of influence of fault component holds the substitution of the faulty component function by non-faulty backup functions. The developed approach guarantees the elimination of influence of one fault component of any type for analysed structure of digital systems. Prerequisite for the realization of the proposed approach are two paths between each pair of abonents.
Keywords: digital systems, minimal quasicomplete graph, fault-tolerance, fragment, abonent, basic module.
Статья представлена к публикации членом редакционной коллегии В.М. Вишневским.
Поступила в редакцию 25.06.2017.
Опубликована 31.05.2018.