УДК 621.396.6.019.3+519.87
Мандзий Б.А., Волочий Б.Ю., Озирковский Л.Д.,
Змысный М.М., Кулык И.В.
ОПРЕДЕЛЕНИЕ ПАРАМЕТРОВ СТРАТЕГИИ АВАРИЙНОГО ВОССТАНОВЛЕНИЯ ДЛЯ ОТКАЗОУСТОЙЧИВЫХ СИСТЕМ НА ОСНОВЕ МАЖОРИТАРНОЙ СТРУКТУРЫ
Аннотация - Объектом рассмотрения является отказоустойчивая система, в которой реализована мажоритарная структура и скользящее резервирование ее рабочих модулей. Такая отказоустойчивая система используется в практике проектирования программно-аппаратных радиоэлектронных систем ответственного назначения и длительной эксплуатации с аварийным восстановлением. Разработка моделей отказоустойчивой системы осуществлена с использованием технологии аналитического моделирования. Показаны возможности применения разработанных моделей отказоустойчивой системы для решения задач ее надежностного проектирования.
Abstract - The fault-tolerant systems with a combined structural redundancy, which includes the majority structure and sliding redundancy, are the object of consideration. Such systems in the practice of designing hardware and software of radio-electronic systems important purpose and long-term operation with disaster recovery are used. The development of models of fault-tolerant system implemented using the technology of analytical modeling is carried out. The possibilities of the developed models of fault-tolerant system for solving problems of reliability designing are shown.
Ключевые слова - надежность, отказоустойчивая система,
мажоритарная структура, техническое обслуживание, аварийное
восстановление.
Keywords - reliability, fault-tolerant system, majority structure, maintenance, disaster recovery.
1. Постановка задачи
При разработке обслуживаемых программно-аппаратных радиоэлектронных систем (РЭС) ответственного назначения, для обеспечения требуемого уровня надежности, популярной является отказоустойчивая система (ОС) на основе мажоритарной структуры [7]. Надежность таких отказоустойчивых систем при длительной эксплуатации повышают введением скользящего резерва ее рабочих модулей и использованием соответствующей стратегии технического обслуживания [1, 2]. Для решения задач надежностного проектирования таких РЭС, а именно задач многовариантного анализа конфигураций ОС и их надежностного параметрического синтеза, необходимо осуществить разработку моделей ОС. Такие модели должны иметь высокую степень адекватности представления не только структуры, но и надежностного поведения обусловленного алгоритмом использования резерва и избранной стратегии технического обслуживания. Вместе с этим необходимо учесть
1010_Volochiy_doklad_Penza_2011.doc 1
реальный закон распределения для продолжительности технического обслуживания, который в данной работе считается эрланговским [2]. Разработка таких моделей предусматривает два этапа. На первом этапе осуществляется разработка модели в виде графа состояний и переходов. Учитывая сложность и большую трудоемкость данной задачи, ее целесообразно решать с использованием усовершенствованной технологии аналитического моделирования [3, 4]. На втором этапе осуществляется трансформация графа с использованием метода фаз Эрланга [5].
2. Конфигурация отказоустойчивой системы
Конфигурация ОС на основе мажоритарной структуры со скользящим резервированием ее рабочих модулей, представлена на рис. 1.
В состав отказоустойчивой системы входят:
• ядро мажоритарной структуры (МС), которое состоит из n однотипных модулей основного функционального назначения (МОФН);
• определенное количество m таких же резервных модулей;
• детектор рассогласования (ДР);
• мажоритарный элемент (МЭ) (восстанавливающий орган);
• коммутатор.
Рис. 1. Конфигурация отказоустойчивой системы на основе мажоритарной структуры и скользящим резервированием ее рабочих модулей
Для исследуемой системы в процессе эксплуатации предусмотрено техническое обслуживание со стратегией аварийного восстановления [2, с. 162]. Поэтому дополнительной функцией ДР является сообщение в ремонтную службу о наличии неисправных МОФН.
Описание стратегии технического обслуживания. Ремонтная служба находится на значительном расстоянии от объекта, что делает существенным влияние затрат времени на прибытие ремонтника на показатель надежности.
1010_Volochiy_doklad_Penza_2011.doc 2
Поэтому актуальной задачей является выбор момента времени, когда ремонтник получает вызов и отправляется на объект. В работе показано влияние на показатели надежности двух предельных вариантов вызова ремонтной службы:
1) вызов передается в ситуации, когда очередной отказ МОФН приведет к катастрофическому отказу (исчерпан скользящий резерв и количество рабочих модулей в ядре МС стало минимально допустимым).
2) вызов передается после первого отказа модуля в ядре МС.
В разработанных моделях возможности ремонтной службы представлены так:
У Когда ремонтник прибывает на объект, он осуществляет восстановление всех неисправных МОФН отказоустойчивой системы.
Отремонтированные модули пополняют ядро МС и скользящий резерв.
У Количество выездов (ремонтов) ремонтника ограничено, что обусловлено имеющимся количеством запасных ремонтных комплектов (модулей), которые выделены для технического обслуживания отказоустойчивой системы.
У Продолжительность восстановительных работ включает длительность ремонта и затраты времени для прибытия ремонтника на объект.
У В интервале времени после вызова ремонтной службы и до момента прибытия ремонтника на объект (до начала ремонта) возможен отказ МОФН. Вероятность отказа МОФН в ядре МС за время ремонта (замены) неисправных модулей не учитывается.
3. Разработка моделей отказоустойчивой системы
Согласно постановке задачи исследования разработано две модели отказоустойчивой системы. Модель 1 и модель 2 соответственно с первым и вторым вариантами передачи вызова в ремонтную службу. Разработка моделей осуществлена по технологии, представленной в [4]. Эта технология позволяет автоматизировать разработку графа состояний и переходов, что важно при решении задач многовариантного анализа и параметрического синтеза. Практическое использование этой технологии обеспечивает программный модуль ASNA-1.
В этой технологии объект исследования необходимо представить в виде структурно-автоматной модели. Разработка структурно-автоматной модели ОС на основе МС предусматривает: определение базовых событий, определение компонент вектора состояний, определение условий и обстоятельств, при которых происходят базовые события, компоновка формул расчета интенсивностей базовых событий (ФРИБС) и формирование правил модификации компонент вектора состояний (ПМКВС). События, которые происходят в ОС и обусловлены надежностным поведением, представлены в таблице 1. Анализ представленных в таблице событий позволяет определить базовые события.
Таблица 1. Представление пар событий, которые фиксируют начало и окончания временного интервала пребывания исследуемой отказоустойчивой
1010_Volochiy_doklad_Penza_2011.doc
3
системы в определенном состоянии
Пор. № пары событий Событие, которое фиксирует начало пребывание в состоянии Событие, которое фиксирует окончание пребывания в состоянии (базовое событие) Продолжительность временного интервала между событиями (ср. знач.), [сек.]
1 „Начало работы РЭС” „Отказ модуля в ядре МС” ^1
2 „Начало процедуры обнаружения неисправного модуля в ядре МС” „Окончание процедуры обнаружения неисправного модуля в ядре МС” ^ 2
3 „Начало процедуры отключения неисправного модуля из ядра МС” „Окончание процедуры отключения неисправного модуля из ядра МС” ^3
4 „Начало процедуры подключения резервного модуля в ядро МС” „Окончание процедуры подключения резервного модуля в ядро МС” 14
5 „Вызов ремонтной службы и начало ожидания процедуры ремонта (замены) неисправных модулей” „Окончание ремонта (замены) неисправных модулей” ^5
6 „Начало процедуры подключения восстановленных модулей в ядро МС” „Окончание процедуры подключения восстановленных модулей в ядро МС” 16
7 „Начало процедуры подключения восстановленных модулей в скользящий резерв” „Окончание процедуры подключения восстановленных модулей в скользящий резерв” 17
Если продолжительность определенной процедуры в сравнении с другими очень мала и соответственно приемлемо допущение, что эта продолжительность равна нулю, то из дальнейшего рассмотрения пара событий, которая соответствует данной процедуре, снимается. Но базовое событие из этой пары получает статус сведенного базового события. Функциональные модули: детектор рассогласования, коммутатор,
мажоритарный элемент являются надежными и имеют время наработки до отказа превышающее время эксплуатации системы. Поэтому снято из рассмотрения события: „Отказ детектора рассогласования”; „Отказ
коммутатора”, „ Отказ мажоритарного элемента”.
На основе приведенных соображений в перечень базовых событий включены события: „Отказ модуля в ядре МС”, „Окончание процедуры обнаружения неисправного модуля в ядре МС”, „Окончание ремонта (замены) неисправных модулей”.
Разработанные структурно-автоматные модели отказоустойчивой
системы представлены в таблице 2 (модель 1) и в таблице 3 (модель 2).
В структурно-автоматных моделях учтено (отображено) следующие параметры отказоустойчивой системы и ремонтной службы: n - количество
1010_Volochiy_doklad_Penza_2011.doc
4
модулей в ядре МС; m - количество модулей скользящего резерва; Ln -интенсивность отказов одного модуля в ядре МС или в скользящем резерве; Ti - среднее значение интервала времени, между двумя последовательными проверками наличия неисправного модуля в ядре МС; г - начальное количество запасных модулей в ЗИПе для замены (ремонта) неисправных модулей; Тг -среднее значение интервала времени, необходимого на ремонт одного модуля; Тр - среднее значение интервала времени, необходимого на приезд ремонтника.
В структурно-автоматных моделях отказоустойчивой системы, вектор состояния представлен следующими компонентами:
V1 - отображает текущее количество работоспособных модулей в ядре МС (начальное значение компоненты V1 равно количеству модулей рабочей конфигурации n);
V2 - отображает текущее количество неисправных модулей в ядре МС (начальное значение компоненты V2 равно нулю);
V3 - отображает текущее количество работоспособных модулей в резерве (начальное значение компоненты V3 равно начальному количеству модулей в резерве m);
V4 - отображает текущее количество модулей, которые находятся в очереди на ремонт (начальное значение компоненты V4 равно нулю);
V5 - счетчик количества использованных запасных модулей из ЗИПа для ремонта (замены) неисправных модулей (начальное значение компоненты V5 равно г);
V6 - признак запрета событий. Эта компонента нужна для того, чтобы при определении состояний не формировались лишние состояния. Значение V6 устанавливается единица при событии „Отказ модуля в ядре МС” и устанавливается ноль при событии „Окончание процедуры обнаружения неисправного модуля в ядре МС”. Начальное значение компоненты V6 равно нулю.
Таблица 2. Структурно-автоматная модель отказоустойчивой системы для _________первого варианта вызова ремонтной службы (модель 1)___
Базовые события Условия и обстоятельства ФРИБС ПМКВС
Отказ модуля в ядре МС (V1<=((n+1)/2)) AND (V6=0) V1xLn V1:=V1-1; V2:=V2+1; V6:=V6+1;
Окончание процедуры обнаружения неисправного модуля в ядре МС (V2>0) AND (V3=0) AND (V6=1) 1/Ti V1:=V1+1; V2:=V2-1; V3:=V3-1; V4:=V4+1; V6:=0
(V2>0) AND (V3=0) AND (V6=1) 1/Ti V2:=V2-1; V4:=V4+1; V6:=0
Окончание ремонта (замены) неисправных модулей (V1=((n+1)/2)) AND (V2=0) AND (V3=0) AND (V4>0) AND (V5>0) 1/ (V4xTr+Tp) V1:=n; V3:=m; V4:=0; V5:=V5-1
Критерий катастрофического отказа (V1<((n+1)/2)
Таблица 3. Структурно-автоматная модель отказоустойчивой системы для второго варианту вызова ремонтной службы (модель 2)
Базовые
события
Условия и обстоятельства
ФРИБС
ПМКВС
1010_Volochiy_doklad_Penza_2011.doc
5
Базовые события Условия и обстоятельства ФРИБС ПМКВС
Отказ модуля в ядре МС (V1<=((n+1)/2)) AND (V6=0) V1xLn V1:=V1-1; V2:=V2+1; V6:=V6+1;
Окончание процедуры обнаружения неисправного модуля в ядре МС (V2>0) AND (V3>0) AND (V6=1) 1/Ti V1:=V1+1; V2:=V2-1; V3:=V3-1; V4:=V4+1; V6:=0
(V2>0) AND (V3=0) AND (V6=1) 1/Ti V2:=V2-1; V4:=V4+1; V6:=0
Окончание ремонта (замены) неисправных модулей (V1<n) AND (V1>=((n+1)/2)) AND (v2=0) AND (V3=0) AND (V4>0) (V4<=V5) 1/ (V4xTr+Tp) V1:=n; V3:=m; V5:=V5-V4; V4=0
(V1<n) AND (V1>=((n+1)/2)) AND (V2=0) AND (V3=0) AND (V4>0) (V4>V5) AND (V4<=(n-V1)) 1/ (V5xTr+Tp) V1:=V1+V5; V4:=V4-V5; V5:=0; V3:=0;
(V1<n) AND (V1>=((n+1)/2)) AND (V2=0) AND (V3=0) AND (V4>0) (V4>V5) AND (V4>(n-V1)) AND (V5<=(n-V1)) 1/ (V5xTr+Tp) V1:=V1+V5; V4:=V4-V5; V5:=0; V3:=0;
(v1<n) AND (V1>=((n+1)/2)) AND (V2=0) AND (V3=0) AND (V4>0) (V4>V5) AND (V4>(n-V1)) AND (V5>(n-V1)) 1/ (V5xTr+Tp) V3:=V5-(n-V1); V1:=n; V4:=V4-V5; V5:=0;
Критерий катастрофического отказа (V1<((n+1)/2)
Структурно-автоматные модели являются универсальными для
отказоустойчивой системы на основе мажоритарной структуры со скользящим резервированием ее рабочих модулей и техническим обслуживанием. Также эти структурно-автоматные модели могут служить прототипом для разработки новых структурно-автоматных моделей отказоустойчивых систем с
аналогичным способом обеспечения отказоустойчивости, но и с другой стратегией технического обслуживания. Обязательным этапом разработки структурно-автоматных моделей является их верификация.
4. Примеры решения задач надежностного проектирования Задача 1. Сравнение надежности отказоустойчивой системы при двух
предельных вариантах вызова ремонтной службы и следующих значениях параметров: n = 7; m = 1; Ln = 0,001 1/ч; г = 4; Те = 0,001 ч; Тг = 0,1 ч; Tp = 1 ч. Результат представлен на рис. 2.
Задача 2. Исследование влияния количества модулей в ядре мажоритарной структуры на показатель надежности
отказоустойчивой системы при двух
1010_Volochiy_doklad_Penza_2011 .doc 6
Рис. 2. Зависимости вероятности безотказной работы отказоустойчивой системы от времени (модель 1 и модель 2)
предельных вариантах вызова ремонтной службы. Значения параметров аналогичны представленным в задаче 1. Результат представлен на рис. 3.
Модель 1 Модель 2
Рис. 3. Зависимости вероятности безотказной работы отказоустойчивой системы от времени и при различном количестве модулей в ядре МС для моделей 1 и 2.
Задача 3. Исследование влияния начального количества имеющихся в ЗИПе запасных модулей на показатель надежности отказоустойчивой системы при двух предельных вариантах вызова ремонтной службы и следующих значениях параметров: n = 5; m = 1; Ln = 0,01 1/ч; Те = 0,001 ч; Тг = 0,1 ч; Tp = 1
ч. Результат представлен на рис. 4.
Модель 1 Модель 2
системы при различных значениях начального количества запасных модулей в ЗИПе
5. Разработка моделей отказоустойчивой системы с мажоритарной структурой с учетом эрланговского распределения длительности процесса восстановления
Выше при построении надежностных моделей отказоустойчивой системы принято, что длительности всех процессов, которые могут происходить в системе, имеют экспоненциальное распределение. Интенсивности протекания событий при таком допущении являются постоянными во времени величинами. Для повышения адекватности моделей, а соответственно и точности определения показателей надежности необходимо учитывать реальные законы распределения длительностей процессов.
В реальности длительность процесса восстановления, который включает в себя затраты времени на приезд ремонтника и продолжительность ремонта, может иметь закон распределения близкий к закону распределения Ерланга 4-
1010_Volochiy_doklad_Penza_2011.doc
7
го порядка. Для перехода от стохастической системы немарковського типа к стохастической системе марковского типа, согласно методу фаз Эрланга (ФЭ) [5, 6, 7], соответствующие состояния будут заменены эквивалентной цепочкой фиктивных состояний. Количество состояний в каждой цепочке s = 4.
Задача 4. Уточнение значений показателя надежности при эрланговском законе распределения продолжительности восстановления для первого варианта вызова ремонтника и следующих значениях параметров: n = 5; m = 2; Ln = 0,001 1/ч; г = 8; Те = 0,001 ч; Тг = 0,1 ч; Tp = 1 ч; Mu=1/(3*Tr+Tp) -интенсивность восстановления неисправных модулей.
Для того чтобы использовать метод ФЭ необходимо, прежде всего, осуществить с помощью программного модуля ASNA-1 построение графа состояний и переходов как стохастической системы немарковского типа (граф изображен на рис. 5). Отметим, что переходы из состояний S6 и S13 происходят с изменяющейся во времени интенсивностью.
Рис. 5. Граф состояний и переходов стохастической системы немарковского типа для
первого варианта вызова ремонтника
Заменяем переходы из состояний S6 и S13 в следующие состояния цепочкой фиктивных состояний (рис. 6), где Mue - интенсивность переходов между фиктивными состояниями. Тем самым переходим к эквивалентной стохастической системе марковского типа.
Рис. 6. Граф состояний и переходов эквивалентной стохастической системы марковского
типа для первого варианта вызова ремонтника
Mu
Для трансформированного графа состояний и переходов формируем и решаем систему дифференциальных уравнений Колмогорова-Чэпмена и определяем показатели надежности, представленные на рис. 7.
1010_Volochiy_doklad_Penza_2011.doc 8
Рис. 7. Зависимость вероятности безотказной работы отказоустойчивой системы от времени
для первого варианта вызова ремонтника
Полученные результаты показывают, что показатель надежности «среднее значение продолжительности работы до катастрофического отказа», определенный без учета реального закона распределения для длительности процесса восстановления при заданных выше значениях параметров, занижен на 4,7%.
Задача 5. Уточнение значений показателей надежности при эрланговском законе распределения продолжительности восстановления для второго варианта вызова ремонтника. Значения параметров представлены в задаче 4.
С помощью программного модуля ASNA-1 осуществлено построение графа состояний и переходов как стохастической системы немарковского типа (граф изображен на рис. 8). Отметим, что переходы из состояний S4, S9, S14, S20, S21, S27, S28, S34, S35 и S39 происходят с изменяющейся во времени интенсивностью.
Рис. 8. Граф состояний и переходов стохастической системы немарковского типа для второго варианта вызова ремонтника Используя метод ФЭ, заменяем обозначенные состояния эквивалентными цепочками фиктивных состояний. Трансформированный граф представлен на рис. 9, где Muel, Mue2, Mue3 - интенсивности переходов между фиктивными состояниями.
1010_Volochiy_doklad_Penza_2011.doc
9
Рис. 9. Граф состояний и переходов эквивалентной стохастической системы марковского типа для второго варианта вызова ремонтника Для трансформированного графа состояний и переходов составляем и решаем систему дифференциальных уравнений Колмогорова-Чэпмена.
Рис. 10. Зависимость вероятности безотказной работы отказоустойчивой системы от времени
для второго варианта вызова ремонтника
Полученные результаты показывают, что показатель надежности «среднее значение продолжительности работы до катастрофического отказа», определенный без учета реального закона распределения для длительности процесса восстановления при заданных выше значениях параметров практически не отличается от полученного.
Вывод
В докладе показаны возможности решения задач надежностного проектирования при определении параметров стратегии аварийного восстановления и отказоустойчивой системы с комбинированным структурным резервированием на основе мажоритарной структуры.
Литература
1. Каштанов В.А., Медведев А.И. Теория надежности сложных систем (теория и практика). - Г.: «Европейский центр по качеству», 2002. - 470 с.
2. Байхельт Ф., Франкен П. Надежность и техническое обслуживание. Математический подход / Пер. с нем. - Г.: Радио и связь, 1988. - 392 с.
3. Мандзий Б. А., Волочий Б.Ю., Озирковский Л.Д. Новые возможности для исследования эффективности стратегий технического обслуживания отказоустойчивых систем с комбинированным резервированием // Надежность и качество: Труды международного симпозиума, Пенза, 21-31 майя 2007, Т.2. Под ред. Н.К. Юркова. - Россия, Пенза: Изд-во Пенз. гос. ун-
1010_Volochiy_doklad_Penza_2011.doc 10
та, 2007. - C. 31-35.
4. Волочий Б.Ю. Технология моделирования алгоритмов поведения информационных систем. - Львов: Изд-во Национального университета „Львовская политехника”, 2004. - 220 с.
5. Клейнрок Л. Теория массового обслуживания / Пер. с англ. И.И. Грушко; Под ред. В.И. Нейман. - Г.: Машиностроение, 1979. - 432 с.
6. Райншке К., Ушаков И.А. Оценка надежности систем с использованием графов / Под ред. И. А. Ушакова.-М.: Радио и связь, 1988 - 208 с.: ил.
7. Вентцель Э.С., Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. Г.: Наука Гл. ред. физ. мат. лит. -1991. (Физико-математическая б-ка инженера.) - 384 с.
8. Змысный М.М., Кулык И.В. Проектирование отказоустойчивых
радиоэлектронных систем на основе мажоритарной структуры // Надежность и качество: Труды международного симпозиума. Под ред. Н.К. Юркова. -Россия, Пенза: Изд-во Пенз. гос. ун-та, 2010.
1010_Volochiy_doklad_Penza_2011.doc 11