ЯКІСТЬ, надійність і сертифікація ОБЧИСЛЮВАЛЬНОЇ ТЕХНІКИ І ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ
УДК 621.3.019.3
А.В. ФЕДУХИН, В.П. ПАСЬКО
К ВОПРОСУ О КОЛИЧЕСТВЕННЫХ ХАРАКТЕРИСТИКАХ БЕЗОТКАЗНОСТИ ИЗБЫТОЧНЫХ КОМПЬЮТЕРНЫХ СИСТЕМ
Анотація. Розглянуті питання оцінки безвідмовності надлишкових комп ’ютерних систем з різними структурними схемами надійності. Розроблено базову модель безвідмовності надлишкової системи з використанням DN -розподілу та класифікацію систем на її основі.
Ключові слова: безвідмовність, надлишкова структура, базова модель, класифікація структур.
Аннотация. Рассмотрены вопросы оценки безотказности избыточных компьютерных систем с различными структурными схемами надежности. Разработаны базовая модель безотказности избыточной системы с использованием DN -распределения и классификация систем на ее основе. Ключевые слова: безотказность, избыточная структура, базовая модель, классификация структур.
Abstract. The issues of evaluation reliability of redundant computer systems with different structural schemes of reliability are regarded. A basic model of redundant systems reliability using DN-distribution and systems classification on it basis is developed.
Keywords: reliability, redundant structure, basic model, structures classification.
1. Введение
При проектировании высоконадежных отказоустойчивых компьютерных систем необходимо введение различных форм избыточности. Высокая надежность и крайняя чувствительность безотказности таких систем и их характеристик предполагает широкое использование методов моделирования: аналитического, статистического и имитационного.
Аналитической моделью является символическое и математическое представление объекта, используемое для целей прогнозирования, оценки и контроля. Основными критериями качества модели являются адекватность представления объекта (насколько правильно она может описать зависимость свойств объекта от некоторых параметров), удобство использования и способность получить полезные результаты. Модели чрезвычайно полезны для принятия архитектурных решений, касающихся проектирования высоконадежных отказоустойчивых компьютерных систем.
В работе предлагается аналитическая модель для различных избыточных систем, так называемая базовая модель, которую возможно использовать в процессе проектирования для сравнения различных вариантов реализации систем.
2. Базовая модель безотказности систем
Автоматическая реконфигурация, использующая резервные модули, возможна с использованием специально спроектированных восстанавливающих органов (ВО), отказы которых, в принципе, не отличаются от отказов модулей. Отказы ВО препятствуют их правильному функционированию. Несмотря на то, что не все отказы ВО являются катастрофическими для системы в целом, ВО следует защищать от отказов и делать их максимально надежными. Для описания безотказности модулей введем следующие обозначения: s - количество резервов, изначально доступных для подключения;
© Федухин А.В., Пасько В.П., 2012
ISSN 1028-9763. Математичні машини і системи, 2012, № 1
д - количество модулей одного типа, работающих параллельно (характеристика актуальна для систем, производительность которых зависит от количества одновременно работающих ресурсов);
с - степень компенсации последствий отказа [1] (условная вероятность того, что при возникновении отказа в работающей системе последняя способна восстановить информацию и продолжить ее обработку без долговременной потери данных);
/ - способность модуля допускать / одиночных отказов до того, как он станет неработоспособным.
Способность системы восстанавливаться после отказа модуля и продолжать работу характеризуется степенью компенсации с. Для простоты это значение с будет использоваться для первых отказов из / в том же модуле и для / +1 отказа, при котором восстановление осуществляется с использованием нового модуля. Восстановление - это важный вопрос, который должен решать разработчик системы [1]. В некоторых ситуациях восстановление означает выявление, локализацию и автоматическое исправление аппаратного отказа.
В других ситуациях восстановление может включать реставрацию оперативных данных, потерянных при отказе (в этом случае степень компенсации, как вероятность сохранения работоспособности после отказа, будет ниже, чем в предыдущем случае).
Основной характеристикой безопасности системы будем считать вероятность безотказной работы за время г (Я(г)). Для удобства анализа и систематизации значений каждую функцию безотказности будем записывать в форме базовой модели [1].
где , - функция вероятности отказа.
Принимая гипотезу о БЫ -распределении наработки до отказа элементов, модулей и системы в целом, вероятность отказа будем вычислять следующим образом [2]:
где V - коэффициент вариации наработки до отказа;
* - относительная наработка (* = Т, г - время работы, Т - средняя наработка до отказа (на отказ).
Функция вероятности отказа для БЫ -распределения имеет следующий вид:
где Ф(*) - функция нормированного нормального распределения.
Если любой из параметров базовой модели (1) типа вероятность безотказной работы опускается, то по умолчанию предполагается д = 1, с = 1, / = 0, 5 = 0. Параметры 5 , с и / являются параметрами, увеличение которых приводит к увеличению общей безотказности системы.
3. Критерий сравнения систем
Средняя наработка (МТБР), как характеристика безотказности отказоустойчивой системы, часто не является эффективным средством сравнения конфигураций высоконадежных систем [1]. Причина в том, что средняя наработка до отказа исчисляется для интервала
= с■ (1-Г ),
(1)
, Г/ = БЫ (*; V,,, д, 5),
0 < г <ж, а в действительности функционирование самовосстанавливающей системы происходит в области 0 < г < Т, где Т - среднее время выполнения основной функции. Дело в том, что безотказность всегда достаточно высока (Я > 0,9) и то, что случается с ней при г > Т, не особенно интересно для понимания основного назначения системы [1].
В качестве критерия сравнения конфигураций систем с позиций надежности в [1] предлагается характеристика I - отношение отрезков времени, по истечении которых вероятности безотказной работы конкурирующих конфигураций систем равны вероятности безотказной работы, установленной в спецификации Яспец (г).
Иными словами, сравнение систем осуществляется на основе вычисления соотношения отрезков времени функционирования (I), в течение которых достигается заданный уровень безотказности.
I = ‘в,
спец
где іа - время достижения ЯА (іа) = Яс
Ів - время достижения Яв кв) = Яспец.
Характеристику I назовем относительным критерием безотказности и проанализируем его эффективность.
Пусть две системы А и В имеют характеристики безотказности ЯА (і) и Яв (і), и
пусть Ял 0) > Яспец для 0 < І < Іл и Яв 0) > Яспец для 0 < І < І
в
І*
Теперь I = — характеризует улучшение (ухудшение) времени исправного функ-
‘а
ционирования системы В относительно системы А для определенного уровня безотказности Яспец .
Из-за того, что ЯА (гА ) = ЯВ (гВ ) = ЯВ (I, гА), функции для ЯА и ЯВ могут быть заменены их значениями, и результирующие уравнения решены относительно I. В некоторых случаях результирующие уравнения или невозможно получить в аналитике, или они являются слишком сложными для анализа и сравнения вариантов конфигураций систем.
Пример 1. Определить время достижения системой вероятности безотказной работы Яспец и вычислить критерии I для различных конфигураций резервированных систем
(рис. 1).
а Ь
Рис. 1. Структуры резервированных систем
І
А
Исходные данные: средняя наработка до отказа модуля гм = 1000ч, V = 0,75, Яспец = 0,99.
Решение:
1. Нерезервированная система.
Вычислим Рспец =1 - Яспщ = 0,Ш.
По таблицам БЫ -распределения [2, 3] определяем х = 0,19. Вычисляем среднюю наработку до отказа системы Т1А = гм .
Так как х = , гА = х ■ Т1А = 190 ч.
Т
1А
2. Дублированная система.
Вычислим среднюю наработку до отказа системы Т1В =гм4п = 1410 ч.
х = , и = 267,9 ч.
Т
1В
3. Троированная система.
Вычислим среднюю наработку до отказа системы Т1С =гм4п = 1730 ч.
х = , гг = 328,7 ч.
Т
1С
4. Четверированная система.
Вычислим среднюю наработку до отказа системы Т1Б =гм4п = 2000 ч.
х = , гБ = 380 ч.
Тб
Вычислим критерий I для отказоустойчивых систем относительно нерезервированной системы.
Анализ критериев I показывает, что дублированная система в 1,41 раза более безотказна, чем нерезервированная система, троированная - в 1,73 раза и т.д.
Пример 2. Вычислим критерий I для системы типа " к из п" (рис. 2).
Ь с
•
см со 2
Рис. 2. Структуры систем типа " к из п"
А
А
А
а
Решение:
1. Система "к из п" (к = 2, п = 3) с ВО типа М32.
-Г ІМ (п - к +1)
Т1В = —---------------------------1=-= 1156ч , * = —— , ґВ = 219,6 ч.
<П Т1В
2. Система " к из п" ( к = 3 , п = 5 ) с ВО типа М53 .
Т1С = ІМ (п -к +1) = 1339 ч , * = , 1С = 254,4 ч.
4п Т1С
3. Система "к из п" (к = 5, п = 7 ) с ВО типа М7 .
Т1В = ІМ (п-к +1) = 1132ч, * = , гв = 215,1ч.
УІп Т1в
Вычислим критерий I для отказоустойчивых систем типа " к из п" относительно нерезервированной системы.
I, = ^ = 1,156, 12 = ^ = 1,339, 13 = ^ = 1,13.
*л *л *л
Анализ критериев I показывает, что при п > 5 безотказность систем типа " к из п" падает. Системы типа " к из п" уступают по безотказности системам с «горячим» резервированием при одинаковых аппаратных затратах на их реализацию (11 = 1,156 и 12 = 1,73).
В этом случае оценка средней наработки до отказа вычисляется следующим образом:
Т1 =г^4п = ^млЦ ) -4п
при гМ = 1000 ч, / = 3, п = 2.
Т1 = 1000л/3л/2 = 1000 -1,73 -1,41 = 2439 ч.
4. Классификация типов конфигураций систем
Перечень типов конфигураций систем приведен в табл. 1. Для каждой из рассмотренных конфигураций систем поставим в соответствие запись базовой модели безотказности типа вероятность безотказной работы системы в виде . При этом сформулируем следующее примечание.
Примечание 1. Если модуль системы является избыточным и спроектирован как /
- безотказный автомат, то в пределах / отказов / = 1,2,3_и с = 1.
Таблица 1. Классификация типов конфигураций систем
Обозначение структурной схемы надежности системы Обозначение характеристики
Класс Подкласс Базовая модель Без учета Примечание 1
1 2 3 4 5
I М1 X У 1 Я1 0 Я0 0 £>1 1Я0
Продолж. табл.1
Оценка базовой модели безотказности для различных классов систем в рамках гипотезы о БМ -распределении наработки до отказа имеет вид (1):
{Я^ = с* (1 -1 Г?) = с5[1 - БЫ(х; V, /, д, 5)].
Пример 3. Вычислить {.Я^ системы III класса для следующих исходных данных: п = 3; с = 1; д = 3; * = 2; / = 0; г = 200 ч ; гм = 1000 ч; V = 0,75 .
Решение:
1. Вычислим среднюю наработку до отказа системы:
Т1 =гм4П = 1000 • 1,73 = 1730 ч.
2. Вычислим величину относительной наработки х :
г 200 п..
х = — =-----= 0,11.
Т1 1730
3. По таблицам БЫ -распределения [2,3] вычислим вероятность отказа:
0 Г23 = 0,00032.
Вычисляем базовую модель безотказности:
0Я23 = с2 (1-0Г23) = 12(1 - 0,00032) = 0,9997 .
Рассмотрим более подробно оценку характеристики с. Определение степени компенсации с представляет собой условную вероятность того, что при возникновении отказа в работающей системе она (система) способна восстановить утраченную информацию и продолжить ее обработку без длительной потери работоспособности.
В некоторых ситуациях восстановление может означать только выявление, локализацию и автоматическое исправление аппаратного отказа, в других ситуациях оно может включать также очень сложную реставрацию базы данных. В первом случае с выше, чем во втором.
Таким образом, для систем II, III, IV, V классов величина с приближается к 1 и ограничивается диагностическими и коммутационными возможностями ВО и его надежностью. Для систем подклассов Па и Ша величина с значительно ниже, так как вероятность потери информации при ненагруженном («холодном») резервировании достаточно высока. Характеристика с изменяется путем добавления дополнительного оборудования к модулю и может быть доведена до 1, при этом аппаратная надежность модуля уменьшается. Поэтому для получения более достоверной оценки с необходимо провести анализ диагностических и коммутационных возможностей ВО и вычислить его вероятность безотказной работы Яво. При этом всегда будет иметь место неравенство с < Яво.
Характеристика / зависит от уровня избыточности, заложенного при проектировании в модуль. Если при проектировании модуля использованы методы синтеза / -безотказных цифровых автоматов [4], то, в принципе, можно спроектировать автомат с любым уровнем отказоустойчивости /. Причем исследованиями установлено, что при одном и том же уровне отказоустойчивости / аппаратная реализация / -безотказного автомата оказывается более простой, чем простое / -
Г-з
I___________________________________________________________________________________________________________________
/=3
Рис. 3. Структурная схема дублированной системы с / -безотказными модулями (/ = 3)
резервирование. Однако в первом приближении структурная схема системы с f -безотказными модулями будет иметь, например, следующий вид (рис. 3).
Покажем влияние изменения с на безотказность конкурирующих систем. Для этого воспользуемся исходными данными предыдущего примера.
Пример 4. Рассмотрим две системы II и III классов. Вычислим базовые модели безотказности:
1. Система II класса:
Т1 =гм4п = 1000 -42 = 1410 ч 200
0,14;
Т1 1410
0 Г12 = 0,00194; с = 0,8;
0 80 Я12 = с1 (1- 0Г12) = 0,81 • 0,99806 = 0,79845.
2. Система III класса:
Т =гм4п = 1000 • л/3 = 1730 ч;
200
г
х = —:
0,11;
0
0,8 ?2
Т1 1730
0^2 = 0,00032 ; с = 0,8; с2(1-0^23) = 0,82 - 0,99968 = 0,63979.
Анализ результатов показывает, что при низкой степени компенсации (с = 0,8) более избыточная система III класса оказывается менее надежной, чем система II класса.
Определим, при каком значении с система III класса станет более надежной, чем система II класса.
В табл. 2 приведены результаты расчетов базовой модели безотказности системы для различных значений с .
Таблица 2. Результаты расчетов базовой модели безотказности системы
5. Выводы
Анализ полученных результатов позволяет сделать следующий вывод: система III класса является более надежной по сравнению с системой II класса только при степени компенсации, близкой к 1 (с = 0,999) . При
меньшей степени компенсации система II класса является более надежной, чем система III класса.
Каждый раз, когда степень компенсации оказывается недостаточно высокой, добавление разумного количества дополнительного оборудования для повышения степени компенсации является в целом эффективным. И тот факт, что каждый индивидуальный модуль становится более ненадежным через привлечение дополнительного оборудования, является менее решающим, чем увеличение степени компенсации с .
Класс системы Характеристика с С.? системы
II 0,9 0,89825
0,95 0,94816
0,99 0,98808
0,995 0,99307
0,999 0,99706
III 0,9 0,80974
0,95 0,90221
0,99 0,97979
0,995 0,98971
0,999 0,99768
Чрезмерная чувствительность вариантов отказоустойчивых систем к параметрам c и f предполагает тщательный, хорошо продуманный процесс моделирования и анализа перед техническим проектированием.
Для систем, которые должны работать с высоким уровнем безотказности в течение длительного времени, восстановление за счет резерва имеет наибольший потенциал. Однако расчеты показывают, что степень компенсации, определенная как вероятность восстановления системы после отказа, является единственной важнейшей характеристикой безотказной системы. Изменение степени компенсации от 1 до 0,98 может привести к снижению безотказности системы на несколько порядков. Большинство методов повышения безотказности системы (например, добавление резервных модулей) являются неэффективными по сравнению с методами повышения степени компенсации. Добавление проверок, диагностик и т.п. для увеличения степени компенсации является наиболее преобладающим. Точная оценка степени компенсации c трудна и требует точного измерения влияния ошибок компонентов на работоспособность модулей. Это предполагает широкое применение методов моделирования на всех этапах проектирования системы.
Так как средняя наработка до отказа (МТВF) не является достаточно эффективной характеристикой для сравнения отказоустойчивых систем, то в дополнение к этой характеристике предлагается использовать базовую модель типа вероятности безотказной работы и отношение отрезков времени работоспособности для достижения заданного уровня безотказности (I) .
СПИСОК ЛИТЕРАТУРЫ
1. Bouricius W.G. Reliability modeling techniques for SELF - Repairing computer Systems I Bouricius W.G., Carter W.C., Schneider P.R. - New-York: IBM Watson Research Center Yorktown Heights, 19б9.
- Р. 295 - 309.
2. Стрельников В.П. Оценка и прогнозирование надёжности электронных элементов и систем I
В.П. Стрельников, А.В. Федухин. - К.: Логос, 2002. - 48б с.
3. Федухин А.В. К вопросу о табулировании функций распределения отказов I А.В. Федухин, Н.В. Сеспедес-Гарсия II Математичні машини і системи. - 200б. - № 2. - С. 147 - 152.
4. Сапожников В.В. Методы синтеза надёжных автоматов I В.В. Сапожников, Вл.В. Сапожников. -Л.: Энергия, 1980. - 9б с.
Стаття надійшла до редакції 05.10.2011