АНАЛИЗ НАДЕЖНОСТИ ВЫЧИСЛИТЕЛЬНЫХ СЕТЕЙ С ИСПОЛЬЗОВАНИЕМ ПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ОТКАЗА
УДК 681.31
Олег Алексеевич Ткачев,
к.т.н., доцент кафедры вычислительные машины, системы и сети Московского авиационного института (МАИ) Тел.: (499) 158-43-82 Эл. почта: [email protected]
Рассматривается математическая модель, которая позволяет получить выражения для определения показателей надежности вычислительных сетей, состоящих из идентичных восстанавливаемых элементов. В качестве показателей надежности рассматриваются: среднее время работы до отказа и среднее время восстановления сети в стационарном режиме работы. Предлагается аналитическая оценка пропускной способности вычислительной сети, которая позволяет рассматривать параметрические отказы.
Ключевые слова: вычислительная сеть, показатели надежности, параметрические отказы, Марковский процесс, пропускная способность сети, задержка передачи пакета.
Oleg A. Tkachev
PhD in Engineering, Associate Professor, Department of computers, systems and networks, Moscow Aviation Institute (MAI) Tel.: (499) 158-43-82 E-mail: [email protected]
RELIABILITY ANALYSIS OF COMPUTER NETWORKS USING PARAMETRIC FAILURE CRITERIA
A mathematical model, which allows to obtain expressions for the determination of parameters of reliability of computer networks consisting of identical recoverable elements. As indicators of reliability are considered: the mean time between failure and mean time to repair in steady-state operation. The proposed analytical assessment of the capacity of the computer network, which allows us to consider parametric failures.
Keywords: computer network, reliability indices, parametric failures, Markov process, network bandwidth, packet delay.
1. Введение
Сетевые технологии используются во всех сферах деятельности современного общества. Без них невозможна работа предприятий, банков, функционирование транспортных и технических систем.
По этой причине проблема обеспечения надежности сетей становится все более актуальной. От надежности сетей зависит, сможет ли человек совершить покупку в магазине, будет ли получен своевременный отклик от банкомата, будет ли корректно функционировать система управления самолетом.
Различные области применения вычислительных сетей предъявляют различные требования к параметрам их функционирования, поэтому, формулируя задачу оценки надежности, нужно определить, какие параметры сети характеризуют ее работоспособность.
В результате анализа надежности сети могут быть выработаны рекомендации по выбору ее элементов и структуры, обеспечивающей требуемый уровень надежности при минимальных затратах.
Основными показателями надежности сложных систем являются: коэффициент готовности, вероятность безотказной работы в течение заданного промежутка времени, среднее время работы до отказа, среднее время восстановления.
В современных вычислительных сетях передача информации осуществляется методом коммутации пакетов. Передаваемая информация разбивается на блоки определенного размера - пакеты. Каждый пакет содержит адрес места назначения, и может передаваться независимо от остальных пакетов передаваемого сообщения. В промежуточных узлах решается задача выбора маршрута передачи. Выбор маршрута зависит от состояния сети в данный момент времени.
Достоинствами метода коммутации пакетов является высокая эффективность использования каналов связи, а также быстрая адаптация сети к изменениям потоков информации и повреждениям элементов сети. Эти и другие достоинства привели к тому, что метод коммутации пакетов является основным методом передачи информации в вычислительных сетях.
В зависимости от назначения сети и требований к передаче информации, работоспособные состояния сети могут быть определены различным образом. Чаще всего считается, что сеть работоспособна, если между любой парой узлов имеется хотя бы один путь для передачи информации. В более общем случае работоспособными считаются состояния, для которых величина определенных параметров в сети находится в определенных пределах. Основными параметрами, характеризующими функционирование вычислительных сетей, являются среднее время передачи пакета и пропускная способность сети, которая оценивается количеством пакетов, передаваемых за единицу времени.
Различают параметрические отказы, которые соответствуют состояниям сети, в которых значение контролируемого параметра выходит за пределы допустимой области, а также катастрофические отказы, которые наступают при разрыве всех путей передачи информации.
Процесс анализа надежности сети требует рассмотрения большого числа возможных состояний сети и определения работоспособности сети в каждом из рассматриваемых состояний. Количество рассматриваемых состояний оценивается величиной 105-107.
Поэтому актуальной задачей является разработка быстродействующих методов оценки работоспособности сети.
В данной статье рассматривается математическая модель функционирования вычислительных сетей, которая позволяет определить значения показателей надежности, характеризующих динамику изменения состояний сети. Для сетей, состоящих из восстанавливаемых элементов, такими показателями являются среднее время работы до отказа и среднее время восстановления в стационарном режиме работы.
Предлагается аналитическая оценка пропускной способности вычислительной сети, которая позволяет рассматривать параметрические отказы.
2. Математическая модель надежности вычислительной сети
В общем случае топология сети задается графом 0(Х, Е), где: X -множество вершин, а Е - множество ребер. Вершины графа соответствуют узлам сети, а ребра - каналам связи. Рассматриваемую модель надежности сети можно использовать как для случая, когда вершины абсолютно надежны, но отказывают ребра, так и для случая, когда ребра абсолютно надежны, но отказывают вершины. Предполагается, что ненадежные элементы (ребра или вершины) идентичны, отказывают независимо друг от друга, имеют экспоненциальное распределение времени работы до отказа и времени восстановления с параметрами X и /.
В качестве основного параметра, который позволяет определить значения рассматриваемых показателей надежности сети, будем использовать 2.
Значение 2, равно вероятности отказа сети при отказе i элементов, и может быть определено из выражения:
2. =
' лл
(1)
О К—м ———->(я-1) Рис. 1. Марковский процесс изменения состояний сети
тем анализа всех возможных состояний сети. При анализе надежности больших сетей следует использовать метод Монте-Карло.
На рис. 1 представлен Марковский процесс, описывающий изменение состояний сети при отказе и восстановлении ее элементов в стационарном режиме работы. Каждое состояние процесса характеризуется количеством отказавших элементов и состоянием сети (работоспособна, неработоспособна).
Обозначим (г') - работоспособные состояния, и (г") - неработоспособные состояния при i отказавших элементах.
Обозначим Е+ - множество работоспособных состояний сети, Е_ - множество неработоспособных состояний сети.
В [1] показано, что среднее время пребывания Марковского процесса на множестве состояний Е+ до первого перехода в одно из состояний множества Е_ может быть определено из выражения (2):
IР
_ г=0
I РА г
г =0
(2)
Среднее время пребывания процесса на множестве состояний Е_ до первого перехода в одно из состояний множества Е+ может быть определено из выражения (3):
IР ■
_ г=0
V. У
где У - число неработоспособных состояний сети при различных комбинациях из г отказавших элементов.
Для сетей небольшой размерности значения Zi можно определить пу-
IР
г=0
(3)
где Р.., Р.- - вероятности состояний;
А{ - интенсивность перехода из состояния (г') в состояние (г + 1)";
Л ¡' - интенсивность перехода из состояния ( ") в состояние
(г - 1)'.
Суммарная интенсивность отказов элементов в состоянии равна (п - 1)Х, суммарная интенсивность восстановлений - щ, следовательно:
А* =(п - г)А2*
= **
(4)
(5)
где: 2* - вероятность того, что при отказе одного ребра сеть из работоспособного состояния ( ') перейдет в неработоспособное состояние (г + 1)";
2** - вероятность того, что при восстановлении одного ребра сеть из неработоспособного состояния (г") перейдёт в работоспособное состояние (г - 1)'.
Взаимосвязь значений 2*, 2** и 2г была установлена в работе [2].
Значения 2* и 2** могут быть определены из выражений (6) и (7) соответственно.
=
1 -
(6)
(7)
Подставив значения А { и ¡л ¡' из выражений (4) и (5) в выражения (2) и (3), соответственно получим:
Те =-
IР
I=0
Я! Р,(п -1)2 *
I=о
Те =-
IР ■
I=0
(8)
(9)
м!гР,(1 - г**)
I=о
Значения Р,, Р■ могут быть определены следующим образом. Так как все элементы идентичны по надежности, то все состояния с i отказавшими элементами равноверо-
Е
+
+
Е
№1, 2016
84
ятны. Вероятность того, что в сети в состоянии отказа будет находиться i элементов, равна:
(т1
Рг =-
(1 +
Из определения II следует:
р =(1 - ^ )Р р = ър
(10)
(11) (12)
Полученные выражения можно использовать для расчета надежности систем с последовательно-паралельным и паралельно-последо-вательным соединением элементов, для которых известны альтернативные способы расчета рассматриваемых показателей надежности. В целях проверки полученных выражений были проведены вычисления показателей надежности таких систем с помощью предлагаемого и известных методов. Результаты этих расчетов приведены в работе [3]. Конечные результаты совпали.
3. Верхняя оценка пропускной способности вычислительной сети
Важной характеристикой вычислительной сети является ее пропускная способность (ПСВС), которая равна максимальной интенсивности входного потока, при условии, что средняя задержка передачи не превышает заданной величины. ПСВС зависит от вида матрицы требований, топологии сети, а также от используемых правил маршрутизации.
Выражение для величины средней задержки передачи пакета было получено Л. Клейнроком [4], который рассматривал ВС в виде сети систем массового обслуживания с очередями. Полученное уравнение имеет вид:
Т = 11 (■
1
71 =1 Сг -Иг
■ + тИ
(13)
где: К - интенсивность потока пакетов в I канале (пак/сек); С1 - пропускная способность г-го
канала (пак/сек); т - среднее время обработки пакета
в узле (сек/пак); у - интенсивность входного потока (равна сумме элементов матрицы требований) (пак/сек); т - число каналов связи в сети.
Поток в каждом канале сети складывается из множества независимых потоков, идущих от множества источников 5 к множеству адресатов /. Задачи оптимизации такого рода в математическом программировании называют задачами о многопродуктовом потоке с нелинейной целевой функцией.
Определим основные понятия, используемые при решении подобных задач.
Интенсивность входного потока задается с помощью матрицы требований ||уу||. Элемент уу равен интенсивности передачи пакетов из узла / в узел]. Изменение входного потока достигается пропорциональным изменением всех элементов матрицы требований. Для этого используется масштабный множитель р, называемый уровнем трафика.
Рассматриваемая задача может быть сформулирована следующим образом.
Заданы:
1. Структура сети А, содержащая п узлов, объединенных т каналами связи с пропускной способностью С (пак/сек).
2. Матрица требований ||у у||. (пак/сек).
Требуется:
Определить план распределения потока (матрицу маршрутизации), обеспечивающий передачу по сети максимального объема информации в единицу времени при следующих ограничениях:
1. Поток удовлетворяет матрица требований ||уу||.
2. Интенсивность потока в канале
К < С.
3. Средняя задержка передачи пакета не превышает заданной величины Ттах.
Наиболее эффективным численным методом решения данной задачи является метод «отклонения потока» (ОП) [5]. Авторами метода ОП отмечены две характерные особенности целевой функции, которые в значительной степени упрощают решение задачи:
1. Целевая функция обладает барьерным свойством: Т ^ да, если К ^ С. Следовательно, если оперировать небольшими изменениями потока, то ограничение 2 будет выполнено автоматически.
2. Второе свойство заключается в выпуклости функции средней задержки. Из теории нелинейного программирования известно, что для того, чтобы некоторая функция была выпукла, необходимо и достаточно, чтобы определитель вторых производных этой функции был положительно определен в заданной области. Авторами метода (ОП) была доказана выпуклость функции (13).
Если при анализе надежности сети в качестве критерия работоспособности использовать значение ПСВС, то потребуются многократные вычисления значения этого показателя. Количество рассматриваемых состояний сети оценивается величиной 105-107.
Большой объем вычислений, необходимых для реализации метода ОП, ограничивает его применение, особенно для сетей большой размерности.
В данной работе предлагается использовать верхнюю оценку пропускной способности (ВОПС), полученную в результате решения следующей задачи:
Определить на множестве значений удовлетворяющих ограничению (14), минимальное значение целевой функции (13).
г =1
(14)
В качестве К0 используется суммарная интенсивность потока в каналах сети при распределении потока по кратчайшим путям.
(15)
где: пу - число транзитных каналов в кратчайшем пути, соединяющем узлы I и]\ а и - среднее расстояние между узлами сети.
В действительности при оптимальном распределении потока К больше К0, так как часть потока направляется по маршрутам, не соответствующим кратчайшим путям.
Для решения поставленной задачи воспользуемся методом множителей Лагранжа. Функция Лагранжа для рассматриваемой задачи имеет вид:
п
1 т 1 Р = -1 (7^ + Т)Л* +
т
(16)
¿=1
Значения X , минимизирующие целевую функцию (13), находятся путем решения системы уравнений:
— = -(-+ т + в) = 0 (17)
дл г (С-Л)2
= 5 л-2« = 0 дв П 1
Результатом решения системы уравнений (17) являются искомые значения X г.
ТС(тс -иг)
Ь = С -
к=1
т --
(18)
к =1
(19)
г=1
^ т -- т \
Ел/ск -тЕск + тиг
к=1 к=1
Е Ск-иг
к =1
+ ТИУ
(2О)
(
Т =М
т
л
тС - цу
- + т
(21)
Рис. 2. Пример топологии вычислительной сети
Если все каналы сети имеют одинаковую пропускную способность, то из (18) получим:
пределении потоков, отличаются от значений, минимизирующих целевую функцию.
Если в выражение (2О) вместо Т подставить максимально допустимое значение задержки Ттах и решить его относительно у, то мы получим выражение для верхней оценки ПСВС.
Для сети с одинаковыми каналами, имеющими пропускную способность С, полученное выражение будет иметь следующий вид:
Подставив (23) в выражение (22), и решив его относительно р, получим:
(п 1
Р = -
Го
С И
1
Ттах И
(24)
т.е. оптимальной является равномерная загрузка всех каналов.
Подставляя полученные значения XI (18) в (13), получим искомое значение целевой функции:
(
у = т
1
Л
Ттах ИТ
(22)
Для сети с одинаковыми каналами, имеющими пропускную способность С, выражение (2О) будет иметь вид:
Если обозначить исходную матрицу требований уО, то изменение входного потока достигается умножением всех элементов матрицы требований на масштабный коэффициент р, и верхняя оценка пропускной способности сети будет равна:
7 = РУо (23)
Оценка ПСВС по значению р более удобна.
Сравнение полученной оценки со значениями ПСВС, вычисленными по методу ОП, показало, что ВОПС очень близка к действительному значению сетей, обладающих определенной симметрией, вследствие которой интенсивность потоков в каналах связи при оптимальной маршрутизации пропорциональна их пропускной способности. Подобные топологии сетей получаются, если задачей оптимизации является обеспечение максимальной ПСВС при заданном числе каналов связи. На рис.2 приведен пример сети, полученной в
Выражения (2О) и (21) представляют собой нижнюю оценку средней задержки передачи пакетов в сети. Действительное значение средней задержки будет больше ввиду того, что часть пакетов направляется по обходным маршрутам и, следовательно, среднее расстояние, проходимое пакетами, будет больше / . Кроме того, значения, полученные при оптимальном рас-
Рис. 3. Зависимость среднего времени работы до отказа от допустимого уровня падения трафика
т
7
№1, 2016
86
_
результате решения такой задачи. Значение ВОПС для этой сети равно 1,26 (точное значение, полученное с использованием метода отклонения потока, равно 1,22).
На рис. 3 представлен график зависимости среднего времени работы до отказа от значения допустимого уровня падения трафика. Работоспособными считались связные состояния сети, в которых значение ПСВС не ниже заданного уровня. Значения ПСВС оценивались при помощи выражения:
ПСВС = (1 - а)ру, (25) где а обозначает допустимый уровень падения трафика. Например, если а = 0,2, то допустимый уровень падения трафика составляет 20%. Для вычисления значений р использовалось выражение (24).
4. Выводы
Предложены аналитические выражения для определения значений показателей надежности вычислительных сетей, состоящих из идентичных восстанавливаемых элементов в установившемся режиме работы. Для получения аналитических выражений рассматривается Марковский процесс, состояния которого характеризуются числом отказавших элементов и состоянием сети. Показано, что для
определения значений полученных выражений достаточно определить число комбинаций элементов заданной мощности, при отказе которых сеть переходит в неработоспособное состояние. Для сетей небольшой размерности этот показатель может быть определен точно путем анализа всех возможных комбинаций отказавших элементов. Для сетей большой размерности следует использовать метод Монте-Карло.
Получено аналитическое выражение верхней оценки пропускной способности вычислительной сети и показана целесообразность ее использования при исследовании параметрических отказов.
Литература
1. Вопросы математической теории надежности. Е.Ю. Барзило-вич, Ю.К. Беляев, В.А. Каштанов, И.Н. Коваленко, А.Д. Соловьев, И.А. Ушаков. Под ред. Б.В.Гнеденко, М., Радио и связь, /1983. - 367стр.
2. Ткачев О.А. Использование цепей Маркова для анализа надежности систем со сложной структурой // Кибернетика, №5 /1983, стр. 95-101.
3. Ткачев О.А. Анализ надежности сетей, состоящих из идентичных
элементов // Надежность, №1(48) /2014, стр.30-44/
4. Клейнрок Л. Вычислительные системы с очередями. М.: Мир, 1979. 600стр.
5. Fratta L., Gerla M., Kleierok L. The flov deviation method: an approach to store and communication network design. Networks, №3 / 1973, p.97-133.
References
1. Aspects of Mathematical Theory of Reliability. Barzilovich E., Belyaev Yu., Kashtanov V., Kovalenko I., Solovyev A., Ushakov I. Ed. B.V.Gnedenko.// M. Radio I Svyaz, / 1983. - 367str.
2. Tkachev O.A. Application of Markov chains for the reliability analysis of systems with a complex structure.// Cybernetics №. 5/ 1983, p. 95-101.
3. Tkachev O.A. Reliability analysis of networks consisting of identical elements .// Dependability, №1 (48) / 2014, p.30-44.
4. Kleinrock L. Computer systems with queues. M .: Mir, 1979. 600str.
5. Fratta L., Gerla M., Kleierok L. The flov deviation method: an approach to store and communication network design. // Networks, №3 / 1973, p.97-133.