УДК 621.39
Математические модели оценки надежности мультисервисного узла доступа Ковальков Д.А.
В работе предложены способы повышения надежности мультисервисных узлов доступа и проведен расчет предложенных способов. Предлагаются способы оценки коэффициента готовности для различных систем.
Ключевые слова: мультисервисный узел доступа, надежность, отказоустойчивость, готовность системы.
Введение
Живучесть сетевых соединений, способность системы к самовосстановлению в случае отказа каналов связи и к оптимизации при наличии нескольких работающих каналов -критически важные характеристики связи для бесперебойной работы удаленного терминального оборудования.
Способы обеспечения надежности
С точки зрения базовой архитектуры сетей IP надежность может быть заложена в различные уровни сетевой иерархии. На физическом уровне (уровень 1 согласно модели OSI) возможно применение таких механизмов защиты соединений и интерфейсов, как Remote Failure Indication (RFI), Far End Fault Identification (FEFI), а также различных фирменных схем защиты соединений [1].
На канальном уровне (уровень 2 согласно модели OSI) также существует большое количество протоколов защиты и дублирования, таких как Multi-Link Trunk (MLT), Spanning Tree (STP) и т.д. Кроме того, сетевой уровень (уровень 3 согласно модели OSI) предоставляет дополнительную степень защиты, осуществляемую с помощью протоколов маршрутизации RIP, OSPF, BGP и т.д.[3]
Сегодня все больше сетей обрабатывают проходящие данные на всех уровнях, вплоть до 7-го (согласно модели OSI). Поэтому сетевое проектирование должно предусматривать оптимизацию отказоустойчивости сети и минимизацию расходов за счет исключения ненужной избыточности и дублирования. Ключом к оптимизации проектирования яв-
ляется понимание того, как различные методы и протоколы обеспечения отказоустойчивости, работающие на различных уровнях сетевой иерархии, функционируют и взаимодействую между собой.
Если мы взглянем на первые три уровня сетевой иерархии (согласно модели 081), которые обычно используются при построении сетей, то именно они определяют уровень отказоустойчивости и надежности.
С учетом вышесказанного предлагается следующая типовая схема узла доступа, представленная на рис. 1.
Рис. 1. Типовая схема мультисервисного узла доступа
Повышение надежности узла доступа заключается в резервировании критичных узлов на основе кластерных технологий, внедрении улучшенной технической поддержки со стороны производителя и привлечении для обслуживания специалистов высокого класса.
Проще всего кластер можно определить как совокупность взаимодействующих независимых элементов, предназначенных для решения общих задач.
Среди коммуникационных систем, построенных на основе кластеров, выделяют два основных типа: кластеры высокой готовности и отказоустойчивые кластеры повышенной надежности. В этом вопросе зачастую возникает путаница, поскольку системы одного из типов ошибочно наделяют характеристиками обоих типов. Для более точного понимания следует различать параметры высокой готовности и отказоустойчивости.
Так, готовность системы - это свойство, характеризующееся временем, в течение которого система способна предоставлять требуемые сервисы своим пользователям. Базовый показатель готовности системы - это отношение времени фактического предоставления услуг к общему времени работы системы, выраженное в процентах [2]. Для телекоммуникационной системы высокой готовности характерно значение коэффициента готовности порядка 99,999% [4]. В реальной ситуации для таких комплексов время незапланированного простоя составляет несколько минут в год.
Отказоустойчивость аппаратной части системы предполагает такую реализацию по ее составу, при которой сбои отдельных модулей не приводят к отказу всей системы в целом [2]. Для этого применяются самые различные методы: дублирование, коррекция ошибок, thermal-мониторинг и т. д.
Очевидно, что отказоустойчивость влияет на готовность системы и, следовательно, понятие готовности системы шире. Далее будет рассмотрена готовность системы.
На практике применяются две основные схемы построения отказоустойчивых кластеров: Active-Active и Active-Passive, каждая из которых имеет свои преимущества и недостатки [4]. Первая из них предусматривает равномерное распределение выполняемой задачи между всеми элементами кластера, а в случае выхода из строя одного узла - между оставшимися. Основное преимущество -увеличение скорости выполнения задачи.
Во второй схеме (Active-Passive) в отличие от предыдущей задача выполняется
только на активном элементе, а в случае его выхода из строя - на пассивном. Наряду с несомненными достоинствами есть и недостаток - невозможность наращивания скорости выполнения задач.
При построении узла доступа необходимо использовать следующие кластеры: кластеры канального и сетевого уровней.
Кластеры канального уровня используют базовые Ethernet протоколы STP (Spanning Tree Protocol) (стандарт IEEE 802.1D), RSTP (Rapid Spanning Tree Protocol) (стандарты IEEE 802.1w, IEEE 802.1D - 2004).
Протоколы STP и RSTP поддерживаются большинством производителей сетевых коммутаторов. Для виртуальных сетей используется протокол MSTP (Multiple Spanning Tree Protocol), который является расширением протокола STP и описан в стандартах IEEE 802.1s и IEEE.
Недостатком STP и RSTP протоколов является часто недопустимо большое время перехода на резерв (до 30 секунд), а также невозможность резервирования связей между коммутатором и устройством, которое является участником сети.
Поэтому кластеры канального уровня целесообразно строить с использованием нестандартных методов резервирования фирм разработчиков оборудования. В основе этих методов лежит использование сети с кольцевой физической топологией. Одна из ветвей сети блокируется коммутатором, и поэтому в режиме нормального функционирования сеть приобретает логическую шинную топологию. В случае отказа одной из ветвей мастер включает резервный порт. При этом подключается резервная ветвь, и граф сети вновь становится связным, то есть работоспособность сети оказывается полностью восстановленной. В настоящее время таких методов со временем сходимости (переключением на резерв) до 0,3 секунды насчитывается более 15. Характеристики некоторых из них приведены в таблице 1.
Таблица 1. Параметры некоторых мето-
Метод физического кольца имеет два существенных достоинства: во-первых, он предельно экономичен, поскольку способен восстановить работу сети при отказе любой её ветви практически без затрат оборудования (дополнительно требуется всего один кабель для замыкания кольца и два лишних порта в двух коммутаторах); во-вторых, он позволяет примерно на порядок сократить время восстановления сети после отказа по сравнению со стандартным методом, использующим Я5ТР протокол (таблица 1).
К недостаткам метода относятся неудобство кольцевой архитектуры, невозможность резервирования коммутаторов и сетевых адаптеров, а также ветвей, идущих от коммутаторов к оконечным устройствам. При отказе коммутатора сеть оказывается разорван-
ной и устройства, подключённые через коммутатор, становятся недоступны.
Данный недостаток можно преодолеть, если в методе физического кольца использовать оконечные сетевые устройства с двумя Ethernet портами и каждый из этих портов подключить к двум соседним коммутаторам. При отказе одного коммутатора мастер включает резервную ветвь, и в сети появляется резервный путь к оконечному устройству через резервную ветвь и второй коммутатор.
Кроме того, к недостаткам данных методов относится отсутствие стандартов и, как следствие, несоответствие идеологии открытых систем.
Для резервирования линий связи используется технология Multi-Link Trunks (MLT). Технология MLT описана в стандарте IEEE 802.3ad. MLT обеспечивает метод объединения нескольких каналов между двумя коммутаторами или между коммутатором и рабочей станцией/сервером. Объединение этих каналов обеспечивает единое логическое соединение между двумя устройствами.
MLT имеет три важных преимущества перед протоколом Spanning Tree:
Все каналы в MLT соединении используются для передачи данных, никакие порты не блокируются.
Время восстановления MLT соединений равно долям секунды против нескольких десятков секунд или даже минут у STP и RSTP.
Нет нужды в сложной ручной настройке балансировки нагрузки, данные автоматически равномерно передаются через все каналы, входящие в MLT соединение.
Одной из проблем стандартного MLT (IEEE 802.3ad) является то, что все каналы внутри MLT соединения должны заканчиваться внутри одного коммутатора. В результате этого ограничения, в случае отказа, переключение потока данных с одного коммутатора на другой может быть осуществлено только с использованием такого протокола, как Spanning Tree или с помощью протоколов маршрутизации уровня 3 (согласно модели OSI). Из-за этого при использовании стандартного MLT невозможно достичь вре-
дов резервирования сетей Ethernet
Протокол Разработчик/ стандарт Время сходимости, сек Топология Наличие стандарта
STP IEEE 802.1D 30 Любая Есть
RSTP IEEE 802.1w 2 Любая Есть
HIPER-Ring Hirschma nn 0,3 Кольцевая Нет
Turbo Ring Moxa 0,15... 0,3 Кольцевая Нет
Rapid Ring Contemp orary Controls 0,3 Кольцевая Нет
S-Ring GarretCom 0,25 Кольцевая Нет
Realtime Ring Sixnet 0,08 Кольцевая Нет
Ring Healing N-Tron 0,3 Кольцевая Нет
Super Ring Korenix 0,3 Кольцевая Нет
Self healing Ring TC Communications 0,25 Кольцевая Нет
Jet Ring Volktek 0,3 Кольцевая Нет
мени восстановления сети в доли секунды при отказе коммутаторов, и поэтому обеспечение надежности сети в 0,99999 так же почти невозможно.
Для решения этой проблемы и обеспечения времени восстановления в доли секунды после отказа коммутатора компания Nortel Networks разработала технологию Split MLT, которая позволяет одной стороне каналов внутри многоканальных соединений заканчиваться на разных коммутаторах. Огромным преимуществом технологии SMLT является то, что она совместима с многоканальными протоколами других производителей. Таким образом, пользователи могут легко использовать самые различные пограничные коммутаторы или коммутаторы доступа, не теряя преимуществ, которые дает SMLT.
Кластеры сетевого уровня используют протоколы маршрутизации, такие как RIP, OSPF, BGP и т.д. и по своей сути являются протоколами обеспечения отказоустойчивости, они обеспечивают передачу данных по лучшему (оптимальному) маршруту, и в случае отказа на этом маршруте переключаются на альтернативный [3].
Для оптимизации работы сети на уровне 3 (согласно модели OSI) возможно использование таких протоколов, как Equal Cost Multi-Path (ECMP) и Virtual Router Redundancy Protocol (VRRP), которые обеспечивают балансировку нагрузки между несколькими маршрутами в сети и гарантируют очень быстрое время восстановления в случае аварий.
Протокол ECMP работает совместно с протоколами маршрутизации, такими как RIP и OSPF, и позволяет установить несколько равноценных маршрутов для передачи данных. Маршрут может быть как между двумя непосредственно подключенными друг к другу маршрутизаторами или коммутаторами, так и проходить через несколько устройств в сети. Таким образом, ECMP обеспечивает механизм равномерного распределения потока данных через несколько сетевых соединений. В случае отказов переключение с неработающего маршрута на работающие
происходит за доли секунды. Более детальную информацию о стандарте ECMP можно найти в документе IETF RFC-2992.
Virtual Router Redundancy Protocol (VRRP)
В протоколе VRRP избыточность достигается путем организации виртуального маршрутизатора. Такой маршрутизатор имеет виртуальный идентификатор VRID (virtual router ID) и виртуальный адрес VRIP (virtual routerIP). Физически виртуальный маршрутизатор состоит из двух или более маршрутизаторов: главного или активного (master) и нескольких резервных (backup). Главный маршрутизатор обеспечивает основные функции маршрутизации для указанного адреса VRIP. Резервные маршрутизаторы отслеживают состояние главного маршрутизатора и начинают работать в случае его отказа.
Дополнительную информацию о стандарте VRRP можно найти в документе IETF RFC-2338.
Оценка коэффициента готовности узла доступа
При оценке надежности очень важна формулировка критерия отказа системы, в зависимости от которого разрабатывается схема надежности. При задании критерия надежности указывается допустимое число отказавших устройств от их общего числа, предельное время неработоспособности (недоступности сервиса, например, при переключении на резерв) и другие параметры и условия [2].
Для оценки надежности конфигурации узла доступа используется схема, элементы которой представляют собой последовательно соединенные укрупненные кластерные структуры. В практической реализации каждый из них может представлять собой набор нескольких кластеров.
Оценка надежности сводится к расчету схемы, составленной по заданному критерию отказа последовательно соединенных кластерных структур, представленных дублированной группой элементов. Не следует забывать о необходимости учета надежности инфраструктуры узла, в первую очередь, сис-
темы электропитания и кондиционирования, без которых основные системы неработоспособны. Как правило, инфраструктурные элементы также задублированы, и рассчитывать их можно аналогично.
Выберем в качестве модели надежности кластера марковскую модель, граф состояний которой представлена на рис. 2.
Возможные состояния процесса:
«0» - оба элемента исправны;
«1» - отказ одного элемента;
«2» - отказ обоих элементов.
«3» - работа протокола восстановления кластера (например, по протоколу УКЯР).
Таким образом, состояния исправности кластера - «0», «1», отказа - «2» и «3» .В случае отказа одного из элементов кластера он автоматически заменяется резервирующим со случайным временем включения, распределенным по экспоненциальному закону с параметром г = ©, где © - среднее
время схождения алгоритма восстановления. Во время переключения кластер находится в нерабочем состоянии. Отказавший элемент ремонтируется (заменяется) без остановки системы и после восстановления через случайный промежуток времени, распределенный по экспоненциальному закону с параметром ц, включается в состав дублированной группы: /л=1/Тв, где Тв - среднее время восстановления. Допустим, что одновременно может восстанавливаться один элемент.
Тогда коэффициент готовности кластера Кг = Ро + Р1 =
= /х+г) + 2х/х + г) (1)
2Х2г + 2Х3 + /г+зх/ + 2Х/+'
Рис.2. Граф состояний марковской модели
Общий коэффициент готовности мульти-сервисного узла доступа, структурная схема надежности которой представляет N после -довательно соединенных кластеров, определяется по формуле:
к х =П
(2)
где K - коэффициент готовности 7-го кластера.
Недостатком предложенной схемы является то, что протоколы VRRP и RSTP работают независимо, но возможна ситуация, при которой VRRP «назначит» на роль основного устройства (master) один маршрутизатор, а RSTP в качестве предпочтительного выберет маршрут к другому (резервирующему «с точки зрения» VRRP). В лучшем случае этот маршрутизатор немедленно перенаправит трафик на обработку основному устройству, что будет означать дополнительный переход (hop). Кроме того, такая схема может содержать дополнительные коммутаторы, необходимые для организации работы протокола VRRP.
Рассмотрим второй вариант схемы, где на уровне агрегации используются коммутаторы, поддерживающие функции L3. Тогда в маршрутизаторах и в коммутаторах мульти-сервисного узла доступа можно задействовать протокол маршрутизации OSPF. Он контролирует состояние каналов, и при выходе из строя одного из каналов переключение на другой занимает менее 1 с. Большинство современных OSPF-маршрутизаторов и коммутаторов поддерживают и алгоритм ECMP; это новейшее дополнение к OSPF обеспечивает равномерное распределение нагрузки по двум каналам. В данном случае всегда активны оба канала и, когда отказывает один из них, затрагивается только половина трафика.
Распределение нагрузки означает также, что теоретически в вашем распоряжении находится суммарная пропускная способность обоих каналов. Однако если оба канала будут заполнены трафиком, вы не обеспечите полноценной избыточности. При отказе одного канала суммарный объем трафика превысит пропускную способность оставшегося кана-
i=1
ла, и результаты окажутся непредсказуемыми. Эту проблему в какой-то мере можно смягчить посредством механизмов качества обслуживания (QoS): они позволят пересылать наиболее приоритетный трафик и сбрасывать низкоприоритетный [3].
Критерием исправной работы домена OSPF в данном случае является наличие хотя бы одного маршрута передачи информации между «истоком» и «стоком» (см. рисунок 3) [2]. Предположим, что имеется список возможных маршрутов. Для рассматриваемого варианта ограничимся маршрутами с количеством переходов (hop) не более 3. Увеличение числа переходов в маршруте может привести к необоснованному увеличению задержки. В общем случае маршруты будут зависимы, поскольку любой элемент может входить в несколько маршрутов.
Надежность k-го маршрута Pk можно вычислить по формуле последовательного соединения:
Pk =П Ргк , (3)
г
где pik - надежность (коэффициент готовности) /-го элемента k-го маршрута.
Рис. 3. Структурная схема надежности мультисервисного узла доступа при использовании протокола OSPF
Искомая надежность зависит от надежности каждого маршрута и вариантов их пересечений по общим элементам. Обозначим
надежность, которая обеспечивается первыми г маршрутами, через Рг. Добавление очередного маршрута (г+1), с надежностью Рг+1, очевидно, приведет к увеличению структурной надежности, которая теперь будет определяться объединением двух событий: исправен хотя бы один из первых г маршрутов или исправен (г+1)-й маршрут. Вероятность наступления этого объединенного события, с учетом возможной зависимости отказов (г+1)-го и остальных маршрутов, будет определяться по рекуррентной формуле:
(4)
P - P + P - P P
1 r+1 _ 1 r^ 1 r+1 1 r+1J r /( r+1) :
где Рг/(г+1) - вероятность исправности хотя
бы одного из первых г маршрутов при условии, что (г+1)-й маршрут исправен.
Из определения условной вероятности Рг/(г+1) следует, что при ее расчете вероятность исправной работы всех элементов, входящих в (г+1)-й маршрут, необходимо положить равной единице. Для удобства дальнейших расчетов представим последний член выражения (4) в следующем виде:
Рг+1 = Рг + Рг+1 - Рг+1 * Рг , (5)
где символ (*) означает, что при перемножении показатели надежности всех элементов, входящих в первые г путей и общих с (г+1)-м маршрутом, заменяются единицей.
При расчетах бывает удобным оценивать неготовность домена Q по следующему рекуррентному соотношению:
Qг+1 = Qг - Рг+1 * Qг. (6) При начальном условии Q0 = 1, на каждом последующем шаге из полученного ранее выражения для вычисления Qr следует вычесть произведение надежности очередного (г+1) маршрута на это же выражение, в котором показатели надежности всех элементов, входящих в маршрут (г+1), нужно положить равными единице.
Определим связность домена 08РБ. Предположим, что все сетевые устройства (узлы графа) исправны. Вероятность такого события равна:
71111 = Л:1,^2,КЪ,К4. (7)
Индекс 1111 - представляет собой пози- всех узлов графа. ционный код, обозначающий исправность
Таблица 2. Вероятности готовности узла при различных вариантах деградации
№ Код
2 ош
3 шп
4 11о1
5 шо
6 о1о1
7 оно
8 1оо1
9 тш
1о 11оо
11 оо11
12 ооо1
13 оош
14 ото
15 1ооо
16 оооо
Вероятность события I
Схема
Коэффициент готовности
жхж2жъж4
1 -[(1 - acf )(1 - bdg )-ahg (1 - cf )(1 - b -bkf ((1 - ac) (1 - dg) - ahg (1 - c)(1 - d)
(1 -*i)
Ж2Ж3Ж4
b (1 -(1 - kf )(1 - dg))
Ж
1 (1 -*2 )
Ж3Ж4
a (1 -(1 - cf )(1 - hg ))
Ж
\n2 (1-Ж)
Ж4
g (1 -(1 - ah )(1 - bd ))
«(1 )
f (1 -(1 - ac )(1 - bk ))
(1 -Ж )Ж2 (1 -Ж3
bdg
(1 -Ж )ж2Жз (1 -
bkf
Ж (1 Ж2 )(1 -Ж3 )
ahg
Ж
1 (1 Ж2 )Ж3 (1
acf
Связь между «истоком» и «стоком» отсутствует
о
о
о
о
о
о
о
(8)
При ограничении числа транзитных участков гтах=3 имеем следующее множество маршрутов {acf, bdg, ahg, Ьк/}. Тогда, используя выражения (3) и (5), получим:
Р = acf,
P2 = acf + bdg - acfbdg , P3 = acf + bdg - acfbdg + +ahg - ahg (cf + bd - c/bd)' P4 = ас/ + bdg - ac//bdg + ahg --ahg (с/ + bd - c/bd) + Ьк/ --Ьк/ (ас + dg - acdg + ahg --ahg (с + d - cd )).
Аналогично можно воспользоваться выражением (6):
Я = 1 - ас/,
Я2 =(1 - ас/ )(1 - bdg ),
Яз =(1 - ас/ )(1 - bdg )-^ (1 - с/)(1 - bd), Я =(1 - ас/ )(1 - bdg )-^ (1 - с/ )(1 - bd )--Ьк/((1 - ас)(1 - dg)--ahg (1 - с )(1 - d).
Тогда
Р1111 = Р4 = 1 - 64. (10)
Предположим, что отказал 1 узел графа (код события 0111). Вероятность такого события равна:
^ 0111 =(1 -п\ ^)^2П3П4. (11)
В этом случае вероятность готовности (связности) узла будет равна (см. строка 1 таблицы 2):
Рош = Ь (1 -(1 - к/ )(1 - dg )). (12)
Формулы для расчета вероятностей готовности (связности) узла при различных вариантах деградации приведены в таблице 2.
(9)
Полученные выражения позволяют определить общий коэффициент готовности домена 08РБ:
Кгв8РЕ = ^ 1ххххРхххх . (13) хах=0000
Коэффициент готовности уровня агрегации определяется в соответствии с выражением:
КгУА = П Кгг
(14)
где Кг7 - коэффициент готовности 7-го кластера уровня агрегации определяемый в соответствии с выражениями (1), (2).
Общий коэффициент готовности мульти-сервисного узла доступа, построенного по рассматриваемому варианту, определяется по формуле:
КгХ= КгУАKzOSPF . (15)
Заключение
Проведенные по рассмотренным методикам расчеты показывают, что для обеспечения коэффициента готовности мультисервисного узла доступа Кг=0,99999 необходимо, чтобы коэффициент готовности сетевых устройств (коммутаторов, МСЭ, маршрутизаторов) был не менее 0,9998, а линий связи (link) не менее 0,999.
Литература
1. Бакланов И.Г. NGN: принципы построения и организации / под ред. Ю.Н. Чернышова. - М.: Эко-Трендз, 2008. - 400с.
2. ГОСТ Р 53111_2008. Устойчивость функционирования сети связи общего пользования. Требования и методы проверки.
3. Манн С., Крелл М. Linux. Администрирование сетей TCP/IP: Второе издание. Пер. с англ. -М.: ООО «Бином-Пресс», 2008г. - 672с.: ил.
4. ITU-T Recommendation Y. 1541, Network Performance objectives for IP- based services -2002.
Поступила 30 января 2011 г.
i=1
In the article methods of reliability improvement for multyservice access node with respective calculations a proposed. Also some methods of availability estimation for different systems are given.
Key words: multyservice access node, reliability, fault tolerance, system readiness.
Ковальков Денис Анатольевич - кандидат технических наук, доцент, начальник кафедры исследования операций и систем Серпуховского военного института. E-mail: kad0920@mail.ru.