doi: 10.24411/2409-5419-2018-10099
ПРОГНОЗ НАДЕЖНОСТИ КЛАСТЕРНОЙ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ С ПОМОЩЬЮ ПОЛУМАРКОВСКОЙ МОДЕЛИ АЛЬТЕРНИРУЮЩИХ ПРОЦЕССОВ И МОНИТОРИНГА
ХОМОНЕНКО Анатолий Дмитриевич1
БЛАГОВЕЩЕНСКАЯ Екатерина Анатольевна2
ПРОУРЗИН
Олег Владимирович3
АНДРУК
Алена Антоновна4
Сведения об авторах:
1д.т.н., профессор, заведующий кафедрой информационные и вычислительные системы Петербургского государственного университета путей сообщения Императора Александра I, г. Санкт-Петербург, Россия, [email protected]
2д.т.н., профессор, заведующая кафедрой высшей математики Петербургского государственного ниверситета путей сообщения Императора Александра I, г. Санкт-Петербург, Россия, [email protected]
3старший преподаватель кафедры информационные и вычислительные системы Петербургского государственного университета путей сообщения Императора Александра I г. Санкт-Петербург, Россия, [email protected]
4ведущий электроник Санкт-Петербургского информационно-вычислительного центра, г. Санкт-Петербург, Россия, [email protected]
АННОТАЦИЯ
Предлагается подход к расчету характеристик надежности кластерной вычислительной системы из двух взаимозаменяемых серверов. Цель статьи заключается в повышении точности расчета характеристик надежности кластерной системы, достигаемом путем введения предпосылок о не экспоненциальном распределении длительности безотказной работы и восстановления серверов. Описана полумарковская модель такой системы в виде двух условно независимых случайных процессов восстановления. Для учета не экспоненциального закона распределений длительности безотказной работы и восстановления серверов кластера рассмотрен двумерный процесс до момента двойного отказа. При любом начальном состоянии, когда один сервер работает, а другой - нет, момент двойного отказа наступает, когда оба сервера находятся в состоянии ремонта. В качестве показателя надежности вычислительного кластера используется среднее время безотказной работы кластера, определяемое через вероятность застать кластерную систему в рабочем состоянии в произвольный момент времени. Обосновано использование аналитических выражений для расчета среднего времени безотказной работы вычислительного кластера из двух серверов, один из которых находится в горячем резерве. При этом важной отличительной особенностью рассмотренной полумарковской модели надежности вычислительного кластера является то, что длительности восстановления отказавшего сервера могут иметь произвольный закон распределения. Для уточнения характеристик надежности кластерной вычислительной системы обсуждается возможность использования инструментальных средств мониторинга. Приводятся результаты численных расчетов характеристик надежности кластерной вычислительной системы. Основной результат - аналитическая оценка влияния коэффициента вариации не экспоненциального распределения длительности восстановления сервера в используемой модели надежности на значение среднего времени безотказной работы кластера, показывающая насколько повышается точность расчета этого показателя надежности кластерной вычислительной системы из двух взаимозаменяемых серверов. Обоснована целесообразность уточнения характеристик надежности кластерной вычислительной системы с помощью инструментальных средств мониторинга.
КЛЮЧЕВЫЕ СЛОВА: полумарковская модель надежности; кластерная вычислительная система; длительность восстановления; среднее время безотказной работы; надежность.
Для цитирования: Хомоненко А.Д., Благовещенская Е.А., Проурзин О.В., Андрук A.A. Прогноз надежности кластерной вычислительной системы с помощью полумарковской модели альтернирующих процессов и мониторинга // Наукоемкие технологии в космических исследованиях Земли. 2018. Т. 10. № 4. С. 72-82. doi: 10.24411/2409-5419-2018-10099
Введение
Обоснование и прогнозная оценка характеристик надежности вычислительных систем является актуальным направлением исследований для критически важных систем. К числу вычислительных систем, ориентированных на достижение высоких характеристик надежности в настоящее время относятся кластерные вычислительные системы [1]. В нашей статье предлагается подход к расчету характеристик надежности кластерной вычислительной системы из двух взаимозаменяемых серверов. При этом используется полумарковская модель такой системы в виде двух условно независимых случайных процессов восстановления [2-3]. В качестве основного показателя надежности используется среднее время безотказной работы вычислительного кластера, состоящего из двух серверов. Приведены аналитические формулы для вычисления основных величин, входящих в выражение для расчета среднего время безотказной работы вычислительной кластерной системы [2-3]. Приводятся результаты численных расчетов характеристик надежности кластерной вычислительной системы. Для уточнения характеристик надежности кластерной вычислительной системы затрагиваются вопросы использования инструментальных средств мониторинга [4-6].
Основной результат — оценка влияния коэффициента вариации не экспоненциального распределения длительности восстановления сервера на значение среднего времени безотказной работы кластера, показывающая насколько повышается точность расчета этого показателя надежности кластерной вычислительной системы из двух взаимозаменяемых серверов. Для повышения точности расчета прогнозных характеристик предлагается использование подхода на основе комбинированной оценки характеристик [7-9]: путем априорной (путем моделирования) и опытной оценок (по данным эксплуатации и мониторинга) характеристик надежности. Обсуждается также возможное уточнение характеристик надежности кластерной вычислительной системы на основе данных мониторинга.
1. Характеристика кластерных вычислительных систем
Кластер — это множество компьютеров, связанных высокоскоростными каналами связи, функционирующих как единая система [1]. По существу кластер образуется из отдельных компьютеров, имеющих процессор, память (оперативную и внешнюю), подсистему ввода/вывода, операционную систему и т.п. При объединении компьютеров поддерживаются межкомпьютерные коммуникации, осуществляемые путем передачи сообщений. Компьютеры, входящие в состав кластера, принято называть узлами кластера. В общем случае в кластере могут применяться однородные и неоднородные узлы.
К общим требованиям, предъявляемым к кластерным системам, относятся: высокая готовность; высокое быстродействие; масштабирование; общий доступ к ресурсам и удобство обслуживания. Кластерные системы высокой готовности можно отнести к разряду актуальных современных решений по удовлетворению требований, предъявляемых со стороны заказчиков, обслуживающих критически важные системы.
В настоящее время распространены несколько типов систем высокой готовности. При этом кластерные системы реализуют технологий, обеспечивающие высокий уровень отказоустойчивости при самой низкой стоимости. Отказоустойчивость кластера обеспечивается дублированием жизненно важных компонент. Максимально отказоустойчивая система должна не иметь ни единой точки, то есть активного элемента, отказ которого может привести к потере функциональности системы. Такую характеристику обычно называют—NSPF (No Single Point of Failure — отсутствие единой точки отказа).
При построении систем высокой готовности, главная цель — обеспечить минимальное время простоя. Для этого необходимо: чтобы ее компоненты были высоконадежными; чтобы она была отказоустойчива, желательно, чтобы не имела точек отказов; она была удобна в обслуживании и разрешала проводить замену компонент без останова.
Обеспечение максимальной надежности осуществляется путем использования электронных компонент высокой и сверхвысокой интеграции, поддержания нормальных режимов работы. Отказоустойчивость обеспечивается путем использования специализированных компонент (ECC, Chip Kill модули памяти, отказоустойчивые блоки питания, и т.п.), а также с помощью технологий кластеризации.
На основе кластеризации достигается такая схема функционирования, когда при отказе одного из компьютеров задачи перераспределяются между другими узлами кластера, которые функционируют исправно. Причем одной из важнейших задач производителей кластерного программного обеспечения является обеспечение минимального времени восстановления системы в случае сбоя, так как отказоустойчивость системы нужна именно для минимизации внепланового простоя.
Удобство в обслуживании служит уменьшению плановых простоев (например, замены вышедшего из строя оборудования) и является одним из важнейших параметров систем высокой готовности. И если система не разрешает заменять компоненты без выключения всего комплекса, то ее коэффициент готовности уменьшается.
На рис. 1 приведена типовая схема двухузлового кластера высокой готовности с общим дисковым хранилищем, подключенным непосредственно к узлам кластера [1].
Отказоустойчивые кластеры разделяются на 3 основных типа:
Рис. 1. Типовая схема двух узлового кластера высокой готовности
С холодным резервом или активный/пассивный. Активный узел выполняет запросы, а пассивный ждет его отказа и включается в работу, когда таковой произойдет. Пример — резервные сетевые соединения, в частности, Алгоритм связующего дерева. Например, связка DRBD и HeartBeat/Corosync.
С горячим резервом или активный/активный. Все узлы выполняют запросы, в случае отказа одного нагрузка перераспределяется между оставшимися. То есть кластер распределения нагрузки с поддержкой перераспределения запросов при отказе. Используют практически все кластерные технологии, например, Microsoft Cluster Server. OpenSource проект OpenMosix.
С модульной избыточностью. Применяется в случае, когда простой системы недопустим. Все узлы одновременно выполняют один и тот же запрос (так, что результат достижим и при отказе любого узла), из результатов берется любой. Необходимо гарантировать, чтобы результаты разных узлов были одинаковы (различия не повлияют на дальнейшую работу).
При проектировании и эксплуатации кластерных вычислительных систем важным является прогнозный расчет характеристик их надежности путем моделирования [10-14], а также возможность уточнения этих характеристик при их эксплуатации на основе использования средств мониторинга. В их числе различают проприетарные системы, например IBM Tivoli, а также системы с открытым исходным кодом, распространяемые по лицензии GPL (GNU Public License), например, Cacti, Nagios, Zabbix и др. [6-7]. Рассмотрим комплексное решение названных задач.
2. Характеристика моделей надежности кластерных систем
Модели надежности кластерных вычислительных систем рассматривались в ряде работ [13-15] при различных предположения и ограничениях. В частности, в работе [13] для построения математической модели надежности кластера используется математический аппарат цепей Маркова, позволяющий моделировать сложные системы с учетом ряда условий: различные интенсивности отказов, конечное время перехода в активный режим обслуживания запросов, горячее резервирование и т.п. С целью упрощения разработки модели автор исследует подсистему узлов обработки данных и подсистему хранения данных по отдельности, считая их независимыми с точки зрения надежности. В [14] предложен подход к анализу надежности аппаратного и программного обеспечения кластерных вычислительных систем. Кластерная система моделируется как неприводимая цепь Маркова с рабочими состояниями, отказа и восстановления. Поведение при отказе и восстановлении характеризуется с точки зрения частоты и продолжительности восстановления отказа и сбоев для одного процессора в кластере и для всей кластерной системы.
В работе [15] рассматривается моделирование надежности и анализ кластерной системы путем определения надежности аппаратного обеспечения, операционной системы и прикладного программного обеспечения, которые необходимо реализовать для достижения различных уровней надежности и сопоставимой степени согласованности данных. Описываются уровни надежности с точки зрения обнаружения неисправностей, восстановления неисправностей, неустойчивости данных и согласованности данных. Авторы предлагают модель надежности Маркова для сбора данных об обнаружении и восстановлении неисправностей. Демонстрируют, как предложенный экономичный метод отказоустойчивости может обеспечить количественное повышение надежности в приложениях с использованием кластерных архитектур.
В работах [16-17] решаются более сложные задачи, связанные с оцениванием и обеспечением надежности кластерных вычислительных систем. В частности, в статье [16] решена задача комплексной оценки надежности сетевого кластера, учитывающая надежность аппаратного и программного обеспечения. Создана модель оценки надежности программного обеспечения, позволяющая оценивать надежность на основании статистики проявления ошибок во время тестирования и эксплуатации. Разработанная модель позволяет анализировать различные варианты поведения системы, которые задаются путем ввода экспертных оценок.
В статье [17] решается задача оптимизации объединения в кластеры резервированных серверов различного функционального назначения. Показано, что при много-
уровневой конфигурации коммуникационной подсистемы для обеспечения высокой отказоустойчивости и надежности целесообразно объединение в кластеры разнотипных по функциональности серверов.
Систематическое изложение вопросов моделирования надежности современных вычислительных систем и их программного обеспечения содержится в ряде публикаций, в частности, в [10, 12, 18-19]. С позиций прикладного использования и теоретических позиций наибольший интерес представляет исследование и применение моделей, позволяющих оценивать характеристики надежности вычислительных кластеров при законах распределения длительностей отказов и восстановлений, отличных от экспоненциального закона.
При этом аналитические выражения удается получить в некоторых отдельных случаях [11]. В качестве примера можно привести статью [20]. В настоящей статье предлагается распространить предложенный в статье [3] подход на случай численно-аналитической оценки характеристик надежности кластерной вычислительной системы, состоящей из двух взаимозаменяемых серверов.
3. Полумарковская модель надежности вычислительного кластера
Постановка задачи и обозначения. Рассмотрим два альтернирующих процесса (альт-процесса) восстановления, соответствующих двум параллельно функционирующим агрегатам (каналам) технической системы [3]. Каждый процесс имеет два возможных состояния: рабочее V и нерабочее г, где состояние г соответствует интервалу ремонта после отказа или необходимого профилактического обслуживания. В точках разрыва процессы предполагаются непрерывными справа. Эти процессы предполагаются независимыми друг от друга до момента перекрывания нерабочих интервалов (т.н. «двойной отказ»), когда оба процесса в одно и то же время имеют состояние г.
Итак, пусть X (?) и У (?) — два независимых альт-процесса с двумя состояниями V (работа) и г (восстановление). При фиксированных начальных значениях X(0) = х и У(0) = у (х, у е {^ V}) распределения Рхх и РУ этих процессов определяются плотностями распределения длин своих интервалов /2, ^ и gг, gw соответственно. Совместное распределение Рх у этих процессов (распределение пары (X, У)) определяется условием независимости компонентов этой пары.
Введем следующие обозначения [3]:
а^(к) — интервалы безотказной работы первого сервера, занумерованные по порядку с начала процесса Х(?) или в порядке их появления в описании некоторого события, ^ — плотности распределения длин этих интервалов;
а(к) и f — интервалы ремонта первого сервера и плотности распределения их длин;
bw(k) и gw — интервалы безотказной работы второго сервера и плотности распределения их длин;
bz(k) и gz — интервалы ремонта второго сервера и плотности распределения их длин.
\a\ — длина интервала а, все интервалы считаются замкнутыми на левом конце и открытыми на правом конце. Обозначим [3]:
m
Ham = U К (k) U (к)).
к=1
Группа интервалов, определяемая этим выражением, начинается с интервала az(1) и заканчивается интервалом aw(m) при m >0. Обозначим также
Н+ат = Нат и az (т +1).
Плотность распределения величины |H | рав-плотность распределения величины равна fz(m+r> * fWm), где * — операция свёртки,
на fm) * fim)
\ и:
и f (?) = g(?) = 0 при ? < 0. Обозначим/Хп> (п >0) и-кратную свёртку функции f (с собой), /-0) = 50 (дельта-функция со скачком в нуле). Аналогичные формулы выводятся для
нт и \щт\.
Малая полумарковская цепь с обрывом. Слово «малая» в [3] противопоставляется слову «большая» цепь, которая возникает, если после каждого момента двойного отказа наступает перестройка двумерного процесса, после которой система начинает работать как новая. Пусть £wz}. Задача состоит в нахождении распределения Р? момента двойного отказа Т и роли компонентов в момент двойного отказа (например, какой сервер начал свой последний г-интервал до момента Т). Для расчёта этих объектов удобно рассматривать условные вероятности относительно событий:
1) X(0) = г, У(0) = V и Ь¥(0) = ?0 (интервал Ь^!) начался в момент -? так что реализовалось событие: |ЬД1)|>?0), или
2) У(0)=г, X(0) = м> и Ьх(0) = ?0 (реализовалось событие: |а„(1) > ?0 ).
Таким образом, авторы [3] расширяют процесс, добавляя компонент времени, но только для V -интервалов обоих компонентов (в формулах используются Ьх (?), ЬУ (?) только тогда, когда X(t) = м>, У (?) = м>).
Предположим, что в начальный момент один сервер работает, а другой нет, причём у неработающего сервера ремонт начинается в момент ?=0, а у работающего сервера начало текущего рабочего интервала произошло в момент -?0, где ?0 > 0. Таким образом, в момент ? = 0 реализуется одно из двух начальных состояний двумерного процесса £ wz}.
Для вывода распределения состояния двумерного процесса в момент Т используется дополнительная
Марковская структура внутри интервала безотказной работы. Рассмотрим двумерный процесс до момента двойного отказа. При любом начальном состоянии, когда один сервер работает, а другой — нет, момент двойного отказа наступит, когда оба сервера находятся в состоянии ремонта. Это значит, что до этого момента существует правильная цепочка перекрывающихся ^-интервалов. Пусть а^(к), ЬД/) — два перекрывающихся V -интервала. Будем говорить, что а (к) предшествует Ь (/) и обозначать
ний интервал в этой цепочке оканчивается внутри нерабочего интервала другого компонента, и, таким образом, вызывает двойной отказ двух процессов (точка Т).
С правильной цепочкой интервалов связана малая полумарковская цепь с обрывом, составленная из Н-групп и интервалов перекрывания рабочих интервалов. На рис. 2 это интервалы
У а (1) = (°Р Т1), У4 = Т2), У а (2) = (СТз, Тз).
(к) х (I), если < (к)" ЬС (I)< ^ (к)" ЬС (I),
где а" — начальная и а/ — конечная точки интервала а (то же для Ь).
Интервалы (а„(к1),ак(к2),...а„(кп)) образуют правильную цепочку (последовательности(ки) и (/п)возрастают), если а„ (к1) ^ Ъ^ (¡1) ^ а„ (к2) ^ Ъ^ (¡2) а„ (кп) ^ Ъ^ (¡„)
или Ь* (/,) - а** №) - Ь* (12) - а* (Ю - К (К) - а* К).
На каждом интервале безотказной работы правильная цепочка перекрывающихся м>-интервалов (если существует) определяется единственным образом. При числе звеньев цепочки не меньше трёх между соседними парами одного и того же компонента образуется промежуток. Эти промежутки заполнены максимальными однородными группами интервалов (Н-группами), начинающимися и оканчивающимися z-интервалами. Число интервалов в Н-группе случайно, т.е. это ИС = и аг(ц +1) или И = ИЬуи Ь2 (у+1), где д > 0, V > 0 — случайные целые числа. При таком обозначении Я = Я и Я, = Я. называют-
А а ад Ь Ьд
ся неполными Н-группами. Пример интервалов двухмерного процесса до первого двойного отказа приведен на рис. 2.
На рис. 2 интервалы компонентов X и У изображены выше и ниже оси времени соответственно. Рабочие интервалы изображены в виде прямоугольников. Н-группы указаны в виде дуг с вертикальной чертой посредине. Неполная Н-группа изображена в виде дуги с двумя вертикальными чертами. Интервалы восстановления, не входящие в Н-группы, изображены в виде дуг и пронумерованы отдельно. На рис. 2 изображена правильная цепочка интервалов и интервалы, занимаемые Я-группами. Послед-
°чевидно что 1 уа(1)|= Ьх(т1), 1 уь(1)|= Ьг(т2)и так далее. Отсюда вытекает Марковское свойство обоих компонентов относительно точек тк и соответствующих у. Для общего случая авторы [3] дополняют эту последовательность нулевым элементом — интервалом уЬ(0) = (-/ 0). Вместе со следующими за ними Н-группами они образуют ступенчатый полумарковский процесс с обрывом с переходами
( I у 4 (0)| ,|я; (1)| у а (1)| ),
( I Уа (1)1 Н (1)| у4 (1)| ),
( \уь (1)| ,\и: (2))| у а (2) | )
и так далее до момента обрыва. Для полноты картины к этой последовательности добавляем «переход выхода»:
( | у а (2) | ,\ИЬ (1))| у 4 (2) | ),
где |у4 (2)|= Т -ст4.
Итак, если Ъ^ (1) - /„ меньше конца первого нерабочего интервала первого компонента (входящего в Я-группу), то при начальном состоянии двумерного процесса zw в конце первого рабочего интервала процесса У(0 заканчивается интервал безотказной работы системы, т. е. первый же шаг малой полумарковской цепи является выходом из цепи (число переходов цепи равно нулю).
Чтобы получить решение в аналитической форме в [3] вводится дополнительное предположение о экспо-
Рис. 2. Интервалы двухмерного процесса до первого двойного отказа
ненциалыюм распределении длительности рабочих интервалов :(х) = ах ехр(-ах) и £и.(х) = (3 х с\р( (1г). При этом важно, что распределения длительности восстановления первого и второго серверов после отказа /Хг) и gXx) имеют произвольное не экспоненциальное распределение.
В работе [3] показано, что среднее время интервала до появления двойного отказа двухканальной системы Е_м!(Т) (при условии, что вначале первый сервер ремонтируется, а второй работает) вычисляется по формуле
/•;,.('/> У/,-
где
A = -J -J С+ -С Г -
ZW WZ ZW WZ zw
C_,+C ,_C+
ZW_WZ zw
1 -C+ C+
ZW WZ
(J+C+ +C+J+)
V ZW WZ ZW WZ / •
B = l-C+ c+,
ZW WZ '
= (a + ß)( 1 -/ЛР)) / (a + ß- a/=(ß)),
Jzw = a( 1 ~ /г (ß))((a + ß)
~fz (ß)))(a + ß ~ afz (ß))~
g(/;(ß)) öß
с=-
ß/.-(ß)
a+ß-a/_(ß)
j;=-ß(a(/=(ß))2+(a + ß)2Ö(/--(ß))
öß
)x
xia + ßr'ia + ß-a/^ß))-1,
При этом /(5) является преобразованием Лапласа и вычисляется по формуле
f(s) = je-*f(t)dt.
где 5>0, и [(!) — интегрируемая функция, заданная на интервале [0,<х>).
Формулы для величин С^, (• •/„._. и,/_ получаются из их аналогов с индексом ш с использованием принципа симметрии, состоящего в том, что в формулах совершается замена символов {гч>,м>г,а,р,на соответствующие символы из набора а, £_,/_). Таким образом, полученные в [3] аналитические выражения, которые можно использовать для среднего времени безотказной работы вычислительного кластера из двух серверов, один из которых находится в горячем резерве. При этом важной
отличительной особенностью рассмотренной полумарковской модели надежности вычислительного кластера является то, длительности восстановления отказавшего сервера может иметь произвольный закон распределения.
4. Численные расчеты характеристики надежности кластера
Обоснование исходных данных для моделирования надежности кластера. При определении исходных для моделирования целесообразно опереться на данные, получаемые при мониторинге вычислительных кластеров с помощью одной из указанных инструментальных систем мониторинга (IBM Tivoli, Cacti, Nagios, Zabbix и др. [6-7]).
Полезно также проведение параметрического анализа зависимости значений надежности вычислительно кластера от исходных параметров модели. При этом уместен учет следующих соображений, отмеченных, например, в [14]. Вклад аппаратных ошибок к интенсивности отказов процессора довольно маленький. Большинство ошибок в основном возникает из-за ошибок программного обеспечения. Для определения параметров модели целесообразно использовать метод прогноза надежности программного обеспечения, наблюдаемой на первом году работы системы (см. [19, 21-23]).
Автор [14] приводит плотность отказов, предсказанную на основе измерений для телекоммуникационной системы за первый год работы. Предсказанная плотность отказов составляет различия в среде разработки программного обеспечения и характеристиках программного обеспечения между измеренной системой и смоделированной системой. В результате в [14] обоснованы значения: интенсивности возникновения программных отказов Á на уровне 0,9-15 в год; интенсивности восстановления коммутационного оборудования процессора \is на уровне 30 восстановлений в час; восстановления перезагрузки процессора д на уровнер= 12 восстановлений в час; интенсивность запуска процессора с перезагрузкой данных ц^на уровне 2 восстановлений в час; интенсивность восстановления процессора |i;; на уровне 0.25 восстановлений в час.
Для наглядности приведем результаты численного расчета среднего времени безотказной работы вычислительного кластера в интересах параметрического анализа. Предположим, что время ремонта серверов распределено по равномерному закону со средним значением длительности восстановления, равным 20 и коэффициентом вариации F=0. По существу равномерное распределение с такими параметрами соответствует детерминированной длительности восстановления. Распределения длительностей безотказной работы серверов как и ранее считаем экспоненциальными: /и(х) ахс\р( or) и^/х) ßxc\p( (ir). В таблице 1 приведены значения среднего времени до двойного отказа Е (7) в зависимости от ß и а.
Таблица 1
Среднее время безотказной работы кластера
а\в 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,04 0,045 0,050 0,055
0,005 98,03 72,93 65,89 61,21 57,04 53,08 49,28 45,65 42,20 38,94 35,87
0,010 86,96 47,39 36,48 31,26 27,87 25,26 23,06 21,11 19,34 17,72 16,23
0,015 90,07 43,81 30,24 23,92 20,16 17,56 15,57 13,94 12,55 11,33 10,25
0,020 94,21 44,04 28,73 21,53 17,34 14,55 12,50 10,92 9,62 8,53 7,59
0,025 98,08 45,23 28,68 20,81 16,24 13,25 11,09 9,46 8,17 7,11 6,22
0,030 101,55 46,65 29,17 20,77 15,88 12,68 10,41 8,72 7,40 6,34 5,46
0,035 104,69 48,09 29,86 21,03 15,87 12,50 10,12 8,36 7,00 5,91 5,02
0,040 107,54 49,48 30,62 21,43 16,04 12,51 10,04 8,21 6,80 5,68 4,77
0,045 110,17 50,79 31,38 21,89 16,30 12,64 10,07 8,17 6,72 5,57 4,64
0,050 112,62 52,02 32,16 22,36 16,60 12,82 10,17 8,21 6,72 5,53 4,58
0,055 114,90 53,18 32,86 22,84 16,93 13,04 10,31 8,29 6,75 5,54 4,57
Соответствующая приведенной таблице диаграмма зависимости среднего времени Е(Т) безотказной работы вычислительного кластера от параметров модели надежности в и а приведена на рис. 3.
Из представленных результатов наглядно видно, насколько сильно влияют значения параметров в и а на значения среднего времени Е(Т) безотказной работы вычислительного кластера из двух серверов при фиксированном не экспоненциальном распределении времени восстановления каждого из серверов.
Рис. 3. Зависимость Е(Т) от параметров в и а
Рассмотрим вопрос оценки выигрыша в точности прогноза характеристик надежности вычислительного кластера с двумя серверами на основе рассмотренной полумарковской модели. Для этого оценим влияние коэффициента вариации (V) не экспоненциального распределения длительности восстановления первого и второго серверов (с плотностями/(х) и gz(x)) на значения среднего времени Е(Т) до двойного отказа. При этом для наглядности зафиксируем значения величин в и а, а также одинаковую среднюю длительность времени восстановления каждого из серверов. По сути, коэффициент вариации в нашем случае служит мерой отличия распределения длительности восстановления каждого из серверов от экспоненциального распределения. Заметим, что для экспоненциального закона распределения V = 1, для детерминированного закона распределения V = 0.
Зависимость среднего времени Е(Т) до двойного отказа от коэффициента вариации длительности восстановления первого и второго серверов приведена на рис. 4.
Из характера приведенной на рис. 4 зависимости следует вывод о заметном влиянии коэффициента вариации длительности восстановления серверов кластерной вычислительной системы на значения показателя Е (Т) надежности кластерной вычислительной системы. Это свидетельствует об обоснованности применения полумарковской модели для повышения точности расчета характеристик надежности кластерных систем.
5. Об уточнении характеристик надежности по данным мониторинга
Полученные с помощью полумарковской моделирования характеристики надежности вычислительных кластеров являются априорными и могут быть уточнены с помощью средств мониторинга в процессе эксплуатации. В частности, требуемая информация о надежности вычислений, выполняемых серверами в составе кластеров, может быть получена с помощью системы IBM Tivoli. Эта система мониторинга позволяет интегрироваться с обширным количеством продуктов. Это могут быть системы мониторинга, системы обработки событийной информации, в общем, любые системы которые, служат для работы с ситуациями, событиями или параметрами мониторинга.
Логическим продолжением для работы с ситуациями является их передача в систему обработки событийной информации. В линейке Tivoli — это Netcool/OMNIbus. Фиксируемые с помощью указанной подсистемы события позволяют получить фактические данные по моментам возникновения различного рода программных и аппаратных отказов, длительностей интервалов времени, затрачиваемого для их устранения. Тем самым мы имеем возможность получить опытные данные об опытных (апостериорных) значениях параметров надежности. С их помощью можно провести уточнение характеристик надежности вычислительного кластера.
Оценка выигрыша в точности расчета характеристик надежности может быть выполнена по аналогии с рассмотренными [7] подходом, который реализуется следующим образом.
1. Выполняется расчет относительной величины:
Рис. 4. Зависимость Еш (Т) от коэффициента вариации длительности восстановления сервера
2. Выполняется приближенный расчет выигрыша в точности оценки с помощью величины:
N° /
Уо = 1 Po = Z mNo , Уо е [1, .
1=1 /
В приведенных формулах у дисперсии D индекс po указывает на опытную оценку, получаемую по данным мониторинга, а индекс pa—указывает на априорную оценку, получаемую с помощью полумарковской модели надежности. Величина N0 определяет число появления соответствующих событий (например, отказа сервера, появления программной ошибки и т.п.). Приведенные формулы основаны на использовании метода приоритетной информации [7] и применительно к решаемой нами задаче уточнения параметров надежности нуждаются в доработке.
Относительно обоснованности использования системы IBM Tivoli Monitoring можно отметить следующее: она представляет собой систему мониторинга огромного числа разнородных компонентов информационной инфраструктуры; подходит для мониторинга как небольшой, так и огромной инфраструктуры; содержит все необходимое для создания отчетов любой сложности; без проблем интегрируется с большинством систем; не самое дешевое и достаточно требовательное к ресурсам программное средство.
Заключение
Предложенный комбинированный подход позволяет повысить точность расчета характеристик надежности кластерных вычислительных систем. Его можно применять также для оценки характеристик доступности дисковых накопителей, надежности и доступности информационных систем и др. [23-27].
Дальнейшие исследования, на наш взгляд целесообразно продолжить в следующих направлениях: совершенствования моделей оценки характеристик надежности и доступности современных информационных систем и технологий: GRID-технологий, комбинированных подходов к оцениванию надежности вычислительных систем, оценивания надежности облачных вычислений и др. [18, 28-31].
Литература
1. Савяк В. Эффективные кластерные решения. URL: https://www.ixbt.com/cpu/clustering.shtml (дата обращения 14.07.2018).
2. Харламов Б. П., Проурзин О. В. Вычисление коэффициента готовности для системы двух взаимозаменяемых агрегатов // Вестник гражданских инженеров. 2012. № 4 (33). С. 251-259.
3. Харламов Б. П., Проурзин О. В. Об интервале безотказной работы для системы из двух независимых аль-
тернирующих процессов восстановления // Записки научных семинаров ПОМИ. 2015. № 442. С. 143-165.
4. Линикова О. Е. Мониторинг серверного оборудования и приложений: магистерская дис. Екатеринбург, 2014. 123 с.
5. Шардаков К. С. Сравнительный анализ популярных систем мониторинга сетевого оборудования, распространяемых по лицензии GPL // Интеллектуальные технологии на транспорте. 2018. № 1. С. 44-49.
6. IBM Tivoli — Integrated Management software. URL: http://www-01.ibm.com /software/tivoli /solutions/ (дата обращения 17.07.2018).
7. Арсеньев В. Н., Силантьев С. Б., Хомоненко А. Д., Ададуров С. Е. Определение вероятности выполнения задачи сложной системой при ограниченном объеме опытной информации // XXI Международная конференция по мягким вычислениям и измерениям (SCM-2018): Сборник докладов (Санкт-Петербург, 23-25 мая 2018 г.). СПб.: СПбГЭТУ «ЛЭТИ», 2018. Т. 1. C. 43-46.
8. Jie M., Honlin Z., Wenbo X., Jin L. Reliability Testing Methods for Critical Information System based on State Random // 2011 International Conference on Information Communication and Management. IACSIT Press, Singapore. 2011. Vol. 16. Pp. 28-32.
9. Cai K.-Y., Caob. P., Dongc. Z., Liu. K. Mathematical modeling of software reliability testing with imperfect debugging // Computers and Mathematics with Applications. 2010. Vol. 59. No. 10. Pp. 3245-3285.
10. Черкесов Г. Н. Надежность аппаратно-программных комплексов. СПб.: Питер, 2005. 479 с.
11. Половко А.М., Гуров С. В. Основы теории надежности. 2-е изд. СПб.: БХВ-Петербург, 2006. 704 c.
12. Shooman M. L. Reliability of Computer Systems and Networks. New York: Wiley, 2002. 546 p.
13. Рахман П. А. Модель надежности двухузлово-го кластера высокой готовности // В^Т^.Библиотека. Internals. 2014. 15 c. URL: https://bugtraq.ru/library/internals/ dualnodecluster.html (дата обращения 14.07.2018).
14.Mendiratta V. B. Reliability Analysis of Clustered Computing Systems // Proceedings of The Ninth International Symposium on Software Reliability Engineering. 1998. Pp. 268-272.
15. Lyu M. R., Mendiratta V. B. Software Fault Tolerance in a Clustered Architecture: Techniques and Reliability Modeling // In: Proc. of 1999 IEEE Aerospace Conference (Snow-mass, Colorado, 1999 March 6-13). 1999. Vol. 5. Pp. 41-150.
16. Климанов В. П., Ермаков А. А. Комплексная оценка надежности сетевого кластера // Известия ОрелГТУ. Серия: Информационные системы и технологии. 2008. № 1-4/269(544). С. 201-207.
17. Богатырев В. А., Богатырев С. В. Объединение резервированных серверов в кластеры высоконадежной
компьютерной системы // Информационные технологии.
2009. № 6. С. 41-47.
18. Xie M., Poh K.L., Da Y.S. Computing System Reliability. Models and Analysis. New York, Boston, Dordrecht, London, Moscow: Kluwer Academic Publishers, 2004. 308 p.
19. Смагин В. А. Основы теории надежности программного обеспечения. СПб.: ВКА имени А. Ф. Можайского, 2009. 355 с.
20. Гуров С. В. Анализ надежности технических систем с произвольными законами распределений отказов и восстановлений // Качество и надежность изделий. 1988. № 2 (18). 1992. 37 с.
21. Тырва А. В., Хомоненко А. Д., Бубнов В. П. Модели надежности программного обеспечения. СПб.: ПГУПС,
2010. 40 c.
22. Karanta I. Methods and problems of software reliability estimation. Espoo: VTT Technical Research Centre of Finland, 2006. 57 p.
23. Bernstein J. B. Reliability Prediction from Burn-In Data Fit to Reliability Models. London: Academic Press. 2014. 108 p.
24. Denson W. The history of reliability prediction // IEEE Transactions on Reliability. 1998. No. 47(3-SP). Pp. 321-328.
25. Foucher B, Boullie J, Meslet B, Das D. A review of reliability prediction methods for electronic devices // Microe-lectron Reliab. 2002. No. 42. Pp. 1155-1162.
26. Каяшев А. И., Рахман П. А., Шарипов М. И. Анализ показателей надежности избыточных дисковых массивов // Вестник УГАТУ 2013. Т. 17. № 2 (55). С. 163-170.
27. Elerath J. G. Reliability model and assessment of redundant arrays of inexpensive disks (RAID) incorporating latent defects and non-homogeneous Poisson process events. Ph. D. Dissertation. University of Maryland, 2007. 157 p.
28. Новиков А. Н., Смагин В. А. Модель готовности восстанавливаемой технической системы с учетом достоверности контроля состояния ее элементов при произвольных распределениях времени до их отказа и восстановления // Труды Военно-космической академии им. А. Ф. Можайского. 2016. № 652. С. 198-203.
29. Марков А. С. Нечеткая модель оценки надежности и безопасности функционирования программного обеспечения по результатам испытаний // Вестник МГТУ им. Н. Э. Баумана. Сер. «Приборостроение». 2011. No. S1. С 151-146.
30. Foster I., Kesselman C., Tuecke S. The anatomy of the Grid: Enabling scalable virtual organizations // International Journal of High Performance Computing Applications. 2001. No. 15(2). Pp. 200-222.
31. Dai Y.-S., Yang B., Dongarra J., Zhang G. Cloud Service Reliability: Modeling and Analysis. URL: http://www. netlib.org/utk/people/JackDongarra/PAPERS/Cloud-Shaun-Jack.pdf. (дата обращения 31.07.2018).
PREDICTION OF RELIABILITY OF CLUSTER COMPUTING SYSTEM
USING SEMI-MARKOV MODEL OF ALTERNATING PROCESSES AND MONITORING
ANATOLIY D. KHOMONENKO
St-Petersburg, Russia, [email protected]
EKATERINA A. BLAGOVESHCHENSKAYA
St. Petersburg, Russia, [email protected]
KEYWORDS: semi-Markov model of reliability; cluster computing system; restoration duration; average time of trouble-free operation; reliability.
OLEG B. PROURZIN
St. Petersburg, Russia, [email protected]
ALENA A. ANDRUK
St. Petersburg, Russia, [email protected]
ABSTRACT
Approach to calculation of characteristics of reliability of the cluster computing system from two interchangeable servers is offered. The purpose of article consists in the increase in accuracy of calculation of characteristics of reliability of cluster system reached by introduction of premises about not exponential distribution of duration of trouble-free operation and restoration of servers. The semi-Markov model of such system in the form of two conditionally independent accidental processes of restoration is described. For accounting not of the exponential law of distributions of duration of trouble-free operation and restoration of servers of a cluster two-dimensional process until a double failure is considered. In case of any start state when one server works, and another - is not present, the moment of a double failure comes when both servers are in repair state. As an index of reliability of a computing cluster the average time of trouble-free operation of a cluster determined through probability to find cluster system in working order in arbitrary time point is used. Use of analytical expressions for calculation of average time of trouble-free operation of a computing cluster from two servers, one of which is in a hot reserve, is justified. At the same time important distinctive feature of the considered semi-Markov model of reliability of a computing cluster is that duration of restoration of the failed server can have arbitrary distribution law. For specification of characteristics of reliability of the cluster computing system the possibility of use of work benches of monitoring is discussed. Results of numerical calculations of characteristics of reliability of the cluster computing system are given. The main result - the analytical impact assessment of coefficient of a variation not of exponential distribution of duration of restoration of the server in the used reliability model on value of average time of trouble-free operation of a cluster showing as far as the accuracy of calculation of this index of reliability of the cluster computing system from two interchangeable servers increases. Feasibility of specification of characteristics of reliability of the cluster computing system by means of work benches of monitoring is justified.
REFERENCES
1. Savjak V. Effektivnye klasternye resheniya [Effective cluster solutions]. URL: https://www.ixbt.com/cpu/clustering.shtml (date of access 14.07.2018). (In Russian)
2. Kharlamov B. P., Prourzin O. V. Computation of availability coefficient of two interchangeable aggregates" system. Bulletin of Civil Engineers. 2012. № 4 (33). Pp. 251-259. (In Russian)
3. Harlamov B. P., Prourzin O. V. On an interval of faultless work for a system of two independent alternating renewal processes. Journal of Mathematical Sciences. 2017. Vol. 225. No. 5. Pp. 818-832.
4. Linikova O. E. Monitoring servernogo oborudovanija i prilozhenij: magisterskaja dis. [Monitoring of server hardware and applications: master's dis.]. Ekaterinburg, 2014. 123 p. (In Russian)
5. Shardakov K. S. Comparative analysis of the popular monitoring systems for network equipment distributed under the GPL license. Intellectual Technologies on Transport. 2018. No. 1. Pp. 44-49. (In Russian)
6. IBM Tivoli - Integrated Management software. URL: http://www-01. ibm.com /software/tivoli /solutions/ (date of access 17.07.2018).
7. Arseniev V. N., Silantev S. B., Khomonenko A. D., Adadurov S. E. Definition Probabilities of Performance of the Problem of the Complex System at the Limited Volume of the Experimental Information. 2018 XXI IEEE International Conference on Soft Computing and Measurements (SCM 2018), St. Petersburg, 23-25 May 2018. St. Petersburg: ETU «LETI» Publ., 2018. Vol. 1. Pp. 43-46. (In Russian)
8. Jie M., Honlin Z., Wenbo X., Jin L. Reliability Testing Methods for Critical Information System based on State Random. 2011 International Conference on Information Communication and Management. IACSIT Press, Singapore. 2011. Vol. 16. Pp. 28-32.
9. Cai K.-Y., Caob. P., Dongc. Z., Liu. K. Mathematical modeling of software reliability testing with imperfect debugging. Computers and Mathematics with Applications. 2010. Vol. 59. No. 10. Pp. 3245-3285.
10. Cherkesov G. N. Nadezhnost' apparatno-programmnyh kompl-eksov [Reliability of hardware and software systems]. St. Petersburg: Piter, 2005. 479 p. (In Russian)
11. Polovko A. M., Gurov S. V. Osnovy teorii nadezhnosti [Fundamentals of reliability theory]. St. Petersburg: BHV-Peterburg, 2006. 704 p. (In Russian)
12. Shooman M. L. Reliability of Computer Systems and Networks. New York: Wiley, 2002. 546 p.
13. Rahman P. A. Model' nadezhnosti dvuhuzlovogo klastera vysokoj gotovnosti [Reliability model of a high-availability two-node cluster]. BugTrug.Biblioteka.Internals. 2014. 15 p. URL: https://bugtraq.ru/ library/internals/dualnodecluster.html (date of access 14.07.2018). (In Russian)
14. Mendiratta V. B. Reliability Analysis of Clustered Computing Systems. Proceedings of The Ninth International Symposium on Software Reliability Engineering. 1998. Pp. 268-272.
15. Lyu M.R., Mendiratta V. B. Software Fault Tolerance in a Clustered Architecture: Techniques and Reliability Modeling. In: Proc. of 1999 IEEE Aerospace Conference, (Snowmass, Colorado, 1999 March 6-13). 1999. Vol. 5. Pp. 141-150.
16. Klimanov V.P., Ermakov A. A. Kompleksnaja ocenka nadezhnos-ti setevogo klastera [Comprehensive assessment of the reliability of grid cluster]. Izvestija OrelGTU. Seriya: Informatsionnye siste-my i tekhnologii [Information systems and technologies]. 2008. No. 1-4/269(544). Pp. 201-207. (In Russian)
17. Bogatyrev V.A., Bogatyrev S. V. Association Reservation Servers in Clasters Highly Reliable Computersystem. Information systems and technologies. 2009. № 6. Pp. 41-47. (In Russian)
18. Xie M., Poh K. L., Da Y.S.. Computing System Reliability. Models and Analysis. New York, Boston, Dordrecht, London, Moscow: Kluw-er Academic Publishers, 2004. 308 p.
19. Smagin V. A. Osnovy teorii nadezhnosti programmnogo obespe-chenija [Fundamentals of the theory of software reliability]. SPb.: VKA im. A. F. Mozhajskogo, 2009. 355 p. (In Russian)
20. Gurov S. V. Analiz nadezhnosti tehnicheskih sistem s proizvol'ny-mi zakonami raspredelenij otkazov i vosstanovlenij. [Analysis of reliability of technical systems with arbitrary laws of distribution of failures and recoveries]. Kachestvo i nadezhnost' izdelij [Product quality and reliability]. 1992. No. 2 (18). 37 p. (In Russian)
21. Tyrva A.V., Khomonenko A. D., Bubnov V. P. Modeli nadezhnosti programmnogo obespechenija [Software reliability models]. St. Petersburg: Emperor Alexander I St. Petersburg State Transport University Publ., 2010. 40 p. (In Russian)
22. Karanta I. Methods and problems of software reliability estimation. Espoo: VTT Technical Research Centre of Finland, 2006. 57 p.
23. Bernstein J. B. Reliability Prediction from Burn-In Data Fit to Reliability Models. London: Academic Press. 2014. 108 p.
24. Denson W. The history of reliability prediction. IEEE Transactions on Reliability. 1998. No. 47(3-SP). Pp. 321-328.
25. Foucher B., Boullie J., Meslet B., Das D. A review of reliability pre-
diction methods for electronic devices. Microelectron Reliab. 2002. No. 42. Pp. 1155-1162.
26. Kajashev A.I., Rahman P. A., Sharipov M. I. Reliability analysis of redundant disk arrays. Vestnik UGATU. 2013. Vol. 17. No. (55). Pp. 163-170. (In Russian)
27. Elerath J. G. Reliability model and assessment of redundant arrays of inexpensive disks (RAID) incorporating latent defects and non-homogeneous Poisson process events. Ph. D. Dissertation. University of Maryland, 2007. 157 p.
28. Novikov A.N., Smagin V. A. Model' gotovnosti vosstanavlivaemoj tehnicheskoj sistemy s uchetom dostovernosti kontrolja sostojanija ee jelementov pri proizvol'nyh raspredelenijah vremeni do ih otkaza i vosstanovlenija [The model of readiness restorable technical system with consideration of reliability of monitoring the state of its elements with arbitrary distributions of time before they fail and recovery]. Trudy Voenno-kosmicheskoj akademii imeni A.F. Mozhajskogo [Proc. of the Military Space academy named after A. F. Mozhaisky]. 2016. No. 652. Pp. 198-203. (In Russian)
29. Markov A. S. Nechetkaja model' ocenki nadezhnosti i bezo-pasnosti funkcionirovanija programmnogo obespechenija po re-zul'tatam ispytanij [Fuzzy model of software reliability and safety evaluation based on test results]. Herald of the Bauman Moscow State Technical University. Series Instrument Engineering. 2011. No. S1. Pp. 151-146. (In Russian)
30. Foster I., Kesselman C., Tuecke S. The anatomy of the Grid: Enabling scalable virtual organizations. International Journal of High Performance Computing Applications. 2001. No. 15(2): Pp. 200-222.
31. Dai Y.-S., Yang B., Dongarra J., Zhang G. Cloud Service Reliability: Modeling and Analysis. URL: http://www.netlib.org/utk/peo-ple/JackDongarra/PAPERS/Cloud-Shaun-Jack.pdf (date of access 31.07.2018).
INFORMATION ABOUT AUTHORS:
Khomonenko A.D., PhD, Professor, Head of the Department of Information and Computing systems of Emperor Alexander I St. Petersburg state transport university, professor at the Department of mathematical and software of Military space academy of A.F. Mozhaysky; Blagoveshchenskaya E.A., PhD, Professor, Head of Department higher mathematics of Emperor Alexander I St. Petersburg state transport university;
Prourzin O.B., Senior lecturer of the Department Information and computing systems Emperor Alexander I St. Petersburg state transport university;
Andruk A.A. leading electronic engineer of the St. Petersburg data-processing center, post-graduate student of the Department of Information and computing systems Emperor Alexander I St. Petersburg state transport university.
For citation: Khomonenko A.D., Blagoveshchenskaya E.A., Prourzin O.B., Andruk A.A. Prediction of reliability of cluster computing system using semi-markov model of alternating processes and monitoring. H&ES Research. 2018. Vol. 10. No. 4. Pp. 72-82. doi: 10.24411/2409-5419-201810099 (In Russian)