Научная статья на тему 'Надежность дублированных вычислительных комплексов'

Надежность дублированных вычислительных комплексов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
281
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОТКАЗОУСТОЙЧИВОСТЬ / FAULT TOLERANCE / ДУБЛИРОВАННЫЙ КОМПЛЕКС / DUPLEX COMPLEX / РАЗДЕЛЕНИЕ НАГРУЗКИ / НАДЕЖНОСТЬ / RELIABILITY / КОЭФФИЦИЕНТ СОХРАНЕНИЯ ЭФФЕКТИВНОСТИ / FACTOR OF EFFICIENCY PRESERVATION / LOADING DIVISION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Богатырев Владимир Анатольевич, Башкова Светлана Андреевна, Беззубов Владимир Федорович, Полякова Анастасия Вячеславовна, Котельникова Елена Юрьевна

Предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, функционирующего в режиме разделения нагрузки, оценены коэффициент сохранения эффективности, стационарный и нестационарный коэффициенты готовности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Богатырев Владимир Анатольевич, Башкова Светлана Андреевна, Беззубов Владимир Федорович, Полякова Анастасия Вячеславовна, Котельникова Елена Юрьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Reliability of the duplex computer complexes

The Markov reliability model for the restored duplex computer complex functioning in a loading division mode is offered, stationary and non-stationary factors of readiness are estimated and factor of efficiency preservation as well.

Текст научной работы на тему «Надежность дублированных вычислительных комплексов»

УДК 681.3

НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ

КОМПЛЕКСОВ

В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов, А.В. Полякова, Е.Ю. Котельникова, И.Ю. Голубев

Предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, функционирующего в режиме разделения нагрузки, оценены коэффициент сохранения эффективности, стационарный и нестационарный коэффициенты готовности.

Ключевые слова: отказоустойчивость, дублированный комплекс, разделение нагрузки, надежность, коэффициент сохранения эффективности.

Введение

Обеспечение высокой надежности управляющих компьютерных систем требует введения избыточности [1-3], поэтому в таких системах в качестве базовых вычислительных средств используются дублированные вычислительные комплексы, зачастую объединяемые в кластеры [4-9]. В системах компьютерного управления дублированные комплексы функционируют либо в режиме параллельной работы, (каждый запрос направляется на обслуживание в два полукомплекса, результаты вычислений сравниваются), что повышает достоверность работы, либо в режиме разделения нагрузки, что позволяет повысить производительность, но может привести к потере результатов вычислений.

Структура дублированного комплекса

Рассмотрим дублированный (двухмашинный) комплекс (рис. 1), каждый из полукомплексов которого включает процессор (Р) и модуль памяти (М), реконфигурация системы осуществляется с использованием переключателя (8). В режиме разделения нагрузки по мере накопления отказов при реконфигурации возможен переход (деградация) от распределения запросов на обслуживание в два полукомплекса до их обслуживания одним полукомплексом, возможно, формируемым из исправного оборудования разных полукомплексов.

Рис. 1. Дублированный комплекс Марковская модель надежности дублированного комплекса

При построении марковской модели надежности восстанавливаемого комплекса в режиме разделения нагрузки будем считать, что известны интенсивности отказов Хр , Хт , ^ и восстановлений цр , цт , ц процессоров Р, памяти М и переключателя 8, причем восстановление проводится одним ремонтником после любого отказа.

Граф переходов для марковской модели надежности исследуемой системы приведен на рис. 2, на котором отказавшие узлы затемнены. Решение дифференциальных уравнений, составленных по графу переходов по рис. 2, позволяет найти вероятности всех состояний комплекса и в результате суммирования работоспособных состояний определить нестационарный коэффициент готовности (функцию готовности) комплекса [1]. Решение системы дифференциальных уравнений проведено в системе компьютерной математики МаШса^14 по методу Рунге-Кута. Представление системы дифференциальных уравнений в МаШса^14 по графу рис. 2 приведено на рис. 3, а результат ее решения отражен на рис. 4, а. Для нахождения стационарного коэффициента готовности комплекса составим систему алгебраических уравнений (приравнивая производные в правой части нулю). Результаты решения системы алгебраических уравнений представлены матрицей на рис. 4, б, при Хр=0,0001, Хт=0,0003, ^=0,0002 1/ч; цр=0,5, цт=0,5, ц^=0,5 1/ч. Сумммируя найденные вероятности работоспособных состояний, вычисляем коэффициент готовности (стационарный) комплекса.

Рис. 2. Граф переходов для марковской модели надежности системы

Р :=

Щ, Р) :=

-Р0Хэ - 2Р0Хр - 2Р0Хт + Р1Ц + Р2цр + Р3цт -2Р1Хр - 2Р1Хт - Р1Ц + Р0Хэ + Р4цр + Р5цт Р2цр - Р2Хр - 2(Р2Хт ) - 2РХэ + 2Р0Хр + Р9цр Р3цт - Р3Хт - 2(Р3Хр ) - Р3Хэ + 2Р0Хт + Р6цр + Р7цр + Р8цт

Р4цр - Р4Хр - 2Р4Хт + 2Р1Хр + Р2Хэ + Р12цр -Р5цт - Р5Хт - 2Р5Хр + 2Р1Хт + Р3Хэ + Р10цр + Р11цт + Р13цр Р6цр - Р6Хр - Р6Хэ - Р6Хт + Р2Хт + Р3Хр + Р14цт + Р15цр -Р7цр - Р7Хр - Р7Хэ - Р7Хт + Р2Хт + Р3Хр -Р8цт - Р8Хэ - Р8Хр + Р3Хт -Р9цр - Р9Х! - Р9Хт + Р2Хр -Р10цр - Р10Хр - Р10Хт + Р4Хт + Р5Хр + Р7Хэ -Р11цт - Р11Хр + Р5Хт + Р8Хэ = 0 -Р12цр - Р12Хт + Р4Хр + Р9Хэ -Р13цр - Р13Хт - Р13Хр + Р4Хт + Р5Хр + Р6Хэ + Р16цт + Р17цр -Р14цт - Р14Хр - Р14Хэ + Р6Хт + Р7Хт + Р8Хр + Р18цр -Р15цр - Р15Хт - Р15Хэ + Р6Хр + Р7Хр + Р9Хт -Р16цт - Р16Хр + Р10Хт + Р11Хр + Р13Хт + Р14Хэ + Р19цр -Р17цр - Р17Хт + Р10Хр + Р12Хт + Р13Хр + Р15Хэ -Р18цр - Р18Хэ + Р14Хр + Р15Хт -Р19ц р + Р16Хр + Р17Хт + Р18Хэ г := гkfixed(P, 0,100,1000, П) п := 0...1000

Рис. 3. Задание системы дифференциальных уравнений в Mathcad-14

Оценка коэффициента сохранение эффективности

Представляя каждый полукомплекс системой массового обслуживания типа М/М/1 [10], для работоспособных состояний системы найдем среднее время пребывания запросов.

Для исходного состояния (при отсутствии отказов) поток запросов распределяется на обслуживание в два полукомплекса и среднее время пребывания запросов в системе вычисляется как

т 0 =■

1 -ху/ 2'

где X - интенсивность потока запросов, а V - среднее время их выполнения.

Для состояний с обслуживанием запросов в одном полукомплексе (например, при отказе процессора какого-либо полукомплекса) среднее время пребываний запросов равно

Т1 - у

1 -ху

2=

0 1 г 3 4 5 6 7

0 0 1 0 0 0 0 0 0

1 0,1 0,99991222 601963-Ю"5 065864-10-5 133824-10-5 34776110-М 067583'10-9 87976-10-Ю

2 0,2 0,99982872 393475-10-5 586805-10-5 182331-10-5 554384-Ю^ 113963 701513 10^

3 0,3 0,99974931 576014-10-5 029958-10-5 108023'1С"4 821091-10-9 6602 58'10"9 876261 -10-9

4 0,4 0,99967377 731659-КН 839595-10-5 497164' 10^ 883137110^ 181026110"® 578827'10^

5 0,5 0,99960192 674946" 10^ 44382410-5 593615'Ю-4 152951'10-8 314686'10"3

N +

^ 0,9999999

+

N +

+ + + +

0,9999998

0,9999997

0,9999996

? 0,9999995

5 10 15 20

Время, ч

0,9932007609993440199 ^ 0,0005996393 52153969 55 591 0,00039372201391551 0,00079«00003®43318119в 7 5 363 7 7206 563261 е-" 9,5970912426926154222«-" 3,192639195353649011 бе-" Э,187£б2б2789725$2457о-7 3,191047177035695659е-3 7,9664 7 3504 5055 509С *6«-5 5,743704353547452702>-10 5,7523143404303505062«-Ю 1,4 349215 3497 771123 52«-1й 5,75 50575150471246С5«-! О 3,18913315бб55&79033б*-1й 1,59В 166150679735 7 5бе-10 7,6669435203323753931*-13 3,32565«524045794574?-13 1д74.3255005033251123ы3 ^ 3,529461517330424329^6 )

а

б

Рис. 4. Результат решения системы дифференциальных (а) и алгебраических уравнений (б) в системе

компьютерной математики МаШсаС-14

Для состояний с отказом модуля памяти одного полукомплекса и работы двух процессоров с одним модулем памяти (подключенным к одному процессору непосредственно через магистраль, а ко второму - через переключатель) среднее время пребывания запросов найдем как

Т пу ^ (1 - л)у5 з 1 - пХу 1 - (1 - л)ху5 '

где п - доля запросов, направляемых в полукомплекс с исправным процессором и памятью, а (1- п) - в полукомплекс с отказом модуля памяти; 5 - коэффициент, учитывающий замедление вычислений для процессора, работающего с памятью через переключатель (процессор, работающий с памятью своего полукомплекса, имеет больший приоритет).

Определив вероятности Рг всех N работоспособных состояний системы и вычислив нормированную эффективность г-го состояния относительно исходного состояния (без отказов), найдем коэффициент сохранения эффективности комплекса как

N

Т

^сэ = ^ Т° Р' .

г=0 Т

Проведем расчет коэффициента сохранения эффективности при Хр=0,0001, Хт=0,0003, Х=0,0002 1/ч; др=0,5, дт=0,5, ^=0,5 1/ч. Результаты расчета коэффициента сохранения эффективности системы от интенсивности запросов представлены на рис. 5. На рис. 5, а, при п=0,5 кривые 1-3 соответствуют 5=1; 1,5; 2. На рис. 5, б, при 5=2 кривые 1-4 соответствуют п=0,5; 0,6; 0,7; 0,8.

у

1

0

а б

Рис. 5. Коэффициент сохранения эффективности системы: кривые 1-3 соответствуют 6=1; 1,5; 2 при п=0,5 (а); кривые 1-4 соответствуют п=0,5; 0,6; 0,7; 0,8

при 6=2 (б)

Представленные зависимости показывают существенность влияния организации связи через адаптер (переключатель) на эффективность вычислительного процесса при накоплении отказов. Таким образом, для восстанавливаемых дублированных комплексов представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса.

Заключение

Таким образом, предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, позволяющая определить стационарный и нестационарный коэффициент готовности комплекса и оценить влияние накопления отказов на снижение эффективности системы.

Для восстанавливаемых дублированных комплексов показано влияние на эффективность вычислительного процесса распределения нагрузки при накоплении отказов. Таким образом, представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса, а также решение задачи оптимизации распределения нагрузки в частично работоспособных комплексах.

Литература

1. Половко А.М. Основы теории надежности. - СПб: БХВ Петербург, 2006. - 704 с.

2. Панфилов И.В., Половко А.М. Вычислительные системы. - М.: Советское радио, 1980. - 304 с.

3. Шубинский И.Б., Николаев В.И., Колганов С.К., Заяц А.М. Активная защита от отказов управляющих модульных вычислительных систем. - СПб: Наука, 1993. - 285 с.

4. Богатырев В.А. Отказоустойчивые многомашинные вычислительные системы динамического распределения запросов при дублировании функциональных ресурсов // Изв. вузов. Приборостроение. -1996. - № 4. - С. 81-84.

5. Богатырев В.А., Богатырев С.В. Анализ готовности многоуровневой коммуникационной подсистемы компьютерных систем кластерной архитектуры // Научно-технический вестник СПбГУ ИТМО. -2009. - № 1. - С. 88-94.

6. Богатырев В.А. Оптимальное резервирование системы разнородных серверов // Приборы и системы. Управление, контроль, диагностика. - 2007. - № 12. - С. 30-36.

7. Богатырев В.А. К анализу сохранения эффективности вычислительных систем с функциональной деградацией модулей // Приборы и системы. Управление, контроль, диагностика. - 2000. - № 12. - С. 68-70.

8. Богатырев В.А. Отказоустойчивость вычислительных систем с функциональной реконфигурацией // Приборы и системы. Управление, контроль, диагностика. - 2001. - № 11. - С. 51-53.

9. Богатырев В.А. Оценка вероятности безотказной работы функционально-распределенных вычислительных систем при иерархической структуре узлов // Изв. вузов. Приборостроение. - 2000. - № 3. -С. 67-70.

10. Клейнрок Л. Теория массового обслуживания. - М.: Машиностроение, 1979. - 432 с.

БЫСТРЫЙ ПОСЛЕДОВАТЕЛЬНЫЙ ЦЕЛОЧИСЛЕННЫЙ ДЕЛИТЕЛЬ ПО ОСНОВАНИЮ 4

Богатырев Владимир Анатольевич

Башкова Светлана Андреевна

Беззубов Владимир Федорович

Полякова Анастасия Вячеславовна

Котельникова Елена Юрьевна

Голубев Иван Юрьевич

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, профессор, Vladimir.bogatyrev@gmail.com

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студентка, sveta.bashkova@gmail.com

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, bezzubov-vf@yandex.ru

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студент, axel.denielt@gmail.com

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, elka842@yandex.ru

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, golubev@mail.ru

УДК 004.315.5

БЫСТРЫЙ ПОСЛЕДОВАТЕЛЬНЫЙ ЦЕЛОЧИСЛЕННЫЙ ДЕЛИТЕЛЬ

ПО ОСНОВАНИЮ 4

А. С. Румянцев

Разработан однотактовый блок нормализации делителя и делимого, занимающий немногим большую площадь по сравнению с последовательными (многотактовыми) блоками нормализации. Предложен метод определения ситуации переполнения при целочисленном знаковом и беззнаковом делении, позволяющий минимизировать площадь, занимаемую аппаратными ресурсами, и снизить их энергопотребление. Приведено сравнение различных архитектурных вариантов конвейеризации устройства делителя по основанию 4, которые используют разработанный одно-тактовый блок нормализации и предложенный метод определения ситуации переполнения.

Ключевые слова: целочисленное деление по основанию 4, нормализация делителя и делимого, переполнение при целочисленном знаковом и беззнаковом делении.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Введение

Целочисленное деление является одной из наиболее затратных операций в современных процессорах, так как деление обладает самым длительным временем выполнения среди всех базовых целочисленных арифметических операций [1]. Хотя операция деления встречается не так часто, как операции сложения и умножения, есть множество важных областей, которые используют эту операцию: системы рендеринга, искусственный интеллект, алгоритмы сжатия данных и т.д. [2]. Наиболее часто используется деление на основе повторов [3], так как деление на основе последовательного приближения [4] в большинстве случаев предполагает использование однотактового умножителя или даже нескольких однотак-товых умножителей. Использование большего основания при делении на основе повторов является очевидным способом ускорения операции деления [5], но этот подход увеличивает сложность аппаратной реализации и, как следствие, приводит к увеличению занимаемой площади, энергопотреблению и соотношения цена/производительность. На сегодняшний день представлено множество подходов к реализации деления на больших основаниях [6], но некоторые аспекты реализации все еще остаются не до конца исследованными, например, эффективный по площади и энергопотреблению метод определения ситуации переполнения при делении.

В настоящей работе разработан однотактовый блок нормализации делимого и делителя и предложен метод определения ситуации переполнения при делении для использования в каноническом устройстве делителя для 64/32-, 32/16- и 16/8-битных беззнаковых и знаковых целых чисел по основанию 4 (radix-4) [2, 3]. Разработанный блок нормализации позволяет выполнять нормализацию делимого и делителя за один такт, занимая при этом небольшую площадь в сравнении с последовательными блоками нормализации [7]. Предлагаемый метод определения ситуации переполнения при делении позволяет минимизировать площадь, занимаемую аппаратными ресурсами, и снизить их энергопотребление по сравнению с широко используемым на данный момент стандартным подходом [2, 6]. Кроме того, в работе приведено сравнение различных вариантов конвейеризации устройства делителя по основанию 4. Все рассмотренные варианты реализации устройства деления были верифицированы на корректность и синтезированы на библиотеку элементов TSMC LP120a 40 нм с использованием Synopsys DC и ICC.

i Надоели баннеры? Вы всегда можете отключить рекламу.