Научная статья на тему 'Алгоритм обеспечения отказоустойчивости бортовых вычислительных систем со структурно-временной избыточностью'

Алгоритм обеспечения отказоустойчивости бортовых вычислительных систем со структурно-временной избыточностью Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
377
93
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕСТОВЫЙ КОНТРОЛЬ / КОНТРОЛЬНАЯ ТОЧКА / БОРТОВАЯ ВЫЧИСЛИТЕЛЬНАЯ СИСТЕМА / TEST CONTROL / CONTROL POINT / ONBOARD COMPUTING SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Викторов Дмитрий Сергеевич

Разработан алгоритм обеспечения отказоустойчивости бортовых вычислительных систем с трехканальной архитектурой, который предполагает комплексное применение тестового контроля и восстановления по контрольной точке с различным доминированием в зависимости от количества исправных каналов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Algorithm Providing Fault Tolerance of Onboard Computing Systems with Structural and Time Redundancy

A algorithm to provide fault tolerance of onboard computing systems with three-channel architecture has been developed. It assumes complex application of test control and restoration by a control point with various domination depending on the number of serviceable channels.

Текст научной работы на тему «Алгоритм обеспечения отказоустойчивости бортовых вычислительных систем со структурно-временной избыточностью»

УДК 78.25.37.29

алгоритм обеспечения отказоустойчивости бортовых вычислительных систем со структурно-временной избыточностью

Д. С. Викторов,

канд. техн. наук, старший преподаватель Военная академия воздушно-космической обороны

Разработан алгоритм обеспечения отказоустойчивости бортовых вычислительных систем с трехканальной архитектурой, который предполагает комплексное применение тестового контроля и восстановления по контрольной точке с различным доминированием в зависимости от количества исправных каналов.

Ключевые слова — тестовый контроль, контрольная точка, бортовая вычислительная система.

Введение

Бортовые вычислительные системы (БВС) современных летательных аппаратов решают комплекс задач по навигации, управлению вооружением, обеспечению связи, диагностике, устранению отказов и состоят из большого количества программно-аппаратных компонентов. Элементная база БВС функционирует на предельных тактовых частотах. Это является причиной того, что интенсивность сбоев на порядок выше интенсивности отказов 10-9-10-10 1/с [1].

Отказоустойчивость БВС обеспечивается использованием разных видов избыточности: структурной, временной, функциональной, информационной, версионной [2, 3]. Наиболее распространена в БВС структурная избыточность, которая используется для парирования отказов. Комплексное применение структурной и временной избыточности позволяет распознавать и парировать не только отказы, но и сбои как программных, так и аппаратных компонентов. Это особенно важно для БВС летательных аппаратов, которым наряду с высокими требованиями к надежности и достоверности контроля функционирования присущи довольно жесткие ограничения на массогабаритные и энергетические характеристики.

Классические алгоритмы обеспечения отказоустойчивости, базирующиеся на структурной и временной избыточности, исследованы в работах [3-6] и др., однако их комплексному использованию уделялось недостаточно внимания. Данное обстоятельство обуславливает необходимость

разработки алгоритма обеспечения отказоустойчивости БВС на основе комплексного использования структурной и временной избыточности.

Алгоритм обеспечения отказоустойчивости БВС

При разработке алгоритма обеспечения отказоустойчивости БВС приняты следующие допущения:

1) поток отказов всех элементов схемы простейший, последствия сбоев ликвидируются либо мажоритарными органами, либо повторным счетом участка программы обработки информации;

2) отказ любого элемента средств мажоритиро-вания, диагностирования и реконфигурации ведет к отказу БВС;

3) интенсивности восстановления после отказов и сбоев являются неизменными;

4) восстановление сбившегося канала осуществляется путем повтора программы обработки информации с предыдущей контрольной точки (КТ), при этом КТ представляет собой периодически записываемое операционной системой в энергонезависимую память состояние всех полей основной памяти БВС.

Подобный подход применяется в большинстве известных работ по исследованию надежности программно-аппаратных комплексов [1-4].

Предлагаемый алгоритм обеспечения отказоустойчивости представлен на рис. 1. Сущность алгоритма заключаются в применении тестового контроля (ТК) и восстановления по КТ (для за-

■ Рис. 1. Алгоритм обеспечения отказоустойчивости БВС

щиты от сбоев) с различным доминированием в зависимости от количества исправных каналов.

Система начинает работу трехканальной конфигурации, при этом результатом вычислений является тот, который зафиксирован двумя каналами, а третий канал подвергается ТК. Если по результатам ТК канал признан исправным (сбой), то восстановление вычислительного процесса осуществляется по КТ путем повтора последнего фрагмента программы обработки информации.

При успешном восстановлении канала данные, характеризующие текущее состояние БВС из любого исправного канала, записываются в КТ восстановленного канала.

В случае идентификации ТК отказа канала БВС реконфигурируется в двухканальную архитектуру.

В двухканальной конфигурации осуществляется периодическое сравнение результатов обработки данных в каналах. При несовпадении ре-

зультатов вычислений оба канала прекращают обработку информации и предпринимается попытка восстановления обоих каналов по КТ путем ге-кратного повторения вычислений с предыдущей КТ. Если в результате этой операции удается получить одинаковые результаты вычислений в двух каналах, то БВС продолжает функционировать в двухканальной конфигурации (сбой в канале). В противном случае (отказ канала) оба канала подвергаются ТК в целях выявления отказавшего, который исключается из конфигурации, и БВС переходит на функционирование в одноканальной архитектуре.

Функционирование в одноканальной архитектуре предполагает наличие средств встроенного контроля для выявления неисправности канала. При получении сигнала от средств встроенного контроля о неисправности канала (сбой) осуществляется попытка его восстановления по КТ путем с-кратного повторения фрагмента программы обработки информации. Если средства встроенного контроля обнаружат, что неисправность ликвидирована, то БВС продолжит обработку информации. При исчерпании лимита повторов фрагмента программы БВС признается отказавшей.

Таким образом, комплексное применение ТК и восстановления по КТ с различным преобладанием в зависимости от количества исправных каналов дает возможность классифицировать неисправности как сбой и отказ, что позволяет избежать неоправданного расхода резервных ресурсов и, следовательно, повысить надежность БВС.

Модель надежности БВС при правильном определении вида неисправности

Проведем количественную оценку прироста надежности от применения предложенного выше алгоритма, для чего разработаем модели надежности БВС. При разработке модели примем дополнительное допущение об экспоненциальном законе распределения времени до отказа.

С учетом принятых допущений математическую модель, описывающую поведение БВС для предложенного алгоритма, можно выразить марковской цепью с непрерывным временем и следующими дискретными состояниями:

50 — БВС исправно функционирует в трехканальной конфигурации;

51 — БВС копирует данные, характеризующие текущее состояние трех исправных каналов в КТ;

Б2 — БВС восстанавливает неисправный канал по КТ;

53 — отказ одного канала;

54 — БВС исправно функционирует в двухканальной конфигурации;

55 — БВС копирует данные, характеризующие текущее состояние двух исправных каналов в КТ;

56 — БВС восстанавливает вычислительный процесс двух каналов по КТ;

57 — отказ второго канала;

58 — БВС исправно функционирует в одноканальной конфигурации;

59 — БВС копирует данные, характеризующие текущее состояние исправного канала в КТ;

510 — по сигналу от встроенных средств контроля БВС восстанавливает вычислительный процесс в канале по КТ;

511 — встроенные средства контроля БВС выявили неисправность канала и осуществляется попытка восстановить его функционирование путем с-кратного повторения вычислений с последней КТ;

512 — отказ БВС.

Граф переходов БВС, учитывающий интенсивности переходов, представлен на рис. 2.

В соответствии с методикой расчета марковских процессов имеем следующую систему уравнений:

P0 (*)/dt = —P0 (t) 3^сб —Ро (t) 3^отк —

- P0 (#)^кт + P1 (t)H-KT + P12 (#)Н-в3 + P2 (tKl;

P1 (t)/dt = -P1 (t)H-KT + P0 (#)^кт;

P2 (t)/dt = -P2 (t)H-Bl + P0 (t)3^c6;

P3 (t ydt = -P3 (t)H-TK + P0 (t)3^OTK;

P4 (t)/dt = —P4 (t)2^OTK — P4 (t)2^c6 —

— P4 (t)^KT + P3 (t)H-TK + P5 (t)H-KT + P6 (t)H-KT;

P5 (tVdt = —P5 (t)H-KT +P4 (t)^KT;

P6 (t)/dt = —P6 (t)^KT + P4 (t)2^сб;

P7 (t)/dt = P7 (Фв2 +P4 (t)2^OTK;

P8 (tУdt = —P8 (tУ^сб — P8 (tУ KT —

— P8 (tУ^отк — P8 (t)(1—1)(^сб + ^OTK ) +

+ P9 (t)H-KT + P10 (t)H-KT + P7 (t)^B2;

P9 (tydt = —P9 (t)^KT +P8 (t)^KT;

P10 (t)/dt = —P10 (t)H-KT +P8 (t)l^cá;

■ Рис. 2. Граф переходов БВС при правильном определении вида неисправности

Р11 (і)/^ = -Р11 ()с НКТ + Р8 ) ■^отк;

Рі2 ($)/& = —Р12 (#)ЦВ3 + Р8 (#)(1 - ■) X

х (^сб + ^ отк ) + Р11 (^)с^КТ,

где

1 11

Н-В1 = тт ; Нв2 = т +т ; Н-вЗ = т •

ТКТ +ТТК + ТКТ-КТ ТКТ +ТТК Тц

цв1 характеризует интенсивность восстановления трехканальной БВС и предполагает проведение ТК неисправного канала в целях определения вида неисправности, повтор фрагмента программы обработки информации с последней КТ и копирование данных, характеризующих состояние системы, из исправного канала в восстановленный.

дв2 описывает интенсивность восстановления двухканальной БВС и включает повтор фрагмента программы обработки информации с последней КТ и проведение ТК обоих каналов для выявления отказавшего.

цв3 характеризует интенсивность восстановления БВС после отказа последнего канала и предполагает рестарт системы.

В системе уравнений приняты следующие обозначения:

Р0 — вероятность безотказной работы БВС в трехканальной конфигурации;

Р1 — вероятность нахождения БВС в состоянии формирования КТ;

Р2 — вероятность возникновения сбоя в одном канале;

Р3 — вероятность отказа одного канала;

Р4 — вероятность безотказной работы БВС в двухканальной конфигурации;

Р5 — вероятность нахождения БВС в состоянии копирования КТ;

Р6 — вероятность возникновения сбоя в канале при функционировании БВС в двухканальной конфигурации;

Р7 — вероятность отказа канала при функционировании БВС в двухканальной конфигурации;

Р8 — вероятность безотказной работы БВС в одноканальной конфигурации;

Р9 — вероятность нахождения БВС в состоянии копирования КТ;

Р10 — вероятность возникновения сбоя в канале;

Р11 — вероятность восстановления функционирования канала путем с-кратного повторения вычислений с КТ;

Р12 — вероятность отказа БВС;

ТКТ — временной интервал, необходимый для формирования КТ;

ТТК — время, затраченное на тестирование канала;

ТКТ _ КТ — временной интервал между двумя соседними КТ;

Тц — время цикла обработки информации.

Решая систему уравнений, следует учитывать, что модель описывает все возможные состо-

П

яния БВС, а следовательно: = 1. Из систе-

І=1

мы уравнений можно вычислить вероятности нахождения БВС в любом возможном состоянии РДі). Для БВС летательных аппаратов представляет интерес оценка вероятности безотказной работы за время і, которая вычисляется по формуле

р(*)=Ер; (*)>

ІЄЕ

где Е — множество работоспособных состояний БВС, в которых система осуществляет обработку информации.

Предложенная модель предполагает применение идеальных по достоверности и безотказности средств встроенного контроля, что дает весьма приблизительные результаты при оценке безотказности.

Модель надежности БВС при ошибочном определении вида неисправности

Значительный рост тактовых частот привел к тому, что в ходе тестирования каналов может быть ошибочно классифицирован вид неисправности, т. е. сбой может быть воспринят как отказ и наоборот. Для учета ошибочной классификации вида неисправности в граф (см. рис. 2) добавлены следующие переходы:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

53 ^ 50 и 57 ^ 54, интенсивность которых Д2цТК (характеризуют такое состояние БВС, при котором ТК классифицировал отказ канала как сбой);

S2 ^ S4 и S6 ^ S8, интенсивность которых Д3цТК (означает, что ТК классифицировал сбой канала как отказ).

При этом граф переходов БВС с учетом ошибочной классификации вида неисправности примет вид, показанный на рис. 3. Дискретные состояния в данном графе аналогичны графу, представленному выше.

Фкт

■ Рис. 3. Граф переходов с ошибочным определением ТК вида неисправности

Принимая во внимание методику расчета марковских процессов, получим следующую систему дифференциальных уравнений:

Po(í)/dí = -Po(í)3^c6 -Po(í)3^OTK -P0 (í)^KT +

+ P1(tVKT + P3(t)D2^TK +P12(í)^b3 +P2(í)^b1;

P1 (t)/dt = -P1 (t)^KT +P0 (t)^KT;

P2 (t)/dt = -P2 (t)D1^Bl -P2 (t)D3^TK +P0 (t)3c6;

P3 (t)/dt = -P3 (t)\xTK +P0 (t)3^OTK;

P4 (tVdt = -P4 (t)2^oTK - P4 (t)2^c6 - P4 (t)^KT +

+ P3 (t)D1^TK +P2 (t)D3^TK +P5 (t)^KT +

+ P6 (t)^KT + P7 (t)D2^TK;

P5 (tVdt = -P5 (t)^KT +P4 (t)^KT;

P6 (tVdt = -P6 (t Wt - P6 (t)D3^TK + P4 (t)2c6;

P7 (tVdt = -P7 (t)D1^B2 - P (t)D2^TK + P4 (t)2oTK;

P8 (tVdt = -P8 (t)^c6 -P8 (t)^KT -P8(t)l^oTK -- P8 (t)(1-1)(^c6 +^otk) + P7 (t)D1^B2 + P6 (t)D3^TK + + P9 (t)^KT + P10 (t Wt ;

P9 (t)/dt = -P9 (t)H-KT +P8 (t)^KT;

P10 (t)/dt = -P10 (t Wt + P8 (t)l^c6;

P11 (tVdt = -P11 (t)c^KT + P8 (t)l^oTK;

P12 (0/dt = -P12 (ФвЗ + P8 (t)(1 -1) X

X (^c6 + ^ oTK )+ P11 (t)c^KT>

где D1 — вероятность правильной классификации неисправности ТК; D2 — вероятность того, что ТК классифицировал отказ как сбой; D3 — вероятность того, что ТК классифицировал сбой как отказ.

При моделировании значения переменных означают достоверность тестового контроля — D1, D2, D3 могут принимать значения 0 или 1.

В системе уравнений вероятности P0, P4, P8 характеризуют безотказную работу БВС в трехканальной, двухканальной и одноканальной кон-фигурациии соответственно.

Анализ системы уравнений позволяет предположить, что при увеличении ХКТ увеличиваются значения вероятностей P0, P4, P8 и БВС сохраняет работоспособность при любом количестве сбоев.

Результаты моделирования

Учитывая, что в работе рассматриваются БВС летательных аппаратов, безотказность которых лежит в диапазоне 0,9 -г- 0,999, в качестве показателя для оценки эффективности разработанного алгоритма целесообразно применять показатель — относительный выигрыш 5Q в снижении вероятности отказа:

■ Рис. 4. Зависимость относительного выигрыша в снижении вероятности отказа при: 1 — Б1 = 1, Б2 = 0, Б3 = 0; 2 Б1 = 0, Б2 = 1, Б3 = 0; 3 — Б! = 0, Б2 = 0, Б3 = 1

8Q — (ф0 — Я )/ Фо»

где Q — вероятность отказа БВС, реализующей предложенный метод структурно-временного резервирования; Q0 — вероятность отказа БВС, относительно которой определяется выигрыш в снижении вероятности отказа 5Q.

Следует учитывать, что БВС летательных аппаратов рассматриваются как невосстанавливае-мые системы, поэтому, согласно работам [2, 3], относительный выигрыш в снижении вероятности отказа целесообразно рассчитывать как

8Я — (Яо - (1-Р + Р4 + Р ]))/Яо.

В свою очередь, за Q0 примем вероятность отказа трехканальной БВС без ТК и восстановления по КТ, численные значения которых получены в работе [5].

На основании анализа данных об отказах и сбоях в БВС [1, 3] для моделирования были выбраны следующие базовые значения: Х0тК = 10-8 1/ч;

Хсб = 10 9 1/ч; ^кт = 103 1/ч; Дтк = 104 1/ч; Дкт = = 5 • 10-5 1/ч, ТКТ = 10-4 ч, ТКТ - КТ = 10-3 ч, ТТК = = 10-4 ч, Тц = 5 • 10-3 ч. Результаты моделирования зависимости относительного выигрыша в снижении вероятности отказа от времени эксплуатации при различной достоверности контроля представлены на рис. 4.

Результаты моделирования показали, что применение предложенного алгоритма повышения отказоустойчивости позволяет повысить (до 45 % по показателю 5Q) надежность трехканальных БВС со структурно-временной избыточностью.

Заключение

Предлагаемый алгоритм повышения отказоустойчивости ориентирован на идентификацию и парирование сбоев и отказов. Алгоритм может применяться в любых БВС с межканальными

связями. Для его реализации необходимо обеспечить синхронную работу каналов БВС. Все вышеперечисленное позволяет осуществить эффектив-

2.

3.

Литература

1. Kafka P. How Safe Is Safe Enough? // Proc. of 10th European Conf. on Safety and Reliability, Munich, Germany, 13-17 Sept. 1999. Vol. 1. P. 385-390. Харченко В. С. Модели и свойства многоальтернативных отказоустойчивых систем // Автоматика и телемеханика. 1992. № 12. C. 140-147.

Харченко В. С., Литвиненко В. Г., Терещенков С. В., Мельников В. А. Обеспечение устойчивости управляющих вычислительных систем к физическим дефектам и дефектам программирования програм-

ную практическую реализацию предложенного алгоритма при жестких ограничениях на массогабаритные и энергетические характеристики.

мно-аппаратных средств // Зарубежная радиоэлектроника. 1992. № 6. С. 18-35.

4. Доманицкий С. М. Построение надежных логических устройств. — М.: Энергия, 1971. — 212 с.

5. Викторов Д. С. Восстановление информации в системах сбора и обработки данных // Сб. материалов XXXV военно-научной конф. ВА ВКО. Секция № 8. 2006. С.32-41.

6. Черкесов Г. Н. Надежность программно-аппаратных комплексов. — СПб.: Питер, 2004. — 472 с.

уважаемые авторы!

Российская универсальная национальная электронная библиотека (РУНЭБ) начала реализацию проекта SCIENCE INDEX. После того как Вы зарегистрируетесь на сайте РУНЭБ (http://elibrary.ru/defaultx.asp), будет создана Ваша личная страничка, содержание которой составят не только Ваши персональные данные, но и перечень всех Ваших печатных трудов, имеющихся в базе данных РУНЭБ, включая диссертации, патенты и тезисы к конференциям, а также сравнительные индексы цитирования: РИНЦ (Российский индекс научного цитирования), h (индекс Хирша) от Web of Science и h от Scopus. После создания базового варианта Вашей персональной страницы Вы получите код доступа, который позволит Вам редактировать информацию, в том числе добавлять публикации, которых нет в базе данных РУНЭБ, помогая создавать максимально объективную картину Вашей научной активности и цитирования Ваших трудов.

i Надоели баннеры? Вы всегда можете отключить рекламу.