Научная статья на тему 'МЕТОД ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛЕНИЙ МАСШТАБИРУЕМЫХ СЕТЕВЫХ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ'

МЕТОД ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛЕНИЙ МАСШТАБИРУЕМЫХ СЕТЕВЫХ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
56
7
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фирсов Григорий Викторович

Материалы данной статьи посвящены описанию метода обеспечения отказоустойчивости сетевых бортовых вычислительных систем, построенного на базе алгоритма принятия консолидированного решения (АПКР). Рассматриваемый алгоритм основан на «парламентском» методе формирования итогового решения об изоляции отказавшей части системы, основанном на обмене «мнениями» о состоянии системы между узлами на каждом системном цикле. Разработана и реализована распределенная операционная система реального времени (РОСРВ), в которой в качестве ключевого механизма использован алгоритм принятия консолидированного решения. Приведено описание структуры и свойств разработанной операционной системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фирсов Григорий Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МЕТОД ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛЕНИЙ МАСШТАБИРУЕМЫХ СЕТЕВЫХ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ»

УДК. 004.052.3, 004.451.9

МЕТОД ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛЕНИЙ МАСШТАБИРУЕМЫХ СЕТЕВЫХ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ

СИСТЕМ

Г.В. Фирсов

Материалы данной статьи посвящены описанию метода обеспечения отказоустойчивости сетевых бортовых вычислительных систем, построенного на базе алгоритма принятия консолидированного решения (АПКР). Рассматриваемый алгоритм основан на «парламентском» методе формирования итогового решения об изоляции отказавшей части системы, основанном на обмене «мнениями» о состоянии системы между узлами на каждом системном цикле. Разработана и реализована распределенная операционная система реального времени (РОСРВ), в которой в качестве ключевого механизма использован алгоритм принятия консолидированного решения. Приведено описание структуры и свойств разработанной операционной системы.

Введение

Расширение области применения вычислительных систем (ВС), особенно для управления реальными объектами, значительно повысило требования к надежности их функционирования. Сбои и отказы в работе ВС, повлекшие за собой ошибочные результаты вычислений или отсутствие результатов, могут привести к непоправимым последствиям. Это особенно актуально для автономных летательных аппаратов (ЛА), таких, например, как космические аппараты, где техническое обслуживание системы во время выполнения задания невозможно. Применяемая при этом ресурсная избыточность используется для обнаружения неисправности в системе и маскирования обнаруженных ошибок.

В связи с этим у разработчиков вычислительных систем существует интерес к исследованию различных методов повышения надежности и их влияния на процесс функционирования ВС. Для проектирования подобных систем необходимо выяснить, в каких случаях имеет смысл наращивать избыточность вычислительной системы и до каких пределов это наращивание целесообразно, каково среднее время наработки на отказ системы с выбранной структурой и как наиболее эффективно использовать введенную избыточность для обеспечения требуемой отказоустойчивости.

Наряду с проектированием структур сетевых отказоустойчивых бортовых вычислительных систем (СО БВС) существует потребность в создании для них специализированного программного обеспечения, позволяющего эффективно управлять как ресурсами системы, так и уровнем ее отказоустойчивости.

Поэтому задача разработки и оценки аппаратных и программных средств повышения отказоустойчивости бортовых вычислительных систем является актуальной как в теоретическом, так и в прикладном аспектах, и эта актуальность возрастает по мере расширения сфер применения СО БВС.

1. Сетевые отказоустойчивые бортовые вычислительные системы (СО БВС)

Материалы данной статьи посвящены описанию метода обеспечения отказоустойчивости СО

БВС, построенного на базе алгоритма принятия консолидированного решения (АПКР). Используемый термин «бортовая вычислительная система» (БВС) понимается в традиционно принятом смысле:

БВС - это совокупность информационно взаимосвязанных и согласованно функционирующих вычислительных средств приема, передачи, хранения, обработки и выдачи информации, размещенных на борту подвижного объекта (транспортного средства, ЛА) и обеспечивающих преобразование входной информации в выходную в соответствии с размещенными в них программами реализации фиксированного набора функциональных задач объекта в реальном масштабе времени.

Определение «сетевая» используется в более узкой интерпретации, для обозначения некоторого подкласса ВС, которые характеризуются следующими свойствами:

- узлы сети представляют собой процессорные элементы (ПЭ) средней сложности, основные вычислительные ресурсы которых (производительность, объем памяти) позволяют реализовать на них несколько функциональных задач в реальном (требуемом) масштабе времени, а используемая для их создания технология хорошо отлажена, широко апробирована и относится к классу «хороших» по критерию «производительность/стоимость»;

- связи между узлами сети (ПЭ) представляют собой простейшие двунаправленные соединения «точка с точкой». Типичным примером такой связи являются линки сигнальных процессоров (TMS320C40x, ADSP-2106x, ADSP-TS1x, ADSP-TS2x). Каждый узел имеет несколько (2 - 6) таких связей, часть из которых может и не использоваться. Для связи с внешней информационной используются специальные адаптеры, подключаемые с одной стороны к внутренней шине ПЭ, а с другой - к системной информационной шине объекта. Такие адаптеры могут входить в состав процессорного элемента;

- топология сети может быть произвольной (в идеале - полносвязной) и фиксируется для каждого конкретного применения сети;

- сеть является однородной.

Такая трактовка термина «сетевая ВС» ни в коей мере не исключает другие толкования этого термина, применяемые ко всему многообразию сетевых ВС.

В данной статье рассматриваются только «необслуживаемые» СО БВС. Под необслуживаемыми СО БВС понимаются такие, для которых невозможно проведение технического обслуживания, замены или ремонта отказавших модулей.

Термин «отказоустойчивая ВС» используется в традиционной трактовке с некоторым его расширением за счет введения количественных оценок этого свойства системы - ранга и уровня отказоустойчивости системы [1, 2].

Вычислительная система является отказоустойчивой, если она способна продолжать выполнение всех запланированных или заранее оговоренных функций при возникновении в процессе функционирования хотя бы одного или множественных отказов ее составных частей. Под составными частями ВС понимаются процессорный элемент и межпроцессорная связь (линк).

Количественно отказоустойчивость ВС определяется двумя показателями: целочисленным рангом отказоустойчивости (ш!) и дробным уровнем отказоустойчивости (ш), причем m=mI+P [1].

Отказоустойчивыми системами являются БВС, имеющие уровень отказоустойчивости больший или равный единице. СО БВС с уровнем отказоустойчивости m «держит» (продолжает свое функционирование) mI отказов и с вероятностью (P=m - mI) еще один отказ.

Используемая для построения СО БВС сетевая технология позволяет рассматривать такие системы не только как отказоустойчивые (это лишь одна крайняя «точка» их применения), но и как высокопроизводительные, когда все множественные ресурсы системы используются с целью получения максимальной производительности (скорости) вычислений (это другая крайняя «точка» применения таких БВС).

Замечательной характеристикой рассматриваемых сетевых БВС является возможность их использования во всем диапазоне применений между упомянутыми выше крайними «точками»: от систем максимальной отказоустойчивости до систем максимальной производительности, ограничиваемых лишь размерностью используемой сети процессорных элементов.

2. Метод обеспечения отказоустойчивости сетевых БВС

Отказоустойчивость рассматриваемых сетевых БВС предлагается обеспечивать при помощи

метода, опирающегося на следующие положения:

1. В системе реализуется несколько функциональных задач. Требуемые для реализации любой задачи вычислительные ресурсы меньше ресурсов, располагаемых одним процессорным элементом, (т.е. в одном узле сети может быть размещено и реализовано несколько (все) ФЗ). На различных узлах сети размещаются несколько копий (версий) каждой функциональной задачи. Для СО БВС с рангом отказоустойчивости m необходима m+I копия каждой ФЗ. Копия ФЗ считается активной, если она выполняется в текущий момент, остальные копии ФЗ находятся в пассивном состоянии.

2. Функциональное взаимодействие ФЗ описывается графом информационной связности задач, задающий приемники и передатчики функциональной информации.

3. Поскольку СО БВС может иметь произвольную аппаратную топологию, в системе реализованы средства, позволяющие формировать маршруты передачи функциональной информации, а также перестраивать их в случае возникновения отказов.

4. На каждом системном такте активные копии каждой ФЗ выполняются, формируя несколько «копий» результатов, которые сравниваются на тех процессорных элементах, которые имеют активную копию соответствующей функциональной задачи.

5. Механизм локализации отказов линков и ПЭ, основанный на обмене результатами голосования, имеет программную реализацию.

6. При отказах процессорных элементов сети, на которых размещены активные копии задач, вместо них активизируются другие копии, ранее находившиеся в пассивном состоянии и размещенные на работающих ПЭ. Происходит перераспределение потоков информации (изменение маршрутов передачи информации в обход отказавшего ПЭ), и система сохраняет работоспособность.

7. Система продолжает функционирование в условиях нарушения связности и состояниях крайней степени деградации.

Основой метода обеспечения отказоустойчивости является разработанный алгоритм принятия консолидированного решения (АПКР). Рассматриваемый алгоритм базируется на «парламентском» методе формирования итогового решения об изоляции отказавшей части системы, основанном на обмене «мнениями» о состоянии системы между узлами на каждом системном цикле.

«Парламентский метод» управления сложными социальными системами (например, государством) часто приводит к негативным результатам по двум основным причинам: неоднородность (неравноправность) частей системы и отсутствие достоверной информации о состоянии этих частей. К счастью, в нашем техническом случае рассматриваются системы, лишенные этих недостатков.

2.1 Форма представления информации о состоянии системы

Основной задачей АПКР является получение корректного заключения о состоянии системы на

каждом системном цикле, в связи с чем возникает необходимость выбора информативной и компактной формы представления (хранения) информации о состоянии системы для ее дальнейшего обмена между узлами системы и последующего анализа. Подобной формой представления данных выбрана матрица состояния системы.

Каждый процессорный элемент имеет в своем составе две матрицы состояния: собственную и результирующую. Матрицы состояния имеют размерность N x N (где N - число ПЭ в системе) и содержат информацию о состоянии системы. Данные, характеризующие состояние процессорных

элементов, хранятся в диагональных элементах матриц состояния, линков - в недиагональных элементах. Собственная матрица состояния отражает состояние системы, формируемой данным ПЭ на основании собственной информации и информации, полученной от других ПЭ системы. Результирующая матрица состояния является результатом консолидированного решения -объединением собственных матриц состояния всех процессорных элементов системы.

В процессе функционирования РОСРВ в элементы собственной матрицы состояния заносятся предположения об отказах соответствующих элементов системы (ПЭ и линков). Значение «0» в элементе (^ j) матрицы состояния показывает, что нет информации о состоянии ьго ПЭ (при i=j) или линка между ьм и j-м процессорным элементами (при Значение, большее нуля в элементе О, j) матрицы состояния показывает, что соответствующий элемент системы функционирует нормально. Значение, меньшее нуля в элементе (^ j) матрицы состояния показывает наличие сбоя или отказа в соответствующем элементе системы. Значение, хранящееся в элементе (^ j) матрицы состояния показывает количество предположений об отказе соответствующего элемента системы.

Таблица 1

Пример собственной и результирующей ^ матриц состояния

ПЭ 1 2 3 4 5

1 0 0 0 0 0

2 0 0 0 0 0

3 0 0 1 1 0

4 0 0 1 1 -1

5 0 0 0 -1 -1

ПЭ 1 2 3 4 5

1 0 0 0 0 0

2 0 -1 1 -1 -2

3 0 1 2 1 -1

4 0 -1 1 1 -3

5 0 -2 -1 -3 -4

Матрица состояния является компактной и удобной формой для пересылки и анализа информации о работоспособности узлов системы.

2.2 Общая схема работы алгоритма принятия консолидированного решения

Параметрами алгоритма являются три величины: N - число процессорных элементов СО БВС,

m - ранг отказоустойчивости и T - число функциональных задач.

Поскольку для обеспечения отказоустойчивости СО БВС используется аппаратная и программная избыточность, то для поддержания требуемого ранга отказоустойчивости т в системе присутствует m+1 копия каждой функциональной задачи.

Процессорные элементы системы объединяются в группы по m+1, на которых размещены копии одной и той же ФЗ. Порядок размещения копий ФЗ и количество копий на каждом ПЭ зависят от т и представляет собой самостоятельную, достаточно интересную задачу, которая изучалась рядом авторов [2, 3] и в данной статье не рассматривается.

Общая схема взаимодействия базовых механизмов алгоритма приведена на рис. 1.

После решения функциональных задач осуществляются мероприятия по обнаружению фактов несовпадения результатов счета, т.е. сбоев. В случае обнаружения сбоя производится его локализация и идентификация. Если сбой носит постоянный во времени характер, то есть повторяется п раз (п = 3 ^ 5), то он классифицируется как отказ, и осуществляется изоляция отказавшей части системы. Данная процедура является одинаковой для всех процессорных элементов СО БВС. Основная задача алгоритма - гарантированно получить одинаковое заключение о неисправном элементе и характере проявления отказа во времени на всех ПЭ системы.

Рис. 1. Общая схема взаимодействия базовых механизмов алгоритма.

Чтобы обеспечить каждый ПЭ требуемой для принятия решения информацией о состоянии системы, потребовалось использование специального протокола обмена.

2.3 Протокол обмена

Каждый системный цикл работы СО БВС разбит на две части: решение функциональной задачи и получение информации о состоянии системы.

Для однозначной локализации отказа требуется произвести как минимум два раунда обмена. В первом раунде осуществляется обмен результатами решения функциональных задач. Полученные результаты решений совместно с собственным результатом решения ФЗ являются основой для функционирования процедуры голосования, которая является реализацией механизмов обнаружения и локализации отказа. Второй раунд обмена необходим для обеспечения процесса принятия всеми (кроме неисправных) узлами СО БВС одинакового решения. Поскольку решение об отказе принимается на основе информации, содержащейся во всех ПЭ вычислительной сети, то такое решение называется консолидированным. Это и отражено в названии рассматриваемого алгоритма.

Обмен между ПЭ осуществляется при помощи информационных посылок. Каждая информационная посылка содержит заголовок и тело. В заголовке находится служебная информация: источник и направление передачи данных, размер данных, содержащихся в теле посылки, а также контрольная сумма посылки. В теле информационной посылки содержатся результаты решения функциональной задачи или результаты функционирования процедуры голосования. Подобная структура информационной посылки позволяет обнаруживать сбои в каналах связи на этапе обмена данными.

2.4 Обнаружение и локализация отказа

Реализаций механизмов обнаружения и локализации отказа является процедура голосования,

осуществляемая после получения результатов счета на очередном цикле работы. Под процедурой голосования понимается совокупность элементарных проверок (сопоставлений результатов) независимых решений копий задачи (или фрагмента задачи) в группе из m+1 ПЭ. По результатам сравнения формируется собственная матрица состояния.

В конце первого раунда обмена собственная матрица состояния содержит информацию о подгруппе процессорных элементов, которые участвовали в обмене. Отказы линков диагностируются на этапах приема данных (в процессе обмена результатами решений и результатами голосования). Обнаружение отказов линков основано на проверке достоверности пакета (при помощи контрольной суммы пакета) и контроле верхнего предела времени доставки пакета (если пакет по линку ^ не доставлен в отведенное для него время, данный линк считается отказавшим).

По окончании процедуры голосования осуществляется второй раунд обмена, в котором процессорные элементы обмениваются собственными матрицами состояния. По окончанию обмена формируется результирующая матрица состояния, в каждой ячейке которой содержится вес элемента системы. Вес элемента представляет собой число голосов всех ПЭ системы в пользу

правильности (или неправильности) функционирования данного узла. Численно вес узла системы принимает значения от -К до N. Положительный вес элемента сигнализирует о правильности его функционирования, отрицательный - о его неисправности. Пересечение множества собственных матриц состояния для каждого ПЭ образует подмножество элементов с максимальным отрицательным весом - подмножество отказавших элементов.

Отказы процессорных элементов и каналов связи возможны и во время проведения второго раунда обмена. В этом случае информация о возникших неисправностях добавляется в собственную матрицу состояния на этапе приема результатов голосования.

Формирование результирующей матрицы состояния завершает процедуру локализации отказа. Вычисленный отказавший элемент является одинаковым для каждого ПЭ системы.

Ниже приведена интерпретация алгоритмом АПКР признаков возможных аппаратных сбоев СО БВС:

1. Несовпадение данных при элементарной проверке (сравнении) результатов счета на очередном цикле диагностируется, как отказ ПЭ или канала связи этого ПЭ.

2. При несовпадении данных при элементарной проверке результатов счета, полученных с использованием транзитной передачи, под сомнение ставится вся цепочка, задействованная при передаче.

3. При несовпадении ни одного результата счета под сомнение ставится все участвовавшие в обмене ПЭ и связи.

4. Отсутствие посылки или тайм-аут при приеме данных трактуется как сбой ПЭ или канала связи ПЭ.

5. Несовпадение контрольной суммы посылки трактуется как сбой канала связи ПЭ.

6. Неверный заголовок посылки трактуется как сбой канала связи ПЭ.

2.5 Идентификация отказа

Для определения частоты проявления сбоя во времени используется специальный системный

журнал, называемый «историей сбоев». Для каждого локализованного отказа формируется запись, которая заносится в «историю сбоев». Каждая запись содержит информацию о такте обнаружения отказа и о неисправном элементе.

Процесс идентификации отказа заключается в анализе системного журнала за определенный промежуток времени. Результат анализа позволяет сделать вывод о характере проявления отказа во времени: постоянный, перемежающийся или случайный (сбой). Постоянным считается отказ, который локализуется в одном и том же узле СО БВС как минимум три системных цикла подряд.

Дальнейший вызов процедуры парирования отказа производится лишь в случае идентификации постоянного отказа, поскольку все остальные типы отказов «маскируются» за счет

использования аппаратного резервирования. К процедуре идентификации, использующей системный журнал, предъявляются требования высокой скорости работы и малой ресурсоемкости.

Процедура идентификации отказа играет важную роль в процессе обеспечения отказоустойчивости, поскольку от точности ее работы зависит дальнейшее парирование отказа. А от своевременности парирования отказа, в свою очередь, зависит правильность функционирования всей СО БВС.

2.6 Особенности алгоритма принятия консолидированного решения

Разработанный алгоритм принятия консолидированного решения имеет следующие особенности:

1. Алгоритм обеспечивает обнаружение, локализацию, идентификацию и парирование отказов не только процессорных элементов, но и межпроцессорных связей (линков).

2. Поведение алгоритма в условиях невозможности однозначной локализации отказа подчиняется оптимистической стратегии «потери наименьшего ресурса». В соответствии с этой стратегий в случае, когда мощность подмножества отказавших элементов имеет значение большее единицы, отказавшим полагается «наименьший» по важности потери для СО БВС ресурс. При выборе ПЭ/линк, наименьшим ресурсом считается линк.

3. В случае если отказ процессорного элемента или линка приводит к разделению топологии СО БВС на изолированные группы, определяется исключаемая группа ПЭ. Исключаемой группой является группа с меньшим числом ПЭ, при равенстве ПЭ в группах - группа с большей связностью элементов. При полной идентичности изолированных групп исключается группа, включающая элемент с максимальным номером в системе.

3. Распределенная операционная система реального времени

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Реализация предложенного метода обеспечения отказоустойчивости СО БВС обеспечивается

специальными средствами системного программного обеспечения - распределенной ОС реального времени (РОСРВ). Одной из важных особенностей РОСРВ, рассматриваемого класса БВС является возможность ее настройки для конкретной области использования, с заданными параметрами эксплуатации (уровень отказоустойчивости, производительность) в условиях ограниченности потребляемых ресурсов на обеспечение своего функционирования. При этом настройка системы на любую разновидность применения осуществляется без каких-либо аппаратных переключений и переделок на программно-логическом уровне путем изменения своих системных таблиц распределенной операционной системы.

В соответствии с концепцией модульности внутренняя структура РОСРВ представляет собой набор модулей, объединенных информационно и логически. Модуль является функционально законченной структурной единицей, реализуя какой-либо механизм РОСРВ (например,

маршрутизацию данных в вычислительной сети ПЭ или процедуру реконфигурации системы в случае обнаружения отказа). Каждый модуль предоставляет другим модулям собственный интерфейс управления. Такой принцип построения РОСРВ обеспечивает ей свойство открытости, а именно - возможность изменять ее структуру и перечень выполняемых функций путем добавления или удаления отдельных модулей без изменения или с минимальными изменениями заранее предусмотренных фрагментов других модулей. Структура РОСРВ представлена на рис. 2.

¡аддёоа паудипое

1аб0б66ёда6Тб -*-

_Ж_I_

Ваём6ёа6ба6Тб

бааёёоа дапдаааёа'еу ёиёё

од П1У

Рис. 2. Структура РОСРВ.

Цветом на рис. 2 отмечены модули, которые используются в РОСРВ в режиме моделирования. Сплошные стрелки на рисунке 2 определяют направление передачи информации между модулями, а штрихпунктирные линии определяют направление передачи управления в процессе функционирования РОСРВ. Основными модулями РОСРВ являются диспетчер функциональных задач, коммуникатор, маршрутизатор, модуль голосования, модуль анализа отказов и реконфигуратор.

Логика работы РОСРВ обеспечивается алгоритмом принятия консолидированного решения, как ключевым механизмом обеспечения отказоустойчивости вычислений.

Диспетчер ФЗ в соответствии с вектором ФЗ осуществляет переключение функциональных задач в процессе работы РОСРВ. Результаты решения пересылаются другим ПЭ при помощи коммуникатора, который также отвечает за прием и получение следующей информации: значения локального времени в процессе синхронизации, результатов голосования, системных командных

бааёёба даппйёёё

АаёдТд Од

Ем^ёёабТб

Аётаб^аб О?

¡аддёой птд1у'!ёу

Ваддейдад ётёёаёдааш!

1Та6ёи а!аёёда ТбёадТа

-га

О «ГО

I

-га -о «с

«с

о «о ;га

Ваддейдади да0а'1ёу Од

к системе удаленного управления и мониторинга

посылок, а также входных и выходных данных функциональных задач. Отсылка производится в соответствии с таблицей рассылки, которая формируется маршрутизатором на основании информации об аппаратной связности системы, задаваемой матрицей связности.

Модуль голосования инициируется, когда принятых от других ПЭ результатов решения достаточно для проведения процедуры голосования. Результаты голосования заносятся в собственную матрицу состояния, которая используется модулем анализа отказов для вынесения решения о состоянии системы в текущем такте. Собственная и результирующая матрицы состояния формируются на основе внутренней информации о ПЭ, а также на основе информации полученной от других процессорных элементов. Процедура получения решения о состоянии системы одинакова для всех ПЭ.

Поскольку верное решение о состоянии системы может быть принято лишь на основании информации от всех ПЭ СО БВС, такое решения называется консолидированным, а процедура его получения описывается алгоритмом принятия консолидированного решения. На основании результатов консолидированного решения (в случае возникновения отказа в каком-либо элементе) модуль реконфигурации производит изменение в конфигурации системы (изменяется матрица связности, производится перерасчет таблицы рассылки, изменение вектора функциональных задач и таблицы распределения копий ФЗ по процессорным элементам).

Планировщик системного цикла осуществляет стратегию формирования управляющего цикла на каждом такте функционирования РОСРВ. Состав управляющего цикла, количество и длительность его фаз зависят от следующих параметров:

- режима функционирования РОСРВ (штатный или режим моделирования);

- режима работы модуля голосования;

- дисциплины диспетчеризации.

Проверка корректности функционирования алгоритма принятия консолидированного решения в составе РОСРВ осуществлялось при помощи стенда-макета СО БВС [4]. При проверке корректности работы АПКР использована пошаговая отладка РОСРВ, отработка типовых и исключительных сценариев деградации системы, а также стохастическое моделирование потока отказов.

На основании полученных при помощи стенда-макета результатов [5] разработана методика оценки эффективности использования РОСРВ для обеспечения отказоустойчивости СО БВС, учитывающая рост потребляемых РОСРВ вычислительных ресурсов в случае учета отказа линков. Полученные критерии оценки могут быть успешно использованы для развития методики сравнительного анализа сетевых отказоустойчивых БВС.

Предложенная концепция построения РОСРВ обеспечивает разработчику целевого объекта возможность выбора различных вариантов использования РОСРВ с точки зрения времени жизни

системы. Раздельный учет отказов процессорных элементов (ПЭ) и линков является более дорогостоящим с точки зрения потребляемых ресурсов, однако позволяет получать значительный прирост среднего времени наработки системы на отказ (до 17%).

Заключение

Предложенный метод обеспечения отказоустойчивости обладает свойством масштабируемости по параметрам N (число процессорных элементов в системе) и т (ранг отказоустойчивости), обеспечивая отказоустойчивость вычислений БВС с широким спектром технических характеристик. Использование в алгоритме принятия консолидированного решения (базовой составляющей метода) компактных матриц состояния и информационно-емких сообщений в процессе обмена позволило значительно снизить ресурсопотребление алгоритма, обеспечив получение корректного, одинакового для всех ПЭ заключения о состоянии системы по результатам всего двух раундов обмена.

Реализация предложенного метода обеспечения отказоустойчивости вычислений СО БВС средствами РОСРВ позволяет учитывать то факт, что СО БВС может функционировать в двух режимах (в части изоляции отказавших элементов средствами РОСРВ). В первом (простейшем) варианте при отказах осуществляется изоляция процессорного элемента со всеми его линками. Во втором (более сложном варианте работы РОСРВ) при отказах изолируются либо ПЭ, либо линки, то есть более экономно «растрачиваются» аппаратные ресурсы СО БВС.

Способ построения РОСРВ обеспечивает разработчику целевого объекта возможность выбора различных вариантов использования РОСРВ с точки зрения времени жизни системы. Раздельный учет отказов процессорных элементов (ПЭ) и линков является более дорогостоящим с точки зрения потребляемых ресурсов (до 8%), однако позволяет получать значительный прирост среднего времени наработки системы на отказ (до 17%).

Предложенный метод позволяет сетевым БВС достигать максимальных значений уровня отказоустойчивости, что делает особенно актуальным использование данного метода (и его программной реализации - РОСРВ) в БВС тех систем, для которых важнейшим параметром функционирования является максимальный срок жизни системы. В качестве подобных целевых систем можно указать, например, искусственные спутники земли и автоматические межпланетные станции, выполняющие задачи по изучению дальнего космоса, системы управления воздушным и наземным транспортом, современные телекоммуникационные системы и системы управления базами данных, а также ряд вычислительных систем, обеспечивающих работу медицинских учреждений, фондовых бирж, банков и промышленных предприятий.

Список литературы

1. Белоусов Ю.А. Отказоустойчивые бортовые вычислительные системы. Классификация и оценка технических характеристик // Авиакосмическое приборостроение.- 2004, №11. с. 17-24.

2. Турута Е.Н. Концепция и методы обеспечения отказоустойчивости параллельных вычислительных систем, выполняющих фиксированные комплексы задач.: дис. д.т.н. //Институт проблем управления.-М.: 1996.- 182 с.

3. Интегрированная адаптивная толерантная информационно-вычислительная среда бортового базирования. Отчет о НИР / ВНТИЦ; Руководитель Брехов О.М.; № ГР 01980003453.- М.: 1997.- 88 с.

4. Фирсов Г.В. Разработка стенда-макета сетевой отказоустойчивой бортовой вычислительной системы// Тезисы доклада XIV международного научно-технического семинара «Современные технологии в задачах управления, автоматики и обработки информации», сентябрь 2005 г. Алушта. - М.: 2005.- с. 266-267.

5. Пошибалов Е.В., Фирсов Г.В. Принципы моделирования сетевых отказоустойчивых бортовых вычислительных систем на стенде-макете// Тезисы доклада XIV международного научно-технического семинара «Современные технологии в задачах управления, автоматики и обработки информации», сентябрь 2005 г. Алушта. - М.: 2005.- с. 262-263.

Сведения об авторе

Фирсов Григорий Викторович, аспирант кафедры вычислительных машин, систем и сетей Московского авиационного института (государственного технического университета); E-mail: inca@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.