Научная статья на тему 'Организация и проектирование высоконадежных вычислительных систем'

Организация и проектирование высоконадежных вычислительных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
366
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНЦЕПЦИЯ МНОГОУРОВНЕВОГО РЕАГИРОВАНИЯ / ДОМЕННАЯ ОРГАНИЗАЦИЯ / ИНФОРМАЦИОННЫЕ ОТКАЗЫ / САМОВОССТАНОВЛЕНИЕ / ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Глухих Михаил Игоревич, Максименко Сергей Леонидович, Мелехин Виктор Федорович, Филиппов Алексей Семенович

Изучена концептуальная модель построения высоконадежных вычислительных систем реального времени, учитывающая особенности архитектуры и иерархической организации вычислительных процессов в рассматриваемом классе систем, характер воздействий на вычислительные процессы потоков сбоев и отказов аппаратного обеспечения, состояние современной элементной базы, методов, технологии и инструментальных средств проектирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Глухих Михаил Игоревич, Максименко Сергей Леонидович, Мелехин Виктор Федорович, Филиппов Алексей Семенович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The conceptual model of creation of highly reliable computing systems of the real time, considering singularities of architecture and hierarchical arrangement of calculating processes in a considered class of systems, character of influences on calculating processes of flows of failures and failures of hardware support, a state of the modern element basis, methods, technology and work benches of designing is considered

Текст научной работы на тему «Организация и проектирование высоконадежных вычислительных систем»

УДК 681.3

М.И. Глухих, С.Л. Максименко, В.Ф. Мелехин, А.С. Филиппов

организация и проектирование высоконадежных вычислительных систем

Основные общетехнические показатели вычислительных систем (ВС) - производительность, стоимость и надежность. Показатель надежности наиболее трудно оценивать при синтезе и анализе, поскольку он зависит от большого числа факторов, многие из которых на этапе проектирования трудно оценить. В то же время от надежности зависят такие показатели систем, как качество, эффективность, безопасность, готовность, живучесть. Актуальность повышения надежности систем на этапе проектирования возрастает. Это объясняется, с одной стороны, возрастанием «цены отказа» системы, особенно в ряде специальных применений. С другой стороны, имеется ряд факторов, снижающих надежность системы. Здесь следует отметить постоянное возрастание сложности систем. Кроме того, по мере совершенствования технологии производства интегральных схем снижается энергия переключения вентиля и растет быстродействие. При этом элементы становятся все более чувствительными к воздействию элементарных частиц. Поток элементарных частиц даже при естественном фоне радиации становится весьма опасным для современных элементов, выполняемых по нанотехнологии и субмикронной технологии. Особенно это опасно при специальных применениях систем. Все это требует разработки методологии организации и проектирования ВС с учетом требований к надежности и, в частности, радиационной стойкости.

Проблема организации и проектирования высоконадежных систем связана с необходимостью выполнения большого числа противоречивых требований и учета большого числа разнородных факторов. При этом и требования, и факторы, ограничивающие возможности решений, а также средства и методы проектирования находятся в постоянном развитии. Поэтому рассматриваемая проблема относится к числу комплексных и сложных. При решении этой проблемы на передний план выдвигаются системотехнические и схемотехнические задачи,

связанные с введением и использованием дополнительных функций, предназначенных именно для обеспечения безопасности и повышения надежности. Задачи анализа надежности и оценки ее показателей носят вспомогательный характер и рассматриваются как средство, позволяющее выбирать перспективное направление при синтезе системы.

Цель статьи - на основе обобщения полученного опыта и результатов исследований сформировать концептуальную модель организации и проектирования высоконадежных вычислительных систем.

Класс рассматриваемых систем.

Требования к разрабатываемой методологии проектирования

Под высоконадежными будем понимать класс ВС, при организации и проектировании которых для повышения надежности использована структурная, информационная и временная избыточность. Повышение надежности системы заключается в увеличении времени непрерывного выполнения своих функций при наличии потока сбоев (восстанавливаемых отказов) и потока не-восстанавливаемых отказов, а также в обеспечении требования безопасности.

Другой признак, по которому ограничим множество рассматриваемых систем, связан с назначением и условиями функционирования. Наиболее актуальна высокая надежность и безопасность ВС при их использовании для управления в технических системах. Такие системы, как правило, относятся к системам реального времени (СРВ).

Рассмотрим основные особенности процессов в таких системах. Процессы, связанные с получением информации о состоянии объекта, выполнением алгоритмов управления и формированием управляющих воздействий, циклически повторяются. Каждый цикл соответствует определенному кванту времени, предельно допустимое значение которого зависит от инерционности объекта

управления. При проектировании обеспечивается определенный временной запас в каждом цикле, что можно рассматривать как определенный ресурс временной избыточности.

Отказ ВС в СРВ может привести к аварии, если искаженная управляющая информация поступит на исполнительные органы в объекте управления. При организации и проектировании ВС необходимо учитывать требование безопасности системы, заключающееся в блокировке распространения отказа и исключении аварии. Для осуществления требования безопасности системы в ней непрерывно должны выполняться дополнительные функции контроля возникновения отказов и блокировки их распространения. Для этого при проектировании необходимо предусмотреть структурную избыточность.

Изучим архитектурные ограничения на класс рассматриваемых систем. В качестве основного прототипа при проектировании высоконадежных ВС рассмотрим наиболее распространенные в настоящее время ВС с магистрально-модульной организацией.

Информационную избыточность изучим применительно к проектированию устройств основной памяти и интерфейсов.

Технологические ограничения на класс рассматриваемых систем. Рассмотрим методологию проектирования в базисах FPGA/ASIC и систем на кристалле.

Как обязательное требование к методологии проектирования высоконадежных ВС примем возможность использования готовых выверенных решений наиболее распространенных и технологически освоенных средств и методов: IP модулей типовых процессоров (верифицированные HDL описания), типовых СБИС основной памяти, стандартных интерфейсов взаимодействия устройств и блоков.

Обязательное требование рассматриваемой методологии - возможность использования имеющихся развитых инструментальных средств автоматизированного проектирования:

Altera® QuartusII®; (FPGA Cyclone®, Stratix®);

Xilinx® ISE; (FPGA Spartan®; Virtex®);

Mentor Graphics PADS®; ModelSim®; MWO; P-SPICE®;

National Instruments LabView®;

MatLab/Simulink;

Cadence Virtuoso. Cadence GPDK.

Доменная организация структур вычислительных систем

В [1] исследованы подходы к синтезу структур высоконадежных ВС. В основу положены результаты анализа процессов распространения информационных отказов в ВС. Рассмотрены вопросы организации таких структур ВС, в которых блокируется распространение информационного отказа и обеспечивается работоспособность системы. Определен наиболее перспективный тип структур по комбинированному критерию надежности, безопасности и стоимости с учетом современного состояния технологий изготовления элементов и устройств. Такие структуры названы доменными. Домен - это блок, способный сдерживать процесс распространения отказов. Обоснован оптимальный состав домена с точки зрения надежности - набор независимых узлов домена с мажоритарным блоком на входе и древообразной структурой. Доказана возможность разделения структуры ВС на домены. Доменная структура обеспечивает маскирование возникающих сбоев и получение информации о сбоях и отказах. С использованием результатов, полученных в [1], проводились дальнейшие исследования, направленные на разработку методологии организации и проектирования таких систем.

Информационные отказы в ВС.

Возможности восстановления

ВС представляет собой сеть логических элементов. Информационные процессы заключаются в формировании и распространении сигналов по сети. Информационный отказ (случайное изменение логического значения) может возникнуть как следствие искажения электрического уровня сигнала. Сигнал представлен уровнем напряжения. Под действием внешних факторов сигналы, распространяющиеся по сети, подвержены искажениям. Причиной может быть помеха в линии связи из-за электромагнитных, электростатических воздействий и помеха по цепям питания. Изменение сигнала может быть вызвано также изменением состояния вентиля в ЛЭ, например, из-за действия элементарных частиц на полупроводниковую структуру.

Из теории проектирования ВС известно, что наиболее защищенными от помех являются линии связи внутри кристалла интегральной схемы. Поэтому использование при проектировании систем

наиболее совершенных СБИС обеспечивает не только повышение быстродействия и уменьшение стоимости, но и повышение надежности. Однако по мере снижения проектной нормы при изготовлении СБИС и роста уровня интеграции уменьшается и энергия переключения вентилей [2]. Поэтому возрастает чувствительность ЛЭ к воздействию элементарных частиц, в частности, связанных с радиацией. При этом, судя по опубликованным результатам исследований, значительно чаще (в тысячи раз) происходит изменение информационного состояния ЛЭ (сбой), чем невосстановимый отказ элемента [3, 4].

Для изучения проблемы повышения надежности ВС существенно рассматривать возможности восстановления информационных отказов в процессе работы системы. Искажение сигнала, связанное с информационным отказом, приводит к нарушению хода вычислительного процесса, если это искажение фиксируется памятью. Это событие можно рассматривать как искажение функции перехода из одного состояния системы в другое. С таким представлением о потоке событий искажения вычислительного процесса при функционировании системы связана постановка двух задач, которые должны быть решены при проектировании отказоустойчивой ВС.

Первая задача - выявление и маскирование неправильного перехода из одного состояния в другое. Это возможно, если организовать параллельно протекающие дублирующие процессы с непрерывным контролем и управлением, зависящим от результатов контроля. Такой подход известен [5]. Требуется, как минимум, трехкратное резервирование и мажорирование результатов трех экземпляров вычислительных процессов.

Вторая задача - восстановление процесса, искаженного вследствие сбоя. Для осуществления этого имеются необходимые условия.

• Аппаратура, в которой протекает искаженный экземпляр процесса, исправна. Искажена только информация.

• Для восстановления искаженного экземпляра процесса есть ресурс времени. Это интервал времени, в течение которого с заданной вероятностью отказ не произойдет в «исправных» экземплярах процессов. Этот интервал можно оценивать с использованием известных в теории надежности методов.

• Имеется «запас» резервного времени «исправных» процессов в цикле работы, который

можно использовать для выполнения исправными процессами дополнительной функции восстановления искаженного процесса (копирование состояния в определенной точке процесса, синхронизированный запуск с этой точки и др.).

Иерархическая организация и цикличность вычислительных процессов.

Эффекты самовосстановления

Для решения задач, связанных с восстановлением, важно учитывать иерархическую и циклическую организацию процессов в ВС реального времени.

Рассмотрим основные уровни организации, начиная «снизу».

1. Уровень регистровых передач. На этом уровне каждый такт выполняется микрооперация (регистровая передача).

2. Уровень команд. Здесь цикл работы - это выполнение микропрограммы, соответствующей одной команде программы.

3. Уровень задач. Цикл на этом уровне связан с выполнением программы для решения некоторой задачи.

Применительно к вопросам искажения и восстановления вычислительного процесса существенно разделять рассмотрение операционной и управляющей составляющих процесса на каждом из трех уровней.

На уровне регистровых передач в организации каждой микрооперации участвуют операционный и управляющий автомат. Операционный автомат имеет дело с данными (и-разрядным кодом) и выполняет прием данных в регистры, преобразование, выдачу результата.

Результат преобразования на уровне команд передается по коммуникационной подсистеме (чаще всего шине) в память. Исправление данных в случае сбоя в операционном автомате и блокирование дальнейшего распространения ошибки выполняется при этой передаче в мажоритарном блоке. В следующем далее цикле работы на уровне команд в операционный автомат поступают новые данные и выполняются новые микрооперации. Таким образом, восстановление состояния операционного автомата (ОА) после сбоя не требуется. Применительно к рассмотрению потока сбоев можно считать, что с каждым циклом уровня команд происходит самовосстановление. В случае невосстанавливаемого отказа в ОА ошибки будут периодически повторяться. С помощью

блока мажорирования это можно выявить и организовать выполнение дополнительной функции -формирования сигнала о невосстанавливаемом отказе данного ОА.

Управляющий автомат (УА) выдает управляющие сигналы операционному автомату, принимает командную информацию от программного автомата, принимает из ОА сигналы о признаках, характеризующих результат предыдущей микрооперации. Переход УА из одного состояния в другое согласно заложенной в него функции переходов соответствует пошаговому выполнению алгоритма, соответствующего исполняемой команде. Сбой УА, зафиксированный в его памяти, приведет к искажению выполняемого алгоритма. Это проявится и в искажении результата ОА, управляемого данным УА. Искажение будет выявлено блоком мажорирования. Если сбой в УА - следствие восстанавливаемого отказа, восстановление произойдет автоматически в конце командного цикла при получении нового кода команды.

Необходимо отметить, что эффекты самовосстановления информационных процессов проявляются только на нижних уровнях организации процессов. Чем ниже уровень, тем меньше период, в конце которого происходит восстановление.

При выборе уровня структурного резервирования следует рассмотреть разные типы операционных автоматов. Кроме того, важно учитывать длительность цикла. Приведенные выше суждения о самовосстановлении характерны для АЛУ с регистровой памятью небольшого объема. Совсем иначе следует подходить к устройствам основной памяти.

Таким образом, отдельного рассмотрения к организации и проектированию требуют три основные подсистемы высоконадежных ВС: процессор, система памяти и системная шина.

Для процессора как основного устройства ВС требуется анализ цикличности процессов на нескольких уровнях организации: регистровых передач (микропрограммном), уровне команд, уровне обменов через системную шину.

Модель поведения высоконадежной вычислительной системы при потоке сбоев и отказов

Рассматривая влияние надежности аппаратного обеспечения (АО) на вычислительные процессы, будем различать сбои и отказы. Сбои свя-

заны с искажением информации, представленной сигналами, и не связаны с возникновением неисправностей в аппаратуре. В то же время, меры по снижению влияния сбоев на вычислительные процессы следует принимать при проектировании, включая этапы системного, логического и конструкторского проектирования АО.

Сбои и отказы носят случайный характер. Из практики известно, что сбои происходят в сотни-тысячи раз чаще, чем отказы. Поэтому при повышении надежности ВС в первую очередь необходимо обеспечить работоспособность системы при потоке сбоев.

Сбои - события случайные и относительно редкие. Это можно обосновать следующим рассуждением. Пусть задержка срабатывания элемента - т. Тогда можно считать, что на входе элемента - приемника сигнала с дискретностью Дt = т проводится испытание: искажение сигнала из-за помех вызвало изменение информационного значения этого сигнала или нет. Ясно, что такие события происходят с интервалом Т > (десятки - сотни минут). Иначе аппаратура окажется неработоспособной. Таким образом (т < 1нс) << Т, что и означает: сбои - редкие события. На основании этого факта можно заключить, что стохастический процесс возникновения событий, заключающихся в искажении сигнала в некоторой точке сети соединенных элементов, достаточном для искажения информационного процесса, относится к классу пуассоновских процессов. Используя известную математическую модель описания пуассоновского случайного процесса, можно определить вероятность Р . (?) того, что на .-м входе /-го элемента за время t не произойдет ни одного события рассматриваемого типа:

Ри ^) = ехрН.),

где . - среднее число событий в данной точке сети элементов за ед. времени.

Не каждое событие приводит к сбою (воздействию на информационный процесс). Искажение логического сигнала под действием помех приводит к сбою (искажению информационного процесса) в тех и только в тех случаях, когда это фиксируется элементами памяти: триггерами, регистрами, счетчиками и др. В этих случаях происходит не предусмотренное алгоритмом работы изменение состояния системы. Следует отметить также, что ложные импульсы при передаче логического нуля, либо ложные «провалы» при

передаче логической единицы, весьма кратковре-менны, сравнимы с длительностью фронта, либо спада импульсов в цепи. Поэтому глубина распространения таких импульсов по цепи логических элементов ограничена не только возможным блокированием из-за состояний на других входах элемента, но и инерционностью самих элементов. В связи с этим, рассматривая процессы возникновения сбоев в аппаратуре из-за действия помех, в основном необходимо рассматривать входы элементов памяти.

При этом процесс сбоев некоторой схемы, например, домена, в соответствии с теорией надежности [5] также можно описать простейшим потоком. Домен по влиянию сбоев на вычислительные процессы можно характеризовать вероятностью Р (?) отсутствия сбоя за время ?:

Ря(() = ехр(-^д?),

где дд - среднее число сбоев в домене за ед. времени.

На характеристики потока сбоев существенно влияет конструктивная иерархия организации ВС: кристалл СБИС, печатная плата, крейт. Особенности связаны с основными физическими процессами взаимодействия информационных процессов и внешних воздействий.

Рассмотрим особенности на уровне кристалла.

1. На уровне кристалла СБИС реализуется основная часть элементов и связей. По мере развития микроэлектроники эта доля все возрастает.

2. Подложка кристалла и корпус СБИС достаточно хорошо экранируют цепи связей элементов СБИС от внешних электромагнитных и электростатических воздействий.

3. Влияние перекрестных помех уменьшено за счет миниатюризации размеров связей и за счет рационального размещения элементов и трасс соединений. Это решается разработчиками топологии СБИС и разработчиками САПР.

4. Вопросы уменьшения влияния помех по цепям питания также решаются разработчиками конструкции и топологии СБИС.

5. Таким образом, основные вопросы повышения надежности за счет структурного резервирования при разработке систем на уровне кристалла связаны с процессами возникновения сбоев и отказов из-за воздействия на полупроводниковые структуры радиации и космических частиц.

6. На уровнях печатной платы и крейта основными источниками помех являются внешние электромагнитные и электростатические

наводки. Причиной сбоев может быть также некорректная организация синхронизации (координации) процессов из-за задержек в линиях связи между СБИС. На данном уровне конструкции эти задержки больше, чем на уровне кристалла. Особенно сложности проявляются при использовании параллельных способов передачи данных на больших частотах.

В соответствии с современной технологией проектирования систем с использованием СБИС, на платах в качестве элементов находятся СБИС, а также некоторые вспомогательные БИС (контроллеры интерфейсов, синхронизаторы, приемопередатчики и т. п.), обеспечивающие взаимодействие СБИС между собой и связь с периферийными устройствами.

Способы организации связей на этих уровнях унифицированы и определяются стандартами интерфейсов. Разработка стандартов интерфейсов производится с учетом обеспечения помехоустойчивости. В частности, все более широко используются симметричные линии связи с дифференциальным включением нагрузки (LVDS). Они обеспечивают эффективное подавление продольных помех, к которым и относятся помехи от внешних электромагнитных и электростатических воздействий.

Применительно к проектированию высоконадежных вычислительных систем со структурным резервированием задача сводится к обоснованному выбору стандартного интерфейса.

Должны быть изучены также вопросы повышения надежности работы на рассматриваемом уровне организации за счет резервирования каналов связи, использования помехоустойчивого кодирования.

Рассмотрим модель поведения высоконадежной вычислительной системы при воздействии на нее потоков сбоев и отказов, используя изложенные выше представления об организации вычислительных процессов, а также известные положения теории надежности [5].

В качестве исходных примем следующие предположения.

• Будем рассматривать восстанавливаемые вычислительные системы со структурным резервированием и доменной организацией структур [1]. В каждом домене имеется блок мажорирования.

• В каждом домене периодически в соответствии с цикличностью его работы происходит восстановление того экземпляра из резервированных устройств, в котором произошел сбой. В

зависимости от уровня разбиения схемы ВС на домены и соответствующего уровня циклических процессов может происходить либо самовосстановление отказавшего экземпляра процесса, либо процесс восстановления должен быть организован под управлением устройства координации процессов, расположенного вне домена.

• В соответствии с известной статистикой будем считать, что сбои процессов происходят в сотни-тысячи раз чаще, чем невосстанавливае-мые отказы элементов аппаратуры.

• При выявлении невосстанавливаемых отказов в результате обработки информации от блоков мажорирования периодически, в определенных состояниях вычислительных процессов, производится реконфигурация системы путем замены отказавшего блока на аналогичный блок из холодного резерва и ввод этого блока в вычислительный процесс.

• Потоки сбоев и отказов будем рассматривать как простейшие, используемые в теории надежности [5].

• При простейших потоках показателем, полностью характеризующим состояние работоспособности системы, является вероятность безотказной работы системы, домена, узла Р^) [5].

На рисунке приведена качественная характеристика изменения вероятности безотказной работы в данном классе систем на примере одного домена. Рассмотрим начальные участки зависимостей р (?) в диапазоне р (?) << 0,9. Здесь 1 -вероятность наработки домена до сбоя одно-

го из элементов (Р1д(0 = ехр(-дсд?) =1 - дсд?, где дсд - среднее число сбоев в домене в ед. времени); 2 - вероятность наработки домена до отказа одного из элементов (Р2д(0 = ехр(-дсд?) = 1 - дсд? , где дод - среднее число отказов в домене в ед. времени, дод < 0,001 дсд); Рдоп - некоторая допустимая нижняя грань вероятности безотказной работы домена.

В невосстанавливаемых системах с мажорированием безопасная работа домена с вероятностью Рдоп обеспечивается в интервале (0, Т1). При t > Т с вероятностью Рдоп один из трех процессов, результаты которых мажорируются, исказится вследствие сбоя. Дальнейшая работа домена не допускается, т. к. при возникновении сбоя во втором процессе правильное решение принять голосованием в блоке мажорирования уже невозможно.

Перепад 4 показывает изменение Рд(0 при восстановлении искаженного экземпляра процесса, а 5 - при реконфигурации домена после отказа.

Восстановление происходит через интервал тв. Как видно из рисунка, значение тв существенно влияет на уменьшение наработки Рд(0. Повлиять на величину тв можно при проектировании системы способом разбиения схемы системы на домены и, соответственно, длительностью цикла процессов в домене. При этом может иметь место самовосстановление (на уровне микроопераций и операций). Наличие конвейеризации процессов на уровне регистровых передач при этом для восстановле-

Рис. 1. Вероятность работоспособного состояния домена высоконадежной вычислительной системы 1 - вероятность работы без сбоев; 2 - вероятность работы без отказов аппаратуры; 3 - вероятность работоспособного состояния домена с учетом восстановления и реконфигурации; 4 - изменение вероятности работоспособного состояния

при восстановлении; 5 - изменение вероятности работоспособного состояния при реконфигурации; 6 - вероятность работы системы с холодным резервом; тв - интервал восстановления при сбое; тр - интервал реконфигурации при отказе

ния мало что меняет. Если домены организованы на более высоком уровне (например, на уровне процессоров), то процесс восстановления должен инициироваться извне, требует больше времени и должен предусматриваться при проектировании. Чем выше уровень цикла процесса домена в иерархии циклической организации процессов ВС, тем больше т , тем меньше минимальное значение

в'

наработки Рд(?). Но при этом уменьшается трудоемкость проектирования ВС, т. к. упрощается использование готовых 1Р модулей. Таким образом, весьма актуальна проблема реинжиниринга готовых верифицированных решений. Цель реинжиниринга - введение в проект структурной избыточности и разделение схемы на домены.

Реконфигурация в сравнении с восстановлением после сбоя требует существенного усложнения коммуникационной системы и использования «холодного резерва» блоков домена. Известно, что при отсутствии питания (холодный резерв) влияние радиации не приводит к отказу [3, 4]. Реконфигурация требует затрат времени для загрузки памяти резервного блока и приведения его в некоторое предопределенное состояние, идентичное состояниям других экземпляров блоков домена. Это может быть организовано только в определенных точках вычислительного процесса, определяемых при проектировании системы.

Вследствие деградации элементов системы с течением времени, а также из-за влияния внешних факторов (радиации, температуры и др.) при восстановлениях (позиция 4 на рис.) и при реконфигурации (позиция 5) вероятность Рд(?) возвращается к значению, соответствующему вероятности работоспособного состояния системы с холодным резервом. На рисунке это отражает кривая 6. Как известно из [5], система с холодным резервом имеет вероятность работоспособного состояния Р (?) = (1 + Х?)ехр(-Х?). При малых значениях ? вероятность Рхр близка к единице.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Из представленной на рисунке модели следует, что время Т2 работоспособного состояния системы при использовании процессов восстановления и реконфигурации существенно больше Т1 - времени наработки резервированной системы с мажорированием, в которой восстановление и реконфигурация не предусмотрены.

Концепция многоуровневого реагирования на поток отказов в системах со структурной, временной и информационной избыточностью

В основу концепции положен учет результатов

анализа сбоев и отказов в аппаратуре, создаваемой по современным технологиям, учет функционального назначения и особенностей реализации блоков структуры, а также учет ограничений, которые накладывает необходимость использования существующих САПР. Концепцию представим в виде перечня положений, которые определят подход к организации и проектированию систем.

1. Для обеспечения надежности и безопасности АО системы в условиях действия потоков внешних помех необходимо иметь средства быстрого реагирования в темпе работы аппаратуры (доли микросекунд). Реакция системы должна заключаться в маскировании сбоя и обеспечении бесперебойного выполнения основных функций системы согласно ее назначению. При исследовании структур, обладающих такими возможностями, предложены и обоснованы структуры с доменной организацией. Разработаны методы синтеза и анализа на уровне функциональной организации без учета особенностей уровня RTL и конструкторской иерархии [1]. Минимальная кратность резервирования, обеспечивающая маскирование отказов, равна трем. Это является базовым решением, пригодным в большинстве случаев создания новых систем.

2. Сбои (восстанавливаемые отказы) информационных процессов возникают, по меньшей мере, в сотни-тысячи раз чаще, чем невосста-навливаемые отказы элементов аппаратуры. Несмотря на то что при этом не выходит из строя аппаратура, требуется маскирование таких сбоев, т. к. для информационного процесса это тоже отказ. Но при этом возникает важная задача: восста-навление необходимого состояния в отказавшем узле и повторное включение его в информационный процесс. Следует отметить, что такое реагирование на отказ уже не должно быть столь оперативным, как маскирование. Появляется резерв времени, равный интервалу до возникновения следующего отказа в том же резервированном блоке. Это определяет условия и ограничения для восстановления системы. Восстановление существенно увеличивает надежность системы.

3. Невосстанавливаемые отказы требуется обнаруживать. Они возникают реже, чем восстанавливаемые. Имеется принципиальная возможность реагировать на них в некоторых точках циклических процессов исполнения функциональных программ. Можно предположить, что реакция на такие события для продления срока работоспособности - замена кристалла из «холодного» резерва. Это актуальная проблема, требующая ис-

следования. Соответствующий процесс реакции системы назван реконфигурированием.

4. Для повышения надежности в системах со структурным резервированием и имеющих временную и информационную избыточность, необходимо создать многоуровневую систему реагирования на возникающие сбои и отказы. Выделены три уровня: маскирование отказа, восстановление состояния отказавшего узла, рекон-фигурирование системы с заменой отказавшего кристалла. Временные ресурсы, выделяемые на выполнение этих функций, существенно различаются. С учетом этих ограничений часть функций необходимо реализовать аппаратно, а часть - программно. Разработка соответствующих средств и организация соответствующих процессов в системе - предмет исследований и разработки.

5. Увеличивается число параллельно протекающих процессов в рассматриваемом классе систем. Наиболее гибкий способ координации процессов - построение глобально асинхронных систем. Координация работы синхронных блоков в глобально асинхронной системе может реали-зовываться с помощью структурно выделенной подсистемы (синхростратума), проектирование которой может выполняться с использованием модели самосинхронных схем [6].

6. При разработке вариантов обеспечения маскирования отказов и восстановления памяти на уровне кристалла важно учитывать ограничения, накладываемые существующими САПР, а также необходимость использования готовых 1Р модулей для основных устройств. Поэтому актуально исследование и разработка методов и инструмен-

тальных средств автоматизированного реинжиниринга СБИС типа «система на кристалле» применительно к задаче проектирования устройств и систем с заданными показателями надежности.

7. Самовосстановление в некоторых типах функциональных узлов ФУ. Отличительный признак при классификации ФУ применительно к задаче повышения надежности систем - длительность цикла обновления внутренней памяти. Анализ функциональных узлов по этому показателю - новая актуальная задача. Важна разработка методики и средств оценки надежности узлов с учетом фактора самовосстановления за счет перезагрузки от внешнего окружения.

Рассмотрены особенности перспективного класса высоконадежных вычислительных систем. Сформулированы требования к методологии их проектирования. На основании представления об иерархической циклической организации вычислительных процессов построена модель поведения высоконадежной вычислительной системы при воздействии на нее потоков сбоев и отказов. Проанализировано влияние параметров процессов восстановления и реконфигурации на показатели надежности системы.

Предложена концепция многоуровневого реагирования на поток отказов в системах со структурной, временной и информационной избыточностью, определяющая подход к организации и проектированию таких систем.

Работа выполнена при поддержке ФЦП «Развитие научного потенциала высшей школы на 2009-2011 гг.», проект 12647.

СПИСОК ЛИТЕРАТУРЫ

1. Глухих, М.И. Разработка методов синтеза информационно-управляющих систем специального назначения со структурным резервированием: Дис. ... канд. техн. наук [Текст] / М.И. Глухих. -СПб.: Изд-во СПбГПУ, 2006.

2. Мелехин, В.Ф. Вычислительные машины, системы и сети: Учебник для студ. вузов [Текст] / В.Ф. Мелехин, Е.Г. Павловский. -М.: Изд. центр «Академия», 2010. -560 с.

3. Актуальные проблемы ракетно-космического приборостроения и информационных технологий [Текст] / Под ред. Ю.М. Урличич, А.А. Романов // Рос. НИИ космич. приборостроения: Тр. конф. -М.: Физ-матлит, 2009. -375 с.

4. Анашин, В.С. Обеспечение стойкости радиоэлектронной аппаратуры космических аппаратов к естественным ионизирующим излучениям космиче-

ского пространства на информационном, структурно-технологическом и методологическом уровнях [Текст] / В.С. Анашин. -С. 46-52.

5. Allen, G.R. Compendium of Test Results of Single Event Effects Conducted by the Jet Propulsion Laboratory [Text] / G.R. Allen // Jet Propulsion Lab. (JPL), Pasadena, CA - Radiation Effects Data Workshop, 2008 IEEE. -14-18 July 2008. -P. 21-30.

6. Черкесов, Г.Н. Надежность аппаратно-программных комплексов: Учеб. пособие [Текст] / Г.Н. Черкесов. -СПб.: Питер, 2005. -479 с.

7. Мараховский, В.Б. Проектирование средств синхронизации блоков глобально асинхронных систем с произвольной локальной синхронизацией [Текст] / В.Б. Мараховский, В.Ф. Мелехин// Информационно-управляющие системы. -2010. -№ 1 (44). -С.29-38.

i Надоели баннеры? Вы всегда можете отключить рекламу.