П адежность и техническая диагностика
УДК 681.3-1.92
САМОДИАГНОСТИРОВАНИЕ ЦИФРОВЫХ СИСТЕМ С РЕКОНФИГУРАЦИЕЙ
В.А. Ведешенков Институт проблем управления им. В.А. Трапезникова, г. Москва
Предложен метод само диагностирования компонентов (модулей и линий связи) цифровых систем с реконфигурацией, допускающий устойчивые кратные отказы ограниченного числа компонентов, в основу которого положен принцип расширяющихся областей. Дан пример самодиагностирования отказавших компонентов в 2-отказоустойчивой системе.
ВВЕДЕНИЕ
Многопроцессорные вычислительные системы (МВС) широко применяются в автоматизированных системах управления различными объектами. Одно из обязательных свойств управляющих систем реального времени состоит в их отказоустойчивости, т. е. способности правильно функционировать в течение заданного времени в условиях возникновения отказов и сбоев в работе их компонентов [1, 2]. Для обеспечения необходимой отказоустойчивости МВС часто применяется стратегия динамической избыточности, включающая в себя этапы контроля работоспособности системы, поиска места нахождения отказавшего компонента, реконфигурации системы для его замены исправным компонентом из числа резервных, восстановления функционирования системы. Методы синтеза графа структуры отказоустойчивых систем, предложенные в работе [2], позволяют построить граф с заданной степенью т отказоустойчивости (т-ОУ граф) для целевого (исходного неизбыточного) графа достаточно общего вида. Инвариантно-групповой подход к синтезу приводит к получению структур т-ОУ графов регулярного вида, что упрощает процедуры их анализа в задачах диагностирования и реконфигурации. Но работ по диагностированию отказавших компонентов и реконфигурации в отказоустойчивых системах немного [3—5]. В настоящей статье основное внимание уделено разработке метода само-диагностирования (СД) отказавших компонентов
в цифровых системах с реконфигурацией, построенных с помощью алгоритмов синтеза [2].
Методы системного диагностирования отказов в цифровых системах (моделях МВС) основаны на том, что, ограничивая максимальное число одновременно отказавших модулей (процессоров МВС), можно реализовать необходимые диагностические функции с помощью оставшихся исправных модулей. Модели системного диагностирования, максимально абстрагированные от конкретной реализации МВС, позволяют применять общие методы для диагностирования отказов в системах, построенных на основе процессоров и связей различной физической природы. Взаимодействие отдельных частей системы (процессоров, модулей) при реализации диагностических процедур в данной работе описывается с помощью модели Барси — Грандони—Маестрини (сокращенно, модели БГМ) [6]. Она основана на предположении, что каждый модуль, на которые разбивается исходная МВС, может в одиночку проверить любой другой модуль, имеющий с ним непосредственные связи. Для этого первый модуль (проверяющий, в дальнейшем сокращенно МПщ) подает на входы проверяемого модуля (сокращенно МПм) последовательность тестовых воздействий (тест), получает ответные реакции МПм на этот тест, сравнивает их с эталонными, а результаты сравнения оценивает в двоичной форме: 0 — результаты правильные, МПм исправен, 1 — результаты неправильные, МПм неисправен. Предполагается: оценка результатов теста всегда достоверна, если исправен МПщ; она равна 1, если отказали оба модуля; недостоверна
(О или 1) только в том случае, когда МПщ отказал, а МПм — исправен. Предполагается также, что неисправности модулей — устойчивы, а тесты полные, т. е. обнаруживают всевозможные неисправности модулей.
Подчеркнем, что техническое состояние МПм (компонента) достоверно определяется двоичным результатом его тестовой проверки: О — исправен, 1 — неисправен, если исправный МПщ проверял только один модуль (компонент). Если же в данном тесте одновременно проверялись несколько компонентов, то по единичному результату нельзя однозначно указать отказавший компонент, нужны дополнительные проверки (тесты). Выбору необходимых проверок и разработке методов обработки их результатов и посвящены методы системного диагностирования.
В пользу модели БГМ говорит повышенная сложность модулей (процессоров, машин, устройств связи) современных МВС. Поэтому ничтожно мала вероятность того, что при тестировании неисправного МПм также неисправный МПщ выдаст оценку О: МПм исправен. Другими словами, нулевой результат, выдаваемый МПщ после проверки МПм, с большой вероятностью подтверждает исправность МПм. Такая предпосылка существенно упрощает процедуру диагностирования по сравнению с моделью ПМЧ [7], так как для идентификации исправных модулей достаточно О-путей единичной длины (в терминологии работы [8]). Правомочность модели БГМ подтверждают и результаты двухлетних экспериментов с алгоритмом распределенного диагностирования Robust [9], показавших, что отказавший модуль очень редко выдает какие-либо данные. Значительно чаще он прекращает выполнение диагностического алгоритма, не выдает никакой информации и потому идентифицируется исправным МПщ как отказавший.
Суммарный результат проверки модулей системы образует двоичный вектор 5, который называется реальным синдромом [6, 7]. Поскольку далее тестовая информация будет представляться в табличном виде, то будем говорить об обработке тестовой информации, а не о дешифрации реального синдрома. Задача обработки тестовой информации заключается в том, чтобы по ней и известной структуре тестовых связей цифровой системы определить подмножество отказавших компонентов (модулей, связей). В большинстве алгоритмов системного диагностирования предполагается (или констатируется), что результаты тестов собираются и обрабатываются внешним устройством.
Другой подход основан на СД состояния компонентов системы путем реализации необходимых алгоритмов, включая сбор и обработку результатов тестирования, на исправных процессорах самой системы (см. например, работы [9—12]). Общие
черты большинства подобных алгоритмов, получивших также название распределенных, заключаются в использовании модели ПМЧ [7], наличии полносвязного диагностического графа, исправности линий связи. Последняя предпосылка частично объясняется тем, что в системах, где реализованы распределенные алгоритмы [11, 12], отказы магистральных линий связи между модулями плохо диагностируются логическими методами.
Ниже предлагается метод СД цифровых систем с реконфигурацией, в основу которого положен принцип расширяющихся областей. Выполнение необходимых процедур начинается с исправного модуля и последовательно передается другим модулям, исправность которых подтверждена предшествующими проверками. Начальный модуль процесса СД определяется по результатам работы системы контроля [13].
Реализация того или иного способа диагностирования зависит от структуры тестовых связей системы, числа тестов, проверяющих каждый модуль, а также количества одновременно отказавших компонентов, топологии их расположения. Максимальное число одновременно отказавших компонентов, однозначно диагностируемых по результатам тестирования системы, называется степенью диагностируемости ? системы. Большинство оценок значения ? получено в предположении, что отказывают только модули, а связи исправны. Так, в работе [6] для модели БГМ доказано, что в однократно диагностируемых системах из п модулей, обладающих полносвязным диагностическим графом, для степени диагностируемости ? справедлива оценка К (п — 2). Предположение о возможности одновременного отказа модулей и связей существенно затрудняет получение подобных оценок.
1. ХАРАКТЕРИСТИКА ОБЪЕКТА ДИАГНОСТИРОВАНИЯ
Структура неизбыточной МВС представляется графом *0", вершинам которого соответствуют однородные группы ресурсов (процессоры, модули), а дугам — линии связи между ресурсами. Предполагается, что отказывать могут как вершины, так и дуги, причем отказ вершины приводит к отказу всех инцидентных ей (входящих и выходящих) дуг.
Алгоритмы синтеза [2] позволяют построить для п-вершинного целевого графа *0" и заданной степени т отказоустойчивости искомый объемлющий граф *5"+т. Наличие гамильтонова цикла в целевом графе *0п является необходимым условием существования отказоустойчивого графа *" + т.
Отметим некоторые свойства графа *пк+т, необходимые для последующих построений.
Граф *5+т т-ОУ системы содержит (п + т) вершин, из которых п вершин соответствуют рабочим модулям, а т вершин — резервные. Он симметричен относительно (п + т) вращений (сдвигов) вокруг своего центра на угол = 360о/( п + т),
т. е. при повороте на угол кажд ая вершина вме-
сте с инцидентными ей дугами совмещается с соседней вершиной и инцидентными ей дугами. Такая симметрия обеспечивает замену отказавшей вершины и инцидентных ей дуг на исправную вершину и соответствующие дуги путем поворота на соответствующий угол, кратный Добавим, что
граф *5+ т после подобной реконфигурации сохраняет логическую структуру задач, решавшихся на МВС до реконфигурации, так как старые логические имена компонентов, совпадавшие с их физическими номерами, будут заменены новыми, зависящими от выполненного числа сдвигов.
Для примера на рис. 1 показан исходный целевой граф *0, представленный в циркулянтном виде: внешние дуги образуют гамильтонов цикл между его восемью вершинами, а остальные дуги — внутренние. Двукратное применение алгоритмов £
синтеза [2] к графу *0 привело к построению 2-ОУ графа *5° (рис. 2); подробности применения алгоритмов синтеза к графу *° можно найти в работе [5].
Для исправной т-ОУ системы, структура которой представлена графом *5 + т, существует СПт+ т конфигураций (структур), включающих в себя п рабочих и т резервных процессоров (вершин графа). Для упрощения будем считать, что исходная рабочая конфигурация (РК) содержит п смежных рабочих вершин, номера которых совпадают с номерами целевого графа, а добавленные (резервные) вершины также являются смежными. Последовательно сдвигая (п + т) вершин на одну позицию, например, против часовой стрелки, получим остальные (п + т — 1) РК.
Для последующих действий представим информацию о графе *5+т в виде таблицы, которую назовем первичной [5]. В ее левом столбце запишем номера (п + т) РК, в следующих (п + т) столбцах — составы этих РК, а затем — номера дуг, соответствующих номерам дуг исходных РК (т. е. номерам дуг целевого графа). Пример первичной таблицы,
построенной для графа *я°, представлен табл. 1. Она содержит 8 столбцов для номеров рабочих вершин, 2 столбца — для номеров резервных вершин и 5 столб цов — для номеров дуг целевого графа (подробнее о составе этих дуг — при обсуждении примера).
Рис. 1. Граф 3-куба
Рис. 2. Диагностический граф 2-ОУ системы
По мере функционирования т-ОУ системы и накопления в ней отказавших компонентов для их устранения будут использоваться РК с меньшим числом резервных вершин. Для систематического перебора таких РК нужна совокупность вторичных таблиц первого, второго, ..., т-го уровней, подобных первичной таблице, но содержащих меньше на одну, две, ..., т резервных вершин [5].
2. ПОСТАНОВКА ЗАДАЧИ
Пусть анализируемая т-ОУ система представлена диагностическим графом *5 + т, п вер шин которого представляют п рабочих модулей (процессоров) системы, а т вершин — резервные и (или)
отказавшие модули. По построению, граф *5+ т —
симметричный и однородный, но не обязательно полный.
Будем считать, что допускаются устойчивые кратные отказы ограниченного числа вершин и дуг. Предположим также, что во время выполнения СД новые отказы не возникают, а существующие неисправности таковы, что не приводят к несанкционированному запуску процесса СД в отказавших модулях и, следовательно, не искажают разработанную организацию СД; при реализации диагностических процедур используется модель БГМ [6].
Предполагается, что в исходной МВС есть диагностический монитор (часть центральной операционной системы), который инициирует процессы контроля, самодиагностирования и осуществляет реконфигурацию по результатам диагностирования технического состояния компонентов очередной РК.
Требуется разработать такой метод контроля и СД компонентов отказоустойчивой системы, чтобы после выполнения СД каждый исправный модуль имел информацию, достаточную для идентификации технического состояния остальных компонентов (модулей, линий связи) РК системы.
3. МЕТОД САМОДИАГНОСТИРОВАНИЯ ОТКАЗАВШИХ КОМПОНЕНТОВ
Контроль цифровой системы состоит в проверке каждым исправным модулем технического состояния своих преемников и соответствующих линий связи. Для оптимальной реализации последовательного выполнения различных проверок одного МПм разными МПщ на диагностическом графе системы построим гамильтонов путь, который, по определению, заходит в каждую вершину точно один раз. Если начальная и конечная вершины такого пути совпадают, то построенный путь
является гамильтоновым циклом. Для однородного диагностического графа исправной системы такой цикл всегда существует. Отметим, что для излагаемого ниже метода достаточно выбрать любой гамильтонов цикл, который обеспечивает обход всех вершин диагностического графа РК исправной системы. Такой цикл выбирается один раз при проектировании системы контроля.
Информацию о составе выбранной РК № ж т-ОУ системы представим в виде таблицы Т6ж. Она состоит из п строк Т. , ..., Т., ..., Т , в каж-
г ;г 3 пж7
дой из которых для модуля т. (у = , ..., пж, где
пж = п + т — 1) записаны номера моду-
лей — преемников тк 1, т^2, (смежных с модулем т'), в ней также есть поля для записи результатов проверки модулем т. этих модулей Г. и, Г. N2, и значений их ранга при ранжировании графа. Пример такой таблицы Т60, построенной для РК № 0 (из табл. 1), содержащей 8 строк, представлен в табл. 2. Как видно из табл. 2, в каждой ее строке заполнены только клетки для МПщ т. и его преемников МПм — т(к 1, ..., т(к 3.
Для отображения местонахождения модулей в гамильтоновом цикле будем записывать в строке 7М преемников модуля т. так, что именно модуль т^ является соседом справа модуля т. в построенном цикле. Для РК № 0 выбран такой гамильтонов цикл: 0 о 1 о 3 о 2 о 6 о 7 о 5 о 4 о 0, именно в таком порядке в табл. 2 записаны строки 7М.
Обычно процесс контроля запускается диагностическим монитором через определенные интервалы времени. Это предотвращает накапливание отказавших компонентов в системе и способствует безошибочности решения целевых задач.
Назначим начальной вершиной процесса контроля одну из вершин выбранного гамильтонова
1
Первичная таблица
№№ п/п Номера рабочих вершин Резервные вершины Номера дуг
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 0 1 3 2 6 7 5 4* 8 9 4 - 0 0 - 2 3 - 7 6 1 4 5 - 1*
1 1 3 2 6 7 5 4* 8 9 0 8 - 1 1 - 6 2 - 5 7 - 8 4 - 3
2 3 2 6 7 5 4* 8 9 0 1 9 - 3 3 - 7 * > - 6 5 - 9 8 - 2
3 2 6 7 5 4* 8 9 0 1 3 0 - 2 2 - 5 7 - 8 4 - 0 9 - 6
4 6 7 5 4* 8 9 0 1 3 2 1 - 6 6 1 4 5 - 9 8 - 1 0 - 7
5 7 5 4* 8 9 0 1 3 2 6 3 - 7 7 - 8 4 - 0 9 - 3 1 - 5*
6 5 4* 8 9 0 1 3 2 6 7 2 - 5 5 - 9 8 - 1 0 - 2 3 - 4
7 4* 8 9 0 1 3 2 6 7 5 6 1 4 4 - 0 9 - 3 1 - 6 2 - 8
8 8 9 0 1 3** 2 6 7 5 4* 7 - 8 8 - 1 0 - 2 3 - 7 6 - 9**
9 9 0 1 3** 2 6 7 5 4* 8 5 - 9 9 - 3 1 - 6 2 - 5 0 - 7
цикла, обозначим ее тп. Тогда по сигналу диагностического монитора МПщ тп должен выполнить следующие действия:
• из таблицы Т6ж выделить строку Тп, найти в ней номера преемников т(к 1, т^, ...; проверить их техническое состояние и в клетки Г , Г ,
п, Кг п, N27
строки Тп записать результаты проверок в двоичном коде: 0 — исправен, 1 — подозревается в отказе;
• оценить результаты проверок:
— если гп N1 = 0, то передать управление процессом контроля модулю тК 1;
— если гп N1 = 1, но один из других результатов (например, гп N2) — нулевой, то передать управление процессом контроля соответствующему модулю (модулю т(к 2);
— если же проверки всех преемников тп дали единичные результаты, то процесс контроля нужно начать с другого модуля (например, с модуля тп 2, находящегося в «середине» гамильтонова цикла).
Модуль т1 (ти, тN2, ...) и каждый из последующих модулей выполняет аналогичные действия. Этот процесс проверок и «хождения» по выбранному циклу заканчивается, когда управление возвращается к начальному модулю тп (тп2). Такой детерминированный путь обхода вершин графа возможен только при исправном состоянии всех компонентов проверяемой РК. Если же на одном из этапов проверки получен единичный результат, свидетельствующий об обнаружении одного или нескольких отказавших компонентов, то процесс контроля прерывается, и диагностический монитор переходит к про цессу СД, который включает в себя такие процедуры:
— исполнение исправным модулем функций МПщ;
— нахождение пути от одного исправного модуля к другому, возможно, с помощью процедуры
ранжирования соответствующих исправных модулей;
— обработка и дешифрация результатов выполненных проверок.
Эти процедуры реализуются совокупностью исправных модулей РК № ж Необходимость исполнения всех или части этих процедур определяется очередным МПщ на основе результатов выполненных им проверок и информации, полученной от предыдущих модулей.
Для сохранения информации, полученной в процессе контроля, диагностический монитор начинает процесс СД с того исправного модуля т. (^тп, тп2), который первым получил единичный результат. Начальный модуль т. должен выполнить следующие действия:
1) образовать промежуточную табли цу 37.. и переписать в нее строку Т. с результатами проверок, полученными в процессе контроля (в индексе символа данной таблицы указан номер начального МПщ);
2) по нулевым результатам проверок в строке Т. выделить подмножество номеров исправных преемников {т,} и одному из преемников передать таблицу 37. и функции МПщ на следующем шаге СД.
Если среди преемников т. нет ни одного исправного, то процесс СД не может быть продолжен, и для получения диагностических результатов монитор должен запустить процесс контроля с другого модуля.
Очередной исправный модуль ти, получив управление процессом СД, должен выполнить следующие действия:
1) из таблицы состава Т6ж выделить строку Ти, переписать ее в таблицу 3Т|., полученную от предшественника т. (т„ _,);
у и 1
2
Таблица состава 0 для РК № 0
Символ строки Проверяющий модуль и ранг Преемники т., результаты их проверок и ранг
т. ранг т. ти Г, N1 ранг тн т£2 Г, N2 ранг mN2 mNЗ ГУ, N3 ранг ти
То 0 - 1 - - 2 - - 4 - -
Т1 1 - 3 - - 5 - - 0 - -
Т Тз 3 - 2 - - 7 - - 1 - -
Т2 2 - 6 - - 0 - - 3 - -
Тб 6 - 7 - - 4 - - 2 - -
Т7 7 - 5 - - 3 - - 6 - -
Т5 5 - 4 - - 1 - - 7 - -
Т4 4 - 0 - - 6 - - 5 - -
2) в строке Ти найти номера своих преемников ти, ти, ...; проверить их состояние и в клетки гЫ N1, гЫ N2, строки ТЫ записать результаты проверок;
3) по нулевым результатам проверок в строке Т выделить подмножество исправных преемников {тц}, сравнить номера {#,} с номерами модулей в левом столбце 3Т|.:
— если один из номеров подмножества {ти} отсутствует в списке номеров левого столбца 3Т, то передать ему (модулю т, +,) таблицу
} Ы + 1
3Т|. и функции МПщ на следующем шаге; при этом модуль тЫ+1 вернется к п. 1 процесса СД;
— если два (или больше) номера из подмножества {ты} отсутствуют в списке номеров левого столбца 3Т|., то одному из них (например, ти) передать таблицу 3Т.. и функции МПщ на следующем шаге;
— если все номера {тЫ} в списке номеров левого столбца 3Т|., то перейти к п. 4;
4) найти кратчайший путь от модуля тЫ к одному из исправных модулей ты+1, ты+2, ..., ты+г, еще не исполнявших функции МПщ, с помощью процедуры ранжирования, передать найденному модулю тЫ+1 (тЫ+2, ...) таблицу 3Т|. и функции МПщ на следующем шаге; если при выполнении процедуры ранжирования выяснится, что все обнаруженные исправные модули исполняли функции МПщ, перейти к п. 5;
5) передать информацию, собранную в таблице 3Т.. модуля тЫ+у (у которого совпали списки исправных и проверяющих модулей), в направлении, обратном тому, по которому эта информация собиралась; получив идентичную информацию в виде таблицы 3Т|. от модуля ты+г, каждый из модулей
Диагностическая
выполнит процедуру ее обработки (приведенную ниже) и сформирует одинаковый диагноз.
Для нахождения кратчайшего пути от модуля ти к одному из исправных модулей ти+1, ти+2, ... , ты+г, не являющихся его преемниками, каждому исправному модулю РК № ж присваивается номер (ранг), равный минимальному числу линий связи, соединяющих данный модуль с модулем тЫ, который ищет этот путь. Процедура ранжирования (присвоения номеров) носит «расширяющийся» характер: модуль тЫ присваивает ранг 1 своим исправным преемникам, затем ранг 2 — исправным преемникам модулей с рангом 1, и т. д., пока некоторый ранг (например, й) не получит один из исправных модулей, еще не исполнявших функции МПщ. Тогда поиск нужного пути заключается в выборе линий, связывающих модули с рангами й и (й — 1), затем модули с рангами (й — 1) и (й — 2) и т. д. до линии, связывающей модули с рангами
1 и 0 (тЫ). Процедура формального описания действий модуля тЫ при ранжировании графа и поиске нужного пути приведена в работе [14].
Для обработки и дешифрации информации, собранной в таблице 3Т.. модулем тЫ+г, каждый исправный модуль переписывает ее в диагностическую таблицу Тйж, построенную заранее для РК № ж В строке " ^ = /ж, ..., пж) таблицы Тйи, для проверяемого модуля тк записаны номера его предшественников (МПщ) тд, т.2, т.3; есть также клетки для записи результатов Гд к, гу.2 к, гу.3 к его проверки этими модулями и клетки для записи диагностических заключений о состоянии модуля тк и инцидентных ему линий связи, получаемых после обработки результатов к, г.2 к, г.3 к. При-
мер такой таблицы, построенной для РК № 0 (из табл. 1), содержащей 8 строк, представлен в табл. 3. Нетрудно заметить, что преемники модуля т., по-
Та^ли^а 3
ща Тв0 для РК № 0
Символ Предшественники т^. Проверяемый Результаты проверок Диагностическое заключение
строки т-1 т 2 р3 модуль т^. ГЛ N ГА N ГЛ N й/1, N ЙЛ N вЛ N
"о 1 2 4 0 0 0 — 0 0 0 —
"1 3 5 0 1 0 1 0 0 0 1 0
"3 2 7 1 3 0 0 0 0 0 0 0
"2 6 0 3 2 0 0 0 0 0 0 0
"б 7 4 2 6 0 — 0 0 0 — 0
"у 5 3 6 7 0 0 0 0 0 0 0
"5 4 1 7 5 — 1 0 0 — 1 0
"4 0 6 5 4 1 1 1 1 ] ]
казанные в строке Т. табл. 2, совпадают с предшественниками модуля mN, приведенными в строке " табл. 3. Это совпадение — не случайность, а следствие использования в системе двунаправленных связей, поэтому модули mN 1, mN2, mN3 — преемники модуля т. — являются также его предшественниками т. 1, т^, т.3.
Процедура обработки исправным модулем информации из таблицы 3Т|. модуля тЫ+г заключается в следующем:
1) из строк Т, ..., ТЫ, ..., ТЫ+Г таблицы 3Т.. выделяются результаты проверок г. к1, г. N2, ..., гЫ к1,
Гы, ^ ..., Ги+у, N1, Гы+у, N2 и записываются в КЛетКИ строк диагностической таблицы Тйж;
2) анализируются результаты проверок, содержащиеся в строке ", и в клетки 5к, ад к, а^ N, а.3 N этой строки записывается диагностическое заключение, полученное согласно правилам:
1) если в клетках результатов проверок строки "к ест ь хотя бы один нуль (пусть Г. 1 N = 0), то в клетки на пересечении строки " со столбцами 5к и а. 1 N записываются нули;
а) если в клетках результатов этой же строки " есть еще нули, то записываются нули в клетки на пересечении строки " со столбцами переменных соответствующих линий;
б) если в клетках результатов этой же строки " есть единицы, то записываются единицы в клетки на пересечении строки " со столбцами переменных соответствующих линий;
2) если в клетках результатов проверок строки " записаны только единицы, то записывается 1 в клетку на пересечении строки " со столбцом ^, а в клетки на пересечении строки "к со столбцами переменных соответствующих линий записываются буквы ].
Таким образом, дешифрация результатов проверок из таблицы 3^ модуля тЫ+г, сводится к замене 0, 1 и ], записанных в клетках 5к, а. 1 к, а^ к, а.3 к строки "к таблицы Тйж, состояниями модуля тк и инцидентных линий связи согласно правилам:
• 0 о «модуль исправен», «линия исправна»;
• 1 о «модуль подозревается в отказе», «линия
подозревается в отказе»;
• ] о неопределенное состояние линии связи,
так как отказавший модуль «маскирует» состояние инцидентной линии связи.
4. ПРОЦЕДУРА РЕКОНФИГУРАЦИИ
Дешифрация результатов проверок из таблицы 37М модуля рм+у определяет для РК № ж подмножество компонентов, подозреваемый в отказе. Процедура реконфигурации р-ОУ графа сводится к нахождению в первичной таблице (или в одной из вторичныгх таблиц) такой строки, в которой компоненты, подозреваемые в отказе, не входят в состав РК № ж * — т.е. отказавшая вершина попадет на место одной из резервных, отказавшая дуга не будет соединять пару смежных рабочих вершин и не будет входить в состав дуг, перечисленных в правой части этой строки. Начало поиска нужной работоспособной РК зависит от того, к какой из таблиц — первичной или вторичной — принадлежит анализируемая РК № ж
После нахождения новой работоспособной РК № ж * диагностический монитор модифицирует таблицу состава и диагностическую таблицу
7"ж, заменяя номера рабочих модулей прежней РК № ж на соответствующие номера новой РК № ж*. Затем монитор запускает процесс контроля РК № ж *. Если контроль РК № ж * подтвердит ее работоспособность, то р-ОУ система возвращается к выполнению своих функциональных задач. В противном случае монитор вновь запускает процесс СД для идентификации тех компонентов, которые не участвовали в РК № ж, а потому их отказы не влияли на ее работоспособность.
После идентификации нового подмножества подозреваемых компонентов процедура реконфигурации повторяется, но новая РК выбирается так, чтобы в ней отсутствовали не только впервые обнаруженные компоненты, подозреваемые в отказе, но и все отказавшие компоненты, ранее обнаруженные и вы1веденные из состава РК. Таким образом, может оказаться, что после отказа некоторого компонента в ПТ не останется ни одной работоспособной РК. В этом случае нужно перейти к РК, включающим в себя на 1, 2, ..., р вершин меньше. По определению, в каждую из таких РК с меньшим числом резервный вершин можно вложить целевой граф бф. Но нужно проверить, что ранее отказавшие компоненты (вершины, дуги) не мешают работоспособности выбранной РК.
Несколько слов о стратегии перебора первичной и вторичных таблиц. Очевидно, что идентификация процессом СД отказавшей вершины вынуждает переходить к РК, не содержащим эту вершину; для этого может потребоваться переход к поиску во вторичныгх таблицах. Что же касается устранения влияния отказавшей дуги, то здесь целесообразно просмотреть все оставшиеся строки таблицы, РК которой функционировала в момент
обнаружения отказа. И если среди них нет ни одной работоспособной (вследствие влияния предыдущих отказов), то следует переходить к вторичной таблице с уменьшенным на единицу числом резервных вершин. При этом желательно исключить из дальнейшего рассмотрения ту вершину, которой инцидентно наибольшее число отказавших дуг.
Возможность возникновения неразличимых кратных отказов модулей и их входных линий связи [14] не является серьезным ограничением для восстановления работоспособности систем с реконфигурацией. Действительно, смена РК выводит из числа рабочих не только подозреваемый модуль, но и все его входные и выходные линии связи. Поэтому для таких систем диагностирование отказавших компонентов с точностью до модуля или его входной линии связи представляется ненужным.
5. ПРИМЕР
Особенности процесса СД и реконфигурации покажем на примере 2-ОУ системы, построенной для целевой системы со структурой в виде трехмерного куба. Гиперкубовые структуры МВС обладают рядом достоинств, среди которых отмечают простоту алгоритмов маршрутизации при межпроцессорных обменах информацией, регулярность алгоритмов реконфигурации систем при отказах их компонентов, хорошо формализованные модели их представления [15, 16]. В примере рассматривается 3-куб, в вершинах которого расположены процессорные элементы (на рис. 1 они обозначены кружками, в которых указаны их номера).
Считая граф 3-куба (см. рис. 1) в качестве целевого графа б*, путем двукратного применения алгоритмов синтеза [2] быт построен 2-отказо-
устойчивый граф *5° (см. рис. 2). Первичная таблица РК графа *5° (см. табл. 1) состоит из 1°-ти строк, соответствующих 1°-ти РК и обозначенных номерами °, 1, ..., 9, клетки столбцов 1, 2, ..., 8 в каждой строке содержат номера рабочих вершин данной РК, клетки столбцов 9 и 1° — номера резервных вершин. В столбцах 12—15 приведены номера дуг, соответствующие номерам четырех дуг
целевого графа *° . Начальная РК № ° показана в строке °: рабочие 0, 7, ..., 5, 4 и резервным <?, 9 вершины, рабочие дуги (0 — 2), (3 — 7), (б — 4) и (5 — 7). В столбце 11 показана дуга (4 — 0): она замыкает гамильтонов цикл, в который входят рабочие вершины 0, 7, ..., 5, 4. Дуги между смежными вершинами этого цикла в табл. 1 отдельно не показаны, так как их номера однозначно определя-
ются номерами соседних столбцов: (0 — 7), (7 — 3) и т. д. Номера вершин РК, показанные в строках
1—9, получены циклическим сдвигом справа налево номеров вершин строки °. Номера дуг, показанные в клетках столбцов 11—15 в каждой строке, получены путем замены номеров рабочих вершин строки ° номерами вершин, записанными в тех же столбцах очередной РК. Поэтому в столбце 12 дуга (0 — 2) из строки ° последовательно заменяется дугой, соединяющей вершины с номерами (7 — б), (3 — 7) и т. д., стоящими в соответствующих столбцах ниже вершин 0 и 2. Таким же образом получены номера других рабочих дуг.
В статье [15] предложен алгоритм $2 оптимального обхода и тестирования вершинных процес-сорныгх элементов, состоящий из 2я раундов параллельных проверок смежныгх вершин; я-размерность куба. Таким образом, все 24 теста, необходимые для контроля состояния 3-куба, будут выполнены за 6 раундов, т.е. в 4 раза быстрее последовательного выполнения этих тестов. Но в реализации этих тестов участвуют все модули я-куба, как исправные, так и отказавшие. Поэтому таблица проверок я-куба с отказавшими компонентами будет содержать недостоверные результаты, что усложнит процедуру дешифрации.
Подчеркнем, что алгоритм $2 разработан для проверки работоспособности вершин и дуг неизбыточного я-куба. Поэтому его применение для проверки 2-ОУ системы, построенной на основе 3-куба, возможно только для отдельных РК, содержащих 8 вершин и 12 дуг. Нетрудно видеть, что
2-ОУ граф *5° (см. рис. 2) содержит большое число таких РК. Поэтому вместо перебора всевозможных РК будем использовать описанный процесс последовательного контроля компонентов РК № ° и тех РК, в которые переходит система после обнаружения и устранения очередного подмножества отказавших компонентов.
Итак, пусть 2-ОУ система работает в начальной РК № ° (см. табл. 1). Предположим, что из-за большого интервала между циклами контроля в 2-ОУ системе накопились отказы модуля 4 и линий связи (5 — 7) и (б — 4) (эти компоненты отмечены знаком * в клетках тех РК табл. 1, в состав которых они входят). Контроль работоспособности 2-ОУ системы начинается с модуля, соответствующего начальной вершине гамильтонова цикла для выбранной РК. Так, для РК № ° выберем такой цикл: 0 о 7 о 3 о 2 о б о 7 о 5 о 4 о 0.
По сигналу диагностического монитора начальный модуль про цесса контроля р° (вер шина °) выполнит следующие действия:
— из таблицы Г6° состава РК № ° (см. табл. 2) выщелит строку 7°, найдет в ней номера преемни-
ков тк 1 (7), р*2 (2), р*3 (4), проверит их техническое состояние и в клетки и. N1, и}. N2, Ц,- *з строки 70 запишет результаты проверок: и01 = 0, и02 = 0, и04 = 1 которые показаны в строке 70 табл. 4;
— оценит результаты проверок: хотя и04 = 1, но модуль 0 начальный, поэтому модуль 0 передаст управление процессом контроля соседнему модулю 7.
Модуль 7 (р 1), получив управление от модуля 0, выполнит следующие действия:
— из таблицы 76 0 выделит строку 71, найдет в ней номера преемников 3, 5, 0, проверит их и в соответствующие клетки строки 71 запишет результаты проверок: и13 = 0, и15 = 1, и10 = 0 (для сокращения числа таблиц будем записывать результаты
проверок, находящиеся в разных модулях, в общую табл. 4);
— оценив результаты проверок и обнаружив и15 = 1, достоверно исправный модуль 7 перейдет к процессу СД.
Для сохранения информации, полученной в процессе контроля, монитор начнет процесс СД с модуля 7, который выполнит следующие действия:
1) образует промежуточную таблицу 371 (см. табл. 4), в которую перепишет строку 71 с результатами проверок, полученными в процессе контроля (в индексе символа данной таблицы указан номер 7 начального МПщ);
2) по нулевым результатам проверок в строке 71 выщелит номера 3 и 0 исправных преемников {т1} и согласно следующему пункту процедуры пере-
4
к Примеру
Символ строки Проверяющий модуль Преемники т., результаты их проверок и ранг
т. ранг т. ти и, N1 ранг тн ти и, N2 ранг ти т« и-, N3 ранг ти
Строки с результатами контроля РК № °
7° ° — 1 ° — 2 ° — 4 1 —
71 1 — 3 ° — 5 1 — ° ° —
Таблица 37,
71 1 — 3 ° — 5 1 * ° ° —
7° ° — 1 ° — 2 ° — 4 1 —
72 2 — 6 ° — ° ° — 3 ° —
76 6 2 7 ° 1 4 1 * 2 ° 3
77 7 1 5 ° ° 3 ° 2 6 ° 2
75 5 ° 4 1 * 1 1 * 7 ° 1
73 3 2 2 ° — 7 ° — 1 ° —
Строки с результатами контроля РК № 8
7 78 8 — 9 ° — 1 ° — 7 ° —
7 79 9 — ° ° — 6 1 — 8 ° —
Таблица 379
7 79 9 — ° ° — 6 1 — 8 ° —
7° ° — 1 ° — 2 ° — 9 ° —
71 1 — 3 1 — 8 ° — ° ° —
7 78 8 — 9 ° — 1 ° — 7 ° —
77 7 — 8 ° — 3 1 — 6 ° —
7б 6 — 7 ° — 9 1 — 2 ° —
72 2 — 6 ° — ° ° — 3 1 —
даст таблицу 371 и функции МПщ на следующем шаге СД, например, модулю 0.
Модуль 0 выполнит следующие действия:
1) из таблицы 76 0 выделит строку 70 и перепишет ее в таблицу 371 (см. табл. 4);
2) в строке 70 найдет номера преемников 7, 2, 4; проверит их и в соответствующие клетки строки 70 запишет результаты проверок: и01 = 0, и02 = 0,
и0,4 = 1;
3) по нулевым результатам проверок в строке 70 выделит номера исправных преемников {т0 = 1, 2}, сравнит их с номерами 7, 0 в левом столбце таблицы 371 и обнаружит, что модуль 2 не исполнял функции МПщ, поэтому передаст ему таблицу 371 с результатами проверок и функции МПщ на следующем шаге СД, при этом модуль 2 вернется к п. 1 (см. § 3) процесса СД.
Аналогичные действия в роли МПщ поочередно выполнят модули 2, б, 7 и 5, результаты их проверок своих преемников показаны в строках 72, 76, 77, 75 табл. 4. В отличие от предыдущих МПщ модуль 5 обнаружит, что его исправный преемник — модуль 7 — уже исполнял функции МПщ и перейдет к поиску пути к одному из исправных модулей, еще не исполнявших функции МПщ, с помощью процедуры ранжирования.
Из результатов проверок, записанных в строках 71, ..., Г5 табл. 371, модуль 5 определит, что только исправный модуль 3 не исполнял функции МПщ, из табл. 76 0 выделит строку 73 и перепишет ее в табл. 371. Затем, выполняя процедуру ранжирования, модуль 5 присвоит ранг 0 модулю 5, ранг 7 модулю 7, затем ранг 2 модулям 3 и б Ранжирование закончено, так как модуль 3 попал в число ранжированных. (Результаты ранжирования показаны в строках табл. 371; в некоторых клетках столбцов «ранг ти» и «ранг тк2» стоит знак *, означающий, что соответствующие модули р*1 и р*2 не участвуют в формировании искомого пути, так как они признаны отказавшими по единичным результатам их проверок). Теперь модуль 5 передаст табл. 371 и функции МПщ на следующем шаге СД модулю 3 через цепочку модулей: 5 о 7 о 3.
Модуль 3, получив управление от модуля 5, выполнит следующие действия:
1) в строке 73 табл. 371 найдет номера преемников 2, 7, 7; проверит их и в соответствующие клетки строки 73 запишет результаты: и32 = и37 =
= из,1 = °;
2) по нулевым результатам проверок в строке 73 выделит номера исправных преемников {т3 = 2, 7, 1},
обнаружит, что все они входят в список номеров левого столбца 371, что других исправных модулей, не исполнявших функции МПщ, нет, поэтому процесс сбора тестовой информации закончен. Теперь модуль 3 отправит табл. 371 в обратный путь по цепочке: 3 о 7 о 5 о 7 о б о 2 о 0 о 7, чтобы каждый из исправных модулей имел одинаковую информацию.
Получив табл. 371 от модуля 3, каждый исправный модуль выделит из ее строк результаты проверок и запишет их в клетки строк диагностической таблицы 7д0 (см. табл. 3). Затем на основании правил, приведенных в основном тексте статьи, сформирует и запишет в клетки V*, а. 1 *, а.2 *, а.3 * восьми строк табл. 7Й0 соответствующие диагностические заключения. Их дешифрация позволяет сделать следующие выводы:
— подозреваются в отказе модуль 4 и линии связи (5 — 7) и (7 — 5);
— нет информации о состоянии линий (0 — 4), (б — 4) и (5 — 4), так как отказавший модуль 4 «маскирует» отказы своих входных линий, поэтому линия (б — 4) не попала в число подозреваемых в отказе;
— также нет информации о состоянии линий (4 — 0), (4 — б) и (4 — 5): отказавший модуль 4 не использовался в качестве МПщ;
— в РК № 0 исправны 7 модулей (0, 7, ..., 7, 5) и остальные линии связи, кроме перечисленных.
Сравнение полученного диагноза с составом исходной отказовой ситуации показывает, что вместо линии (5 — 7) подозревается в отказе пара линий (5 — 7) и (7 — 5); причина такого диагноза в том, что логическими методами нельзя различить отказы линий, участвующих в инверсных проверках.
Для устранения влияния подозреваемых компонентов — модуля 4 и дуг (5 — 7) и (7 — 5) — монитор должен перевести 2-ОУ систему из РК № 0 в РК, в которую не входят эти компоненты. Обратившись к первичной таблице (см. табл. 1), нетрудно обнаружить, что модуль 4 входит в состав восьми РК с номерами от 0 до 7 и не входит только в РК № № 8 и 9, где он записан в числе резервных модулей; в эти РК не входит и дуга (5 — 7). Для определенности, выберем в качестве следующей РК № 8.
После нахождения новой работоспособной РК диагностический монитор должен модифицировать таблицу состава 760 и диагностическую таблицу 7д0, заменив номера рабочих модулей в соответствии с подстановкой: (5_90732б7) вместо (0732б754) и получив таблицу 768 (табл. 5) и диагностическую таблицу 7" 8 (табл. 6). Затем монитор
запустит процесс контроля РК № 8, который подтвердит ее работоспособность.
Пусть спустя некоторое время работы системы в РК № 8 возникнут отказы модуля 3 и линии (б — 9), которые в табл. 1 отмечены знаком **.
Как отмечалось, контроль работоспособности
2-ОУ системы начинается с модуля, соответствующего начальной вершине гамильтонова цикла для выбранной РК. После смены РК и замены номеров рабочих вершин меняется и состав гамильтонова цикла: так, для РК № 8 получим такой цикл: 8 о 9 о 0 о 7 о 3 о 2 о б о 7 о 8. Теперь по сигналу ДМ начальный модуль 8 процесса контроля выполнит действия, аналогичные действиям модуля 0 в РК № 0, но искомую строку 78 возьмет из табл. 768, передаст управление контролем модулю 9, который, обнаружив единичный результат проверки модуля б, переведет ДМ в режим выполнения процесса СД (результаты проверок, выпол-
Таблица
ненных модулями 8 и 9, показаны в строках 78 и Г9 табл. 4).
Начальный модуль процесса СД — модуль 9 — начнет построение промежуточной таблицы 379, переписав в нее строку Г9 с результатами проверок, выполненных в процессе контроля, затем по нулевым результатам проверок выделит номера 0 и 8 исправных преемников, и одному из них, например, модулю 0 передаст таблицу 379 и функции МПщ на следующем шаге СД.
Действия модуля 0 и последующих МПщ аналогичны действиям, ранее описанным в процессе СД в РК № 0, за исключением того, что необходимые строки будут извлекаться из табл. 8 (см.
табл. 5); результаты выполненных ими проверок показаны в табл. 379 (см. табл. 4). Модуль 2, завершив ее построение, обнаружит, что больше нет исправных модулей, не выполнявших функции МПщ, и передаст табл. 379 по обратной цепочке:
'а^лм^а 5
Т68 для РК №8
Символ Проверяющий модуль Преемники т., результаты их проверок и ранг
т- ранг т. ти 0, N1 ранг тн ти 0, N2 ранг ти ти 0, N3 ранг ти
7 8 8 - 9 - - 1 - - 7 - -
7 9 9 - 0 - - 6 - - 8 - -
70 0 - 1 - - 2 - - 9 - -
71 1 - 3 - - 8 - - 0 - -
7з 3 - 2 - - 7 - - 1 - -
72 2 - 6 - - 0 - - 3 - -
76 6 - 7 - - 9 - - 2 - -
77 7 - 8 - - 3 - - 6 - -
'а^лм^а 6
Диагностическая таблица Тв 8 для РК № 8
Символ Предшественники т^. Проверяемый модуль т^. Результаты проверок Диагностическое заключение
строки т-1 т 2 т з и-1, N N 0-3, N аЛ N ві2, N вУ3, N
"8 9 1 7 8 0 0 0 0 0 0 0
"9 0 6 8 9 0 1 0 0 0 1 0
"о 1 2 9 0 0 0 0 0 0 0 0
"і 3 8 0 1 — 0 0 0 — 0 0
"з 2 7 1 3 1 1 1 1 ] ] ]
"2 6 0 3 2 0 0 — 0 0 0 —
"б 7 9 2 6 0 1 0 0 0 1 0
"7 8 3 6 7 0 — 0 0 0 — 0
2 о 6 о 7 о 8 о 1 о 0 о 9. Каждый из этих модулей перепишет из ЗТ9 результаты проверок в диагностическую таблицу 7"8 (см. табл. 6), обработает их и придет к следующим диагностическим заключениям:
— подозреваются в отказе модуль 3 и линии связи (6 — 9) и (9 — 6);
— нет информации о состоянии линий (2 — 3), (7 — 3) и (1 — 3), так как отказавший модуль 3 «маскирует» отказы своих входных линий;
— также нет информации о состоянии линий (3 — 1), (3 — 2) и (3 — 7): отказавший модуль 3 не использовался в качестве МПщ;
— в РК № 8 исправны семь модулей (9, 0, 1, 3,
2, 6, 7) и остальные линии связи, кроме перечисленных.
Сравнение полученного диагноза с составом исходной отказовой ситуации показывает, что вместо линии (6 — 9) подозревается в отказе пара линий (6 — 9) и (9 — 6); причина — та же, что и при диагностировании линии (5 — 1) в РК № 0.
Для устранения влияния подозреваемых компонентов — модуля 3 и дуг (6 — 9) и (9 — 6) — монитор должен перевести 2-ОУ систему из РК № 8 в РК, в которую не входят эти компоненты, а также ранее обнаруженные отказавшие модуль 4 и линии (5 — 1) и (1 — 5). Отказ двух модулей оставляет в составе 2-ОУ системы восьми исправных модулей, т. е. система оказывается неизбыточной для отказов любого рабочего модуля. Удаление из
графа *5° (см. рис. 2) отказавших вершин 4 и 3 и инцидентных им дуг преобразует его в восьми вершинный полно связный граф *5*, показанный на рис. 2 более толстыми линиями. В статьях [4, 5] показано, что избыточное число дуг длины 3 в
графе *5 * по сравнению с числом дуг длины 3 в
целевом графе *08 предоставляет дополнительные возможности для устранения их отказов с помощью реконфигурации. Действительно, в графе *0 таких дуг — четыре, их номера в РК № 0 — (0 — 2),
(3 — 7), (6 — 4) и (5 — 1); а граф *5 * содержит восемь дуг длины 3. Анализ расположения этих восьми дуг показывает, что они позволяют построить два РК из восьми вершин с непересекающимися подмножествами дуг длины 3. На рис. 2 показана одна из этих РК, использующая дуги длины 3 с номерами (2 — 5), (7 — 9), (8 — 1) и (0 — 6). Вторая РК использует дуги длины 3 с номерами (6 — 8), (5 — 0), (9 — 2), (1 — 7). Нетрудно проверить, что одно подмножество дуг переходит в другое (и обратно) при сдвиге рабочих вершин графа *5* на 1 шаг, 3, 5, 7 шагов (2, 4 шага, 6, 8 шагов) по га-
8
мильтонову циклу для графа *5*: 2 о 6 о 7 о 5 о 8 о 9 о 0 о 1 о 2. Следовательно, наличие двух
работоспособных РК в графе *5* позволяет устранить отказ одной дуги, входящей (или отказы 2... 4 дуг, входящих) в одно из приведенных подмножеств, путем реконфигурации и таким образом продлить рабочее функционирование 2-ОУ системы без ручной замены отказавших линий связи.
ЗАКЛЮЧЕНИЕ
Предложен метод самодиагностирования состояния компонентов (модулей и линий связи) цифровых систем с реконфигурацией, для построения графов структур которых применены алгоритмы синтеза, предложенные М.Ф. Караваем. В основу разработанного метода СД положен принцип расширяющихся областей: выполнение необходимых процедур начинается с исправного модуля и последовательно передается другим модулям, исправность которых подтверждена предшествующими проверками. Начальный модуль про цедуры СД не является фиксированным, а определяется по результатам работы системы контроля. Предполагается, что допускаются устойчивые кратные отказы ограниченного числа компонентов, причем за время диагностирования новые отказы не возникают, а существующие неисправности таковы, что не приводят к несанкционированному запуску процесса СД в отказавших модулях. Диагностические процедуры реализуются в соответствии с моделью БГМ.
Предполагается, что в исходной отказоустойчивой системе есть диагностический монитор (часть центральной операционной системы), который инициирует процессы контроля, СД и осуществляет реконфигурацию по результатам диагностирования очередной РК.
В соответствии с рассмотренным методом СД выполняются процедуры: исполнения исправным модулем функций проверяющего для своих преемников; нахождения кратчайшего пути от исправного модуля к ближайшему, исправному модулю, еще не исполнявшему функций проверяющего; обработки и дешифрации исправным модулем результатов выполненных проверок.
Для устранения влияния компонентов, подозреваемых в отказе, путем смены РК отказоустойчивого графа применяется способ реконфигурации, представляющий собой вариант скользящего резервирования. В цифровых системах возможны такие сочетания отказавших смежных компонентов (модулей и линий связи), потен циальные синдромы которых неразличимы для однократного
диагностирования. Однако для отказоустойчивых систем с реконфигурацией неразличимость отказов смежных компонентов не препятствует восстановлению их работоспособности.
ЛИТЕРАТУРА
1. квижеяис k. Отказоустойчивость — свойство, обеспечивающее постоянную работоспособность цифровых систем // ТИИЭР. — 1978. — Т. 66. — № 10. — С. 5—25.
2. Харавай 1.Ф. Инвариантно-групповой подход к исследованию N-отказоустойчивых структур// Автоматика и телемеханика. — 2000. — № 1. — С. 144—156.
3. МаеЫе 0оп'?]еи Ми/ .. A graph model for diagnosis
and reconfiguration and its application to a fault-tolerant multiprocessor system // 16-th Int. Conf. on Fault-Tolerant Computing FTCS-16, 1986. — P. 292—297.
4. {едешеяков {.k. Об использовании избыточных хорд N-отказоустойчивого графа для устранения влияния отказавших компонент // Автоматика и телемеханика. — 2003. — № 4. — С. 158—166.
5. {едешеяков {.k. Процедура восстановления работоспособности отказоустойчивых цифровых систем с динамической избыточностью // Автоматика и телемеханика. — 2003. — № 5. — С. 167—179.
6. 5ага/ Granrfon/' 0ает/ги/ P. A theory of diagnosability of
digital systems // IEEE Trans. Comput. — 1976. — Vol. C-25. — № 6. — P. 585—593.
7. PuesauaWa ).P., 0eW]e G., Сй/'еи 5.7 On the connection assignment problem of diagnosable systems // IEEE Trans. Electr. Comput. — 1967. — Vol. 16. — № 6. — P. 848—854.
8. Лартиеяко Л.Л. Определение технического состояния многопроцессорных вычислительных систем путем анализа
графа синдромов // Автоматика и телемеханика. — 1999. — № 5. — С. 126—135.
9. %«,sAms 5.Ж, 5/аисйш/ 5.P Distributed on-line diagnosis in the presence of arbitrary faults // Proc. of the 23-rd Int. Symp. on Fault Tolerant Computing, 1993. — P. 470—479.
10. #<шегиг 6.+., .ий/ /.G., 5efiW\ 6.0. A diagnosis algorithm for distributed computing systems with dynamic failure and repair // IEEE Trans. Comput. — 1984. — Vol. C-33. — № 3. — P. 223—233.
11. 5/аисйш/ 5./u., Goorfw/'и .., lyrfz'cN ".6. Practical application and implementation of distributed system-level diagnosis theory // Proc. of the 20-th Int. Symp. on Fault Tolerant Computing, 1990. — P. 332—339.
12. 5/аисйш/ 5.-u., %«,sAms 5.М An adaptive distributed system-level diagnosis algorithm and its implementation // Proc. of the 21-st Int. Symp. on Fault Tolerant Computing, 1991. — P. 222—229.
13. {едешеяков {.k. Организация самодиагностирования технического состояния цифровых систем // Автоматика и телемеханика. — 2003. — № 11. — С. 165—182.
14. {едешеяков {.k. О диагностировании отказавших модулей и связей в цифровых системах с использованием модели БГМ // Автоматика и телемеханика. — 2002. — № 2. — C. 159—171.
15. Лартиеяко ^.^. О системном диагностировании вершинных и реберных гиперкубовых структур многопроцессорных вычислительных систем // Автоматика и телемеханика. — 1996. — № 11. — С. 165—174.
16. {едешеяков {.k. О системном диагностировании отказавших модулей и связей в гиперкубовых структурах мно го-процессорных вычислительных систем // Автоматика и телемеханика. — 2001. — № 12. — C. 83—94.
S f695; 554-75-90
(-таг/: ууа@/.9.гри.цж«>и □
книга
Новиков Д.А. Стимулирование в организационных системах. - М.: СИНТЕГ, 2003. -312 с. (серия «Управление организационными системами»).
Монография посвящена описанию формальных моделей стимулирования в организационных системах. Ее целью, помимо ознакомления читателя с современным состоянием дел в данной области теории управления, является демонстрация необходимости и целесообразности применения моделей стимулирования для повышения эффективности работы организаций.
Рассмотрены модели индивидуального и коллективного стимулирования, установлена взаимосвязь между результатами моделирования и применяемыми на практике формами и системами оплаты труда, приведены результаты экспериментальных исследований, обсуждена возможность использования решений задач стимулирования при оптимизации состава организационных систем.
Книга адресована студентам вузов, аспирантам и специалистам [теоретикам и практикам) в области экономики труда и управления социально-экономическими системами.
ДА. Новиков - д-р техн. наук, профессор кафедры «Проблемы управления» Московского физико-технического института, ведущий научный сотрудник лаборатории активных систем Института проблем управления им. В.А. Трапезникова. Автор многих работ по теории управления социальноэкономическими системами, в том числе по теории игр, принятию решений и механизмам управления организационными системами.
ПРОБЛЕМЫ УПРАВЛЕНИЯ № 4 • 2DD3