Научная статья на тему 'МАТЕМАТИЧЕСКИЕ МОДЕЛИ ОЦЕНКИ ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ ДЛЯ ИССЛЕДОВАНИЯ ВЕРОЯТНОСТНО-ВРЕМЕННЫХ ХАРАКТЕРИСТИК МНОГОМАШИННЫХ КОМПЛЕКСОВ С УЧЕТОМ ОТКАЗОВ'

МАТЕМАТИЧЕСКИЕ МОДЕЛИ ОЦЕНКИ ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ ДЛЯ ИССЛЕДОВАНИЯ ВЕРОЯТНОСТНО-ВРЕМЕННЫХ ХАРАКТЕРИСТИК МНОГОМАШИННЫХ КОМПЛЕКСОВ С УЧЕТОМ ОТКАЗОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
111
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫЧИСЛИТЕЛЬНЫЙ КОМПЛЕКС / МНОГОУРОВНЕВЫЕ МОДЕЛИ / НАДЕЖНОСТЬ / РЕЗЕРВИРОВАНИЕ / ВЕРОЯТНОСТНО-ВРЕМЕННЫЕ ХАРАКТЕРИСТИКИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Леонтьев А.С., Тимошкин М.С.

Рассмотрены вопросы построения семейства аналитических моделей с ненадежными элементами для расчета вероятностно-временных характеристик процессов обработки информации в многомашинных вычислительных комплексах автоматизированных систем обработки данных с учетом возникающих отказов и сбоев. Выбраны исходные данные для исследования вероятностно-временных характеристик многомашинных вычислительных комплексов. Формализованы и решены задачи определения эквивалентных характеристик подсистемы внешних устройств со скользящим резервом и задача параллельной композиции с учётом переключений. Осуществлена программная реализация разработанных математических моделей, позволяющих в автоматизированном режиме проводить многовариантный анализ различных вариантов организации обработки информации в многомашинных вычислительных комплексах с учетом характеристик надежности. Новизна полученных результатов заключается в том, что впервые с системных позиций рассмотрены работы по использованию моделей, характеризующих отказы, совместно с сетевыми многоуровневыми моделями оценки вероятностно-временных характеристик вычислительных комплексов и разработаны аналитические интерфейсные модели оценки исходных данных, характеризующих различные типы отказов и сбоев в вычислительных комплексах, для их непосредственного использования в разработанном ранее авторами оригинальном подходе моделирования процессов обработки информации с помощью многоуровневых аналитических моделей с ненадежными обслуживающими аппаратами, где потоки различных типов отказов и сбоев являются заявками высших приоритетов и существенным образом влияют на вероятностно-временные характеристики процессов обработки заявок на различных уровнях семейства многоуровневых формализованных моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Леонтьев А.С., Тимошкин М.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL MODELS FOR EVALUATING RELIABILITY INDICATORS TO STUDY THE PROBABILISTIC AND TEMPORAL CHARACTERISTICS OF MULTI-MACHINE COMPLEXES WITH REGARD TO FAILURES

The article describes the problems of constructing a family of analytical models with unreliable elements for calculating the probabilistic and temporal characteristics of information processing in multi-machine computer complexes of automated data processing systems, taking into account failures and malfunctions. Initial data for research of probabilistic and temporal characteristics of multimachine computer complexes are selected. Problems of determination of equivalent characteristics of a subsystem of external devices with sliding reserve and a problem of parallel composition with regard to account switching are formalized and solved. Software implementation of the mathematical models enabling an automated multivariate analysis of information processing in multimachine computer systems was carried out taking into account the reliability characteristics. The novelty of the results is due to the fact that for the first time the works on the use of models characterizing failures, together with the network multilevel models of assessment of the probabilistic and temporal characteristics of computing systems have been reviewed from a system perspective, as well as analytical interface models of the initial data evaluation characterizing different types of failures and malfunctions in the computing systems for their direct use in the original approach to modelling the processing of information designed earlier by the authors are developed.

Текст научной работы на тему «МАТЕМАТИЧЕСКИЕ МОДЕЛИ ОЦЕНКИ ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ ДЛЯ ИССЛЕДОВАНИЯ ВЕРОЯТНОСТНО-ВРЕМЕННЫХ ХАРАКТЕРИСТИК МНОГОМАШИННЫХ КОМПЛЕКСОВ С УЧЕТОМ ОТКАЗОВ»

ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ И ИХ ЭЛЕМЕНТЫ / COMPUTING SYSTEMS AND THEIR ELEMENTS

МАТЕМАТИЧЕСКИЕ МОДЕЛИ ОЦЕНКИ ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ ДЛЯ ИССЛЕДОВАНИЯ ВЕРОЯТНОСТНО-ВРЕМЕННЫХ ХАРАКТЕРИСТИК МНОГОМАШИННЫХ КОМПЛЕКСОВ С УЧЕТОМ

ОТКАЗОВ

Научная статья

Леонтьев А.С.1, Тимошкин М.С.2' *

1 ORCID : 0000-0003-3673-2468;

2 ORCID : 0000-0003-1842-8331;

1 2 МИРЭА - Российский технологический университет, Москва, Российская Федерация

* Корреспондирующий автор (max030511[at]gmail.com)

Аннотация

Рассмотрены вопросы построения семейства аналитических моделей с ненадежными элементами для расчета вероятностно-временных характеристик процессов обработки информации в многомашинных вычислительных комплексах автоматизированных систем обработки данных с учетом возникающих отказов и сбоев. Выбраны исходные данные для исследования вероятностно-временных характеристик многомашинных вычислительных комплексов. Формализованы и решены задачи определения эквивалентных характеристик подсистемы внешних устройств со скользящим резервом и задача параллельной композиции с учётом переключений. Осуществлена программная реализация разработанных математических моделей, позволяющих в автоматизированном режиме проводить многовариантный анализ различных вариантов организации обработки информации в многомашинных вычислительных комплексах с учетом характеристик надежности. Новизна полученных результатов заключается в том, что впервые с системных позиций рассмотрены работы по использованию моделей, характеризующих отказы, совместно с сетевыми многоуровневыми моделями оценки вероятностно-временных характеристик вычислительных комплексов и разработаны аналитические интерфейсные модели оценки исходных данных, характеризующих различные типы отказов и сбоев в вычислительных комплексах, для их непосредственного использования в разработанном ранее авторами оригинальном подходе моделирования процессов обработки информации с помощью многоуровневых аналитических моделей с ненадежными обслуживающими аппаратами, где потоки различных типов отказов и сбоев являются заявками высших приоритетов и существенным образом влияют на вероятностно-временные характеристики процессов обработки заявок на различных уровнях семейства многоуровневых формализованных моделей.

Ключевые слова: вычислительный комплекс, многоуровневые модели, надежность, резервирование, вероятностно-временные характеристики.

MATHEMATICAL MODELS FOR EVALUATING RELIABILITY INDICATORS TO STUDY THE PROBABILISTIC AND TEMPORAL CHARACTERISTICS OF MULTI-MACHINE COMPLEXES WITH REGARD

TO FAILURES

Research article

Leontev A.S.1, Timoshkin M.S.2' *

1 ORCID : 0000-0003-3673-2468;

2 ORCID : 0000-0003-1842-8331;

1 2 MIREA - Russian Technological University, Moscow, Russian Federation

* Corresponding author (max030511[at]gmail.com)

Abstract

The article describes the problems of constructing a family of analytical models with unreliable elements for calculating the probabilistic and temporal characteristics of information processing in multi-machine computer complexes of automated data processing systems, taking into account failures and malfunctions. Initial data for research of probabilistic and temporal characteristics of multimachine computer complexes are selected. Problems of determination of equivalent characteristics of a subsystem of external devices with sliding reserve and a problem of parallel composition with regard to account switching are formalized and solved. Software implementation of the mathematical models enabling an automated multivariate analysis of information processing in multimachine computer systems was carried out taking into account the reliability characteristics. The novelty of the results is due to the fact that for the first time the works on the use of models characterizing failures, together with the network multilevel models of assessment of the probabilistic and temporal characteristics of computing systems have been reviewed from a system perspective, as well as analytical interface models of the initial data evaluation characterizing different types of failures and malfunctions in the computing systems for their direct use in the original approach to modelling the processing of information designed earlier by the authors are developed.

Keywords: computing complex, multilevel models, reliability, backup, probabilistic and temporal characteristics.

Введение

Для создания систем автоматизации проектирования информационно-вычислительных систем, ядром которых являются вычислительные комплексы, необходима разработка математических методов и моделей, достаточно адекватно описывающих процесс функционирования этих систем, позволяющих определять их основные характеристики и использовать различные модели в составе единого программного комплекса. Наиболее эффективным оказывается иерархический подход, позволяющий путем создания многоуровневых моделей подробно описать как всю

систему в целом, так и ее отдельные элементы. Вычислительные комплексы (ВК), работающие в составе автоматизированных систем обработки данных (АСОД), должны удовлетворять высоким требованиям по производительности и надёжности функционирования. На процесс обработки информации в АСОД накладываются жёсткие временные ограничения; ВК должен обеспечивать обработку информации в заданные директивные сроки. На временные характеристики процесса обработки существенное влияние оказывают отказы и сбои, В связи с этим на этапе технического проектирования комплекса и при выборе рациональных режимов обработки данных, необходимо оценить влияние характеристик надёжности на временные характеристики процесса обработки информации.

В данной работе рассматриваются вопросы оценки показателей надежности ВК и построения формализованных математических моделей анализа процесса обработки информации в ВК АСОД с учётом надёжности. При анализе показателей надежности ВК наиболее широко используются аналитические модели, базирующиеся на теории надежности [1], [2], [3], [4] и теории массового обслуживания [5], [6], [7], [8].

Анализ особенностей функционирования ВК в составе АСОД

ВК является центральным звеном сбора, обработки и выдачи информации АСОД. Большая ценность обрабатываемой информации, высокая ответственность при принятии решений, недопустимость потери информации, сложность процесса обработки накладывают жёсткие ограничения на временные и надёжностные характеристики АСОД. Удовлетворение этих требований достигается за счёт введения аппаратной и информационной избыточности на различных уровнях системы, выбором рациональных режимов обработки данных, применением специальных программных средств, обеспечивающих работоспособность при отказах, созданием и совершенствованием системы обеспечения функционирования ВК [9], [10], [11].

Основными особенностями функционирования вычислительного комплекса в составе АСОД являются [12]:

- наличие большого числа удалённых абонентов, инициирующих сравнительно небольшое количество запросов различных типов;

- поступление запросов на обработку в ВК от абонентов в случайные моменты времени;

- обработка заявок в соответствии с заранее известной технологической схемой, обеспечивающей наличие постоянных маршрутов обработки запросов в системе;

- недопустимость потери информации и наличие ограничений на временные характеристики процесса обработки запросов.

Такая особенность, как случайный характер поступления запросов на обработку, влечёт за собой требование непрерывного функционирования ВК, а недопустимость потери информации влечёт требование к комплексу, чтобы он постоянно находился в работоспособном состоянии.

Обеспечение требования непрерывной работы ВК можно осуществить только с некоторой вероятностью. Поэтому вместо требования непрерывной работы ВК, накладывают жёсткие ограничения на временные и надёжностные характеристики ВК, в частности, на такие, как время обработки запросов, вероятность обработки запросов в заданные сроки, коэффициент готовности, среднее время наработки на отказ и др. [13].

Проблема оценки надежности ВК и подсистем хранения данных является в настоящее время важной и актуальной задачей [4], [14], [15], [16].

Наиболее информативными с точки зрения процесса обработки информации в ВК являются такие обобщенные показатели качества функционирования ВК, как вероятности обработки запросов в заданные директивные сроки |Рг < Т?^ | £ 7о| , где 7) - время обработки у -го запроса в ВК, "рН - заданное директивное время

обработки, ^ - множество сообщений, обрабатываемых в ВК.

Семейство многоуровневых моделей проблемного и структурного уровней

Процесс обработки заявок в ВК с учетом возникающих отказов, сбоев и искажений во входной информации описывается с помощью семейства многоуровневых вложенных моделей проблемного и структурного уровней с ненадежными элементами, причем на проблемном уровне имитируется функционирование программных ресурсов, а на структурном уровне - аппаратных ресурсов. В работах [17], [18] предложен и обоснован декомпозиционный аналитико-имитационный метод анализа временных характеристик многомашинных ВК с учетом надежности, базирующийся на использовании вложенных многоуровневых моделей. Метод включает следующие шаги:

1. Определение потоков требований на обслуживание на аппаратном уровне с помощью интерфейсных подмоделей настройки модели структурного уровня.

2. Использование аналитического метода для определения временных характеристик обработки требований на аппаратном уровне путем декомпозиции модели структурного уровня на элементарные базисные подмодели процессоров и каналов.

3. Настойка модели проблемного уровня с помощью соответствующих интерфейсных подмоделей.

4. Преобразование с помощью аналитических методов ненадежных обслуживающих аппаратов (ОА) проблемного уровня в эквивалентные надежные.

5. Построение аппроксимирующих функций распределения (ФР) времени обработки заявок эквивалентными аппаратами.

6. Определение выходных характеристик системы с помощью имитационного моделирования многофазной СМО проблемного уровня с эквивалентными надежными ОА.

Выбор исходных данных для исследования вероятностно-временных характеристик многомашинных ВК с учетом надежности

Для анализа процесса обработки необходимо знать параметры, характеризующие интенсивность различных типов отказов и сбоев и функции распределения времени восстановления системы. Основными средствами борьбы с влиянием отказов на процесс обработки являются резервирование системы на различных уровнях и организация контрольных точек [19], [20]. Для комплексирования и создания резервированных вычислительных комплексов

предусмотрен целый ряд технических и программных средств на различных функциональных уровнях [21], [22], [23], [24]:

- на уровне процессоров - средства прямого управления;

- на уровне каналов ввода-вывода - адаптеры канал-канал;

- на уровне внешних устройств - многовходовые устройства управления внешними устройствами.

Наибольшее распространение в настоящее время получили однородные многомашинные ВК. Одним из

преимуществ однородных вычислительных комплексов является возможность организации режима горячего резерва. Одна из ЭВМ ВК, функционирующая в составе АСОД, обслуживает все заявки, поступающие в систему, другая ЭВМ находится в режиме горячего резерва. Основная ЭВМ через определенные промежутки времени передаёт промежуточную информацию в резервную машину с целью организации контрольных точек. При нормальном функционировании комплекса перевод ЭВМ из основной в резервную и наоборот осуществляется специальной программой. При отказе основной ЭВМ, резервная продолжает обработку прерванной задачи с места последней контрольной точки. Доступ к внешней памяти осуществляется с помощью двухвходовых устройств управления. Во время восстановления отказавшей ЭВМ вычислительный комплекс функционирует без горячего резерва и отказ второй ЭВМ влечёт за собой отказ вычислительной системы.

Интервалы времени, когда интенсивность потока заявок такова, что возникает перегрузка основной ЭВМ, относительно невелики. И в среднем загрузка ВК меньше предельно допустимой загрузки одной из машин. Для устранения перегрузок используется режим параллельной обработки заявок на обеих ЭВМ, с соответствующим их распределением по машинам.

Время обработки запросов в ВК АСОД обычно значительно меньше нормативного времени их пребывания в системе. Разность между нормативным временем и реальным временем обработки сообщений в системе может быть порядка десятков минут. Это позволяет иногда произвести обработку заявки за время, не превосходящее нормативное, даже в том случае, если во время обработки заявки возникает отказ. Вычислительные комплексы, функционирующие в состав АСОД, являются многомашинными вычислительными комплексами с временной избыточностью при обработке случайных запросов.

Обработка сообщений в АСОД имеет ряд особенностей. Каждая заявка обрабатывается, как правило, несколькими программами. Маршруты заявок по обрабатывающим программам являются заданными. Некоторые программы предназначены для обработки различных типов заявок. Для координации процесса обработки и разрешения возникающих конфликтов разрабатывается специальная управляющая программа, которая может использовать пакеты прикладных программ, входящих в состав математического обеспечения ЭВМ.

В процессе функционирования ЭВМ возникают различные неисправности, приводящие к ошибкам. Сложность современных ЭВМ требует быстрой реакции на ошибку, иначе задержки в локализации ошибок и устранение их последствий приведут к чрезмерным потерям времени. Для повышения эффективности использования ЭВМ в состав операционных систем включаются специальные программные средства, предназначенные для восстановления работоспособности ОС после возникновения ошибок центрального процессора, оперативной памяти, каналов ввода-вывода, периферийных устройств, а также для регистрации информации о состоянии аппаратных и программных средств в момент возникновения ошибок [25].

При возникновении ошибок может нарушаться целостность информационной базы и могут возникать некорректные описания элементов информационной базы. Поэтому в управляющей программе АСОД предусматриваются специальные средства, осуществляющие корректировку неправильных описаний, что позволяет существенно уменьшить время восстановления после отказов, разрушающих информацию.

Для определения времени обработки заявок в ВК АСОД необходимо задать параметры, характеризующие процесс обработки заявок и данные, характеризующие отказы, сбои и функции распределения времени восстановления.

В качестве исходных данных для исследования временных характеристик ВК АСОД, функционирующих в режиме «запрос-ответ» выбраны [18], [26]:

1. Число ЭВМ в МВК (NVKS) и число каналов в каждой ЭВМ.

2. Число различных типов сообщений (NSS).

3. Количество программ, с помощью которых производится обработка (NRS).

4. Распределение программ по ЭВМ комплекса.

5. Распределение программ и данных по каналам.

6. Распределение оперативной памяти между программами.

7. Приоритеты заявок (сообщений) и обрабатывающих программ.

8. Характеристики обрабатываемых сообщений:

- маршруты обработки (под маршрутами понимается последовательность программ, обрабатывающих сообщение);

- интенсивности входных потоков j — 1 ЫЯБ^ ;

- нормативные времена обработки сообщений ^рН j — \ .

9. Характеристики обрабатывающих программ:

- среднее число выполняемых машинных команд;

- общее число страниц ОП, занимаемое программой;

- среднее число обращений программы к каналу для ввода и вывода.

10. Характеристики ЭВМ МВК:

- производительность процессора и каналов;

- объём ОП, число обращений к оперативной памяти на одну машинную команду.

11. Характеристики надёжности технических средств:

- интенсивность отказов, после которых обработка данных возможна только:

а) после ремонта - ; (1) (тип 1);

ЛОТ

б) после переключения на резервные элементы ВК - ; (2) (тип 2);

ЛОГ

в) после перезагрузки системы - ;(3) (тип 3);

лОТ

- интенсивность отказов внешних устройств, используемых ^ -ой программой, не приводящих к потере работоспособности всей системы - дВУ , . _ ^ ;

- моменты функции распределения времени восстановления после отказов 1-го, 2-го и 3-го типов - ,

, , „ _ Т* ;

ОТ(2) ГОГ(3) П- I, А

- моменты функции распределения времени переключения на резервные устройства при отказах внешних

устройств, не приводящих к потере работоспособности системы - р(«) , „ ;

ВУ П — 1,4

- интенсивность сбоев в процессоре и каналах при их полной загрузке;

- моменты функции распределения времени восстановления;

- после сбоев в процессоре и каналах.

12. Интенсивность программных отказов при выполнении ^ -ой обрабатывающей программы - ,

ОТ/

г = .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выбранные исходные данные позволяют определить среднее время пребывания, дисперсию и вероятность обработки сообщения каждого типа с учётом отказов и сбоев.

Современные ВК автоматизированной обработки данных характеризуются значительной сложностью процесса обработки. В процессе обработки информации возникают конфликты, обусловленные совместным использованием как аппаратных, так и программных ресурсов ВК.

Кроме того, в процессе функционирования возникают отказы и сбои, приводящие к дообслуживанию или повторному обслуживанию прерванных требований после восстановления системы.

Одним из путей, позволяющих преодолеть трудности при разработке моделей функционирования, является использование многоуровневого подхода, позволяющего описать работу ВК АСОД с помощью системы иерархических моделей [26].

Отказы и сбои, возникающие в системе, по-разному влияют на процесс обработки. Задача их одновременного учёта представляет значительные трудности. Поэтому предлагаются различные типы отказов и сбоев учитывать с помощью разных моделей, совокупность которых образует семейство многоуровневых моделей.

Такой подход позволяет произвести классификацию отказов и сбоев и произвести их последовательный учёт с помощью различных моделей, принадлежащих семейству.

Классификация ошибок при функционировании ВК АСОД

В процессе функционирования АСОД возникают ошибки, которые приводят как к увеличению времени обработки заявок, так и к снижению достоверности получаемых результатов. На всех этапах подготовки, ввода, обработки и выдачи пользователю информация подвергается контролю. Однако даже при самых совершенных методах контроля часть ошибок остаётся вплоть до этапа, когда информация выдается пользователю.

Сложность современных вычислительных систем требует быстрой реакции на ошибку, иначе задержки в локализации ошибок и устранение их последствий приведут к искажению информации и чрезмерным потерям времени на восстановление системы.

Аппаратно-программные средства обработки ошибок в ЭВМ обеспечивают широкие возможности обнаружения отказов и сбоев. Эти средства обеспечивают автоматическое восстановление после некоторых сбоев и предоставление необходимой информации для целей обслуживания и ремонта [1], [10], [23], [24]. Основными механизмами восстановления после сбоев являются исправления по избыточности, повторение операций и отключение отказавшего блока системы.

Наибольшее влияние на временные характеристики АСОД оказывают сбои, приводящие к зависаниям. Согласно определению, приведенному в работе [12], «зависание» - это такое состояние системы, при котором ни одно из устройств не зафиксировало сбоя аппаратных средств, однако система не может продолжать работу, так как не закончена какая-либо начатая процедура в системе. Это может произойти при зацикливании процессора в алгоритме какой-либо команды без нарушения чётности, при пропадании сигналов в интерфейсе процессор-память или память-канал. Сбои, приводящие к зависаниям, по своему влиянию на вычислительный процесс эквивалентны отказам, вызывающим потерю работоспособности системы.

Опыт эксплуатации различных вычислительных систем показал, что сбои, приводящие к зависаниям, происходят значительно чаще, чем отказы технических средств. Кроме, того, что зависание вызывает необходимость перезагрузки операционной системы, при этом, могут появиться некорректные описания в информационной базе. Поэтому при проектировании АСОД помимо резервирования системы на различных уровнях необходимо предусмотреть специальные средства борьбы как с зависаниями, так и с программными ошибками и ошибками пользователя которые приводят к нарушению целостности информационной базы и снижению достоверности получаемых результатов [1], [10], [12], [27].

Полные аппаратные отказы приводят к повторному выполнению всех обрабатывающих программ после восстановления системы от соответствующих контрольных точек. Частичные отказы, отказы внешних устройств, приводят к повторному выполнению только тех программ, которые используют эти устройства в процессе обработки. Сбои, обнаруживаемые и исправляемые аппаратно-программными средствами ЭВМ, не приводят к повторному выполнению обрабатывающих программ. Сбои приводят к увеличению времени обслуживания требований

обрабатывающих программ в процессоре и каналах за счёт повторения на уровне команд и затрат времени на работу программных средств анализа и восстановления ЭВМ.

Появление сбоев, обнаруживаемых программными методами, например, алгоритмический контроль, логический контроль и так далее обнаруживается лишь на завершающей стадии обработки. Для их устранения работа программы повторяется заново.

Для определения достоверности обработки сообщений с помощью семейства многоуровневых моделей будем использовать подходу согласно которому предполагается, что любой отказ или сбой в аппаратуре ЭВМ или любая ошибка в программе вычислений, если они не обнаружены во время выполнения программы, приводят к недопустимому результату обработки заявки [28], [29]. Справедливость предположения об однозначной связи между ошибками аппаратуры и обрабатывающих программ и недопустимыми результатами вычислений в отличие от подхода, при котором достоверность определяется, как вероятность того, что выходные данные не содержат грубых ошибок, подтверждаются тем, что в настоящее время, как отмечено в работе [28], наибольшее распространение получили формальные методы контроля вычислительного процесса (контроль по модулю, коды с обнаружением ошибок), реализуемые специальной аппаратурой, которые не дают информации о величине ошибок, а только фиксируют её наличие.

Кроме того, для логических операций и операций передачи управления понятие «величины ошибки» вообще мало применимо. Поэтому вероятность того, что во время обработки заявки не произошло необнаруженных ошибок, определяется выражением:

Р? = Рф 1 = 1 = ййй, (1)

где Ру - вероятность отсутствия необнаруженных ошибок при обработке у -го сообщения I -ой

обрабатывающей программой;

^ - число программ, обрабатывающих у -ое сообщение.

Учёт влияния отказов в ВК при определении временных характеристик обработки заявок приводит к значительным математическим трудностям. Необходимо учитывать различный механизм воздействия на вычислительный процесс отказов различного типа. Отказы технических средств, приводящие к потере работоспособности всей системы (полные отказы, отказы приводящие к переключению на резервные ЭВМ, сбои, приводящие к зависанию системы), приводят к отбрасыванию всех выполняющихся программ к началу или к соответствующим контрольным точкам и повторному выполнению этих программ после восстановления системы, в то время, как отказы внешних устройств приводят к повторному выполнению после восстановления только тех программ, которые используют их во время работы. При определении временных характеристик ; -ой программы на структурном уровне необходимо учитывать дополнительные потоки требований на обработку в процессоре и каналах других программ, обусловленные отказами внешних устройств, не используемых ; -ой программой. Подчеркнём, что воздействие таких отказов на ; -ю программу может быть учтено только на структурном уровне. Обслуживающие аппараты проблемного уровня являются ненадёжными [26].

Кроме того, необходимо учитывать дополнительное время ожидания приёма заявки на обслуживание в ВС, если требование на обработку генерируется во время восстановления ВС после отказа. Учёт влияния программных отказов в разрабатываемом семействе моделей имеет свою специфику, обусловленную классом исследуемых систем и условиями функционирования АСОД в режиме «запрос-ответ». Жёсткие временные ограничения на обработку заявок позволяют считать, что при возникновении программного отказа обработка заявки с вероятностью, равной единице, не может быть выполнена в директивные, сроки, так как исправление программных ошибок требует значительного времени, как правило, на исправление требуется несколько дней.

Разработка моделей анализа восстановления работоспособности ВК после отказов

Наибольшие трудности при задании исходных данных, необходимых для определения показателей качества функционирования ВК АСОД, вызывает задание параметров, характеризующих отказы и функции распределения времени восстановления после них. Определение моментов функции распределения времени восстановления ВК после, отказов, базируется на методах последовательной и параллельной композиции [27], позволяющих свести надежностную схему резервированного ВК к эквивалентному в смысле надёжности элементу. Однако при параллельной композиции не учитываются отказы, приводящие к переключениям на резервные элементы и время переключения. Одним из наиболее широко используемых методов резервирования внешних устройств ВК является скользящее резервирование. Подсистема внешних устройств (ВУ) со скользящим резервированием не может быть сведена к эквивалентному элементу с помощью методов последовательной и параллельной композиции. Поэтому возникает необходимость разработки моделей, с помощью которых осуществляется параллельная композиция с учётом переключений и описывается работа подсистемы ВУ со скользящим резервом.

Не все исходные данные, необходимые для определения показателей качества функционирования ВК, характеризующие отказы, сбои и функции распределения времени восстановления после них, могут быть получены с помощью моделей. Отметим, что параметры, характеризующие ошибки, возникающие при функционировании АСОД, например, интенсивность ошибок, приводящих к зависаниям, практически могут быть определены только на основании обработки статистических данных, так как зависании, как правило, бывают обусловлены сложными интерференционными взаимодействиями аппаратных и программных ресурсов ВК.

Существует два класса высокоэффективных методов сбора данных с целью получения оценок. Первый класс - это измерения, выполняемые в рамках программного обеспечения, а второй - аппаратные измерения. В общем случае сбор данных почти полностью может быть выполнен с помощью программных методов.

Другим способом сбора статистических данных является протоколирование процесса обработки информации в ВК операторами и персоналом, обслуживающим технические средства.

При определении интенсивности отказов и моментов функции распределения времени восстановления структура вычислительного комплекса сводится к эквивалентному в смысле надёжности элементу.

Определение: два элемента называются эквивалентными, если равны первые два момента функции распределения времени восстановления и интенсивности отказов этих элементов.

Метод параллельной композиции

Задача параллельной композиции с учётом переключений, возникающая при сведении структуры ВК и эквивалентному элементу формулируется следующим образом:

Определить интенсивность полных отказов, отказов, приводящих к переключениям, и первые два момента функции распределения времени восстановления подсистемы, состоящей из двух элементов, один из которых находится в резерве при ограниченном и неограниченном восстановлении.

Отказ резервного элемента не оказывает влияния на процесс обработки. При экспоненциальном характере функций распределения времени восстановления задача может быть решена аналитически. В противном случае следует использовать имитационное моделирование.

Решение задачи: функции распределения времени восстановления рассматриваемой подсистемы определяются с помощью следующих интегральных соотношений:

For (t) = PiB(i) +Р0 f B(t - u)ne~^udu,

J° (2)

-Рнеог (0 = P?B(t)+Pg f B(t - u)2fie~2,ludu,

Jo

где Р0 = \-Р1 - вероятность того, что в момент отказа основного элемента, резервный неисправен ( р^ исправен);

- ф.р. времени переключения; ^ - интенсивность восстановления. Применив к (2) преобразование Лапласа-Стильтъеса, получим:

Р^Г(З)=Р1В*(5) + Р0В*(5) М

и + 5

2и (3)

^еогОО = Р?В*{з)+Р*В*{8)щ^.

Продифференцировав (3) по $ , получим:

Г № = В<1> + Ро/И ( РЩ = В<1> + ри/2И

{ & = В(2) + | р(2)г = в(2) + рн(^р. • (4)

Для определения моментов Foт(t) можно воспользоваться результатами теории восстановления [30], [31], устанавливающими связь между коэффициентом готовности функцией распределения времени восстановления и интенсивностью отказов:

К*(з) = [з + Лот (1 - РотШГ1' (5)

где К?(5) = ^овв-"1Сг(0Л ,

Гт(8) = /0е"е-*<1Рт; (0 .

Дифференцируя соотношение (5) по 5 и производя соответствующие преобразования, легко получить следующее выражение:

(1) _ 1

ГОТ - ХотКСТ' (6)

где = Ит^_>оо -Кг(0 - стационарный коэффициент готовности.

При пуассоновском потоке отказов и экспоненциальной функции распределения времени переключения определяется из уравнений Чепмена-Колмогорова [5], [8] Марковского процесса с конечным числом состояний, описывающим поведение подсистемы из двух параллельных элементов. На рис. 1 дано схематическое представление задачи параллельной композиции. Вероятностный граф состояний для ограниченного и неограниченного восстановления приведен на рис. 2. Состояния работоспособности основного и резервного элементов характеризуются двумерным стохастическим вектором: £(£) = (£!(£) .

Компонента характеризует состояние основного, а - резервного элемента в момент ^ .

Компоненты могут принимать только два значения:

¡, , 11 - элемент находится в работоспособном состоянии 6(0 =

10 - элемент неисправен и находится в ремонте РъР2,Рз,Р4 обозначают стационарную вероятность нахождения системы в соответствующих состояниях. Уравнения Чепмена-Колмогорова для вероятностей состояний в стационарном режиме в случае ограниченного восстановления записываются следующим образом:

' (1 + р)ХотР\ = Ир2 (Лот + и) р2= рЛотР\ + ЬРз

ЛотРг = иРл " (7)

ЬРЪ = Х0тР\ + №

Значения р^ р2 р3 р4 определяются из уравнений (7) и соотношения нормировки 1 Р,- = 1 . Стационарный коэффициент готовности ](СТ при ограниченном восстановлении определяется выражением:

ътСТ _ р . р _ _Ьр(^+(1+Р)Яот)_

г ^+р)Л2от(Ь+^+^а+Ь)Ц1+р)ЛцЬ- (8)

Из соотношений (6) и (8) получим следующее выражение для р(1) :

гОТ

р( 1) _ 1 , (1+р)Аог 1 ОТ Ь /я-А0т(1+р) р'

Сравнивая выражения (4) и (9) и учитывая, что ^(1) — I , получим:

Ь

(9)

р__Лот (I +р)

Используя этот же подход для определения Р(1) (граф состояний при неограниченном восстановлении

^неог

представлен на рис. 2 б.), получим:

7(1) _ 1-(Р1+Р2) _ 1 . (1 +р)Хот 1

1неог ~~ Лот (Р^+Рг) ~ Ь т /я-Лог(1+р) 2/Г

(11)

Сравнивая (4) и (11), определим рН :

Г0 - - м+лот(1+р) ■ (12)

Зная рН , легко определить интенсивность полных отказов и отказов, приводящих к переключениям:

Л™л -Р^Лот , АПЕР

Рисунок 1 - Параллельная композиция

а)

б)

Рисунок 2 - Граф состояний

Скользящее резервирование внешних устройств

Отказы внешних устройств часто оказывают наибольшее влияние на надёжность всего вычислительного комплекса. Наибольшее распространение получили накопители на магнитных дисках. При резервировании внешних устройств часто используют скользящее резервирование, что обусловлено однотипностью и взаимозаменяемостью устройств. Задание исходных данных, характеризующих интенсивность полных отказов, отказов, приводящих к переключениям и функции распределения времени восстановления подсистемы внешних устройств со скользящим резервом, необходимых для определения показателей качества функционирования ВК, представляет значительные трудности. Поэтому ниже рассматривается вспомогательная модель подсистемы ВУ со скользящим резервом.

Описание подсистемы:

Имеется N=111+1+(п-1) внешних устройств, ш устройств находится в резерве, | устройств используется -ой обрабатывающей программой и (п-1) устройств используется при выполнении других обрабатывающих программ (п > /) . Интенсивность отказов каждого устройства - д , интенсивность переключения отказавшего элемента на резервный - Ь = . 1 - среднее время переключения.

■^пер П ^

Время переключения распределено по экспоненциальному закону. Интенсивность восстановления ВУ ремонтной единицей - ^ .

При отказе ВУ, оно заменяется резервным и начинает ремонтироваться. После ремонта ВУ становится резервным. Если при отказе одного из активных ВУ, нет устройств, находящихся в резерве, то это эквивалентно отказу всей подсистемы. Все устройства в подсистеме взаимозаменяемые. При отказе любого из ^ устройств, используемых ; -ой программой, её выполнение повторяется заново или с соответствующей контрольной точки после переключения на резерв.

При пуассоновском потоке отказов и экспоненциальном времени обслуживания и переключения задача может быть решена аналитически. В противном случае следует использовать имитационное моделирование.

Экспериментальные и эксплуатационные статистические данные по надёжности подтверждают справедливость гипотезы об экспоненциальном законе распределения времени между отказами устройств. Потоки отказов элементов устройств могут быть не пуассоновскими. Но если отказавшие элементы заменяются новыми, то вследствие эффекта перемешивания возрастов, отказы устройств в целом будут подчиняться экспоненциальному закону распределения, что было показано в работе Кокса и Смита [30].

Граф состояний подсистемы ВУ со скользящим резервом представлен на рис. 3. Граф описывает поведение подсистемы при неограниченном восстановлении. При ограниченном восстановлении граф имеет такую же структуру и отличается только интенсивностями восстановлении при значении компоненты т' > т — а , где а - число ремонтных единиц.

Стационарные вероятности состояния подсистемы ВУ определяются из системы линейных уравнений:

Рт,1,п-1ПЛ = ¡лРт-Ы<п-1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рт,1-1,п-1Ь = 1ЛРт^п-1

Рт,1,п-1-1 Ь = Рщ,1,п-1(п - /)Я

Рт-1,1,П-1ПЛ - 2цРт-2,1,п-1

Р1 Рх Рг Ро Ро

,1,п-1пХ = тцРохп-1 - (т- 1)//Ри„_/ + Ь {Р2,1-\,п-1 + Р2,1,п-1-\) ,1-1,п-Ф = Р\,1,п-№ + О + 1)^0,/-1,п-/ ,1-\,п-1-\Ь - Р\,1,п-1(п - 1)Х + (т+ 1)цР0,1,п-1-1 ),1-\,п-1(т + = 1^Р0,1,п-1

),1,п-1-1 ("I + = (" - ЩРо,1,п-1 Выразив стационарные вероятности через Рт1п_1 (используется система уравнений (13)) и, воспользовавшись

условием нормировки ^=0{Рт-к,1,п-1 + Рщ-к,1-1,п-1 + Рт-к,1,п-1-\) = 1 определим значения стационарных

вероятностей. При построении графа состояний предполагалось, что во время переключения отказавшего устройства на резервное отказы других устройств не происходят. Такое предположение обусловлено тем, что время переключения на несколько порядков меньше времени наработки на отказ. Из ординарности пуассоновского потока [32] следует, что вероятность возникновения нескольких отказов в небольшом промежутке времени мала.

Стационарная вероятность нахождения подсистемы ВУ в работоспособных отказывающих состояниях равна:

Ррву = Рт-к,1,п-1 =

("Л)

)"1+1 . ут (, гаЛЧ (пЯ)" (т+1)\1гт+1 Ь )

Состояние (о^ ^ является предотказовым состоянием подсистемы ВУ Интенсивность отказов, приводящих

-т (пЛ)к ик=0 к]/1к

(14)

к отказу всей подсистемы равна:

иА

(пЛ)™ т\ит

10 _ „ Д Р0,1,п-1 __

ОТ - пл Ррву - V"» ("*>* '

(15)

-к=0 к1/1к

Интенсивность отказов, приводящих к пересчету ^ -ой программы после переключения на резерв, определяется соотношением:

— /Л

РрВу-Рр,г ,п—1 Ррву

71 (пХ)к

£=0

^к=0 к\рк

Функция распределения времени восстановления для -ой программы определяется выражением:

1(0 оо

*Ьг,(0 = ^Впер(0 + V- /0ЧушС* - и)(тп +

от^

отЕ

(16)

(17)

где Хоъ=Хот + Хот .

Преобразование Лапласа-Стильтьеса (<■) дается соотношением:

от4

_ лот Р \ / — 'л °

1(0 ^ПЕР отх

М + лог в

№ отт

(18)

Дифференцируя (18) по 5 и учитывая, что £ПЕр(£) = Двкл(0 — 1 _ , получим следующие выражения для моментов рдт-(0 :

' "" лП 1_

Р(1) = 1 +

гОЪ Ъ ^

лот

р(2) _ 2 , 2*°от ГОТг - + ^ « [(т+1)^]2 ОТх

(19)

Отметим, что формулы (15) - (19) определяют параметры элемента, эквивалентного подсистеме ВУ для ; -ой программы при неограниченном восстановлении. В случае ограниченного восстановления интенсивность отказов ^ОТ и ^от- , ^ОТ- также легко определяются с помощью вышеизложенного подхода.

Рисунок 3 - Граф состояний подсистемы ВУ со скользящим резервом

Преобразование ненадежных ОА проблемного уровня в эквивалентные надежные

Для преобразования ненадежных ОА проблемного уровня в эквивалентные надежные используются следующие функциональные уравнения [18]:

= Щ (8 + Хот) + (Яот/(8 + Хот)) [1 - Н*у (8 + Аога)] о;у(8)г:т(8),

/ОО /• оо

е-*<Юу(1); Гот(.а) = у0 е-81с1Рот(0; (20)

/» оо

./о

где Оу(1;) - ФР времени обработки заявки ; -го класса ^ -ой обрабатывающей программой с учетом отказов; ^ - число классов обслуживаемых заявок;

- ФР времени обслуживания заявки ^ -го класса ^ -ой программой в условиях надежной работы (моменты ФР определяются с помощью модели структурного уровня);

рот ф - ФР времени восстановления ИВС после отказов.

Реализация аналитических моделей в виде комплекса программ

При программной реализации формализованные модели декомпозируются на совокупность базисных и интерфейсных параметрически настраиваемых аналитических подмоделей. Каждая из подмоделей реализуется в виде параметрически настраиваемого программного блока, реализующего определенную функцию. Для настройки комплекса программ на заданную структуру ВК разработана подсистема ввода исходных данных, позволяющая вводить нужную информацию и настраивать базисные программные блоки. Это позволяет автоматизировать процесс создания математических моделей системы.

Заключение

В работе получены следующие основные результаты:

1. Выявлены основные особенности работы вычислительного комплекса, функционирующего в составе специализированной АСОД.

2. Сформулированы принципы построения формализованных многоуровневых моделей анализа временных характеристик и определения качества функционирования ВК АСОД в условиях отказов и сбоев.

3. Выбрано множество управляемых параметров и исходных данных, характеризующих процесс обработки на различных уровнях формализованных моделей.

4. На основе анализа системы восстановления ВК формализованы и решены задача определения эквивалентных характеристик подсистемы внешних устройств со скользящим резервом и задача параллельной композиции с учётом переключений.

Новизна полученных результатов заключается в том, что впервые с системных позиций рассмотрены работы по использованию моделей, характеризующих отказы, совместно с сетевыми многоуровневыми моделями оценки вероятностно-временных характеристик вычислительных комплексов и разработаны аналитические интерфейсные модели оценки исходных данных, характеризующих различные типы отказов и сбоев в вычислительных комплексах, для их непосредственного использования в разработанном ранее авторами оригинальном подходе моделирования процессов обработки информации с помощью многоуровневых аналитических моделей с ненадежными обслуживающими аппаратами, где потоки различных типов отказов и сбоев являются заявками высших приоритетов и существенным образом влияют на вероятностно-временные характеристики процессов обработки заявок на различных уровнях семейства многоуровневых формализованных моделей.

Для автоматизированного выбора параметров рациональной организации обработки информации в многомашинных ВК разработана методика использования в процессе проектирования рассмотренных выше аналитических моделей. Методика основана на принципе последовательной пошаговой оптимизации. На первом этапе для выбранных вариантов организации вычислительных процессов оценивается загрузка аппаратных ресурсов. На втором этапе определяется загрузка обрабатывающих программ. Из вариантов организации процессов обработки информации, при которых загрузка программ меньше единицы, исследователь выбирает наиболее перспективные и из них путем перебора определяет наилучший вариант. В качестве максимизируемой функции используется минимальная по всем типам заявок вероятность их обработки в нормативные сроки с учетом отказов и сбоев. Осуществлена программная реализация разработанных математических моделей.

Разработанный комплекс программ является одной из компонент системы автоматизации проектирования ИВС различного назначения.

Конфликт интересов

Не указан.

Рецензия

Все статьи проходят рецензирование. Но рецензент или автор статьи предпочли не публиковать рецензию к этой статье в открытом доступе. Рецензия может быть предоставлена компетентным органам по запросу.

Conflict of Interest

None declared.

Review

All articles are peer-reviewed. But the reviewer or the author of the article chose not to publish a review of this article in the public domain. The review can be provided to the competent authorities upon request.

Список литературы / References

1. Вишневский В.М. Теоретические основы проектирования компьютерных сетей / В.М. Вишневский. — М.: Техносфера, 2003. — 512 с.

2. Xie M. Computing system reliability: models and analysis / M. Xie, Y.S. Dai, K.L. Poh. — New York: Kluwer academic publishers, 2004. — 306 p.

3. Kuo W. Optimal reliability modeling: principles and applications / W. Kuo, M.J. Zuo. — New York: Wiley, 2003. — 560 p.

4. Иваничкина Л.В. Модель надежности распределенной системы хранения данных в условиях явных и скрытых дисковых сбоев / Л.В. Иваничкина, А.Л. Непорада // Труды Института системного программирования РАН. — 2015. — 27(6). — c. 253-274.

5. Саати Т.Л. Элементы теории массового обслуживания и ее приложения / Т.Л. Саати. — М.: Либроком, 2010. — 520 c.

6. Феллер В. Введение в теорию вероятностей и ее приложения / В. Феллер. — М.: Либроком, 2010. — Т. 1. — 528

c.

7. Вентцель Е.С. Теория случайных процессов и ее инженерные приложения / Е.С. Вентцель. — М.: Наука, 1991.

— 368 c.

8. Клейнрок Л. Теория массового обслуживания / Л. Клейнрок. — М.: Машиностроение, 1979. — 432 c.

9. Андреев А.В. Теоретические основы надежности технических систем / А.В. Андреев, В.В. Яковлев, Т.Ю. Короткая. — СПб: Издательство Политехнического университета, 2018. — 164 c.

10. Хорошевский В.Г. Архитектура вычислительных систем / В.Г. Хорошевский. — М.: МГТУ им. Н.Э. Баумана, 2008. — 520 c.

11. Кульба В.В. Резервирование программных модулей и информационных массивов в АСУ / В.В. Кульба, А.Г. Мамиконов, А.Б. Шелков // Автоматика и телемеханика. — 1980. — 8. — c. 133-141.

12. Петров А.В. Автоматизация исследования и выбора параметров ВК АСУ на базе специализированных пакетов прикладных программ / А.В. Петров // Автоматизированные системы управления: Труды МВТУ им. Н.Э. Баумана. — 1979. — 317(12). — c. 5-13.

13. Викторова В.С. Модели и методы расчета надежности технических систем / В.С. Викторова, А.С. Степанянц.

— М.: URSS, 2016. — 256 c.

14. Акимова Г.П. Моделирование надежности распределенных вычислительных систем / Г.П. Акимова, А.В. Соловьев, И.А. Тарханов // ИТиВС. — 2019. — 3. — c. 70-86.

15. Павский В.А. Математическая модель для расчета показателей надежности масштабируемых вычислительных систем с учетом времени переключения / В.А. Павский, К.В. Павский // Известия ЮФУ Технические науки. — 2020.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— 2(212). — c. 134-145.

16. Waseem A. A survey on reliability in distributed systems / A. Waseem, Y.W. Wu // Journal of Computer and System Sciences. — 2013. — 79.8. — p. 1243-1255.

17. Леонтьев А.С. Аналитические и аналитико-имитационные методы оценки влияния отказов на временные характеристики вычислительных систем коллективного пользования / А.С. Леонтьев // Алгоритмы и структуры специализированных вычислительных систем. ТПИ. — 1985. — c. 57-68.

18. Леонтьев А.С. Аналитические методы расчета вероятностно-временных характеристик информационных процессов в вычислительных системах на базе многоуровневых вложенных сетевых моделей с ненадежными элементами / А.С. Леонтьев // Теоретические вопросы вычислительной техники и программного обеспечения: Межвузовский сборник научных трудов. — 2006. — c. 50-56.

19. Бондаренко А.А. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек / А.А. Бондаренко, М.В. Якубовский // Вестник Южно-Уральского государственного университета. — 2014. — 3(3). — c. 20-36.

20. Талалаев А.А. Отказоустойчивая система организации высокопроизводительных вычислений для решения задач обработки потоков данных / А.А. Талалаев, В.П. Фроленко // Программные системы: Теория и приложения. — 2018. — 9:1(36). — с. 85-108.

21. Богданов А.Д. Предложения по повышению результативности функционирования системы мониторинга и диагностирования состояния вычислительных комплексов распределенной информационной системы / А.Д. Богданов, А.А. Гимп, В.В. Оркин и др. // Проблемы развития и совершенствования автоматизированных систем управления специального назначения. — 2019. — с. 33-34.

22. ГОСТ Р 57193-2016. Системная и программная инженерия. Процессы жизненного цикла систем. — Введ. 2017-11-01. — М.: Стандартинформ, 2016. — 98 с.

23. Егоров Г.Е. СМ ЭВМ: Комплексирование и применение / Г.Е. Егоров, К.В. Песелев, В.В. Родионов. — М.: Финансы и статистика, 1986. — 304 с.

24. Пржиялковский В.В. Технические и программные средства Единой системы ЭВМ / В.В. Пржиялковский, Ю.С. Ломов. — М.: Статистика, 1980. — 232 с.

25. Дэвис У Операционные системы / У Дэвис. — М.: Мир, 1980. — 440 с.

26. Леонтьев А.С. Многоуровневые иерархические модели обработки информации в вычислительных системах с учётом надёжности / А.С. Леонтьев, В.К. Пряхин // Алгоритмы и структуры специализированных вычислительных систем. ТПИ. — 1981. — с. 51-57.

27. Котелюк Л.А. Оценка достоверности функционирования процессора с комплексной системой контроля / Л.А. Котелюк, В.А. Трусов // Автоматика и вычислительная техника. — 1973. — 4. — с. 49-52.

28. Евсюков К.Н. Основы проектирования информационно-вычислительных систем / К.Н. Евсюков, К.К. Колин. — М.: Статистика, 1977. — 216 с.

29. Коваленко И.Н. Аналитико-статистический метод расчёта высоконадёжных систем / И.Н. Коваленко // Кибернетика. — 1976. — 6. — с. 82-92.

30. Кокс Д. Теория восстановления / Д. Кокс, В. Смит. — М.: Сов. радио, 1967. — 300 с.

31. Гнеденко Б.В. Введение в теорию массового обслуживания / Б.В. Гнеденко, И.Н. Коваленко. — М.: Наука, 1987. — 336 с.

32. Бусленко Н.П. Моделирование сложных систем / Н.П. Бусленко. — М.: Наука, 1968. — 355 с.

Список литературы на английском языке / References in English

1. Vishnevskij V.M. Teoretkheskie osnovy' proektirovaniya komp'yutemy'x setej [Т(еоге11са1 foundations of ramputer network design] / V.M. Vishnevskij. — M.: Texnosfera, 2003. — 512 p. [in Russian]

2. Xie M. Computing system reliability: models and analysis / M. Xie, Y.S. Dai, K.L. Poh. — New York: Kluwer academic publishers, 2004. — 306 p.

3. Kuo W. Optimal reliability modeling: prinriples and app^a^o^ / W. Kuo, M.J. Zuo. — New York: Wiley, 2003. — 560 p.

4. ^am^kim L.V. Model' nadezhnosti raspredelennoj sistemy' xraneniya danny'x v usloviyax yavny'x i skry'ty'x diskovy'x sboev [The Reliability Model of a Distributed Data Storage in Case of Exploit and Latent Disk Faults] / L.V. ^am^kim, A.L. Neporada // Trudy' Instituta sistemnogo programmirovaniya RAN [Proceedings of the Institute for System Programming of the RAS]. — 2015. — 27(6). — p. 253-274. [in Russian]

5. Saati T.L. E'lementy' teorii massovogo obsluzhivaniya i ee prilozheniya [Elements of Queuing Theory With Applications] / T.L. Saati. — M.: Librokom, 2010. — 520 p. [in Russian]

6. Feller V. Vvedenie v teoriyu veroyatnostej i ee prilozheniya [An Introdudion to Probability Theory and Its Appl^t^s] / V. Feller. — M.: Librokom, 2010. — Vol. 1. — 528 p. [in Russian]

7. Venteel' E.S. Teoriya sl^h^ny^ processov i ee inzhenerny'e prilozheniya [Random Process Theory and Its Engineering Applkations] / E.S. Venteel'. — M.: Nauka, 1991. — 368 p. [in Russian]

8. Klejnrok L. Teoriya massovogo obsluzhivaniya [Queueing Systems] / L. Klejnrok. — M.: Mashinostroenie, 1979. — 432 p. [in Russian]

9. Andreev A.V. Teoreticheskie osnovy' nadezhnosti texnkheskix sistem [Theoretical foundations of the reliability of technical systems] / A.V. Andreev, V.V. Yakovlev, T.Yu. Korotkaya. — SPb: Po^te^n^ University Press, 2018. — 164 p. [in Russian]

10. Xoroshevskij V.G. Arxitektura vy^t^^'ny^ sistem [Computer systems architecture] / V.G. Xoroshevskij. — M.: Bauman Mosraw State Technical University, 2008. — 520 p. [in Russian]

11. Kul'ba V.V. Rezervirovanie programmny'x modulej i informarionny'x massivov v ASU [Reservation of program modules and information arrays in ACS] / V.V. Kul'ba, A.G. Mamikonov, A.B. Shelkov // Avtomatika i telemexanika [Automation and telemechanics]. — 1980. — 8. — p. 133-141. [in Russian]

12. Petrov A.V. Avtomatizariya issledovaniya i vy'bora parametrov VK ASU na baze sperializirovanny'x paketov prikladny'x programm [Automation of research and selection of parameters of VC ACS based on sperialized packages of applied programs] / A.V. Petrov // Avtomatizirovanny'e sistemy' upravleniya: Trudy' MVTU im. N.E'. Baumana [Automated rantm! systems: Proceedings of MVTU im. N.E. Bauman]. — 1979. — 317(12). — p. 5-13. [in Russian]

13. Viktorova V.S. Modeli i metody' Tas^eta nadezhnosti tex^^es^ sistem [Models and methods for calculating the reliability of technical systems] / V.S. Viktorova, A.S. Stepanya^z. — M.: URSS, 2016. — 256 p. [in Russian]

14. Akimova G.P. Modelirovanie nadezhnosti raspredelenny'x vy^t^^'ny^ sistem [Modeling the reliability of distributed ramputing systems] / G.P. Akimova, A.V. Solov'ev, I.A. Tarxanov // ITiVS [IT&VS]. — 2019. — 3. — p. 70-86. [in Russian]

15. Pavskij V.A. Matematicheskaya model' dlya rascheta pokazatelej nadezhnosti masshtabiruemy'x vy^t^^'ny^ sistem s uAetom vremeni pereklyucheniya [Mathematkal model for calculating the reliability Motors of scalable

computing systems, taking into account the switching time] / V.A. Pavskij, K.V. Pavskij // Izvestiya YuFU. Texnicheskie nauki [Proceedings of the Southern Federal University. Technical science]. — 2020. — 2(212). — p. 134-145. [in Russian]

16. Waseem A. A survey on reliability in distributed systems / A. Waseem, Y.W. Wu // Journal of Computer and System Sciences. — 2013. — 79.8. — p. 1243-1255.

17. Leontev A.S. Analiticheskie i analitiko-imitatsionnie metodi otsenki vliyaniya otkazov na vremennie kharakteristiki vichislitelnikh sistem kollektivnogo polzovaniya [Analytical and analytical-simulation methods for assessing the impact of failures on the time characteristics of computing systems of a collective use] / A.S. Leontev // Algoritmi i strukturi spetsializirovannikh vichislitelnikh sistem. TPI [Algorithms and structures of specialized computing systems. TPI]. — 1985.

— p. 57-68. [in Russian]

18. Leontev A.S. Analiticheskie metodi rascheta veroyatnostno-vremennikh kharakteristik informatsionnikh protsessov v vichislitelnikh sistemakh na baze mnogourovnevikh vlozhennikh setevikh modelei s nenadezhnimi elementami [Analytical methods for calculating the probabilistic-temporal characteristics of information processes in computing systems based on multi-level nested network models with unreliable elements] / A.S. Leontev // Teoreticheskie voprosi vichislitelnoi tekhniki i programmnogo obespecheniya: Mezhvuzovskii sbornik nauchnikh trudov [Theoretical issues of computer technology and software: Interuniversity collection of scientific papers]. — 2006. — p. 50-56. [in Russian]

19. Bondarenko A.A. Obespechenie otkazoustojchivosti vy'sokoproizvoditel'ny'x vy'chislenij s pomoshh'yu lokal'ny'x kontrol'ny'x tochek [High Performance Computing Fault Tolerance with Local Checkpoints] / A.A. Bondarenko, M.V. Yakubovskij // Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta [Vestnik of South Ural State University]. — 2014. — 3(3). — p. 20-36. [in Russian]

20. Talalaev A.A. Otkazoustojchivaya sistema organizacii vy'sokoproizvoditel'ny'x vy'chislenij dlya resheniya zadach obrabotki potokov danny'x [Fault-tolerant system for organizing high-performance computing for solving problems of processing data streams] / A.A. Talalaev, V.P. Frolenko // Programmny'e sistemy': Teoriya i prilozheniya [Software Systems: Theory and Applications]. — 2018. — 9:1(36). — p. 85-108. [in Russian]

21. Bogdanov A.D. Predlozheniya po povisheniyu rezultativnosti funktsionirovaniya sistemi monitoringa i diagnostirovaniya sostoyaniya vichislitelnikh kompleksov raspredelennoi informatsionnoi sistemi [Proposals for Improving the Performance of the System for Monitoring and Diagnosing the State of Computing Complexes of a Distributed Information System] / A.D. Bogdanov, A.A. Gimp, V.V. Orkin et al. // Problemi razvitiya i sovershenstvovaniya avtomatizirovannikh sistem upravleniya spetsialnogo naznacheniya [Problems of development and improvement of automated control systems for special purposes]. — 2019. — p. 33-34. [in Russian]

22. GOST R 57193-2016. Sistemnaya i programmnaya inzheneriya. Processy' zhiznennogo cikla sistem [GOST R 571932016. Systems and software engineering. System life cycle processes]. — Introduced 2017-11-01. — M.: Standartinform, 2016. — 98 p. [in Russian]

23. Egorov G.E. SM E'VM: Kompleksirovanie i primenenie [Small Computer Systems: Integration and application] / G.E. Egorov, K.V. Peselev, V.V. Rodionov. — M.: Finansy' i statistika, 1986. — 304 p. [in Russian]

24. Przhiyalkovskij V.V. Texnicheskie i programmny'e sredstva Edinoj sistemy' E'VM [Hardware and software of the Unified Computer System] / V.V. Przhiyalkovskij, Yu.S. Lomov. — M.: Statistika, 1980. — 232 p. [in Russian]

25. De'vis U. Operacionny'e sistemy' [Operating Systems] / U. De'vis. — M.: Mir, 1980. — 440 p. [in Russian]

26. Leontev A.S. Mnogourovnevie ierarkhicheskie modeli obrabotki informatsii v vichislitelnikh sistemakh s uchyotom nadyozhnosti [Multilevel hierarchical models of information processing in computing systems, taking into account reliability] / A.S. Leontev, V.K. Pryakhin // Algoritmi i strukturi spetsializirovannikh vichislitelnikh sistem. TPI [Algorithms and structures of specialized computing systems. TPI]. — 1981. — p. 51-57. [in Russian]

27. Kotelyuk L.A. Ocenka dostovernosti funkcionirovaniya processora s kompleksnoj sistemoj kontrolya [Evaluation of the reliability of the functioning of the processor with a complex control system] / L.A. Kotelyuk, V.A. Trusov // Avtomatika i vy'chislitel'naya texnika [Automation and computer technology]. — 1973. — 4. — p. 49-52. [in Russian]

28. Evsyukov K.N. Osnovy' proektirovaniya informacionno-vy'chislitel'ny'x sistem [Fundamentals of designing information computing systems] / K.N. Evsyukov, K.K. Kolin. — M.: Statistika, 1977. — 216 p. [in Russian]

29. Kovalenko I.N. Analitiko-statisticheskij metod raschyota vy'sokonadyozhny'x sistem [Analytical and statistical method for calculating highly reliable systems] / I.N. Kovalenko // Kibernetika [Cybernetics]. — 1976. — 6. — p. 82-92. [in Russian]

30. Koks D. Teoriya vosstanovleniya [Theory of Recovering ] / D. Koks, V. Smit. — M.: Sov. radio, 1967. — 300 p. [in Russian]

31. Gnedenko B.V. Vvedenie v teoriyu massovogo obsluzhivaniya [Introduction to Queuing Theory] / B.V. Gnedenko, I.N. Kovalenko. — M.: Nauka, 1987. — 336 p. [in Russian]

32. Buslenko N.P. Modelirovanie slozhny'x sistem [Modeling Complex Systems] / N.P. Buslenko. — M.: Nauka, 1968.

— 355 p. [in Russian]

i Надоели баннеры? Вы всегда можете отключить рекламу.