Научная статья на тему 'Методы анализа больших данных надежности восстанавливаемых систем'

Методы анализа больших данных надежности восстанавливаемых систем Текст научной статьи по специальности «Математика»

CC BY
108
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
большие данные / сложная система / робастность / коэффициент готовности / средняя наработка между отказами / среднее время восстановления / big data / complex system / robustness / availability factor / mean time between failures / mean time to recovery

Аннотация научной статьи по математике, автор научной работы — Проурзин В. А., Проурзин О. В.

Компьютерные системы мониторинга технического состояния транспортных систем накапливают в том числе и большие данные по надежности отдельных устройств и элементов. Это позволяет вычислить показатели надежности систем, не прибегая к дорогостоящим испытаниям. Здесь рассмотрены методы анализа больших данных надежности восстанавливаемых многоканальных систем. Большие данные содержат значения наработки до отказа и значения времени восстановления элементов системы, полученных при мониторинге функционирования аналогичных систем в процессе эксплуатации. Законы распределения отказов и восстановлений элементов системы неизвестны и могут носить произвольный характер. Рассмотрены алгоритмы оценки показателей надежности восстанавливаемых систем с учетом разнообразия, недостоверности и изменчивости данных. В случае монотонных систем с независимым восстановлением элементов оценка коэффициента готовности и средней наработки между отказами системы сводится к оценке средней наработки до отказа и среднего времени восстановления каждого элемента системы для произвольных законов распределений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Проурзин В. А., Проурзин О. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methods for Big Data Analysis of Reliability of Recoverable Systems

Computer systems for monitoring the technical condition of transport accumulate, among other things, large data on the reliability of individual devices and elements. This allows us to calculate system reliability metrics without resorting to costly testing. Methods for analyzing big data of reliability of recoverable multi-channel systems are considered here. Big data contains values of mean time between failures and values of the recovery time of system elements obtained by monitoring the functioning of similar systems during operation. The distribution laws of failures and restorations of system elements are unknown and can be arbitrary. Algorithms for assessing the reliability indicators of recoverable systems are considered, taking into account the diversity, unreliability and variability of data. In the case of monotonic systems with independent recovery of elements, the estimation of the availability factor and the mean time between failures of the system is reduced to evaluating the mean time to failure and the mean time to recover each element of the system for arbitrary distribution laws.

Текст научной работы на тему «Методы анализа больших данных надежности восстанавливаемых систем»

DOI: 10.24412/2413-2527-2022-129-34-38

Методы анализа больших данных надежности восстанавливаемых систем

к.ф.-м.н. В. А. Проурзин Институт проблем машиноведения Российской академии наук Санкт-Петербург, Россия proursin@gmail. сот

Аннотация. Компьютерные системы мониторинга технического состояния транспортных систем накапливают в том числе и большие данные по надежности отдельных устройств и элементов. Это позволяет вычислить показатели надежности систем, не прибегая к дорогостоящим испытаниям. Здесь рассмотрены методы анализа больших данных надежности восстанавливаемых многоканальных систем. Большие данные содержат значения наработки до отказа и значения времени восстановления элементов системы, полученных при мониторинге функционирования аналогичных систем в процессе эксплуатации. Законы распределения отказов и восстановлений элементов системы неизвестны и могут носить произвольный характер. Рассмотрены алгоритмы оценки показателей надежности восстанавливаемых систем с учетом разнообразия, недостоверности и изменчивости данных. В случае монотонных систем с независимым восстановлением элементов оценка коэффициента готовности и средней наработки между отказами системы сводится к оценке средней наработки до отказа и среднего времени восстановления каждого элемента системы для произвольных законов распределений.

Ключевые слова: большие данные, сложная система, робастность, коэффициент готовности, средняя наработка между отказами, среднее время восстановления.

Введение

Сложные системы с точки зрения теории надежности представляют собой совокупность технических устройств, взаимодействующих в процессе функционирования и связанных между собой. Математическим моделям надежности сложных, многоканальных, кластерных систем посвящено большое количество научных публикаций, например [1-7].

Важным вопросом является оценка характеристик надежности сложной системы в целом: средней наработки на отказ и коэффициента готовности. Известен логико-вероятностный подход [4, 6], основанный на представлении отказов и восстановлений системы как случайных бинарных событий. Отказы и восстановления системы зависят от некоторого числа первичных бинарных случайных событий (отказ и восстановление элементов). К настоящему времени разработан достаточно эффективный аппарат для решения задач такого рода. Для этого требуется информация о законах распределений времени наработки до отказа и времени восстановления каждого элемента.

Традиционно оценка показателей надежности элементов производится в результате испытаний, которые характеризуются высокой стоимостью и требуют больших за-

к.т.н. О. В. Проурзин Петербургский государственный университет путей сообщения Императора Александра I Санкт-Петербург, Россия pvo777@yandex.ru

трат времени. С другой стороны, компьютерный мониторинг эксплуатации уже существующих объектов позволяет собрать огромную базу данных показателей надежности, в частности данных по наработкам до отказа и времени восстановления. Подходы и методы работы с такими огромными базами составляют содержание компьютерных технологий работы с большими данными [8]. Разнообразие, достоверность и изменчивость больших данных составляют основную сложность анализа больших данных. Основная проблема анализа эксплуатационных данных надежности систем состоит, во-первых, в том, что значения получены при различных нагрузках и различных законах распределений отказов и восстановлений, и, во-вторых, в наличии недостоверных и аномальных данных.

Здесь рассматривается тот случай, когда условия эксплуатации систем регламентированы, и в целом их можно считать близкими, а данные по надежности изделий, полученные из различных источников, в среднем будут однородны по условиям эксплуатации. Данные, связанные с нестандартными условиями эксплуатации и другие аномальные данные требуется выявить и исключить в ходе отбраковки при анализе общей выборки. Этот случай рассмотрен при разработке методов оценки показателей надежности восстанавливаемых многоканальных систем. Показатели оцениваются по данным компьютерного мониторинга отказов и восстановлений эксплуатации аналогичных изделий.

Цель настоящей работы заключается в разработке компьютерных методов оценки основных показателей надежности восстанавливаемых многоканальных систем, а именно: коэффициента готовности, средней наработки между отказами и среднего времени восстановления системы. Показатели оцениваются по данным компьютерного мониторинга отказов и восстановлений эксплуатации аналогичных изделий. При этом учитывается разнообразие реальных законов распределения отказов и восстановлений элементов, разнообразие эксплуатационных нагрузок и наличие недостоверных данных.

Постановка задачи

Рассматривается модель системы, состоящей из п узлов (элементов). Узлы образуют монотонную структурную схему работоспособности системы, например схему с последовательно-параллельным соединением. Отказы и восстановления каждого узла независимы и образуют альтернирующий процесс восстановления с некоторыми функциями распределения.

Пусть в результате мониторинга эксплуатации самой системы или аналогов рассматриваемых узлов получен набор данных о наработках до отказа и длительностях восстановлений каждого элемента системы. Для--го элемента заданы N значений наработок до отказа 1 = 1, ..N и М,-значений длительности восстановлений 1 = 1,., М-, ] = 1, ..., п. Законы распределений отказов и восстановлений, а также данные об эксплуатационных нагрузках неизвестны.

Ставится задача оценки коэффициента готовности К системы, средней наработки между отказами (средней наработки на отказ) системы Тс и среднего времени восстановления системы Тк.

Методы решения задачи

Отбраковка аномальных данных. Далее будем исходить из того, что условия эксплуатации рассматриваемых систем регламентированы, и в целом их можно считать близкими. Это позволяет утверждать, что данные по надежности изделий, полученные из различных источников, в среднем будут однородны по условиям эксплуатации. Данные, связанные с нестандартными условиями эксплуатации и другие аномальные данные требуется выявить и исключить в ходе отбраковки при анализе общей выборки.

Рассмотрим задачу оценивания средней наработки до отказа Т некоторого элемента системы по выборке значений его наработок до отказа ^^}, I = 1,..., N. В условиях наличия недостоверных данных и «дрейфа» законов распределений, генерирующих данные, оценка параметра положения выборки (среднего значения), произведенная с помощью среднего арифметического, является неустойчивой. Для решения этой проблемы используют процедуры отбраковки аномальных данных и методы робастного оценивания параметра положения выборки [9, 10].

Простейший классический алгоритм отбраковки подозрительного на выброс значения t элемента выборки называется правилом трех сигм. Элемент выборки t считается аномальным, если выполнено неравенство

\Ь — £| > 35 , где I = ^¡ТгЧ — выборочное среднее; 5 = — I)2 — среднеквадратическое отклонение.

Сравнительно новые подходы к решению задачи отбраковки аномальных данных основаны на алгоритмах разведочного анализа данных Тьюки, а именно боксплота Тьюки и его модификаций [10]. Нижний 4 и верхний и пороги отбраковки в боксплоте Тьюки задаются следующим образом:

1Ь = тах LQ—^IQR} ,

1и =тт [1(Ю, UQ + 3т} .

Здесь ^1) и — экстремальные порядковые статистики выборки (к-я порядковая статистика ^к) есть к-е по порядку значение в упорядоченной по возрастанию исходной выборке), = UQ — LQ — выборочная интерквартиль-ная широта, LQ = и UQ = tN-[N/4] — выборочные

нижний и верхний квартили. Правило отбраковки имеет вид: значение t является аномальным, если t > и или t < 4.

Робастные оценки параметра положения. В статистическом анализе больших данных для обеспечения устойчивости оценки параметра положения используются робаст-ные методы оценки [10]. Робастность — это свойство статистической процедуры быть устойчивой к неконтролируемым отклонениям от принятых моделей распределений данных.

Двухэтапная процедура робастного оценивания состоит в следующем. На первом этапе производится отбраковка выбросов с помощью правила трех сигм или боксплота Тьюки. На втором этапе производится оценивание параметра положения путем вычисления выборочного среднего для оставшихся элементов выборки.

Известны методы оценки параметра положения, устойчивые к наличию выбросов - робастные методы математической статистики. Простейшей из известных робастных оценок параметра положения является выборочная медиана:

( 1(к), N = 2к + 1

Т = £ = + к+1) N = 2к (1)

Известный подход к построению робастных оценок был предложен Хубером, в основе которого лежит минимаксный принцип построения наилучшего решения в наихудшей ситуации. Оценка параметра положения по Хуберу:

Т = ± ((щ — щ)к + Т\ч-т\<к ь), (2)

где к — величина, которая допускается в качестве отклонения от центра совокупности (например, к = 1,5^); п1 — число наблюдений из выборки, лежащих в интервале Т — к);

п2 — число наблюдений, лежащих в интервале (Т + к; +го).

При расчетах по формуле (2) в качестве начальной оценки Т может применяться обычная средняя арифметическая или медиана (1). Затем на каждой итерации производится разделение выборочной совокупности на три части и вычисление по формуле (2) до сходимости процедуры.

Использование описанных методов дает нам устойчивые несмещенные оценки среднего значения Т-наработки до отказа --го элемента системы. Аналогично получаются оценки среднего времени восстановления ,-го элемента системы. По этим значениям строится оценка коэффициента готовности --го элемента, которая не зависит от вида законов распределения отказов и восстановлений [7]:

Логическая структурная функция работоспособности системы. При анализе надежности сложных систем удобно пользоваться структурными схемами работоспособности системы [4, 6, 7]. Например, если отказ системы наступает при отказе хотя бы одного элемента, то такой схемой будет схема последовательного соединения элементов. Если система работоспособна при работоспособности хотя бы одного элемента, то имеем случай параллельного соединения

элементов (схема нагруженного резерва). Можно рассмотреть и более сложные схемы, включающие в себя последовательные и параллельные подсистемы, например мости-ковую схему соединения (рис. 1).

Рис. 1. Структурная схема работоспособности на примере системы электроснабжения

Отказ системы есть случайное событие, описываемое бинарной (булевской) переменной X, которая принимает одно из двух значений — 0 (отказ) или 1 (работа). Это событие зависит от п простых независимых событий, описываемых бинарными переменными X] (работа или отказ элементов). Вводится структурная функция работоспособности системы, задающая зависимость состояния системы X от состояний ее элементов: X = ф(хх,х2,...,хп). Например, для схемы п последовательно соединенных элементов (рис. 2) структурная функция есть произведение всех бинарных переменных х/ X = х1х2 ... хп.

Х2 хп

Рис. 2. Структурная схема последовательно соединенных элементов

Для схемы п параллельно соединенных элементов (рис. 3) структурная функция есть

X = 1 - (1 -хх)(1 -Х2)...(1 хп).

В дальнейшем рассматриваются только системы, структурные функции которых обладают свойством монотонности [7].

Х1

Х2

хп

Рис. 3. Структурная схема параллельно соединенных элементов

Известны [7] следующие важные результаты для монотонных систем с независимыми отказами и восстановлениями элементов. Пусть для каждого элемента системы известны средние значения Т наработки до отказа, средние значения 8] времени восстановления и соответствующие им значения коэффициента готовности К]. Тогда:

1. Коэффициент готовности К монотонной системы равен значению структурной функции от коэффициентов готовности элементов системы

к = ф№ , К2.....кп) .

(4)

2. Средняя наработка между отказами Тс системы с индивидуальным независимым восстановлением элементов вычисляется по формуле

т = к_ = ф (Къ К2.....кп)

где Хс — приведенная интенсивность отказов системы:

(5)

Я

П 1

= ТъЛ; (фк=1-фк=°) ■

7 = 1 ! !

3. Среднее время восстановления системы Тк определяется следующим выражением:

Т -г 1 -К-т 1 - Ф(*1' К2.....

1п = 'С 77 = 'С'

к

ф№-^.....Кп )

(6)

Все приведенные выражения не зависят от вида законов распределения отказов и восстановлений элементов.

Пример. Пусть кластерная вычислительная система состоит из трех одинаковых компьютеров, работающих параллельно, п = 3. Структурная функция системы имеет вид X = 1 - (1 - х1)(1 - х2)(1 - х3). Пусть средняя наработка до отказа одного компьютера равна году: То = 8 760 ч. Среднее время восстановления после отказа равна календарному месяцу: 8о = 720 ч.

Используя формулы (3)-(5) получим следующее. Коэффициент готовности каждого компьютера Ко = 8760 / (8760 + 720) = 0,9240506329. Коэффициент готовности системы равен К = 1 - (1 - К0)3 = 0,9995619008. Приведенная интенсивность отказов системы:

= ^т^" (1 - (1 - (1 - К0)2)) = 1,8254 х 10-6 .

' о +

Средняя наработка системы между отказами

Тс = К/Лс = 547 581 ч. Среднее время восстановления системы Тк = 240 ч.

Алгоритм решения задачи оценки

показателей надежности

1. Определение состава элементов, входящих в систему, построение схемы работоспособности и логической структурной функции работоспособности системы.

2. Извлечение из больших данных мониторинга элементов системы и их аналогов значений наработок и времени восстановления этих элементов. Составление начальных выборок { и

3. Получение робастных оценок параметров положения для каждой выборки: средние значения Tj наработки до отказа и средние значения Sj времени восстановления. Для этого используется либо двухэтапная процедура оценивания, либо робастные методы (1), (2).

4. Вычисление коэффициента готовности K, j = 1, ..., n каждого элемента по формуле (3).

5. Вычисление коэффициента готовности K системы по формуле (4).

6. Вычисление средней наработки между отказами системы Тс по формуле (5).

7. Вычисление среднего времени восстановления системы Tr по формуле (6).

Заключение

Компьютерные методы мониторинга технического состояния сложных систем предоставляют нам данные о надежности этих систем в процессе эксплуатации. Эти данные представляют из себя огромные массивы информации. Анализ и обработка таких массивов составляют содержание науки о больших данных. Здесь рассмотрены алгоритмы оценки основных показателей надежности восстанавливаемых систем в условиях разнообразия реальных законов распределения отказов и восстановлений элементов, разнообразия эксплуатационных нагрузок и наличия недостоверных данных. Приведены алгоритмы оценки коэффициента готовности, средней наработки между отказами и среднего времени восстановления системы по реальным данным эксплуатации элементов системы. Показано, что при этом не требуется оценивать законы распределения отказов и восстановлений элементов.

Литература

1. Shooman, M. L. Reliability of Computer Systems and Networks: Fault Tolerance, Analysis, and Design. — New York: John Wiley & Sons, 2002. — 552 р.

2. Черкесов, Г. Н. Надежность аппаратно-программных комплексов: Учебное пособие. — Санкт-Петербург: Питер, 2005. — 479 с.

3. Гуров, С. В. Анализ надежности технических систем с произвольными законами распределений отказов и восстановлений // Качество и надежность изделий: сборник статей. 1992. № 2 (18). C. 3-37. — (В помощь слушателям лекций Консультационного центра по качеству и надежности).

4. Prourzin, V. A. Techno-Economic Risk in Designing Complex Systems: Algorithms for Analysis and Optimization // Automation and Remote Control. 2003. Vol. 64, No. 7. Pp. 1054-1062. DOI: 10.1023/A:1024773916089.

5. Prourzin, V. A. The Dynamic Reliability Model under Variable Loads and Accelerated Tests // Journal of Machinery Manufacture and Reliability. 2020. Vol. 49, No. 5. Pp. 395-400. DOI: 10.3103/S1052618820050118.

6. Рябинин, И. А. Логико-вероятностные методы исследования надежности структурно-сложных систем / И. А. Рябинин, Г. Н. Черкесов. — Москва: Радио и связь. Редакция литературы по радиоэлектронике, 1981. — 264 с. — (Библиотека инженера по надежности).

7. Байхельт, Ф. Надежность и техническое обслуживание. Математический подход = Zuverlässigkeit und instandhaltung. Matematische methoden / Ф. Байхельт, П. Фран-кен; перевод с нем. М. Г. Коновалова; под ред. И. А. Ушакова. — Москва: Радио и связь. Редакция переводной литературы, 1988. — 392 с.

8. Лесковец, Ю. Анализ больших наборов данных = Mining of Massive Datasets / Ю. Лесковец, А. Раджараман, Д. Д. Ульман; перевод с англ. А. А. Слинкина. — Москва: ДМК Пресс, 2016. — 498 p.

9. Barnett, V. Outliers in Statistical Data. Third Edition / V. Barnett, T. Lewis. — Chichester: John Wiley & Sons, 1994. — 601 p.

10. Shevlyakov, G. L. Robustness in Data Analysis: Criteria and Methods / G. L. Shevlyakov, N. O. Vilchevski. — Utrecht: VSP Publishers, 2002. — 318 p. — (Modern Probability and Statistics).

DOI: 10.24412/2413-2527-2022-129-34-38

Methods for Big Data Analysis of Reliability of Recoverable Systems

PhD V. A. Prourzin Institute for Problems in Mechanical Engineering of the Russian Academy of Sciences Saint Petersburg, Russia proursin@gmail.com

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Abstract. Computer systems for monitoring the technical condition of transport accumulate, among other things, large data on the reliability of individual devices and elements. This allows us to calculate system reliability metrics without resorting to costly testing. Methods for analyzing big data of reliability of recoverable multichannel systems are considered here. Big data contains values of mean time between failures and values of the recovery time of system elements obtained by monitoring the functioning of similar systems during operation. The distribution laws of failures and restorations of system elements are unknown and can be arbitrary. Algorithms for assessing the reliability indicators of recoverable systems are considered, taking into account the diversity, unreliability and variability of data. In the case of monotonic systems with independent recovery of elements, the estimation of the availability factor and the mean time between failures of the system is reduced to evaluating the mean time to failure and the mean time to recover each element of the system for arbitrary distribution laws.

Keywords: big data, complex system, robustness, availability factor, mean time between failures, mean time to recovery.

References

1. Shooman M. L. Reliability of Computer Systems and Networks: Fault Tolerance, Analysis, and Design. New York, John Wiley & Sons, 2002, 552 p.

2. Cherkesov G. N. Reliability of hardware and software systems: Study guide [Nadezhnost' apparatno-programmnykh kompleksov: Uchebnoe posobie]. Saint Petersburg, Piter Publishing House, 2005, 479 p.

3. Gurov S. V. Analysis of The Reliability of Technical Systems with Arbitrary Laws of Distribution of Failures and Restorations [Analiz nadezhnosti tekhnicheskikh sistem s proizvol'nymi zakonami raspredeleniy otkazov i vosstanovleniy], Quality and Reliability ofRroducts: Collection of Articles [Kachestvo i nadezhnost' izdeliy: sbornikstatey], 1992. No. 2 (18), Pp. 3-37.

PhD O. V. Prourzin Emperor Alexander I St. Petersburg State Transport University Saint Petersburg, Russia pvo777@yandex.ru

4. Prourzin V. A. Techno-Economic Risk in Designing Complex Systems: Algorithms for Analysis and Optimization, Automation and Remote Control, 2003, Vol. 64, No. 7, Pp. 1054-1062. DOI: 10.1023/A:1024773916089.

5. Prourzin V. A. The Dynamic Reliability Model under Variable Loads and Accelerated Tests // Journal of Machinery Manufacture and Reliability. 2020. Vol. 49, No. 5. Pp. 395-400. DOI: 10.3103/S1052618820050118.

6. Ryabinin I. A., Cherkesov G. N. Logical-probabilistic methods for studying the reliability of structurally complex systems [Logiko-veroyatnostnye metody issledovaniya nadezh-nosti strukturno-slozhnykh sistem]. Moscow, Radio and Communications Publishers, 1981, 264 p.

7. Beichelt F., Franken P. Reliability and maintenance. Mathematical approach [Nadezhnost' i tekhnicheskoe obslu-zhivanie. Matematicheskiy podkhod]. Moscow, Radio and Communications Publishers, 1988, 392 p.

8. Leskovec J., Rajaraman A., Ullman J. D. Mining of Massive Datasets [Analiz bol'shikh naborov dannykh]. Moscow, DMK Press, 2016, 498 p.

9. Barnett V., Lewis T. Outliers in Statistical Data. Third Edition. Chichester, John Wiley & Sons, 1994, 601 p.

10. Shevlyakov G. L., Vilchevski N. O. Robustness in Data Analysis: Criteria and Methods. Utrecht, VSP Publishers, 2002, 318 p.

HHmmneKmyanbHbie техноnогии Ha mpaHcnopme. 2022. № 1

38

i Надоели баннеры? Вы всегда можете отключить рекламу.