Научная статья на тему 'АНАЛИЗ МЕТОДОВ СТАТИСТИЧЕСКОЙ ОЦЕНКИ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ'

АНАЛИЗ МЕТОДОВ СТАТИСТИЧЕСКОЙ ОЦЕНКИ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
163
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАДЕЖНОСТЬ / ВЫЧИСЛИТЕЛЬНЫЕ КОМПЛЕКСЫ / ОЦЕНКА СТАТИСТИЧЕСКИХ ДАННЫХ / НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ / ЦЕНЗУРИРОВАННЫЕ ДАННЫЕ / RELIABILITY / COMPUTER SYSTEMS / ESTIMATION OF STATISTICAL DATA / NONPARAMETRIC METHODS / CENSORED DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Захаров Дмитрий Николаевич, Никулин Владимир Сергеевич

Рассмотрен подход к расчету показателей надежности вычислительных комплексов на примере многофункционального гибридного вычислительного комплекса «КВАНТ». В ходе эксплуатации вычислительного комплекса, системой мониторинга собирается статистическая информация о текущих процессах и отказах аппаратных компонентов. Полученная информация зафиксирована в базе данных и подлежат дальнейшей обработке. Оценка коэффициента готовности и коэффициента технического использования вычислительного комплекса рассчитывается по известным показателям надежности элементной базы. Достоверные значения показателей надежности вычислительных комплексов практически возможно получить путем анализа данных из эксплуатации или статистических экспериментов. Фиксация времени выявления отказов и наработок каждого элемента при условии знания общего числа элементов в группе позволяет оценить распределение времени (плотность распределения) на отказ. Данный показатель предоставляет наибольшую информацию для анализа надежности элемента и на его основе могут быть получены практически любые другие показатели безотказности. Для обработки статистической информации, полученной в ходе эксплуатации, предлагается применить непараметрический метод ядерной оценки. Исследования показали, что выбранный метод является универсальным для обработки цензурированной статистики и не привязан к конкретным законам распределения. В перспективе запланирована разработка программного обеспечения на основе данного метода. Обосновано применение непараметрического метода ядерной оценки для расчета эксплуатационной надежности вычислительных комплексов с учетом входных требований. Целью исследования является получение достоверных данных о надежности отдельных устройств и комплекса в целом. Применение предложенного метода к оценке эксплуатационной надежности возможно в других областях сложных технических систем, таких как автоматизированные системы управления, технические средства охраны и т.д.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Захаров Дмитрий Николаевич, Никулин Владимир Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF METHODS OF STATISTICAL EVALUATION OF OPERATIONAL RELIABILITY OF COMPUTATIONAL COMPLEXES

The approach to calculating the reliability indicators of computer systems by the example of a multifunctional hybrid computer complex "QUANT" is considered. During the operation of the computer complex, the monitoring system collects statistical information about current processes and hardware component failures. The information received is recorded in the database and is subject to further processing. The assessment of the availability coefficient and the technical utilization coefficient of the computing complex is calculated by the known reliability indicators of the element base. Reliable values of the reliability indicators of computer systems are practically possible to obtain by analyzing data from operation or statistical experiments. Fixing the time for identifying failures and operating time of each element, provided that the total number of elements in the group is known, allows us to estimate the time distribution (distribution density) for failure. This indicator provides the most information for analyzing the reliability of an element and on its basis practically any other reliability indicators can be obtained. To process statistical information obtained during operation, it is proposed to use the nonparametric method of nuclear assessment. Studies have shown that the chosen method is universal for processing censored statistics and is not tied to specific distribution laws. In the future, software development based on this method is planned. The application of the nonparametric method of nuclear assessment to calculate the operational reliability of computer systems based on input requirements is justified. The aim of the study is to obtain reliable data on the reliability of individual devices and the complex as a whole. Application of the proposed method to the evaluation of operational reliability is possible in other areas of complex technical systems, such as automated control systems, security equipment.

Текст научной работы на тему «АНАЛИЗ МЕТОДОВ СТАТИСТИЧЕСКОЙ ОЦЕНКИ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ»

СЫ: 10.36724/2409-5419-2020-12-1-64-69

АНАЛИЗ МЕТОДОВ СТАТИСТИЧЕСКОЙ ОЦЕНКИ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ

ЗАХАРОВ

Дмитрий Николаевич1 НИКУЛИН

Владимир Сергеевич2

Сведения об авторах:

1к.т.н., начальник отдела 12 Центрального научно-исследовательского института Минобороны России, г. Сергиев Посад, Россия, [email protected]

2младший научный сотрудник 12 Центрального научно-исследовательского института Минобороны России, г. Сергиев Посад, Россия, [email protected]

АННОТАЦИЯ

Рассмотрен подход к расчету показателей надежности вычислительных комплексов на примере многофункционального гибридного вычислительного комплекса «КВАНТ». В ходе эксплуатации вычислительного комплекса, системой мониторинга собирается статистическая информация о текущих процессах и отказах аппаратных компонентов. Полученная информация зафиксирована в базе данных и подлежат дальнейшей обработке. Оценка коэффициента готовности и коэффициента технического использования вычислительного комплекса рассчитывается по известным показателям надежности элементной базы. Достоверные значения показателей надежности вычислительных комплексов практически возможно получить путем анализа данных из эксплуатации или статистических экспериментов. Фиксация времени выявления отказов и наработок каждого элемента при условии знания общего числа элементов в группе позволяет оценить распределение времени (плотность распределения) на отказ. Данный показатель предоставляет наибольшую информацию для анализа надежности элемента и на его основе могут быть получены практически любые другие показатели безотказности. Для обработки статистической информации, полученной в ходе эксплуатации, предлагается применить непараметрический метод ядерной оценки. Исследования показали, что выбранный метод является универсальным для обработки цензурирован-ной статистики и не привязан к конкретным законам распределения. В перспективе запланирована разработка программного обеспечения на основе данного метода. Обосновано применение непараметрического метода ядерной оценки для расчета эксплуатационной надежности вычислительных комплексов с учетом входных требований. Целью исследования является получение достоверных данных о надежности отдельных устройств и комплекса в целом. Применение предложенного метода к оценке эксплуатационной надежности возможно в других областях сложных технических систем, таких как автоматизированные системы управления, технические средства охраны и т.д.

КЛЮЧЕВЫЕ СЛОВА: надежность; вычислительные комплексы; оценка статистических данных; непараметрические методы; цензурированные данные.

Для цитирования: Захаров Д.Н., Никулин В.С. Анализ методов статистической оценки эксплуатационной надежности вычислительных комплексов // Наукоемкие технологии в космических исследованиях Земли. 2020. Т. 12. № 1. С. 64-69. СЫ: 10.36724/24095419-2020-12-1-64-69

Введение

Вычислительные комплексы представляют собой сложные изделия, характеризующиеся различными режимами эксплуатации и большим количеством элементов. Оценка коэффициента готовности и коэффициента технического использования вычислительного комплекса рассчитывается по известным показателям надежности элементной базы. Достоверные значения показателей надежности вычислительных комплексов практически возможно получить путем анализа данных из эксплуатации или статистических экспериментов.

Наблюдение за текущими процессами, контроль состояния аппаратных компонент многофункционального гибридного вычислительного комплекса (МГВК) «КВАНТ» основная задача системы мониторинга. Объем поступающих данных и сложность механизмов как оперативной, так и постобработки накопленной информации о состоянии комплектующих вычислительного комплекса подводят к необходимости автоматизации данного процесса. Чем более масштабными и сложными становятся вычислительные системы, тем более важными и актуальными становятся задачи автоматизации обработки данных. Но показатели надежности системы от данного факта не улучшаются, а в отдельных случаях снижаются. Причинами является, как правило, отсутствие аналитического прогноза о возможной неисправности элементной составляющей вычислительного комплекса или возникновении нештатной ситуации.

Прогнозирование факта аппаратного отказа комплектующей вычислительного комплекса возможно методами обработки имеющихся статистических данных о событиях, полученных в ходе эксплуатации вычислительного комплекса, с учетом показателей наработки на отказ по данным производителя оборудования. Результатом метода прогнозирования является оценка показателей надежности комплектующей. К таким показателям относятся плотность и функция распределения времени до отказа.

времени, кроме планируемых периодов, в течение которых применение объекта по назначению не предусматривается.

Коэффициент готовности представляет собой отношение времени работоспособного состояния к сумме времен работоспособного состояния и вынужденных простоев объекта, взятых за один и тот же календарный срок выраженный в формуле (1):

Kg =

L, +1„

(1)

где I — суммарное время работоспособного состояния объекта; t — суммарное время вынужденного простоя.

Для перехода к вероятностной трактовке величины tw и ^ заменяют математическими ожиданиями времени между соседними отказами и времени восстановления соответственно и принимает вид (2).

T

g T + T

(2)

где То — наработка на отказ; Г — среднее время восстановления.

К§ = 7695,32/(7695,32+1)=0,99987

Расчет теоретической надежности выполнен в соответствии с «ГОСТ 27.002-2009 Надежность в технике. Основные понятия. Термины и определения».

Эксплуатация МГВК «КВАНТ» показала, что полученный показатель коэффициента готовности вычислительных комплексов, рассчитанный на стадии проектирования, не является достоверным. Теоретическое среднее время восстановления вычислительного комплекса отличается от времени восстановления наблюдаемого в ходе эксплуатации. Достоверные значения показателей надежности вычислительных комплексов практически возможно получить путем анализа данных из эксплуатации или статистических экспериментов.

t

w

Теоретическая надежность многофункционального гибридного вычислительного комплекса «КВАНТ»

На стадии проектирования МГВК «КВАНТ» был произведен расчет теоретической надежности с помощью программного комплекса. Показатели надежности для отдельных изделий (сервер, коммутатор и т.п.) использованы из комплектной документации производителей оборудования. Среднее время наработки на отказ МГВК «КВАНТ» составляет Т =7695,32 ч.

Коэффициент готовности согласно «ГОСТ 27.0022009 Надежность в технике. Основные понятия. Термины и определения»—это вероятность того, что объект окажется в работоспособном состоянии в произвольный момент

Анализ методов обработки статистической информации

Модуль регистрации и хранения событий по возникшим неполадкам и неисправностям реализован на основе единой для вычислительного комплекса базы данных (БД) MySQL [1], входящей в состав системы мониторинга, содержащей информацию по каждому элементной составляющей МГВК «КВАНТ». Позволяет обеспечить не только автоматизированный сбор информации об отказах, но и электронный учет наличия, движения и эксплуатации вычислительных элементов.

Алгоритмы функционирования данного модуля предусматривают автоматическое формирование и заполнение части полей БД (дата начала эксплуатации, отказа

и пр.) при наступлении соответствующих событий в вычислительном комплексе.

Основные модули системы сбора и хранения информации реализованы на языке Perl и JavaScript [2, 3], задача программных модулей, представленных на рисунке, своевременное предоставление данных о событиях произошедших в ходе эксплуатации вычислительного комплекса оператору системы мониторинга и сохранение полученных данных в БД.

Таким образом, по каждому введенному в эксплуатацию изделию в БД содержится информация, дополняемая при наступлении каждого значимого с точки зрения учета надежности события.

База данных обеспечивает возможность извлечения необходимых выборок, сортировки информации по всем введенным в эксплуатацию комплектующим вычислительного комплекса: общее количество (полный перечень по номерам изделий), количество выходивших (вышедших) из строя, количество сохранивших работоспособность, количество выведенных из эксплуатации и пр.

Полученные данные о надежности вычислительных элементов в эксплуатации неоднородны. Не для всех вычислительных элементов начало наблюдений за ними совпадет с началом работы, а для основной части элементов за текущий период наблюдений отказов не произойдет. Это означает, что часть поступающей информации будет цензурированной, причем в основном будет иметь место цензурирование справа [4].

Учитывая большой массив данных, поступающий в обработку, следует предполагать, что обработка таких сведений также должна быть машинно-ориентированной.

Причем априорная информация о законах распределения данной статистики изначально является неизвестной.

Трудности, возникающие при обработке информации, поступающей с вычислительных комплексов и достижении необходимой точности, связаны с двумя основными моментами: наличием цензурированных данных отказа оборудования и ограниченным объёмом этих данных. Явление, при котором для части испытываемых или контролируемых изделий отсутствуют сведения о моментах наступления отказа за период наблюдения, носит название цензурирования данных, а получаемые в результате выборки — цензурированных выборок [4].

Существует большое количество методов оценки и анализа надежности. Особенности применения изложены в «ГОСТ Р 51901.5-2005 Руководство по применению методов анализа надежности». При этом ни один из известных методов не является универсальным. Основными ограничениями из тех методов, которые предполагают количественную, а не качественную оценку показателей надежности восстанавливаемых систем, являются: размерность оцениваемой системы и наличие Марковского свойства (т.е. независимость рассматриваемого процесса от предыстории) [5].

На выбор метода статистической оценки распределения времени до отказа и плотности распределения компонентов вычислительного комплекса повлияли следующие факторы:

- значительное количество оцениваемых компонентов, а также преобладание больших выборок;

- отсутствие априорной информации о виде функции распределения вероятности безотказной работы для абсолютного большинства оцениваемых номенклатур;

Программные модули сбора информации системы мониторинга

- разнотипность поступающей статистической информации;

- статистической информации характерно множественное цензурирование справа. Причем имеет место наиболее сложный для анализа вид цензурирования — тип 1 [6] предполагающий, что число наблюдаемых наработок до отказа на интервалах является случайной величиной.

Использование непараметрических методов аппроксимации неизвестных плотностей обусловлено отсутствием априорных знаний о виде функции распределения генеральной совокупности. Среди современных непараметрических методов, позволяющих аппроксимировать массивы экспериментальной информации и получать оценки эмпирической плотности распределения вероятностей, следует отметить: ядерные оценки [7], гистограммные, проекционные оценки [8] корневого оценивания [9].

Несмотря на состоятельность гистограммных оценок, их недостатком является то, что они представляют собой разрывную ступенчатую функцию, что не всегда удобно для практического использования. Это может оказаться важным при выяснении причин отказов, так как зоны сгущения точек вариационного ряда могут быть как статистическими выбросами, так и свидетельствовать о наличии закономерностей.

Проекционные и основанные на ортогональных разложениях оценки обладают следующими общими недостатками: полученная оценка может не удовлетворять условию нормировки, а также условию неотрицательности (т.е. в общем случае они не являются плотностями). К тому же, применение в методах проекционного и корневого оценивания периодических функций приводит к тому, что в полученной плотности распределения времени до отказа будут иметь место всплески и понижения, не обусловленные характером исходных данных. Они способны вводить в заблуждение исследователя при анализе надежности и выявлении причин отказов.

Достоинством ядерных оценок является их положительная определенность (при выборе неотрицательного ядра), что не выполняется для оценок на основе ортогональных разложений. Непараметрический метод ядерной оценки функции плотности распределения времени до отказа, нашел практическое применение для определения характеристик надежности оборудования АЭС в Обнинском государственном техническом университете атомной энергетики, где при участии и под руководством Антонова [12] он был развит для аппроксимации цензу-рированной информации. Там же исследованы методы, устраняющие граничные эффекты ядерных оценок плотностей для неотрицательных случайных величин (нарушение условий нормировки).

Таким образом, проекционные и гистограммно-аппроксимационные оценки, сложнее в реализации, чем

метод ядерных оценок. Существенно также то, что для них отсутствуют теоретические наработки по учету цензури-рованной справа информации. По этим причинам в качестве метода, на основе которого предлагается проводить анализ надежности элементов вычислительного комплекса, выбран метод ядерных оценок.

Метод ядерной оценки показателей

безотказности элементов

Для сохранения информация в процессе обработки, для малых выборок применяется «индивидуальный подход», заключающийся в присвоении каждой реализации некоторой элементарной плотности [10].

В этом случае для полных наработок хр..., хн эмпирическая функция распределения времени до отказа может быть представлена в виде формулы (3):

t 1 N

F(t)= i ТтЕ8(и> xi )du N i=1

(3)

где 5(и,х.) — дельта-функция Дирака [11].

В результате замены дельта-функции некоторой функцией V, удовлетворяющей условиям У> 0 и ¡УЖ = 1, будет иметь место выражение (4), вполне соответствующее традиционному подходу к построению оценки функции распределения времени до отказа:

t 1 N

F

n ° i=i

du

(4)

где под интегралом представлено выражение для суммы ядерных оценок плотности распределения; с — управляющий параметр сглаживания (параметр локальности).

Доказательство состоятельности ядерных оценок плотности приводится, например, в монографии Девроя и Дьёрфи [8].

Заключение

Выбранный метод ядерных оценок позволяет обрабатывать данные в автоматическом режиме, является универсальным, не привязанным к конкретным законам распределения наработки на отказ, развитый для обработки цензурированной статистики.

Практическая значимость предложенного метода заключается в поддержании требуемого уровня надежности вычислительных комплексов за счет рациональной организации его эксплуатации, минимизирующей затраты на закупку ЗИП. Применение предложенного метода к оценки эксплуатационной надежности возможно и в других

областях сложных технических систем, таких как автоматизированные системы управления, технические средства охра и т.д.

Литература

1. MySQL Docs // MySQL. 2018. URL: https://www. mysql.com (дата обращения: 10.08.2019).

2. Язык программирования Perl // Perl. 2015. URL: https://www.perl.org/ (дата обращения: 13.08.2019).

3. Курсы по javascript // Журнал javascript. 2016. URL: https://learn.javascript.ru/ (дата обращения: 22.08.2019).

4. Скрипник В. М. Анализ надежности технических систем по цензурированным выборкам. М.: Радио и связь, 1988. 184 с.

5. Тихонов В. И., Миронов М. А. Марковские процессы. М.: Сов. радио, 1977. 488 с.

6. Кендалл М., Стьюарт А. Статистические выводы и связи: пер с англ. М.: Наука, 1973. 896 с.

7. Parzen E. On estimation of a probability density function and mode // Annals of Mathematical Statistics. 1962. Vol. 33. No. 3. Pp. 1065-1076.

8. Деврой Л., Дьёрфи Л. Непараметрическое оценивание плотности. L1-подход: пер с англ. М.: Мир, 1988. 408 с.

9. Богданов Ю. И. Основная задача статистического анализа данных: корневой подход. М.: МИЭТ, 2002. 95 с.

10.Гаскаров Д. В., Шаповалов В. И. Малая выборка. М.: Статистика, 1978. 248 с.

11. Колмогоров А. Н., Фомин С. Ф. Элементы теории функций и функционального анализа. М.: Наука, 1976. 543 с.

12.Антонов А. В., Никулин М. С. Статистические модели в теории надежности. М.: Абрис, 2012. 390 с.

ANALYSIS OF METHODS OF STATISTICAL EVALUATION OF OPERATIONAL RELIABILITY OF COMPUTATIONAL COMPLEXES OF OM

DMITRY N. ZAKHAROV KEYWORDS: reliability; computer systems; estimation of statistical

Sergiev Posad, Russia, [email protected] data; nonparametric methods; censored data.

VLADIMIR S. NIKULIN

Sergiev Posad, Russia, [email protected]

ABSTRACT

The approach to calculating the reliability indicators of computer systems by the example of a multifunctional hybrid computer complex "QUANT" is considered. During the operation of the computer complex, the monitoring system collects statistical information about current processes and hardware component failures. The information received is recorded in the database and is subject to further processing. The assessment of the availability coefficient and the technical utilization coefficient of the computing complex is calculated by the known reliability indicators of the element base. Reliable values of the reliability indicators of computer systems are practically possible to obtain by analyzing data from operation or statistical experiments. Fixing the time for identifying failures and operating time of each element, provided that the total number of

elements in the group is known, allows us to estimate the time distribution (distribution density) for failure. This indicator provides the most information for analyzing the reliability of an element and on its basis practically any other reliability indicators can be obtained. To process statistical information obtained during operation, it is proposed to use the nonparametric method of nuclear assessment. Studies have shown that the chosen method is universal for processing censored statistics and is not tied to specific distribution laws. In the future, software development based on this method is planned. The application of the nonparametric method of nuclear assessment to calculate the operational reliability of computer systems based on input requirements is justified. The aim of the study is to obtain reliable data on the reliability of individual devices and the complex as a whole. Application of the proposed method to the evaluation of

operational reliability is possible in other areas of complex technical systems, such as automated control systems, security equipment.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

REFERENCES

1. MySQL Docs. MySQL. 2018. URL: https: // www.mysql.com (date of access: 10.08.2019).

2. Perl. 2015. URL: https: // www.perl.org/ (date of access: 13.08.2019).

3. Courses on javascript. Journal of javascript. 2016. URL: https: // learn.javascript.ru/ (date of access: 22.08.2019).

4. Skripnik V. M. Reliability Analiz nadezhnosti tekhnicheskikh sistem po tsenzurirovannym vyborkam [Analysis of technical systems by censored samples]. Moscow: Radio i svyaz', 1988. 184 p. (In Rus)

5. Tikhonov V. I., Mironov M.A. Markovskie protsessy [Markov processes]. Moscow: Sovetskoe radio 1977. 488 p. (In Rus)

6. Kendall M., Stuart A. The Advanced Theory of Statistics. Vol. 2: Inference and Relationship. 2nd ed. London: Charles Griffin and Co. Ltd., 1967. 690 p.

7. Parzen E. On estimation of a probability density function and mode. Annals of Mathematical Statistics. 1962. Vol. 33. No. 3. Pp. 1065-1076.

8. Devroye L., Gyorfi L. Nonparametric density estimation: The L1 view. Wiley; 1985. 408 p. ISBN: 978-0-4718-1646-1.

9. Bogdanov Yu. I. Osnovnaya zadacha statisticheskogo analiza dan-nyh: kornevoj podhod [The main task of statistical data analysis: the root approach]. Moscow: MIET, 2002. 408 p. (In Rus)

10. Gaskarov D. V., Shapovalov V. I. Malaya vyborka [Small sample]. Moscow: Statistika, 1978. 248 p. (In Rus)

11. Kolmogorov A. N., Fomin S. F. Elementy teorii funktsiy i funktsion-al'nogo analiza [Elements of function theory and functional analysis]. Moscow: Nauka, 1976. 543 p. (In Rus)

12. Antonov A. V., Nikulin M. S. Statisticheskie modeli v teorii nadezhnosti [Statistical models in reliability theory]. Moscow: Abris, 2012. 390 p. (In Rus)

INFORMATION ABOUT AUTHOR:

Zakharov D.N., PhD, Head of Division of the 12 Central Scientific Research Institute of the Ministry of Defence of the Russian Federation;

Nikulin V.S., Research Assistant of the 12 Central Scientific Research Institute of the Ministry of Defence of the Russian Federation.

For citation: Zakharov D.N., Nikulin V.S. Analysis of methods of statistical evaluation of operational reliability of computational complexes. H&ES Research. 2020. Vol. 12. No. 1. Pp. 64-69. doi: 10.36724/2409-5419-2020-12-1-64-69 (In Rus)

НАУКОЕМКИЕ ТЕХНОЛОГИИ

i Надоели баннеры? Вы всегда можете отключить рекламу.