DOI 10.36622/^ТО.2022Л8Л.004 УДК 519.234
АППРОКСИМАЦИЯ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ ВРЕМЕНИ РАБОТЫ МЕЖДУ ОТКАЗАМИ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ НЕПАРАМЕТРИЧЕСКИМ МЕТОДОМ
РОЗЕНБЛАТТА-ПАРЗЕНА
В.С. Никулин, А.И. Пестунов
Новосибирский государственный университет экономики и управления,
г. Новосибирск, Россия
Аннотация: определение причин возникновения отказов оборудования является одной из главных задач организации экспериментальной оценки надежности объектов. Решению данной задачи в наибольшей степени отвечает статистическое оценивание плотности распределения случайных величин. Под случайной величиной в теории надежности рассматривают такие временные показатели, как моменты отказа и восстановления оборудования, а также время работы между отказами и время, требуемое для его восстановления после отказа. Проведено исследование по аппроксимации плотности распределения времени работы между отказами по данным из эксплуатации составного оборудования вычислительной системы. Данное оборудование является высоконадежным и характеризуется малым количеством отказов, а также отсутствием априорной информации о законе распределения случайных величин. По этим причинам в качестве метода аппроксимации рассмотрен непараметрический метод Розенблатта-Парзена. В исследуемом методе функция ядра отвечает за гладкость, а параметр сглаживания за точность аппроксимации плотности распределения. В качестве ядра выбрана функция Гаусса, ранее рассмотренная в работах по теории надежности. На основе метода Хука-Дживса разработан алгоритм поиска оптимального параметра сглаживания, отвечающего за точность аппроксимации. Оценка влияния параметра сглаживания и объема выборки на точность аппроксимации проведена на основе анализа оценивания ошибок в метрике /^-пространства и графического представления. Проведенное исследование позволяет сделать выводы о том, что использование оптимального параметра сглаживания при наличии выборок различного объема позволяет уменьшить итоговую ошибку аппроксимации
Ключевые слова: статистический анализ, экспериментальная надежность, вычислительная система, непараметрический метод Розенблатта-Парзена
Введение
В теории надежности сложных технических систем методы оценки показателей надежности объектов подразделяют на расчетные и экспериментальные [1, 2]. Методы расчетной оценки показателей надежности объекта основаны на использовании справочных данных о надежности его составных частей. Данные методы позволяют выбирать оборудование на этапе проектирования, отвечающее требованиям заказчика к режиму функционирования объекта. В свою очередь, методы экспериментальной оценки показателей надежности основаны на использовании статистических данных, полученных при испытаниях объекта на надежность или в процессе его эксплуатации [3, 4].
Выбор показателей надежности сложных технических систем (объектов) зависит от типа решаемой задачи и режима эксплуатации оборудования. Например, одной из главных задач организации наблюдений за эксплуатационной
© Никулин В.С., Пестунов А.И., 2022
надежностью восстанавливаемых объектов является выявление причин отказов с целью уменьшения их влияния на надежность и эффективность применения составных элементов [5]. Решению данной задачи в наибольшей степени отвечает оценка плотности распределения времени работы между отказами. Данный показатель предоставляет наибольшую информацию для анализа надежности элемента, и на их основе могут быть получены другие показатели надежности [3].
Под случайной величиной в теории надежности рассматривают такие временные показатели, как моменты отказа и восстановления оборудования, а также время работы между отказами и время, требуемое для его восстановления после отказа. При этом отсутствие априорной информации о виде (законе) функции распределения случайной величины не позволяет использовать параметрические методы в качестве универсального подхода к оцениванию плотности распределения. Дополнительными требованиями является повышение надежности эксплуатируемого оборудования и уменьшение количества возникающих
отказов. В таких случаях принято обращаться к непараметрическим методам [6].
В данной работе проведена аппроксимация плотности распределения времени работы между отказами на примере вычислительной системы непараметрическим методом Розен-блатта-Парзена [7]. Его достоинством является положительная определенность (при выборе неотрицательного ядра), что не выполняется для оценок на основе ортогональных разложений [8, 9].
Рассмотренный метод является машинно-ориентированным и не привязанным к конкретным видам распределений случайных величин, а также пригодным для работы с малыми выборками.
Исследование непараметрического метода Розенблатта-Парзена
Оценка плотности распределения времени работы между отказами методом Розенблат-та-Парзена осуществляется по формуле (1), рассмотренной в работе [9]:
(1)
¡=1
где £( - значение времени работы между отказами, К(х) - функция ядра (чётная, нормированная функция), о - параметр сглаживания, п - объем зафиксированных наблюдений.
Как отмечают авторы работ [10, 11], функция ядра К(х) влияет на гладкость итоговой функции распределения, при этом в меньшей степени отвечает за точность аппроксимации. По этим причинам оценка влияния данной функции на точность аппроксимации не проводилась, и в качестве К(х) выбрана функция Гаусса (2), ранее рассмотренная в работах по теории надежности [3]:
К(х)=~е~^^. (2)
Параметр сглаживания а отвечает за точность аппроксимации итоговой функции распределения. Для его определения на основе метода прямого поиска Хука-Дживса [12] составлен алгоритм поиска оптимального значения параметра сглаживания с вычислением логарифмической функции правдоподобия (3):
ь(а) =II1озХк(—£'
¡=1 /
Ниже представлены шаги алгоритма поиска оптимального значения параметра сглаживания:
1) расчет базисного значения аь по выражению (4), по методу Сильвермана [13]:
аь = 0.9т1п (а, Ц^) п~, (4)
где а- стандартное отклонение, п - размер и ^ - медиана выборки.
Задаем шаг изменения d = аъ/2, выбираем значение остановы алгоритма е;
2) расчет значения Ь(аь);
3) расчет новых значений параметра сглаживания а+ = оъ + ё. и Ь(а+);
4) если Ь(а+) > Ь(аь), то оъ = а+ и переход на п. 3, иначе переход на п. 5;
5) расчет нового значения параметра сглаживания а~ = оь — переход на п. 6;
6) если а~ < 0, то переход на п. 9, иначе переход на п. 7;
7) расчет Ь(а~);
8) если Ь(а~) > Ь(аь), то аь = а~ и переход на п. 3, иначе переход на п. 9;
9) сравнение значений ё. и е. Если й < е, то искомое значение о0 найдено и выход из алгоритма, в противном случае присвоение значения d = А/2 и переход на п. 3.
Схема алгоритма расчета оптимального значения параметра сглаживания приведена на рис. 1.
— ^[(я — ад (3)
Рис. 1. Алгоритма расчета оптимального значения параметра сглаживания
Оценка точности аппроксимации на примере данных из эксплуатации вычислительной системы
Вычислительная система состоит из сетевого оборудования управляющего и вычислительных серверов. В период её эксплуатации система мониторинга фиксирует события в базе данных по каждому элементу вычислительной системы (отказы, включение/выключение, текущее состояние контролируемых датчиков, доступность устройства). Схема взаимодействия составного оборудования вычислительной системы представлена на рис. 2:
Таблица 1
Значения наработок времени между отказами
элементов
Эл-т Значения времени между отказами Кол-во
N71 2506, 13264, 1853, 2176, 6579, 4400, 1672, 5618, 2870 9
N72 98, 2230, 778, 269, 687, 4798, 696, 4013, 2629, 3735, 2414, 1633, 4432, 504, 1280, 838, 5316, 3530 18
N73 485, 1888, 2163, 6756, 1762, 9221, 571, 8843, 7322 9
N74 3875, 59, 5015, 1840, 1438, 3515, 5361, 1071, 672, 7578, 5820, 1855, 2262 13
N75 136, 2361, 2711, 4426, 1291, 4517, 5714, 924, 531, 7179, 1608, 7135 12
N76 2778, 3434, 5232, 1242, 1163, 8254, 663, 3628, 11431 9
N77 1639, 397, 1060, 7740, 1548, 1589, 6481, 1421, 3446, 1671, 2895, 10412 12
N78 588, 3991, 7772, 12137, 4712, 10286 6
N79 915, 3936, 1169, 6680, 13708, 1983, 12607 7
N710 272, 3416, 1288, 6055, 4219, 7779, 3226, 6166, 5455, 504 10
N711 114, 4172, 321, 8400, 8272, 5160, 3293, 1206, 680, 5352, 628 11
N712 4172, 7965, 1865, 6351, 937, 5476, 10789, 2380 8
N713 560, 1955, 862, 8743, 826, 1056, 15111, 1339, 8358, 1125 10
N714 204, 2164, 1741, 1201, 3677, 6085, 5289, 1510, 7495, 2562 10
N715 2040, 3581, 5022, 1696, 8730, 5911, 12007 7
N716 1883, 1263, 9163, 5707, 3259, 10626, 5179, 1907 8
N717 475, 4106, 4917, 3835, 7839, 18554 6
N718 861, 2322, 3406, 8742, 5183, 1886, 8379, 6444 8
N719 4893, 4952, 2578, 13857 4
N720 587, 17068, 1716, 4990, 8292, 9104 6
Рис. 2. Схема взаимодействия элементов вычислительной системы и системы мониторинга: 1 - управляющий сервер, 2 - сервер мониторинга, 3 - коммутатор служебных сообщений, 4 - высокоскоростной коммутатор вычислительной сети, 5 - коммутатор сети мониторинга, N71 - N720 - вычислительные сервера
Зафиксированные события предварительно обрабатываются в соответствии с методикой подготовки данных, представленной в работе [13]. После этого данные становятся структурированными и пригодными для оценки и представимы в виде массива наработок времени между отказами по каждому элементу вычислительной системы (табл. 1).
Как видно из табл. 1, всего за период эксплуатации объекта зафиксировано 183 наработки времени между отказами по совокупности однотипных элементов. В частности, по каждому элементу преобладают выборки малого объема до 10 отказов. При этом однотипность используемых элементов, а также общий период эксплуатации позволяет объединить полученные наработки на отказ в генеральную совокупность событий.
Оценка влияния параметра сглаживания и объема выборки на точность аппроксимации плотности распределения времени между отказами осуществляется на основе анализа
ошибок и анализа графического представления. Для этого:
- из генеральной совокупности событий сформированы две выборки в соотношении 80% (основная) и 20% (тестовая) от объёма соответственно;
- из основной выборки сформированы случайные выборки различного объема п = 5, 10, 30, 50, 100, 130;
- для тестовой и каждой случайной выборки рассчитано оптимальное значение параметра сглаживания сто;
- на основе случайных выборок по выражению (1) с различным значением параметра сглаживания равными аь, сто, а также двумя величинами ст5, от характеризующие малое и большое значение параметра сглаживания построены плотности распределения времени работы между отказами;
- выводы о точности оценок основывались на вычислении ошибок оценивания еп в метрике Ьг -пространства (Ьг -расстояние) по выражению (5):
j \ft(t)-fs(t)\dt,
(5)
где - плотность распределения времени
между отказами по тестовому набору, -
по случайным выборкам. Полученное значение еп сравнивается с заданным уровнем точности 0,02.
В табл. 2 представлены максимальные значения ошибок оценивания функции еп при различных объемах случайных выборок и их параметров сглаживания.
Таблица 2
Значения ошибок оценивания функции еъ
n = 5 n = 10 n = 30 n = 50 n = 100 n = 130
0,033 0,022 0,021 0,019 0,017 0,016
0,031 0,019 0,018 0,015 0,011 0,009
0,053 0,039 0,031 0,026 0,0223 0,020
0,036 0,034 0,029 0,024 0,019 0,019
Графический анализ аппроксимации плотности распределения при различных объемах наработок времени между отказами с оптимальными параметрами сглаживания представлен на рис. 3-8.
Рис. 3. Аппроксимация плотности распределения по n=5
- fs(t) при CT0 ft(t) При CT0 = 1453.48 = 1105.31
0.030 0.025
Объем в ыборки п = 10
/4 i >
0.015
\\
0.005 0.000
— —^ ч4—
25 00 50 00 75 00 юс 00 12 00 15С 00 17 00 20С ПО
Рис. 4. Аппроксимация плотности распределения по n=10
0.040 0.035 0.030 0.025 Í 0.020 0.015 0.0X0 0.005 0.000
fs(t) при о0 =1872.53
/ \ ft(t) при о0 = 1105.31
/ Объем в ыборки л = 15
/ N
i \
\
0 2500 5000 7500 10000 12500 15000 17500 20000 t - ч. между отказами
Рис. 5. Аппроксимация плотности распределения по n=15
Рис. 6. Аппроксимация плотности распределения по n=30
1 \ fs(t) при Сто =1149.79 />(£■) при ст0 =1105.31
V Объ ем в ыборки п = 100
\
V
25 D0 5000 75 00 10000 12500 15000 17 00 20С 00
Рис. 7. Аппроксимация плотности распределения по n=100
А fs(t) при Сто =1164.6
0.030 ft(t) при Сто =1105.31
/ \ Объем выборки п = 130
0.015 0.010 0.005 0.000
2500 50 00 75 00 100 00 12500 15000 175 00 20С 00
Рис. 8. Аппроксимация плотности распределения по п=130
На рис. 3-8 приняты следующие обозначения: ^(€) - плотность распределения времени между отказами по тестовому набору, - по случайным выборкам, ^ - время работы между отказами, а0 - оптимальное значение параметра сглаживания, п - объем выборки.
Заключение
Полученные зависимости позволяют сделать выводы об общей тенденции улучшения точности оценивания при использовании оптимального параметра сглаживания и объёма выборки. При этом уже от 10 случайных величин и использовании оптимального параметра сглаживания полученная оценка плотности достигает заданного уровня точности.
Помимо оценки точности итоговой функции плотности распределения, графический анализ используется для проведения технологического анализа надежности объекта и корректировки режимов его эксплуатации.
Литература
1. Половко А.М., Гуров С.В. Основы теории надежности. 2-е изд. Спб.: БХВ-Петербург, 2008. 97 с.
2. ГОСТ 27.002-89. Надежность в технике. Основные понятия. Термины и определения: утв. постановлением Госстандарта СССР от 15 ноября 1989 г. № 3375.
3. Антонов А.В., Никулин М.С. Статистические модели в теории надежности. М.: Абрис, 2012. 390 с.
4. Бостанджиян В.А. Пособие по статистическим распределениям. Черноголовка: Редакционно-издательский отдел ИПХФ РАН, 2013. 1060 с.
5. Чепурко В.А. Ядерная оценка параметра потока отказов. Диагностика и прогнозирование состояния сложных систем // Сборник научных трудов каф. АСУ НИЯУ МИФИ. 2004. № 15. С. 19-31.
6. Гаскаров Д.В., Шаповалов В.И. Малая выборка. М.: Статистика, 1978. 248 с.
7. Rozenblatt, M. Remark on some nonparametric estimates of a density function // Annals of Mathematical Statistics. 1956. № 27. P. 832-837.
8. Захаров Д.Н., Никулин В.С. Анализ методов статистической оценки эксплуатационной надежности вычислительных комплексов. // Наукоемкие технологии в космических исследованиях Земли. 2020. Т. 12. № 1. С. 64-69.
9. Богданов Ю.И. Основная задача статистического анализа данных: корневой подход. М.: МИЭТ, 2002. 132 с.
10. Антонов А.В. Статистический анализ эксплуатационной надёжности электронасосных агрегатов ЦН 60-180 реакторов ВВЭР-1000 методами ядерного оценивания // Известия вузов. Ядерная энергетика. 2009. № 3. С. 5-14.
11. Parzen E. On estimation of a probability density function and mode. 33rd ed. Annals of Mathematical Statistics, 1962. 1065-1076 pp.
12. Деврой Л., Дьёрфи Л. Непараметрическое оценивание плотности. L1-подход. М.: Мир, 1988. 408 с.
13. Hooke R., Jeeves T. "Direct Search" Solution of Numerical and Statistical Problems // ACM Journals. 1961. Pp. 212-229. https://doi.org/10.1145/321062.321069
14. Silverman B.W. Density estimation for Statistics and Data Analysis. London: monographs on Statistics and Applied Probability, 1986. Рр. 20-23
15. Никулин В.С. Методика подготовки данных для интеллектуального анализа надежности вычислительных комплексов // Вестник СИБГУТИ. 2020. № 3. С. 26-37.
Поступила 30.11.2021; принята к публикации 18.02.2022
Информация об авторах
Никулин Владимир Сергеевич - аспирант кафедры информационных технологий, Новосибирский государственный университет экономики и управления (630099, Россия, г. Новосибирск, ул. Каменская, 52/1 оф. 5-210), e-mail: [email protected]
Пестунов Андрей Игоревич - канд. физ.-мат. наук, заведующий кафедрой информационных технологий, Новосибирский государственный университет экономики и управления (630099, Россия, г. Новосибирск, ул. Каменская, 52/1 оф. 5-210), e-mail: [email protected]
APPROXIMATION OF THE DISTRIBUTION DENSITY OF TIME BETWEEN FAILURES OF A COMPUTING SYSTEM BY THE ROSENBLATT-PARZEN NONPARAMETRIC METHOD
V.S. Nikulin, A.I. Pestunov Novosibirsk State University of Economics and Management, Novosibirsk, Russia
Abstract: determining the causes of equipment failures is one of the main tasks of organizing an experimental assessment of the reliability of objects. The solution of this problem is best met by statistical estimation of the distribution density of random variables. A random variable in reliability theory considers such time indicators as the moments of equipment failure and recovery, as well as the operating time between failures and the time required to restore it after the failure. In this work, we carried out a study on the approximation of the distribution density of the operation time between failures, according to data from the operation of the composite equipment of a computer system. This equipment is highly reliable and is characterized by a small number of failures, as well as the absence of a priori information about the law of distribution of random variables. For these reasons, the nonparametric Rosenblatt-Parzen method is considered as an approximation method. In the method under study, the kernel function is responsible for smoothness, and the smoothing parameter is responsible for the accuracy of the distribution density approximation. The Gaussian function, previously considered in works on reliability theory, is chosen as the kernel. Based on the Hooke-Jeeves method, we developed an algorithm for finding the optimal smoothing parameter responsible for the approximation accuracy. We carried out the assessment of the effect of the smoothing parameter and the sample size on the accuracy of the approximation on the basis of an analysis of the estimation of errors in the Lrspace metric and a graphical representation. The conducted study allows us to conclude that the use of the optimal smoothing parameter in the presence of samples of different sizes can reduce the final approximation error
Key words: statistical analysis, experimental reliability, computer system, Rosenblatt-Parzen method
References
I. Polovko A.M., Gurov S.V. "Foundations of the theory of reliability" ("Osnovy teorii nadezhnosti"), St. Petersburg: BHV-Petersburg, 2008.
2. GOST27.002-89. "Industrial product dependability. General concepts. Terms and definitions", 1989
3. Antonov A.V., Nikulin M.S. "Statistical models in the theory reliability" ("Statisticheskie modeli v teorii nadezhnosti"), Moscow: Abris, 2012, 390 p.
4. Bostandzhiyan V.A. "A guide to statistical distributions" ("Posobie po statisticheskim raspredeleniyam"), Chernogolovka: Editorial and Publishing Department of IPHF RAS, 2013, 1060 p.
5. Chepurko V.A. "Nuclear estimation of the failure stream parameter. Diagnostics and forecasting of the state of complex systems", Сollection of Scientific Papers (Sbornik nauchnykh trudov), MEFI, 2004, no. 15, pp. 19-31.
6. Gaskarov D.V., Shapovalov V.I. "Small sample" ("Malaya vyborka"), Moscow: Statistika, 1978, 248 p.
7. Rozenblatt M. "Remark on some nonparametric estimates of a density function", Annals of Mathematical Statistics, 1956, no. 27, pp. 832-837.
8. Zaharov D.N., Nikulin V.S. "Analysis of methods of statistical evaluation of operational reliability of computational complexes", Scientific Technologies in Space Research of the Earth (Naukoyemkie tekhnologii v kosmicheskikh issledovaniyakh Zemli), 2020, vol. 12, no. 1. pp. 64-69.
9. Bogdanov Yu.I. "The main objective of statistical data analysis: the root approach" ("Osnovnaya zadacha statisticheskogo analiza dannykh: kornevoy podkhod"), Moscow: MIET, 2002, pp. 25-34.
10. Antonov A.V. "Statistical analysis of the operational reliability of electric pumping units TsN 60-180 of VVER-1000 reactors using nuclear assessment methods", News of Higher Universities. Nuclear Power (Izvestiya vuzov. Yadernaya Energetika), 2009, no.3, pp. 5-14.
II. Parzen E. "On estimation of a probability density function and mode", 33rd ed. Annals of Mathematical Statistics, 1962, pp. 1065-1076.
12. Devroye L., Gyorfi L. "Nonparametric density estimation", Wiley, 1985, 408 p.
13. Hooke R., Jeeves T. ""Direct Search" solution of numerical and statistical problems", , ACM Journals, 1961, pp. 212-229, available at: https://doi.org/10.1145/321062.321069
14. Silverman B.W. "Density estimation for statistics and data analysis", Monographs on Statistics and Applied Probability, London, 1986.
15. Nikulin V.S. "Methods of data preparation data for intelligent analysis of the computer systems reliability", Bulletin of Sib-SUTI (Vestnik SibGUTI), 2020, no. 3(51), pp. 26-37.
Submitted 30.11.2021; revised 18.02.2022 Information about the authors
Vladimir S. Nikulin, Graduate student, Novosibirsk State University Economic and Management (office № 5-210, 52/1 Ka-menskaya st., Novosibirsk 630099, Russia), e-mail: [email protected]
Andrey I. Pestunov, Cand. Sc. (Phys.-Math.), Head of Information Technology Dept., Novosibirsk State University Economic and Management (office № 5-210, 52/1 Kamenskaya st., Novosibirsk 630099, Russia), e-mail: [email protected]
41