Научная статья на тему 'МУЛЬТИПЛИКАТИВНО-НЕЙРОСЕТЕВОЕ ОБЪЕДИНЕНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ХЕРСТА И МУРОТА - ТАКЕУЧИ ПРИ ПРОВЕРКЕ ГИПОТЕЗЫ НОРМАЛЬНОСТИ МАЛЫХ ВЫБОРОК'

МУЛЬТИПЛИКАТИВНО-НЕЙРОСЕТЕВОЕ ОБЪЕДИНЕНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ХЕРСТА И МУРОТА - ТАКЕУЧИ ПРИ ПРОВЕРКЕ ГИПОТЕЗЫ НОРМАЛЬНОСТИ МАЛЫХ ВЫБОРОК Текст научной статьи по специальности «Математика»

CC BY
38
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ АНАЛИЗ МАЛЫХ ВЫБОРОК / ПРОВЕРКА ГИПОТЕЗЫ НОРМАЛЬНОСТИ / КРИТЕРИИ ХЕРСТА / КРИТЕРИЙ АНДЕРСОНА - ДАРЛИНГА / КРИТЕРИЙ МУРОТА - ТАКЕУЧИ

Аннотация научной статьи по математике, автор научной работы — Иванов Александр Иванович, Иванов Алексей Петрович, Куприянов Евгений Николаевич

Актуальность и цели. Рассматривается проблема анализа малых выборок путем объединения нескольких, созданных в прошлом веке статистических критериев. Объединяются критерий Херста, критерий Андерсона - Дарлинга, критерий Муроты - Такеучи. Материалы и методы. Предложено осуществлять объединение, рассматриваемых статистических критериев через умножение их выходных состояний. Уже после мультипликативного объединения статистических критериев предложено выполнять квантование их непрерывных данных в дискретные состояния «0» и «1». Результаты . При низкой коррелированности объединяемых статистических критериев мультипликативно-нейросетевое обобщение дает существенное снижение их итоговой вероятности ошибок первого и второго рода в сравнении с использовавшимся ранее конкатенационно-нейросетевым обобщением. В этом отношении более простое конкатенационно-нейросетевое обобщение является менее информативным. Выводы. Конкатенационно-нейросетевое объединение статистических критериев плохо работает для разнородных по качеству критериев, что показано на примере обобщения трех рассмотренных статистических критериев. В этом отношении мулитипликативно-нейросетевое обобщение статистических критериев является более выгодным, так как позволяет повысить достоверность принимаемых решений уже для двух, рассматриваемых критериев.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Иванов Александр Иванович, Иванов Алексей Петрович, Куприянов Евгений Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTIPLICATIVE NEURAL NETWORK COMBINATION OF HURST AND MUROTA-TAKEUCHI STATISTICAL CRITERIA IN CHECKING THE HYPOTHESIS OF NORMALITY OF SMALL SAMPLES

Background. The problem of analyzing small samples by combining several statistical criteria created in the last century is considered. The Hirst test, the Anderson-Darling test, and the Murota-Takeuchi test are combined. Materials and methods. It is proposed to combine the considered statistical criteria by multiplying their output states. Already after the multiplicative combination of statistical criteria, it is proposed to quantize their continuous data into discrete states "0" and "1". Results. With a low correlation of the combined statistical criteria, multiplicative neural network generalization gives a significant decrease in their final probability of errors of the first and second kind, in comparison with the previously used concatenation-neural network generalization. In this respect, a simpler concatenation-neural network generalization is less informative. Conclusions. The concatenation-neural network combining of statistical criteria does not work well for criteria of different quality, which is shown by the example of generalization of the three considered statistical criteria. In this respect, multiplicative-neural network generalization of statistical criteria is more advantageous, since it allows increasing the reliability of decisions made for two considered criteria.

Текст научной работы на тему «МУЛЬТИПЛИКАТИВНО-НЕЙРОСЕТЕВОЕ ОБЪЕДИНЕНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ХЕРСТА И МУРОТА - ТАКЕУЧИ ПРИ ПРОВЕРКЕ ГИПОТЕЗЫ НОРМАЛЬНОСТИ МАЛЫХ ВЫБОРОК»

УДК 519.24; 53; 57.017 doi:10.21685/2307-4205-2021-4-4

МУЛЬТИПЛИКАТИВНО-НЕЙРОСЕТЕВОЕ ОБЪЕДИНЕНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ХЕРСТА И МУРОТА - ТАКЕУЧИ ПРИ ПРОВЕРКЕ ГИПОТЕЗЫ НОРМАЛЬНОСТИ МАЛЫХ ВЫБОРОК

А. И. Иванов1, А. П. Иванов2, Е. Н. Куприянов3

1 Пензенский научно-исследовательский электротехнический институт, Пенза, Россия 2' 3 Пензенский государственный университет, Пенза, Россия 1 ivan@pniei.penza.ru, 2 ap_ivanov@pnzgu.ru, 3 evgnkupr@gmail.com

Аннотация. Актуальность и цели. Рассматривается проблема анализа малых выборок путем объединения нескольких, созданных в прошлом веке статистических критериев. Объединяются критерий Херста, критерий Андерсона - Дарлинга, критерий Муроты - Такеучи. Материалы и методы. Предложено осуществлять объединение, рассматриваемых статистических критериев через умножение их выходных состояний. Уже после мультипликативного объединения статистических критериев предложено выполнять квантование их непрерывных данных в дискретные состояния «0» и «1». Результаты. При низкой коррелированности объединяемых статистических критериев мультипликативно-нейросетевое обобщение дает существенное снижение их итоговой вероятности ошибок первого и второго рода в сравнении с использовавшимся ранее конкатенаци-онно-нейросетевым обобщением. В этом отношении более простое конкатенационно-нейросетевое обобщение является менее информативным. Выводы. Конкатенационно-нейросетевое объединение статистических критериев плохо работает для разнородных по качеству критериев, что показано на примере обобщения трех рассмотренных статистических критериев. В этом отношении мулитипликативно-нейросетевое обобщение статистических критериев является более выгодным, так как позволяет повысить достоверность принимаемых решений уже для двух, рассматриваемых критериев.

Ключевые слова: статистический анализ малых выборок, проверка гипотезы нормальности, критерии Херста, критерий Андерсона - Дарлинга, критерий Мурота - Такеучи

Для цитирования: Иванов А. И., Иванов А. П., Куприянов Е. Н. Мультипликативно-нейросетевое объединение статистических критериев Херста и Мурота - Такеучи при проверке гипотезы нормальности малых выборок // Надежность и качество сложных систем. 2021. № 4. С. 27-33. doi:10.21685/2307-4205-2021-4-4

MULTIPLICATIVE NEURAL NETWORK COMBINATION OF HURST AND MUROTA-TAKEUCHI STATISTICAL CRITERIA IN CHECKING THE HYPOTHESIS OF NORMALITY OF SMALL SAMPLES

A.I. Ivanov1, A.P. Ivanov2, E.N. Kupriyanov3

1 Penza Research Institute of Electrical Engineering, Penza, Russia 2' 3 Penza State University, Penza, Russia 1 ivan@pniei.penza.ru, 2 ap_ivanov@pnzgu.ru, 3 evgnkupr@gmail.com

Abstract. Background. The problem of analyzing small samples by combining several statistical criteria created in the last century is considered. The Hirst test, the Anderson-Darling test, and the Murota-Takeuchi test are combined. Materials and methods. It is proposed to combine the considered statistical criteria by multiplying their output states. Already after the multiplicative combination of statistical criteria, it is proposed to quantize their continuous data into discrete states "0" and "1". Results. With a low correlation of the combined statistical criteria, multiplicative neural network generalization gives a significant decrease in their final probability of errors of the first and second kind, in comparison with the previously used concatenation-neural network generalization. In this respect, a simpler concatenation-neural network generalization is less informative. Conclusions. The concatenation-neural network combining of statistical criteria does not work well for criteria of different quality, which is shown by the example of generalization of the three considered statistical criteria. In this respect, multiplicative-neural network generalization of

© Иванов А. И., Иванов А. П., Куприянов Е. Н., 2021. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

statistical criteria is more advantageous, since it allows increasing the reliability of decisions made for two considered criteria.

Keywords: statistical analysis of small samples, testing the hypothesis of normality, Hurst tests, AndersonDarling test, Murota-Takeuchi test

For citation: Ivanov A.I., Ivanov A.P., Kupriyanov E.N. Multiplicative neural network combination of Hurst and Murota-Takeuchi statistical criteria in checking the hypothesis of normality of small samples. Nadezhnost' i kachestvo slozhnykh sistem = Reliability and quality of complex systems. 2021;(4):27-33. (In Russ.). doi:10.21685/2307-4205-2021-4-4

Введение

В двадцатом веке активно создавались статистические критерии для проверки гипотезы нормального распределения данных. Наиболее часто применяемым является хи-квадрат критерий Пирсона, созданный в 1900 г.1 Позднее был создан ряд более мощных статистических критериев, однако все они ориентированы на обработку больших выборок в 100 и более опытов2. К сожалению, в ряде практически важных приложений столь большие объемы выборок получить не удается. В частности, такая ситуация возникает в медицине, биологии, биометрии, экономике. При наличии малых выборок от 16 до 20 опытов обычные статистические критерии дают крайне низкую достоверность принимаемых решений. Однако в двадцатом веке было создано порядка 21 работоспособных статистических критериев [1]. Если каждому из известных статистических критериев построить эквивалентный искусственный нейрон [2-4], то мы получим нейросеть, выходом которой является код с высокой 21-кратной избыточностью. При таком подходе к решению задачи анализа малых выборок каждый из 21 искусственных нейронов работают самостоятельно, а их выходные кодовые состояния объединяются конкатенацией в длинный код. В связи с этим такой способ объединения множества статистических критериев следует рассматривать как конкатенационный.

Пример конкатенационного объединения трех классических статистических критериев: Андерсона - Дарлинга, Херста, Мурота - Такеучи

Традиционное аналитическое исследование статистических критериев начала двадцатого века требует очень высокой математической подготовки исследователя. Гораздо меньший уровень квалификации исследователя требует прямой численный эксперимент. На рис. 1 приведены коды программной реализации моделирования на языке МаШСАБ откликов трех классических статистических критериев при воздействии на них малыми выборками в 16 опытов с нормальным и равномерным распределением.

sx(ir) :=

I sort(moim(16,0,1 + it)) m fflean(i) <7 stdev(]t)

5xr(ir} :=

Ii Ipnoim|i..m.^] - J -dnoim(x..m.'"^

pnoim|Xj.m.'-^ 11 — pnoim|x^m.crjj

t= 0

Hi ^

15

MT ^ у со 5.

i= a

(AD Hr MT)T

j. 14

x«- soit(runif(lä.-j - ir.3 + it)) m *— mean(s) tr <— stdevfx)

15

AD •

i= 0

: pnomi[b .m,trj — ^—^ -dnonn|^ .m.crj pnorm|i..m.tj]-| 1 - piMMm|i.,m,trJJ

Hr

15

MT у co=

L= 0

(AD Hr МГ)Т

V^15 I 3.14 )

Рис. 1. Программная реализация статистического критерия Андерсона - Дарлинга (1952), критерия Херста (1907) и критерия Муроты - Такеучи (1981) для малых выборок в 16 опытов с нормальным распределением и равномерным распределением данных

1 Р 50.1.033-2001. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2.

2 Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии.

На рис. 2 представлены выходные состояния классического критерия Андерсона - Дарлинга. Следует подчеркнуть, что обычно классические статистические критерии принято описывать таблицами квантилей доверительной вероятности. Для нас более удобным является замена статистического критерия эквивалентным ему искусственным нейроном. В свою очередь множество выходных состояний искусственных нейронов зависит от порога его выходного квантователя. В нашей ситуации выгодно снизить размерность решаемой задачи через выбор порога квантования, обеспечивающего одинаковые значения ошибок первого и второго рода. Порог квантователя k = 0,165 обеспечивает вероятности ошибок Р1 = Р2 ~ 0,272. При выборе выходных состояний квантователя зададим состояние «0» для малых выборок с нормальным распределением и состояние «1» для данных с равномерным распределением.

0.0151-1-1-

P(AD)

Рис. 2. Распределения вероятностей выходных состояний критерия Андерсона - Дарлинга и эквивалентного ему искусственного нейрона

Можно показать, что мощность критерия Андерсона - Дарлинга на малых выборках существенно выше мощности хи-квадрат критерия Пирсона. Более мощным критерием, чем критерий Андерсона - Дарлинга является критерий Херста, возраст которого сопоставим с возрастом хи-квадрат критерия [5, 6]. Англичанин Херст был гидрологом и работал с 1907 г. в Египте над проектом плотины на реке Нил. В какой момент гидролог Херст создал свой критерий, неизвестно. Округляя в пользу пионера, можно считать 1907 г. годом создания критерия Херста. На рис. 3 даны плотности вероятности выходных состояний критерия Херста и эквивалентного им искусственного нейрона. Для этого критерия при пороге квантования k = 3,4 обеспечивается вероятность ошибок Р1 = Р2 ~ 0,225. Это примерно на 21 % меньше, чем для критерия Андерсона - Дарлинга.

0.0^1-1-1-

р(Нг)

0.01Î

0.01

5x10 3

Рис. 3. Распределения вероятностей выходных состояний критерия Херста и эквивалентного ему искусственного нейрона

Самым мощным из рассматриваемых является критерий Муроты - Такеучи. Данные о выходных состояниях этого критерия приведены на рис. 4. При выборе порога к = 10,9 обеспечивается вероятность ошибок Р\ = Р2 ~ 0,119, т.е. мощность критерия Муроты - Такеучи примерно в 2 раза выше критерия Херста.

Рис. 4. Распределения вероятностей выходных состояний критерия Мурота - Такеучи и эквивалентного ему искусственного нейрона

Если мы выходные дискретные состояния трех рассмотренных искусственных нейронов объединим конкатенацией, то получим код из трех бит. Когда все три критерия обнаруживают нормальные данные, то мы получим выходной код «000». Если бы мы использовали большее число статистических критериев, то выходной код был бы длиннее. По мере роста числа известных статистических критериев может расти длина выходного кода, соответственно, должна расти их корректирующая способность. Структура конкатенационно-нейросетевых обобщений статистических критериев проверки гипотезы нормальности приведена на рис. 5.

Рис. 5. Конкатенационное обобщение искусственных нейронов

Избыточность выходных кодов в простейшем случае может быть устранена подсчетом числа состояний «0» и «1». Если число состояний «0» больше, чем «1», то принимается итоговое решение «0» (обнаружены нормальные данные). Основной проблемой таких технических решений является

низкая корректирующая способность. Чем сильнее корреляционная связь между разрядами избыточного кода, тем хуже корректирующая способность подобных кодов. В рассматриваемом нами случае: corr(MT, Hr) ~ -0,347, corr(MT, AD) ~ 0,603, corr(Hr, AD) ~ -0,117. В связи со столь значительной корреляцией разрядов трехкратной избыточности кода недостаточно. Простейшее техническое решение конкатенационно-нейросетевых обобщений не работает. Проще отбросить слабые критерии (Херста и Андерсона - Дарлинга), оставив только наиболее сильный критерий Муроты -Такеучи. Тогда мы получаем вероятности ошибок на уровне Р1 = Р2 ~ 0,119.

Перспектива мультипликативного объединения статистических критериев

Рассмотрим ситуацию перемножения результатов двух наиболее мощных критериев Мурота -Такиучи и Херста и последующего квантования данных. При этом умножение выполним нормированным так, чтобы наиболее вероятные значения этих критериев для равномерных данных были менее единицы:

MT • Hr ^

MT• Hr • 3,4

10,09

z(MT • Hr) ^ "0" if MT • Hr > 1,04; z(MT • Hr) ^ "1" if MT • Hr < 1,04.

(1)

Результаты численного моделирования искусственного нейрона Муроты - Такеучи - Херста (1) приведены на рис. 6.

Рис. 6. Распределения вероятностей выходных состояний мультипликативного объединения критерия Мурота - Такеучи и критерия Херста, а также эквивалентного им искусственного нейрона

Сравнивая данные рис. 4 и 6, мы видим существенный рост качества принимаемых нейронами решений. Нейрон, полученный мультипликативным объединением критерия Херста и критерия Мурота - Такеучи, дает снижение вероятности ошибок до величины Р1 = Р2 ~ 0,078. Принципиально важным является то, что мультипликативное объединение только двух рассматриваемых критериев дает вероятности ошибок первого и второго рода примерно в 2 раза лучше, чем конкатенационное объединение трех рассматриваемых критериев. Это свидетельствует о высоком потенциале мульти-кативного обобщения двух и более известных статистических критериев проверки гипотезы нормального распределения малых выборок.

Появляется формальная возможность перехода от использовавшейся ранее конкатенационной схемы нейросетевого обобщения множества статистических критериев к гибридной конкатенацион-но-мультипликативной схеме объединения известных статистических критериев. Эта схема отображена на рис. 7.

Рис. 7. Конкатенационно-мультипликативное объединение искусственных нейронов статистической проверки гипотезы нормальности малых выборок

Заключение

Переход от использования множества известных одиночных статистических критериев к их совместному применению критериев легко выполним, если каждый критерий заменить эквивалентным искусственным нейроном. При этом простейшие алгоритмы корректировки ошибок избыточного выходного кода нейросети по большинству состояний имеют низкую эффективность. Очевидно, что применение более сложных алгоритмов обнаружения и корректировки ошибок в избыточном коде должно приводить к улучшению результатов [7].

Еще одним путем улучшения итоговых результатов является увеличение числа учитываемых статистических критериев (увеличение избыточности нейросетевых кодов). Как показано в данной статье, число статистических критериев легко увеличивается путем умножения их выходных состояний. Предположительно потенциал конкатенационно-мультипликативных нейросетевых обобщений статистических критериев много выше, чем исследованных ранее конкатенационно-нейро-сетевых обобщений.

Список литературы

1. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М. : Физмат-лит, 2006. 816 с.

2. Иванов А. И., Банных А. Г., Безяев А. В. Искусственные молекулы, собранные из искусственных нейронов, воспроизводящих работу классических статистических критериев // Вестник Пермского университета. Сер.: Математика. Механика. Информатика. 2020. № 1. С. 26-32. ао1: 10.17072/1993-0550-2020-1-26-32.

3. Иванов А. И. Искусственные математические молекулы: повышение точности статистических оценок на малых выборках (программы на языке МаШСАБ) : препринт. Пенза : Изд-во ПГУ, 2020. 36 с.

4. Иванов А. И., Банных А. Г., Куприянов Е. Н. [и др.]. Коллекция искусственных нейронов, эквивалентных статистическим критериям, для их совместного применения при проверке гипотезы нормальности малых выборок биометрических данных // Безопасность информационных технологий : тр. I Всерос. науч.-техн. конф. Пенза : Изд-во ПГУ, 2019. С. 163-172.

5. Мандельброт Б., Хадсон Р. (Не) послушные рынки: фрактальная революция в финансах. М. : Вильямс, 2006. 400 с.

6. Мандельброт Б. Фрактальная геометрия природы. М. : Институт компьютерных исследований, 2002. 656 с.

7. Морелос-Сарагоса Р. Искусство помехоустойчивого кодирования. Методы, алгоритмы, применение. М. : Техносфера, 2005. 320 с

References

1. Kobzar' A.I. Prikladnaya matematicheskaya statistika. Dlya inzhenerov i nauchnykh rabotnikov = Applied mathematical statistics. For engineers and scientists. Moscow: Fizmatlit, 2006:816. (In Russ.)

2. Ivanov A.I., Bannykh A.G., Bezyaev A.V. Artificial molecules assembled from artificial neurons reproducing the work of classical statistical criteria. Vestnik Permskogo universiteta. Ser.: Matematika. Mekhanika. Informatika = Bulletin of Perm University. Ser.: Mathematics. Mechanics. Computer science. 2020;(1):26-32. (In Russ.). doi: 10.17072/1993-0550-2020-1-26-32

3. Ivanov A.I. Iskusstvennye matematicheskie molekuly: povyshenie tochnosti statisticheskikh otsenok na malykh vy-borkakh (programmy na yazyke MathCAD): preprint = Artificial mathematical molecules: improving the accuracy of statistical estimates on small samples (programs in MathCAD) : preprint. Penza: Izd-vo PGU, 2020:36. (In Russ.)

4. Ivanov A.I., Bannykh A.G., Kupriyanov E.N. [et al.]. A collection of artificial neurons equivalent to statistical criteria for their joint application in testing the hypothesis of the normality of small samples of biometric data. Be-

zopasnost' informatsionnykh tekhnologiy: tr. I Vseros. nauch.-tekhn. konf. = Information Technology Security : Proceedings of the I All-Russian Scientific and Technical conf.. Penza: Izd-vo PGU, 2019:163-172. (In Russ.)

5. Mandelbrot B., Khadson R. (Ne) poslushnye rynki: fraktal'naya revolyutsiya v finansakh = . Moscow: Vil'yams, 2006:400. (In Russ.)

6. Mandelbrot B. Fraktal'naya geometriya prirody = Fractal geometry of nature. Moscow: Institut komp'yuternykh issledovaniy, 2002:656. (In Russ.)

7. Morelos-Saragosa R. Iskusstvo pomekhoustoychivogo kodirovaniya. Metody, algoritmy, primenenie = The art of noise-resistant coding. Methods, algorithms, application. Moscow: Tekhnosfera, 2005:320. (In Russ.)

Информация об авторах / Information about the authors

Александр Иванович Иванов

доктор технических наук, доцент, ведущий научный сотрудник, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9) E-mail: ivan@pniei.penza.ru

Aleksandr I. Ivanov

Doctor of technical sciences, associate professor, senior researcher,

Penza Research Electrotechnical Institute (9 Sovetskaya street, Penza, Russia)

Алексей Петрович Иванов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

кандидат технических наук, доцент, заведующий кафедрой технических средств информационной безопасности, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40) E-mail: ap_ivanov@pnzgu.ru

Aleksey P. Ivanov

Candidate of technical sciences, associate professor

head of the sub-department of technical means

of information security

Penza State University

(40 Krasnaya street, Penza, Russia)

Евгений Николаевич Куприянов

аспирант,

Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40) E-mail: evgnkupr@gmail.com

Evgeniy N. Kupriyanov

Postgraduate student,

Penza State University

(40 Krasnaya street, Penza, Russia)

Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.

Поступила в редакцию/Received 15.11.2021 Поступила после рецензирования/Revised 20.11.2021 Принята к публикации/Accepted 25.11.2021

i Надоели баннеры? Вы всегда можете отключить рекламу.