УДК 519.24; 53; 57.017
doi: 10.21685/2072-3059-2023-2-2
Использование обратного критерия хи-квадрат Пирсона при мультипликативном синтезе новых статистических критериев из уже известных критериев для проверки гипотезы нормального распределения данных малых выборок
А. И. Иванов1, А. П. Иванов2, Е. Н. Куприянов3
пензенский научно-исследовательский электротехнический институт, Пенза, Россия 2,3Пензенский государственный университет, Пенза, Россия
1ivan@pniei.penza.ru, 2ap_ivanov@pnzgu.ru, 3evgnkupr@gmail.com
Аннотация. Актуальность и цели. Рассматривается проблема анализа малых выборок путем синтеза новых статистических критериев, порождаемых объединением классического статистического критерия хи-квадрат Пирсона и иных известных статистических критериев. Материалы и методы. Предложено выполнить обращение критерия хи-квадрат путем его смещения, масштабирования и деления единицы на его итоговый результат. Получать новые статистические критерии предложено умножением обратного критерия хи-квадрат Пирсона на результаты сверток малых выборок по таким классическим критериям, как критерий Смирнова - Крамера - фон Мизеса и критерий Андерсона - Дарлинга. Результаты и выводы. Для произведения обратного критерия хи-квадрат и критерия Смирнова - Крамера - фон Мизеса удается снизить вероятности ошибок первого и второго рода более чем в 1,45 раза. По аналогии с критерием хи-квадрат обратные статистические критерии могут быть получены для любых известных на сегодня статистических критериев проверки гипотезы нормальности малых выборок, что открывает возможность получать множество новых статистических критериев их мультипликативным объединением парами, тройками и иными группами.
Ключевые слова: статистический анализ малых выборок, проверка гипотезы нормальности, критерий хи-квадрат Пирсона, критерий Смирнова - Крамера - фон Ми-зеса, критерий Андерсона - Дарлинга
Для цитирования: Иванов А. И., Иванов А. П., Куприянов Е. Н. Использование обратного критерия хи-квадрат Пирсона при мультипликативном синтезе новых статистических критериев из уже известных критериев для проверки гипотезы нормального распределения данных малых выборок // Известия высших учебных заведений. Поволжский регион. Технические науки. 2023. № 2. С. 15-23. doi: 10.21685/2072-3059-2023-2-2
Using the inverse Pearson's chi-square test in the multiplicative
synthesis of new statistical tests from already known tests to test the hypothesis of normal distribution of small sample data
A.I. Ivanov1, A.P. Ivanov2, E.N. Kupriyanov3
1Penza Scientific Research Electrotechnical Institute, Penza, Russia 2,3Penza State University, Penza, Russia
1ivan@pniei.penza.ru, 2ap_ivanov@pnzgu.ru, 3evgnkupr@gmail.com
© Иванов А. И., Иванов А. П., Куприянов Е. Н., 2023. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.
Abstract. Background. The study considers the issue of analyzing small samples by synthesizing new statistical tests generated by combining the classical statistical chi-square Pearson test and other well-known statistical tests. Methods. It is proposed to perform the inversion of the chi-square test by shifting it, scaling and dividing one by its final result. It is proposed to obtain new statistical criteria by multiplying the inverse Pearson's chi-square test by the results of convolutions of small samples according to such classical criteria as the Smirnov-Cramer-von Mises test and the Anderson-Darling test. Results and conclusions. For the product of the inverse chi-square test and the Smirnov-Kramer-von Mises test, it is possible to reduce the probabilities of errors of the first and second kind by more than 1.45 times. By analogy with the chi-square test, inverse statistical tests can be obtained for any currently known statistical tests for testing the hypothesis of normality of small samples, which opens up the possibility of obtaining many new statistical tests by their multiplicative combination in pairs, triplets and other groups.
Keywords: statistical analysis of small samples, testing of the hypothesis of normality, Pearson's chi-square test, Smirnov-Kramer-von Mises test, Anderson-Darling test
For citation: Ivanov A.I., Ivanov A.P., Kupriyanov E.N. Using the inverse Pearson's chi-square test in the multiplicative synthesis of new statistical tests from already known tests to test the hypothesis of normal distribution of small sample data. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2023;(2):15-23. (In Russ.). doi: 10.21685/2072-3059-2023-2-2
Введение
Обучение нейронных сетей преобразованию биометрии в код аутентификации по ГОСТ Р 52633.51 выполняется на 16 примерах образа «Свой». При этом «хорошие» биометрические данные имеют нормальное распределение, а «плохие» данные с грубыми ошибками имеют распределение, близкое к равномерному. В итоге при оценке качества малых обучающих выборок нужно проверять гипотезу нормального распределения малой выборки в 16 примеров.
Одним из очевидных способов проверки гипотезы нормальности является использование критерия хи-квадрат Пирсона. К сожалению, для малых выборок этот классический статистический критерий плохо работает. Эта ситуация иллюстрируется рис. 1.
Очевидным является то, что для малых выборок вероятности ошибок
первого и второго рода велики Р\ = Р2 = Рее ~ 0,330. В связи с этим по стан-
2 " дартным рекомендациям для приемлемых значений доверительных вероятностей критерий хи-квадрат должен применяться для выборок в 200 и более опытов. Это условие невыполнимо для нейросетевой биометрии.
Примерно такая же ситуация возникает и при использовании иных стати-
3
стических критериев .
1 ГОСТ Р 52633.5-2011. Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа. М. : Стандартинформ, 2012. 20 с.
2 Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2. М. : Госстандарт России, 2001. 140 с.
3 Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. М. : Госстандарт России, 2002. 123 с.
0.02
p(*0
0.015
0.01
5x10 J
0
Нормальные данные
Рис. 1. Пример плохой линейной разделимости искусственным нейроном выходных состояний классического критерия хи-квадрат для малых выборок в 16 опытов
Так, если мы используем критерий Смирнова - Крамера - фон Мизеса, то получим распределения данных, представленное на рис. 2.
Равномерные 1 2 ' данные '-
Рис. 2. Распределение откликов критерия Смирнова - Крамера - фон Мизеса на малые выборки объемом по 16 опытов
Сравнивая рис. 1 и 2, нетрудно заметить, что распределения нормальных и равномерных данных в них поменялись местами. Тем не менее вероятности ошибок первого и второго рода для обоих статистических критериев близки Р\ = Р2 = Рее - 0,330.
Очевидно, что мы можем рассматривать критерий хи-квадрат Пирсона и критерий Смирнова - Крамера - фон Мизеса как некоторые математические конструкции, обогащающие исходную информацию малых выборок. Если уже вычисленные значения этих двух критериев разделить квантователем на состояния «0» (нормальные данные) и состояние «1» (равномерные данные), то мы получим искусственные нейроны, эквивалентные рассматриваемым статистическим критериям [1].
0.0151-
p(SKfM)
о
SKfM
Более того, в справочнике [2] описан 21 статистический критерий проверки гипотезы нормального распределения. То есть мы можем получить 21 искусственный нейрон, параллельно решающий одну и ту же задачу. При этом формально мы будем получать выходные коды с 21-кратной избыточностью. Свернуть эту избыточность можно с использованием кодов, способных обнаруживать и исправлять ошибки [3].
К сожалению, большинство созданных в прошлом веке статистических критериев дают сильную коррелированность их выходных состояний. Учет влияния корреляционных связей [4] приводит к тому, что для доверительной вероятности 0,99 созданных в прошлом веке статистических критериев недостаточно. Необходимо синтезировать порядка 40 новых статистических критериев в ближайшее время.
Простой способ увеличения числа статистических критериев за счет их обращения (на примере обратного критерия хи-квадрат Пирсона)
Рассуждая формально, мы всегда можем преобразовать тот или иной статистический критерий в его обратный вариант делением. Если мы попытаемся выполнить эту процедуру для критерия хи-квадрат, то мы получим неустойчивые в вычислительном отношении программные реализации. Неустойчивость вычислений обусловлена тем, что при вычислении критерия хи-квадрат Пирсона с малой вероятностью могут возникать его значения, близкие к нулевым (см. рис. 1).
Устраним причину этой неустойчивости путем следующего преобразования:
о%2=-г1-. (1)
^ + 0,27 8
Вычисление критерия хи-квадрат, критерия Смирнова - Крамера - фон Мизеса и обращения данных (1) выполняются программным обеспечением, написанным на языке программирования MathCAD и представленным на рис. 3.
Результаты проведенного численного эксперимента по обращению классического критерия хи-квадрат Пирсона представлены на рис. 4.
Следует отметить, что обратный критерий хи-квадрат имеет такой же уровень ошибок первого и второго рода Р\ = Р2 = Рее ~ 0,325. При этом прямой и обратный критерии хи-квадрат имеют неполную коррелированность выходных состояний согг(%2, O%2) = -0,863 .
Синтез нового критерия перемножением обратного критерия хи-квадрат Пирсона и критерия Смирнова - Крамера - фон Мизеса
Критерий SKfM и критерий 0%2 по статистическим распределениям данных близки друг другу и слабо коррелированны corr(SKfM, 0%2) = -0,268. Это позволяет создать новый статистический критерий перемножением итоговых результатов этих двух критериев. На рис. 5 приведены статистические выходные состояния нового мультипликативного критерия.
Рис. 3. Программа для численного моделирования четырех первых, рассматриваемых в статье, статистических критериев при нормальных данных и равномерных данных
0.015
Р(°Х2 )
0 Равномерные | :
данные -
Рис. 4. Искусственный нейрон, воспроизводящий работу обратного хи-квадрат критерия
Следует отметить, что произведение двух статистических критериев имеет уровень вероятности ошибок первого и второго рода в 1,45 меньше Р1 = Р2 = Рее ~ 0,226, чем уровень ошибок двух исходных статистических критериев.
Таким образом, из четверки рассмотренных выше статистических критериев можно оставить один синтезированный критерий М0%2 как обладающий наименьшей вероятностью ошибок первого и второго рода. При этом мы должны намеренно отказываться от учета выходных состояний трех более слабых критериев. Учет их состояний теоретически может дополнительно снизить вероятности ошибок до величины менее 0,226.
Рис. 5. Новый статистический критерий, полученный произведением результатов вычисления двух критериев БК/М и 0x2
Синтез еще одного нового критерия перемножением обратного критерия хи-квадрат Пирсона и критерия Андерсона - Дарлинга
Очевидно, что итоговая мощность синтезированного критерия зависит от мощности его составляющих критериев. Это легко показать, воспользовавшись классическим критерием Андерсона - Дарлинга. Его имитационное моделирование для малых выборок в 16 опытов дает значение вероятностей ошибок Р\ = Р2 = Рее ~ 0,271, что примерно в 1,2 раза лучше вероятности ошибок для критерия Смирнова - Крамара - фон Мизеса. Распределение данных выходных состояний критерия Андерсона - Дарлинга приведены на рис. 6.
Рис. 6. Плотности вероятности выходных состояний классического статистического критерия Андерсона - Дарлинга
Распределения данных на рис. 6 приведены в увеличенном масштабе (коэффициент масштабирования 6,11). Масштабирование данных выполнено
для сдвига у эквивалентного искусственного нейрона порога квантователя в точку АО = 1,0. В этой же точке срабатывает и квантователь обратного хи-квадрат нейрона (см. рис. 4). В итоге произведение этих двух статистических критериев дает новый статистический критерий, выходные состояния которого приведены на рис. 7.
Рис. 7. Плотности вероятности выходных состояний мультипликативного объединения критерия Андерсона - Дарлинга и обратного критерия хи-квадрат
Распределения предшествующего синтезированного критерия и модификации критерия Андерсона - Дарлинга (ср. рис. 5 и 7) существенно различаются. Новый критерий имеет мощность в 1,32 раза больше, что эквивалентно снижению вероятностей ошибок первого и второго рода до величины Р1 = Р2=Рее - 0,171.
Заключение
Все известные статистические критерии могут быть разделены на два класса. В нашем случае к первому классу может быть отнесен критерий хи-квадрат Пирсона, а ко второму классу относятся критерий Смирнова - Крамера - фон Мизеса и критерий Андерсона - Дарлинга. Классификация выполняется по отношению к точке равновероятных ошибок разделяемых классов Р\ = Р2 = РЕЕ. При этом мультипликативный способ синтеза новых критериев должен выполняться перемножением критериев, принадлежащих одному классу. При мультипликативном объединении критериев разных классов один из критериев должен быть обращен, как это сделано в данной статье по отношению к критерию хи-квадрат Пирсона. Получается, что решить проблемы синтеза достаточно большого числа новых статистических критериев вполне возможно путем мультипликативного объединения пар, троек и иных групп известных и новых статистических критериев.
Список литературы
1. Иванов А. И., Банных А. Г., Безяев А. В. Искусственные молекулы, собранные из искусственных нейронов, воспроизводящих работу классических статистических
критериев // Вестник Пермского университета. Серия: Математика. Механика. Информатика. 2020. № 1 (48). С. 26-32. doi: 10.17072/1993-0550-2020-1-26-32
2. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М. : ФИЗМАТЛИТ, 2006. 816 с.
3. Морелос-Сарагоса Р. Искусство помехоустойчивого кодирования. Методы, алгоритмы, применение. М. : Техносфера, 2005. 320 с.
4. Иванов А. И. Банных А. Г., Серикова Ю. И. Учет влияния корреляционных связей через их усреднение по модулю при нейросетевом обобщении статистических критериев для малых выборок // Надежность. 2020. № 2. С. 28-34. doi: 10.21683/1729-2646-2020-20-2-28-34
References
1. Ivanov A.I., Bannykh A.G., Bezyaev A.V. Artificial molecules assembled from artificial neurons that reproduce the work of classical statistical criteria. Vestnik Permskogo universiteta. Seriya: Matematika. Mekhanika. Informatika = Bulletin of Perm University. Series: Mathematics. Mechanics. Informatics. 2020;(1):26-32. (In Russ.). doi: 10.17072/1993-0550-2020-1-26-32
2. Kobzar' A.I. Prikladnaya matematicheskaya statistika. Dlya inzhenerov i nauchnykh rabotnikov = Applied mathematical statistics. For engineers and scientists. Moscow: FIZMATLIT, 2006:816. (In Russ.)
3. Morelos-Saragosa R. Iskusstvo pomekhoustoychivogo kodirovaniya. Metody, algo-ritmy, primenenie = The art of error-correcting coding. Methods, algorithms, application. Moscow: Tekhnosfera, 2005:320. (In Russ.)
4. Ivanov A.I. Bannykh A.G., Serikova Yu.I. Accounting for the influence of correlations through their modulo averaging with neural network generalization of statistical criteria for small samples. Nadezhnost' = Reliability. 2020;(2):28-34. (In Russ.). doi: 10.21683/1729-2646-2020-20-2-28-34
Информация об авторах / Information about the authors
Александр Иванович Иванов
доктор технических наук, доцент, научный консультант, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9)
E-mail: ivan@pniei.penza.ru
Алексей Петрович Иванов
кандидат технических наук, доцент, заведующий кафедрой технических средств информационной безопасности, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
E-mail: ap_ivanov@pnzgu.ru
Евгений Николаевич Куприянов
аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
E-mail: evgnkupr@gmail.com
Aleksandr I. Ivanov
Doctor of engineering sciences, associate
professor, scientific adviser, Penza
Scientific Research Electrotechnical
Institute (9 Sovetskaya street,
Penza, Russia)
Aleksey P. Ivanov
Candidate of engineering sciences, associate professor, head of the sub-department of technical means of information security, Penza State University (40 Krasnaya street, Penza, Russia)
Evgeniy N. Kupriyanov Postgraduate student, Penza State University (40 Krasnaya street, Penza, Russia)
Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.
Поступила в редакцию / Received 25.04.2022
Поступила после рецензирования и доработки / Revised 10.06.2022 Принята к публикации / Accepted 18.01.2023