УДК 004.056; 004.032.26
DOI 10.21685/2072-3059-2020-4-2
В. С. Лукин
СРАВНЕНИЕ МОЩНОСТИ ОБЫЧНОЙ
И ЛОГАРИФМИЧЕСКОЙ ФОРМ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ СРЕДНЕГО ГАРМОНИЧЕСКОГО ПРИ ИСПОЛЬЗОВАНИИ ДЛЯ ПРОВЕРКИ ГИПОТЕЗЫ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ДАННЫХ МАЛОЙ ВЫБОРКИ1
Аннотация.
Актуальность и цели. Целью статьи является сравнение вероятностей ошибок первого рода для статистического хи-квадрат критерия и двух новых статистических критериев среднего гармонического в нормальной и логарифмической формах.
Материалы и методы. Предложено при принятии решения использовать три статистических критерия. Проблему разных шкал трех разных критериев предложено решать заменой каждого критерия эквивалентным ему нейроном с бинарным кванователем. Настройка квантователей выполняется так, чтобы давать равные вероятности ошибок первого и второго рода.
Выводы. Показано, что рассматриваемая группа искусственных нейронов имеет значительные перспективы практического применения, так как обладает крайне низкой корреляционной сцепленностью.
Ключевые слова: искусственные нейроны, статистические критерии, проверка гипотезы нормальности, малые выборки.
V. S. Lukin
COMPARISON OF THE GENERAL LOGARITHMIC FORMS' POWER OF STATISTICAL CRITERIA
OF THE HARMONIC MEAN USING THE HYPOTHESIS OF NORMAL DISTRIBUTION OF SMALL SAMPLE DATA2
Abstract.
Background. The purpose of the article is to compare the probabilities of type I errors for the statistical chi-square test and two new statistical tests with the harmonic mean in normal and logarithmic forms.
Materials and methods. It is proposed to use three statistical criteria when making a decision. It is proposed to solve the problem of different scales of three different criteria by replacing each criterion with an equivalent neuron with a binary quantifier. The quantizers are tuned to give equal probabilities of type I and II errors.
1 Исследование выполнено при финансовой поддержке Минобрнауки России (грант ИБ, проект № 19).
2 Acknowledgments: The reported study was funded by Russian Ministry of Science (information security, project 19).
© Лукин В. С., 2020. Данная статья доступна по условиям всемирной лицензии Creative Commons Attribution 4.0 International License (http://creativecommons.org/licenses/by/4.0/), которая дает разрешение на неограниченное использование, копирование на любые носители при условии указания авторства, источника и ссылки на лицензию Creative Commons, а также изменений, если таковые имеют место.
Conclusions. It is shown that the considered group of artificial neurons has significant prospects for practical application, since it has an extremely low correlation coupling.
Keywords: artificial neurons, statistical criteria, testing the normality hypothesis, small samples.
Общие положения статистического анализа малых выборок
Одной из серьезных задач современной статистики является корректная обработка малых выборок с приемлемым для практики уровнем доверия к решению. В биометрии, биологии, медицине, статистике актуальные на текущей момент выборки малы. Так, обучение нейросетевых преобразователей биометрия-код по ГОСТ Р 52633.5 выполняется на 20 примерах образа «Свой». При этом малая выборка одного из биометрических параметров должна иметь нормальное распределение, обнаружение равномерного распределения данных малой выборки в 20 опытов соответствует обнаружению попытки атаки на процедуру обучения.
Очевидно, что для проверки гипотезы нормальности мы можем воспользоваться классическим хи-квадрат критерием [1, 2]. Результат моделирования работы хи-квадрат критерия на выборке в 16 опытов иллюстрирует рис. 1.
0.031-1-1-
Р(х ) Нормальные данные
0 5 10 15 20
Рис. 1. Выходные состояния хи-квадрат критерия при воздействии на него нормально распределенными и равномерно распределенными данными
Очевидно, что для моделирования работы хи-квадрат критерия может быть использован соответствующий искусственный нейрон [3, 4], для этой цели на выход сумматора хи-квадрат критерия следует поставить бинарный квантователь, который дает состояние «0» при обнаружении нормального распределения данных. Важным элементом обучения искусственного нейрона является настройка порога срабатывания квантователя. Целесообразно выполнять настройку порога квантователя, исходя из условий симметризации задачи [5-7] нейросетевой обработки данных. Одним из условий полной симметризации является совпадение вероятностей ошибок первого и второго рода при работе искусственного нейрона. В нашем случае (рис. 1) положение порога квантования обеспечивает совпадение вероятностей Р1 ~ Р2 ~ РЕЕ ~
~ 0,342. Последнее означает, что практически каждое третье решение искусственного нейрона будет являться ошибочным. Мы имеем ситуацию недопустимо высокого уровня ошибок, фактически исключающую применение хи-квадрат критерия для анализа малых выборок. В соответствии со стандартными рекомендациями [1] хи-квадрат нейрон дает приемлемый для практики результат только на выборках в 60 и более опытов.
К сожалению, все созданные в XX в. статистические критерии [2] «плохо» работают на малых выборках. Тем не менее технически возможно создать из 21 наиболее мощного статистического критерия [2, с. 278 ] эквивалентные им искусственные нейроны, получив тем самым нейросетевые обобщения статистических критериев прошлого века. Очевидно, что обнаружение на выходе такой нейронной сети кода, состоящего из 21 разряда с состояниями «0», будет соответствовать обнаружению с очень высокой достоверностью нормального распределения данных малой выборки. Обнаружение кода из 21 разряда с одинаковыми состояниями «1» будет соответствовать обнаружению с очень высокой достоверностью равномерного распределения данных малой выборки. Все промежуточные коды со смешанными состояниями разрядов «0» и «1» необходимо свертывать до однозначного решения. К сожалению, проблема синтеза эффективных кодов свертывания данных [8] плохо решается для разрядов с высокой корреляционной сцепленностью. Если любые два разряда кода имеют сильную корреляционную связь (положительную или отрицательную), их можно объединить полностью детерминированным дискретным автоматом. Если же модуль корреляционной связи двух разрядов достаточно мал, то они хорошо дополняют друг друга.
Так, нейрон хи-квадрат критерия и нейрон критерия Шапиро - Уилка [9, 10] имеют высокое значение модуля коэффициента взаимной корреляции | согг(%2,и2) |~| -0,726 | при сопоставимых значениях вероятностей ошибок первого и второго рода. Данные со столь значительной корреляционной сцепленностью сильно повторяют друг друга. Для принятия приемлемого по достоверности нейросетевого решения на таких данных потребуется использовать порядка 100 статистических критериев (нейронов). Всего же, по данным справочника [2], в XX в. было создано не многим более 21 статистического критерия для проверки гипотезы нормальности. Таким образом, группу из 21 сильно коррелированного критерия прошлого века в XXI в., в худшем случае, придется расширить 79 новыми статистическими критериями. Если же постараться синтезировать новые статистические критерии с низкой корреляцией по отношению к хи-квадрат критерию, то новых критериев потребуется создавать намного меньше.
Искусственные нейроны среднего гармонического
Все искусственные нейроны обогащают относительно бедные входные данные, накапливая их в линейном либо некотором нелинейном пространстве. Так, персептроны Розенблатта [3, 4] накапливают данные в линейном пространстве, а уже после их обогащения выполняют квантование данных. Нейроны Махалонобиса выполняют обогащение входных данных в квадратичном пространстве, взвешивая их обратной матрицей ковариационных связей. Хи-квадрат нейроны (рис. 1) выполняют обогащение данных в пространстве среднего квадратического отклонения Пирсона. То есть нейронов может
существовать несчетное множество (континуум), так же как существует континуум возможных вариантов нелинейной деформации непрерывных пространств накопления данных.
В этом отношении определенный интерес представляют деформации пространства накопления данных, не исследованных в прошлом веке при синтезе критериев проверки гипотезы нормальности [2]. Например, рассмотрим пространство накопления данных среднего гармонического [10, 11]. Нейрон, выполняющий накопление данных в таком пространстве, описывается следующими функциональными связями:
x ^ sort(x),
xi - x0
xi ■
c( x)
+1,
16
П
15 _
■ i Xi i =1 '
(1)
2 Е (х) ' г(2) ^ "0" г/2 > 0,913, г(2) ^ "1" 1/2 < 0,913,
где хI - данные анализируемой выборки объемом в 16 опытов; с(.) - операция вычисления стандартного отклонения; Е(.) - операция вычисления математического ожидания; г(.) - операция квантования обогащенных накоплением данных.
Результаты численного моделирования нейрона среднего гармонического (1) отражает рис. 2.
Рис. 2. Выходные состояния искусственного нейрона, построенного на вычислении среднего геометрического малой выборки в 16 опытов
Из сравнения рис. 1 и 2 вытекает значительный рост мощности нового статистического критерия, так как его вероятности ошибок значительно уменьшаются до величины P\ ~ P2 ~ PEE ~ 0,088. Столь существенное падение вероятностей ошибок эквивалентно почти четырехкратному росту мощности
нового критерия по отношению к хи-квадрат критерию 0,342/0,088 ~ 3,9. Принципиально важным является также то, что эти два критерия имеют низкую корреляционную связь на нормальных данных | согг(%2^) |~| 0,0015 |.
Логарифмическая форма критерия среднего гармонического
Очевидно, что многократное произведение обрабатываемых данных (1) может быть заменено суммой логарифмов. То есть мы, так же как и для статистических критериев Андерсона - Дарлинга [2, 10, 12], имеем возможность получить две формы представления нового статистического критерия. Логарифмическая форма критерия среднего гармонического имеет следующую функциональную запись:
x ^ sort(x),
xi +
ln g ^
xi - x0
+1,
0( x)
15
£ in( xi)
i=1
(2)
16 • ln( E (x)) z(lng) ^ "0" if lng > 0,911, z(lng) ^ "1" if lng < 0,911.
Сравнивая рис. 2 и 3, легко заметить рост вероятности ошибок третьего нейрона по сравнению со вторым нейроном до величины Р ~ Р2~ РЕЕ~ 0,244. То есть мощность логарифмической формы критерия среднего гармонического выше мощности хи-квадрат критерия, но уступает мощности критерия, вычисленного через последовательные умножения (1). Принципиально важным является то, что все три рассмотренные выше статистические критерия имеют низкие значения корреляционной сцепленности [13]. Данные о коэффициентах взаимной корреляции приведены в табл. 1.
Рис. 3. Искусственный нейрон, воспроизводящий логарифмическую форму критерия среднего гармонического для малой выборки в 16 опытов
Таблица 1
Коэффициенты корреляции для трех статистических критериев (нейронов)
Коэффициенты корреляции для нормальных данных Коэффициенты корреляции для равномерно распределенных данных
согг(х2, 2) = 0,0015 согг(х2, 1п2) = 0,013 согг(& 1п2) = 0,0085 согг(х2, 2) = -0,0011 согг(х2, 1п2) = -0,0029 согг(& 1п2) = 0,0040
Примечание. %2 - хи-квадрат переменная Пирсона; 2 - среднее гармоническое; 1цд - логарифмическая форма среднего гармонического.
Заключение
Из табл. 1 видно, что по сравнению с коэффициентом корреляции пары хи-квадрат критерия и критерия Шапиро - Уилка пары новых статистических критериев имеют модули коэффициентов корреляции в 70 и более раз ниже. То есть задача синтеза достаточно большой группы новых и старых статистических критериев с низкой корреляционной сцепленностью вполне реальна. Если в XX в. статистики создавали одиночные критерии, стремясь увеличить их мощность, то в XXI в., видимо, придется создавать группы статистических критериев одновременно имеющих приемлемую мощность и приемлемое значение модулей корреляционной сцепленности. В ближайшем будущем ожидается создание групп из 9 и более статистических критериев, обладающих низкой корреляционной сцепленностью и приемлемой мощностью для многокритериальной оценки достоверности гипотезы нормального распределения данных малых выборок.
Библиографический список
1. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2. Госстандарт России. - Москва, 2001. - 140 с.
2. Кобзарь, А. И. Прикладная математическая статистика. Для инженеров и научных работников / А. И. Кобзарь. - Москва : Физматлит, 2006. - 816 с.
3. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. - Москва : Вильямс, 2006. - С. 1104.
4. Рассел, С. Искусственный интеллект. Современный подход / С. Рассел, П. Норвиг. - Москва ; Санкт-Перербург ; Киев, 2006. - 1407 с.
5. Иванов, А. И. Искусственные математические молекулы: повышение точности статистических оценок на малых выборках (программы на языке МаШСЛВ) : препринт / А. И. Иванов. - Пенза : Изд-во ПГУ, 2020. - 36 с.
6. Иванов, А. И. Учет влияния корреляционных связей через их усреднение по модулю при нейросетевом обобщении статистических критериев для малых выборок / А. И. Иванов, А. Г. Банных, Ю. И. Серикова // Надежность. - 2020. - № 20 (2). -С. 28-34. - DOI 10.21683/1729-2646-2020-20-2-28-34.
7. Иванов, А. И. Искусственные молекулы, собранные из искусственных нейронов, воспроизводящих работу классических статистических критериев / А. И. Иванов, А. Г. Банных, А. В. Безяев // Вестник Пермского университета. Серия: Математика. Механика. Информатика. - 2020 - № 1 (48). - С. 26-32.
8. Безяев, А. В. Биометрико-нейросетевая аутентификация: обнаружение и исправление ошибок в длинных кодах без накладных расходов на избыточность : препринт / А. В. Безяев. - Пенза : Изд-во ПГУ, 2020. - 40 с.
9. Иванов, А. И. Прецизионная статистика: нейросетевое объединение хи-квадрат критерия и критерия Шапиро - Уилка при анализе малых выборок биометрических данных / А. И. Иванов, С. Е. Вятчанин, Е. А. Малыгина, В. С. Лукин // Труды международного симпозиума Надежность и качество. - 2019. - Т. 2. -С. 131-134.
10. Коллекция искусственных нейронов эквивалентных статистическим критериям для их совместного применения при проверке гипотезы нормальности малых выборок биометрических данных / А. И. Иванов, А. Г. Банных, Е. Н. Куприянов, В. С. Лукин, К. А. Перфилов, К. Н. Савинов // Безопасность информационных технологий : сб. науч. ст. по материалам I Всеросс. науч.-техн. конф. (г. Пенза 24 апреля 2019 г.). - Пенза : Изд-во ПГУ, 2019. - С. 156-164.
11. Иванов, А. И. Нейросетевое обобщение семейства статистических критериев среднего геометрического и среднего гармонического для прецизионного анализа малых выборок биометрических данных / А. И. Иванов, К. А. Перфилов, В. С. Лукин // Информационно-управляющие телекоммуникационные системы, средства поражения и их техническое обеспечение : сб. науч. ст. Всеросс. науч.-техн. конф. / под общ. ред. В. С. Безяева. - Пенза : АО «НПП Рубин», 2019. - С. 50-63.
12. Волчихин, В. И. Нейросетевой анализ малых выборок биометрических данных с использованием хи-квадрат критерия и критериев Андерсона-Дарлинга / В. И. Волчихин, А. И. Иванов, А. В. Безяев, Е. Н. Куприянов // Инженерные технологии и системы. - 2019. - Т. 29, № 2. - С. 205-217. - DOI 10.15507/26584123.029/2019.02.205-217.
13. Иванов, А. И. Численная оценка показателей квантовой сцепленности выходных кубит нейросетевой молекулы преобразователя биометрических данных : учебное пособие / А. И. Иванов. - Пенза : Изд-во АО «ПНИЭИ», 2018. - 27 с. -URL : http://пниэи.pф/activity/science/noc/BOOK18-2.pdf
References
1. R 50.1.037-2002. Rekomendatsii po standartizatsii. Prikladnaya statistika. Pravila proverki soglasiya opytnogo raspredeleniya s teoreticheskim. Chast' I. Kriterii tipa %2. Gosstandart Rossii [Recommendations for standardization. Applied statistics. Rules for checking the agreement of the experimental distribution with the theoretical one. Part 1/ Type x2 criteria]. Moscow, 2001, 140 p. [In Russian]
2. Kobzar' A. I. Prikladnaya matematicheskaya statistika. Dlya inzhenerov i nauchnykh rabotnikov [Applied Mathematical Statistics. For engineers and scientists]. Moscow: Fizmatlit, 2006, 816 p. [In Russian]
3. Khaykin S. Neyronnye seti: polnyy kurs [Neural networks: complete course]. Moscow: Vil'yams, 2006, p. 1104. [In Russian]
4. Rassel S., Norvig P. Iskusstvennyy intellekt. Sovremennyy podkhod [Artificial Intelligence. Modern approach]. Moscow; Saint-Petersburg; Kiev, 2006, 1407 p. [In Russian]
5. Ivanov A. I. Iskusstvennye matematicheskie molekuly: povyshenie tochnosti statistich-eskikh otsenok na malykh vyborkakh (programmy na yazyke MathCAD): preprint [Artificial mathematical molecules: increasing the accuracy of statistical estimates on small samples (programs in the MathCAD language): preprint]. Penza: Izd-vo PGU, 2020, 36 p. [In Russian]
6. Ivanov A. I., Bannykh A. G., Serikova Yu. I. Nadezhnost' [Safety]. 2020, no. 20 (2), pp. 28-34. DOI 10.21683/1729-2646-2020-20-2-28-34. [In Russian]
7. Ivanov A. I., Bannykh A. G., Bezyaev A. V. Vestnik Permskogo universiteta. Seriya: Matematika. Mekhanika. Informatika [Bulletin of Perm University. Series: Mathematics. Mechanics. Informatics]. 2020, no. 1 (48), pp. 26-32. [In Russian]
8. Bezyaev A. V. Biometriko-neyrosetevaya autentifikatsiya: obnaruzhenie i ispravlenie oshibok v dlinnykh kodakh bez nakladnykh raskhodov na izbytochnost': preprint [Bio-metrical neural network authentication: detecting and correcting errors in long codes
without the overhead of redundancy: preprint]. Penza: Izd-vo PGU, 2020, 40 p. [In Russian]
9. Ivanov A. I., Vyatchanin S. E., Malygina E. A., Lukin V. S. Trudy mezhdunarodnogo simpoziuma Nadezhnost' i kachestvo [Proceedings of the International Symposium "Safety and quality"]. 2019, vol. 2, pp. 131-134. [In Russian]
10. Ivanov A. I., Bannykh A. G., Kupriyanov E. N., Lukin V. S., Perfilov K. A., Savinov K. N. Bezopasnost' informatsionnykh tekhnologiy: sb. nauch. st. po materialam I Vse-ross. nauch.-tekhn. konf. (g. Penza 24 aprelya 2019 g.) [Information technology security: proceedings of the 1st All-Russian scientific and engineering conference (Penza, April 24, 2019)]. Penza: Izd-vo PGU, 2019, pp. 156-164. [In Russian]
11. Ivanov A. I., Perfilov K. A., Lukin V. S. Informatsionno-upravlyayushchie telekommu-nikatsionnye sistemy, sredstva porazheniya i ikh tekhnicheskoe obespechenie: sb. nauch. st. Vseross. nauch.-tekhn. konf. [Information and control telecommunication systems, weapons and their technical support: proceedings of the All-Russian scientific and engineering conference]. Penza: AO «NPP Rubin», 2019, pp. 50-63. [In Russian]
12. Volchikhin V. I., Ivanov A. I., Bezyaev A. V., Kupriyanov E. N. Inzhenernye tekh-nologii i sistemy [Engineering technologies and systems]. 2019, vol. 29, no. 2, pp. 205217. DOI 10.15507/2658-4123.029/2019.02.205-217. [In Russian]
13. Ivanov A. I. Chislennaya otsenka pokazateley kvantovoy stseplennosti vykhodnykh kubit neyrosetevoy molekuly preobrazovatelya biometricheskikh dannykh: uchebnoe posobie [Numerical estimation of the parameters of quantum entanglement of the output qubits of the neural network molecule of the biometric data converter: a teaching aid]. Penza: Izd-vo AO «PNIEI», 2018, 27 p. Available at: http://pniei.pf/activity/science/ noc/BOOK18-2.pdf [In Russian]
Лукин Виталий Сергеевич младший научный сотрудник, Региональный учебно-научный центр «Информационная безопасность», Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
E-mail: [email protected]
Lukin Vitaliy Sergeevich Junior researcher, Regional Training and Research Center of «Information security», Penza State University (40 Krasnaya, Penza, Russia)
Образец цитирования:
Лукин, В. С. Сравнение мощности обычной и логарифмической форм статистических критериев среднего гармонического при использовании для проверки гипотезы нормального распределения данных малой выборки / В. С. Лукин // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2020. - № 4 (56). - С. 19-26. - Б01 10.21685/2072-30592020-4-2.