Научная статья на тему 'Сравнение мощности хи-квадрат критерия и критерия Крамера - фон Мизеса для малых тестовых выборок биометрических данных'

Сравнение мощности хи-квадрат критерия и критерия Крамера - фон Мизеса для малых тестовых выборок биометрических данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
715
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ КРИТЕРИЙ КРАМЕРА ФОН МИЗЕСА / ХИ-КВАДРАТ КРИТЕРИЙ ПИРСОНА / ПОДАВЛЕНИЕ ШУМОВ КВАНТОВАНИЯ / CRAMER VON MIZES STATISTICAL CRITERIA / CHI SQUARE CRITERIA OF PEARSON / NOISE ELIMINATION OF QUANTIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Иванов Александр Иванович, Газин Алексей Иванович, Вятчанин Сергей Евгеньевич, Перфилов Константин Александрович

Актуальность и цели. Классический статистический критерий хи-квадрат плохо работает на малых тестовых выборках. Статья посвящена исследованию поведения статистического критерия Крамера фон Мизеса. Целью работы является оценка того, на сколько мощность критерия Крамера фон Мизеса выше мощности критерия хи-квадрат. Материалы и методы. Предложено оценивать мощность сравниваемых критериев в точке равновероятных ошибок первого и второго рода. Показано, что в логарифмической шкале равной вероятности ошибок мощность критерия Крамера фон Мизеса описывается прямой линией. Это упрощает вычисления. Результаты и выводы. Использование критерия Крамера фон Мизеса вместо критерия хи-квадрат на выборке из 20 примеров позволяет снизить вероятность ошибок принимаемых решений в полтора раза. Если рассматривать сравниваемые критерии как некоторые нелинейные низкочастотные цифровые фильтры, то критерий Крамера фон Мизеса оказывается эффективнее критерия хи-квадрат из-за того, что имеет более высокую частоту и меньшую амплитуду скачков шума квантования данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Иванов Александр Иванович, Газин Алексей Иванович, Вятчанин Сергей Евгеньевич, Перфилов Константин Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнение мощности хи-квадрат критерия и критерия Крамера - фон Мизеса для малых тестовых выборок биометрических данных»

ДИАГНОСТИЧЕСКИЕ МЕТОДЫ ОБЕСПЕЧЕНИЯ НАДЕЖНОСТИ И КАЧЕСТВА СЛОЖНЫХ СИСТЕМ

УДК 519.24; 57.017

/

СРАВНЕНИЕ МОЩНОСТИ ХИ-КВАДРАТ КРИТЕРИЯ И КРИТЕРИЯ КРАМЕРА - ФОН МИЗЕСА ДЛЯ МАЛЫХ ТЕСТОВЫХ ВЫБОРОК БИОМЕТРИЧЕСКИХ ДАННЬГ"

А. И. Иванов, А. И. Газин, С. Е. Вятчанин, К. А. Перфилов

Введение

Информационное общество предполагает активное использование интернет-ресурсов. Государственные и частные структуры создают на своих сайтах личные кабинеты пользователей. К сожалению, существующая практика парольной защиты доступа к личным кабинетам обладает существенными признаками уязвимости. Пользователи не способны запоминать длинные случайные пароли. Владелец информационного ресурса не может быть уверен в том, что к личному электронному кабинету получил доступ именно его хозяин. Пароль может быть перехвачен программной закладкой, также не составляет проблемы подменить 1Р-адрес интернет-пользователя.

Для усиления защиты доступа к электронным кабинетам в настоящее время разрабатываются технологии биометрической аутентификации личности путем преобразования личных биометрических данных человека в его криптографический ключ или длинный случайный пароль доступа. Используются такие биометрические образы, как: рисунок отпечатка пальца [1], рисунок радужной оболочки глаза [2], голосовой пароль [3], рукописный пароль [4], рисунок кровеносных сосудов глазного дна или ладони руки [5]. Естественно, что преобразователи биометрия-код не могут быть идеальными и имеют вероятности ошибок первого и второго рода. Возникает необходимость тестирования ошибок первого и второго рода на реальных биометрических данных. Кроме того, при настройке «нечетких экстракторов» [1-3] и при обучении нейросетевых преобразователей [4, 5] необходимо контролировать отсутствие в биометрических данных грубых ошибок. По сути дела, на небольшом числе примеров биометрического образа необходимо контролировать показатель близости распределения биометрических данных к многомерному нормальному закону [6]. Формально для этой цели может быть использован классический одномерный хи-квадрат критерий Пирсона [7, 8], однако такой подход далек от оптимального. В рамках данной статьи мы попытаемся доказать, что контроль нормальных плотностей распределения биометрических данных выгоднее осуществлять статистическим критерием Крамера - фон Мизеса. Мощность критерия Крамера - фон Мизеса на малых выборках примеров биометрических данных оказывается существенно выше, чем мощность аналогичного критерия хи-квадрат.

Появление шумов квантования при статистической обработке малых выборок

Рассмотрим простейшую ситуацию, когда тестовая или обучающая выборка представлены девятью примерами образа «Свой». Из-за того, что непрерывная функция вероятности Р( х) пер-

вого биометрического параметра - у1 малой выборки, мы вынуждены описывать ее ступенчатой монотонно возрастающей функцией Р (х), как это показано в левой части рис. 1.

Рис. 1. Эффекты квантования непрерывной вероятности распределения значений и непрерывной плотности распределения значений путем их представления девятью примерами

Для того, чтобы построить ступенчатое монотонно возрастающее приближение P ( x), необходимо осуществить сортировку биометрических данных по их возрастанию:

Xj = .sort(v1,!-) для i = 0,1, 2,...., n, (1)

где n - размер тестовой выборки или число квантов приближения монотонной функции вероятности.

В этом случае монотонно возрастающая ступенчатая функция будет описываться следующим кусочно-постоянным приближением

P ( x ) =1. (2)

n

Ошибка приближения или шум квантования находится как разность непрерывной функции вероятности и ее ступенчатого приближения:

ДР(x) = P(x) - P(x). (3)

В нижней части рис. 1 отображены функции ошибки квантования или шумы квантования, возникающие из-за малых тестовых выборок.

В контексте вышеизложенного статистический критерий Колмогорова - Смирнова [7] следует рассматривать как поиск максимального значения модуля ошибки приближения:

sup |P(x) - P(x) = max | ДР(xi )| (4)

или выбор наибольшего из локальных максимумов шума квантования.

С этих же позиций статистический критерий Крамера - фон Мизеса [7] является оценкой стандартного отклонения шума квантования непрерывной функции вероятности:

У =

J {P(x) - P(x)}2 dx = J {E(ДР(x)) -ДР(x)}2 dx = J {{(x)}2 dx = a2(ДР(x)), (5)

если выполняется условие нулевого математического ожидания шума квантования Е (ЛР( х)) = 0.

Следует подчеркнуть, что статистический критерий Колмогорова - Смирнова (4) всегда имеет меньшую мощность в сравнении с критерием Крамера - фон Мизеса (5). Критерий Колмогорова - Смирнова (4) точечный, а критерий Крамера - фон Мизеса (5) интегральный.

Очевидно, что с ростом размеров тестовой выборки п оба эти статистических критерия набирают мощность оценок, однако оценка по интегральному критерию всегда оказывается надежнее, чем оценка по точечному критерию.

Использование точки равной вероятности ошибок первого и второго рода при оценке мощности критерия Крамера - фон Мизеса

Будем исходить из того, что биометрические данные по каждому из контролируемых параметров распределены нормально. Тогда качество данных одного параметра можно оценивать и по критерию Крамера - фон Мизеса. При этом качество принимаемого решения будет существенно зависеть от порога сравнения и размеров тестовой выборки. Получить зависимости мы можем численным моделированием. Результаты численного моделирования для выборок из девяти примеров и 32 примеров приведены на рис. 2.

Рис. 2. Гистограммы плотностей распределения значений критерия Крамера - фон Мизеса, построенные для выборок из 9 примеров и 32 примеров

Как видно из рис. 2, плотности распределения значений критерия Крамера - фон Мизеса существенно зависят от размеров тестовой выборки. Для малых выборок динамический диапазон изменения значений критерия оказывается значительным. По мере роста числа примеров в обучающей выборке динамический диапазон существенно снижается.

При использовании любого статистического критерия проверки гипотез необходимо задать порог сравнения, получив для него значения вероятностей ошибок первого и второго рода. Выбор значения порога принятия решения во многом субъективен. Для того, чтобы уйти от субъективности, будем назначать пороги в точке равной вероятности ошибок первого и второго рода:

Ж У) = Р*( У) = Рее (У).

(6)

Как видно из левой части рис. 2, точка равной вероятности ошибок находится при значении у = 0,027, при этом значение равной вероятности составляет Рее(0,027) = 0,259. Это значение отражает тот факт, что на малых выборках добиться малых значений вероятностей первого и второго рода невозможно.

Если выборку увеличить до объема в 32 примера, то происходит существенное снижение вероятности ошибок первого и второго рода Рее(0,0093) = 0,15. Очевидно, что, повышая размеры тестовой выборки, мы можем монотонно снижать значения вероятностей ошибок первого и второго рода.

Сравнение по мощности критерия Крамера - фон Мизеса и хи-квадрат критерия Пирсона

Для представления значения равной вероятности ошибок первого и второго рода критерия Крамера - фон Мизеса как функции, зависящей от размера тестовой выборки, наиболее удобна логарифмическая шкала (рис. 3).

■ад

0.1

€.01

ч

Хи-квадрат

" * _ /

\

—Г

/

Крамера - фон Мезиса

N N

\ \ Ч, \ \ \

0

п

20

40

60

100

120

140

Рис. 3. Влияние объема тестовой выборки на значение равной вероятности ошибок в зависимости от объема тестовой выборки для критериев Крамера - фон Мизеса и хи-квадрат критерия

Как видно из рис. 3, log10( РЕЕ (п)) является линейной функцией:

Рее(п)=10

- 1 п-0,47-0,0107-п

при п = 1, 2, ...,

(7)

Аналогичную зависимость можно построить и для равных вероятностей ошибок критерия хи-квадрат [7, 8]. Из теории известно, что критерий хи-квадрат должен описываться распределением Пирсона:

Р(Х2, т) = -

1

22 .г| т

х2 •ехр

- х

(8)

т

где Г^ — \ - гамма функция; т - число степеней свободы.

В свою очередь число степеней свободы т рекомендуется выбирать исходя из числа столбцов гистограммы [8]:

т = к - 3.

(9)

Для выбора числа столбцов гистограммы существует множество рекомендаций разных авторов. В частности, по действующим рекомендациям Госстандарта [8] можно выбирать этот параметр, применяя следующие правила:

к >4п; п

к > 5-к > ^(п) + 1;

к > 5^(п); к > 5^(п) - 5;

оо

Для того, чтобы снять неопределенность при выполнении численного эксперимента, мы воспользовались гистограммами с числом столбцов

к = 4 при 5 < n < 16; <к = 6 при 16 < n < 64; (11)

к = 8 при 64 < n < 121.

Результаты численного моделирования отражены в виде ломаной кривой, чье кусочно-линейное приближение выглядит следующим образом:

'PEE(n) = 1Q-0,22"0,017.n при 5 < n < 16;

< PEE (n) = 1Q-0,401-0,0066*n при 16 < n < 64; (12)

PEE(n) = 10-0,503-0,0042-п при 64 < n < 121.

Из рис. 3 видно, что критерий Крамера - фон Мизеса обеспечивает существенно меньшую ошибку принятия решений в сравнении с критерием хи-квадрат Пирсона. С ростом объема тестовой выборки преимущество критерия Крамера - фон Мизеса растет. Также преимущество этого критерия увеличивается с увеличением размерности биометрических данных [9-11].

Заключение

Основной причиной преимуществ критерия Крамера - фон Мизеса является то, что при прочих равных условиях его шумы квантования имеют большую частоту скачков и меньшую амплитуду каждого скачка (см. рис. 1). Как следствие, шумы квантования сглаживаются критерием Крамера - фон Мизеса лучше, чем те же самые шумы квантования в критерии хи-квадрат Пирсона. На типовой выборке биометрических данных в 20 примеров критерий Крамера - фон Мизеса дает в 1,5 раза меньшую вероятность ошибок, чем критерий хи-квадрат Пирсона. При анализе биометрических данных имеет смысл отказаться от использования классического хи-квадрат критерия Пирсона в пользу более мощного критерия Крамера - фон Мизеса.

Список литературы

1. Ramirez-Ruiz, J. Keys Generation Using Finger Codes / J. Ramirez-Ruiz, C. Pfeiffer, J. Nolazco-Flores // Advances in Artificial Intelligence - IBERAMIA-SBIA. - 2006 (LNCS 4140). - P. 178-187.

2. Monrose, F. Cryptographic key generation from voice / F. Monrose, M. Reiter, Q. Li, S. Wetzel // Proc. IEEE Symp. on Security and Privacy. - 2001. - 354 с.

3. Hao, F. Crypto with Biometrics Effectively / Feng Hao, Ross Anderson, John Daugman // IEEE TRANSACTIONS ON COMPUTERS. - 2006. - Vol. 55, № 9. - 244 р.

4. Нейросетевая защита персональных биометрических данных / Ю. К. Язов, В. И. Волчихин, А. И. Иванов [и др.]. - М. : Радиотехника, 2012. - 157 с.

5. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа / Б. С. Ахметов, А. И. Иванов, В. А. Фунтиков [и др.]. - Алматы, Казахстан : ТОО «Издательство LEM», 2014. - 144 c.

6. Алгоритмы тестирования биометрико-нейросетевых механизмов защиты информации / Б. С. Ахметов, В. И. Волчихин, А. И. Иванов, А. Ю. Малыгин. - Алматы, Казахстан : КазНТУ им. Сатпаева, 2013. - 152 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Кобзарь, А. И. Прикладная математическая статистика для инженеров и научных работников / А. И. Кобзарь - М. : ФИЗМАТЛИТ, 2006. - 816 с.

8. ГОСТ Р 50.1.037-2002 Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа %2. - М., 2001. - 140 с.

9. Серикова, Н. И. Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных / В. И. Волчихин, А. И. Иванов, Н. И. Серикова, Ю. В. Фунтикова // Известия высших учебных заведений. Поволжский регион. Технические науки. -2015. - № 1. - С. 50-59.

10. Ахметов, Б. Б. Многомерный статистический анализ биометрических данных сетью частных критериев Пирсона / Б. Б. Ахметов, А. И. Иванов, А. В. Безяев, Ю. В. Фунтикова // Вестник Национальной академии наук Республики Казахстан. - 2015. - № 1. - С. 5-11.

11. Быстрый алгоритм оценки высокоразмерной энтропии биометрических образов на малых выборках / Б. Б. Ахметов, А. И. Иванов, А. Ю. Малыгин, А. В. Безяев, А. И. Газин // Труды международного симпозиума Надежность и качество. - 2015. - Т. 2. - С. 283-284.

Иванов Александр Иванович доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт (440000, Россия, г. Пенза, ул. Советская, 9) Е-mail: [email protected]

Газин Алексей Иванович кандидат технических наук, доцент, кафедра информатики, информационных технологий и защиты информации, Липецкий государственный педагогический университет

(398020, Россия, г. Липецк, ул. Ленина, 42) Е-mail: [email protected]

Вятчанин Сергей Евгеньевич доцент,

начальник кафедры радио и космической связи, Пензенский государственный университет (440026, Россия, г. Пенза, ул. Красная, 40) Е-mail: [email protected]

Перфилов Константин Александрович аспирант,

Пензенский государственный университет (440026, Россия, г. Пенза, ул. Красная, 40) Е-mail: [email protected]

Аннотация. Актуальность и цели. Классический статистический критерий хи-квадрат плохо работает на малых тестовых выборках. Статья посвящена исследованию поведения статистического критерия Крамера - фон Мизеса. Целью работы является оценка того, на сколько мощность критерия Крамера -фон Мизеса выше мощности критерия хи-квадрат. Материалы и методы. Предложено оценивать мощность сравниваемых критериев в точке равновероятных ошибок первого и второго рода. Показано, что в логарифмической шкале равной вероятности ошибок мощность критерия Крамера - фон Мизеса описывается прямой линией. Это упрощает вычисления. Результаты и выводы. Использование критерия Крамера - фон Мизеса вместо критерия хи-квадрат на выборке из 20 примеров позволяет снизить вероятность ошибок принимаемых решений в полтора раза. Если рассматривать сравниваемые критерии как некоторые нелинейные низкочастотные цифровые фильтры, то критерий Крамера -фон Мизеса оказывается эффективнее критерия хи-квадрат из-за того, что имеет более высокую частоту и меньшую амплитуду скачков шума квантования данных.

Ключевые слова: статистический критерий Крамера -фон Мизеса, хи-квадрат критерий Пирсона, подавление шумов квантования.

Ivanov Aleksandr Ivanovich

doctor of technical sciences, associate professor,

head of biometric and neuronal nets technology

laboratory,

Penza Scientific Research Electrotechnical Institute (440000, 9 Sovetskaja street, Penza, Russia)

Gazin Aleksey Ivanovich

candidate of technical sciences, associate professor, sub-department of computer sciences, information technology and information protection, Lipetsk State Pedagogical University (398020, 42 Lenina street, Lipetsk, Russia)

Vjatchanin Sergej Evgen'evich

associate professor,

head of sub-department of radio

and space communications,

Penza State University

(440026, 40 Krasnaya street, Penza, Russia)

Perfilov Konstantin Aleksandrovich

postgraduate student,

Penza State University

(440026, 40 Krasnaya street, Penza, Russia)

Abstract. Background. Classical statistical criteria chi-square works bad with small text samples. This article is about of researching statistical criteria of Cramer - von Mizes works with small text samples. The propose of this research is compare of applicability statistical criteria of Cramer - von Mizes and statistical criteria chi-square with small text samples. Materials and methods. It's suggested to compare the power of this methods in the point of equiprobable type one and type two errors. It's proved that in logarithmic scale equal probability errors of the power criteria of Cramer - von Mizes is straight line, this makes calculations easier. Results and conclusions. Using the criterion of the Cramer-von Mizes instead of the chi-square test on a sample of 20 examples to reduce the likelihood of decisions made errors in one and a half times. If we consider the criteria compared some nonlinear low-frequency digital filters, the criterion of Cramer-von Mizes is more effective then chi-square due to the fact that there is a higher frequency and lower amplitude data quantization noise spikes.

Key words: Cramer - von Mizes statistical criteria, chi square criteria of Pearson, noise elimination of quantization.

УДК 519.24; 57.017

Сравнение мощности хи-квадрат критерия и критерия Крамера - фон Мизеса для малых тестовых выборок биометрических данных / А. И. Иванов, А. И. Газин, С. Е. Вятчанин, К. А. Перфилов // Надежность и качество сложных систем. - 2016. - № 2 (14). - С. 67-73.

i Надоели баннеры? Вы всегда можете отключить рекламу.