Сравнение мощности хи-квадрат критерия и критерия Крамера-фон Мезиса для малых тестовых выборок биометрических данных

Иванов А.И.; Газин А.И.; Вятчанин С.Е.; Перфилов К.А.

Труды Международного симпозиума «Надежность и качество», 2016, том 1 УДК: 519.24; 57.017

Иванов1 А.И., Газин2 А.И., Вятчанин3 С.Е., Перфилов3 К.А.

1АО «Пензенский научно-исследовательский электротехнический институт», Пенза, Россия

2ФБГОУ ВПО «Липецкий государственный педагогический университет», Липецк, Россия

3ФБГОУ ВПО «Пензенский государственный университет», Пенза, Россия

СРАВНЕНИЕ МОЩНОСТИ ХИ-КВАДРАТ КРИТЕРИЯ И КРИТЕРИЯ КРАМЕРА-ФОН МЕЗИСА ДЛЯ МАЛЫХ ТЕСТОВЫХ ВЫБОРОК БИОМЕТРИЧЕСКИХ ДАННЫХ

Актуальность и цели. Классический статистический критерий хи-квадрат плохо работает на малых тестовых выборках. Статья посвящена исследованию поведения статистического критерия Крамера-фон Мезиса. Целью работы является оценка того, на сколько мощность критерия Крамера-фон Мезиса выше мощности критерия хи-квадрат.

Материалы и методы. Предложено оценивать мощность сравниваемых критериев в точке равновероятных ошибок первого и второго рода. Показано, что в логарифмической шкале равной вероятности ошибок мощность критерия Крамера-фон Мезиса описывается прямой линией. Это упрощает вычисления.

Результаты и выводы. Использование критерия Крамера-фон Мезиса вместо критерия хи-квадрат на выборке из 20 примеров позволяет снизить вероятность ошибок принимаемых решений в полтора раза. Если рассматривать сравниваемые критерии как некоторые нелинейные низкочастотные цифровые фильтры, то критерий Крамера-фон Мезиса оказывается эффективнее критерия хи-квад-рат из-за того, что имеет более высокую частоту и меньшую амплитуду скачков шума квантования данных.

ВВЕДЕНИЕ

Информационное общество предполагает активное использование Интернет-ресурсов. Государственные и частные структуры создают на своих сайтах личные кабинеты пользователей. К сожалению, существующая практика парольной защиты доступа к личным кабинетам обладает существенными признаками уязвимости. Пользователи не способны запоминать длинные случайные пароли. Владелец информационного ресурса не может быть уверен в том, что к личному электронному кабинету получил доступ именно его хозяин. Пароль может быть перехвачен программной закладкой, также не составляет проблемы подменить 1Р адрес Интернет-пользователя.

Для усиления защиты доступа к электронным кабинетам в настоящее время разрабатываются технологии биометрической аутентификации личности путем преобразования личных биометрических данных человека в его криптографический ключ или длинный случайный пароль доступа. Используются такие биометрические образы, как: рисунок отпечатка пальца [1], рисунок радужной оболочки глаза [2], голосовой пароль [3], рукописный пароль [4], рисунок кровеносных сосудов глазного дна или ладони руки [5]. Естественно, что преобразователи биометрия-код не могут быть идеальными и имеют вероятности ошибок первого и второго рода. Возникает необходимость тестирования ошибок первого и второго рода на реальных биометрических данных. Кроме того, при настройке

«нечетких экстракторов» [1, 2, 3] и при обучении нейросетевых преобразователей [4, 5] необходимо контролировать отсутствие в биометрических данных грубых ошибок. По сути дела, на небольшом числе примеров биометрического образа необходимо контролировать показатель близости распределения биометрических данных к многомерному нормальному закону [6]. Формально для этой цели может быть использован классический одномерный хи-квадрат критерий Пирсона [7, 8], однако такой подход далек от оптимального. В рамках данной статьи мы попытаемся доказать, что контроль нормальных плотностей распределения биометрических данных выгоднее осуществлять статистическим критерием Крамера-фон Мезиса. Мощность критерия Крамера-фон Мезиса на малых выборках примеров биометрических данных оказывается существенно выше, чем мощность аналогичного критерия хи-квадрат.

Появление шумов квантования при статистической обработке малых выборок

Рассмотрим простейшую ситуацию, когда тестовая или обучающая выборка представлены 9 примерами образа «Свой». Из-за того, что непрерывная функция вероятности Р( я) первого биометрического параметра - У^ малой выборки, мы вынуждены описывать ее ступенчатой монотонно возрастающей функцией Р(я) , как это показано в левой части рисунка 1.

Рисунок 1 - Эффекты квантования непрерывной вероятности распределения значений и непрерывной плотности распределения значений путем их представления 9 примерами

Для того чтобы построить ступенчатое монотонно возрастающее приближение P(х) , необходимо осуществить сортировку биометрических данных по их возрастанию:

Xj = sort (vy) для i = 0,1,2,...., n (1),

где n - размер тестовой выборки или число квантов приближения монотонной функции вероятности.

В этом случае монотонно возрастающая ступенчатая функция будет описываться следующим кусочно-постоянным приближением:

P(xj ) = -n

(2)

Ошибка приближения или шум квантования находится как разность непрерывной функции вероятности и ее ступенчатого приближения:

ДР(х) = Р( х) - Р (х) (3).

В нижней части рисунка 1 отображены функции ошибки квантования или шумы квантования, возникающие из-за малых тестовых выборок.

В контексте вышеизложенного статистический критерий Колмогорова-Смирнова [7] следует рассматривать как поиск максимального значения модуля ошибки приближения:

да да

= max

\AP(x, )|

sup |p(x) - P(x)| =

— да( v(+W

или выбор наибольшего из локальных максимумов шума квантования.

С этих же позиций статистический критерий Крамера-фон Мизеса [7] является оценкой стандартного отклонения шума квантования непрерывной функции вероятности: да

y =

J p(x) — p(x)}2 • * = \{E(Ap(x)) — Ap(x)}2 • * = J{Ap(x)}2 • * =ст2(Ар(x))

(5)

—да —да

если выполняется условие нулевого математического ожидания шума квантования Е(АР(х)) = 0 .

Следует подчеркнуть, что статистический критерий Колмогорова-Смирнова (4) всегда имеет меньшую мощность в сравнении с критерием Крамера-фон Мизеса (5). Критерий Колмогорова-Смирнова (4) точечный, а критерий Крамера-фон Мизеса (5) интегральный.

Очевидно, что с ростом размеров тестовой выборки - п оба эти статистические критерии набирают мощность оценок, однако оценка по интегральному критерию всегда оказывается надежнее, чем оценка по точечному критерию.

Использование точки равной вероятности ошибок первого и второго рода при оценке мощности критерия Крамера-фон Мезиса

Будем исходить из того, что биометрические данные по каждому из контролируемых параметров распределены нормально. Тогда качество данных одного параметра можно оценивать и по критерию Крамера-фон Мезиса. При этом качество принимаемого решения будет существенно зависеть от порога сравнения и размеров тестовой выборки. Получить зависимости мы можем численным моделированием. Результаты численного моделирования для выборок из 9 примеров и 32 примеров приведены на рисунке 2.

Рисунок 2 - Гистограммы плотностей распределения значений критерия Крамера-фон Мезиса, построенные для выборок из 9 примеров и 32 примеров

Как видно из рисунка 2, плотности распределения значений критерия Крамера-фон Мезиса существенно зависят от размеров тестовой выборки. Для малых выборок динамический диапазон изменения значений критерия оказывается значительным. По мере роста числа примеров в обучающей выборке динамический диапазон существенно снижается.

При использовании любого статистического критерия проверки гипотез необходимо задать порог сравнения, получив для него значения вероятностей ошибок первого и второго рода. Выбор значения порога принятия решения во многом субъективен. Для того чтобы уйти от субъективности, будем назначать пороги в точке равной вероятности ошибок первого и второго рода:

Pi(y) = P2(y) = Pee (y) <6).

Как видно из левой части рисунка 2, точка равной вероятности ошибок находится при значении y=0.027, при этом значение равной вероятности составляет Pee (0.027)=0.259. Это значение отражает тот факт, что на малых выборках добиться малых значений вероятностей первого и второго рода невозможно.

Если выборку увеличить до объема в 32 примера, то происходит существенное снижение вероятности ошибок первого и второго рода Pee(0.0093)=0.15. Очевидно, что, повышая размеры тестовой выборки, мы можем монотонно снижать значения вероятностей ошибок первого и второго рода.

Сравнение по мощности критерия Крамера-фон Мезиса и хи-квадрат критерия Пирсона

Для представления значения равной вероятности ошибок первого и второго рода критерия Крамера-фон Мезиса как функции, зависящей от размера тестовой выборки, наиболее удобна логарифмическая шкала (рисунок 3).

Как видно из рисунка 3, logio(PEE(n)) является линейной функцией:

и г \ in—0.47—0.0107-n 1 о _ ,п\

Pee(n) = 10 при n =1, 2, ..., да (7).

Аналогичную зависимость можно построить и для равных вероятностей ошибок критерия хи-квадрат [7,8]. Из теории известно, что критерий хи-квад-рат должен описываться распределением Пирсона:

p(z2, m) =

1

m ^

v2 —

m

2^ .Г|

• exP

где Г(.) - гамма функция, т - число степеней свободы.

В свою очередь число степеней свободы - т рекомендуется выбирать исходя из числа столбцов гистограммы [8]:

т = к — 3 (9).

Как видно из рисунка 3, loglo(PEE (п)) линейной функцией:

является

да

— x

2

г> у \ 1П-0.47—0.0107-Й то

Рее(п) = 10 при п =1, 2, ..., да (7).

Аналогичную зависимость можно построить и для равных вероятностей ошибок критерия хи-квадрат [7,8]. Из теории известно, что критерий хи-квад-рат должен описываться распределением Пирсона:

где Г(.) - гамма функция, т - число степеней свободы.

В свою очередь число степеней свободы - т рекомендуется выбирать исходя из числа столбцов гистограммы [8]:

т=к—3 (9).

р{х , m) = -

1

22 -Г

0.1

0.01

m ^

• exp

^^ \ Хи-квадрат

/

---

/

Крамера - фон Мезиса

20

40

100

120

140

Рисунок 3 - Влияние объема тестовой выборки на значение равной вероятности ошибок в зависимости от объема тестовой выборки для критериев Крамера-фон Мезиса и хи-квадрат критерия

Для выбора числа столбцов гистограммы существует множество рекомендаций разных авторов. В частности, по действующим рекомендациям Госстандарта [8] можно выбирать этот параметр, применяя следующие правила:

к >4n;

к > l

> n

к >-; 5

2(n)+1;

(10)

к > 5lg( n); к > 5lg(n) - 5;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

D r \ 1 л-0.22-0.017-и с - ^ л с

Pee(n) = 10 при 5 < n < 16;

D /ч 1Л-0.401-0.0066-И лг , s ¿л

Pee (n) = 10 при 16 < n < 64; (12).

Pee(n) = 10 при 64 < n < 121.

Из рисунка 3 видно, что критерий Крамера-фон Мезиса обеспечивает существенно меньшую ошибку принятия решений в сравнении с критерием хи-квадрат Пирсона. С ростом объема тестовой выборки преимущество критерия Крамера-фон Мезиса растет. Также преимущество этого критерия увеличивается с увеличением размерности биометрических данных [9, 10, 11]. Заключение

Основной причиной преимуществ критерия Крамера-фон Мезиса является то, что при прочих равных условиях его шумы квантования имеют большую частоту скачков и меньшую амплитуду каждого скачка (смотри рисунок 1). Как следствие, шумы квантования сглаживаются критерием Крамера-фон Мезиса лучше, чем те же самые шумы квантования в критерии хи-квадрат Пирсона. На типовой выборке биометрических данных в 2 0 примеров критерий Крамера-фон Мезиса дает в 1,5 раза меньшую вероятность ошибок, чем критерий хи-квадрат Пирсона. При анализе биометрических данных имеет смысл отказаться от использования классического хи-квадрат критерия Пирсона в пользу более мощного критерия Крамера-фон Мезиса.

ЛИТЕРАТУРА

1. Ramirez-Ruiz J. Keys Generation Using FingerCodes. [text] / J. Ramirez-Ruiz, C. Pfeiffer, J.

Nolazco-Flores //Advances in Artificial Intelligence - IBERAMIA-SBIA. - 2006 (LNCS 4140). - P. 178187.

2. Monrose F. Cryptographic key generation from voice. [text] / F. Monrose, M. Reiter, Q. Li, S. Wetzel // In Proc. IEEE Symp. on Security and Privacy. - 2001.

3. Feng Hao. Crypto with Biometrics Effectively, [text] / Feng Hao, Ross Anderson, John Daugman// IEEE TRANSACTIONS ON COMPUTERS, VOL. 55, NO. 9. - 2006.

4. Нейросетевая защита персональных биометрических данных, [текст] / Ю.К.Язов, В.И. Волчихин, А.И. Иванов и др. - М.: Радиотехника, 2012. - 157 с.

5. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа, [текст] / Б.С. Ахметов, А.И. Иванов, В.А. Фунтиков и др. - Казахстан, г. Алматы: ТОО «Издательство LEM», 2014. - 144 c.

6. Алгоритмы тестирования биометрико-нейросетевых механизмов защиты информации, [текст] / Б.С. Ахметов, В.И. Волчихин, А.И. Иванов, А.Ю. Малыгин. - Казахстан, Алматы: КазНТУ им. Сатпаева, 2013. - 152 с.

7. Кобзарь А.И. Прикладная математическая статистика для инженеров и научных работников.

[текст]/ А.И. Кобзарь - М.: ФИЗМАТЛИТ, 2006 г. - 816 с.

Для того чтобы снять неопределенность при выполнении численного эксперимента, мы воспользовались гистограммами с числом столбцов:

к = 4 при 5 < п < 16; к = 6 при 16 < п < 64; (11).

к = 8 при 64 < п < 121.

Результаты численного моделирования отражены в виде ломаной кривой, чье кусочно-линейное приближение выглядит следующим образом:

- X

m

2

m

8. Р 50.1.037-2002 Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2« Госстандарт России, [текст] - Москва, 2001. - 140 с.

9. Серикова. Н.И. Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных [текст]/ В.И. Волчихин, А.И. Иванов, Н.И. Серикова, Ю.В. Фунтикова // Известия высших учебных заведений. Поволжский регион. Технические науки. - Пенза: ПГУ, 2015 - №1. - С. 50 - 59.

10. Северцев Н.А. Системный анализ определения параметров состояния и параметры наблюдения объекта для обеспечения безопасности //Надежность и качество сложных систем. 2013. № 1. С. 4-10.

11. Ахметов Б.Б. Многомерный статистический анализ биометрических данных сетью частных критериев Пирсона, [текст]/ Ахметов Б.Б., Иванов А.И., Безяев А.В., Фунтикова Ю.В. // Вестник Национальной академии наук Республики Казахстан. - Алматы, 2015. № 1. С. 5-11.

УДК 004.93

Садыков С.С., Кульков Я.Ю.

Муромский институт (филиал) ФГБОУ ВО «Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых», Муром, Россия

РАСПОЗНАВАНИЕ ОТДЕЛЬНЫХ ПЛОСКИХ ОБЪЕКТОВ ПО БЕЗРАЗМЕРНЫМ ПРИЗНАКАМ ВЫПУКЛЫХ ОБОЛОЧЕК ИХ БИНАРНЫХ ИЗОБРАЖЕНИЙ МЕТОДОМ ЛИНЕЙНОГО ДИСКРИМИНАНТНОГО АНАЛИЗА

Целью работы является экспериментальное исследование распознавания плоских объектов методом линейного дискриминантного анализа, с использованием безразмерных признаков-выпуклых оболочек их бинарных изображений и определение возможности использования данного метода в системах технического зрения. Ключевые слова:

система технического зрения; изображение; распознавание; плоский объект; деталь; безразмерный признак; выпуклая оболочка; линейный дискриминантный анализ.

Введение

Одним из путей повышения эффективности производства является автоматизация технологического процесса. Это связано с применением роботизированных комплексов. В настоящее время таковыми являются автоматические системы сортировки, контроля качества и упаковки деталей [13].

Операция сортировки деталей при разработке алгоритмов обработки информации в системах технического зрения(СТЗ) может быть сформулирована как задача распознавания образов, воспринимаемых видеокамерой системы. Для этого полученные изображения подвергаются обработке и анализу [4-11].

В данной статье приводятся экспериментальные исследования возможности применения линейного дискриминантного анализа[12] для распознавания отдельных тестовых и реальных объектов по безразмерным признакам выпуклых оболочек их бинарных изображений.

Способ формирования безразмерных признаков приведен в [11]. Применяемые безразмерные признаки, а их 20, инвариантны повороту, переносу и изменению масштаба объектов в поле зрения СТЗ.

Алгоритм распознавания

Рассматриваемый в данной статье метод линейного дискриминантного анализа предполагает предварительное вычисление функции плотности нормального распределения для каждого из классов распознаваемых изображений объектов.

Основанием для отнесения объекта к известному классу является наибольшее значение для данного объекта функции плотности нормального распределения среди всех классов. Вектор средних значений, входящих в формулу функции плотности нормального распределения, а также дисперсионно-ковариационная матрица для каждого обучающего класса оцениваются по исходным данным на этапе обучения СТЗ. Предполагается, что вычисляемые ковариационные матрицы для различных классов считаются различными [12]:

Функция плотности нормального распределения

имеет вид:

/м = ■

-(х—ту С 1(х-т)

(2гс)Р/2|С|1/2

где С - ковариационная матрица, формуле:

вычисляемая по

пк — 1

где Пк - число наблюдений в к-м классе, х^а -значение ]-ой дискриминантной переменной (величина ]-й переменной а-го наблюдения), х±ср -среднее значение ^ой переменной т - вектор средних значений переменных р - число дискрими-нантных переменных.

Исследуемый объект принадлежит к-му классу, если функция плотности fk принимает наибольшее значение среди всех функций принадлежности при подстановке параметров объекта в функцию fk.

Экспериментальные исследования

В ходе проведения экспериментальных исследований имитировалось случайное появление объекта в поле зрения камеры СТЗ. Для каждого класса рассматриваемых тестовых(искусственных) и реальных изображений объектов формируется презен-тативная выборка по 2000 изображений каждого класса. Проведение экспериментальных исследований включает в себя следующие этапы [11]: выделение одноточечного контура объекта; расчет первичных характеристик контура; построение выпуклой формы; выделение контура выпуклой оболочки; расчет первичных характеристик оболочки; формирование вектора безразмерных признаков. Полутоновые изображения дополнительно проходят предварительную нелинейную фильтрацию и бинаризацию методом Отсу[11].

Изображения исходных отдельных тестовых и реальных объектов, использованных в экспериментах, приведены на рис.1 и 2, соответственно.

Экспериментальные исследования проведены при следующих численных параметрах исходных и производных данных:

- размер исходных изображений 512х512 точек;

- размер рабочего поля, куда размещаются генерированные реализации исходных изображений 1024х1024;

- число дискриминантных переменных р=2 0;

- число классов д=10;

- число наблюдений в к-м классе Пк=2000.

- общее число наблюдений по всем классам П=20000;

На этапе обучения для каждого класса по формуле (2) рассчитывались ковариационные матрицы С1..С10. Также рассчитывались их определители и обратные матрицы С-11..С-1ю.

Полученные значения подставляются в формулы функции плотности для каждого класса по каждому вектору входного объекта.

Пример полученной функции для одного из подлежащих классификации объекта:

^(Хисл) (2Ж)Р/2|С|-/2 в

—-(х—т-)ГС- _ _

1,б1309е—55

(3)

В процессе исследования были вычислены значения Гк для каждого из 20000 изображений. Наибольшее из полученных значений тахГк указывает на принадлежность входного объекта к одному из 10 классов. Если полученное значение Гк класса не совпадало с ожидаемым, то фиксируется ошибка.

На рис.3 приведены вероятности правильного распознавания всех 20 000 ОТПО и ОРПО.-

1

с

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Иванов А. И., Газин А. И., Вятчанин С. Е., Перфилов К. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Иванов А. И., Газин А. И., Вятчанин С. Е., Перфилов К. А.

Текст научной работы на тему «Сравнение мощности хи-квадрат критерия и критерия Крамера-фон Мезиса для малых тестовых выборок биометрических данных»