Обоснование и выбор статистических критериев для корректной оценки данных малых выборок биометрических образов

Иванов А.И.; Малыгина Е.А.; Серикова Ю.И.; Вятчанин С.Е.; Куприянов Е.Н.

Труды Международного симпозиума «Надежность и качество», 2018, том 1 УДК: 519.24; 519.7; 57.017

Иванов1 А.И., Малыгина2 Е.А., Серикова2 Ю.И., Вятчанин2 С.Е., Куприянов3 Е.Н.

*АО «Пензенский научно-исследовательский электротехнический институт», Пенза, Россия

2ФГБОУ ВО «Пензенский государственный университет», Пенза, Россия

3ФГКУ «Войсковая часть 83417», Приморский край, Россия

ОБОСНОВАНИЕ И ВЫБОР СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ДЛЯ КОРРЕКТНОЙ ОЦЕНКИ ДАННЫХ МАЛЫХ ВЫБОРОК БИОМЕТРИЧЕСКИХ ОБРАЗОВ

Рассмотрены и проанализированы наиболее перспективные статистические критерии. Для сравнения выбраны два статистических критерия — Крамера-фон Мизеса и критерия среднего геометрического. Сравнение осуществляют для малых тестовых выборок, характерных для данных биометрических образов. В качестве мощности критериев рассматривается десятичный логарифм равновероятных ошибок проверяемой гипотезы о нормальном закон распределения значений и второй альтернативной гипотезы о равномерном законе распределения данных. Показано, что в логарифмическом масштабе мощность сравниваемых критериев хорошо описывается линейной функцией. При этом критерий среднего геометрического имеет большую мощность при выборках более 50 опытов. Этот критерий перспективнее критерия Крамера-фон Мизеса для выборок среднего объема превышающего 50 опытов. Для обработки малых выборок биометрических данных он не приемлем, так как обучение и тестирование биометрико-нейросетевых средств аутентификации личности, осуществляют на выборках объемом от 8 до 30 примеров. При этом отмечено, что мощность обоих рассматриваемых критериев выше мощности наиболее распространенного критерия хи-квадрат.

Ключевые слова:

МАЛЫЕ ВЫБОРКИ БИОМЕТРИЧЕСКИХ ПРИМЕРОВ, КРИТЕРИЙ КРАМЕРА-ФОН МИЗЕСА, КРИТЕРИЙ СРЕДНЕГО ГЕОМЕТРИЧЕСКОГО, КРИТЕРИЙ ХИ-КВАДРАТ, СРАВНЕНИЕ МОЩНОСТИ КРИТЕРИЕВ

Введение

Одним из наиболее популярных при статистическом анализе данных является критерий Пирсона, которому полностью посвящена первая часть рекомендаций Госстандарта [1], тогда как все остальные критерии описаны во второй части рекомендаций [2]. К сожалению, большинство классических критериев ориентированы на использование больших выборок данных. Так критерий хи-квадрат начинает хорошо работать при 2 00 опытах и выше. То есть при анализе малых выборок биометрических данных (от 8 до 30 примеров) его использовать нельзя. В связи с этим необходимо для анализа биометрических данных построить статистический критерий, который смог бы достаточно эффективно работать на малых выборках. Проведем анализ существующих статистических критериев перспективные по мнению статистические критерии, появления.

Указание времени появления того или иного критерия не случайно, так как достаточно старым критериям (например хи-квадрат критерию Пирсона 1900 г.) в литературе уделено много внимания. Он хорошо исследован несколькими поколениями ученых. Иначе обстоит дело с недавно созданными критериями, вероятность того, что они окажутся эффективными высока из-за того, что они слабо исследованы. Еще одной проблемой является то, что давно созданные критерии пока не имеют одной и той же шкалы сравнении.

В рамках данной работы, мы предлагаем, на наш взгляд, достаточно универсальную шкалу сравнения мощности различных критериев, которая очень похожа на общепринятый метод описания цифровых линейных фильтров. Естественно, что все статистические критерии являются некоторыми нелинейными низкочастотными фильтрами, подавляющими возникающие при статистической обработке шумы квантования.

Таблица №1

Наиболее перспективные статистические критерии

В таблице №1 приведены авторов данной статьи с указанием времени их

№ Название критерия и год создания Формула критерия

1 Хи-квадрат критерий или критерий Пирсона 1900 г. +?{р{х) - р(X)}2 _ dx L р(х~>

2 Критерий Крамера-фон Мизеса 1928 г. +«> 2 J{P(x) - P(x)} ■ dx

3 Критерий Колмогорова-Смирнова 1933 г. sup [P(x)-P(x)|

4 Критерий Смирнова-Крамера- фон Мизеса 1936 г. 2 J{P(x) - P(x)} • dP(x)

5 Критерий Джини 1941 г. +СО J |P(x) - P(x) • dx

6 Критерий Андерсона-Дарлинга 1952 г. 7{p(x) - P(x)}2 ^ ¿P(x)-{l-P(x)}

7 Критерий Ватсона 1961 г. +00 Г X 1 J P(x) - P(x) - J [P(x) - P(x)] • dP(x) • dP(x)

8 Критерий Фроцини 197 8 г. +CO J P(x) - P(x)| • dP(x)

9 Дифференциальный вариант критерия Джини 200 6 г. [4] +CO J |p(x) - p(x) •dx

10 Критерий среднего геометрического 2014 г. [5, 6, 7] +CO JJP(x) • (1- P(x)) • dx

Шумы квантования при статистической обработке малых данных

Рассмотрим простейшую ситуацию, когда тестовая или обучающая выборка представлена 9 примерами образа «Свой». Из-за того, что непрерывная

функция вероятности первого биометрического параметра - У1 малой выборки, мы вынуждены описывать ее ступенчатой монотонно возрастающей функцией Р(х) , как это показано в левой части рисунка 1.

0J

QJ25

-0.25

Р(х)

3 -1 : : :

ДР(х) —-1 /1,

г 1 f L—

0.5

0.25

-0.25

р(х)

/ \

7

3-2-1 0 1 2

ip(x)

Рисунок 1 - Эффекты квантования непрерывной вероятности распределения значений и непрерывной плотности распределения значений путем их представления 9 примерами, порождающие непрерывный шум

ошибки квантования

Для того, что бы построить ступенчатое монотонно возрастающее приближение Р(х) необходимо осуществить сортировку биометрических данных по их возрастанию:

X = sort(v ,) для i = 0,1,2,...., n , (1)

где n - размер тестовой выборки или число квантов приближение монотонной функции вероятности.

В этом случае, монотонно возрастающая ступенчатая функция будет описываться следующим кусочно-постоянным приближением:

7

11

(2)

Ошибка приближения или шум квантования находится как разность непрерывной функции вероятности и ее ступенчатого приближения:

АР(х) = Р(х)-Р(х) . (3).

В нижней части рисунка 1 отображены функции ошибки квантования или шумы квантования, возникающие из-за малых тестовых выборок.

В контексте выше изложенного, статистический критерий Колмогорова-Смирнова [7] следует рассматривать, как поиск максимального значения модуля ошибки приближения:

sup \Р(х) - Р(.т)| = max| AP(xj )| , (4)

или выбор наибольшего из локальных максимумов шума квантования.

С этих же позиций статистический критерий Крамера-фон Мизеса [7] является оценкой стандартного отклонения шума квантования непрерывной функции вероятности:

J {Р(х) - Р(х)}~ -dx = J {Е(АР(х)) - АР(х)}2 -dx= J {ЛР(.т)}2 • dx =&2(АР(х)) ,

(5)

если выполняется условие нулевого математического ожидания шума квантования Е(АР(х)) = 0 .

Следует подчеркнуть, что статистический критерий Колмогорова-Смирнова (4) всегда имеет меньшую мощность в сравнении с критерием Крамера-фон Мизеса (5). Критерий Колмогорова-Смирнова (4) точечный, а критерий Крамера-фон Мизеса (5) интегральный.

Очевидно, что с ростом размеров тестовой выборки - п, оба эти статистические критерии набирают мощность оценок, однако оценка по интегральному критерию всегда оказывается надежнее, чем оценка по точечному критерию.

Сравнение по мощности критерия Крамера-фон Мизеса и хи-квадрат критерия Пирсона

Будем исходить из того, что биометрические данные по каждому из контролируемых параметров распределены нормально. Тогда качество данных одного параметра можно оценивать и по критерию Крамера-фон Мизеса, и по критерию хи-квадрат [7, 8] . Для сравнения критериев, как альтернативу, будем использовать распределение данных по равномерному закону. Результаты численного моделирования для выборок из 9 примеров приведены на рисунке 2.

Рисунок 2 - Распределения значений критерия Крамера-фон Мизеса и хи-квадрат критерия для нормального закона распределения и его альтернативы в виде равномерного закона распределения для

выборок из 9 примеров

га

—га

При принятии решения, важным является порог сравнения. Каждый порог сравнения дает свое значение вероятностей ошибок первого рода - Pi и вероятность ошибок второго рода - P2. Для исключения неопределенности порога сравнения будем сравнивать результаты в точке, равной вероятности ошибок Pi = P2 = Рее.

Из рисунка 2 видно, что распределение данных, полученных по критерию Крамера-фон Мизеса, дает значение Pi = Р2 = Рее = 0.30 6. При тех же условиях, хи-квадрат критерий дает значение равновероятных ошибок Pi = Р2 = Рее = 0.327. Результат оказывается хуже примерно на 9%. Это означает, что хи-квадрат критерий требует выборки из 10 примеров, тогда как для критерия Крамера-фон Мизеса потребуется только 9 примеров. Снижение требований к размерам тестовой выборки обусловлено тем, что ошибка квантования функции вероятности - P(x) оказывается меньше ошибки квантования плотности распределения - p(x) (смотри рисунок 1). При вычислении хи-квадрат критерия,

мы вынуждены переводить от дискретного приближения Р{х) с 9 ступеньками (левая часть рисунка 1) к гистограмме, приближающей плотность распределения 4 столбцами (правая часть рисунка 1). Два сравниваемых статистических критерия имеют разный шум квантования. Шум квантования критерия

Крамера-фон Мизеса всегда имеет примерно в -Jn больше скачков, в сравнении с шумом квантования, получающимся при использовании гистограмм в процессе вычисления хи-квадрат критерия.

Вычислительная процедура критерия Крамера-фон

Мизеса примерно в раз эффективнее давит вли-

яние шумов квантования в сравнении с процедурой вычисления данных по критерию хи-квадрат. Чем больше тестовая выборка, тем сильнее сказывается эффект более сильного подавления влияния шумов квантования. На рисунке 3 приведены данные моделирования для выборки, состоящей из 32 примеров.

Рисунок 3 - Распределения значений критерия Крамера-фон Мизеса и хи-квадрат критерия для нормального закона распределения и его альтернативы в виде равномерного закона распределения для

выборок из 32 примеров

Из рисунка 3 видно, что для выборки из 32 примеров критерий Крамера-фон Мизеса дает Pi = Р2 = Рее = 0.111, что на 43% меньше, чем дает критерий хи-квадрат Pi = Р2 = Рее = 0.196. В первом приближении можно ожидать снижения объемов тестовой выборки примерно на 40%, если перейти от применения критерия хи-квадрат к критерию Крамера-фон Мизеса

Сравнение мощностей статистических критериев

Очевидно, что для сравнения статистических критериев необходимо рассчитать для каждого критерия равные вероятности ошибок первого и второго рода для выборок, имеющих разные объемы. Результаты расчетов сведены в таблицу 2, в которой наиболее слабые критерии помещены в верхнюю часть таблицы. По мере роста мощности критерия он опускается в низ таблицы.

Таблица №2

Значения равных вероятностей ошибок первого и второго рода при проверке гипотезы нормального и гипотезы равномерного закона распределения значений

Число опытов в тестовой выборке

9 | 16 | 25 | 36 | 49 | 64 | 81 | 100 | 121

Значения равновероятных ошибок Р1=Р2=Рее

Критерий Джини 1941 г. 0. 50 0.497 0.482 0.417 0.348 0.269 0.225 0.205 0.186

Критерий Смирнова- Колмагорова 1933 г. 0.46 0.44 0.345 0 .315 0.239 0.232 0.215 0.201 0.177

Критерий Фроцини 1978 г. 0.439 0.38 0.325 0.268 0.212 0.172 0.154 0.107 0.089

Хи-квадрат критерий Пирсона 190 0 г. 0 .42 0.32 0.29 0.256 0.207 0.153 0.131 0. 101 0.083

Дифференциаль-ный критерий Джини [4] 2006 г. 0.40 0.305 0.285 0.245 0.197 0.145 0.120 0.91 0.078

Среднее геометрическое 2015 г. [5, 6,7] 0.414 0.331 0.231 0.155 0.103 0.058 0.036 0.017 0.012

Критерий Крамера-фон Мизеса 192 8 г. 0.259 0.22 0.18 0.13 0.095 0.069 0.045 0.021 0.019

Из рисунка 4 видно, что критерий среднего геометрического имеет большую мощность в сравнении с критерием Крамера-фон Мизеса для выборок объемом более 50. Однако для решения задач биометрии он малоперспективен, так как уступает по своей мощности критерию Крамера-фон Мизеса. Видимо критерий Крамера-фон Мизеса следует использовать как исходный генетический материал для создания более мощного критерия, хорошо работающего на выборках от 8 до 3 0 примеров, объединяя его с иными статистическими критериями. Заключение

Рассматривать статистические критерии как некоторые нелинейные низкочастотные фильтры, подавляющие шумы квантования, технически выгодно. Очевидным становится причина более высокой эффективности критерия Крамера-фон Мизеса по сравнению с хи-квадрат критерием. У хи-квадрат критерия больше амплитуда шума квантования и ниже его частота в сравнении с шумом квантования критерия Крамера-фон Мизеса (рисунок 1). Если сравнивать критерий среднего геометрического и критерий Крамера-фон Мизеса все оказывается сложнее. Линейные функции их мощности в логарифмической шкале пересекаются. Естественно, что проведенных исследований пока недостаточно, однако ясен путь, по которому следует двигаться.

ЛИТЕРАТУРА

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Р 50.1.037-2002 Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2. Госстандарт России. Москва-2001 г., 140 с.

2. Р 50.1.037-2002 Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. Госстандарт России. Москва-2002 г., 123 с.

3. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006 г., 816 с.

4. Малыгин А.Ю., Волчихин В.И., Иванов А.И., Фунтиков В.А. Быстрые алгоритмы тестирования нейросетевых механизмов биометрико-криптографической защиты информации /Пенза-2006 г., Издательство Пензенского государственного университета, 161 с.

5. Перфилов К.А. Критерий среднего геометрического, используемый для проверки достоверности статистических гипотез распределения биометрических данных. Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих БЕЗОПАСНОСТЬ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ. Том 9, Пенза-2014, с. 92-93 (http://www.pniei.penza.ru/RV-conf/T9/C92).

6. Ахметов Б.С., Иванов А.И., Перфилов К.А., Проценко Е.Д., Пащенко Д.С. Использование среднего геометрического, ожидаемой и наблюдаемой функций вероятности как статистического критерия оценки качества биометрических данных с. 281-283. ХХ Международный симпозиум «Надежность и качество 2015». Том. 2., 15-18 мая 2015.

7. Перфилов К. А., Иванов А. И., Проценко Е. Д. Расширение многообразия статистических критериев, используемых при проверке гипотез распределения значений биометрических данных. Ежемесячный журнал «Европейский союз ученых» № 13, 2 9-30.04.2015, часть 5, с. 9-12.

УДК: 519.24; 53; 57.017

Иванов1 А.И., Безяев2 А.В., Куприянов3 Е.Н..

1АО «Пензенский научно-исследовательский электротехнический институт», Пенза, Россия

2ФГБОУ ВО «Пензенский государственный университет», Пенза, Россия

3ФГКУ «Войсковая часть 83417», Приморский край, Россия

НЕЙРОСЕТЕВАЯ МОЛЕКУЛА: СПЕКТР ПОКАЗАТЕЛЕЙ СТАБИЛЬНОСТИ СОСТОЯНИЙ ВЫХОДНЫХ КУБИТ НЕЙРОСЕТЕВОГО ПРЕОБРАЗОВАТЕЛЯ БИОМЕТРИЯ-КОД

Целью работы является описание спектра показателей стабильности состояний выходных кубит нейросетевого преобразователя биометрия-код. Так как нейронная сеть является статическим нелинейным преобразователем для наблюдения на его выходе кубит необходимо добавить к анализируемому биометрическому образу шум, полученный от программного генератора. Для примеров образа «Свой» показатели стабильности всех кубит нейросетевоймолекулы близки к единице. Для образов «Чужой» близких к образам «Свой» показатели стабильности снижаются. Вынесение образов «Чужой» дальше от образа «Свой» приводит к уменьшению значений спектра показателей стабильности. Попадание на периферию образов « Чужой» приводит к росту значений спектра показателей стабильности Возможна оценка диаметра гиперсферы образов все «Чужие», пользуясь наблюдением показателей стабильности выходных кубит нейросетевой молекулы. При измерении диаметра гиперсферы образов все « Чужие» может быть использован любой образ при его движении вправо и влево, через его инверсию и центр гиперсферы образов все «Чужие».

Ключевые слова:

НЕЙРОСЕТЕВОЙ ПРЕОБРАЗОВАТЕЛЬ БИОМЕТРИЯ-КОД, БИОМЕТРИЧЕСКИЕ ДАННЫЕ, БОЛЬШИЕ РАЗМЕРНОСТИ, ПРОГРАММНАЯ ПОДДЕРЖКА КВАНТОВОЙ СУПЕРПОЗИЦИИ

Общие положения работы нейросетевых преобразователей биометрия-код

Информатизация современного общества приводят к необходимости расширения применения криптографии. Обычные люди не могут запоминать длинные пароли доступа и криптографические ключи. Для решения этой проблемы в США и Евросоюзе развиваются технологии «нечетких экстракторов» [1, 2, 3], построенных на корректировке ошибок классическими кодами с обнаружением и исправлением ошибок. При этом выходной код «нечетких экстрак-

К сожалению, работа с таблицей затруднена, данные в таблице не наглядны. В связи с этим воспользуемся логарифмической шкалой и построим графики, приведенные на рисунке 4.

log 0 10

р)

КфМ

/ Ч

2

Рисунок 4 - Графики мощностей % - критерия Пирсона, критерия Крамера-фон Мизеса (КфМ), критерия среднего геометрического (sg)

торов» является коротким из-за того, что классические коды с приемлемой избыточностью в 50% способны корректировать не более 5% ошибок [4, 5]. Ошибки исходных кодов «нечетких экстракторов» могут составлять от 20% до 30% от длины кода, что заставляет использовать самокорректирующиеся коды с 20-ти кратной избыточностью. То есть длина выходного кода «нечеткого экстрактора» оказывается в 20 раз меньше, чем число биометрических параметров, из которых «нечеткий экстрактор» восстанавливает код ключа.

Аннотация научной статьи по математике, автор научной работы — Иванов А. И., Малыгина Е. А., Серикова Ю. И., Вятчанин С. Е., Куприянов Е. Н.

Похожие темы научных работ по математике , автор научной работы — Иванов А. И., Малыгина Е. А., Серикова Ю. И., Вятчанин С. Е., Куприянов Е. Н.

Текст научной работы на тему «Обоснование и выбор статистических критериев для корректной оценки данных малых выборок биометрических образов»