Научная статья на тему 'Использование среднего геометрического, ожидаемой и наблюдаемой функций вероятности как статистического критерия оценки качества биометрических данных'

Использование среднего геометрического, ожидаемой и наблюдаемой функций вероятности как статистического критерия оценки качества биометрических данных Текст научной статьи по специальности «Математика»

CC BY
128
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Ахметов Б.С., Иванов А.И., Перфилов К.А., Проценко Е.Д., Пащенко Д.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование среднего геометрического, ожидаемой и наблюдаемой функций вероятности как статистического критерия оценки качества биометрических данных»

Министерство образования и науки РФ

Правительство Пензенской области Академия информатизации образования Академия проблем качества РФ Российская академия космонавтики им. К.Э.Циолковского Российская инженерная академия Вычислительный центр РАН им. А.А.Дородницына Институт испытаний и сертификации ВВТ ОАО «Радиотехнический институт имени академика А.Л.Минца» ОАО «УПКБ ДЕТАЛЬ», ОАО «РУБИН» ОАО «НИИФИ», ОАО «ПНИЭИ», ФГУП ФНПЦ «ПО СТАРТ», НИКИРЭТ, ЗАО «НИИФИиВТ» ОАО «ППО ЭЛЕКТРОПРИБОР», ОАО «РАДИОЗАВОД» Пензенский филиал ФГУП НТЦ «АТЛАС» ОАО «ТЕХПРОММАШ», МИЭМ НИУ ВШЭ, Евразийский Национальный университет им. Л.Н. Гумилева Сургутский институт мировой экономики и бизнеса «ПЛАНЕТА» Пензенский государственный университет

АадижУ{%шсж

ТРУДЫ

МЕЖДУНАРОДНОГО СИМПОЗИУМА

НАДЕЖНОСТЬ И КАЧЕСТВО

II то^

ПЕНЗА 2015

УДК 621.396.6:621.315.616.97:658:562 Т78

Труды Международного симпозиума «НАДЕЖНОСТЬ И КАЧЕСТВО»:

T78 в 2 т. - Пенза : ПГУ, 2015. - 2 том - 384 с.

ISBN 978-94170-818-5(т.1) ISBN 978-94170-818-8

В сборник трудов включены доклады юбилейного ХХ-го Международного симпозиума «Надежность и качество», проходившего с 25 по 31 мая 2015 г. в городе Пензе.

Рассмотрены актуальные проблемы теории и практики повышения надежности и качества; эффективности внедрения инновационных и информационных технологий в фундаментальных научных и прикладных исследованиях, образовательных и коммуникативных системах и средах, экономике и юриспруденции; методов и средств анализа и прогнозирования показателей надежности и качества приборов, устройств и систем, а также анализа непараметрических моделей и оценки остаточного ресурса изделий двойного назначения; ресурсосбережения; проектирования интеллектуальных экспертных и диагностических систем; систем управления и связи; интерактивных, телекоммуникационных сетей и сервисных систем; экологического мониторинга и контроля состояния окружающей среды и биологических объектов; исследования физико-технологических процессов в науке, технике и технологиях для повышения качества выпускаемых изделий радиопромышленности, приборостроения, аэрокосмического и топливно-энергетического комплексов, электроники и вычислительной техники и др.

Оргкомитет благодарит за поддержку в организации и проведении Международного симпозиума и издании настоящих трудов Министерство образования и науки РФ, Правительство Пензенской области, Академию проблем качества РФ, Российскую академию космонавтики им. К. Э. Циолковского, Российскую инженерную академию, Академию информатизации образования, Вычислительный центр РАН им. А. А. Дородницына, Институт испытаний и сертификации ВВТ, ОАО «Радиотехнический институт имени академика А.Л. Минца», ОАО «УПКБ ДЕТАЛЬ», ОАО «НИИФИ», ФГУП «ПНИЭИ», ОАО «РУБИН», ОАО «РАДИОЗАВОД», ОАО «ППО ЭЛЕКТРИПРИБОР», ФГУП «ПО «СТАРТ», НИКИРЭТ - филиал ФГУП «ПО «СТАРТ», Пензенский филиал ФГУП НТЦ «АТЛАС», ОАО «ТЕХПРОММАШ», МИЭМ НИУ ВШЭ, Евразийский Национальный университет им. Л.Н. Гумилева, Сургутский институт мировой экономики и бизнеса «ПЛАНЕТА»,Пензенский государственный университет.

Сборник статей зарегистрирован в Российском индексе научного цитирования (РИНЦ) с 2005 г.

Р е д а к ц и о н н а я к о л л е г и я :

Юрков Н. К. - главный редактор Трусов В. А. - ответственный секретарь Баннов В. Я. - ученый секретарь Волчихин В. И., Абрамов О. В., Авакян А. А., Дивеев А.И., Иофин А. А., Каштанов В. А., Майстер В. А., Острейковский В.А., Петров Б. М., Писарев В. Н., Роберт И. В., Романенко Ю. А., Северцев Н. А., Садыков С. С., Садыхов Г. С., Увайсов С. У.

ISBN 978-94170-818-5(т.1) ISBN 978-94170-818-8

© Оргкомитет симпозиума, 2015 © ФГБОУ ВПО «Пензенский государственный университет», 2015

ЛИТЕРАТУРА

1. Интрамедуллярный фиксатор с деротационным элементом для остеосинтеза длинных костей /М.Е.Белов, А.Г. Шайко-Шайковский, С.В.Билык и др. // Пат. на корисну модель UA, №84660 МПК А 61В 17/72, 25.10.2013. бюл. № 20.

2. Василов В.В. Зинькив О.И., Билык С.В., Шайко-Шайковский А.Г. и др. Интрамедуллярный фиксатор с деротационным элементом для остеосинтеза/ В.В.Василов, О.И.Зинькив, С.В. Билык, А.Г. Шайко-Шайковский и др. - Материалы международного симпозиума «Надёжность и качество-2013», -Россия, Пенза,- 27.05 - 21.06.2013,- с.296-297.

3. Зинькив О.И., Леник Д.К., Сапожник В.Н. Навигационное устройство для блокирующего интраме-дуллярного остеосинтеза /О.И. Зинькив,.Д.К. Леник, Сапожник В.Н. и др. - Материалы международного. симпозиума «Надёжность и качество 2012».- Россия,-Пенза, 21 - 31.05.2012.-с.287-288.

УДК: 519.66; 612.087.1

1 2 3 3 3

Ахметов Б.С., Иванов А.И., Перфилов К.А. г Проценко Е.Д., Пащенко Д. С.

1Казахский национальный технический университет имени К.И. Сатпаева, Алматы, Казахстан 2ОАО «Пензенский научно-исследовательский электротехнический институт», Пенза, Россия 3ФГБОУ ВПО «Пензенский государственный университет», Пенза, Россия

ИСПОЛЬЗОВАНИЕ СРЕДНЕГО ГЕОМЕТРИЧЕСКОГО, ОЖИДАЕМОЙ И НАБЛЮДАЕМОЙ ФУНКЦИЙ ВЕРОЯТНОСТИ КАК СТАТИСТИЧЕСКОГО КРИТЕРИЯ ОЦЕНКИ КАЧЕСТВА БИОМЕТРИЧЕСКИХ ДАННЫХ

Введение часть рекомендаций Госстандарта [1], тогда как

Одним из наиболее популярных критериев оцен- все остальные критерии описаны во второй части ки при статистическом анализе данных является рекомендаций [2]. Наиболее популярные критерии критерий Пирсона. Не случайно критерию Хи- проверки гипотез даны в таблице [3]. квадрат Пирсона полностью посвящена первая

_Наиболее популярные статистические критерии_Таблица 1.

№ Название критерия и год создания Формула критерия

1 Хи-квадрат критерий или критерий Пирсона 1900 г. 7{Р( х)- p (x)}\ck -L p(x)

2 Критерий Крамера-фон Мизеса 1928 г. J{P(х) - P(х)}2 • dx

3 Критерий Колмогорова-Смирнова 1933 г. sup p(x) - P(x)| -L< x{+L

4 Критерий Смирнова-Крамера- фон Мизеса 1936 г. J{P(x) - P(x)}2 • dP(x)

5 Критерий Джини 1941 г. J P(x) - P(x) • dx

6 Критерий Андерсона-Дарлинга 1952 г. +L{P( x) - P( x)}2 x) -L P(x) -{1 - P(x)}

7 Критерий Купера 1960 г. sup {p(x) - P(x)}+ sup {P(x) - P(x)} -L<x<+L -L< x<+L

8 Критерий Ватсона 1961 г. J jp(x) - P(x) - J [P(x) - P(x)]- dP(x)j-dP(x)

9 Критерий Фроцини 1978 г. J P(x) - P(x) • dP(x)

10 Дифференциальный вариант критерия Джини 2006 г. [4] J P(x) - p(x) - dx -L

Из данных таблицы №1 видно, что работа по созданию различных статистических критериев продолжается уже более 100 лет. Создано большое число статистических критериев, которые дополняют друг друга. Однако работу по созданию многообразия критериев нельзя считать законченной.

Численный эксперимент по оценке мощности существующих и новых статистических критериев

К сожалению, хи-квадрат критерий для надежных оценок с доверительной вероятностью 0.99 требует иметь тестовую выборку порядка 4 00 опытов. Для биометрии это неприемлемо, так как обучение и тестирования нейросетевых преобразователей биометрия-код идет на выборках примерно из 20 примеров. Требования к размеру тестовой выборки может быть снижено, если использовать более эффективные статистические критерии (лучше, чем другие известные критерии). В связи с этим актуальной задачей является дополнение уже найденных критериев новыми.

Следует подчеркнуть, что хи-квадрат критерий (строка 1, табл. № 1) можно рассматривать как

критерий нормированного среднего арифметического квадратов отклонения. Наряду с критерием среднего арифметического может быть построен критерий среднего геометрического сравниваемых

между собой функций вероятности:

_

Sg = ¡^Р(х) ■ (1 - Р(х)) ■ ах (1),

—ад

где Р(х) - теоретическая функция вероятности,

Р (х) - практически полученная функция изменения вероятности.

При организации численного эксперимента исходим из того, что должны проверяться две статистические гипотезы. Первая гипотеза состоит в том, что данные тестовой выборки имеют нормальный закон распределения значений. Вторая гипотеза состоит в том, что данные этой же выборки могут иметь нормальный закон распределения значений. Как следствие, при организации численного эксперимента необходимо использовать два

программных генератора псевдо случайных данных, как это показано на блок-схеме рисунка 1. Нормальный

Квант

Автомат случайного переключения

J г «1»

«0»

Порог

срабатывания

проверке гипотезы нормальности законно распределения биометрических данных удается примерно в 2 раза снизить вероятности ошибок первого и второго рода. Данные о равных вероятностях ошибок первого и второго рода приведены в таблице 2

Равномерный

Рисунок 1 - Блок-схема организации численного эксперимента по оценке мощности одномерного критерия хи-квадрат

Каждый из генераторов случайных данных Г1 (нормальные данные) и Г2 (данные с равномерным законом распределения) случайным образом подаются на вход вычислителя значения хи-квадрат критерия (1). Далее значения хи-квадрат критерия должны сравниваться с некоторым порогом квантователя. Если значение хи-квадрат менее порога, то принимается решение о нормальности исследуемых входных данных. Если значение хи-квадрат критерия (1) оказывается выше или ниже порога, то принимается решение о наибольшей справедливости одной из гипотез. Проведенный численный эксперимент показал, что новый критерий среднего геометрического на выборках от 25 до 4 9 опытов оказывается примерно в два раза мощнее классического хи-квадрат критерия. При

Значения равных вероятностей ошибок первого и _и гипотезы равномерного

0.2

0.1

25 опытов

Нормальное распределение

V

Равномерное

распределение

/

0.1 0.15 0.2 0.25 0.3 0.35

Равномерное

распределение

/

Рисунок 2 - Плотности распределения значений

для нормального и равномерного законов распределения значений для критерия среднего геометрического значения второго рода при проверке гипотезы нормального закона распределения значений_Таблица 2

Число опытов в тестовой выборке

9 | 16 | 25 | 36 | 49 | 64 | 81 | 100 | 121

Значения равновероятных ошибок Р1=Р2=РЕЕ

Критерий Джини 1941 г. 0. 50 0.497 0.482 0.417 0.348 0.269 0.225 0.205 0.186

Критерий Смирнова- Колмагорова 1933 г. 0.46 0.44 0.345 0 .315 0.239 0.232 0.215 0.201 0.177

Критерий Фроци-ни 1978 г. 0.439 0.38 0.325 0.268 0.212 0.172 0.154 0.107 0.089

Хи-квадрат критерий Пирсона 1900 г. 0 .42 0.32 0.29 0.256 0.207 0.153 0.131 0. 101 0.083

Среднее геомет-ричес-кое 2015 г. 0.414 0.331 0.238 0.166 0.113 0.058 0.034 0.017 0.012

Критерий Крамера-фон Мезиса 1928 г. 0.356 0.306 0.240 0.215 0.155 0.121 0.102 0.082 0.061

Дифф. критерий Джини 2006 г. 0.281 0.202 0.162 0.101 0.07 0.05 0.03 0.02 0.01

Очевидно, что статистики среднего геометрического и среднего арифметического взаимно дополняют друг друга. В этом отношении новый критерий (1), видимо будет еще более эффективным, если его рассматривать в совокупности с хи-квадрат критерием (би-критериальная оценка достоверности).

Заключение

Предположительно в ближайшем будущем будут использоваться мультикритериальные статистические оценки, когда при проверке одной или нескольких статистических гипотез будут использоваться два и более критерия. Выбор совокупности статистических критериев должен исходить из условия их существенной независимости (слабой коррелированности). Чем слабее будут связаны

статистические критерии, используемые в паре, тем эффективнее будет их совместная работа. То есть необходимо не только расширять номенклатуру статистических критериев, но подбирать из них наиболее эффективные группы (пары, тройки, четверки...). Простой оценки мощности статистических критериев (таблица 2) недостаточно. Необходимо инициировать работы по исследованию совместимости статистических критерием и поиску оптимальных правил их объединения.

Формальной оценкой коррелированности критериев является их испытание по блок схеме рисунка 1 при одинаковых порогах заданной достоверности и при воздействии одной и той же выборкой случайных данных. Тогда коэффициент коррелиро-

Г '

где Ь - расстояние Хэмминга между сравниваемыми кодами длиной - п, —к - расстояние Хэмминга между кодами, один из которых инвертирован.

ванности выходных кодов можно оценить по норми рованному расстоянию Хэмминга между ними: к —к

- +

2 • п 2 • п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(2),

ЛИТЕРАТУРА

1. Р 50.1.037-2002 Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2. Госстандарт России. Москва. -2001. - 140 с.

2. Р 50.1.037-2002 Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. Госстандарт России. Москва. -2002. - 123 с.

3. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ. -2006. -816 с.

4. Малыгин, А.Ю. Быстрые алгоритмы тестирования нейросетевых механизмов биометрико-криптографической защиты информации / А.Ю. Малыгин, В.И. Волчихин, А.И. Иванов, В.А. Фунтиков. -Пенза: Изд-во Пенз. гос. ун-та. - 2006. -161 с.

УДК: 519.2; 519.6.

Ахметов1Б.Б., Иванов2А.И., Матгин3А.Ю., Безяев4А.В., ГазиН5 А.И.

Международный Казахско-Турецкий университет им. Х.А. Ясави, Туркестан, Казахстан 2ОАО «Пензенский научно-исследовательский электротехнический институт», Пенза, Россия 3ФГБОУ ВПО «Пензенский государственный университет», Пенза, Россия 4ФГУП «НТЦ «Атлас», Пенза, Россия

5ФГБОУ ВПО «Липецкий государственный педагогический университет», Липецк Россия

БЫСТРЫЙ АЛГОРИТМ ОЦЕНКИ ВЫСОКОРАЗМЕРНОЙ ЭНТРОПИИ БИОМЕТРИЧЕСКИХ ОБРАЗОВ НА МАЛЫХ ВЫБОРКАХ

ВВЕДЕНИЕ

Рассмотрим задачу измерения энтропии некоторого текста на русском языке закодированном в стандартной кодировке 92 символов клавиатуры в двух регистрах (КОИ-8). В этом случае энтропия одиночного символа текста составит: 92

Н(" X") Р(" х,. ") • 1о§2 (Р(" X,. ")) (1), 1=1

где " х," - 8 битная кодировка 1-го символа, Р(" х,") - вероятность появления 1-го символа в тексте.

Очевидно, что для достаточно надежных оценок энтропии одного символа (1) достаточно одной страницы текста на русском языке (2000 символов на страницу). Для оценки энтропии двух рядом стоящих символов русскоязычного текста затраты ресурсов растут: 92 92

Н("XI,Х2 ") » -££Р("хи,Х2,,. ") • ^2(Р("хи,х^ ")) (2), .=1 1=1

16 битная кодировка пары симво-

вероятность появления пары

где Х[, Х2

лов, Р(" хи,х2,..") -

рядом стоящих символов в исследуемом тексте.

Для вычислений пары рядом стоящих символов нам потребуется уже не менее десятка страниц русскоязычного текста. Наблюдается экспоненциальный рост вычислительных затрат и размеров необходимого для расчетов текста. Идти по пути Шеннона при ожидании редких событий оценке многомерной энтропии весьма и весьма затратно. Необходимо создавать новые более эффективные в вычислительном отношении алгоритмы, позволяющие оценивать энтропию зависимых кодов длинной порядка 25 6 бит [1, 2] и выше.

Переход в пространство расстояний Хэмминга

Известно, что переход к любой иной кодировке текста не приводят к изменению энтропии, если кодировка однозначна. Перейдем от обычной кодировки знаков русского языка к кодам расстояний Хэмминга между ними:

к(" х ","с") = £ (" X,.") Ф ("с,. ")

(3)

Если речь будет идти о парах знаков, то расстояние Хэмминга будет вычисляться путем сравнения более длинных кодов:

16

к(" х1, х2","С1, С2") = Х (" X") ® ("с") (4Ь

,=1

где "х" - 16-ти битный код, образованный конкатенацией двух 8-ми битных кодов "х,х2" знаков кириллицы.

В случае, если мы будем сравнивать последовательности из 32 символов русскоязычного текста при вычислении расстояний Хэмминга придется сравнивать 256 разрядные коды:

256

к("х1,х2,...,х32","с1,с2,...,с32 ") = ^("X")Ф("с,") (5).

,=1

Заметим, что для вычисления 2000 расстояний Хэмминга последовательности из 32 символов достаточно всего 1 страницы текста на русском языке. Преимущество перехода в пространство расстояний Хэмминга состоит в резком снижении требованиях к размерам тестовой выборки.

При оценках энтропии русскоязычных текстов для коротких последовательностей знаков по Шеннону и по Хэммингу значения расходятся. В этом случае, число состояний кодов различны и разными оказываются их статистические характеристики. Однако по мере роста длины исследуемых кодовых последовательностей наблюдается нормализация распределений расстояний Хэмминга и снижение методической погрешности оценки энтропии в разных системах отсчета. При этом распределения расстояний Хэмминга для «белого шума» и для русскоязычного текста существенно отличаются (рисунок 1).

р(11) \ "Б6 лый шум" У

Текст на русском г

У к! 11

О 50 100 150 200 350

Рисунок I - Распределение расстояний Хэмминга для «белого шума» и для 32 рядом стоящих символов осмысленного русскоязычного текста

Экономичный способ оценки энтропии «белого шума» и осмысленных парольных фраз на русском языке

Из рисунка 1 видно, что распределение расстояний Хэмминга для длинных последовательностей знаков хорошо описываются нормальным законом распределения значений. Это означает, что мы можем предсказать стойкость к атакам подбора случайной последовательности (64 бит «белого шума») и такой же осмысленной не случайной последовательности фрагмента русскоязычного текста. Для этого нам потребуется вычислить математическое ожидание - Е(Ь) и стандартное отклонение - а(Ь) двух нормальных распределений.

,=1

i Надоели баннеры? Вы всегда можете отключить рекламу.