Научная статья на тему 'Быстрый алгоритм оценки высокоразмерной энтропии биометрических образов на малых выборках'

Быстрый алгоритм оценки высокоразмерной энтропии биометрических образов на малых выборках Текст научной статьи по специальности «Математика»

CC BY
196
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Ахметов Б.Б., Иванов А.И., Малыгин А.Ю., Безяев А.В., Газин А.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Быстрый алгоритм оценки высокоразмерной энтропии биометрических образов на малых выборках»

Министерство образования и науки РФ

Правительство Пензенской области Академия информатизации образования Академия проблем качества РФ Российская академия космонавтики им. К.Э.Циолковского Российская инженерная академия Вычислительный центр РАН им. А.А.Дородницына Институт испытаний и сертификации ВВТ ОАО «Радиотехнический институт имени академика А.Л.Минца» ОАО «УПКБ ДЕТАЛЬ», ОАО «РУБИН» ОАО «НИИФИ», ОАО «ПНИЭИ», ФГУП ФНПЦ «ПО СТАРТ», НИКИРЭТ, ЗАО «НИИФИиВТ» ОАО «ППО ЭЛЕКТРОПРИБОР», ОАО «РАДИОЗАВОД» Пензенский филиал ФГУП НТЦ «АТЛАС» ОАО «ТЕХПРОММАШ», МИЭМ НИУ ВШЭ, Евразийский Национальный университет им. Л.Н. Гумилева Сургутский институт мировой экономики и бизнеса «ПЛАНЕТА» Пензенский государственный университет

АадижУ{%шсж

ТРУДЫ

МЕЖДУНАРОДНОГО СИМПОЗИУМА

НАДЕЖНОСТЬ И КАЧЕСТВО

II то^

ПЕНЗА 2015

УДК 621.396.6:621.315.616.97:658:562 Т78

Труды Международного симпозиума «НАДЕЖНОСТЬ И КАЧЕСТВО»:

T78 в 2 т. - Пенза : ПГУ, 2015. - 2 том - 384 с.

ISBN 978-94170-818-5(т.1) ISBN 978-94170-818-8

В сборник трудов включены доклады юбилейного ХХ-го Международного симпозиума «Надежность и качество», проходившего с 25 по 31 мая 2015 г. в городе Пензе.

Рассмотрены актуальные проблемы теории и практики повышения надежности и качества; эффективности внедрения инновационных и информационных технологий в фундаментальных научных и прикладных исследованиях, образовательных и коммуникативных системах и средах, экономике и юриспруденции; методов и средств анализа и прогнозирования показателей надежности и качества приборов, устройств и систем, а также анализа непараметрических моделей и оценки остаточного ресурса изделий двойного назначения; ресурсосбережения; проектирования интеллектуальных экспертных и диагностических систем; систем управления и связи; интерактивных, телекоммуникационных сетей и сервисных систем; экологического мониторинга и контроля состояния окружающей среды и биологических объектов; исследования физико-технологических процессов в науке, технике и технологиях для повышения качества выпускаемых изделий радиопромышленности, приборостроения, аэрокосмического и топливно-энергетического комплексов, электроники и вычислительной техники и др.

Оргкомитет благодарит за поддержку в организации и проведении Международного симпозиума и издании настоящих трудов Министерство образования и науки РФ, Правительство Пензенской области, Академию проблем качества РФ, Российскую академию космонавтики им. К. Э. Циолковского, Российскую инженерную академию, Академию информатизации образования, Вычислительный центр РАН им. А. А. Дородницына, Институт испытаний и сертификации ВВТ, ОАО «Радиотехнический институт имени академика А.Л. Минца», ОАО «УПКБ ДЕТАЛЬ», ОАО «НИИФИ», ФГУП «ПНИЭИ», ОАО «РУБИН», ОАО «РАДИОЗАВОД», ОАО «ППО ЭЛЕКТРИПРИБОР», ФГУП «ПО «СТАРТ», НИКИРЭТ - филиал ФГУП «ПО «СТАРТ», Пензенский филиал ФГУП НТЦ «АТЛАС», ОАО «ТЕХПРОММАШ», МИЭМ НИУ ВШЭ, Евразийский Национальный университет им. Л.Н. Гумилева, Сургутский институт мировой экономики и бизнеса «ПЛАНЕТА»,Пензенский государственный университет.

Сборник статей зарегистрирован в Российском индексе научного цитирования (РИНЦ) с 2005 г.

Р е д а к ц и о н н а я к о л л е г и я :

Юрков Н. К. - главный редактор Трусов В. А. - ответственный секретарь Баннов В. Я. - ученый секретарь Волчихин В. И., Абрамов О. В., Авакян А. А., Дивеев А.И., Иофин А. А., Каштанов В. А., Майстер В. А., Острейковский В.А., Петров Б. М., Писарев В. Н., Роберт И. В., Романенко Ю. А., Северцев Н. А., Садыков С. С., Садыхов Г. С., Увайсов С. У.

ISBN 978-94170-818-5(т.1) ISBN 978-94170-818-8

© Оргкомитет симпозиума, 2015 © ФГБОУ ВПО «Пензенский государственный университет», 2015

Г '

где Ь - расстояние Хэмминга между сравниваемыми кодами длиной - п, —к - расстояние Хэмминга между кодами, один из которых инвертирован.

ванности выходных кодов можно оценить по норми рованному расстоянию Хэмминга между ними: к —к

- +

2 • п 2 • п

(2),

ЛИТЕРАТУРА

1. Р 50.1.037-2002 Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2. Госстандарт России. Москва. -2001. - 140 с.

2. Р 50.1.037-2002 Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. Госстандарт России. Москва. -2002. - 123 с.

3. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ. -2006. -816 с.

4. Малыгин, А.Ю. Быстрые алгоритмы тестирования нейросетевых механизмов биометрико-криптографической защиты информации / А.Ю. Малыгин, В.И. Волчихин, А.И. Иванов, В.А. Фунтиков. -Пенза: Изд-во Пенз. гос. ун-та. - 2006. -161 с.

УДК: 519.2; 519.6.

Ахметов1Б.Б., Иванов2А.И., Матгин3А.Ю., Безяев4А.В., ГазиН5 А.И.

Международный Казахско-Турецкий университет им. Х.А. Ясави, Туркестан, Казахстан 2ОАО «Пензенский научно-исследовательский электротехнический институт», Пенза, Россия 3ФГБОУ ВПО «Пензенский государственный университет», Пенза, Россия 4ФГУП «НТЦ «Атлас», Пенза, Россия

5ФГБОУ ВПО «Липецкий государственный педагогический университет», Липецк Россия

БЫСТРЫЙ АЛГОРИТМ ОЦЕНКИ ВЫСОКОРАЗМЕРНОЙ ЭНТРОПИИ БИОМЕТРИЧЕСКИХ ОБРАЗОВ НА МАЛЫХ ВЫБОРКАХ

ВВЕДЕНИЕ

Рассмотрим задачу измерения энтропии некоторого текста на русском языке закодированном в стандартной кодировке 92 символов клавиатуры в двух регистрах (КОИ-8). В этом случае энтропия одиночного символа текста составит: 92

Н(" X") Р(" х,. ") • 1о§2 (Р(" X,. ")) (1), 1=1

где " х," - 8 битная кодировка 1-го символа, Р(" х,") - вероятность появления 1-го символа в тексте.

Очевидно, что для достаточно надежных оценок энтропии одного символа (1) достаточно одной страницы текста на русском языке (2000 символов на страницу). Для оценки энтропии двух рядом стоящих символов русскоязычного текста затраты ресурсов растут: 92 92

Н("XI,Х2 ") » -££Р("хи,Х2,,. ") • ^2(Р("хи,х^ ")) (2), .=1 1=1

16 битная кодировка пары симво-

вероятность появления пары

где Х[, Х2

лов, Р(" хи,х2,..") -

рядом стоящих символов в исследуемом тексте.

Для вычислений пары рядом стоящих символов нам потребуется уже не менее десятка страниц русскоязычного текста. Наблюдается экспоненциальный рост вычислительных затрат и размеров необходимого для расчетов текста. Идти по пути Шеннона при ожидании редких событий оценке многомерной энтропии весьма и весьма затратно. Необходимо создавать новые более эффективные в вычислительном отношении алгоритмы, позволяющие оценивать энтропию зависимых кодов длинной порядка 25 6 бит [1, 2] и выше.

Переход в пространство расстояний Хэмминга

Известно, что переход к любой иной кодировке текста не приводят к изменению энтропии, если кодировка однозначна. Перейдем от обычной кодировки знаков русского языка к кодам расстояний Хэмминга между ними:

к(" х ","с") = £ (" X,.") Ф ("с,. ")

(3)

Если речь будет идти о парах знаков, то расстояние Хэмминга будет вычисляться путем сравнения более длинных кодов:

16

к(" х1, х2","С1, С2") = Х (" X") ® ("с") (4Ь

,=1

где "х" - 16-ти битный код, образованный конкатенацией двух 8-ми битных кодов "х,х2" знаков кириллицы.

В случае, если мы будем сравнивать последовательности из 32 символов русскоязычного текста при вычислении расстояний Хэмминга придется сравнивать 256 разрядные коды:

256

к("х1,х2,...,х32","с1,с2,...,с32 ") = ^("X")Ф("с,") (5).

,=1

Заметим, что для вычисления 2000 расстояний Хэмминга последовательности из 32 символов достаточно всего 1 страницы текста на русском языке. Преимущество перехода в пространство расстояний Хэмминга состоит в резком снижении требованиях к размерам тестовой выборки.

При оценках энтропии русскоязычных текстов для коротких последовательностей знаков по Шеннону и по Хэммингу значения расходятся. В этом случае, число состояний кодов различны и разными оказываются их статистические характеристики. Однако по мере роста длины исследуемых кодовых последовательностей наблюдается нормализация распределений расстояний Хэмминга и снижение методической погрешности оценки энтропии в разных системах отсчета. При этом распределения расстояний Хэмминга для «белого шума» и для русскоязычного текста существенно отличаются (рисунок 1).

р(11) \ "Б6 лый шум" У

Текст на русском г

У к! 11

О 50 100 150 200 350

Рисунок I - Распределение расстояний Хэмминга для «белого шума» и для 32 рядом стоящих символов осмысленного русскоязычного текста

Экономичный способ оценки энтропии «белого шума» и осмысленных парольных фраз на русском языке

Из рисунка 1 видно, что распределение расстояний Хэмминга для длинных последовательностей знаков хорошо описываются нормальным законом распределения значений. Это означает, что мы можем предсказать стойкость к атакам подбора случайной последовательности (64 бит «белого шума») и такой же осмысленной не случайной последовательности фрагмента русскоязычного текста. Для этого нам потребуется вычислить математическое ожидание - Е(Ь) и стандартное отклонение - а(Ь) двух нормальных распределений.

,=1

Далее мы можем оценить вероятность подбора случайного и осмысленного пароля по следующей формуле:

д

■(й)л/2п{еХР { 2(о(И))2

-(Е(И) - и)2

¿и (2).

Вычисление вероятности осуществляется исходя из условия попадания расстояния Хэмминга в интервал от 0 до 1 (Ь=0). Далее энтропия кодовых последовательностей может быть оценена через логарифмирование:

Н("х1,х2,х3,...,х,2") к - 1о§2(Р2) (3).

Подобные оценки являются приближенными, так как не учитывают разницу между числом возможных состояний реальных данных и много меньшим числом состояний кодов Хэмминга. Именно по этой причине должна возникать некоторая методическая погрешность. Оценить эту методическую погрешность проще всего на «белом шуме». Для «белого шума» Е(Ь)=128, а о(Ь)=8.0. Подстановка этих данных дает значение энтропии:

Н(" х1, х2, х3,..., х32") = Н("Х1, Х2,Х3,..., Х256") к 187,1 бит (4)

В теории должна быть энтропия - 256 бит, оценка оказывается заниженной - 187,1 бита. Аддитивная ошибка составляет порядка 69 бит, ее можно скомпенсировать увеличив оценку в 1.27 раза.

Для осмысленной парольной фразы (распределение расстояний Хэмминга на рисунке 1 дано пунктиром) оценка энтропии, выполненная в соответствии с (2) и (3) дает значение 23,2 бита. Для учета методической ошибки занижения оценки необходимо эту величину умножить на 1.27, в итоге имеет оценку в 2 9.5 бита.

Получается, что оценка энтропии длинных слабо коррелированных кодов может быть осуществлена на небольшой тестовой выборке [3] в силу того, что распределение расстояний Хэмминга хорошо описывается нормальным законом.

Оценка энтропии сильно коррелированных длинных кодов

Преобразователи биометрия-код могут быть выполнены по разным технологиям. Например, может быть использована технология, так называемых «нечетких экстракторов» [4, 5, 6, 7, 8, 9]. Эта технология сводится к тому, что из биометрического образа извлекаются сотни контролируемых биометрических параметров. Далее каждый из биометрических параметров подается на квантователь, дающий два выходных состояния «0» или «1». В итоге получается био-код, который как правило содержит порядка 30% ошибок, если на «нечеткий экстрактор» подавать примеры образа «Свой». Для того, чтобы био-код сделать однозначным его наиболее нестабильные разряды маскируют, далее используют какой-либо избыточный код, способный обнаруживать и исправлять ошибки.

Для «нечетких экстракторов» основной проблемой является проблема доступности процедуры аутентификации. Из-за относительно низкой исправляющей способности классических самокорректирующихся кодов часто возникают ошибки нескольких разрядах в био-кода аутентификации.

Аналогичная ситуация возникает и при использовании нейросетевых преобразователей биометрия-код [1, 2, 3]. Искусственная нейронная сеть такого преобразователя обучается на конечно числе примеров образа «Свой». Как следствие, при аутентификации возникают ошибки отказа в доступе с вероятностью - Рц.

При тестировании преобразователей биометрия-код, созданных по любой технологии, возникает необходимость оценки вероятности ошибок первого рода - Рц. Если оцениваемая вероятность велика (0.1 и выше), технологических проблем не возникает. Достаточно использовать порядка 20 примеров образа «Свой», получить один или два отказа в доступе и рассчитать вероятность ошибок.

Положение резко меняется, когда требуется оценивать вероятность ошибок первого рода на

уровне 0.001 и ниже. В этом случае требуется выборка из 2000 примеров образа «Свой». От пользователя средства биометрической аутентификации при тестировании требуются значительные усилия, что снижает эргономические качества биометрической технологии. В связи с этим возникает задача снижения размеров тестовой выборки примеров образа «Свой» при тестировании.

Для решения этой задачи, воспользуемся переходом в пространство расстояний Хэмминга (3). Для определенности будем считать, что имеется выборка из 20 примеров биометрического образа «Свой», которая дала 17 примеров с нужным кодом длинной 256 разрядов (Ь=0), 2 примера с ошибкой в 1 разряде (Ь=1), один пример с ошибками в 3 разрядах (Ь=3). Соответственно математическое ожидание расстояний Хэмминга составит Е(Ь)=0.25, стандартное отклонение составит о (Ь)=0.698.

Проведенные ранее исследования [2, 3] показали, что расстояния Хэмминга выходных кодов идеальных преобразователей хорошо описывается биномиальным законом распределения значений:

р( И) =

И!(п - И)!

.рИ • (1 - р)п-И (5),

где Р - средняя вероятность появления одного и того же состояния в каждом из - п разрядов биокода.

Для идеального преобразователя биометрия-код

Р=0.5, если разряды био-кодов образов «Чужие» слабо коррелированны, плотность распределения нормальная. В случае, если мы имеем дело с кодами «Свой», параметр Iе »0.999... В этом случае биномиальный закон дает выброс плотности распределения в близи точки Ь=0.0. Из теории известно [7], что в этом случае биномиальный закон (5) хорошо приближается хи-квадрат распределением:

р(И) = -

1 {-и

г|Г'И1 ехр1т> (6)'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где т - число степеней свободы хи-квадрат распределения, Г(.) - гамма функция.

Случае целого числа степеней свободы т = 1, 2, 3, .... хорошо исследован [10], однако этот тип распределения плохо описывает распределения расстояний Хэмминга кодов «Свой». Для биометрических данных [11] число степеней свободы всегда оказывается не целым (фрактальным). При этом чем более коррелированными являются разряды кодов, тем меньше показатель числа степеней свободы.

Для био-кодов на выходе «нечетких экстракторов» до коррекции т = Е(Ь)> 5. Если тот же показатель вычислять после корректировки ошибок, то т = Е(Ь)> 0.5. В нашем случае тестирования нейросетевого преобразователя т=Е(Ь)=0.25. Однако верить этому значению числа степеней свободы нельзя из-за малого размера тестовой выборки.

Проблема состоит в том, что для применения хи-квадрат распределения (6) одновременно должно выполняться два условия:

т = Б(И)

= 2 • т

Если мы принимает т=Е(Ь)=0.25, то о(Ь)=0.5, тогда как стандартное отклонение оказывается выше -0.698. Подобное расхождение будем считать ошибкой, обусловленной конечной обучающей выборкой. Для его компенсации следует найти расхождение дисперсии Ао(Ь)=0.198 и компенсировать его увеличением показателя числа степеней свободы на Ат. В нашем случае следует увеличить число степеней свободы до 0.35:

(7)

m « E(h)+

Дст(А)

(8)

После подобной коррекции оценки числа степе-

ней свободы вероятность ошибок оценивается следующим образом:

1

первого рода

P

1

22 • Г

J h

-h

exp i^r dh

(9)

В нашем случае расчеты по формуле (9) дают Р1=0.105. Если бы мы пользовались обычным алгоритмом оценки вероятности, то получили бы Р1=3/20=0.15. То есть использование априорной информации и более сложных вычислений дает возможность снизить примерно на треть размер тестовой выборки. Выигрыш по размерам тестовой выборки от применения более сложных вычислений (7), (8), (9) быстро увеличивается по мере ужесточения требований к вероятности ошибок первого рода. При необходимости оценить энтропию кодов «Свой» следует применить выражение (3), заменив в нем вероятность ошибок второго рода на вероятность ошибок первого рода.

Переход от наблюдения длинных биометрических кодов «Чужой» и кодов «Свой» в пространство расстояний Хэмминга дает значительный выигрыш по требованиям к тестовой выборке. Наибольший выигрыш получается при слабо коррелированных кодах. Однако этот выигрыш сохраняется и при сильно коррелированных кодах. Видимо полностью независимые коды (типа «белый шум») и полностью зависимые коды дают локальные максимумы выигрыша в размерах тестовой выборки.

Предположительно, что в будущем ряд биометрических приложений придется создавать исходя из условия равных значений вероятностей ошибок первого и второго рода РЕЕ=Р1=Р2. В этом случае сложности оценки почти нулевой энтропии кодов «Свой» и предельно высокой энтропии кодов «все Чужие» оказываются сопоставимы. И в том и в другом случае прямые оценки вероятностей появления редких событий осуществлять не целесообразно. Гораздо более целесообразным является переход в пространство расстояний Хэмминга и учет априорной информации о законе распределения данных для примеров образа «Свой» и примеров разных образов «Чужие».

ЛИТЕРАТУРА

1. Ахметов Б.С., Иванов А.И., Фунтиков В.А., Безяев А.В., Малыгина Е.А. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа. Монография, Казахстан, г. Алматы, ТОО «Издательство LEM», 2014 г. -144 c., находится в открытом доступе (http://portal.kazntu.kz/files/publicate/2 014-06-27-11940.pdf)

2. Ахметов Б.С., Волчихин В.И., Иванов А.И., Малыгин А.Ю. Алгоритмы тестирования биометрико-нейросетевых механизмов защиты информации Казахстан, Алматы, КазНТУ им. Сатпаева, 2013 г.- 152 с. ISBN 978-101-228-586-4, http://portal.kazntu.kz/files/publicate/2 014-01-0 4-1194 0.pdf

3. Ахметов Б.С., Надеев Д.Н., Фунтиков В.А., Иванов А.И., Малыгин А.Ю. Оценка рисков высоконадежной биометрии. Монография. Алматы: Из-во КазНТУ им. К.И. Сатпаева, 2014 г.- 108 с.

4. Juels A., Wattenberg M. A Fuzzy Commitment Scheme // Proc. ACM Conf. Computer and Communications Security, 1999, p. 28-36

5. F. Monrose, M. Reiter, Q. Li, S. Wetzel. Cryptographic key generation from voice. In Proc. IEEE Symp. on Security and Privacy, 2001.

6. Y. Dodis, L. Reyzin, A. Smith Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy, Data April 13, In EUROCRYPT, pages 523-540, 2004.

7. Ramirez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Cryptographic Keys Generation Using FingerCodes. //Advances in Artificial Intelligence - IBERAMIA-SBIA 2006 (LNCS 4140), p. 178-187, 2006

8. Feng Hao, Ross Anderson, and John Daugman. Crypto with Biometrics Effectively, IEEE TRANSACTIONS ON COMPUTERS, VOL. 55, NO. 9, SEPTEMBER 200 6.

9. Чморра А.Л. Маскировка ключа с помощью биометрии «Проблемы передачи информации» 2011 № 2(47) с. 128-143.

10. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006 г., 816 с.

11. Безяев А.В., Иванов А.И., Фунтикова Ю.В. Оптимизация структуры самокорректирующегося биокода, хранящего синдромы ошибок в виде фрагментов хеш-функций. «Вестник Уральского федерального округа. Безопасность в информационной сфере» 2014 г. № 3(13) с. 4-14.

УДК 681.32 2

Ахметов1 Б.С. г МукапиЛ КСерикова2 Н.И. г ВятчаниН С.Е., Никитченко2 Ю.И.

1Казахский национальный технический университет имени К.И. Сатпаева, Алматы, Казахстан 2ФГБОУ ВПО «Пензенский государственный университет», Пенза, Россия

ИСПОЛЬЗОВАНИЕ МНОЖЕСТВА ПОДОБНЫХ КРИТЕРИЕВ ДЛЯ СЛУЧАЙНОГО ВЫБОРА КОНТРОЛИРУЕМЫХ ПАРАМЕТРОВ ПРИ МНОГОМЕРНОМ СТАТИСТИЧЕСКОМ АНАЛИЗЕ МАЛОЙ ВЫБОРКИ БИОМЕТРИЧЕСКИХ ДАННЫХ

Введение. Одним из наиболее популярных при статистическом анализе данных является критерий Пирсона. В частности только хи-квадрат критерию Пирсона полностью посвящена первая часть рекомендаций Госстандарта [1], тогда как все остальные критерии описаны во второй части рекомендаций [2]. Подробное описание критерия Пирсона в первой части рекомендаций Госстандарта [1], отражает факт высокой востребованности именно этого критерия промышленностью. Большинство методик статистического анализа экспериментальных данных построены на использовании хи-квадрат критерия:

\ 2

X

- n

I

(1),

,=1 Р1

где Ь - число опытов, попавших 1-тый интервал гистограммы, р1 - ожидаемая теоретическая вероятность попадания в 1-тый интервал гистограм-

мы, n - число опытов в тестовой выборке, k-число столбцов гистограммы.

Популярность использования хи-квадрат критерия Пирсона в промышленности во многом обусловлена тем, что при n^œ его распределение описывается через гамма функцию с m = k-1 числом степеней свободы:

p 2 (n = œ, m = k -1, x) = -

1

m i - x

у 2 . n 2

22

m

(2)

Аналитическое описание (2) получено Пирсоном в 1904 году и играло крайне важную роль в первой половине 20-го века, когда вычислительные возможности, используемые при статистической обработке данных были весьма и весьма ограниченными.

Следует подчеркнуть, что наличие аналитического описания хи-квадрат критерия Пирсона сделало этот критерий наиболее популярным как сре-

i Надоели баннеры? Вы всегда можете отключить рекламу.