Компенсация методических погрешностей вычисления стандартных отклонений и коэффициентов корреляции, возникающих из-за малого объема выборок

Волчихин Владимир Иванович; Иванов Александр Иванович; Серикова Юлия Игоревна

УДК 519.7; 519.66; 57.087.1, 612.087.1

В. И. Волчихин, А. И. Иванов, Ю. И. Серикова

КОМПЕНСАЦИЯ МЕТОДИЧЕСКИХ ПОГРЕШНОСТЕЙ

ВЫЧИСЛЕНИЯ СТАНДАРТНЫХ ОТКЛОНЕНИЙ И КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ, ВОЗНИКАЮЩИХ ИЗ-ЗА МАЛОГО ОБЪЕМА ВЫБОРОК

Аннотация.

Актуальность и цели. Совершенствованию алгоритмов обучения искусственных нейронных сетей преобразователей биометрия-код доступа мешают методические ошибки, возникающие из-за малого числа примеров в обучающей выборке. Так, при выборках в трех примера методическая ошибка вычисления стандартного отклонения составляет 23 % и должна быть скомпенсирована.

Материалы и методы. Предложено воспользоваться средствами имитационного моделирования и численно получить плотность распределения значений стандартного отклонения как функцию числа примеров в обучающей (тестовой) выборке. Дана таблица значений мультипликативной методической ошибки вычислений стандартных отклонений.

Результаты и выводы. Скорректированы классические формулы вычисления стандартного отклонения и коэффициента корреляции с учетом компенсации их методических ошибок из-за малого числа примеров в тестовой выборке. Приведен график реальных данных о методической ошибке и график ее аналитического приближения гиперболой.

Ключевые слова: методическая ошибка, вычисление стандартного отклонения на малых выборках, обработка биометрических данных.

V. I. Volchikhin, A. I. Ivanov, Yu. I. Serikova

COMPENSATION OF METHODOLOGICAL ERRORS IN CALCULATIONS OF STANDARD DEVIATIONS AND CORRELATION COEFFICIENTS OCCURING DUE TO SMALL SAMPLE SIZES

Abstract.

Background. Enhancement of training algorithms for nearla networks of "biometrics-access code" converters is hindered by methodological errors occurring due to a small number of examples in training samples. Thus, in samples with 3 examples a methodological error of standard deviation calculation is 23% and should be compensated.

Materials and methods. The article suggests to use imitation modeling means and to numerically obtain a density of standard deviation values distributin as a function of a number of examples in a training (test) sample. The work includes a table of values of multiplicative methodological errors of standard deviation calculations.

Results and conclusions. The authors have corrected the classical formulas for calculation of standard deviation and correlation coefficient taking into account compensation of methodological errors thereof due to a small number of examples in a test sample. The work displays a graph of real data on methodlogical errors and a graph of their analytical approximation by hyperbola.

Key workds: methodological error, calculation of standard deviation on small samples, biometric data processing.

В настоящее время активно идут процессы информатизации современного общества. Проявилась необходимость в создании программируемых автоматов, способных безошибочно узнавать своего хозяина и автоматически обучаться на малом числе примеров биометрического образа человека-хозяина. За рубежом для этой цели используют так называемые «нечеткие экстракторы» [1-4]. В России эти же задачи решаются с использованием искусственных нейронных сетей [5, 6]. Нейросетевые преобразователи биометрии в код доступа почти во всех отношениях оказываются лучше «нечетких экстракторов». Единственный показатель, по которому «нечеткие экстракторы» превосходят нейронные сети, - это объем обучающей выборки. Так, при обучении нейросетевого преобразователя алгоритмом ГОСТ Р 52633.5-2011 [7] требуется от 15 до 20 примеров биометрического образа «Свой». При этом стандартный алгоритм [7] построен на вычислении математических ожиданий биометрических параметров и их стандартных отклонений:

где п - число примеров в обучающей выборке, на практике принимающее значение от 15 до 20.

К сожалению, вычислительные процедуры (1) оказываются чувствительными к размеру используемой выборки. Однако могут быть созданы специальные процедуры регуляризации, уменьшающие величину ошибок вычисления, обусловленных малым размером обучающей (тестовой) выборки. Например, в работе [8] для снижения влияния малого размера выборки предложено использовать специальный цифровой фильтр, сглаживающий высоту ступенек гистограммы распределения (искусственно увеличивается число столбцов гистограммы и, как следствие, уменьшается амплитуда ее ступенек).

Еще одним направлением исследований является переход к многомерной статистической обработке биометрических данных [9]. Двадцать примеров при решении одномерной задачи дают объем информации много меньше в сравнении с 20 примерами 400 мерной задачи. Реальные биометрические данные сильно зависимы и имеют почти нормальные законы распределения. Именно это и позволяет снижать требования к размерам тестовых выборок при переходе к многомерным вычислениям [9].

Успехи в упомянутых выше двух направлениях исследований позволяют ожидать, что учет значительной априорной информации о законе распределения биометрических данных и априорной информации о размере тестовой выборки может быть использован для повышения точности вычислений обычных стандартных отклонений и обычных коэффициентов корреляции.

Постановка задачи

(1)

Численное моделирование влияния малых выборок на ошибку вычисления стандартных отклонений

Распределение биометрических данных близко к нормальному закону. В связи с этим мы можем оценить влияние малых тестовых выборок средствами имитационного моделирования. В частности, для того чтобы построить плотность распределения значений стандартного отклонения для тестовых выборок из трех примеров, достаточно воспользоваться программным генератором псевдослучайных чисел с нормальным законом распределения, единичной дисперсией, который дает последовательность векторов из трех компонент. Если далее повторить этот численный эксперимент 1 000 000 раз, то мы получим распределение, приведенное на рис. 1.

0.05

0.04

0.03

0.02

0.01

80 /

j \ 60

V40

iVliU ■Ml 1 c

\V1_—— 1 J 11 4NL-7

G

0.5 1 1.5

Рис. 1. Распределения значений стандартного отклонения при разных объемах тестовой выборки

Из рис. 1 видно, что для малых объемов тестовых выборок наблюдается значительная методическая погрешность оценки стандартного отклонения. Наиболее вероятные значения стандартного отклонения для разного числа опытов даны в табл. 1.

Таблица 1

Математическое ожидание стандартного отклонения

n 3 5 7 11 15 20 30 40 60 80

E (c(n)) 0,67 0,81 0,865 0,911 0,933 0,948 0,962 0,969 0,976 0,98

По данным численного моделирования, для выборок из трех примеров мультипликативная методическая ошибка вычислений составляет 23 %. С ростом числа примеров в тестовой выборке методическая ошибка падает и уже при 80 примерах она составляет 2 %. Тем не менее эта методическая ошибка оказывается существенной для реальных объемов тестовых (обучающих) выборок биометрических данных и должна быть скомпенсирована.

Аналитические распределения данных (рис. 1) хорошо описываются

X -нормированными функциями. При росте объема тестовой выборки про-

2

исходит нормализация нормированных X -распределений, однако на данный момент задача получения параметров этих функций не ставится. Для решения рассматриваемой задачи вполне достаточно приближения только математического ожидания этих распределений.

Компенсация методической ошибки вычисления стандартного отклонения

Так как при реализации численного эксперимента все исходные данные получены от программного генератора с единичного стандартного отклонения, мы можем определить мультипликативную методическую ошибку вычисления как разницу:

До( п) = 1 - Е (о( п)). (2)

Наиболее удобной формой компенсации методической погрешности (2) является ее приближение некоторой аналитической функции. Для того чтобы выбрать форму аналитического приближения методической ошибки и оценить точность этого приближения, на рис. 2 представлены графики, построенные по данным табл. 1.

Пунктиром на рис. 2 отображено приближение методической ошибки гиперболой:

До(п) - 0,003 + -1. (3)

п

Пользуясь приближением (2), мы можем скомпенсировать выявленную методическую ошибку:

«ч=Н+п } Iп-7 Ё(Е ) -" )2. (4)

Выражение (4) в сравнении с классическим способом вычисления стандартного отклонения позволяет снизить методическую ошибку примерно на два порядка для малых тестовых выборок, содержащих от 3 до 30 примеров биометрических данных. При этом вычисления усложнились незначительно.

Компенсация методической ошибки при вычислении коэффициентов корреляции

Следует отметить, что одним из путей улучшения нейросетевых преобразователей биометрия-код является совершенствование стандартного алго-

ритма обучения ГОСТ Р 52633.5-2011 [7]. Предположительно, следующее поколение устойчивых алгоритмов обучения сможет учитывать не только математическое ожидание и стандартное отклонение биометрических параметров, но их корреляционные связи. То есть при их реализации придется иметь дело с ошибками вычисления коэффициентов корреляции, обусловленными конечностью числа примеров в обучающей выборке.

Рис. 2. Зависимость значения методической ошибки (непрерывная линия) от объема тестовой выборки

Так как в классическую формулу вычисления коэффициентов корреляции входят значения стандартных отклонений, их методическая ошибка должна быть скорректирована. В конечном итоге получается следующая формула:

( ) 1 П №)-vu) • (E(V2) — v2,i) r{ vb v2) = - ^--

i=1

G(v1) • o(v2) • <{1,003 + -n

(5)

Следует подчеркнуть, что компенсируемые методические ошибки стандартного отклонения и коэффициентов корреляции имеют разные знаки. Методическая ошибка Аг(у1,У2,п), скомпенсированная (5), положительна (результат завышен), тогда как методическая ошибка стандартного отклонения (2) всегда отрицательна (результат занижен).

Примененный в данной работе метод имитационного моделирования универсален. Он может быть применен не только для оценки методических

ошибок при вычислении стандартных отклонений. Все то же самое может быть повторено для определения функции плотности распределения значений коэффициентов корреляции. И в этом случае мы сможем наблюдать соответствующие методические ошибки вычислений.

Полученные при численном моделировании распределения значений коэффициентов корреляции приведены на рис. 3.

Рис. 3. Распределения значений коэффициентов корреляции для выборок из 7, 9, 16, 21 примеров при двух заданных значениях коэффициентов корреляции г = 0 и г = 0,5 у программных генераторов случайных чисел

Проведенные исследования показали, что методическая ошибка вычисления коэффициентов корреляции полностью отсутствует для нулевого коэффициента корреляции программных генераторов. То есть центральные распределения (рис. 3) вообще не имеют рассматриваемой методической ошибки. Однако, если задать у программных генераторов коэффициент взаимной корреляции г = 0,5 (распределения в правой части рис. 3), то математическое ожидание вычисленных коэффициентов корреляции всегда оказывается больше, чем необходимо Е(г) = 0,5 + Аг(Аа). Устранить возникшую методическую ошибку удается только при использовании выражения (5).

Заключение

Таким образом, предложенные в работе формулы дают возможность практически полностью скомпенсировать методические ошибки стандартных отклонений и коэффициентов корреляции, возникающие из-за малого объема исходных биометрических данных. Предполагается, что более глубокий учет априорной информации о размерах исходной выборки биометрических данных позволит снизить допустимые размеры обучающих выборок до 20 % без ощутимого снижения качества решений, принимаемых искусственными нейронными сетями. Ожидается, что алгоритмы обучения больших искусственных нейронных сетей будут более интеллектуальными и окажутся спо-

собными учитывать гораздо больший объем априорной информации о биометрических образах человека.

Список литературы

1. Dodis, Y. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy / Y. Dodis, L. Reyzin, A. Smith // EUROCRYPT. - 2004, April 13. - P. 523540.

2. Monrose, F. Cryptographic key generation from voice / F. Monrose, M. Reiter, Q. Li, S. Wetzel // Proc. IEEE Symp. on Security and Privacy, 2001.

3. Rami'rez-Ruiz, J. Cryptographic Keys Generation Using FingerCodes / J. Ramirez-Ruiz, C. Pfeiffer, J. Nolazco-Flores // Advances in Artificial Intelligence -IBERAMIA-SBIA 2006 (LNCS 4140). - 2006. - P. 178-187.

4. Hao, F. Crypto with Biometrics Effectively / Feng Hao, Ross Anderson and John Daugman // IEEE TRANSACTIONS ON COMPUTERS. - 2006, September. -Vol. 55, № 9.

5. Волчихин, В. И. Быстрые алгоритмы обучения нейросетевых механизмов биометрико-криптографической защиты информации : моногр. / В. И. Волчихин, А. И. Иванов, В. А. Фунтиков. - Пенза : Изд-во ПГУ, 2005. - 273 с.

6. Волчихин, В. И. Перспективы использования искусственных нейронных сетей с многоуровневыми квантователями в технологии биометрико-нейросетевой аутентификации / В. И. Волчихин, А. И. Иванов, В. А. Фунтиков, Е. А. Малыгина // Известия высших учебных заведений. Поволжский регион. Технические науки. -2013. - № 4 (28). - С. 86-96.

7. ГОСТ Р 52633.5-2011. Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа. -М., 2011.

8. Серикова, Н. И. Биометрическая статистика: сглаживание гистограмм, построенных на малой обучающей выборке / Н. И. Серикова, А. И. Иванов, С. В. Качалин // Вестник СибГАУ. - 2014. - № 3 (55). - C. 146-150.

9. Волчихин, В. И. Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных / В. И. Вол-чихин, А. И. Иванов, Н. И. Серикова, Ю. В. Фунтикова // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2015. - № 2 (34). - С. 50-59.

References

1. Dodis Y., Reyzin L., Smith A. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy. EUROCRYPT. 2004, April 13, pp. 523-540.

2. Monrose F., Reiter M., Li Q., Wetzel S. Cryptographic key generation from voice. Proc. IEEE Symp. on Security and Privacy, 2001.

3. Ramirez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Cryptographic Keys Generation Using FingerCodes. Advances in Artificial Intelligence - IBERAMIA-SBIA 2006 (LNCS 4140). 2006, pp. 178-187.

4. Hao F., Anderson Ross and Daugman John Crypto with Biometrics Effectively. IEEE TRANSACTIONS ON COMPUTERS. 2006, September, vol. 55, no. 9.

5. Volchikhin V. I., Ivanov A. I., Funtikov V. A. Bystrye algoritmy obucheniya ney-rosetevykh mekhanizmov biometriko-kriptograficheskoy zashchity informatsii: monogr. [Fast training lagorithms for neural-network mechanisms of biometric-cryptographic data protection: monograph]. Penza: Izd-vo PGU, 2005, 273 p.

6. Volchikhin V. I., Ivanov A. I., Funtikov V. A., Malygina E. A. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki [University proceedings. Volga region. Engineering sciences]. 2013, no. 4 (28), pp. 86-96.

7. GOST R 52633.5-2011. Zashchita informatsii. Tekhnika zashchity informatsii. Avto-maticheskoe obuchenie neyrosetevykh preobrazovateley biometriya-kod dostupa [Data protection. Data protection technology. Automatic training of neural network "biometrics-access code" converters]. Moscow, 2011.

8. Serikova N. I., Ivanov A. I., Kachalin S. V. VestnikSibGAU [Bulletin of SSAU]. 2014, no. 3 (55), pp. 146-150.

9. Volchikhin V. I., Ivanov A. I., Serikova N. I., Funtikova Yu. V. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki [University proceedings. Volga region. Engineering sciences]. 2015, no. 2 (34), pp. 50-59.

Волчихин Владимир Иванович доктор технических наук, профессор, президент Пензенского государственного университета (Россия, г. Пенза, ул. Красная, 40)

E-mail: cnit@pnzgu.ru

Volchikhin Vladimir Ivanovich Doctor of engineering sciences, professor, President of Penza State University (40 Krasnaya street, Penza, Russia)

Иванов Александр Иванович доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9)

E-mail: ivan@pniei.penza.ru

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ivanov Aleksandr Ivanovich Doctor of engineering sciences, associate professor, head of the laboratory of bio-metric and neural network technologies, Penza Research Institute of Electrical Engineering (9 Sovetskaya street, Penza, Russia)

Серикова Юлия Игоревна

студентка, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: julia-ska@yandex.ru

Serikova Yuliya Igorevna Postgraduate student, Penza State University (40 Krasnaya street, Penza, Russia)

УДК 519.7; 519.66; 57.087.1, 612.087.1 Волчихин, В. И.

Компенсация методических погрешностей вычисления стандартных отклонений и коэффициентов корреляции, возникающих из-за малого объема выборок / В. И. Волчихин, А. И. Иванов, Ю. И. Серикова // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2016. - № 1 (37). - С. 103-110.

Аннотация научной статьи по математике, автор научной работы — Волчихин Владимир Иванович, Иванов Александр Иванович, Серикова Юлия Игоревна

Похожие темы научных работ по математике , автор научной работы — Волчихин Владимир Иванович, Иванов Александр Иванович, Серикова Юлия Игоревна

COMPENSATION OF METHODOLOGICAL ERRORS IN CALCULATIONS OF STANDARD DEVIATIONS AND CORRELATION COEFFICIENTS OCCURING DUE TO SMALL SAMPLE SIZES