Методы обработки биометрических данных рукописного почерка
Б.И. Баянов
Казанский национальный исследовательский технический университет
имени А. Н. Туполева-КАИ
Аннотация: В работе представлены методы обработки биометрических данных рукописного почерка. Исходными данными являются координаты положения пера на графическом планшете. В качестве обрабатываемого рукописного текста использовалась собственная база и открытая база данных подписей SVC 2004. В процессе обработки использовались следующие методы - «интерполяция рукописной записи», метод гистограмм, «скорость перемещения пера», направленные на устранение сдвигов исходных значений по оси времени и по оси значений. В результате обработки получены рекомендации по стандартизации, дискретизации исходных данных, количественные показатели оценок качества найденных биометрических признаков. Полученные экспериментальные результаты будут полезны исследователям для усовершенствования собственных разработок в области биометрических систем защиты.
Ключевые слова: рукописный почерк, биометрические данные, графический планшет, верификация, аутентификация, стандартизация, дискретизация, интерполяция, защита информации
Введение
Общая структура алгоритмов биометрических систем защиты описывается следующими укрупненными шагами: считывание биометрических данных, обработка биометрических данных или формирование качественных биометрических признаков (далее БП), распознавание биометрических образов на «Свой» и «Чужой». На первом этапе помимо разработки программ считывания биометрических данных и проведения экспериментов можно воспользоваться публичными базами данных [1]. Второй этап предполагает разработку методов, улучшающих качество БП [2], попадающих под рассмотрение методов распознавания биометрических систем защиты на третьем этапе. Выбор метода распознавания биометрических образов на «Свой» и «Чужой» зависит от поставленной цели разрабатываемой биометрической системы защиты: аутентификации [3], идентификации [4, 5] или формирования надежного пароля на основе БП пользователя [6].
Нами рассматривается публичная база данных SVC 2004 и собственная база данных [7, 8]. Публичная база данных включает в себя 1600 подписей 40 пользователей, где на каждого пользователя приходится 20 подлинных подписей и 20 умелых подделок. Собственная база данных включает всего 1508 рукописных записей 29 пользователей, где на каждого пользователя приходится 26 подлинных записей (личные имена испытуемых), 26 простых подделок (рукописное написание фразы «пароль река»). Существует 3 типа подделок: случайная подделка (злоумышленник ничего не знает о рукописной записи), простая подделка (злоумышленник знает имя испытуемого или рукописную фразу в печатном виде), умелая подделка (злоумышленник наблюдал за авторизованным пользователем во время ввода фразы или подписи). В экспериментах в качестве случайной подделки рассматривались различные друг от друга подлинные рукописные записи.
Методы предварительной обработки исходных данных
Все БП характеризуются непостоянностью своих значений, которые идентифицируют биометрический образ. Биометрическими данными являются координаты положения пера на графическом планшете. Здесь наблюдается проблема со сдвигами по оси значений и по оси времени. Для начала мы предлагаем частично устранить такие сдвиги при помощи Z-стандартизации и дискретизации на основе одномерной кусочно-линейной интерполяции. При одномерной кусочно-линейной интерполяции последовательности значений БП разной длины приводятся в последовательности единой длины. В разработанном нами приложении для этой цели использована функция «interp» пакета данных «numpy» языка программирования Python [9].
Перечислим рассматриваемые типы БП с указанием условных обозначений: значения координат положения пера (X, Y); расстояние между действующим положением пера и центром рукописной записи (DC);
значения углов наклона между прямой, соединяющей соседние точки, и горизонталью (А); значения БП, вычисленные методом «скорости перемещения пера» (Р); статические признаки (5Р). В качестве статических признаков выбраны следующие: отношение высоты к ширине рукописной записи (££!); ордината центра рукописной записи (5^2); абсцисса центра рукописной записи (£Р3); угол наклона между прямой, соединяющей центры двух половин рукописной записи, и горизонталью (£Р4). Приведем примеры условных обозначений БП: гистограммы Ну, группы БП с использованием метода «интерполяции рукописной записи» У! [10].
Мы предлагаем использовать метод с условным названием «интерполяция рукописной записи», где рукописная запись состоит из равноудаленных друг от друга точек. Такая обработка позволит скорректировать влияние ускорения движения пера при считывании координат положения, что позволит частично устранить проблему со сдвигом значений по оси времени.
Рис. 1. - Реализация метода «интерполяция рукописной записи» В представленном примере (рис. 1) имеются исходные точки (Х,У) и (Х1+1,У1+1), г=0,1,...Л обозначенные черным цветом. Необходимо найти
г
X
X,
и
координаты точек (х]-,у]),]=0,1,...М (точки белого цвета) на прямой У=ЛХ+Б, соединяющей исходные точки с соблюдением условия равноудаленности точек (х]-,у]) друг от друга на шаг Л1. В этом условии могут быть исключения в случае выхода точки (х],у]) за пределы отрезка. Для того, чтобы не нарушать условия равноудаленности точек, точка (Х1+1,У1+1) перемещается в точку (хМ],уМ]) на расстояние меньше, чем шаг Л1.
Для вычисления координат точек (х]+1,у]+1) преобразованной рукописной записи используются следующие формулы:
_-Ъ±V Ъ2-4ас
Х)+1_ 2а (1)
У)+1 =Ах]+1+В ' ( )
а = 1 + А2, (2)
Ъ = 2(АВ-Ау? -х), (3)
с = х) + (Ъ - у)2 -А2, (4)
где X], у] - координаты ]-ой точки преобразованной рукописной записи; А! -расстояние между точками (х],у]) и (х]+1,у]+1).
Значения параметров интерполирующей прямой У=ЛХ+Б, соединяющей точки (X Уг) и (Х+ь Уг+1) исходной рукописной записи, вычисляются по формулам:
А = ■
г +1 г
X+1 - X
В = Е - АХг.
Нами была рассмотрена характеристика скорости перемещения пера, описанная значениями, которые были получены методом с условным названием «скорость перемещения пера». Суть метода заключается в том, чтобы разделить последовательность исходных значений координат Х, У на равные части и рассчитать пройденный пером путь в каждой части.
и
Оценка качества биометрических признаков
Оценка качества /-го БП по выборке значений Вт проводится в соответствии с ГОСТ Р 52633.5-2011:
^ ,-п л № Чужой (ВМ) " МСеой (ВМ)
0 = д(Бт) = !-1, (5)
^Чужой (ВЕг ) + Я Свой (Вт )
где Мчужой (Б¥1), Мсвой(Б¥/), 5чужой(Б¥/), $свой(В¥1) - выборочные оценки математических ожиданий и среднеквадратических отклонений БП.
Ниже представлена таблица результатов средних оценок качества БП. Для последовательности значений БП, такого типа как X, У, ОС, А, рассматривались средние значения качества при длине последовательности 20, 25 и 30. Для гистограмм рассматривались количество карманов 3, 4, 5, 6, 7. Для типа БП Р рассматривались последовательности значений длины 3, 5 и 7.
В таблице №1 результаты экспериментов наглядно демонстрируют, что метод «интерполяция рукописной записи» значительно увеличивает качество БП. Например, качество последовательностей БП таких типов, как X, У и ОС в среднем по всем базам данных увеличилось не менее, чем на 14%. Также представленный метод улучшил качество БП гистограмм. Например, при публичной базе данных БУС 2004 качество БП таких типов гистограмм как Нх, Ну и НОС в среднем увеличилось не менее, чем на 5%. На собственной базе данных некоторые показатели качества гистограмм оказались не очень удовлетворительными (например, снижение качества БП Ну на 1.2%), поэтому не стоит исключать из рассмотрения БП исходных последовательностей X, У, ОС, Ну, А и т.д.
Таблица № 1
Количественные показатели оценок качества Омеаы
№ п/п Тип БП Qmean, случайные подделки (SVC 2004) Qmean, умелые подделки (SVC 2004) Омеа№ случайные подделки (собственная база данных) Омеа№ простые подделки (собственная база данных)
1 X 1,26 0,96 0,62 0,42
2 Xi 1,5 1,23 0,73 0,47
3 Y 1,18 0,88 0,58 0,3
4 Yi 1,34 1,07 0,63 0,34
5 DC 1,08 0,83 0,63 0,4
6 DCi 1,23 1,01 0,73 0,45
7 A 0,64 0,48 0,38 0,23
8 Ai 0,84 0,64 0,37 0,24
9 Hx 1,42 1,11 0,72 0,57
10 Hxi 1,55 1,26 0,82 0,58
11 Hy 1,43 1,06 1,31 0,61
12 hyi 1,49 1,13 1,3 0,6
13 hdc 0,89 0,72 0,62 0,44
14 Hdci 1,07 0,91 0,68 0,47
15 Ha 1,42 1,08 0,91 0,84
16 Hai 1,72 1,27 0,9 0,87
17 P 1,51 1,08 0,97 0,46
18 SFj 2,43 1,9 1,68 1,19
19 SF2 1,61 1,23 1,48 0,7
20 SF3 1,69 1,31 0,84 0,66
21 sf4 1,56 1,12 3,91 2,39
Представленные статические признаки (££), описанные единичным значением, обладают относительно высокой степенью качества и хорошо идентифицируют биометрический образ. Несмотря на это, разработчик биометрических систем защиты, учитывая всевозможные условия и внешние факторы, самостоятельно принимает решение включать такие БП в собственную систему защиты или нет.
и
Метод передискретизации биометрических данных
Экспериментальные данные показали, что при приведении последовательностей значений БП, например таких типов БП как X, У и ОС, к единой длине качество БП в начале и в конце рукописной записи выше, чем в центральной части. Для этого мы предлагаем увеличить частоту точек на краях рукописной записи и сделать передискретизацию последовательностей БП на основе арифметической прогрессии (далее АП).
Пусть Ыт - размерность исходной рукописной записи при равномерной дискретизации (условно будем считать период дискретизации равным 1). Необходимо произвести неравномерную передискретизацию с целью получения выборки размерности п. Реализация этой процедуры проводится на основе следующих формул (приведены для двух случаев размерности выборки п):
^ = ^ + (Я1 +Т1) + & + 2Т,) + ... + Slk = ^ , (6)
ЯА2 = ¿2 + <А + Т2) + (^2 + 2Ч) + ... + ¿2к = ^ ^^ П2 , (7)
2БА 1 - ¿1 к = N. , (8)
2^2 = ^ , (9)
(10)
_2^(к-1)
Т1 =
П -1
_ 282(к-1)
Т2 =
П2 - 2
2ЫТ
1 (к + 1)(п +1) - 2к '
2 N
¿2 =-~
(11) (12) (13)
(к + 1)П2 '
где Ба!, БА2 - суммы АП; s!, 82 - первые члены АП; т!, т2 - разности АП; п!, п2 - размерность выборки при нечетном и четном количестве точек
соответственно; к - коэффициент увеличения периода дискретизации в центральной части выборки.
Приведем некоторые примеры. При Nt=30, n2=8, к=2 получаем следующий массив периодов дискретизации [s2, s2+T2, s2+2t2, s2k, s2k, s2+2t2, s2+t2, s2] и преобразованный массив точек передискретизации [0, 2.5, 5.833, 10, 15, 20, 24.167, 27.5, 30]. При этом центральные периоды дискретизации в k раз больше, чем первый и последний периоды. При n2=7 получаем следующие периоды дискретизации [3, 4, 5, 6, 5, 4, 3] и преобразованный массив точек передискретизации [0, 3, 7, 12, 18, 23, 27, 30].
Например, при случайных подделках базы данных SVC 2004 среднее значение качества последовательности БП Y равно 1.18, а при неравномерной передискретизации значение увеличилось до 1.36 с коэффициентом к=5. Рассматривая YI, этот показатель увеличился с 1.34 до 1.51, что в очередной раз доказывает, что при приведении последовательности значений БП к единой длине, качества БП на концах рукописной записи выше, чем в центральной части.
Заключение
В статье предложены методы по обработке исходных биометрических данных рукописного почерка в виде координат положения пера X, Y на графическом планшете. Для этого были рассмотрены случайные, простые, умелые подделки рукописных записей собственой базы данных и известной в литературе открытой базы данных SVC 2004. Нами найден список биометрических признаков, позволяющий идентифицировать биометрический образ. В работе экспериментально доказана целесообразность и эффективность использования таких методов, как: «интерполяция рукописной записи», метод гистограмм, «скорость перемещения пера», неравномерная передискретизация. Хорошие результаты
количественного показателя качества продемонстрировали: статические признаки SF, гистограммы HAI, HYI, HY, HA, HXI, HX, последовательности XI, DCI, YI, P. Полученные результаты будут полезны исследователям для разработки и усовершенствования биометрических систем защиты.
Литература
1. Diaz M., Ferrer M.A., Impedovo D., Malik M.I., Pirlo G., Plamondon R. A Perspective Analysis of Handwritten Signature Technology // ACM Computing Surveys. 2019. Vol. 51. № 6. pp. 117-155.
2. Ponce-Hernandez W., Blanco-Gonzalo R., Liu-Jimenez J., Sanchez-Reillo R. Fuzzy Vault Scheme Based on Fixed-Length Templates Applied to Dynamic Signature Verification // IEEE ACCESS. 2020. Vol. 8. pp. 11152-11164.
3. Ходашинский И.А., Костюченко Е.Ю., Сарин К.С., Анфилофьев А.Е., Бардамова М.Б., Самсонов С.С., Филимоненко И.В. Аутентификация пользователя по динамике подписи на основе нечёткого классификатора // Компьютерная оптика. 2018. Т. 42. № 4. С. 657-666.
4. Самойлов А.Н., Сергеев Н.Е., Дайебал Д.Б., Кучерова М.С. Модель интеллектуальной информационной системы для распознавания пользователей социальной сети с использованием биоинспирированных методов // Инженерный вестник Дона, 2018, №4. URL: ivdon.ru/magazine/archive/n4y2018/5411.
5. Явна Д.В., Бабенко В.В. Метод извлечения из цифровой фотографии лица информации, достаточной для его идентификации // Инженерный вестник Дона, 2014, №3, URL: ivdon.ru/magazine/archive/n3y2014/2494.
6. Фатхи Д.В., Галушка В.В. Повышение сложности пароля пользователя на основе комплексирования символов пароля и временных интервалов между ними // Инженерный вестник Дона, 2019, №1. URL: ivdon.ru/ magazine/archive/n1y2019/5594.
7. Yeung D.Y., Chang H., Xiong Y., George S., Kashi R., Matsumoto T., Rigoll G. SVC2004: First International signature verification competition. In Biometric Authentication // Lecture Notes in Computer Science. 2004. Vol. 3072. pp. 16-22.
8. Баянов Б.И. Исследование средств и методов считывания биометрических данных рукописного почерка // Двадцать пятые туполевские чтения (школа молодых ученых): материалы Международной молодёжной научной конференции. Казань: ИП Сагиева А.Р., 2021. С. 74-77.
9. NumPy Documentation. One-dimensional linear interpolation. URL: numpy.org/doc/stable/reference/generated/numpy.interp.html.
10. Баянов Б.И., Исмагилов И.И. Сравнительный анализ биометрических параметров в задаче формирования криптографического ключа на основе рукописного почерка // Математические методы в технологиях и технике. 2021. № 6. С. 55-58.
References
1. Diaz M., Ferrer M.A., Impedovo D., Malik M.I., Pirlo G., Plamondon R. A Perspective Analysis of Handwritten Signature Technology. ACM Computing Surveys. 2019. Vol. 51. № 6. pp. 117-155.
2. Ponce-Hernandez W., Blanco-Gonzalo R., Liu-Jimenez J., Sanchez-Reillo R. Fuzzy Vault Scheme Based on Fixed-Length Templates Applied to Dynamic Signature Verification. IEEE ACCESS. 2020. Vol. 8. pp. 11152-11164.
3. Khodashinskiy I.A., Kostyuchenko E.Yu., Sarin K.S., Anfilofev A.E., Bardamova M.B., Samsonov S.S., Filimonenko I.V. Komp'yuternaya optika. 2018. Vol. 42. № 4. pp. 657-666.
4. Samoylov A.N., Sergeev N.E., Dayebal D.B., Kucherova M.S. Inzhenernyy vestnik Dona. 2018. №4. URL: ivdon.ru/magazine/archive/n4y2018/5411.
5. Yavna D.V., Babenko V.V. Inzhenernyy vestnik Dona. 2014. №3. URL: ivdon.ru/magazine/archive/n3y2014/2494.
6. Fatkhi D.V., Galushka V.V. Inzhenernyy vestnik Dona. 2019. №1. URL: ivdon.ru/magazine/archive/n 1y2019/5594.
7. Yeung D.Y., Chang H., Xiong Y., George S., Kashi R., Matsumoto T., Rigoll G. SVC2004: First International signature verification competition. In Biometric Authentication. Lecture Notes in Computer Science. 2004. Vol. 3072. pp. 16-22.
8. Bayanov B.I. Dvadtsat' pyatye tupolevskie chteniya (shkola molodykh uchenykh): materialy Mezhdunarodnoy molodezhnoy nauchnoy konferentsii (Twenty-fifth Tupolev Readings (school of young scientists): Proc. of the International Youth Scientific Symp.). Kazan: IP Sagieva A.R., 2021. pp. 74-77.
9. NumPy Documentation. One-dimensional linear interpolation. URL: numpy.org/doc/stable/reference/generated/numpy.interp.html.
10. Bayanov B.I., Ismagilov I.I. Matematicheskie metody v tekhnologiyakh i tekhnike. 2021. № 6. pp. 55-58.