Научно-образовательный журнал для студентов и преподавателей «StudNet» №5/2021
ПРОВЕРКА ПОДПИСИ НА ОСНОВЕ ИНФОРМАЦИИ ОБ УРОВНЕ СЕРОГО С ИСПОЛЬЗОВАНИЕМ НЕЙРОННОЙ СЕТИ
SIGNATURE VERIFICATION BASED ON GRAY LEVEL INFORMATION
USING A NEURAL NETWORK
УДК 004.032.26
Ложкин Леонид Дидимович, доктор технических наук, доцент, профессор кафедры «Радиоэлектронных систем», Поволжский государственный университет телекоммуникаций и информатики, Россия, г. Самара Анкина Ксения Петровна, Магистр 2 курс, кафедра «Радиоэлектронных систем», Поволжский государственный университет телекоммуникаций и Информатики, Россия, г. Самара
Lozhkin Leonid Didimovich
Ankina Ksenia Petrovna, Kyprin1998@mail. ru
Аннотация. Описан способ автономной проверки собственноручной подписи. Реализуется на глобальном уровне изображения и измеряет вариации уровня серого в изображении, используя статистические функции текстуры. Этот метод начинается с предлагаемого удаления фона. Подлинные образцы подписи и случайные вариации использовались для обучения и тестирования модели нейронной сети на базе языка программирования Python. Комбинация предложенных функций на основе геометрической информации, обещает улучшить процесс определения подлинности подписи в будущем. В статье был предложен простой алгоритм сегментации с низкими вычислительными затратами, основанный на нейронной сети для определения подлинности подписи.
Annotation. The method of offline verification of a handwritten signature is described. It is implemented at the global image level and measures variations in the gray level in the image using statistical texture functions. This method starts with the suggested background removal. Authentic signature samples and random variations were used to train and to test it a model of a neural network based on the Python programming language. The combination of the proposed functions based on geometric information, promises to improve the process of determining the authenticity of the signature in the future. The paper proposed a simple segmentation algorithm with low computational costs, based on a neural network to determine the authenticity of the signature.
Ключевые слова: нейронная сеть, Python, определение подлинности, уровень серого, функции текстуры, подпись.
Keywords: neural network, Python, authentication, gray level, texture functions, signature.
Введение
На данный момент общество требует всё большей безопасности в сфере личных данных. Биометрия измеряет уникальные физические или поведенческие характеристики человека с целью аутентификации личности. Обычная физическая биометрия включает в себя проверку отпечатков пальцев, геометрию руки или ладони, сетчатку и радужную оболочку глаза. Поведенческие характеристики представляют собой подпись, голос и походку.
Рукописная подпись один из наиболее широко используемых атрибутов для подтверждения личности. Эта подпись является символом согласия и авторизации, особенно в среде кредитных карт и банковских чеков, и долгое время была привлекательной целью для мошенников. Пламондон и Шрихари отметили, что у системы автоматической проверки подписи особая ниша среди систем автоматической идентификации: «С одной стороны, они отличаются от систем, основанных на владении чем-либо (ключом, картой и т. д.) или знании чего-либо (пароли, личная информация и т. д.) С другой стороны, они также
отличаются от систем, основанных на биометрических свойствах человека (отпечатки пальцев, голоса, сетчатки глаза и т. д.) [1]. Поскольку подпись по-прежнему остается наиболее социально и юридически приемлемым средством идентификации личности.
Подделка подписи считается более сложной задачей, чем подделка отпечатка пальца, учитывая доступность сложных анализов.[2] Подпись представляет собой сильную переменную сущность, и ее проверка даже для экспертов-людей не является тривиальной задачей. Несомненно, автоматическая проверка подписи играет важную роль в наборе биометрических методов аутентификации личности. Данное исследование сосредоточено на функциях, основанных на информации об уровне серого из изображений рукописных подписей. Для этой цели включены методы текстурного анализа, так как они обеспечивают инвариантность вращения и яркости.
1. Справочная информация Есть два основных метода проверки подписи. Один из них — это онлайн-метод измерения последовательных данных, таких как скорость рукописного ввода и давление пишущего инструмента, с помощью специального устройства. Другой - автономный метод, который использует оптический сканер для получения рукописных данных, записанных на бумаге. Существует два основных подхода к офлайн проверке подписи: статический подход и псевдодинамический подход. Статический метод включает геометрические измерения сигнатуры, а псевдодинамический - пытается оценить динамическую информацию из статического изображения. [3]
Онлайновые системы используют специальные устройства ввода, такие как планшеты, в то время как автономные подходы намного сложнее, потому что единственная доступная информация — это статическое двухмерное изображение, полученное путем сканирования предварительно написанных подписей на бумаге. Динамическая информация о перемещении кончика пера (стилуса), такая как координаты кончика пера , давление, скорость, ускорение, а также движение пера вверх и вниз, может быть захвачена планшетом в реальном
времени, но не сканером изображений. Таким образом, автономный метод должен иметь сложные методы обработки изображений к сегментам и анализировать форму подписи для извлечения признаков. Автономные системы имеют значительное преимущество в том, что они не требуют доступа к специальным устройствам обработки при создании подписей. Фактически, если подчеркнуть точность систем проверки, автономный метод имеет гораздо больше практических областей применения, чем онлайн.
Верно и то, что след пера очень изменчив. Не бывает двух одинаковых подлинных подписей. Фактически, две идентичные подписи будут представлять собой юридическое доказательство подделки путем отслеживания. Обычная изменчивость подписей представляет собой величайшее препятствие, с которым приходится сталкиваться при автоматической проверке подписи. Короткое, распространенное имя, несомненно, легче подделать, чем длинное, тщательно написанное, независимо от того, какой метод используется. Следовательно, система должна быть способна к постепенному «ухудшению» при поставке несовместимых подписей, а риски безопасности должны поддерживаться на приемлемом уровне.
Проблемы определения подлинности подписи решаются путем учета трех различных типов подделок: случайные подделки, произведенные без знания имени подписавшего, формы его подписи; простые подделки, произведенные, зная имя подписавшего, но не имея примера его подпись; и искусные подделки, произведенные людьми, которые после изучения оригинального экземпляра подписи пытаются как можно точнее его воспроизвести.
1.1. Автономная проверка подписи на основе псевдодинамических
функций
Динамическая информация не может быть получена непосредственно из статических изображений подписи. Вместо этого могут быть получены некоторые функции, которые частично представляют динамическую информацию. Термин «псевдодинамический» используется для различения
реальных динамических данных, записанных в процессе записи, от информации, которая может быть восстановлена из статического изображения.
Методы судебно-медицинской экспертизы документов в основном основаны на микроскопическом исследовании следов письма и предположениях о лежащем в основе процессе письма. [4] Моделируемые движения рукописного текста человека рассматриваются с помощью пишущего робота для изучения взаимосвязи между характеристиками процесса письма и отложением чернил на бумаге. Подходы из области обработки изображений и распознавания образов можно разделить на: методы оценки временного порядка создания штрихов и методы, вдохновленные теорией управления моторикой, которые восстанавливают временные особенности на основе геометрии гребка, такой как кривизна, и, наконец, методы анализа толщины мазка и / или вариаций интенсивности мазка. [5]
Изображение с уровнем серого отсканированной собственноручной подписи указывает на то, что некоторые пиксели могут представлять формы, написанные с высоким давлением , которые выглядят как более темные зоны. Точки высокого давления (НРР) можно определить как пиксели сигнатуры, которые имеют значения уровня серого выше подходящего порога. Адаптивная сегментация распределения интенсивности чернил учитывает влияние различных пишущих инструментов и поддерживает перекрестную проверку различных датчиков пера. Таким образом, анализ текстуры следа чернил выступает новым подходом для охарактеризования личного написания и для усовершенствования процедур проверки рукописной подписи на подлинность.
2. Анализ статистических текстур Статистический текстурный анализ требует вычисления текстурных признаков из статистического распределения наблюдаемых комбинаций интенсивностей в заданных положениях относительно друг друга на изображении. Количество точек интенсивности (пикселей) в каждой комбинации идентифицируется, и приводит к классификации статистики текстуры как первого порядка, второго порядка или более высокого порядка. Биометрические
системы, основанные на верификации подписи, в сочетании с текстурным анализом могут выявить информацию о распределении чернильных пикселей, которая отражает личные характеристики подписывающего. Таким образом, в конкретном случае штрихов подписи учитываются также пиксели в контуре штриха. То есть те пиксели штриха, которые находятся в границе подписи и фона. Данные пиксели будут содержать статистическую информацию о форме подписи. Таким образом, распределение можно рассматривать как комбинацию информации о текстуре и форме подписи.
2.1. Статистические характеристики первого порядка Статистические признаки первого порядка учитывают индивидуальное значение уровня серого каждого пикселя изображения, но пространственное расположение не учитывается. Классическим способом параметризации гистограммы является измерение ее среднего и стандартного отклонения. Очевидно, что дискриминативная способность статистики первого порядка действительно низка для автоматической проверки подписи, особенно когда пользователь и фальсификатор пользуются схожим письменным инструментом. На самом деле большинство исследователей нормализуют гистограмму, чтобы уменьшить шум для последующей обработки сигнатуры.
2.2.Уровень совместной встречаемости матрицы Метод матрицы встречаемости серого уровня (GLCM) — это способ извлечения статистических текстурных признаков второго порядка из изображения. Таким образом, метод представляет собой оценку плотности распределения вероятностей второго порядка, полученную по одному изображению в предположении, что плотность вероятности зависит лишь от взаимного расположения.[6]. Наглядно матрица состоит из L * L - уровень серого, который представляет собой количество различных уровней серого или цветов, содержащихся в изображении), которая имеет определенное пространственное положение и уровень серого.
CvfioernoH
vyVyV JW
Пример Изображения (8 Тонов)
Л) Ро(1-3 1 Г Я
V г 1 4 5 Г1 7 8
гг 2 0 0 1 0 0 а
0 К 1 0 1 0 0 0
0 0 0 1 0 0 0
0 0 0 0 1 Q 0 0
1 0 0 0 0 1 2 0
0 0 0 0 0 0 0 1
2 0 0 0 0 0 0 а
0 9 0 и 1 j [flj 3 0
Рис. 1. Метод матриц встречаемости серого уровня. На рис.1. изображено 8 уровней серого, формирующих GLCM 8 х 8. GLCM (i, j) указывает, сколько смежных пар точек имеют уровень серого i и уровень серого j на левой матрице (i означает 1-8 в вертикальном направлении, j означает 1-8 в горизонтальном направлении). GLCM (1,1) означает комбинацию значений уровня серого 1 и 1 на левом рисунке I, GLCM (1,1) = 1 означает, что комбинация имеет 1 смежный компонент. Точка GLCM (4,5) означает комбинацию уровня серого 4 и уровня серого 5 на левом рисунке I, GLCM (4,5) = 1 означает, что комбинация имеет 1 фазу.
Матрица совместного появления на самом деле представляет собой объединенную гистограмму из двух пикселей. Для мелких и регулярных текстур в изображении двумерные гистограммы пар пикселей имеют тенденцию быть равномерно распределенными; для толстых и регулярных текстур они имеют тенденцию быть наиболее диагональными.
2.3. Локальные бинарные шаблоны Оператор локального бинарного паттерна (англ. Local Binary Patterns, LBP) определяется как инвариантная к серому уровню текстурная мера, полученная из общего определения текстуры в локальной окрестности, центром которой является пиксель (x, y). Он применяется к пикселю изображения, использует восемь пикселей окрестности, принимая центральный пиксель в качестве порога.
Недавние расширения оператора LBP показали, что он является действительно мощным измерителем текстуры изображения, что дает отличные результаты во многих эмпирических исследованиях. Самым важным свойством оператора LBP является его инвариантность к монотонным изменениям уровня серого. Не менее важна его вычислительная простота, позволяющая анализировать изображения в сложных условиях реального времени. [7]
Оператор локального двоичного паттерна описывает окружение пикселя (х, у), генерируя битовый код из двоичных производных пикселя в качестве дополнительной меры для локального контраста изображения. Исходный оператор LBP берет восемь соседних пикселей, используя в качестве порога значение уровня серого центра 1(х, у). Оператор генерирует двоичный код 1, если сосед больше или равен центральному уровню, в противном случае он генерирует двоичный код 0. Восемь соседних двоичных кодов могут быть представлены 8-битным числом. Оператор LBP выводит данные для всех пикселей в изображении, может быть накоплено для формирования гистограммы, которая представляет собой меру текстуры изображения. На рис. 1 показан пример оператора LBP.
Пороговое ^ ^ ^^^
Рис. 2. пример оператора LBP.
3. Текстурный анализ для проверки подписи
Текстурные особенности изображения серого уровня могут выявить личностные характеристики подписывающего (например, изменение давления и скорости, удержание ручки и т. д.).
3.1. Удаление фона
Функции, используемые в системе, характеризуют распределение уровней серого в подписи изображения, но также требуют процедуры устранения фона. Уровни серого, соответствующие фону, не являются различающей информацией, но добавление шума может отрицательно повлиять на анализируемые характеристики.
Постеризация возникает, когда видимая битовая глубина изображения уменьшена настолько, что оказывает визуальное воздействие. Термин «постеризация» используется потому, что он может влиять на изображение таким же образом, как и на цветовой диапазон серийного плаката, где в процессе печати используется ограниченное количество цветных чернил.
abed
Рис. 3. Процедура постеризации: (а) исходное изображение с 256 уровнями серого, (Ь) постеризованное изображение, (с) двоичное изображение сегментированное изображение, в котором исходная подпись с фоном, преобразованным в белый (уровень серого равен 255).
3.2. Смещение гистограммы Этот раздел направлен на уменьшение влияния различных пишущих перьев на сегментированную подпись. Достигается это путем смещения гистограммы пикселей сигнатуры в сторону нуля, сохраняя белый фон с уровнем серого равным 255. Гарантируя, что значение уровня серого самого темного пикселя сигнатуры всегда равно 0, динамический диапазон будет отражать особенности только записи стиль. Это может быть выполнено путем вычитания минимального значения уровня серого в изображении из пикселей подписи. После того, как матрица признаков определена, нам нужно решить задачу классификации двух классов ( подлинная или подделка).
Рис. 4. Предварительная обработка гистограммы.
Вверху: гистограмма и детали подписи изображения. Внизу: гистограмма и детали подписи (x, y), который темнее, чем исходное значение (x, y).
4. Классификация 4.1. Машина опорных векторов наименьших квадратов
Для моделирования каждой сигнатуры использовалась машина опорных векторов наименьших квадратов. В процессе оптимизации необходимо решить только одно линейное уравнение, что не только упрощает процесс, но также позволяет избежать проблемы локальных минимумов в SVM (от англ. Support Vector Machines). Основной целью алгоритма является создание "идеальной" линии, которая разделит данные на два класса. Алгоритм SVM устроен таким образом, что он ищет точки на графике, которые расположены непосредственно к линии разделения ближе всего. Эти точки называются опорными векторами. Затем, алгоритм вычисляет расстояние между опорными векторами и разделяющей плоскостью.[8] Это расстояние, которое называется зазором, чем он больше, тем лучше гиперплоскость.
Очевидно, что этот набор данных нельзя разделить линейно. Мы не можем начертить прямую линию, которая бы классифицировала эти данные. Но, этот
датасет можно разделить линейно, добавив дополнительное измерение, которое мы назовем осью Z. Представим, что координаты на оси Z регулируются следующим ограничением (1):
22z=x2+y2 (1)
В результате появляется возможность классифицировать нелинейный набор данных добавив к нему дополнительное измерение, а затем, привести обратно к исходному виду используя математическую трансформацию.
import numpy as np X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]]) y = np.array([1, 1, 2, 2])
Рис. 5. Код алгоритма в Python.
Точки представлены в виде массива X, а классы к которому они принадлежат в виде массива y. Осталось обучить модель выборке.
from sklearn.svm import SVC clf = SVC(kernel='linear') clf = SVC.fit(X, y)
Рис. 6. Линейный параметр "ядра" классификатора (kernel).
prediction = clf.predict([[0,6]])
Рис. 7. Предсказания класса нового объекта.
5. Протокол оценки
Каждая подписывающая сторона моделируется LS-SVM, который обучается подлинными выборками, чтобы сравнить производительность модели с количеством обучающих выборок. Эти образцы были выбраны случайным образом. Случайные подделки (подлинные образцы от других подписантов) использовались в качестве отрицательных образцов, аналогично тому. Имея в виду ограниченное число выборок в обучении, перекрестной проверки (LOOCV) была использована для определения параметров SVM.
При тестировании учитывались случайные и искусные подделки. Для случайных подделок выбирается подлинная выборка каждого из базы данных других пользователей. Для искусных подделок использовались все доступные подделки. Процедуры обучения и тестирования необходимо повторять множество раз с разными подмножествами, с целью получения достоверных результатов. Были рассмотрены два классических типа ошибок: ошибка типа 1 или коэффициент ложного отклонения (FRR), когда аутентичная подпись отклоняется, и ошибка типа 2 или коэффициент ложного принятия (FAR), когда допускается подделка.
Наконец, был рассчитан равный коэффициент ошибок (EER) с учетом несбалансированности классов. Для расчета FAR и FRR необходимо определить порог. Поскольку LS-SVM был обучен как целевое значение +1 для подлинной подписи и 1 для подделок, априорный постоянный порог, равный 0 для всех подписывающих лиц, т.е. если LS-SVM возвращает значение, большее или равное чем 0, подпись считается подлинной. Если LS-SVM возвращает значение меньше 0, подпись считается подделкой и, следовательно, отклоняется.
Вывод
Сравнение производительности различных систем проверки подписей сложная задача, поскольку каждый автор создает свои собственные наборы данных подписи. Описывается новая методология автономной проверки подписи на основе информации об уровне серого. Был предложен простой алгоритм сегментации с низкими вычислительными затратами, основанный на
постеризации. Несмотря на то, что была представлена процедура для
уменьшения эффекта чернильного шрифта, необходимо приложить больше
усилий в этом направлении, чтобы улучшить функциональность системы.
Литература
1. P. Plamondon, S. Srixari Он-лайн и офф-лайн распознавания рукописного текста: комплексное обследование // IEEE Transactions analiz and Machine Intelligence . 2000. №22. С. 63-84.
2. H. Firres-Aguilar, N. Alonso-Ermira, G. Moreno-Marquez, H. Ortega Автономная система проверки подписи, основанная на слиянии локальной и глобальной информации // Семинар по биометрической аутентификации. 2004. №Springer LNCS-3087. С. 298-306.
3. K. Franke, O. Bannemeyer, T. Анализ текстуры чернил для идентификации писателя // Proceedings of the Vighth International Workshop on Frontiers in Handwriting Recognition. 2002. №IWFHR'02. С. 268.
4. M. Ammar, Yu. Yoshida, T. Fukumura Новый эффективный подход для автоматической автономной проверки подписей с использованием функций давления // Труды 8-й Международной конференции по распознаванию образов. 1986. С. 566-569.
5. R. W. Conners, K. A. Harlow Теоретическое сравнение алгоритмов текстур // IEEE Transactions on Pattern Analysis and Machine Intelligence . 1980. №3. С. 204-222.
6. Метод Опорных Векторов (SVM). // Краткий обзор алгоритма машинного обучения [Электронный ресурс]. URL: https://habr.com/ru/post/428503/ (дата обращения: 07.03.2021).
Literature
1. P. Plamondon, S. Srixari On-line and off-line handwriting recognition: a comprehensive survey / / IEEE Transactions analiz and Machine Intelligence . 2000. No. 22. pp. 63-84.
2. H. Firres-Aguilar, N. Alonso-Ermira, G. Moreno-Marquez, H. Ortega Autonomous signature verification system based on the merger of local and global
information // Seminar on Biometric authentication. 2004. No. Springer LNCS-3087. pp. 298-306.
3. K. Franke, O. Bannemeyer, T. Si Analysis of ink texture for writer identification / / Proceedings of the Vighth International Workshop on Frontiers in Handwriting Recognition. 2002. No. IWFHR ' 02. p. 268.
4. M. Ammar, Yu. Yoshida, T. Fukumura A new effective approach for automatic offline signature verification using pressure functions // Proceedings of the 8th International Conference on Pattern Recognition. 1986. pp. 566-569.
5. R. W. Conners, K. A. Harlow Theoretical comparison of texture algorithms / / IEEE Transactions on Pattern Analysis and Machine Intelligence . 1980. No. 3. pp. 204-222.
6. The Support Vector Machine (SVM) Method. // A brief overview of the machine learning algorithm [Electronic resource]. URL: https://habr.com/ru/post/428503/ (accessed: 07.03.2021).