Научная статья на тему 'НЕЙРОСЕТЕВОЙ МЕТОД ДЕТЕКЦИИ ВИДЕОИЗОБРАЖЕНИЯ ЛИЦА В ВИДЕОПОТОКЕ СИСТЕМЫ ЛИЦЕВОЙ БИОМЕТРИИ'

НЕЙРОСЕТЕВОЙ МЕТОД ДЕТЕКЦИИ ВИДЕОИЗОБРАЖЕНИЯ ЛИЦА В ВИДЕОПОТОКЕ СИСТЕМЫ ЛИЦЕВОЙ БИОМЕТРИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
56
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА БИОМЕТРИИ / ВИДЕОИЗОБРАЖЕНИЕ ЛИЦА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Широкова Л.Р., Логинов В.Н.

Рассматриватся задача распознавания спуффинг-атак на систему лицевой биометрии, основанных на подмене в поле зрения камеры видеонаблюдения лица реального человека на видеоизображение лица другого человека, сформированного на экране носимого устройства. Предложен нейросетевой метод детекции такого рода подмен, использующий в качестве входных данных результаты предварительной матричной предобработки последовательности видеокадров. Проведен сравнительный анализ алгоритмов предобработки и получены оценки метрик качества предсказания для выбранной архитектуры сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEURAL NETWORK METHOD FOR DETECTING VIDEO IMAGES OF A PERSON IN A VIDEO STREAM OF THE FACIAL BIOMETRICSSYSTEM

The problem of recognizing spoofing attacks on a facial biometrics system is considered. It is based on replacing the real person’s face with a video image of another person’s face formed on the device screen in the field of view of a video surveillance camera. A neural network method for detecting such substitutions is proposed, which uses the results of matrix preprocessing of a sequence of video frames as input. A comparative analysis of the preprocessing algorithms is carried out. Estimates of the prediction quality metrics for the selected network architecture are obtained.

Текст научной работы на тему «НЕЙРОСЕТЕВОЙ МЕТОД ДЕТЕКЦИИ ВИДЕОИЗОБРАЖЕНИЯ ЛИЦА В ВИДЕОПОТОКЕ СИСТЕМЫ ЛИЦЕВОЙ БИОМЕТРИИ»

УДК 004.932

Л. Р. Широкова,, В. Н. Логинов

Московский физико-технический институт (национальный исследовательский университет)

Нейросетевой метод детекции видеоизображения лица в видеопотоке системы лицевой биометрии

Рассматривать задача распознавания спуффинг-атак на систему лицевой биометрии, основанных на подмене в поле зрения камеры видеонаблюдения лица реального человека на видеоизображение лица другого человека, сформированного на экране носимого устройства. Предложен нейросетевой метод детекции такого рода подмен, использующий в качестве входных данных результаты предварительной матричной предобработки последовательности видеокадров. Проведен сравнительный анализ алгоритмов предобработки и получены оценки метрик качества предсказания для выбранной архитектуры сети.

Ключевые слова: система биометрии, видеоизображение лица.

L. R. Shirokova, V. N. Loginov

Moscow Institute of Physics and Technology

Neural network method for detecting video images of a person in a video stream of the facial biometrics

system

The problem of recognizing spoofing attacks on a facial biometrics system is considered. It is based on replacing the real person's face with a video image of another person's face formed on the device screen in the field of view of a video surveillance camera. A neural network method for detecting such substitutions is proposed, which uses the results of matrix preprocessing of a sequence of video frames as input. A comparative analysis of the preprocessing algorithms is carried out. Estimates of the prediction quality metrics for the selected network architecture are obtained.

Key words: biometrics system, facial vibraimage.

1. Введение

Современный этап происходящей в мире цифровой революции характеризуется масштабным внедрением систем биометрической идентификации, которые находят применение в широком диапазоне человеческой активности.

Одна из главных целей создания таких систем связана с вопросами обеспечения безопасности общественной жизни. Системы, позволяющие по лицу человека или по силуэту определить его принадлежность к группам, представляющим повышенную угрозу, стали обычными в транспортных узлах, на улицах городов и в других местах, характеризуемых повышенным скоплением людей.

Действие вызывает противодействие, и совершенно естественно, что появление систем биометрической идентификации вызвало появление способов их преодоления и обмана. Именно появление таких способов стало одним из важных факторов, сдерживающих дальнейшее повсеместное применение этих систем.

© Широкова Л. Р., Логинов В. Н., 2020

(с) Федеральное государственное автономное образовательное учреждение высшего образования

«Московский физико-технический институт (национальный исследовательский университет)», 2020

В последующем изложении в соответствии с принятой терминологией будем называть попытку обмануть систему идентификации путем предъявления ей поддельных биометрических параметров спуфинг-атакой.

Принято разделять спуфинг-атаки на системы лицевой биометрии на три основные группы, в зависимости от применяемого механизма атаки. Это:

• Mask Attack (лицо человека закрывает маска);

• Printed Attack (лицо человека закрывает фотография лица другого человека или иное изображение);

• Replay Attack (лицо человека закрывает видеоизображение лица другого человека, выведенное на экран носимого устройства).

Основные подходы, применяемые для детекции спуфинг-атак, основываются на учете изменения качества изображения при печати на бумаге (Printed Attack) и воспроизведении на экране (Replay Attack), на анализе макро- и микродвижений человека [1]. Существует много подходов решения данной проблемы [2].

Самым надежным и распространенным способом выявления спуфинг-атак является «живое» детектирование: пользователь должен выполнить набор некоторых действий, с помощью которых можно будет удостовериться, что перед камерой находится реальный человек. При этом существенными недостатками такого подхода являются плохая автома-тизированность и очевидные ограничения для некоторых категорий граждан.

Необходимо также отметить то, что существующие методы детекции, как правило, показывают хорошие результаты при обучении, но показывают существенно более низкие характеристики качества в штатных условиях эксплуатации.

В данной статье представлен метод распознавания спуфинг-атак, основанный на матричном анализе кадров видеопотока камеры наблюдения биометрический системы и последующей обработке результатов анализа предобученной нейронной сетью, преимуществами которого являются высокая степень возможной автоматизации и, как показали полученные оценки, хорошее качество распознавания при практическом применении.

Последовательность обработки видеоданных при этом разделяется на два этапа:

1) Предварительная обработка видеоизображения - подготовка входных данных для нейронной сети.

2) Обработка входных данных предобученной нейронной сетью и предсказание вероятности того, что видеоизображение передает реальное лицо.

2. Предварительная обработка видеоизображения

За основу предварительной обработки кадров использован подход построения межкадровых разностей [3].

Для этого представим видеопоток в виде последовательности из N + 1 кадров.

Между двумя соседними кадрами для каждого элемента (пикселя) изображения, имеющего геометрические координаты х и у, вычисляется некоторый показатель, характеризующий амплитуду и частоту изменений параметров элемента. Рассчитанные значения показателя, привязанные к геометрическому месту элемента, образуют некоторую матрицу, которую в дальнейшем будем называть матрицей межкадровых разностей.

Амплитудная составляющая каждого элемента матрицы межкадровых разностей определяется по формуле

где

х,у координаты элемента матрицы;

их,у,г - величина элемента с координатами (х, у) в г-м кадре; К - число кадров.

Рис. 1. Видеоизображение по амплитудной формуле

Частотная составляющая каждого элемента матрицы межкадровых разностей определяется но формуле

255 К

р-,у = К^ 1[Ах,у,г > е], (2)

г=1

где х,у координаты элемента матрицы;

Дж,У,г - разность значений элементов с ко ординатами (х, у) между г-м и г + 1-м кадрами; 1[х] - индикаторная функция, такая что

1, х

| 0 иначе;

К

Рис. 2. Видеоизображение по частотной формуле

на информативность видеоизображения. Ниже можно увидеть примеры частотных видеоизображений с различными порогами е.

г) в = 20 г) в = 30 г) в = 50

Рис. 3. Примеры видеоизображений для различных значений параметра е, построенных по частотной формуле (К = 2)

Чем меньше е, тем детальнее становится видеоизображение. В рассматриваемом методе используется параметр е = 20. Как показали расчеты, это минимальное значение, при котором сохраняются наиболее важные характеристики лица, необходимые и достаточные для систем лицевой биометрии: контуры и ключевые точки. Такой детальности достаточно для решения задачи распознавания спуфинг-атак с экранов носимых устройств.

Ниже приведены матричные видеоизображения с различными значениями параметра К - количеством кадров, по которым строится матрица.

в) К = 5 г) К = 10

Рис. 4. Примеры видеоизображений для различных значений параметра К, построенных по частотной формуле

С ростом количества кадров матрица начинает включать в себя избыточное количество информации о движении объекта. Проведенные эксперименты показали, что решение поставленной задачи обеспечивается при расчете матрицы всего но двум соседним кадрам, то есть К = 2. Это минимальное возможное количество кадров, по которым может быть получено видеоизображение. Матрица, построенная по двум кадрам, передает самое точное изменение изображения за одну условную единицу времени.

Таким образом, результатом выполнения первого этапа является формирование из последовательности видеокадров длины N + 1 набора из N матриц межкадровых разностей (при значениях К = 2 и е = 20). Сформированный таким образом набор матриц служит входом для выполнения второго этана, заключающихся в обработке полученных на первом этапе данных пред обученной нейросетью и предсказании вероятности распознавания спуфинг- атаки.

3. Нейросетевая модель

Положительные примеры Негативные примеры

а) б)

Рис. 5. Примеры видеоизображений: а) реальное видеоизображение лица, б) видеоизображение лица с экрана

3.1. Подготовка данных

При обучении сети в рамках разработанного подхода позитивными примерами являются кадры реального лица человека, негативными примерами являются кадры лиц, снятых с экрана смартфона, планшета или ноутбука.

Подготовленные данные разбиваются на три части: тренировочную, валидационную и тестовую с сохранением соотношения позитивных и негативных примеров в каждой части. Нейронная сеть принимает на вход изображения с размерами 256 х 256 х 3, так как используется предобученная сеть с фиксированными входными размерами, и поэтому все кадры видеопотоков приводятся к этим размерам. Затем строятся межкадровые разности для каждой нары соседних кадров по амплитудной формуле 1 или но частотной формуле 2. Именно эти разности являются входами нейронной сети.

3.2. Обучение нейронной сети

На данном этапе происходит обучение нейронной сети, которая решает задачу бинарной классификации: является ли видеоизображение реальным или нет. В качестве основы нейронной сети взята сеть VGG-16 [4|.

Для того чтобы решать задачу классификации, последние 4 слоя нейронной сети были заменены на следующие слои: max pooling, fullv connected (1024), fullv connected (128), fullv connected (1). Замена слоев выполняется для того, чтобы выход сети соответствовал необходимому решению задачи - предсказанию одного числа р, которое эквивалентно вероятности

принадлежности входного видеоизображения одному из двух классов: видеоизображение реального лица человека, видеоизображение лица человека, которое было получено путем съемки с экрана устройства.

Рис. 6. Архитектура VGG-16

Эксперименты проводились на сети, которая была предобучена на данных ImagcNct [5], т.е. модель уже имела начальные веса. В ходе экспериментов дообучались только верхние измененные слои, веса нижних слоев при обучении не изменялись. Функцией потерь обучения сети является бинарная кросс-энтропия, оптимизатором стохастический градиентный спуск с шагом 10-4. На вход сеть получает видеоизображения тренировочных данных, на выход выдает одно число вероятность, с которой изображение является реальными или примером атаки.

3.3. Предсказания модели

Следующим этапом является классификация новых видеоизображений обученной сетью. Предсказанием нейронной сети является вероятность того, что видеоизображение было получено из видеопотока реального лица. В таблице ниже приведены результаты выполненных расчетов для сравнения качества предсказаний на тестовых данных по амплитудной и частотной формулам.

Т а б л и ц а 1

Метрики качества предсказаний модели с амплитудными видеоизображениями

Позитивные примеры Негативные примеры

precision 0.855 0.838

recall 0.833 0.859

F1 0.844 0.848

Анализ представленных данных позволяет сделать вывод о том, что и амплитудный, и частотный подходы обеспечивают высокое качество решения поставленной задачи. Вместе с тем следует обратить внимание на то, что качество распознавания спуфинг-атак при использовании частотного метода построения межкадровых разностей выше по всем показателям.

Таблица2

Метрики качества предсказаний модели с частотными видеоизображениями

Позитивные примеры Негативные примеры

precision 0.986 0.906

recall 0.897 0.987

F1 0.940 0.945

4. Заключение

На основе экспериментов, проведенных при разработке и тестировании предлагаемого метода распознавания рассмотренного класса спуфинг-атак, можно сделать вывод о том, что предложенный метод достаточно эффективен длля решения поставленной задачи и при этом хорошо автоматизируется. Подход на основе оценки частоты изменения параметров видеоизображения показывает при этом более высокие показатели качества, чем аналогичный подход, основанный на обработке амплитудных разностей.

Литература

1. Merghani W., Davidson А.К., Yap М.Н. A review on facial micro-expressions analysis: datasets, features and metrics. 2018.

2. Chakraborty S., Das D. An overview of face liveness detection // International Journal on Information Theory. 2014. V. 3, N 2.

3. Muhkuh B.A. ВиброИзображение. Реноме, 2007.

4. Simonyan К., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. 2014.

5. Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L. Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. 2009. P. 248-55.

References

1. Merghani W., Davidson A.K., Yap M.H. A review on facial micro-expressions analysis: datasets, features and metrics. 2018.

2. Chakraborty S., Das D. An overview of face liveness detection // International Journal on Information Theory. 2014. V. 3, N 2.

3. Minkin V.A. Vibrolmage. Renome, 2007.

4. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. 2014.

5. Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L. Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. 2009. P. 248-55.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поступила в редакцию 21.07.2020

i Надоели баннеры? Вы всегда можете отключить рекламу.