АЛГОРИТМ ИДЕНТИФИКАЦИИ ЛИЦ И ПРЕСТУПНЫХ ДЕЙСТВИЙ

Хади Намир Мохамед

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

DOI: 10.33693/2313-223X-2022-9-3-19-31

Алгоритм идентификации лиц и преступных действий

Н.М.Хади ©

Российский технологический университет МИРЭА, г. Москва, Российская Федерация

E-mail: namir.1998@gmail.com

Аннотация. В настоящее существует ряд неразрешенных проблем в идентификации образов. Если у человека будет что-нибудь на лице, например маска или очки, или в какой-нибудь момент часть лица будет прикрыта одеждой, волосами или предметом, то система видеонаблюдения может потерять человека из виду. Идентификация значительно ухудшается, и распознавание человека происходит только спустя некоторое время. Целью данной работы является совершенствование существующих методов распознавания. В работе предлагается алгоритм, который основан на мультикаскадном методе и методе детектировании объектов. Данный алгоритм способен определять человека по действиям преступного характера и по лицу за счет выделения некоторых частей лица в виде квадратов и прямоугольников при помощи библиотеки компьютерного зрения. В результате тестирования алгоритм показал высокую точность определения с использованием видеускори-теля объемом 16 ГБ видеопамяти.

Ключевые слова: машинное обучение, глубокая сверточная нейронная сеть, Kaggle, ориентиры.

f ^

ССЫЛКА НА СТАТЬЮ: Хади Н.М. Алгоритм идентификации лиц и преступных действий // Computational nanotechnology. 2022. Т. 9. № 3. С. 19-31. DOI: 10.33693/2313-223X-2022-9-3-19-31

v J

Хади Н.М. 1.2.1

DOI: 10.33693/2313-223X-2022-9-3-19-31

Identification Algorithm

N.M. Hadi ©

Russian Technological University MIREA, Moscow, Russian Federation

E-mail: namir.1998@gmail.com

Abstract. Currently, there are a number of unresolved problems in the identification of images. If a person is wearing something on their face, such as a mask or glasses, or at some point part of the face is covered by clothing, hair or an object, then the video surveillance system may lose sight of the person. Identification deteriorates significantly, and recognition of a person occurs only after some time. The purpose of this work is to improve the existing methods of recognition. The paper proposes an algorithm based on the multi-cascade method and the object detection method. This algorithm is able to identify a person by the actions of a criminal nature and by the face by highlighting some parts of the face in the form of squares and rectangles using the computer vision library. As a result of testing, the algorithm showed high detection accuracy using a GPU with 16 GB of video memory.

Key words: machine learning, deep convolutional neural network, Kaggle, landmarks.

Faces and Criminal Actions

FOR CITATION: Hadi N.M. Identification Algorithm Faces and Criminal Actions. Computational Nanotechnology. 2022. Vol. 9. No. 3. Pp. 19-31. (In Rus.) DOI: 10.33693/2313-223X-2022-9-3-19-31

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

ВВЕДЕНИЕ

Задача выделения лица человека в естественной или искусственной обстановке и последующей идентификации всегда находилась в ряду самых приоритетных задач для исследователей, работающих в области систем машинного зрения и искусственного интеллекта. Тем не менее, множество исследований, проводящихся в ведущих научных центрах всего мира в течение нескольких десятилетий, так и не привело к созданию реально работающих систем компьютерного зрения, способных обнаруживать и распознавать человека в любых условиях. Несмотря на близость задач и методов, используемых при разработке альтернативных систем биометрической идентификации человека таких как идентификация по отпечатку пальца или по изображению радужной оболочки, системы идентификации по изображению лица существенно уступают вышеперечисленным системам.

Серьезной проблемой, стоящей перед системами компьютерного зрения, является большая изменчивость визуальных образов, связанная с изменениями освещенности, окраски, масштабов, ракурсов наблюдения. Кроме того, люди имеют привычку ходить по улицам и в помещении одетыми, что приводит к существенной изменчивости изображений одного и того же человека.

Решение этой проблемы лежит в правильном выборе описания объектов, для обнаружения и распознавания которых создается система. Описание объекта должно учитывать его наиболее характерные особенности и быть достаточно представительным, чтобы отличать данный объект от остальных элементов окружающей сцены.

За последнее время было создано множество алгоритмов, благодаря которым качество распознавания лиц становилось лучше, такие как: иерархическая пирамида сетей разнообразного внимания (ИПСРВ) [2], где предлагается пирамида разнообразного внимания для автоматического и адаптивного изучения многомасштабных разнообразных локальных представлений. Суть этого алгоритма состоит в том, чтобы модели [3; 4] могли сосредоточиться на различных локальных участках и генерировать разнообразные локальные особенности. Также существует такой алгоритм, как каноническое представление лиц сверточной нейронной сети (КПЛ-СНС) [5], основанный на контролируемом автокодировщике, который может отображать расхождение между исходным и целевым доменами, встречающимися в сценарии распознавания для неподвижного видео. Были также созданы глубокие свер-точные нейронные сети с использованием триплетных потерь [9], такие как: магистральный ответвленный набор глубоких сверточных нейронных сетей (МОН-СНС) [6], где извлекаются дополнительные характеристики из целостных изображений лица, а также участков лица вокруг ориентиров через магистральные и ответвленные сети соответственно, и сеть Haamet [7] с симбиозом GoogleNet [8], которая эффективно изуча-

ет целостное представление лица, в то время как ветви изучают больше локальных и асимметричных черт, связанных с позой или особыми чертами лица, посредством особенностей, подобных Хаару.

В первом параграфе происходит сравнение ней-росетевых систем, и на основе результатов делается вывод, какой алгоритм необходимо использовать. Во втором параграфе происходит обзор алгоритмов на основе мультикаскадного метода и метода детектировании объектов. В третьем параграфе происходит разработка нейросетевой системы в инструментарии Kaggle. В четвертом параграфе проводится тестирование с использованием видеокарты на 16 Гб видеопамяти.

1. СРАВНЕНИЕ НЕЙРОСЕТВЫХ СИСТЕМ

Производительность вышеупомянутых систем распознавания лиц на основе видео оценивается с использованием набора данных Cox Face DB [10]. Этот набор данных специально собран для приложений, использующих видеонаблюдение. Данный набор данных состоит из высококачественных неподвижных лиц, снятых с помощью фотоаппаратов в контролируемых условиях и видео низкого качества, снятых с разных видеокамер в неконтролируемых условиях. Пример фото и видео продемонстрирован на рис. 1.

Эталонное неподвижное изображение [Reference still image]

Примеры видеоизображений [Examples of video images]

Рис. 1. Пример качественного эталонного неподвижного

изображения и случайного некачественного видеоизображения соответствующего человека, снятого фотоаппаратом и тремя видеокамерами [Huang, 2015]

Fig. 1. An example of a good quality reference still image and a random low quality video image of the corresponding person captured by a camera and three video cameras [Huang, 2015]

1.1. Эталонное неподвижное изображение [Reference still image]

Системы оцениваются в соответствии с экспериментальным протоколом, предложенным в [10], где области интереса (ОИ) каждого пробного видео сравнивается с ОИ эталонных неподвижных изображений, и распознавание Rank-1 сообщается как точность распознавания лиц. Поскольку для систем распознавания лиц на основе видео часто требуются обработка в реальном

времени, также следует учитывать вычислительную сложность таких систем. В этом отношении сложность можно определить по количеству операций (чтобы сопоставить ОИ пробного видео с ОИ эталонного неподвижного изображения), количеству сетевых параметров и слоев. Чтобы подтвердить качество классификации систем видеонаблюдения на базе нейронной сети для работы в реальном времени, в табл. 1 представлены результаты, показывающие качество классификации каждой нейронной сети и ее вычислительную сложность.

Таблица 1

Распознавание Rank-1 и вычислительная сложность систем распознавания лиц на основе видео из набора данных Cox Face DB [Bashbaghi, 2018] [Rank-1 recognition and computational complexity of video-based face recognition systems from the Cox Face DB [Bashbaghi, 2018]]

Система распознавания лиц [Face system recognition] Rank-1 распознавание [Rank-1 recognition] Вычислительная сложность [Computational complexity]

Операции [Operations] Параметры, млн [Parameters, mn] Слои [Layers]

ИСПРВ [HPDA] 92,35 ± 0,7 7,2 млрд [bn] 24,7 94

КПЛ-СНС [CFR-CNN] 87,29 ± 0,9 3,75 млн [mn] 1,2 7

МОН-СНС [TBE-CNN] 90,61 ± 0,6 12,8 млрд [bn] 46,4 144

Haarnet 91,40 ± 1,0 3,5 млрд [bn] 13,1 56

Из табл. 1 видно, что ИСПРВ, МОН-СНС и HaarNet обеспечивают наивысший уровень точности среди рассмотренных алгоритмов. Хотя КПЛ-СНС не может превзойти эти архитектуры, данная архитектура может достичь удовлетворительных результатов со значительно меньшей вычислительной сложностью. Более того, количество рабочих параметров и уровней сети являются ключевыми факторами при разработке глубоких СНС, которые могут значительно влиять на сходимость и время обучения. Учитывая эти критерии, КПЛ-СНС имеет самую низкую сложность конструкции, и, следовательно, кратчайшее время сходимости. Из полученных результатов, делается вывод, что в качестве алгоритма необходимо использовать метод, основанный на каскадах. Одним из самых популярных и надежных методов является мультикаскадный метод.

2. ОБЗОР АЛГОРИТМОВ

ПО СОЗДАНИЮ НЕЙРОСЕТЕВОЙ СИСТЕМЫ

2.1. Распознавание людей

по действиям преступного характера

Одна из важнейших задач видеонаблюдения - обнаружение аномальных событий, таких как дорожно-транспортные происшествия, преступления или незаконные действия. Как правило, аномальные события происходят редко по сравнению с нормальной деятельностью. Таким образом, для сокращения затрат труда и времени разработка интеллектуальных алгоритмов компьютерного зрения для автоматического обнаружения аномалий в видео является насущной необходимостью. В [12] цель практической системы обнаружения

аномалий - своевременно сигнализировать об активности, которая отклоняется от нормальных шаблонов, и определить временное окно возникающей аномалии. Следовательно, обнаружение аномалий можно рассматривать как анализ видео, который отфильтровывает аномалии из нормальных шаблонов. Как только аномалия обнаружена, она может быть далее отнесена к одному из конкретных видов деятельности с использованием методов классификации. Структурная схема обнаружения аномалий представлена на рис. 2.

Предлагаемый подход начинается с разделения видеонаблюдения на фиксированное количество сегментов во время обучения. Эти сегменты образуют экземпляры. Используя как положительные (аномальные), так и отрицательные (нормальные) пакеты, обучается модель обнаружения аномалий с использованием на выбор одной из 8 моделей нейросетей.

2.2. Идентификатор распознавания лиц

Каскадный детектор лица, предложенный Виолой и Джонсоном [13], использует признаки Хаара и AdaBoost для обучения каскадных классификаторов, достигая хороших результатов с эффективностью в реальном времени. Тем не менее значительное количество работ [14; 15; 16] показывают, что производительность этого детектора будет значительно снижена в реальных приложениях с большими визуальными вариациями человеческих лиц даже с более продвинутыми признаками и классификаторами. Поэтому предлагается метод мультизадачной каскадной свер-точной сети (МЗКСС). Нейронная сеть, основанная на МЗКСС, состоит из трех этапов. На первом этапе

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

Аномальное видео [Anomaly video]

...

Положительный пакет

[Positive bag] D

D Видеосегмент пакета

[Bag instance (video segment)]

Отбор кадров в положительный пакет [Instance scores in positive bag]

WL I I I

I I I I

32 временных сегмента [32 temporal segments]

I I ill-

i i i i

Нормальное видео [Normal video]

Извлечение 3й-признаков для каждого видеосегмента [C3D feature extraction for each video segment]

Предварительно обработанная SD ConvNet [Pre-trained 3D ConvNet]

Отрицательный пакет [Negative bag]

E rc ts £ и m £2 с is га~ огр ж spa ar оа st

с гла th ns

ь гс it o

» s * S

i il g

и о bfl-c ^ "g

ан о

Отбор кадров в отрицательный пакет [Instance scores in negative bag]

Рис. 2. Диаграмма модели нейросетевой системы, распознающей людей по действиям преступного характера [Sultani, 2019] Fig. 2. Diagram of a model of a neural network system that recognizes people by actions of a criminal nature [Sultani, 2019]

сеть быстро генерирует окна-кандидаты через неглубокую СНС. Затем сеть использует более сложную СНС, чтобы отклонить большое количество окон и уточнить нужное. Наконец, сеть использует более мощную СНС для уточнения результатов и вывода пяти местоположений лицевых ориентиров. Пример обнаружения лица показан на рис. 3.

Тестовое изображение [Test image]

Пирамида изображений [Image pyramid]

Этап 1 [Stage 1] P-Net

Этап 2 [Stage 2] R-Net

Этап 3 [Stage 3] O-Net

NMS и регрессия ограничительной

рамки [NMS & bounding box regression]

NMS и регрессия ограничительной

рамки [NMS & bounding box regression]

NMS и регрессия ограничительной

рамки [NMS & bounding box regression]

Рис. 3. Конвейер каскадной структуры, включающей трехуровневую МЗКСС [Zhang, 2016]

Fig. 3. Pipeline cascading structure including three-level MTCNN [Zhang, 2016]

Во-первых, окна-кандидаты создаются через сеть быстрого предложения (Р-№^. Во-вторых, уточняются кандидаты на следующем этапе через сеть уточнений В-третьих, выходная сеть генерирует

окончательную ограничивающую рамку и местоположения ориентиров лица. В первой фазе используется полностью сверточная сеть, называемая чтобы

получить окно лица кандидата и его регрессионный вектор ограничительной рамки. Затем кандидаты калибруются на основе оцененного вектора регрессии ограничивающего прямоугольника. После этого используется NMS для объединения сильно перекрывающихся кандидатов. Во второй фазе все кандидаты отправляются в другую СНС, называемой R-Net, которая дополнительно отклоняет большое количество неправильных кандидатов, использует регрессию ограничивающего прямоугольника для выполнения калибровки и выполняет NMS. Третья фаза аналогична второй, но на этой фазе цель состоит в том, чтобы идентифицировать более контролируемые области лица.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В [18] разработано несколько СНС для распознавания лиц. Однако их производительность может быть ограничена следующими факторами:

• некоторым фильтрам в сверточном слое не хватает распределения, что может ограничивать их способность к различию;

• по сравнению с другими многоклассовыми задачами обнаружения и классификации обнаружение лиц является сложной задачей двоичной классификации, поэтому для каждого слоя может потребоваться меньше фильтров.

С этой целью уменьшается количество фильтров и заменяется фильтр 5 х 5 на фильтр 3 х 3, чтобы уменьшить количество вычислений и увеличить глубину для повышения производительности. Благодаря этим улучшениям можно получить лучшую производительность с меньшим временем выполнения по сравнению с предыдущей архитектурой в [18]. Архитектура СНС пока-

зана на рис. 4. Для данной СНС применятеся PReLU [19] как нелинейная функция активации после свертки и полностью связанных слоев (за исключением выходного слоя).

Используются три задачи для обучения детектора СНС: классификация лица / не лица, регрессия ограничительной рамки и позиционирование ориентиров лица.

Цели обучения сформулированы как два типа задач классификации. Для каждого образца х. используются потери перекрестной энтропии:

If =-[ ydet log (p, ) + (l - yf )(1 - log (Pi ))] , (1)

где p. - вероятность того, что выборка х, сгенерированная сетью, является лицом; y l - ярлык истины.

P-Net

Conv: 3 х 3 MP: 2 х 2

Conv: 3 х 3

12 х 12 х 3 5 х 5 х 10

Исходной размер [Input size]

3 х 3 х 16

1 х 1 х 32

Классификация лица [Face classification]

Регрессия ограничительной рамки [Bounding box regression]

Позиционирование ориентиров лица [Facial landmark localization]

1 х 1 х 2

1 х 1 х 4

1 х 1 х 10

Г"

Conv: 3 х 3 MP: 3 х 3

R-Net

Полное Conv: 2 х 2 подключение [Fully connect]

24 х 24 х 3 11 х 11 х 28

Исходной размер [Input size]

4 х 4 х 48

3 х 3 х 64

128

□ Классификация лица [Face classification]

2

□ Регрессия ограничительной рамки [Bounding box regression]

4

□ Позиционирование ориентиров лица [Facial landmark localization]

10

O-Net

Conv: 3 х 3 MP: 3 х 3

Conv: 3 х 3 MP: 2 х 2

Conv: 2 х 2

48 х 48 х 3 23 х 23 х 32

Исходной размер [Input size]

10 х 10 х 64

4 х 4 х 64

Полное подключение [Fully connect]

256

3 х 3 х 128

Классификация лица [Face classification]

Регрессия ограничительной рамки [Bounding box regression]

Позиционирование ориентиров лица [Facial landmark localization]

Рис. 4. Архитектура P-Net, R-Net и O-Net:

MP - операция подвыборки; Conv - свертка [Zhang, 2016]

Fig. 4. P-Net, R-Net and O-Net architecture:

MP - subfetch operation; Conv - convolution [Zhang, 2016]

Для каждого окна-кандидата прогнозируется его смещение от ближайших координатов (т.е. слева, сверху, высоты и ширины ограничивающего прямоугольника). Цель обучения выражается в виде проблемы регрессии. Используется евклидова потеря для каждого образца х1:

rbox _ box _ box

Li = У i - yi

(2)

где у. - цель регрессии, полученная из сети; у. - абсолютно истинная координата, это 4-мерный вектор.

Подобно задаче регрессии ограничительной рамки, обнаружение ориентиров лица сформулировано как проблема регрессии, и минимизируется евклидова потеря:

т landmark _ landmark Li -

y landmark

' У i Ib'

где у. - координаты лицевого ориентира, полученные из сети; у - точная координата для -го образца, 10-мерный вектор, у которого пять ориентиров на лице, включающие левый глаз, правый глаз, нос, левый угол рта и правый угол рта.

Некоторые функции потерь не используются (т.е. уравнения (1)-(3)). Например, для выборок в фоновой области рассчитываются только Ьйег, а две другие потери устанавливаются в 0. Это может быть достигнуто непосредственно с помощью индикатора типа выборки. Тогда общая цель обучения может быть выражена как:

N

min Z Z ajß íLi'

i=1 je{det, box, landmark}

(4)

где N - количество обучающих образцов; а. указывает

(3) на важность задачи.

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

Используется (a,, = 1, a, = 0,5, a, , , = 0,5) в P-Net

J v det ' box ' ' landmark ' '

и R-Net, в то время как (а,, = 1, а = 0,5, а, , , = 1)

det box landmark

в O-Net, чтобы получить более точные данные лицевых ориентиров. ß i е {0, 1} является индикатором типа выборки. В этом случае необходимо использовать произвольный градиентный спуск для обучения этих СНС.

В отличие от традиционного интеллектуального анализа сложных образцов после первоначального обучения классификаторов, выполняется интерактивный анализ сложных образцов в задачах классификации лиц/нелиц, чтобы приспособиться к процессу обучения. В каждой мини-партии сортируются рассчитанные потери при прямом распространении из всех образцов и выбираются верхние 70% из них в качестве сложных образцов. Затем рассчитывается только градиент этих сложных образцов при обратном распространении. Это означает, что игнорируются простые образцы, которые не очень полезны для усиления детектора во время обучения.

3. РАЗРАБОТКА НЕЙРОСЕТЕВОЙ СИСТЕМЫ

Для создания нейросетевой системы необходимо объединить 2 нейросети: нейросеть, определяющая преступные действия и нейросеть, определяющая человека по лицу.

Алгоритм данной нейросетевой системы изображен на рис. 5

Сперва берется набор данных Violence and NonViolence Dataset, в котором содержится около 11 тысяч изображений. Все видео разбиты на стопкадры. Затем происходит определение изображений по классам, есть ли там насилие, или отсутствует. После определения по классам выбирается одна из 8 моделей нейросе-тей для распознавания возможного насилия, в данной работе для примера выбирается модель MobilenetV2. После выбора нейросети происходит настройка скорости обучения. По окончанию обучения выводятся результаты о потерях и точности классификации при определении сцен насилия. После определения сцен насилия происходит распознавание людей по лицу, и выводится информация об итоговой классификации изображений.

На рис. 6 изображено, как работает архитектура распознавания лиц в нейросетевой системе, распознающей сцены насилия.

В заранее классифированной сцене, где присутствует насилие, происходит классификация лиц, затем делается регресссия ограничительной рамки, то есть каждого окна-кандидата прогнозируется его смещение от ближайших координатов. После позиционируются ориентиры лица, чтобы при идентификации выделялись отличительные черты лица в виде квадратов и прямоугольников. В конце идет обучение с несколькими источниками и онлайн-добыча сложных образцов.

Выбирается набор данных из архива под названием 5 Celebrity Faces Dataset. На рис. 7 распаковывается архив с данными.

Рис. 5. Алгоритм нейросетевой системы, определяющей сцены насилия с методом распознавания человека по лицу Fig. 5. Algorithm of a neural network system that determines scenes of violence with the method of recognizing a person by face

Рис. 6. Алгоритм архитектуры распознавания лиц Fig. 6. Algorithm of the architecture of face recognition

1 !kaggle datasets download -d dansbecker/5-celebrity-faces-dataset

Downloading 5-celebrity-faces-dataset.zip to /content

0% 0.00/5.03M [00:00<?, ?B/s] 100% 5.03M/5.0BM [00:00<00:00, 43.8MB/s]

1 ! Is

5-celebrity-faces-dataset.zip drive sampledata

1 !unzip 5-celebrity-faces-dataset.zip

Archive: 5-celebrity-faces-dataset.zip

inflating: data/train/benafflek/httpcsvkmeuaeccjpg.jpg

inflating: data/train/ben_afflek/httpimagesfandangocomrImageRendererredesignstaticimgnoxportraitjpgpcpcpcimagesmasterrepositoryperformerimagespjpg.jpg inflating: data/train/ben_afflek/httpssmediacacheakpinimgcomxdbbdbbbececacdecdcdfjpg.jpg inflating: data/train/benafflek/httpssmediacacheakpinimgcomxdfdfadcfeabjpg.jpg

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 7. Архив данных 5 Celebrity Faces Dataset Fig. 7. Data Archive 5 Celebrity Faces Dataset

Рис. 8. Импорт лица Fig. 8. Face import

После чего можно начать тренировать нейронную сеть на разных лицах. На рис. 8 импортируется лицо знаменитости.

Помимо самого определения местоположения лица прописываются ключевые особенности, такие как глаза, нос и рот. На рис. 9 изображено распознавание лица по ключевым особенностям.

Для тренировки нейросети можно взять изображение другой знаменитости. На рис 10 для дальнейшего обучения убирается лишний фон, чтобы акцент делался исключительно на лице. После проведенной опера-

Рис. 9. Распознавание лица по ключевым особенностям Fig. 9. Facial recognition by key features

ции загружается лицо, с которым будет сопоставляться человек и совершенно другое лицо для дальнейшей проверки правильного распознавания.

После загрузки лиц используется метод вложений, используемый для представления дискретных переменных в виде непрерывных векторов, и после этого похожие вектора. Если схожесть векторов больше 0,5, то лица совпадают, а если меньше - не совпадают. На рис. 11, 12 изображены результаты обучения нейро-ной сети на лицах из рис. 10.

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

Рис. 10. Загрузка лиц для распознавания без заднего фона Fig. 10. Loading faces for recognition without a background

[0.23286936 0.36629796 0.70134825 ... 0.1558358 5.626237 0. ]

(1 Face Matched1, 0.4Д18Д10062789917)

Рис. 11. Результат сравнения первого изображения со вторым Fig.11. The result of comparing the first image with the second

[0. 3.4173875 0. ... 0.6377035 6.987985 0. ]

("Face Not Matched', 0.6494752466678619)

Рис. 12. Результат сравнения второго изображения с третьим Fig. 12. The result of comparing the second image with the third

4. ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ

Для тестирования применяется набор данных Violence and Non-Violence Dataset. Тестирование будет проводится в иструментарии Kaggle. Предоставленная бесплатная виртуальная машина имеет следующую конфигурацию:

• двухъядерный процессор Intel Xeon с частотой 2 ГГц;

• 13 Гб оперативной памяти;

• видеокарта Nvidia Tesla P-100 с 16 Гб видеопамяти с версией драйверов 450.119.04 с частотой 1,32 ГГц;

• жесткий диск на 73 Гб.

После запуска (рис. 13) будут выводиться изображения с насилием и без насилия. В табл. 2 показано нахождение изображений, принадлежащих к двум классам.

Таблица 2

Нахождение изображений, принадлежащих к двум классам [Finding images that belong to two classes]

На рис. 14 показано обучение модели после вывода изображений на примере МоЫ1епе^2.

На рис. 15 изображены потеря обучения и валида-ции, а также точность обучения и валидации. Из рисунка можно сделать вывод, что лучшая эпоха во время обучения и валидации является 8 эпоха.

В табл. 3 внесены данные о точности и потери при обучении.

Таблица 3

Модель метрик после обучения [Model metrics after training]

Метрика [Metric] Значение [Value]

Потеря [Loss] 0,14213

Точность [Accuracy] 0,97830

Итоговая точность после обучения составила 97,83%. Далее на рис. 16 показано, какие входные данные подаются, к какому возможному классу они относятся, к какому классу они на самом деле относятся и вероятность этого.

Далее на рис. 17 показан вывод ошибок по классам на тестовой выборке.

После вывода ошибок по классам (рис. 18) создается матрица ошибок определения сцен насилия в изображениях.

Found 9957 images belonging to 2 classes Found 1106 images belonging to 2 classes

Ненасилие [Nonviolence]

Насилие [Violence]

Ненасилие [Nonviolence]

Насилие [Violence]

Ненасилие [Nonviolence]

Насилие [Violence]

Ненасилие [Nonviolence]

1 é l^U j M

•Бш

Насилие [Violence]

Ненасилие [Nonviolence]

Насилие [Violence]

МЫ

Рис. 13. Изображения с определением насилия Fig. 13. Images with a definition of violence

По итогу (рис. 19) составляется отчет о классификации нейросетевой модели с распознаванием лиц в сценах насилия.

В табл. 4 показана модель метрик после обучения.

Таблица 4

Модель метрик после обучения [Model metrics after training]

Метрика [Metric] Значение [Value]

Потеря [Loss] 0,16718

Точность [Accuracy] 0,96713

По результатам, приведенном выше, итоговая точность классификации после обучения составляет 96,713%.

ЗАКЛЮЧЕНИЕ

По итогам в этой работе рассмотрены актуальные на данный момент алгоритмы распознавания лиц на основе нейронных сетей, такие как: иерархическая пирамида сетей разнообразного внимания, глубокие сверточные нейросети с использованием автокодировщика и глубокие сверточные нейросети с использованием триплетных потерь, проведено исследование принципов построения нейросетевых систем и сравнение алгоритмов.

Разработан алгоритм, основанный на мульти-каскадном методе и методе детектирования объектов, который определяет человека по действиям преступного характера и по лицу за счет выделения некоторых частей лица в виде квадратов и прямоугольников.

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_t

9412688/9406464 ^жмтштшшмшшжжтшжшшштшжшжшшжшшжт! - QS QüS/Step

Starting training using base model MobilenetV2 training all layers

Epoch 1/10

312/312 - 109s - loss: 6.9691 - accuracy: 0.9161 - val_loss: 2.8864 - val_accuracy: 0.6239 Epoch 2/10

for epoch 1 training accuracy improved from 0.0000 to 0.9161 learning rate held at 0.001

312/312 - 775 - loss: 1.1952 - accuracy: 0.9675 - val_loss: 0.6615 - val_accuracy: 0. Epoch 3/10 .9439

for epoch 2 validation loss improved from 2.88643 to 0.66152, saving best weights learning rate held at 0.001

312/312 - 77s - loss : 0.3966 - accuracy: 0.9736 - val_loss: 0.3357 - val_accuracy: 0. Epoch 4/10 .9403

for epoch 3 validation loss improved from 0.66152 to 0.33569, saving best weights learning rate held at 0.001 008081

312/312 - 76s - loss: 0.2118 - accuracy: 0.9809 - val_loss: 0.3676 - val_accuracy: 0. Epoch 5/10 .8942

for epoch 4 val_loss of 0.36757 > 0.33569 for 1 epochs, lr adjusted to 0.060588801

312/312 - 765 - loss: 0.1521 - accuracy: 0.9887 - val_loss: 0.3275 - val_accuracy: 0. Epoch 6/10 .8879

|for epoch 5 validation loss improved from 0.33569 to 0.32752, saving best weights learning rate held at 0.000

312/312 - 76s - loss: 0.1258 - accuracy: 0.9924 - val_loss: 9.4099 - val.accuracy: 9.8336 Epoch 7/10_

for epoch 6 val_loss of 0.40987 > 0.32752 for 1 epochs, lr adjusted to 0.00025

312/312 - 76s - loss: 0.1094 - accuracy: 0.9955 - val.loss: 0.2015 - val_accuracy: 0.9430 Epoch 8/10

for epoch 7 validation loss improved from 0.32752 to 0.20152, saving best weights learning rate held at 0.00025

312/312 - 76s - loss: 0.1042 - accuracy: 0.9950 - val_loss: 0.1421 - val_accuracy: 0.9783 Epoch 9/10

for epoch 8 validation loss improved from 0.20152 to 0.14213, saving best weights learning rate held at 0.00025

312/312 - 77s - loss: 0.0992 - accuracy: 0.9956 - val_loss: 0.2261 - val_accuracy: 0.9394 Epoch 10/10_

for epoch 9 val_loss of 0.22687 > 0.14213 for 1 epochs, lr adjusted to 0.08012

val_loss of 8.17408 > 0.14213 for 1 epochs, lr adjusted to 0.00006250

7 6 5

1л <л

S 4

g 3 1=

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 14. Обучение модели Fig.14. Model Training

-

■ — Потери обучения

[Training loss] — Потери валидации

[Validation loss] О Лучшая эпоха (8) [Best epoch (8)]

4 6

Эпоха [Epoch] a

1,00

0,95

0,90

>■

0,85

u

< 0,80

-O

и

I T 0,75

£

0,70

0,65

0,60

— —• ""

/ i / i

— — Точность обучения [Training accuracy]

- ючность валидации [Validation accuracy] О Лучшая эпоха (8)

[Best epoch (8)] 1

2 4 6

Эпоха [Epoch] b

10

Рис. 15. Потеря обучения и валидации, точность обучения и валидации Fig. 15. Training and validation loss, training and validation accuracy

Filename

Predicted Class

True Class

Probability

non violence/NV 104.mp4 fraeiel.jpg

violence

non violence

non_violence/NV_108.mp4_frameG.j pg

violence

non violence

0.7505

non violence/NV 108.mp4 fra»el.jpg

violence

non violence

non violence/NV 116.mp4 franel.jpg

violence

non violence

non_violence/NV_119.mp4_frame2.j pg

violence

non violence

non violence/NV 119.mp4 fra«e4.jpg

violence

non violence

non violence/NV 138.mp4 fra«e3.jpg

violence

non violence

non violence/NV 139.mp4 framel.jpg

violence

non violence

non violence/NV 139.mp4 frame3.jpg

violence

non violence

non violence/NV 14.np4 franel.jpg

violence

non violence

non violence/NV 14.np4 frame2.jpg

violence

non violence

non violence/NV 14.np4 frame3.jpg

violence

non violence

non violence/NV 147.mp4 fra«e3.ipg

violence

non violence

non violence/NV 148.mp4 frame4.jpg

violence

non violence

0.6153

non violence/NV 152.mp4 frame0.jpg

violence

non violence

non violence/NV 155.mp4 fra«e4.ipg

violence

non violence

non violence/NV 162.mp4 frame0.jpg

violence

non violence

0.8945

non violence/NV 162.mp4 frame4.jpg

violence

non violence

non violence/NV 167.mp4 framel.ipg

violence

non violence

0.6703

violence/V l.mp4 fra«e0.ipg

non violence

violence

violence/V l.mp4 fra«e6.ipg

non violence

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

violence

violence/V 122.mp4 frame5.jpg

non violence

violence

violence/V 153.mp4 frame2.jpg

non violence

violence

violence/V 17.mp4 frane0.jpg

non violence

violence

Рис. 16. Вероятность принадлежности к определенному классу Fig. 16. Probability of belonging to a particular class

Насилие [Violence]

Ненасилие [Nonviolence]

G,G 2,5 5,G 7,5 1G,G 12,5 15,G 17,5

Рис. 17. Ошибки по классам на тестовой выборке Fig. 17. Errors by class on test set

ИСКУССТВЕННЫМ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

19

Ненасилие [Nonviolence] Насилие [Violence]

Прогнозируемые [Predicted]

Рис. 18. Матрица ошибок Fig. 18. Confusion matrix

Спроектирована нейросетевая система с использованием библиотеки компьютерного зрения и протес-

тирована с использованием наборов данных лиц и наборов данных по действиям преступного характера в инструментарии Kaggle.

Classification Report:

precision

0 1

accuracy macro avg weighted avg

0.99 0.97

0.98 0.98

recall fl-score support

0.96 0.98 523

0.99 0.98 583

0.98 1106

0.98 0.98 1106

Рис. 19. Отчет о классификации Fig. 19. Classification report

При создании нейросетевой системы стоит учитывать, что необходим графический ускоритель GPU с объемом видеопамяти минимум 16 Гб. Процессор и видеоускоритель были нагружены на 98%, а объем использованной видеопамяти составлял 15,8 Гб из 16. Данную разработку можно применить для выявления насилия в общественных местах, таких как школы, парки, скверы, остановочные пункты общественного транспорта и т.д.

5

Литература

1. Выделение и распознавание лиц [Электронный ресурс]. URL : http://wiki.technicalvision.ru/index.php/Выделение_ и_распознавание_лиц (дата обращения: 20.06.2022).

2. Wang Q., Wu T., Zheng T., Guo G. Hierarchical pyramid diverse attention networks for face recognition [Electronic resource]. URL: https://openaccess.thecvf.com/content_ CVPR_2020/papers/Wang_Hierarchical_Pyramid_Diverse_ Attention_Networks_for_Face_Recognition_CVPR_2020_ paper.pdf (data of accesses: 20.06.2022).

3. Wang Q., Guo G. LS-CNN Characterizing local patches at multiple scales for face recognition // IEEE Transactions on Information Forensics and Security. 2020. No. 15. Pp. 1640-1653.

4. Hu J., Shen L., Sun G. Squeeze-and-excitation networks [Electronic resource]. URL: https://arxiv.org/pdf/1709.01507. pdf (data of accesses: 22.06.2022).

5. Parchami M., Bashbaghi S., Granger E., Sayed S. Using deep autoencoders to learn robust domain-invariant representations for still-to-video face recognition [Electronic resource]. URL: https://www.researchgate.net/publication/317951983_ Using_Deep_Autoencoders_to_Learn_Robust_Domain-In-variant_Representations_for_Still-to-Video_Face_Recogni-tion (data of accesses: 23.06.2022).

6. Ding C., Tao D. Trunk-branch ensemble convolutional neural networks for video-based face recognition [Electronic resource]. URL: https://arxiv.org/pdf/1607.05427.pdf (data of accesses: 23.06.2022).

7. Parchami M., Bashbaghi S., Granger E. Video-based face recognition using ensemble of haar-like deep convolutional neural networks [Electronic resource]. URL: https://www.re-searchgate.net/publication/314115143_Video-Based_Face_ Recognition_Using_Ensemble_of_Haar-Like_Deep_Convo-lutional_Neural_Networks (data of accesses: 25.06.2022).

References

1. Isolation and recognition of faces [Electronic resource] URL: http://wiki.technicalvision.ru/index.php/BMgeneHHe_H_ распознаваннe_пнц (data of accesses: 20.06.2022).

2. Wang Q., Wu T., Zheng T., Guo G. Hierarchical pyramid diverse attention networks for face recognition [Electronic resource]. URL: https://openaccess.thecvf.com/content_ CVPR_2020/papers/Wang_Hierarchical_Pyramid_Diverse_ Attention_Networks_for_Face_Recognition_CVPR_2020_ paper.pdf (data of accesses: 20.06.2022).

3. Wang Q., Guo G. LS-CNN Characterizing local patches at multiple scales for face recognition. IEEE Transactions on Information Forensics and Security. 2020. No. 15. Pp. 1640-1653.

4. Hu J., Shen L., Sun G. Squeeze-and-excitation networks [Electronic resource]. URL: https://arxiv.org/pdf/1709.01507. pdf (data of accesses: 22.06.2022).

5. Parchami M., Bashbaghi S., Granger E., Sayed S. Using deep autoencoders to learn robust domain-invariant representations for still-to-video face recognition [Electronic resource]. URL: https://www.researchgate.net/publication/317951983_ Using_Deep_Autoencoders_to_Learn_Robust_Domain-Invariant_Representations_for_Still-to-Video_Face_ Recognition (data of accesses: 23.06.2022).

6. Ding C., Tao D. Trunk-branch ensemble convolutional neural networks for video-based face recognition [Electronic resource]. URL: https://arxiv.org/pdf/1607.05427.pdf (data of accesses: 23.06.2022).

7. Parchami M., Bashbaghi S., Granger E. Video-based face recognition using ensemble of haar-like deep convolutional neural networks [Electronic resource]. URL: https://www.researchgate. net/publication/314115143_Video-Based_Face_Recognition_ Using_Ensemble_of_Haar-Like_Deep_Convolutional_Neural_ Networks (data of accesses: 25.06.2022).

8. Szegedy C., Liu W., Jia Y. et al. Going deeper with convolutions [Electronic resource]. URL: https://arxiv.org/ pdf/1409.4842.pdf (data of accesses: 25.06.2022).

9. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering [Electronic resource]. URL: https://arxiv.org/pdf/1503.03832.pdf (data of accesses: 26.06.2022).

10. Huang Z., Shan S., Wang R. et al. A benchmark and comparative study of video-based face recognition on cox face database // IP IEEE Trans. 2015. No. 24. Pp. 5967-5981.

11. Bashbaghi S., Granger E., Sabourin R., Parchami M. Deep learning architectures for face recognition in video surveillance [Electronic resource]. URL: https://arxiv.org/ pdf/1802.09990.pdf (data of accesses: 27.06.2022).

12. Sultani W., Chen C., Shah M. Real-world anomaly detection in surveillance videos [Electronic resource]. URL: https:// arxiv.org/pdf/1801.04264.pdf (data of accesses: 27.06.2022).

13. Азаров Д. Метод распознавания лиц Виолы-Джонса (Viola-Jones) [Электронный ресурс]. URL: https://oxozle. com/2015/04/11/metod-raspoznavaniya-lic-violy-dzhon-sa-viola-jones/ (дата обращения: 27.06.2022).

14. Yang B., Yan J., Lei Z., Li S. Z. Aggregate channel features for multi-view face detection [Electronic resource]. URL: https:// arxiv.org/pdf/1407.4023.pdf (data of accesses: 27.06.2022).

15. Pham M.T., Gao Y., Hoang V.D.D., Cham T.J. Fast polygonal integration and its application in extending haar-like features to improve object detection [Electronic resource]. URL: https://www.researchgate.net/publication/221362661_ Fast_Polygonal_Integration_and_Its_Application_in_Ex-tending_Haarlike_Features_to_Improve_Object_Detection (data of accesses: 27.06.2022).

16. Zhu Q., Yeh M.C., Cheng K.T., Avidan S. Fast human detection using a cascade of histograms of oriented gradients [Electronic resource]. URL: https://www.merl.com/publica-tions/docs/TR2006-068.pdf (data of accesses: 28.06.22).

17. Zhang K., Zhang Z., Li Z. Joint face detection and alignment using multi-task cascaded convolutional networks [Electronic resource]. URL: https://kpzhang93.github.io/MTCNN_ face_detection_alignment/paper/spl.pdf (data of accesses: 28.06.22).

18. Li H., Lin Z., Shen X., Brandt J., Hua G. A convolutional neural network cascade for face detection [Electronic resource]. URL: https://www.cv-foundation.org/openaccess/con-tent_cvpr_2015/papers/Li_A_Convolutional_Neural_2015_ CVPR_paper.pdf (data of accesses: 28.06.2022).

19. PReLU [Электронный ресурс]. URL: https://congyu-zhou.medium.com/prelu-e0bc339d9c01 (дата обращения 28.06.2022).

8. Szegedy C., Liu W., Jia Y. et al. Going deeper with convolutions [Electronic resource]. URL: https://arxiv.org/pdf/1409.4842. pdf (data of accesses: 25.06.2022).

9. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering [Electronic resource]. URL: https://arxiv.org/pdf/1503.03832.pdf (data of accesses: 26.06.2022).

10. Huang Z., Shan S., Wang R. et al. A benchmark and comparative study of video-based face recognition on cox face database. IP IEEE Trans. 2015. No. 24. Pp. 5967-5981.

11. Bashbaghi S., Granger E., Sabourin R., Parchami M. Deep learning architectures for face recognition in video surveillance [Electronic resource]. URL: https://arxiv.org/ pdf/1802.09990.pdf (data of accesses: 27.06.2022).

12. Sultani W., Chen C., Shah M. Real-world anomaly detection in surveillance videos [Electronic resource]. URL: https:// arxiv.org/pdf/1801.04264.pdf (data of accesses: 27.06.2022).

13. Azarov D. Viola-Jones face recognition method [Electronic resource]. URL: https://oxozle.com/2015/04/11/method-raspoznavaniya-lic-violy-dzhonsa-viola-jones/ (data of accesses: 27.06.2022).

14. Yang B., Yan J., Lei Z., Li S. Z. Aggregate channel features for multi-view face detection [Electronic resource]. URL: https:// arxiv.org/pdf/1407.4023.pdf (data of accesses: 27.06.2022).

15. Pham M.T., Gao Y., Hoang V.D.D., Cham T.J. Fast polygonal integration and its application in extending haar-like features to improve object detection [Electronic resource]. URL: https://www.researchgate.net/publication/221362661_Fast_ Polygonal_Integration_and_Its_Application_in_Extending_ Haarlike_Features_to_Improve_Object_Detection (data of accesses: 27.06.2022).

16. Zhu Q., Yeh M.C., ChengK.T., Avidan S. Fast human detection using a cascade of histograms of oriented gradients [Electronic resource]. URL: https://www.merl.com/publications/docs/ TR2006-068.pdf (data of accesses: 28.06.22).

17. Zhang K., Zhang Z., Li Z. Joint face detection and alignment using multi-task cascaded convolutional networks [Electronic resource]. URL: https://kpzhang93.github.io/MTCNN_ face_detection_alignment/paper/spl.pdf (data of accesses: 28.06.22).

18. Li H., Lin Z., Shen X., Brandt J., Hua G. A convolutional neural network cascade for face detection [Electronic resource]. URL: https://www.cv-foundation.org/openaccess/content_ cvpr_2015/papers/Li_A_Convolutional_Neural_2015_ CVPR_paper.pdf (data of accesses: 28.06.2022).

19. PReLU [Electronic resource]. URL: https://congyuzhou. medium.com/prelu-e0bc339d9c01 (data of accesses: 28.06.2022).

Статья проверена программой Антиплагиат. Оригинальность - 83,69%

Рецензент: Чесалин А.Н., кандидат технических наук; доцент кафедры компьютерной и информационной безопасности Российского технологического университета МИРЭА

Статья поступила в редакцию 06.07.2022, принята к публикации 19.08.2022 The article was received on 06.07.2022, accepted for publication 19.08.2022

СВЕДЕНИЯ ОБ АВТОРЕ

Хади Намир Мохамед, студент Российского технологического университета МИРЭА. Москва, Российская Федерация. E-mail: namir.1998@gmail.com

ABOUT THE AUTHOR

Namir Mohamed Hadi, graduate at the Russian Technological University MIREA. Moscow, Russian Federation. E-mail: namir.1998@gmail.com

АЛГОРИТМ ИДЕНТИФИКАЦИИ ЛИЦ И ПРЕСТУПНЫХ ДЕЙСТВИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хади Намир Мохамед

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хади Намир Мохамед

IDENTIFICATION ALGORITHM FACES AND CRIMINAL ACTIONS

Текст научной работы на тему «АЛГОРИТМ ИДЕНТИФИКАЦИИ ЛИЦ И ПРЕСТУПНЫХ ДЕЙСТВИЙ»