МЕТОДЫ РАСПОЗНАВАНИЯ ЛИЦ НА ОСНОВЕ АНАЛИЗА ВИДЕОИЗОБРАЖЕНИЙ

Салех Лабиб Омар Абдулла; Хлопин Сергей Владимирович

УДК 004.932.2

doi: 10.18720/SPBPU/2/id23 -89

Салех Лабиб Омар Абдулла 1,

аспирант высшей школы киберфизических систем и управления;

л

Хлопин Сергей Владимирович ,

доцент высшей школы киберфизических систем и управления,

канд. техн. наук, доцент

МЕТОДЫ РАСПОЗНАВАНИЯ ЛИЦ НА ОСНОВЕ АНАЛИЗА

ВИДЕОИЗОБРАЖЕНИЙ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого,

1 2 [email protected], [email protected]

Аннотация. Объектом исследования являются алгоритмы и методы распознавания лиц на видеоизображениях, библиотеки OpenCV, face_recognition. Объектом разработки является создание системы регистраций событий на основе анализа видеоизображений. Для этого будут использованы видеоизображения, получаемые с камеры. На основе анализа изображений с камеры системой регистрации событий будет детектироваться, распознаваться и проводится фиксация числа людей и время их прохождения. В качестве средств разработки были использованы язык программирования Python, библиотека NumPy, библиотека PIL, библиотека OpenCV, база данных SQLite, библиотека Face_Recognition.

Ключевые слова: компьютерное зрение, детектирование объектов, анализ изображения, распознавание лиц, библиотека opencv, библиотека face_recogntion.

Labib Omar Abdullah Saleh 1,

Postgraduate Student, Master of Science;

л

Sergey V. Khlopin ,

Associate Professor, Candidate of Technical Sciences;

FACE RECOGNITION METHODS BASED ON VIDEO IMAGES ANALYSIS

1 2

, Peter the Great St.Petersburg Polytechnic University, St. Petersburg, Russia,

1 2 [email protected], [email protected]

Abstract. The object of research are algorithms and methods for recognizing faces in video images, OpenCV libraries, face_recognition. The object of development is the creation of an event registration system based on the analysis of video images. For this, video images received from the camera will be used. Based on the analysis of images from the camera, an event registration system will detect, recognize, and record the number of people and their transit time. As development tools, we used the Python programming language, NumPy library, PIL library, OpenCV library, SQLite database, Face_Recognition library.

Keywords: computer vision, detection of objects, image analysis, face recognition, opencv library, face_recogntion library.

Введение

Существует несколько причин, по которым в последнее время возрос интерес к распознаванию лиц, в том числе растущая обеспокоенность общественности по поводу безопасности, необходимость проверки личности в цифровом мире и необходимость анализа лица и методов моделирования в управлении мультимедийными данными и компьютерных развлечениях. В последние годы наблюдается значительный прогресс в этой области благодаря достижениям в области моделирования лица и развитие методов анализа изображений. Надежное распознавание лиц позволяет решать более сложные задачи для компьютерного зрения и использования информации о распознанных образов для поведенческого анализа объектов. Предполагается, что разрабатываемая система будет распознавать лица, присутствующие в изображениях и видео последовательностях в автоматическом режиме и создавать отчеты о регистрации объектов.

1. Анализ задачи распознавания лиц в видеопотоках

Для решения задачи детектирования событий необходимо выполнить следующие действия:

- Преобразование исходной видеопоследовательности (изображения) с применением различных фильтров для подготовки к этапу сегментирования;

- Сегментирование изображения и поиск сегментов, содержащих лица;

- Детектирование лица и объекта принадлежащего лица;

- Анализ поведения детектированного объекта.

Признаки Хаара (примитивы) являются прямоугольниками, состоящими из смежных областей. Они позиционируются (располагаются) на изображении, далее происходит суммирований значений интенсивности пикселей в каждой области [12]. Алгоритм библиотеки OpenCV Ei-genfaces основан на методе главных компонент PCA (Principle Component Analysis) [5]. Метод главных компонент (РСА) это довольно мощный способ представления данных, но он не учитывает классы объектов, и может быть потеряно много отличительной информации из-за отбрасывания компонент, которые не вошли в базиа Эту проблему решает алгоритм LDA (Линейный дискриминантный анализ), который является основой метода FisherFaces [5]. Гистограмма локальные бинарные шаблоны (англ. Local Binary Patterns Histogram, LBPH) этот метод работает следующим образом сначала изображение делится на одинаковые блоки, которые образуют сетку. Далее для каждого блока строится гистограмма кодов, которые вычисляются таким образом: берется пиксель, который

сравнивается с соседями, если интенсивность центрального пикселя больше или равна интенсивности соседа, то он обозначается 1, иначе — 0. В итоге каждому пикселю будет соответствовать двоичное число, состоящее из результатов сравнений. Полученные гистограммы объединяются в одну общую, которая является итоговым дескриптором, который используется для классификации лица [3].

Основным методом для детектирования лиц библиотеки face_recognition является метод направленного градиента (histogram of oriented gradients — HOG). В основе данного метода лежит предположение, что распределение градиентов интенсивности яркости точек изображения позволяет достаточно точно определить наличие и форму присутствующих на нем объектов. При описании фрагмента изображения оно разбивается на несколько небольших участков (16х16 пикселей), далее называемых ячейками. В каждой ячейке вычисляются гистограммы h для направления градиентов яркости внутренних точек. На следующем этапе полученные гистограммы объединяют в одну гистограмму h = f (ht,...,hk), после чего производится операция нормализации по яркости ( или норма) и получения нормированного множителя по формуле (1) [6]:

где £ — некоторая малая константа.

Вычислении градиентов в ячейках изображения проводится путем фильтрации [10] ячеек ядрами [—1 , 0, 1]и [—1, 0 , 1]т. В результате фильтрации из исходного изображения получаются значений матриц Охи Оу. Далее, используя Ох и Оу, вычисляется величина интенсивности О и угол в направления градиента яркости исходного изображения по формулам:

Получаемые матрицы используются для вычисления углов и величин (модулей) градиентов в каждой точке изображения [6]. В дальнейшем на основе получаемых гистограмм производится поиск лиц в изображениях и обозначение областей присутствия лиц для дальнейшего их детектирования (выделение черт лиц). Для выделения черт лиц человека используется алгоритм "face landmark estimation". Основной идеей алгоритма является то, что было выбрано 68 специфических точек (меток), присутствующих на лице человека (выступающая часть подбородка, внешние края глаз, внутренний край бровей и т. д. Затем производится настройка алгоритма обучения на поиск этих специфических точек на исходном изображении [7]. Алгоритм "face landmark estimation" основанный на ансамбле деревьев регрессии (regression trees) [7].

hi 2 VMT7'hi 1 ihk + e'

(1)

(2)

Сверточная нейронная сеть (англ. convolutional neural network — CNN) — это искусственная нейронная сеть, имеющая особую архитектуру, нацеленную на эффективное распознавание изображений. Главной особенностью сверточных нейронных сетей считается использование операции свертки для анализа обрабатываемых образов. Операция свертки производится следующим образом: ядро свертки «скользит» по обрабатываемой области и вычисляет взвешенную сумму элементов этой области относительно значений коэффициентов ядра [9]:

(f*g )[m,n]=) f[m-k,n-l ]*g[k,l] (3)

где — исходная матрица изображения, — ядро свертки.

Имеется детектор размером ядра g, который проходит изображение f с определенным шагом (обычно 1). На каждой итерации компоненты детектора умножаются на ядро g. После чего значения складываются и фиксируются в итоговой матрице. Оператор свертки составляет основу сверточного слоя (convolutional layer). Слой состоит из определенного количества ядер и вычисляет свертку выходного изображения предыдущего слоя с помощью каждого из ядер, каждый раз прибавляя составляющую смещения. Затем ко всему выходному изображению применяется функция активации, например, ReLU (rectified linear unit). Математически операция, выполняемая в сверточном слое (convolutional layer), будет выглядеть следующим образом [9]:

xl = f(xl-1 * kl + bl) (4)

где xl — выход слоя l, f()— функция активации, bl — коэффициент сдвига слоя l , * — операция свертки входа x с ядром k.

При этом размер исходных матриц уменьшается [9]:

Xj=f(Zxi-1 *k ij + b}) (5)

где X } — карта признаков j (выход слоя l), f() — функция активации;

— коэффициент сдвига слоя для карты признаков , — ядро свертки карты, слоя , * —операция свертки входа с ядром .

Субдискретизирующий (subsampling) слой. Слои этого типа выполняют уменьшение размера входной карты признаков (обычно в 2 раза). Это можно делать разными способами, в нашем случае мы выбрали метод выбора максимального элемента (max-pooling) [9] — вся карта признаков разделяется на ячейки 2х2 элемента, из которых выбираются максимальные по значению.

Формально слой может быть описан следующим образом [9]:

xl = f(a1 * subsample(xl~+ bl) (6)

где х1— выход слоя l, f() — функция активации; a1 и bl — коэффициенты сдвига слоя l;

sub samp l e — операция выборки локальных максимальных значений [8]. Полносвязный слой (fully connected layer) решает задачу классификации. Данный слой моделирует сложную нелинейную функцию, оптимизируя параметры которой, улучшается качество распознавания. Число нейронов скрытого слоя равно числу карт слоя субдискретизации, так как нейроны каждой карты предыдущего слоя субдискретизации связаны с одним нейроном скрытого слоя [9]. Вычисление значений нейрона:

xli=f{^Xj ~ 1 + bj~ 1 ) (7)

где х1 — карта признаков j (выход слоя l), f() — функция активации, bl — коэффициент сдвига слоя l, wlj 11 — матрицы весовых коэффициентов слоя l.

Процесс обучения свёрточной нейронной сети с целью вывода наборов характеристик лица требует большого объёма данных и большой производительности компьютера. Разработчики OpenFace уже сделали это [11] и предоставили доступ к нескольким прошедшим обучение сетям. В результате всё, что требуется от нас самих, это провести наши изображения лиц через их предварительно обученную сеть и получить 128 характеристик для каждого лица. Последний шагом является поиск образа человека в созданной базе данных известных лиц, имеющего характеристики, наиболее близкие к характеристикам нашего тестового изображения. Это можно сделать, используя любой базовый алгоритм классификации обучения машин. Какие-либо особые приёмы глубинного обучения не требуются. Мы будем использовать простой линейный SVM-классификатор, но могут быть применены и многие другие алгоритмы классификации.

2. Разработка системы регистрации на основе анализа видеоизображений

В этом разделе мы будем проводить анализ двух библиотек: opencv и face_recognition. Первый тест будет проходить для библиотеки opencv. Мы будем тестировать точность распознавания лиц при использовании алгоритмов LBPH, Eigenfaces и Fisherfaces которые предоставляет нам библиотека opencv. Мы будем тестировать точность распознавания лиц используя исходные изображений, которые были обученными алгоритмами LBPH, Eigenfaces и Fisherfaces и у нас получается следующие результаты как указаны на таблицы 1.

Таблица 1

Результаты точность распознавании лиц используя исходное изображения

Faces Names OpenCV

LBPH Eigenfaces Fisherfaces

гз The Rock 65% 56% 28%

щ Angelina 68% 20% 53%

Jason 67% 17% 42%

ш Young thug 72% детектирует, но не распознает лицо (0%) детектирует, но не распознает лицо (0%)

щ Bruce Lee 69% 26% 23%

ß Face 37% 40% 30%

w Timati 46% детектирует, но не распознает лицо (0%) 56%

The Joker 70% 50% 42%

JSL 50 Cent 68% 37% 39%

Megan Fox 64% детектирует, но не распознает лицо (0%) 32%

Минимальная точность распознавания (min) 37% 17% 23%

Максимальная точность распознавания (max) 72% 56% 56%

Средняя точность распознавания 62.6% 35.14% 38.3%

Мы будем использовать 10 разных изображений одного и того человека для распознавания лиц с исходной изображения, которое сохранено и обучено алгоритмом LBPH, Eigenfaces и Fisherfaces. При тестировании точность распознавание лиц алгоритмом LBPH, Eigenfaces и Fisherfaces у нас получается следующие результаты, которые указаны в таблицы 2.

Таблица 2

Сравнения распознавание лиц разные изображениях одно и того человека

_с исходной изображения_

Faces

OpenCV

LBPH

Eigenfaces

Fisherfaces

Распознает как The Rock