ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
Челябинский физико-математический журнал. 2022. Т. 7, вып. 4- С. 4 90-504.
УДК 004.056+004.94+004.89 Б01: 10.47475/2500-0101-2022-17408
КОМБИНИРОВАННЫЙ 2Б/3Б-ПОДХОД ДЛЯ ПОВЫШЕНИЯ НАДЁЖНОСТИ СИСТЕМ РАСПОЗНАВАНИЯ ЛИЦ С ПРИМЕНЕНИЕМ ГЛУБОКОГО ОБУЧЕНИЯ
К. А. Дорофеев1", А. Н. Ручей1,2,6
1 Челябинский государственный университет, Челябинск, Россия 2Южно-Уральский государственный университет (национальный исследовательский университет), Челябинск, Россия "Kostuan1989@mail.ru, ьran@csu.ru
Широко известны системы распознавания лиц, использующие цветные двумерные изображения. Однако их основной проблемой является неустойчивость к различным условиям освещения, эмоциональным и мимическим выражениям, перекрытиям и углам поворота при считывании кадра. В статье предложен новый подход, комбинирующий обработку двумерных данных в виде цветного изображения и трёхмерных данных в виде облака точек, или карта глубины. Особое внимание было уделено вопросам архитектуры нейронных сетей, качеству и точности распознавания. Было предложено несколько комбинированных методов распознавания лиц с применением машинного обучения и глубокого обучения. Проведён сравнительный анализ результатов экспериментов в терминах точности распознавания на открытых базах данных лиц. Был выбран самый надёжный комбинированный метод распознавания лиц. Основная цель — построение надёжной биометрической системы распознавания лиц, устойчивой к сложным внешним факторам, таким, как мимические экспрессии, изменения масштаба, освещения, частичное перекрытие посторонними предметами, большие углы поворота.
Ключевые слова: информационная безопасность, биометрия, 'распознавание лиц, нейронные сети, машинное обучение, глубокое обучение, идентификация, аутентификация, муль-тибиометрия.
Введение
Системы обнаружения и распознавания лиц являются неотъемлемой частью нашей жизни с момента их появления в начале 1960-х годов. Наиболее важная область применения распознавания лиц — системы безопасности [1]. Также распознавание лиц применяется в медицине, при проектировании умных городов, умных магазинов без касс [2; 3]. Интерес к надёжным системам распознавания лиц обусловлен высокими финансовыми потерями от несанкционированного доступа, от действий киберпреступников по всему миру.
Работа выполнена при поддержке гранта РНФ (проект 22-71-10095).
В настоящее время в связи с развитием технологий машинного обучения и нейронных сетей стали доступны новые надёжные алгоритмы и подходы к реализации систем распознавания лиц. Достигнуты серьёзные успехи в решении задач распознавания человека по лицу благодаря применению нейронных сетей глубокого обучения с тремя и более слоями [4-9], которые объединяют в себе как выбор и расчёт признаков, так и классификацию. Эксперты отмечают, что точность методов глубокого обучения при использовании очень большой обучающей выборки и при сложной архитектуре сети в контролируемых условиях зачастую превышает точность распознавания человеком [10-12].
Основными проблемами при использовании двумерного подхода являются различные условия освещения, эмоциональные и мимические выражения, перекрытия части лица, углы поворота и расположение головы при считывании кадра. Системы распознавания лиц в реальном мире должны быть нечувствительны к таким изменениям, чтобы считаться эффективными. Информации о человеческом лице на обычном двумерном изображении может быть недостаточно для точного распознавания. Именно поэтому исследователи и разработчики начали использовать трёхмерные данные [13; 14]. Объединение информации о карте глубины и текстуре лица приводит к увеличению точности распознавания. Информация о глубине не зависит от изменения освещения и условия захвата изображения. Важным фактором также явилось появление экономичных и широкодоступных RGB-D датчиков, таких как Microsoft Kinect, Intel RealSense и прочих, что дополнительным образом подстегнуло отрасль к развитию.
Однако стоит отметить, что развитие трёхмерного распознавания лиц происходит медленнее с использованием камер RGB-D, чем двумерного распознавания лиц, по разным причинам: отсутствие достаточно больших наборов данных о лицах в 3D-варианте, доступных для использования в открытом виде; отсутствие эффективного способа передачи и обработки трёхмерных данных нейронной сетью; высокая стоимость как аппаратной, так и программной части подобного рода систем, сложность в обслуживании.
Разные исследователи пытаются решить сопутствующие проблемы [15-17], например, применяя техники дополнения обучающего набора данных (data augmentation) [18-20]. Известны результаты преобразования двумерных баз данных трёхмерного распознавания лиц с помощью применения модулей оценки глубины (depth estimation) [21].
Кроме того, во многих исследованиях используют нейронные сети, обученные на двумерных изображениях лиц, и применяют методы переноса обучения (transfer learning) и тонкой настройки (fine tuning) для работы с трёхмерными данными [18; 22; 23].
Исследователи предложили следующие варианты передачи трёхмерных данных на вход нейронной сети: передача данных глубины, азимута, углов вектора нормали в качестве третьего канала входных данных [19]; нормализация данных глубины к тому же диапазону значений, как у RGB-кадра [24]; в работах [25; 26] предложено использовать облака точек вместо данных глубины; проецирование облаков точек в карту диапазонов [18]; использование многовидовых изображений [27]; воксели-зация в объёмное представление [28].
1. Предложенный комбинированный 2В/3Ю-подход
1.1. База данных и используемые инструменты
Для тестов использовалась база данных Bosphorus [29], поскольку база предназначена для исследований задач обработки человеческих лиц в двумерных и трёхмерных вариантах, включая распознавание выражений, обнаружение лицевых движений, распознавание лиц в сложных, неблагоприятных условиях, деформируемое моделирование и трёхмерную реконструкцию лица. В базе содержится 4666 сканов 105 людей в различных позах, с разной мимикой, эмоциями, перекрытием части лица.
Разбиение кадров базы производилось следующим образом: в качестве обучающей выборки использовались кадры без перекрытия лица, с ровным фронтальным расположением (без поворотов), с нейтральными эмоциональным и мимическим выражениями (имена таких файлов в базе подходят под шаблон *NN*); в качестве тестовой выборки использовались все остальные кадры того же субъекта (повороты лица, изменения мимики, эмоций, перекрытия). При таком разбиении размер обучающей выборки — 299 кадров, размер тестовой выборки — 4367 кадров.
1.2. Модель VggFace2 для распознавания двумерного изображения
В качестве нейронной сети для обработки цветного двумерного изображения была выбрана модель VggFace2 [30]. Авторы проекта подготовили большой набор данных размером 3.31 миллиона изображений для 9131 субъекта, а также выложили в открытый доступ предобученные модели сетей VggFace2. Модели обучались на наборе данных MS-Celeb-1M [31], а затем производилась тонкая настройка (fine tuning) на наборе данных VggFace2. Основой для архитектуры моделей послужила ResNet-50. На вход нейронной сети подаётся цветное двумерное изображение лица человека разрешением 224 х 224 пикселя (рис. 1).
Для адаптации модели к базе данных Bosphorus была произведена тонкая настройка (fine tuning), состоящая из шагов:
1) срезание у предобученной модели всех слоёв после "avgpool";
2) добавление полносвязного слоя с функцией активации softmax, с количеством выходов, соответствующим количеству классов (в базе Bosphorus это значение равно 105);
3) дообучение нейронной сети на базе Bosphorus.
1.3. Модель IrisFaceRgbd для распознавания трёхмерных данных
В качестве нейронной сети для работы с картой глубины была выбрана модель IrisFaceRgbd [18]. Зачастую приходится иметь дело не с картами глубины, а с облаками точек, поэтому авторы предложили использовать ортогональную проекцию облака точек и подавать на вход нейронной сети двумерные серые изображения. Авторы проекта взяли за основу нейронную сеть VggFace первой версии, провели тонкую настройку и выложили предобученную модель в открытый доступ. На вход
Рис. 1. Пример цветного изображения из базы Bosphorus
модели подаётся двумерное изображение в виде плоской ортогональной проекции облака точек с разрешением 224 х 224 пикселя (рис. 2).
Рис. 2. Пример облака точек и его плоской ортогональной проекции из базы БоврИогив
Для адаптации модели к базе данных Bosphorus была произведена тонкая настройка (fine tuning), состоящая из шагов:
1) срезание у предобученной модели всех слоёв после "block5pool";
2) добавление полносвязного слоя, содержащего 2048 нейронов с функцией активации relu;
3) добавление слоя регуляризации (dropout) для уменьшения переобучения сети;
4) добавление полносвязного слоя с функцией активации softmax, с количеством выходов, соответствующим количеству классов (в базе Bosphorus это значение равно 105);
5) дообучение нейронной сети на базе Bosphorus.
1.4. Комбинированный метод принятия решения на основе выходов нескольких нейронных сетей
Самым простым решением при построении комбинированного 2В/3В-подхода может быть метод принятия решения на основе выходов нескольких нейронных сетей (DMM — decision making method). В таком случае при идентификации человека по лицу подаётся цветное двумерное изображение в нейронную сеть VggFace2, а плоская проекция облака точек подаётся в нейронную сеть IrisFaceRgbd, в итоге получается два выхода, которые можно анализировать по некоторому правилу (рис. 3).
Таких правил можно предложить достаточно много, например, принимать решение о положительной идентификации субъекта при выполнении хотя бы одного из следующих условий:
1) выходы двух нейронных сетей совпадают, когда обе сети уверены, что это один и тот же субъект;
2) какая-то из нейронных сетей имеет выход с большой уверенностью, например, больше некоторого порогового значения.
При применении такого подхода точность на тестовой выборке составляет 0.94, что не сильно отличается от использования только одной нейронной сети VggFace2. Однако тяжело подобрать наиболее точное и эффективное правило вручную, поэтому имеет смысл использовать машинное обучение.
УСС-16
Рис. 3. Метод принятия решения на основе двух нейронных сетей БММ
1.5. Комбинированный метод с применением машинного обучения
Выходы нейронных сетей содержат векторы значений в виде вероятности классификации субъекта. Эти векторы можно использовать для задачи классификации с помощью машинного обучения. Был предложен комбинированный метод с применением машинного обучения (MLD, machine learning decision), когда цветное двумерное изображение подаётся в нейронную сеть VggFace2, и плоская проекция облака точек подаётся в нейронную сеть IrisFaceRgbd, выходы нейронных сетей в виде векторов вероятностей объединяются в общий вектор признаков для классификации с помощью машинного обучения.
Разбиение на обучающую и тестовую выборку при применении машинного обучения производилось схожим образом (см. раздел 1.1). Для машинного обучения использовалась библиотека sklearn, для анализа данных было применено большинство из основных методов библиотеки: метод опорных векторов (SVC), метод линейных опорных вектров (LinearSVC), метод k-ближайших соседей (KNeighborsClassifier), пассивно-агрессивный классификатор (PassiveAggressiveClassifier), классификатор гауссова процесса (GaussianProcessClassifier), классификатор случайного леса (RandomForestClassifier), классификатор повышения ансамбля
(AdaBoostClassifier), дерево решений (DecisionTreeClassifier), логистическая регрессия (LogisticRegression), гауссовский наивный байесовский метод (GaussianNB), линейный дискриминантный анализ (LinearDiscriminantAnalysis), многоуровневый персептрон (MLPClassifier), классификатор дополнительных деревьев (ExtraTreesClassifier), голосование среди соседей в заданном радиусе (RadiusNeighborsClassifier), классификатор опорных векторов Nu (NuSVC).
Стоит отметить, что многие методы содержат достаточно большое количество параметров, которые тяжело перебирать вручную. Помогает разрешить эту проблему библиотека autosklearn. Autosklearn позволяет автоматизировать процесс поиска оптимальных гиперпараметров модели, избавить разработчика от рутинных задач. В результате работы библиотеки было найдено лучшее решение — классификатор LinearSVC со следующим набором параметров: C=6.3959, dual=False, intercept scaling=1.0, random state=1, tol=0.0001642.
1.6. Комбинированный метод с применением глубокого обучения
В качестве альтернативы применения машинного обучения можно построить нейронную сеть, на вход которой подавать выходы нейронных сетей VggFace2 и IrisFaceRgbd после слоёв классификации (DNND, deep neural network decision) (рис.4).
Рис. 4. Схема нейронной сети для принятия решения DNND
Лучших результатов удалось добиться при следующей архитектуре нейронной сети (табл. 1). Общее число обучающихся параметров составляет 136 миллионов. По аналогии с применением машинного обучения необходимо перебирать большое количество параметров нейронной сети, тестировать разные архитектуры. Для этих целей можно применять библиотеку а^окегав, однако этот инструмент сильно требователен к вычислительным ресурсам, как к характеристикам оборудования, так и ко времени работы.
Model: "sequential"
Layer Output shape Params
Fc1 (Dense) None, 16256 3430016
Dropout None, 16256 0
Fc2 (Dense) None, 8128 132136896
Dropout None, 8128 0
Classifier 105 853545
Наиболее точным и удобным в приме- Таблица 1
нении оказался предложенный комбиниро- Архитектура нейрош°й œra доя
г принятия решения на основе
ванный метод на основе глубокой нейрон- ^ ^
^ метода DNND
ной сети с множественными входами и смешанными данными (DNNMIMD, deep neural network with multiple inputs and mixed data) (см. рис. 5). При таком подходе входной вектор формируется с помощью конкатенации данных цветного двумерного изображения и карты глубины. Модель нейронной сети представляет собой параллельную комбинацию (в этом случае модель не является последовательной) слоёв VggFace2 (включительно до слоя "avgpool") и IrisFaceRgbd (включительно до слоя "block5pool"). Отличие DNNMIMD-метода от нейронной сети для принятия решения DNND заключается в том, что после указанных слоёв не добавляются слои классификации, а формируется новый конкатенированный слой признаков двух сетей. После чего добавляются полносвязный слой с 4096 нейронами и с функцией активации relu, слой регуляризации (dropout), ещё один полносвязный слой с 2048 нейронами и с функцией активации relu, слой регуляризации (dropout) для уменьшения переобучения сети, и последний слой классификации с функцией активации softmax. Общее число параметров такой сети составляет 94 миллиона, обучающихся параметров — 55 миллионов.
____Concatenate
VGG-16 т
Layer
Рис. 5. Архитектура глубокой нейронной сети с множественными входами и смешанными данными DNNMIMD
2. Результаты экспериментов
Для тестов использовалась база данных Bosphorus [29], поскольку данные этой базы наиболее точно подходят под основные задачи исследования. Для написания кода использовался язык python, фреймворк keras и бесплатная интерактивная облачная среда для работы с кодом google colab.
Таблица 2
Точность обучения и тестирования модели VggFace2
История обучения модели VggFace2 представлена на рис. 6. Результаты обучения и тестирования VggFace2 в терминах точности показаны в табл. 2. Хорошим показателем является отсутствие переобучения. Разница точности на обучающей и тестовой выборке составляет всего 3 %. Также можно констатировать, что нейронная сеть VggFace2 вполне позволяет обрабатывать цветные двумерные изображения из базы Bosphorus с точностью 0.9380 на тестовой выборке, однако применение комбинированного метода позволяет улучшить точность.
Обучение
Accuracy Loss
Эпоха 1/2 0.3813 5.9956
Эпоха 2/2 0.9666 0.1618
Тестирование
Accuracy Loss
0.9380 0.2111
Вес модели
VggFace2Resnet-50 VggFace2TransferLearning
90.4 mb 92.9 mb
012 0.4 0.6
Рис. 6. История обучения модели VggFace2
История обучения модели IrisFaceRgbd представлена на рис. 7. Результаты обучения и тестирования IrisFaceRgbd в терминах точности представлены в табл. 3. Присутствует более заметная разница в точности на обучающей и тестовой выборках. Это можно объяснить тем, что в сложных условиях (например, большие углы поворота) данных только в карте глубины недостаточно, чтобы нейронная сеть могла правильно идентифицировать объект.
Рис. 7. История обучения модели IrisFaceRgbd
Таблица 3
Результаты применения „ , т . „ „ ,,
° 1 Точность обучения и тестирования модели IпsFaceRgbd
машинного обучения для принятия решения М1Ю приведены в табл. 4. Лучших результатов удалось достичь с помощью KNeighboгsClassifieг. Известно, что метод к-ближайших соседей хорошо подходит для мультимодаль-ных задач, хорошо обрабатывает данные изображений. В компьютерном зрении считается прекрасным вариантом
для классификации множества разнообразных изображений на основе сходства.
Таблица 4
Обучение
Accuracy Loss
Эпоха 1/5 0.2174 4.2521
Эпоха 2/5 0.7659 1.9365
Эпоха 3/5 0.8863 0.7219
Эпоха 4/5 0.9202 0.3010
Эпоха 5/5 0.9632 0.0905
Тестирование
Accuracy Loss
0.8544 0.6265
Вес модели
IrisFaceRgbd IrisFaceRgbdTransferLearning
521 mb 660 mb
Точность машинного обучения при принятии решения МЬБ
Метод Accuracy
SVC 0.9439
LinearSVC 0.9476
KNeighborsClassifier 0.9480
PassiveAggressiveClassifier 0.9478
GaussianProcessClassifier 0.9370
RandomForestClassifier 0.7096
AdaBoostClassifier 0.1504
DecisionTreeClassifier 0.4774
LogisticRegression 0.8823
GaussianNB 0.6387
LinearDiscriminantAnalysis 0.8273
MLPClassifier 0.0767
ExtraTreesClassifier 0.6883
Таблица 5 Результаты обучения и тестирования нейронной сети для принятия решения БММБ
Обучение
Accuracy Loss
Эпоха 1/4 0.3645 4.0153
Эпоха 2/4 0.7763 0.9670
Эпоха 3/4 0.9231 0.5288
Эпоха 4/4 0.9805 0.0294
Тестирование
Accuracy Loss
0.9505 0.3752
Вес модели
DNND
1520 mb
Результаты обучения и тестирования нейронной сети DNND представлены в табл. 5. Можно отметить отсутствие переобучения и хорошие результаты на тестовой выборке.
Результаты обучения и тестирования глубокой нейронной сети с множественными входами ОММЫМБ представлены в табл. 6. Метод ОММЫМБ оказался лучшим в терминах точности на тестовой выборке, однако его результаты можно ещё улучшить, если найти более оптимальные архитектуры глубокой нейронной сети.
Таблица 6 Результаты обучения и тестирования комбинированной
глубокой нейронной сети Таблица 7
с множественными входами и Итоговое сравнение
смешанными данными Б^ЫШВ комбинированных методов
на базе Bosphorus
Обучение
Accuracy Loss
Эпоха 1/3 0.4515 5.1402
Эпоха 2/3 0.8595 0.6280
Эпоха 3/3 0.9799 0.1051
Тестирование
Accuracy Loss
0.9601 0.2731
Вес модели
DNNMIMD
785 mb
Метод Точность
VggFace2 0.9380
IrisFaceRgbd 0.8544
DMM 0.9400
MLD 0.9485
DNND 0.9505
DNNMIMD 0.9601
Итоговое сравнение результатов применения комбинированных методов в терминах точности на тестовой выборке приведены в табл. 7. Комбинированный метод на основе глубокой сети DNNMIMD имеет самую большую точность 0.9601 на тестовой выборке. Такой результат является вполне объяснимым, поскольку именно концепция глубокого обучения является наиболее гибкой, масштабируемой и настраиваемой. Существуют разные задачи, которые требуют мультимодальных входов, объединяющих данные, поступающие из разных источников. Для обработки каждого вида данных используются разные типы нейронных слоёв или даже целых нейронных сетей. Построение надёжной системы распознавания лиц вполне относится к такого рода задачам, поскольку для её решения можно комбинировать разнородные данные в виде двумерных, трёхмерных или других и повышать таким образом надёжность системы.
Заключение
Был предложен новый подход, комбинирующий обработку двумерных в виде цветного изображения и трёхмерных данных в виде облака точек или карта глубины, для повышения надёжности систем распознавания лиц. Было реализовано несколько комбинированных методов с использованием глубокого обучения. Была доказана эффективность применения комбинированного подхода в сравнении с двумерным распознаванием лиц на основе модели VggFace2 и трёхмерным распознаванием лиц на основе модели IrisFaceRgbd. В результате самым надёжным методом является комбинированная глубокая нейронная сеть DNNMIMD с точностью 0.9601 на тестовой выборке.
Среди основных направлений и задач для будущих исследований можно указать следующие: поиск новых архитектур глубоких нейронных сетей; повышение точности распознавания в сложных условиях; подготовка и формирование больших наборов данных трёхмерных лиц; поиск эффективных способов передачи трёхмерных данных в нейронную сеть; решение проблем с высокой стоимостью комбинированных систем, со сложностью разворачивания и обслуживания.
Список литературы
1. Callaway S., ChengJ., ContrattiA., FuD., GeliviH., WachulecJ., Purohit S.
Comparative analysis of image processing algorithms for airport security // 2020 IEEE MIT Undergraduate Research Technology Conference (URTC), 2020.
2. Bansal M., SharmaD. Facial recognition system for security resolutions in smart city // International Journal of Advanced Research in Engineering and Technology. 2020. Vol. 11, no. 10. P. 146-151.
3. PraveenG., DakalaJ. Face recognition: Challenges and issues in smart city/environments // International Conference on Communication Systems and Networks. 2020. P. 791-793.
4. Taigman Y., YangM., RanzatoM., Wolf L. Deepface: Closing the gap to human-level performance in face verification // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. 2014. P. 1701-1708.
5. HeR., Zhang X., RenS., Sun J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification // Proceedings of IEEE International Conference on Computer Vision. 2015. P. 1026-1034.
6. Sun Y., WangX., TangX. Deeply learned face representations are sparse, selective, and robust // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.
2015. P. 2892-2900.
7. Goodfellow I., BengioY., CourvilleA. Deep Learning. Cambridge, MA: MIT Press,
2016.
8. GuoY., LiuY., OerlemansA., LaoS., WuS., Lew M.S. Deep learning for visual understanding: A review // Neurocomputing. 2016. Vol. 187. P. 27-48.
9. RawatW., WangZ. Deep convolutional neural networks for image classification: A comprehensive review // Neural Computation. 2017.
10. SchroffF., Kalenichenko D., PhilbinJ. Facenet: A unified embedding for face recognition and clustering // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. 2015. P. 815-823.
11. SunY., LiangD., WangX., TangX. Deepid3: Face recognition with very deep neural networks // arXiv 1502.00873. 2015.
12. ZhouE., CaoZ., YinQ. Naive-deep face recognition: Touching the limit of LFW benchmark or not? // arXiv 1501.04690. 2015.
13. LiB. Y., Mian A., Liu W., Krishna A. Using kinect for face recognition under varying poses, expressions, illumination and disguise // IEEE Workshop on Applications of Computer Vision (WACV). 2013.
14. AbbadA., AbbadK., TairiH. 3D Face recognition: Multi-scale strategy based on geometric and local descriptors // Computers & Electrical Engineering. 2018. Vol. 70. P. 525-537.
15. Dorofeev K., Ruchay A., Kober A., Kober V. 3D face recognition using depth filtering and deep convolutional neural network // Applications of Digital Image Processing. 2019. Vol. XLII. P. 11137.
16. Ruchay A., Dorofeev K., KalschikovV. A switching morphological algorithm for depth map recovery // Analysis of Images, Social Networks and Texts: 8th International Conference. 2019.
17. Dorofeev K., Ruchay A. Design of autonomous mobile systems for face recognition based on a DCNN with compression and pruning // Applications of Digital Image Processing. 2020. Vol. XLIII. P. 11510.
18. KimD., Hernandez M., Choi J., MedioniG. Deep 3d face identification // arXiv 1703.10714. 2017.
19. GilaniS.Z., Mian A. Learning from millions of 3d scans for large-scale 3d face recognition // arXiv 1711.05942. 2018.
20. CaiY., LeiY., YangM., YouZ., ShanS. A fast and robust 3d face recognition approach based on deeply learned face representation // Neurocomputing. 2019. Vol. 363. P. 375-397.
21. ChuiM., Cheng H., WangC., LaiS. High-Accuracy RGB-D Face Recognition via Segmentation-Aware Face Depth Estimation and Mask-Guided Attention Network. Department of Computer Science, National Tsing Hua University, Taiwan, Microsoft AI R&D Center, 2018.
22. Lee Y.-C., Chen J., Tseng C. W., LaiS.-H. Accurate and robust face recognition from RGB-D images with a deep learning approach // Proceedings of the British Machine Vision Conference (BMVC). 2016.
23. XiongX., WenX., Huang C. Improving RGB-D face recognition via transfer learning from a pretrained 2D network // International Symposium on Benchmarking, Measuring and Optimization. 2019.
24. Jiang L., Zhang J., DengB. Robust RGB-D face recognition using attribute-aware loss // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019.
25. Charles R., HaoS., KaichunM., Leonidas J. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. Stanford : Stanford University, 2017.
26. Zhang Z., DaF., YuY. Data-free point cloud network for 3d face recognition // arXiv, 1911.04731. 2019.
27. FengY., Zhang Z., ZhaoX., JiR., Gao Y. Group-view convolutional neural networks for 3d shape recognition // Conference on Computer Vision and Pattern Recognition (CVPR). 2018.
28. Jackson A. S., BulatA., ArgyriouV., Tzimiropoulos G. Large pose 3D face reconstruction from a single image via direct volumetric CNN regression // International Conference on Computer Vision (ICCV). 2017.
29. SavranA., AlyuzN., Dibeklioglu H., Celiktutan O., GokberkB., SankurB., Akarun L. Bosphorus database for 3D face analysis // Workshop on Biometrics and Identity Management. 2008.
30. CaoQ., ShenL., XieW., ParkhiO., ZissermanA. VGGFace2: A dataset for recognising faces across pose and age // IEEE Conference on Automatic Face and Gesture Recognition (F&G). 2018.
31. GuoY., Zhang L., HuY., HeX., Gao J. MS-Celeb-1M: A dataset and benchmark for large scale face recognition // European Conference on Computer Vision (ECCV). 2016.
Поступила в редакцию 24-08.2022. После переработки 24-09.2022.
Сведения об авторах
Дорофеев Константин Андреевич, старший преподаватель кафедры компьютерной безопасности и прикладной алгебры; Челябинский государственный университет, Челябинск, Россия; e-mail: Kostuan1989@mail.ru.
Ручай Алексей Николаевич, кандидат физико-математических наук, доцент, заведующий кафедрой компьютерной безопасности и прикладной алгебры; Челябинский государственный университет, Челябинск, Россия; доцент кафедры защиты информации, Южно-Уральский государственный университет (национальный исследовательский университет), Челябинск, Россия; e-mail: ran@csu.ru.
Chelyabinsk Physical and Mathematical Journal. 2022. Vol. 7, iss. 4. P. 490-504.
DOI: 10.47475/2500-0101-2022-17408
COMBINED 2D/3D APPROACH FOR IMPROVING THE ACCURACY OF FACE RECOGNITION SYSTEMS USING DEEP LEARNING
K.A. Dorofeev1a, A.N. Ruchay1'2'13
1 Chelyabinsk State University, Chelyabinsk, Russia
2South Ural State University (National Research University), Chelyabinsk, Russia aKostuan1989@mail.ru, bran@csu.ru
Face recognition systems using color images are widely known. However, their main problem is the instability to various lighting conditions, emotional and facial expressions, overlaps and rotation angles. The article proposed a new approach that combines the processing of two-dimensional data on a color image and three-dimensional data on a point cloud or depth map. The main attention was paid to the architecture of neural networks, the quality and accuracy of recognition. Some combined methods for the face recognition using machine learning and deep learning have been proposed. A comparative analysis of the results of experiments in terms of the recognition accuracy on open face databases was carried out. The best combined method was chosen. The main goal is to build a reliable, accurate combined biometric face recognition system that is resistant to complex external factors, such as facial expressions, scale changes, lighting, partial overlap with foreign objects, large rotation angles.
Keywords: information security, biometrics, face recognition, neural networks, machine learning, deep learning, identification, authentication, multi-biometrics.
References
1. Callaway S., Cheng J., ContrattiA., FuD., GeliviH., WachulecJ., PurohitS.
Comparative analysis of image processing algorithms for airport security. IEEE MIT Undergraduate Research Technology Conference (URTC), 2020.
2. BansalM., SharmaD. Facial recognition system for security resolutions in smart city. International Journal of Advanced Research in Engineering and Technology, 2020, vol. 11, no. 10, pp. 146-151.
3. PraveenG., DakalaJ. Face recognition: Challenges and issues in smart city/environments. International Conference on Communication Systems and Networks, 2020, pp. 791-793.
4. TaigmanY., YangM., RanzatoM., WolfL. Deepface: Closing the gap to humanlevel performance in face verification. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1701-1708.
5. HeR., Zhang X., RenS., Sun J. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of IEEE International Conference on Computer Vision, 2015, pp. 1026-1034.
6. SunY., WangX., TangX. Deeply learned face representations are sparse, selective, and robust. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2892-2900.
7. Goodfellow I., BengioY., Courville A. Deep Learning. Cambridge, MA, MIT Press, 2016.
8. GuoY., LiuY., OerlemansA., LaoS., WuS., Lew M.S. Deep learning for visual understanding: A review. Neurocomputing, 187, 2016, pp. 27-48.
The work was carried out with the support of Russian Science Foundation (progect 22-71-10095).
9. RawatW., WangZ. Deep convolutional neural networks for image classification: A comprehensive review. Neural Computation, 2017.
10. SchroffF., Kalenichenko D., PhilbinJ. Facenet: A unified embedding for face recognition and clustering. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 815-823.
11. Sun Y., Liang D., WangX., TangX. Deepid3: Face recognition with very deep neural networks. arXiv 1502.00873, 2015.
12. ZhouE., CaoZ., YinQ. Naive-deep face recognition: Touching the limit of LFW benchmark or not? arXiv 1501.04690, 2015.
13. LiB.Y., Mian A., LiuW., Krishna A. Using kinect for face recognition under varying poses, expressions, illumination and disguise. IEEE Workshop on Applications of Computer Vision (WACV), 2013.
14. AbbadA., AbbadK., TairiH. 3D face recognition: Multi-scale strategy based on geometric and local descriptors. Computers & Electrical Engineering, 2018, vol. 70, pp. 525-537.
15. DorofeevK., RuchayA., KoberA., KoberV. 3D face recognition using depth filtering and deep convolutional neural network. Applications of Digital Image Processing, 2019, vol. XLII, p.11137.
16. RuchayA., DorofeevK., KalschikovV. A switching morphological algorithm for depth map recovery. Analysis of Images, Social Networks and Texts, 8th International Conference, AIST, 2019.
17. DorofeevK., RuchayA. Design of autonomous mobile systems for face recognition based on a DCNN with compression and pruning. Applications of Digital Image Processing, 2020, vol. XLIII, p. 11510.
18. KimD., Hernandez M., Choi J., MedioniG. Deep 3D face identification. arXiv 1703.10714, 2017.
19. Gilani S.Z., Mian A. Learning from millions of 3d scans for large-scale 3d face recognition. arXiv 1711.05942, 2018.
20. CaiY., LeiY., YangM., YouZ., ShanS. A fast and robust 3D face recognition approach based on deeply learned face representation. Neurocomputing, 2019, vol. 363, pp. 375-397.
21. ChuiM., ChengH., WangC., LaiS. High-Accuracy RGB-D Face Recognition via Segmentation-Aware Face Depth Estimation and Mask-Guided Attention Network. Department of Computer Science, National Tsing Hua University, Taiwan, Microsoft AI R&D Center, 2018.
22. LeeY.-C., Chen J., Tseng C.W., LaiS.-H. Accurate and robust face recognition from RGB-D images with a deep learning approach. Proceedings of the British Machine Vision Conference (BMVC), 2016.
23. XiongX., WenX., Huang C. Improving RGB-D face recognition via transfer learning from a pretrained 2D network. International Symposium on Benchmarking, Measuring and Optimization, 2019.
24. Jiang L., Zhang J., DengB. Robust RGB-D face recognition using attribute-aware loss. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
25. Charles R., Hao S., Kaichun M., Leonidas J. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. Stanford, Stanford University, 2017.
26. Zhang Z., DaF., YuY. Data-free point cloud network for 3d face recognition. arXiv 1911.04731, 2019.
27. Feng Y., Zhang Z., Zhao X., Ji R., Gao Y. Group-view convolutional neural networks for 3D shape recognition. Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
28. Jackson A.S., BulatA., ArgyriouV., Tzimiropoulos G. Large pose 3D face reconstruction from a single image via direct volumetric CNN regression. International Conference on Computer Vision (ICCV), 2017.
29. SavranA., AlyuzN., Dibeklioglu H., Celiktutan O., GokberkB., SankurB., AkarunL. Bosphorus database for 3D face analysis. Workshop on Biometrics and Identity Management, 2008.
30. CaoQ., ShenL., XieW., ParkhiO., ZissermanA. VGGFace2: A dataset for recognising faces across pose and age. IEEE Conference on Automatic Face and Gesture Recognition (F&G), 2018.
31. GuoY., Zhang L., HuY., HeX., GaoJ. MS-Celeb-lM: A Dataset and Benchmark for Large Scale Face Recognition. European Conference on Computer Vision (ECCV), 2016.
Article received 24.08.2022.
Corrections received 24.09.2022.