АНАЛИЗ СУЩЕСТВУЮЩИХ ПОДХОДОВ К РАСПОЗНАВАНИЮ ЛИЦ
Натолина С.А.1, Кузнецова О.Ю.2
'Натолина Светлана Александровна - магистрант; 2Кузнецова Ольга Юрьевна - кандидат технических наук, доцент, кафедра «Информационно-вычислительные системы», Пензенский государственный университет, г. Пенза
Аннотация: данная статья представляет обзор современных подходов к распознаванию лиц, включая метод гибкого сравнения на графах, метод главных компонент, активные модели внешнего вида и нейронные сети. Исследуются ключевые характеристики каждого метода, выявляются их преимущества и недостатки, а также определены основные аспекты, влияющие на точность и эффективность распознавания лиц. Работа имеет целью обеспечить читателям понимание различий между методами и помочь им выбрать наиболее подходящий под свои потребности.
Ключевые слова: распознавание лиц, идентификация, метод гибкого сравнения на графах, метод главных компонент, активные модели внешнего вида, нейронные сети.
УДК 528.854
Введение
В современном информационном обществе развитие цифровых технологий играет значимую роль в повседневной жизни людей. В связи с этим, вопросы безопасности к информации приобретают все большее значение.
Одним из эффективных методов обеспечения безопасности авторизации является распознавание личности по изображению лица. Она применяется для распознавания лиц, включая автоматическую локализацию лица на изображении. Быстрые темпы жизни требуют все более совершенных методов локализации и распознавания лиц. На сегодняшний день существует несколько десятков компьютерных методов распознавания лиц.
Данная работа посвящена исследованию существующих подходов к распознаванию лиц, их ключевых особенностей и оценке их преимуществ и недостатков.
Принцип работы распознавания лиц
Распознавание лиц - это технология идентификации или верификации личности по изображению, или видео, основной процесс которой можно разделить на несколько основных этапов:
1. Захват изображения на фото или видеофрагменте и обнаружение лица;
2. Нормализация изображения, включающая в себя корректировку масштаба, ориентации и освещённости лица для улучшения точности распознавания;
3. Определение ключевых точек (глаза, брови, нос, губы, скулы, лоб и подбородок);
4. Сопоставление полученных признаков с данными в базе для идентификации лица;
5. Получение результата идентифицированной личности с максимальным количеством совпадением данных.
Технологии систем имеют общие цели и задачи, однако могут отличаться друг от друга подходами к решению распознавания лиц.
Обзор подходов к распознаванию лиц
Метод гибкого сравнения на графах
Метод гибкого сравнения на графах использует графы для представления лиц [1]. Вершины графа соответствуют элементам объекта, а рёбра — связям между этими элементами. Этот метод включает в себя эластичное сопоставление графов, описывающих лица на изображениях.
Эластичное сопоставление графов — это процесс, который позволяет сравнивать графы, даже если они не идентичны. В отличие от строгого изоморфизма, который требует точного соответствия, эластичное сопоставление допускает некоторые отклонения между графами. Один граф остается неизменным в качестве эталона, в то время как другие графы деформируются для максимального приближения к эталонному (рис. 1).
Рис. 1 Пример деформации графа в виде регулярной решётки.
Преимущества:
• обеспечивает высокую точность распознавания;
• смена ракурса или выражения лица оказывает малое влияние на результат распознавания;
• учитывает структуру объектов и связи между их элементами.
Недостатки:
• высокая вычислительная сложность процедуры распознавания;
• низкая технологичность при запоминании новых эталонов;
• линейная зависимость времени работы от размера базы данных лиц
Помимо распознавания образов, этот метод широко используется в различных областях, таких как биоинформатика, социальные сети и химическая информатика, поскольку позволяет анализировать и сравнивать сложные структуры. Он особенно полезен, когда прямое сравнение объектов затруднено из-за их сложности или неоднородности.
Метод главных компонент
Метод главных компонент (РСА) используется для уменьшения размерности пространства признаков с целью сделать признаки некоррелированными. Основная задача метода заключается в представлении лиц на изображениях в виде главных компонентов, которые называются "собственные лица" и имеют лицеподобную форму. [2] Примеры таких собственных лиц показаны на рисунке 2 после применения метода главных компонент к изображениям обучающей выборки
Рис. 2. Изображения собственных лиц, полученных с помощью метода главных компонент.
Преимущества:
• может существенно уменьшить размерность данных о лицах, что приводит к сокращению времени обработки и требований к памяти;
• выполняет линейную проекцию данных, что делает вычисления относительно простыми и быстрыми
Недостатки:
• высокие требования к условиям съёмкам - чувствительность к освещённости, мимике, углу повороту головы;
• может переобучиться на данных с узким распределением лиц, что приводит к плохой производительности на новых данных;
• отбрасывает некоторые менее значимые компоненты, что может привести к потере информации о лице и затруднениям в распознавании похожих лиц
Данный метод может быть применен в любой ситуации, где необходимо сократить количество переменных и выделить наиболее важную информацию из больших наборов данных.
Активные модели внешнего вида
Активные модели внешнего вида (Active Appearance Models, AAM) представляют собой методы, которые адаптируют статическую модель деформируемого объекта к новому изображению [3].
Процесс работы AAM начинается с создания статистической модели формы лица. Для этого сначала собирается набор обучающих изображений, на которых определяются ключевые точки, такие как уголки глаз, кончик носа и контур губ. Эти точки используются для создания модели, способной варьировать форму лица в соответствии с данными обучающего набора.
Параллельно с моделью формы разрабатывается модель текстуры лица, которая анализирует распределение цвета и интенсивности на лице. Это позволяет AAM адаптироваться к различным особенностям кожи и условиям освещения. Обе модели — формы и текстуры — затем объединяются для создания единой модели внешнего вида (рис. 3).
Рис. 3. Пример разметки изображения лица из 68 точек, образующих форму активной модели внешнего вида.
Когда модель AAM применяется к новому изображению, она итеративно изменяет параметры формы и текстуры, чтобы минимизировать разницу между моделью и реальным изображением. Этот процесс поиска соответствия позволяет точно интерпретировать лицо на изображении.
После того как модель наилучшим образом соответствует изображению, параметры модели могут быть использованы для различных целей, не только для распознавания и интерпретации лиц, но и медицинских приложениях для анализа изменений во внешности, связанных со здоровьем или старением.
Достоинства:
• быстрые, простые, точные
• легко обобщаются на 3D.
Недостатки:
• изображение используется частично
• необходима хорошая разметка
Нейронные сети
Существует разнообразие видов нейронных сетей, их количество достигает около десятка различных типов
[4].
Обучение нейронных сетей происходит на наборе обучающих примеров, в процессе которого корректируются веса связей между нейронами. Для оптимизации этого процесса используется метод градиентного спуска, направленный на минимизацию ошибок в распознавании. По мере обучения нейронная сеть автоматически выявляет ключевые характеристики в данных, оценивает их важность и устанавливает связи между ними [4].
Существует несколько типов нейронных сетей, использующихся для распознавания лиц. Наиболее распространёнными из них являются сверточные и глубокие нейронные сети.
Сверточные нейронные сети (Convolutional Neural Network, CNN) - сети, предназначенные для эффективного анализа преимущественно двумерных и трехмерных данных [5]. Сеть состоит из 3 слоёв: сверточный, подвыборочныйе и полносвязный. Архитектура сверточной сети представлена на рисунке 4.
Рис. 4. Архитектура сверточной нейронной сети.
Нейронные сети глубокого обучения (Deep neural network, DNN) представляют собой сети, состоящие из множества скрытых слоев. Благодаря нелинейным преобразованиям, выполняемым каждым скрытым слоем, DNN обладают значительно большей выразительной мощностью по сравнению с сетями с небольшим количеством слоев. Эти преобразования позволяют эффективно представлять более сложные функции.
Достоинства нейронных сетей:
• обнаружение объектов с помощью глубокого обучения значительно более устойчиво к окклюзии, сложным сценам и сложному освещению;
• способны детектировать лица при различных условиях: Плохой уровень освещённости (света от монитора в тёмной комнате достаточно для распознавания); Голова наклонена или слегка повёрнута; Лицо не полностью в кадре или прикрыто ладонью.
Недостатки:
• требуется огромное количество обучающих данных;
• процесс аннотации изображений является трудоемким и дорогостоящим;
• трудоёмкая реализация.
Нейронные сети постоянно развиваются, и исследователи продолжают работать над улучшением их точности и эффективности, а также над решением проблем, связанных с конфиденциальностью и этическими аспектами их применения.
Таким образом, в результате анализа существующих подходов к распознаванию лиц для каждого подхода выявлены достоинства и недостатки, которые приведены в табл. 1.
Таблица 1. Преимущества и недостатки алгоритмов распознавания лиц.
Алгоритм Преимущества Недостатки
Метод гибкого сравнения на графах Высокая точность распознавания (~90 %) Эффективность распознавания даже при наличии различных эмоциональных выражений Эффективность распознавания при изменении ракурса лица на 15 градусов Высокая вычислительная сложность процедуры распознавания Линейная зависимость времени работы от размера базы данных лиц Низкая технологичность при запоминании новых эталонов
Метод главных компонент Может существенно уменьшить размерность данных о лицах Выполняет линейную проекцию данных Более строгие требования к качеству обучающих изображений Требуется огромное количество обучающих данных; процесс аннотации изображений является трудоемким и дорогостоящим
Активные модели внешнего вида Быстрые, простые, точные Легко обобщаются на 3D Изображение используется частично Необходима хорошая разметка
Нейронные сети Точность распознавания более 90 % Более устойчиво к окклюзии, сложным сценам и сложному освещению Способность детектировать лица при различных условиях Более строгие требования к качеству обучающих изображений Требуется огромное количество обучающих данных; процесс аннотации изображений является трудоемким и дорогостоящим.
Вывод
Каждый из рассмотренных подходов к распознаванию лиц имеет свои преимущества и недостатки. Выбор лучшего подхода зависит от конкретных требований приложения.
Метод гибкого сравнения на графах обеспечивает высокую точность, но может быть вычислительно дорогим. Нейронные сети обычно достигают высокой точности, но требуют большого объема данных для обучения. Метод главных компонент эффективен для уменьшения размерности данных, но может не учитывать важные особенности лица.
Активные модели внешнего вида учитывают вариации внешнего вида лица, но могут быть чувствительны к шуму и помехам.
Для приложений, требующих высокой точности и надежности, нейронные сети являются предпочтительным выбором. Однако для приложений с ограниченными вычислительными ресурсами или небольшими наборами данных метод гибкого сравнения на графах или активные модели внешнего вида могут быть более подходящими.
Список литературы
1. Фарафонова А.Е. Технологии биометрической идентификации личности / А.Е. Фарафонова, Е.Л. Турнецкая // Обработка, передача и защита информации в компьютерных системах: Первая Всероссийская научная конференция, Санкт-Петербург, 14-22 апреля 2020 года. - Санкт-Петербург: Санкт-Петербургский государственный университет аэрокосмического приборостроения, 2020. - С. 43-49.
2. Левчук С.А., Якименко A.A. Исследование характеристик алгоритмов распознавания лиц // Сборник научных
трудов НГТУ. - 2018. - № 3-4 (93). - С. 40-58.
3. Тихонова Т.С., Белов Ю.С. Основные подходы к отслеживанию и распознаванию лица [Текст] / Т.С. Тихонова, Ю.С. Белов // Электронный журнал: наука, техника и образование. — 2016. — № 2 (6). — С. 111-115.
4. Паршин С.Е. Исследование параметров алгоритмов распознавания лиц [Текст] / С.Е. Паршин // Сборник научных трудов НГТУ. — 2019. — № 1 (94). — С. 55-70.
5. Бредихин А.И. Алгоритмы обучения сверточных нейронных сетей [Текст] / А.И. Бредихин // Вестник Югорского государственного университета. — 2019. — № 1 (52). — С. 41-54.