Анализ разработки приложения для распознавания печатных фотографий с применением дополненной реальности

Агаджанян Д.В.; Чукарин М.И.

Агаджанян Д.В., Чукарин М.И., НИУ Высшая школа экономики, МИЭМ

МкЛ99, mitch96@yandex.ru

Аннотация

В работе проводится обзор существующих методов распознавания лиц. После обзора и сравнения существующих методов распознавания лиц, проводится выбор метода, который наиболее подойдет для реализации приложения для смартфона как со стороны точности метода, так и со стороны вычислительной сложности. Также будет проведен обзор существующих приложений.

Введение

Дополненная реальность - это технология, позволяющая наложить на реальный мир дополнительный контент (информация, аудио, видео и т.п.) с целью дополнения сведений об окружающем мире и обеспечения простоты восприятия информации.

В данный момент дополненная реальность широко используется в разных областях, таких как медиа, при трансляции спортивных матчей, например, желтая линия, показывающая положение игрока в "офсайде", в военных технологиях, например, в шлеме пилота встроена дополненная реальность так, что он может видеть окружающий мир с дополненной информацией для удобства и простоты использования летательного аппарата, не отвлекаясь на отдельные приборы на панели. В компьютерных играх, за последние годы резкий скачок развития технологий дополненной реальности повысил количество компьютерных игр, использующих данную технологию, например приложения, имитирующие террористов на дисплее смартфона с работающей камерой, задача пользователя отстреливать их при помощи сенсорного экрана, также дополненная реальность используется во многих других областях, таких как полиграфия, распознавание штрих-кодов (QR-коды, Microsoft Tag), медицина и так далее.

Стремительный рост технологий виртуальной и дополненной реальности и новых методов их реализации приводят к потребности их внедрения в повседневную жизнь, делая окружающий мир более информативным.

Движение образов является одной из значимых проблем, которая возникает в следствии изменения освещенности, цветов, масштабов, ракурсов наблюдения. Проблема устранения неоднозначности, при проектировании объемных объектов на плоские изображения также влияет на конечные результаты. Также цвет и яркость отдельных пикселей зависит от различных факторов, которые сложно спрогнозировать, таких как:

1. Источники света и их расположения

2. Тени

3. Интенсивность излучения и цвет

В рамках данной разработки, наиболее остро проблема стоит в выборе метода для точного распознавания лица на печатной фотографии. После анализа существующих методов, будет выбран наилучший для целей приложения метод, который будет оптимизирован для наилучшего результата.

Обзор и анализ методов распознавания объектов

Следует также отметить, что обнаружение объектов на изображении также осложняется огромным количеством данных, представленных на фотографии. Любое изображение состоит из тысячи пикселей, и каждый из них может иметь важную роль. Следовательно, требуется изучить каждый пиксель изображения и его принадлежность к объекту или фону, учитывая его изменчивость. Анализ каждого пикселя изображения может потребовать больших затрат как в памяти, так и в производительности компьютера, тем самым нужно учитывать этот фактор при разработке приложения для распознавания лиц.

Вся сложность проблемы заключается в верном выборе метода описания объектов, для обнаружения и идентификации которых создается приложение. Приложение должно учитывать, в связи с ограниченными ресурсами, наиболее характерные особенности и быть достаточно представительным, чтобы отличить один объект от других, представленных на изображении. Задача разработки упрощается тем, что распознавание лиц будет происходить только на печатных фотографиях, тем самым потребуются меньшие ресурсы, так как не придется учитывать изменчивость во времени объектов, попавших в кадр камеры.

Алгоритм распознавания лиц:

1. Удостоверение наличия на изображении лица человека

2. Определение зоны человека

3. Определение зоны головы человека и его ракурс

4. Определение лица человека

5. Сравнение полученного на изображении лица с заложенными эталонными лицами

Проведем обзор и анализ основных существующих методов. Сразу заметим, что основные характеристики всех методов:

1. Видоизменение исходных данных (изображение)

2. Определение значимых признаков

3. Способ построения Методы:

Метод сравнения эластичных графов (МСЭГ)

Особенность метода состоит в сравнении двух графов, описывающих изображения лиц. Характерные черты лиц являются взвешенными вершинами и ребрами графов. Один граф является эталонным, то есть заранее заложенным в приложение. Эталонный граф остается неизменным, в то время, как второй граф деформируется и подгоняется под первый граф. Недостаток метода заключается в его вычислительной сложности. В отдельных публикациях указывается 95-97%-ая эффективность распознавания даже при наличии различных эмоциональных выражениях и изменении ракурса лица до 15 градусов. Однако разработчики систем эластичного сравнения на графах ссылаются на высокую вычислительную стоимость данного подхода.

Нейронные сети (НС)

Существует огромное количество разновидностей метода нейронных сетей, рассмотрим одну из используемых, это сеть, построенная на многослойном перцептроне. Принцип метода состоит в обучении сети при помощи обучающих примеров, что означает настройку весов межнейронных связей в процессе решения оптимизационной задачи. В процессе обучения нейронных сетей, происходит автоматическое определение ключевых признаков, идентификация и построение связей между ними. Данный алгоритм использует БаееЬоок в своих закрытых разработках. Недостаток метода заключается в необходимости полностью переобучить НС при добавлении новых эталонных лиц: данная процедура занимает очень много времени (от 1 часа до нескольких дней). Основная сложность несет математический характер (выбор оптимального шага, попадание в локальный оптимум).

Метод главных компонент (МГК)

Метод главных компонент, основанный на преобразовании Карунена-Лоева, является одним из основных методов уменьшения размерности данных, при этом не потеряв много информации. Этот метод применяется для представления изображения лица вектором малой размерности (главных компонент), который затем сравнивается с эталонными векторами, заранее заложенными в приложение. Основной целью МГК является сильное уменьшение размерности пространства признаков для лучшего описания образов, принадлежащие множеству лиц. При помощи данного метода, можно выявить и описать в базисе изменчивость в обучающей выборке. Следовательно, весь набор лиц преобразуется в общую матрицу, строками которой являются все изображения лиц, разложенные в строки. Затем производится нормировка данных и приведение строк к 0-му среднему и 1-й дисперсии, вычисляется матрица ковариации. Для полученной матрицы ковариации решается задача определения собственных значений и соответствующих им собственных векторов (собственные лица). Далее производится сортировка собственных векторов в порядке убывания собственных значений и

оставляют только первые к векторов по у>с а.

правилу: > ТЬгехШЛ (0,9 от 0,95)

Метод имеет большое практическое применение. Углубляясь в метод, можно обнаружить, что данным методом можно получить более точные результаты использованием линейного дискриминанта Фишера. Минусом метода является его неэффективность, когда на изображении есть значительные изменения в освещенности.

Метод Виола-Джонса

Основные принципы метода:

1. использование интегрального представления изображения для быстрого вычисления необходимого объекта

2. использование признаков Хаара для поиска объектов (лица, черт лиц)

3. использование Boosting (усиление, улучшение), чтобы найти соответствующие признаки искомого объекта на изображении

4. использование классификатора, на вход которого поступают все признаки и на выходе получают либо "верно", либо "ложь"

5. использование каскадов признаков для отбрасывания неподходящих окон (где нету лиц)

Поиск признаков:

Признак Виолы-Джонса представляется суммой всех пикселей прямоугольной зоны, с помощью которой происходит поиск объекта. Прямоугольных зон должно быть множество. Разность между суммой всех пикселей белых прямоугольников и черных прямоугольников и есть размер этого признака. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчет признака с 2 прямоугольниками состоит из 6 обращений в интегральный массив, для признака с 3 прямоугольниками - из 8, с 4 прямоугольниками - из 9. Хранение изображения в интегральной форме, где сумма всех пикселей слева и сверху записаны в каждом пикселе является преимуществом и упрощает процесс проверки прямоугольных признаков, проводя каждую проверку за определенное статичное время.

Обучение:

Чем больше вариантов различных признаков, тем дольше придется рассчитывать каждый признак, что влияет на время расчета. Чтобы ускорить процесс подсчета каждого признака за наиболее короткое время, используются улучшенные алгоритмы обучения, например, такие как Adaptive

Boost (алгоритм усиления классификатора и признаков).

Ниже представлен сравнительный анализ приложений и методов.

Табл. 2 (сравнительный анализ приложений)

Табл. 3 (Сравнительный анализ методов)

Разработка приложения

За основу разрабатываемого приложения будет использоваться метод Виола-Джонса, так как данный метод подходит по следующим признакам: относительно-небольшая вычислительная сложность для работы на смартфоне, при использование современных методов обучения, статичное и маленькое время распознавания. Приложение будет иметь интерфейс, который будет связан с базой данных, включающая в себя за-

Небольшая вычислительная сложность Высокая эффективность Хорошая точность распознавания

МСЭГ Нет Да Да

НС Нет Да Да

МГК Да Нет Да

Метод Виола-Джонса Да Да Да

Приложение Высокая скорость работы Высокая эффективность Хорошая точность распознавания

Camfind Да Да Нет

Nametag Нет Нет Да

Klick Нет Нет Да

ранее заложенные эталоны и весь контент о них. При наведении камеры на печатную фотографию, с интервалом в 1 секунду будет запускаться алгоритм распознавания лица, он будет сравнивать полученный кадр с эталонами в базе данных, если количество признаков будет достаточно для идентификации распознанного лица, то приложение использует технологию дополненной реальности: выдаст весь имеющийся контент об этой персоне.

Заключение

В заключении анализа, был проведен обзор используемых существующих методов распознавания объектов (в данном контексте лиц), и выбран наилучший метод для реализации приложения, также был проведен обзор приложений.

Список литературы

1. P. Viola and M.J. Jones, «Rapid Object Detection using a Boosted Cascade of Simple Features», proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR 2001), 2001

2. P. Viola and M.J. Jones, «Robust real-time face detection», International Journal of Computer Vision, vol. 57, no. 2, 2004., pp.137-154

3. Р.Гонсалес, Р.Вудс, «Цифровая обработка изображений», ISBN 5-94836-028-8, изд-во: Техносфера, Москва, 2005. - 1072 с.

4. Местецкий Л. М., «Математические методы распознавания образов», МГУ, ВМиК, Москва, 2002-2004., с. 42 - 44

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Агаджанян Д.В., Чукарин М.И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Агаджанян Д.В., Чукарин М.И.

Текст научной работы на тему «Анализ разработки приложения для распознавания печатных фотографий с применением дополненной реальности»