Научная статья на тему 'ПРИМЕНЕНИЕ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ГОРОДСКИХ ПАМЯТНИКОВ АРХИТЕКТУРЫ В МОБИЛЬНОМ ПРИЛОЖЕНИИ ТИПА "ЭЛЕКТРОННЫЙ ГИД"'

ПРИМЕНЕНИЕ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ГОРОДСКИХ ПАМЯТНИКОВ АРХИТЕКТУРЫ В МОБИЛЬНОМ ПРИЛОЖЕНИИ ТИПА "ЭЛЕКТРОННЫЙ ГИД" Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
248
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / АЛГОРИТМ РАСПОЗНАВАНИЯ / ОШИБКА РАСПОЗНАВАНИЯ / ПОГОДНЫЕ УСЛОВИЯ / УСЛОВИЯ ОСВЕЩЕНИЯ / ДОПОЛНЕННАЯ РЕАЛЬНОСТЬ / МАРКЕР / VUFORIA / UNITY3D / ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ / БАЗА ДАННЫХ / OBJECT RECOGNITION / RECOGNITION ALGORITHM / RECOGNITION ERROR / WEATHER / LIGHTING CONDITIONS / AUGMENTED REALITY / MARKER / INFORMATION AND TELECOMMUNICATION TECHNOLOGIES / DATABASE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузнецов М. А., Воробьев А. С.

В статье предлагается способ составления образа памятника в виде согласованного набора фотографий. Целью является организация базы данных (БД), на основе которой производится автоматическое распознавание туристических объектов. Описанный способ реализован в мобильном приложении «Электронный гид», созданном на базе платформы для дополненной реальности Vuforia. Данный инструмент используется для создания и хранения БД, предназначенной для идентификации окружающих объектов городской инфраструктуры; построения интерактивного пользовательского интерфейса с элементами дополненной реальности. Механизм распознавания объектов реализован на основе использования алгоритмов компьютерного зрения. Мобильное приложение создано в среде разработки Unity3D, оно было протестировано на платформе Android. В статье описаны результаты экспериментов с распознаванием памятников архитектуры города Волгограда. На основе оценок результатов этих экспериментов сделан вывод о целесообразности применения описанного подхода для решения задачи определения объектов городской инфраструктуры. Подход имеет определенные достоинства, включая высокую точность распознавания объектов. К недостаткам подхода можно отнести значительное влияние природных условий и времени суток (включая особенности освещения объектов) на качество работы приложения и трудоемкость формирования базы маркеров. При этом целесообразно разделять ошибки распознавания объектов 1-го и 2-го родов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USAGE OF COMPUTER VISION FOR MONUMENT RECOGNITION THROUGH MOBILE APPLICATION "ELECTRONIC GUIDE"

The article offers a technique for developing a descriptive set of monuments out of a collection of their photographs in order to organize a database for automatic recognition. Described technique is used in the form of mobile application “Electronic Guide” based on AR platform Vuforia. This platform is used for database creation and storage, identification and tracking objects of urban infrastructure and for implementation of interactive user interface with augmented reality. Object recognition mechanism is based on computer vision algorithms. The mobile application was implemented in Unity3D development environment and tested on Android platform. The article describes the results of experiments with the recognition of Volgograd monuments. On the basis of experiment results, it was concluded that the described approach is efficient for solving the problem of determining the objects of the urban infrastructure. It has many advantages including high recognition accuracy. However, weather and lighting conditions can influence on application work quality. In addition, the formation of marker base is laborious. Furthermore, it is necessary to separate recognition errors into the 1-st and 2-nd kinds.

Текст научной работы на тему «ПРИМЕНЕНИЕ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ГОРОДСКИХ ПАМЯТНИКОВ АРХИТЕКТУРЫ В МОБИЛЬНОМ ПРИЛОЖЕНИИ ТИПА "ЭЛЕКТРОННЫЙ ГИД"»

26. Snigireva T. A., Podchinenov A. V. Nauchnyy kontent gumanitamogo zhumala kak problema [Scientific content of the humanitarian log as a problem]. Nauchnoe izdanie mezhdunarodnogo urovnya - 2015: sovremennye tendentsii v mirovoy praktike redaktirovaniya, izdaniya i otsenki nauchnykh publikatsiy : materialy 4-y Mezhdunarodnoy nauchno-prakticheskoy konferentsii [The scientific publication of the international level - 2015: current trends in world practice of editing, the edition and assessment of scientific publications. Materials of the 4th International Scientific and Practical Conference]. Saint Petersburg, 2015, pp. 131-137.

27. Spachil O. V., Volkov I. L. Nauchnye zhurnaly gumanitarnogo profilya i modelirovanie sotsialnykh realiy [Scientific logs of a humanitarian profile and modeling of social realities]. Kulturnaya zhizn Yuga Rossii [Cultural life of the South of Russia], 2013, no. 3 (50), pp. 39-42.

28. Sidorova V. V. Ispolzovanie RINTs dlya otsenki nauchnoy deyatelnosti gumanitariev [Use of RINTs for assessment of scientific activity of humanists]. Sibirskie istoricheskie issledovaniya [The Siberian Historical Researches], 2016, no. 1, pp. 27-39.

29. Tkachenko Yu. V. Oshibki, naibolee chasto dopuskaemye v materialakh gumanitarnoy napravlennosti [The errors which are most often allowed in materials of humanitarian orientation]. Vestnik Pridnestrovskogo universiteta. Seriya. Gumanitarnye nauki [Bulletin of the Transnistrian University. Series. Humanities], 2014, no. 1 (46), pp. 46-51.

30. Teslya Ye. V. Elektronnye literaturno-khudozhestvennye i filologicheskie zhurnaly: preimushchestva i perspek-tivy [Electronic literary and art and philological journals: advantages and perspectives]. Vestnik Chelyabinskoy gosudarstvennoy akademii kultury i iskusstv [Bulletin of the Chelyabinsk State Academy of Culture and Arts], 2009, vol. 19, no. 3, pp. 15-16.

31. Sharkov F. I. Izmerenie effektivnosti funktsionirovaniya rossiyskikh zhurnalov obshchestvenno-gumanitarnogo tsikla [Measurement of efficiency of functioning of the Russian journals of a public and humanitarian cycle]. Nauchnoe izdanie mezhdunarodnogo urovnya - 2016: reshenie problem izdatelskoy etiki, retsenzirovaniya i podgotovki publikatsiy [The scientific publication of the international level - 2016: solution of problems of publishing ethics, reviewing and preparation of publications], 2016, pp. 319-322.

32. Shmonin D. V., Mochalova I. N. Gumanitarnaya nauchnaya periodika v Rossii: nachalo diskussii [The humanitarian scientific periodical press in Russia: beginning of a discussion]. Vestnik Leningradskogo gosudarstvennogo universiteta imeni A.S. Pushkina [Bulletin of the Leningrad State University named after A.S. Pushkin], 2009, vol. 2, no. 1 (25), pp. 156-158.

33. Fedorova T. S. Gumanitarnye nauchnye zhurnaly segodnya: problemy i perspektivy [Humanitarian scientific logs today: problems and perspectives]. Nauchnaya periodika: problemy i resheniya [Scientific Periodical Press: Problems and Solutions], 2014, no. 3 (21), pp. 29-31.

34. Yudin B. G. Ot gumanitarnogo znaniya k gumanitarnym tekhnologiyam (nachalo) [From humanitarian knowledge to humanitarian technologies (beginning)]. Znanie. Ponimanie. Umenie [Knowledge. Understanding. Ability], 2005, no. 3, pp. 129-138.

35. Brumshtein Yu. M. An analysis of the impact of information and communication technology on the structure of scientific and technical information in Russia. Scientific and Technical Information Processing, no. 43 (4), pp. 257-267 DOI: 10.3103/S0147688216040067 (http://link.springer.com/article/10.3103/S0147688216040067).

УДК 004.93'1

ПРИМЕНЕНИЕ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ГОРОДСКИХ ПАМЯТНИКОВ АРХИТЕКТУРЫ В МОБИЛЬНОМ ПРИЛОЖЕНИИ ТИПА «ЭЛЕКТРОННЫЙ ГИД»

Статья поступила в редакцию — 14.05.2018, в окончательном варианте — 15.10.2018.

Кузнецов Михаил Андреевич, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. Ленина, 28, кандидат технических наук, e-mail: [email protected]

Воробьев Андрей Сергеевич, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. им. Ленина, 28, аспирант, e-mail: [email protected]

В статье предлагается способ составления образа памятника в виде согласованного набора фотографий. Целью является организация базы данных (БД), на основе которой производится автоматическое распознавание туристических объектов. Описанный способ реализован в мобильном приложении «Электронный гид», созданном на базе платформы для дополненной реальности Vuforia. Данный инструмент используется для создания и хранения БД, предназначенной для идентификации окружающих объектов городской инфраструктуры; построения интерактивного пользовательского интерфейса с элементами дополненной реальности. Механизм распознавания объектов реализован на основе использования алгоритмов компьютерного зрения. Мобильное приложение создано в среде разработки Unity3D, оно было протестировано на платформе Android. В статье описаны результаты экспериментов с распознаванием памятников архитектуры города Волгограда. На основе оценок результатов этих экспериментов сделан вывод о целесообразности применения описанного подхода для решения задачи определения объектов городской инфраструктуры. Подход имеет определенные достоинства, включая высокую точность распознавания объектов. К недостаткам подхода можно отнести значительное влияние природных условий и времени суток (включая

особенности освещения объектов) на качество работы приложения и трудоемкость формирования базы маркеров. При этом целесообразно разделять ошибки распознавания объектов 1-го и 2-го родов.

Ключевые слова: распознавание образов, алгоритм распознавания, ошибка распознавания, погодные условия, условия освещения, дополненная реальность, маркер, Vuforia, Unity3D, информационно-телекоммуникационные технологии, база данных

Графическая аннотация (Graphical annotation)

USAGE OF COMPUTER VISION FOR MONUMENT RECOGNITION THROUGH MOBILE APPLICATION "ELECTRONIC GUIDE"

The article was received by editorial board on 14.05.2018, in the final version — 15.10.2018.

Kuznetsov Mikhail A., Volgograd State Technical University, 28 Lenin Ave., Volgograd, 400005, Russian Federation,

Cand. Sci. (Engineering), e-mail: [email protected]

Vorobyov Andrey S., Volgograd State Technical University, 28 Lenin Ave., Volgograd, 400005, Russian Federation,

post-graduate student, e-mail: [email protected]

The article offers a technique for developing a descriptive set of monuments out of a collection of their photographs in order to organize a database for automatic recognition. Described technique is used in the form of mobile application "Electronic Guide" based on AR platform Vuforia. This platform is used for database creation and storage, identification and tracking objects of urban infrastructure and for implementation of interactive user interface with augmented reality. Object recognition mechanism is based on computer vision algorithms. The mobile application was implemented in Unity3D development environment and tested on Android platform. The article describes the results of experiments with the recognition of Volgograd monuments. On the basis of experiment results, it was concluded that the described approach is efficient for solving the problem of determining the objects of the urban infrastructure. It has many advantages including high recognition accuracy. However, weather and lighting conditions can influence on application work quality. In addition, the formation of marker base is laborious. Furthermore, it is necessary to separate recognition errors into the 1-st and 2-nd kinds.

Keywords: object recognition, recognition algorithm, recognition error, weather, lighting conditions, augmented reality, marker, Vuforia, Unity3D, information and telecommunication technologies, database

Введение. Развитие информационно-телекоммуникационных технологий (ИТКТ) дало их пользователям дополнительные возможности в различных областях производственной деятельности, быта, рекреаций, в том числе познавательного туризма. Объектами такого туризма обычно являются различные архитектурные объекты, расположенные преимущественно в городах, иных населенных пунктах. В случае больших городов традиционные туристические карты-схемы (как на бумаге, так и в электронной форме) могут быть недостаточно наглядны. Существенно также, что для иностранных туристов необходима разработка карт-схем на различных языках. Кроме того, они не всегда обеспечивают пользователя достаточной информацией об объекте, включая его вид и внутреннее убранство. Одним из возможных решений этой проблемы является использование технологий дополненной реальности.

Применению данной технологии для туристических приложений посвящено достаточно много работ, например, [1-3, 6, 12, 17]. В них описываются, классифицируются и анализируются алгоритмы распознавания, оценивается эффективность их применения. Однако везде туристический объект представляется в виде образа, полученного обработкой единственной фотографии. В реальных условиях такое решение не позволяет качественно идентифицировать туристические объекты при разных погодных условиях, освещении и существенно отличающихся ракурсах взгляда. Поэтому целью работы является поиск способов описания объектов, позволяющих снизить требования к внешним условиям корректной работы приложения. При этом необходимо использовать существующие библиотеки распознавания. Повторное использование кода позволяет существенно ускорить процесс разработки и снизить затраты на тестирование.

Обзор применений технологии дополненной реальности. Для анализа библиотек дополненной реальности требуется изучить существующие приложения из других прикладных областей. Технология дополненной реальности на данный момент является очень популярным предметом для проведения исследований и выполнения инновационных разработок. Это связано с использованием концепции «естественного интерфейса», который упрощает человеко-машинное взаимодействие. Поэтому множество новейших приложений, особенно мобильных, проектируются с учетом потенциала данной технологии.

Одна из важнейших задач в реализации дополненной реальности - это определение ключевых объектов в поле зрения мобильного устройства на основе использования алгоритмов компьютерного зрения.

Такое определение объектов активно используется для решения целого ряда различных задач:

• разработка автономных автомобилей, роботов и дронов, способных самостоятельно ориентироваться в пространстве, принимать решения о направлениях движения (обычно в сочетании с другими алгоритмами позиционирования) [10];

• компьютерные игры и приложения, где специальные камеры, такие как MS Kinect, значительно упрощают взаимодействие с пользователем и позволяют естественным способом влиять на игровой процесс или анализировать движения человека [8, 9];

• в области медицины уже существуют приложения, помогающие диагностировать заболевания с помощью анализа изображений - например, выявлять меланому [19], иногда - оценивать степень «злокачественности» опухоли.

Чаще всего компьютерное зрение используется для распознавания небольших объектов: лица человека, дорожной разметки и знаков, QR-кодов. Реже оно применяется для классификации объектов больших размеров, в том числе для задач семантической сегментации изображений [16]. И ещё реже -для распознавания крупных объектов, таких как здания.

Отличить здания друг от друга, используя только лишь их внешний вид, иногда весьма непросто даже для человека. Вид типовых зданий (зданий, построенных по типовым проектам) абсолютно идентичен - если не считать случаев, когда на таких зданиях выделяются нарисованные графические объекты, рекламные вывески, цветовые особенности, внешние части систем кондиционирования воздуха.

Значительно проще распознавать здания со специфической архитектурой, дома со специфическими дизайнерскими решениями, старинные сооружения, являющиеся памятниками культуры. Для таких объектов характерна уникальность, в том числе и в отношении внешнего вида. Это свойство помогает распознавать их методами компьютерного зрения с наиболее высокой точностью.

Гипотеза об уникальности внешнего вида культурных объектов лежит в основе идеи мобильного приложения с интерфейсом, использующим элементы дополненной реальности. Оно предназначено для информирования гостей города (включая, в перспективе, и иностранных туристов) о памятниках культуры, перед которыми они находятся. Такое приложение способно распознавать памятники культуры, используя их внешний вид. Эта задача является базовой для работы электронного туристического гида, поэтому имеет смысл называть его «Электронным гидом».

По данному направлению есть работы [12, 17], затрагивающие вопросы классификации памятников и оптимизацию их распознавания. Однако на рынке программного обеспечения не существует готовых приложений, реализующих распознавание туристических памятников. Анализировались крупные магазины программного обеспечения, такие как Google Play и App Store, а также выполнялись запросы к поисковым системам Google и Yandex с соответствующими ключевыми словами.

В качестве концептуально близкого примера-аналога в сфере туризма можно привести приложение Bridgging [15]. Оно способно определять, какие городские объекты попали в кадр камеры мобильного устройства, но с использованием данных геолокации и сенсоров гаджета. Этот подход, использующий данные с датчиков GPS или ГЛОНАСС, имеет достаточно большую погрешность, которая в некоторых случаях может превышать 15 метров [4].

Поэтому целесообразно использование разработки, созданной авторами и описываемой далее.

Общая характеристика принципа работы «Электронного гида». Алгоритм работы пользователя с разработанной системой достаточно прост и не требует от него какой-то специальной подготовки в сфере ИТКТ [5]. Достаточно навести камеру портативного гаджета (смартфона или планшета) на инте-

ресующий объект, чтобы программа начала анализировать сцену. Механизм идентификации памятников базируется на распознавании объектов реального мира и сравнении их с эталонной информацией по совокупности объектов, заложенной в БД системы. Фактически необходимо решить одну из задач компьютерного зрения - идентифицировать видимые через камеру объекты [2]. Для решения данной задачи может быть использовано несколько различных подходов.

1. Распознавание объектов по специальным меткам, нанесенным на сам памятник архитектуры (культуры) или же на объекты его окружения. Данный способ требует дополнительной работы в реальном мире по контрастному выделению искомых объектов с помощью специальных изображений (меток). Эти изображения могут также кодировать дополнительную информацию для обеспечения эффективности поиска по БД. Часто в качестве такой метки используют QR-код [6, 7]. По нему с помощью планшета или смартфона может быть осуществлен выход на соответствующую интернет-страницу. Для иностранных туристов это может быть сайт, поддерживающий несколько языков.

Этот способ очень эффективен, но по этическим и эстетическим соображениям обычно нет возможности добавить специальную метку на объекты культурного наследия. Кроме того, из-за большого размера памятника могут возникнуть технические трудности при нанесении разметки или использовании приложения.

2. Распознавание объектов по эталонной 3Б-модели. Этот метод не привязан к работе по изменению реального мира. Однако решение задачи является достаточно трудоемким по причине необходимости формирования описания трехмерных моделей, в точности повторяющих форму и рельеф объекта, а также его цветовые характеристики. Учтем при этом, что воспринимаемые устройством цветовые характеристики могут меняться в зависимости от условий освещения.

3. Распознавание объекта по набору фотографий с разных ракурсов при разных условиях окружения позволяет минимизировать время на подготовку информационного обеспечения [1]. Достаточно сделать несколько фотографий для создания эталонных описателей объекта.

Решение задачи по второму способу становится крайне сложным, когда речь идёт о больших объектах. Существуют специальные 3Б-сканеры [13, 18], позволяющие без особых усилий создать точную 3Б-модель и с помощью специального ПО экспортировать её в любую CAD-систему. К сожалению, цена данных устройств крайне высока - порядка нескольких миллионов рублей. Есть на рынке и более дешевые решения, например, Sense 3D Scanner [11], который по карману и обычному пользователю. Однако он предназначен для сканирования только небольших объектов. Действительно большой памятник (объект) проблематично будет отсканировать с использованием и некоторых дорогих 3D-сканеров, так как они предназначены для использования на коротких дистанциях.

Третье решение предложено авторами статьи и в настоящее время пока не имеет применения. Оно предполагает заготовку необходимого набора фотографий туристического объекта с учетом некоторых правил. Это требует определенных ресурсов, но задача видится менее трудоемкой, и она не связана с изменением реальных объектов или введением в их окружение дополнительных объектов. Подход на основе третьего решения предлагается для реализации как наиболее подходящий с точки зрения этики, приемлемой трудоемкости и достаточно малого объема памяти для описания визуальных свойств целевого объекта.

Анализ инструментов и библиотек для создания приложения. Существует ряд библиотек для создания приложений с дополненной реальностью [3]. В таблице представлены характеристики наиболее популярных из них.

Таблица - Сравнительная таблица характеристик библиотек дополненной реальности

AR-фреймворк Компания Лицензия Поддерживаемые платформы

Vuforia Qualcomm Платная + бесплатная Android, IOS, Unity

Wikitude Wikitude Gmbh Платная + бесплатная Android, IOS, Titanium, Xamarin, Unity, Google Glass

ARToolKit DAQRI Бесплатная Android, IOS, Windows, Linux, Mac OS X

Kudan Kudan Limited Платная Android, IOS, Unity

ARCore Google Бесплатная Android, Unity, Unreal

Для проверки возможности использования фотографий в качестве образцов (целей) будем использовать один из наиболее популярных фреймворков для дополненной реальности - ^йэйа. Важной особенностью ^Аэйа является то, что вся необходимая функциональность для создания прототипа входит в пакет бесплатной лицензии.

Приложения, созданные с помощью Vuforia, в качестве источника данных используют базу виртуальных маркеров, на основе которых происходит распознавание образов. На портале разработчиков доступен так называемый TargetManager, обеспечивающий работу с базами маркеров. Сама база может храниться непосредственно на мобильном устройстве, а также в облачном хранилище. Второй вариант обеспечивает невысокие требования к памяти мобильного устройства. Это важная особенность, так как графические изображения могут достигать объёма в несколько мегабайт, а база составляется на основе сотен и тысяч образов. Недостатком данного варианта является необходимость быстрого и стабильного подключения смартфона или планшета к сети Интернет [20]. В условиях крупного города это, как правило, не представляет проблемы.

Приложение на основе Vuforia SDK использует такие компоненты, как камера, которая захватывает кадр, и трекер, который анализирует содержимое кадра. Трекер может загружать и активировать несколько наборов данных, соответствующих конкретным маркерам. Этот компонент применяет различные алгоритмы компьютерного зрения, которые детектируют и отслеживают объект в кадрах видеоизображения. Маркеры, с которыми работает трекер, делятся на несколько видов (рис. 1) [20]:

• Image target представляет собой 2D-изображение;

• Cuboid - маркер в виде параллелепипеда. Он имеет 6 граней, а значит, для его создания потребуется 6 изображений;

• Cylinder - маркер в виде цилиндра с изменяемым размером оснований. Для его создания необходимо 3 изображения;

• 3D Object - маркер создается при помощи специального мобильного приложения, предназначенного для сканирования объекта с целью получ

Туре:

О ^

Single Image Cuboid

Рисунок 1 - Виды маркеров, поддерживаемые Vuforia

На рисунке 2 представлена схема обработки кадра. Конвертер преобразует изображения, поступающие с камеры, в формат, подходящий для обработки трекером и визуализации с помощью OpenGL ES. Код приложения выполняет настройку трекера на определенные действия по обнаружению целей. В случае возникновения запланированных событий, код приложения добавляет графические объекты или текст поверх маркеров. Визуализатор предназначен для вывода на экран устройства кадра с камеры с добавлением синтезированного графического контента.

Работа с 3D-маркерами гарантирует качественное распознавание объекта со всех сторон. Чтобы создать такую модель, необходимо просканировать требующийся объект. Для этих целей разработчики Vuforia предоставляют специальное мобильное приложение и изображения маркера (рис. 3), на котором должен находиться объект во время сканирования. Этот маркер распечатывается на листе формата А4. После этого сканируемый объект помещается в специальную область на маркере в правом верхнем углу. При этом габариты объекта не должны превышать размера указанной области. Далее запускается приложение, которое распознаёт данный маркер и «понимает», где должен находиться объект, который потом сканируется со всех сторон.

Объект, который можно отсканировать не должен превышать размера 150х100 мм. Поэтому использование 3D-модели неприемлемо для решения задачи распознавания городских памятников. Обходной способ - сканирование уменьшенной модели памятника. Этот способ технически сложно реализуем, так как он связан с изготовлением уменьшенной точной копии реального объекта.

Вообще распознавание и трекинг больших объектов сложно реализуемы во всех AR фреймвор-ках. Предложенный в статье способ помогает эффективно решить эту проблему.

[ения его 3D-модели.

Рисунок 2 - Схема распознавания объекта

Рисунок 3 - Маркер для сканирования

Особенности создания маркеров. Рассмотрим накладываемые Target Manager ограничения на входные данные. Изображение должно быть цветным или в оттенках серого в JPG или PNG формате. При этом размер файла не должен превышать 2 МБ. После загрузки изображения Target Manager создаёт маркер и ему присваивается определённая оценка, характеризующая эффективность созданного маркера для распознавания. Чем выше оценка, тем «заметнее» образ для трекера.

Чтобы подготовить маркер с высокой оценкой разработчики библиотеки советуют придерживаться следующих правил:

• изображение должно быть богато деталями, это позволит определить большой набор ключевых точек, которые и позволяют идентифицировать объект на изображении [14]. Например, коллаж или набор из нескольких различных предметов лучше одиночного примитивного объекта;

• изображение должно обладать хорошим контрастом. Чем контраст выше, тем ярче выражены границы между разными элементами изображения, что позволяет выделять ключевые точки образа;

• необходимо избегать повторяющихся одинаковых элементов на изображении;

• на изображении должны быть угловатые объекты. Округлые контуры непригодны для создания ключевых точек (рис. 4) [20].

Рисунок 4 - Ключевые точки на различных элементах изображения: четыре ключевые точки; нет ключевых точек; две ключевые точки

Создание базы маркеров можно разделить на четыре этапа:

1) создание целостного набора изображений туристического объекта, наиболее характерно отражающих его уникальность;

2) повышение контрастности полученных изображений;

3) загрузка изображений в сервис и генерация на их основе маркеров;

4) формирование и подключение базы маркеров к приложению.

Методика описания туристических объектов. Чтобы обеспечить возможность распознавания объекта с любой стороны, необходимо иметь его образы с разных ракурсов. Для решения этой задачи была разработана методика составления описательного набора изображений для каждого объекта. Подход предполагает наличие изображений объекта с разных ракурсов. Для эксперимента использовалось по 8 фотографий каждого объекта с разных сторон на одинаковом расстоянии от него и под углом 45° друг к другу (рис. 5). Это позволяет «покрыть» всю боковую поверхность объекта и обеспечить возможность распознать объект с любой стороны.

Рисунок 5 - Схема ракурсов, использованных для описания объекта в виде серии изображений

Если объект распознавания имеет сложную форму, то понадобится сделать дополнительные фотографии, описывающие эти особенности в нужной мере. Однако для подавляющего большинства памятников, имеющих выпуклую поверхность в горизонтальном сечении, достаточно 8-ми фотографий.

Авторами было проведено несколько экспериментов с разными монументами в городе Волгограде. Приведем описание их результатов на примере Памятника чекистам, расположенного на площади Чекистов.

После подготовки необходимого набора фотографий они загружались и обрабатывались в Target Manager. В результате были получены оценки эффективности маркеров. Они оказались довольно низкими - от 1-го до 3-х баллов из 5-ти максимально возможных. Это объясняется тем, что средняя часть изображения не имеет ключевых точек и только половина изображения действительно полезна для распознавания (рис. 6).

Рисунок 6 - Обработанные изображения памятника

При подключении базы маркеров к тестовому приложению трекер корректно распознал памятник по всему периметру. Это значит, что 8-ми ракурсов для объекта такого размера вполне достаточно. При высоте более 22 метров памятник без проблем определяется на удалении до 15 метров. С большего расстояния трекер отрабатывал нестабильно - при небольших изменениях ракурса цель терялась и через некоторое время система её снова находила. На расстоянии более 20 метров распознавание уже практически не происходило. На рисунке 6 можно увидеть скриншот приложения во время работы. При удачном обнаружении одного из объектов БД приложение выводит на экран контент, привязанный к этому объекту (рис. 7).

В качестве отображаемого контента может выступать текст, описывающий обнаруженные приложением объекты. Содержание текста может браться из интернет-источников, либо быть сконфигурированным в самой программе. Однако большее удобство и гибкость обеспечивает вариант хранения этой информации отдельно от самой программы, будь это БД или удалённый ресурс. Такой вариант позволяет изменять выводимый текст без внесения изменений непосредственно в приложение. Это касается и языка выводимого текста, его выбор может определяться настройками приложения или системным языком устройства. Возможность вывода текста на иностранных языках особенно важна для зарубежных туристов, так как надписи на русском языке, которые имеются на многих памятниках архитектуры, для них не информативны. Вместо текста также можно выводить изображения, видео- или аудиоконтент - всё зависит от конкретных нужд пользователя и специфики объекта. В частности, возможен вывод на экран изображения объекта в ясную солнечную погоду - даже если в момент обращения к приложению идет дождь, значительно ухудшающий условия наблюдения.

Эксперименты, проведенные с использованием разработанного приложения в различное время суток, привели к следующему выводу. Разная освещенность объекта влияет на формирование разных наборов ключевых точек. Поэтому время суток, в которое маркеры создаются и используются, взаимосвязаны. Заготовленные маркеры с изображениями памятника в дневное время непригодны для обеспечения надёжной работы приложения в условиях слабого освещения и наоборот. Поэтому необходимо подготавливать, по крайней мере, два набора меток с изображениями объекта - как в светлое, так и в тёмное время суток.

Рисунок 7 - Вывод приложения

Объекты в темное время суток не имеют четкой границы разделения с их внешним окружением. Для проверки гипотезы о необходимости повышения контраста изображения выделяем контуры памятника на светлом фоне. Обрабатываем с помощью Target Manager варианты оригинального изображения и контрастного - на белом фоне (рис. 8).

Type: Single image Туре: Single Image

Status: Active Status: Active

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ajgmentable: Augmentable:

Рисунок 8 - Ключевые точки, найденные на изображении памятника в тёмное время суток в исходном варианте и с «вырезанным» фоном

Изображение с вырезанным фоном имеет значительно больше ключевых точек, чем изображение с исходным тёмным фоном. Поэтому контрастное изображение Target Manager оценивает выше. Тем не менее в ходе испытания наиболее высокую точность в отношении распознавания объектов показало использование необработанных изображений в исходном формате. Скорее всего, это обусловлено существенными различиями контрастного изображения, подготовленного для создания маркеров, и реально-

го. Это приводит к отсутствию значительной части ключевых точек, которые присутствуют на контрастном изображении, но не обнаруживаются на изображении, поступающем на вход трекера.

Одной из характеристик оценки качества метода является частота ошибок, возникающих в процессе распознавания объекта. Ошибки могут быть как 1-го, так и 2-го рода.

Ошибка первого рода возникает, когда системе не удаётся обнаружить в имеющейся БД искомый объект на входном изображении при адекватных условиях окружения и расстоянии до объекта. Одной из причин возникновения этой ошибки является низкая эффективность алгоритма распознавания. Вторая причина - условия окружающей среды, которые способны существенно повлиять на внешний вид объекта и на то, как его видит камера.

Ошибка второго рода связана с ошибочным обнаружением объекта на входном изображении, когда в действительности объект на нём отсутствует. Этот вид ошибки может возникать особенно часто, если БД содержит описание схожих объектов. В предложенном приложении эта проблема может решаться использованием дополнительных данных, например, координат объекта. На их основе можно производить предварительную фильтрацию объектов в БД, ориентируясь на фактическое местоположение пользователя. Этот прием также можно использовать для повышения быстродействия системы распознавания, так как обрабатывается значительно меньше объектов БД.

Во время опытной эксплуатации приложения изредка возникали лишь ошибки первого рода, когда трекер терял объект, но менее чем за 1 секунду вновь обнаруживал его.

В ходе экспериментов опытным путём было установлено достаточное количество изображений для описания объекта: по 8 фотографий со всех сторон для условий хорошего и плохого освещения. Возможны ситуации, когда определенное освещение целевого объекта создаёт четкие тени - например, подсветка объекта прожекторами. Это сильно влияет на возможность стабильного распознавания объектов. Стоит отметить и возможность влияния неблагоприятных погодных условий, таких как снег, дождь, туман. Они могут внести свои коррективы в воспринимаемые камерой форму и цвет объекта или его отдельных частей. В этом случае может понадобиться сделать дополнительный набор фотографий объекта в специфичных условиях, что будет приводить к увеличению объема БД и некоторому снижению скорости распознавания объектов приложением.

Изображения некоторых памятников практически не зависят от ракурса фото. Например, фотографии круглой стелы или колонны с уникальным орнаментом узнаваемы при взгляде с разных сторон. Благодаря этому иногда можно сократить необходимый для описания объекта набор изображений и, как следствие, уменьшить размер БД.

Заключение. Предложен способ описания туристических объектов в виде согласованного набора маркеров, полученных для разных условий наблюдения. В результате проведенных экспериментов была доказана работоспособность данного способа. Даже несмотря на низкие показатели качества маркеров, приложение способно достаточно точно распознавать памятники с расстояния, характерного для осмотра туристами достопримечательностей в городе. Описанный в данной статье подход может быть положен в основу системы «Электронный гид».

Использованная технология на платформе Vuforia вносит ограничения на количество локально хранимых объектов для распознавания. Локальная база способна хранить до 1000 маркеров. На описание одного объекта требуется примерно 16 изображений. Поэтому локальное хранилище позволяет описать порядка 60 объектов. Для крупного города с большим количеством памятников архитектуры и иных достопримечательностей это крайне мало. Облачное хранилище имеет ограничение в 1000000 маркеров, что позволяет описать десятки тысяч объектов. Недостатком удаленного хранения может стать увеличение продолжительности распознавания за счет времени коммуникации с сервером. Одним из решений этой проблемы может быть использование систем геолокации для кэширования близко расположенных объектов. Это позволит сократить время реакции системы (приложения) на изображения, поступающие с камеры устройства.

Список литературы

1. Благовещенский И. А. Технологии и алгоритмы для создания дополненной реальности / И. А. Благовещенский, Н. А. Демьянков // Моделирование и анализ информационных систем. - 2013. - Т. 20, №. 2. - С. 129-138.

2. Визильтер Ю. В. Обработка и анализ изображений в задачах машинного зрения: Курс лекций и практических занятий / Ю. В. Визильтер и др. - Москва : Физматкнига, 2010. - 672 с.

3. Воробьев А. С. Основные принципы и средства создания мобильных приложений на основе дополненной реальности / А. С. Воробьев, М. И. Кузнецов // Перспективы и технологии развития в области технических наук : сб. науч. тр. по итогам международ. науч.-практ. конф. - Нижний Новгород, 2017. - Вып. 2. - С. 35-38.

4. Горбачёв А. Ю. Математическая модель погрешностей GPS / А. Ю. Горбачёв // Авиакосмическое приборостроение. - 2010. - № 5.

5. Кузьмина А. Б. Анализ опыта управления ИТ-компетентностью физических и юридических лиц в некоторых зарубежных странах / А. Б. Кузьмина // Прикаспийский журнал: управление и высокие технологии - 2014. -№ 2. - с. 63-76.

6. Мобильные устройства и QR-код в музее // ЗАО «Инфостудия экон». - Режим доступа: http://www.infostudio.ru/qr-code-in-museum.html, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения 11.04.2018)

7. МТС организовала проект с QR-кодами в дендрарии города Сочи // Qr.biz. - Режим доступа: http://ru.qr.biz/articles/mts_organizovala_proekt_s_qr-kodami_v_dendrarii_goroda_sochi, свободный. - Заглавие с экрана. -Яз. рус. (дата обращения 17.04.2018)

8. Проверка правильности выполнения физических упражнений с использованием камеры Microsoft Kinect / А. И. Выборный и др. // Открытые семантические технологии проектирования интеллектуальных систем. - Минск, 2017. - № 7. - С. 403-406.

9. Розалиев В. Л. Автоматизация распознавания кистей рук человека с помощью Kinect для перевода же-стового языка / В. Л. Розалиев // Известия Волгоградского государственного технического университета. - 2015. -№ 6. - с. 74-78.

10. Системный анализ процессов разработки испытаний и использования программного обеспечения для робототехнических систем / Ю. М. Брумштейн [и др.] // Прикаспийский журнал: управление и высокие технологии -2017. - № 2. - с. 9-36.

11. 3D Systems // 3D Systems. - Режим доступа: https://ru.3dsystems.com/3d-scanners/sense-scanner, свободный. - Заглавие с экрана. - Яз. англ. (дата обращения 26.05.2018)

12. Amato G. Fast image classification for monument recognition / G. Amato, F. Falchi, C. Gennaro // Journal on Computing and Cultural Heritage. - 2015. - August.

13. Basis Software Inc. // Basis Software Inc. - Режим доступа: http://www.surphaser.com, свободный. - Заглавие с экрана. - Яз. англ. (дата обращения 26.05.2018)

14. Bay H., Tuytelaars T., VanGool L. Surf: Speeded up robust features // Computer vision - ECCV 2006. -Springer Berlin Heidelberg, 2006. - С. 404-417.

15. Bridgging // Bridgging. - Режим доступа: https://bridgging.com, свободный. - Заглавие с экрана. - Яз. англ. (дата обращения 23.05.2018)

16. Janaia J. Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art / J. Janaia, F. Guneya, A. Behla, A. Geiger // arXiv. - 2017.

17. Kalliatakis G. Image based Monument Recognition using Graph based Visual Saliency / G. Kalliatakis, G. Tri-antafyllidis // Electronic Letters on Computer Vision and Image Analysis. - 2013. - № 12 (2). - P. 88-97.

18. Portable 3D scanners // Creaform. - Режим доступа: https://www.creaform3d.com/en/metrology-solutions/portable-3d-scanners, свободный. - Заглавие с экрана. - Яз. англ. (дата обращения 26.05.2018)

19. Skin Vision // Skin Vision. Режим доступа: https://www.skinvision.com, свободный. - Заглавие с экрана. -Яз. англ. (дата обращения 23.05.2018)

20. Vuforia Developer Library // Vuforia SDK. Режим доступа: http://library.vuforia.com, свободный. - Заглавие с экрана. - Яз. англ (дата обращения 13.01.2018).

References

1. Blagoveshchenskiy I. A., Demyankov N. A. Tekhnologii i algoritmy dlya sozdaniya dopolnennoy realnosti [Technologies and algorithms for creating augmented reality]. Modelirovanie i analiz informatsionnykh system [Modeling and Analysis of Information Systems], 2013, vol. 20, no. 2, pp. 129-138.

2. Vizilter Yu. V. Obrabotka i analiz izobrazheniy v zadachakh mashinnogo zreniya: Kurs lektsiy i prakti-cheskikh zanyatiy [Image processing and analysis in computer vision problems: A course of lectures and practical exercises]. Moscow, Fizmatkniga Publ., 2010. 672 p.

3. Vorobev A. S., Kuznetsov M. I. Osnovnye printsipy i sredstva sozdaniya mobilnykh prilozheniy na osnove dopolnennoy realnosti [Basic principles and means of creating mobile applications based on augmented reality]. Perspektivy i tekhnologii razvitiya v oblasti tekhnicheskikh nauk : sbornik nauchykh trudov po itogam mezhdunarodnoy nauchno-prakticheskoy konferentsii [Prospects and technologies of development in technical science area. Proceedings of the International Scientific Practical Conference], 2017, no. 2, pp. 35-38.

4. Gorbachev A. Yu. Matematicheskaya model pogreshnostey GPS [Mathematical model of GPS errors]. Avia-kosmicheskoepriborostroenie [Aerospace Instrument Engineering], 2010, no. 5.

5. Kuzmina A. B. Analiz opyta upravleniya IT-kompetentnostyu fizicheskikh i yuridicheskikh lits v nekotorykh za-rubezhnykh stranakh [Analysis of the experience of managing the IT competence of individualsin some foreigh countries]. Pri-kaspiyskiy zhurnal: upravlenie i vysokie tekhnologii [Caspian Journal: Control and High Technologies], 2014, no. 2, pp. 63-76.

6. Mobilnye ustroystva i QR-kod v muzee [Mobile devices and QR-code in the museum]. ZAO "Infostudiya ekon"[CJSC Infostudia ekon]. Available at: http://www.infostudio.ru/qr-code-in-museum.html (accessed 11 April 2018).

7. MTS organizovala proekt s QR-kodami v dendrarii goroda Sochi [MTS organized a project with QR-codes in arboretum of Sochi] Qr.biz. Available at: http://ru.qr.biz/articles/mts_organizovala_proekt_s_qr-kodami_v_dendrarii_goroda_sochi (accessed 17 April 2018).

8. Vybornyy A. I. et al. Proverka pravilnosti vypolneniya fizicheskikh uprazhneniy s ispolzovaniem kamery Microsoft Kinect [Controling the correctness of physical exercises using Microsoft Kinect]. Otkrytye semanticheskie tekhnologii proektiro-vaniya intellektualnykh system [Open Semantic Technologies for Designing Intelligent Systems], 2017, no. 7, pp. 403-406.

9. Rozaliev V. L. Avtomatizatsiya raspoznavaniya kistey ruk cheloveka s pomoshchyu Kinect dlya perevoda zhe-stovogo yazyka [Automating the recognition of human hands with the help of Kinect for the translation of sign language]. Izvestiya Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta [News of Volgograd State Technical University], 2015, no. 6, pp. 74-78.

10. Brumshteyn Yu. M. et al. Sistemnyy analiz protsessov razrabotki ispytaniy i ispolzovaniya programmnogo obespecheniya dlya robototekhnicheskikh sistem [System analysis of the development processes for testing and using software for robotic systems]. Prikaspiyskiy zhurnal: upravlenie i vysokie tekhnologii [Caspian Journal: Control and High Technologies], 2017, no. 2, pp. 9-36.

11. 3D Systems official website. Available at: https://ru.3dsystems.com/3d-scanners/sense-scanner (accessed 26.05. 2018).

12. Giuseppe Amato, Fabrizio Falchi, Claudio Gennaro. Fast image classification for monument recognition. Journal on Computing and Cultural Heritage, 2015, August.

13. Basis Software Inc. official website. Available at: http://www.surphaser.com (accessed 26.05.2018).

14. Bay H., Tuytelaars T., VanGool L. Surf: Speeded up robust features. Computer vision - ECCV2006. Springer Berlin Heidelberg, 2006, pp. 404-417.

15. Bridgging official website. Available at: https://bridgging.com (accessed 23.05.2018).

16. Joel Janaia, Fatma Guneya, Aseem Behla, Andreas Geiger. Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art. arXiv, 2017.

17. Georgios Kalliatakis, Gregory Triantafyllidis. Image based Monument Recognition using Graph based Visual Saliency. Electronic Letters on Computer Vision and Image Analysis, 2013, no. 12 (2), pp. 88-97.

18. Creaform portable 3D scanners. Available at: https://www.creaform3d.com/en/metrology-solutions/portable-3d-scanners (accessed 26.05.2018).

19. Skin Vision official website. Available at: https://www.skinvision.com (accessed 23.05.2018).

20. Vuforia Developer Library. Available at: http://library.vuforia.com (accessed 13.05.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.