УДК 004.932:159.9
А. Г. Финогеев, М. В. Четвергова
МЕТОДИКА РАСПОЗНАВАНИЯ ТОЧЕЧНЫХ ОСОБЕННОСТЕЙ НА ОСНОВЕ РАНДОМНЫХ ДЕРЕВЬЕВ В СИСТЕМАХ РАСШИРЕННОЙ РЕАЛЬНОСТИ
Аннотация. Рассматривается технология распознавания особых точек изображений объектов, выделенных в видеоряде для мобильных систем расширенной реальности. Предложена методика определения и сопоставления дескрипторов особых точек на изображениях объектов с дальнейшей возможностью обучения подсистемы распознавания на основе использования леса рандом-ных деревьев. Проведено сравнительное исследование существующих методик распознавания точечных особенностей, таких как SIFT, SURF и RIFF, приведены их недостатки. С целью повышения качества методики распознавания объектов с выделенными точечными особенностями на мобильных устройствах предложена методика на основе леса рандомных деревьев. Основная идея методики заключается в распознавании объектов на базе статистики распределения классификатора Байеса о возможных сопоставлениях дескрипторов. Предложены две структуры леса рандомных деревьев: базовая и расширенная. Проведены сравнительные аналитические и экспериментальные исследования существующих и разработанной методик распознавания объектов по детектированным точечным особенностям на основе леса рандомных деревьев. Показано, что использование разработанной методики на базе ран-домных деревьев дает лучшую оценку качества распознавания при более высоких требованиях к оперативной памяти и минимальном увеличении времени работы системы.
Ключевые слова: расширенная реальность, распознавание изображений, особые точки, точечная особенность, детектирование, дескриптор, рандомные деревья.
A. G. Finogeev, M. V. Chetvergova
ALGORITM SCENE RECOGNITION FOR AUGMENTED REALITY SYSTEMS
Abstract. The article considers the technology of critical point recognition in object images taken from a video portion for a mobile system of augmented reality. The authors suggest of determining and matching the descriptors of critical points on the object images with further possibility of recognition system learning on the basis of using a forest of random trees. The study compares the existing methods point feature recognition, such as SIFT, SURF and RIFF, and describes their drawbacks. In order to increase the quality of the method of recognizing the objects with isolated point features on mobile devices the researchers suggest a method on the basis of a forest of random trees. The general idea of the method is recognition of objects on the basis of Bayes classifier distribution statistics on possible descriptors matching. There are two structures of random tree forests suggested: basic and augmented.
The authors conducted comparative analytical and experimental research of the existing and the developed methods of object recognition with detected point features on the basis of a forest of random trees. It is shown that the application of the developed method on the basis of random trees lead to a better recognition quality value
in conditions of higher requirements to random-access memory and minimal increase of sytem work time.
Key words: augmented reality, scene recognition, point feature, special point, detecting, descriptor, random tree.
Введение
На современном этапе развития информационно-вычислительных технологий особое место занимают программно-инструментальные средства автоматизированного создания систем виртуальной и расширенной реальности. Если компоненты системы виртуальной реальности предназначены для «погружения» пользователей в виртуальную среду, создаваемую компьютером, то компоненты расширенной реальности «искусственно» изменяют окружающий мир посредством композиции реальных и виртуально синтезированных виртуальных объектов.
Появление и распространение мобильных коммуникационных устройств с достаточно большой вычислительной мощностью процессоров и видеокамерами высокого разрешения позволило перейти к технологиям получения и обработки видеопотока с одновременным добавлением виртуальных текстовых и графических объектов на трехмерные сцены фактически в режиме реального времени. Это расширяет сферу применения методов искусственного интеллекта, технологий трехмерного моделирования в направлении создания новых принципов и интерфейсов человеко-машинного взаимодействия на основе технологии дополненной или расширенной реальности (augmented reality). Пользователь с ноутбуком, смартфоном или планшетом может непосредственно участвовать в процессе синтеза и визуализации виртуальных объектов расширенной реальности с возможностью встраивания в сцены реального мира и управления ими (рис. 1).
3D модель
Рис. 1. Схема системы расширенной реальности
Появление новых аппаратных средств для синтеза и использования данных технологий выдвигает задачи разработки моделей и методов автоматизированного проектирования компонент систем расширенной реальности, способов их привязки к объектам реального мира, алгоритмов дистанционного управления виртуальными объектами с использованием возможностей беспроводной мобильной связи.
Согласно стандартам типовыми компонентами систем автоматизированного проектирования компонент расширенной реальности являются аппаратное, информационное, математическое и программное обеспечение.
Аппаратное обеспечение включает различную компьютерную технику с встроенной или подключаемой видеокамерой или мобильные средства связи с встроенной видеокамерой.
Информационное обеспечение включает библиотеки маркеров с их битональными моделями, базу с шаблонами объектов распознавания, другие информационные ресурсы, включающие видеофайлы, 3,0-модели виртуальных объектов и т.п. В качестве маркеров могут выступать искусственно созданные планарные изображения, 3,0-модели или изображения частей реальных объектов (точечные особенности), которые могут служить точками привязки виртуальных объектов.
К математическому обеспечению относятся различные алгоритмы и методики получения и обработки входного видеосигнала, идентификации видеокадров, определения положения камеры, а также оценка: пространственного расположения наблюдаемых объектов, распознавания точечных особенностей маркеров, изображений реальных объектов, сопоставления маркеров информационного объекта, синтеза виртуальных объектов, интеграции виртуальных и реальных объектов в сцены расширенной реальности и т.д.
Одной из сложных задач автоматизированного проектирования компонент расширенной реальности является выделение и распознавание в видеоряде частей объектов реальной сцены (точечных особенностей) с целью привязки к ним синтезированных виртуальных 3 .О-моделей.
1. Определение особых точек на изображениях объектов
Для объединения виртуальных объектов и сцен реального окружения необходимо решение задачи выделения и распознавания элементов изображения в видеоряде, поступающем с камеры устройства. В общем случае решение задачи сводится к определению точечных особенностей на изображениях объектов реального мира в отдельных кадрах [1]. Вычислительные и коммуникационные возможности современных мобильных компьютерных устройств позволяют использовать более совершенные программные средства анализа изображений, что способствует развитию новых методов и алгоритмов решения задачи распознавания изображений в режиме реального времени. Несмотря на то, что создано достаточно большое количество методик и алгоритмов распознавания, потребность в разработке новых и модернизации старых методик остается, поскольку точность решения данных задач при анализе кадров видеоряда зависит от таких факторов, как условия освещения, сложность текстуры, движение, зашумленность, характеристики видеокамеры и т.п.
Так как поток видеокадров содержит сложную структурированную информацию о наблюдаемой сцене, то требуется методика извлечения из потока видеоданных в режиме реального времени с камеры устройства, находящейся в движении, информации о точечных особенностях объектов, или методика извлечения из кадра изображения специального маркера, что позволит однозначно идентифицировать данный объект.
В процессе распознавания объектов сцены одной из значимых проблем остается задача сопоставления выделенного из фотоснимка или видеокадра
изображения объекта с его эталонными образами, хранящимися в базе данных. Существующие средства распознавания изображений используют различные способы соотнесения объектов распознавания и их образов. Однако основной методикой решения задачи является установление соответствия между некоторым подмножеством особых точек изображения (точечных особенностей) и соответствующими подмножествами особых точек эталонных образов объекта распознавания.
Точечная особенность является точкой на изображении, которая имеет четко определенные позиции и может быть надежно обнаружена для последующей идентификации объекта наблюдения. Она должна иметь ряд признаков, существенно отличающих ее от множества соседних с ней точек изображения объекта. Это означает, что особая точка может представлять характерные области на изображениях, например, вершины геометрических фигур, края плоскостей, углы, небольшие окружности и круги, перепады яркости или контрастности, резкие цветовые переходы и т.п. Фактически она может быть изолированной точкой локального максимума или минимума линии интенсивности, точкой на кривой с максимальной локальной кривизной, т. е. представляет собой наиболее простой элемент дискретного представления функции описания объекта распознавания.
В общем случае методика сопоставления точечной особенности изображения (xL1, yLl) особым точкам эталона (^1, yRl) включает следующие шаги:
1) обнаружение особых точек изображения (xL1, yL1);
2) составление описания особых точек (дескриптора точечной особенности);
3) обучение с заполнением «эталонной» базы точечных особенностей;
4) сопоставление точечных особенностей объектов на изображении точечным особенностям эталонов (xR1, yR1);
5) поиск связей или определение расстояний между дескрипторами особых точек на сравниваемых изображениях. Предполагается, что если расстояние между парами дескрипторов точечных особенностей в пространстве классификации меньше заданного предела, то между точечной особенностью изображения исходного объекта и выбранного эталона устанавливается связь с весовым коэффициентом, пропорциональным расстоянию между данными дескрипторами. В дальнейшем при идентификации объекта алгоритм в первую очередь проверяет подобные пары;
6) синтез модели преобразования изображений, с помощью которой из одного изображения можно получить другое.
Для определения особых точек будем использовать понятие окрестности. Тогда особой точкой изображения будем называть точку pi, окрестность которой O(pi) можно отличить от окрестности O'(p]) любой другой особой точки изображения pj. Процесс выделения этой точки на кадре называется детектированием, а программа, реализующая данную функцию, - детектором. В настоящее время создано достаточное количество детекторов особых точек с разными подходами к формированию пиксельной оценочной функции выделения точек.
Для реализации нашей методики был выбран детектор Ши-Томаси [2], который, в свою очередь, базируется на угловом детекторе Харриса [3] и учитывает аффинные искажения изображения окрестности особой точки.
2. Сравнительный анализ алгоритмов описания и сопоставления дескрипторов особых точек
Для каждой особой точки, найденной с помощью данного детектора, необходимо задать вектор-дескриптор, описывающий структуру окрестности точки, выделяющей ее из остального множества точек и инвариантный по отношению к аффинным преобразованиям изображения. Так распознавание происходит в процессе движения камеры по отношению к объектам видеосъемки.
В нашем случае дескриптор определяется как ёп = (/п 1,...,/п у), где
/п?з - параметры, отвечающие условиям специфики, локальности, устойчивости, простоты вычислений и т.д. Множество дескрипторов особых точек определяет модель объекта на изображении, которая в дальнейшем используется для сопоставления объекта с его эталонными изображениями в базе данных. Решение о том, являются ли сопоставляемые изображения аналогами, принимается на основе анализа множества пар дескрипторов исходного объекта и его эталонных образов.
Сопоставление дескрипторов осуществляется в два этапа. На первом этапе в пространстве классификации выбирается множество пар наиболее близких дескрипторов. Степень близости рассчитывается как расстояние в пространстве изображений:
где (xL\, yL\), (xR1, yR1) - точечные особенности сравниваемых изображений.
На втором этапе отбираются пары наиболее близких дескрипторов и принимается решение о соответствии исходного изображения его образу путем сравнения расстояний относительно некоторого порогового значения.
В настоящее время существует ряд алгоритмов описания изображений по дескрипторам особых точек. К наиболее известным относятся:
1. Алгоритм SIFT (Scale Invariant Feature Transform) [4] - один из наиболее часто используемых алгоритмов описания дескрипторов особых точек. Дескрипторы, полученные с помощью алгоритма, инвариантны к масштабированию и поворотам изображения, устойчивы к изменениям освещения, шумам и изменениям позиции наблюдателя.
2. Алгоритм SURF (Speeded Up Robust Features) [5]. Методика основана на поиске особых точек и создании дескрипторов, инвариантных к масштабированию и вращению с помощью матрицы Гессе. При этом для каждой точки считается градиент максимального изменения яркости и коэффициент масштабирования по матрице Гессе.
3. Метод RIFF (Rotation Invariant Fast Features) [6]. В основу метода положено радиальное и тангенциальное разложение гистограмм градиента и последующая обработка по кольцам. Дескриптор также инвариантен к масштабированию, вращению и изменению освещенности.
Проведенные экспериментальные исследования данных подходов при анализе и идентификации элементов изображений, получаемых от 5-мегапик-сельной камеры смартфона при движении наблюдателя и в условиях изменения освещенности в связи с погодными условиями, были определены основные недостатки данных методик.
(1)
Основными недостатками методов SIFT и SURF являются нечеткое выделение объекта относительно фона и низкий процент правильного распознавания элементов изображений объектов без ярко выраженной текстуры.
Метод RIFF также показал плохие результаты из-за размытия изображения вследствие движения наблюдателя с камерой относительно неподвижных объектов.
Поэтому для выделения особых точек и идентификации реального объекта в нашем случае разработана методика выделения особых точек с использованием рандомных деревьев для подсистемы распознавания в структуре системы проектирования компонент расширенной реальности.
3. Методика распознавания объектов на базе рандомных деревьев
Основная идея заключается в обучении подсистемы распознавания на базе статистики распределения возможных сопоставлений дескрипторов путем построения леса рандомных деревьев. На этапе детектирования предполагаемая особая точка как бы «перебрасывается» по дереву решений (рис. 2), которое строится для каждого изображения распознаваемого объекта, снимаемого с разных ракурсов и при различных условиях. В каждом узле рассчитывается значение вероятности того, что особая точка относится к одной из определенных ранее.
Рис. 2. Примеры рандомных деревьев
Процесс выполняется для множества деревьев, причем итоговая вероятность накапливается по каждой предполагаемой гипотезе о принадлежности особой точки к множеству точечных особенностей эталонов распознаваемого объекта. Наибольшая вероятность покажет связь изображения исходного объекта с эталонными образами.
Рассмотрим подробнее предлагаемую методику. В основе методики лежит идея классификатора Байеса. Она относится к классу алгоритмов выделения окрестности вокруг особой точки для ее фиксации на изображении объекта. Пусть (х, у) - координаты некоторой точки pi на изображении объекта, при этом Р1 е {Р}, где Р - множество особых точек.
Пусть 1(хг, у) - цветовое значение пикселя в произвольной точке рг(хг, Уг), причем 0 < хг < и 0 < уг < Иг, где Ж и Иг соответственно ширина и высота изображения в пикселях.
Для снижения размерности изображение первоначально приводится к монотонному в соответствии со шкалой градаций серого. Для того чтобы определить и зафиксировать окрестность особой точки, необходимо ее исследовать по направлениям градиентов яркости. В работе [7] показано, что случайный выбор разностей градиентов яркости для произвольного окружения точки дает устойчивый результат.
Величина градиента вычисляется по формуле
Перед выбором подходящей разности необходимо определить множество векторов Оху, каждый их которых представляет значения разностей для каждой точки рг е {Р} .
Пусть Т(Оху) - множество тестов для определения разности градиента на множестве точек Р. Каждый тест возвращает битовое значение 0 или 1 при выполнении условия в первой р1 и второй р2 точках окрестности в каждом направлении:
где n е [0, Dxy).
Результатом выполнения множества тестов будет битональная маска направления градиентов вокруг особой точки. Маска представляет собой бинарное дерево решений, в котором каждый элемент множества Dxy рассматривается как узел дерева. Условие перехода «вправо» или «влево» определяется тем, какое значение возвращает тест T(Dxy) при выполнении условия (3) в первой и второй точке окрестности Pi(Xj, y).
Каждая вершина дерева является счетчиком. Переход по дереву решений происходит с увеличением счетчика на 1 согласно случайным разностям градиентов Dxy. В итоге после определения множества образов окрестности одной и той же особой точки для разных изображений одного объекта на множестве вершин дерева получим распределение вероятности соответствия исходного изображения его образу.
Перебор производится для всех деревьев в лесу, соответствующих множеству эталонных образов исходного объекта, а итоговая вероятность накапливается по каждому распознаванию. Максимум вероятности для множества деревьев показывает связь изображения контура исходного объекта и множества его образов, полученных на этапе обучения при различных условия видеосъемки.
Таким образом, каждое дерево решений строится для сравнения исходного объекта с конкретным эталонным образом из базы данных и представляет собой лес решений для множества образов. В общем случае результатом построения леса является множество F деревьев с массивом P вершин раз-
(2)
(3)
^ {Оху} ^
мерностью 2 , где хранятся вероятности распределения решений для кон-
кретного дерева. Для снижения размерности и получения независимых результатов можно выбрать случайное подмножество деревьев ^, которое будет включать в себя подмножество случайно выбранных Оху.
4. Обучение подсистемы распознавания на базе рандомных деревьев
На этапе обучения для каждой гипотетической точки р* найдем индекс вершины для каждого вектора ОХу е ¥.г. Тогда Ра представляет подмножество
особых точек, для которых рассчитывается итоговая вероятность по вершинам дерева для каждой новой точки из обучаемой коллекции. В итоге получим вероятность того, что выбранная точка р* соответствует какой-либо точке рг е {Р} , где Раг - вероятность; р* = р\ Пороговое число вероятностей соответствия, близких к 100 %, для множества особых точек изображения исходного объекта р* = р! подтвердит гипотезу, что данное изображение объекта соответствует некоторому эталонному образу, который есть в базе данных, и, следовательно, это изображение может считаться также образом объекта. Таким образом, после каждого правильного распознавания и в случае, если итоговая вероятность соответствия всех особых точек исходного объекта конкретному образу меньше 100 %, распознанный объект считается эталонным образом, полученным при новых условиях съемки, и может быть добавлен в базу данных, что и является обучением системы распознавания. При следующем распознавании для него строится новое дерево решений.
Однако при таком подходе всегда существует вероятность того, что множество особых точек изображения исходного объекта всегда будет показывать их соответствие множеству особых точек образов данного объекта из обучающей выборки. Поэтому необходимо выполнить соответствующую фильтрацию по заданному априори пороговому значению вероятности соответствия. Для определения гомографии между множествами особых точек изображений, соответствующих одной и той же точке трехмерного объекта, можно использовать метод ЯЛК8ЛС [8].
Поскольку на начальном этапе обучения отсутствует большое число образов окрестностей особых точек для множества изображений объекта, то следует синтезировать множество изображений объекта, применяя различные аффинные преобразования (масштабирование, перенос, поворот) и случайных набор шумов для искажения изображения.
5. Экспериментальное исследование методики распознавания
В результате экспериментального исследования предложенной методики установлено, что качество распознавания изображений объекта зависит от числа детектированных особых точек изображений (хЬ1, уЬ1), (хЯ1, уЯ1) и множества вершин (глубины) рандомного дерева. Было проведено исследование методики для числа особых точек изображения 200, 500, 1000 и для двух вариантов лесов рандомных деревьев:
1. Вариант ЯР (базовый) - для леса из 30 деревьев решений с глубиной 8 вершин.
2. Вариант КБ (расширенный) - для леса из 30 деревьев решений с глубиной 12 вершин.
Также было проведено сравнение результатов распознавания с методами SURF и SIFT. Результаты сравнительного анализа приведены в табл. 1.
Таблица 1
Аналитическое сравнение результатов распознавания
Метод Число точек Качество распознавания, % Объем требуемой памяти, Мб Время сопоставления, с
SURF 200 74 0,05 —0,5—1
SIFT 63 0,98 —0,5—1
RF (base) 68 6,1 —0,4—0,8
RF (extended) 88 18,3 —0,8—1,2
SURF 500 76 0,86 —0,8—1,3
SIFT 78 0,93 —0,8—1,3
RF (base) 80 12,5 —1—1,5
RF (extended) 92 26,7 —1—2
SURF 1000 75 1,2 —1—1,2
SIFT 78 1,2 —1—1,3
RF (base) 82 25,6 —2
RF (extended) 94 56,9 —2
Таким образом, результаты сравнения наиболее часто используемых алгоритмов SIFT и SURF с предложенным подходом показывают, что использование методики распознавания на базе леса рандомных деревьев дают лучшие оценки качества распознавания при более высоких требованиях к оперативной памяти и большем, но вполне приемлемом времени работы системы в зависимости от размерности дерева. Одним из основных отличий предложенной структуры системы распознавания на базе рандомных деревьев является то, что методы SIFT и SURF являются запатентованными.
Заключение
Результаты исследований методики распознавания с использованием рандомных деревьев для системы проектирования компонент расширенной реальности демонстрируют допустимое качество работы даже на объектах с небольшим количеством особых точек. При этом на изображениях с достаточно большим количеством особых точек качество и время распознавания являются высокими, что позволяет использовать методику для систем, работающих в режиме реального времени и на мобильных устройствах. Однако большой объем оперативной памяти, затрачиваемой при работе алгоритма, является критичным для реализации алгоритма на мобильные устройства.
Список литературы
1. Васильев, В. Н. Математические методы и алгоритмическое обеспечение анализа и распознавания изображений в информационно-телекоммуникационных системах / В. Н. Васильев, И. П. Гуров, А. С. Потапов // Всероссийский конкурс обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы». - URL: http://www.itc.edu.ru/ itkonkurs2008/
2. Shi, J. Good features to track / J. Shi, T. Kanade // IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’94), IEEE Computer Society, Sietl. - 1994.
3. Harris, C. A combine corner and edge detector / C. Harris, M. Stephens // In Fourth Alvey Vision Conference. - Manchester, UK. - P. 147-151.
4. Lowe, D. G. Object Recognition from Local Scale-Invariant Features / David G. Lowe // Proceedings of the International Conference on Computer Vision. - 1999. -V. 2. - P. 1150-1157.
5. Herbert, B. SURF: Speeded Up Robust Features / B. Herbert, Andreas Ess, Tinne Tuytelaars, Luc Van Gool // Computer Vision and Image Understanding (CVIU). -2008. - V. 110, № 3. - P. 346-359.
6. Takacs, G. Unified Real-Time Tracking and Recognition with Rotation-Invariant Fast Features / G. Takacs, V. Chandrasekhar, S. Tsai, D. Chen, R. Grzeszczuk, B. Girod. - URL: CVPR2010_RIFF.pdf
7. Calonder, M. BRIEF: Binary Robust Independent Elementary Features / M. Calonder, V. Lepetit, P. Fua. - URL: http://cvlab.epfl.ch/~lepetit/
8. Hartley, R. Multiple View Geometry In Computer Vision / R. Hartley, A. Zisserman. -2nd edition. - Cambridge : Cambridge University Press, 2003. - P. 670.
References
1. Vasil'ev V. N., Gurov I. P., Potapov A. S. Vserossiyskiy konkurs obzorno-analitiches-kikh statey po prioritetnomu napravleniyu «Informatsionno-telekommunikatsionnye sis-temy» [All-Russia competition of reviewing and analytical articles on the top-priority research field “Information-telecommunication systems”]. available at: http://www. itc.edu.ru/itkonkurs2008/
2. Shi J., Kanade T. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’94), IEEE Computer Society, Sietl. 1994.
3. Harris C., Stephens M. In Fourth Alvey Vision Conference. Manchester, UK, pp. 147151.
4. Lowe D. G. Proceedings of the International Conference on Computer Vision. 1999, vol. 2, pp. 1150-1157.
5. Herbert B., Ess Andreas, Tuytelaars Tinne, Luc Van Gool. Computer Vision and Image Understanding (CVIU). 2008, vol. 110, no. 3, pp. 346-359.
6. Takacs G., Chandrasekhar V., Tsai S., Chen D., Grzeszczuk R., Girod B. Unified RealTime Tracking and Recognition with Rotation-Invariant Fast Features. available at: CVPR2010_RIFF.pdf
7. Calonder M., Lepetit V., Fua P. BRIEF: Binary Robust Independent Elementary Features. available at: http://cvlab.epfl.ch/~lepetit/
8. Hartley R., Zisserman A. Multiple View Geometry In Computer Vision. 2nd edition. Cambridge: Cambridge University Press, 2003. p. 670.
Финогеев Алексей Германович доктор технических наук, профессор, кафедра систем автоматизированного проектирования, Пензенский государственный университет (г. Пенза, ул. Красная, 40)
Finogeev Aleksey Germanovich Doctor of engineering sciences, professor, sub-department of CAD, Penza State University (Penza, 40 Krasnaya str.)
E-mail: [email protected]
Четвергова Мария Владимировна Chetvergova Mariya Vladimirovna
аспирант, Пензенский государственный Postgraduate student, Penza State
университет (г. Пенза, ул. Красная, 40) University (Penza, 40 Krasnaya str.)
E-mail: [email protected]
УДК 004.932:159.9 Финогеев, А. Г.
Методика распознавания точечных особенностей на основе ран-домных деревьев в системах расширенной реальности / А. Г. Финогеев, М. В. Четвергова // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2013. - № 2 (26). - С. 23-33.