НАУЧНОЕ ИЗДАНИЕ МГТУ ИМ. Н. Э. БАУМАНА
НАУКА и ОБРАЗОВАНИЕ
Эл № ФС77 • 48211. Государственная регистрация №0421200025. ISSN 1994-0408
электронный научно-технический журнал
Метод автоматизированного формирования цифровой модели
рельефа
# 12, декабрь 2013
Б01: 10.7463/1213.0657404
Афиногенов Е. И.
УДК 004.932.2
Россия, МГТУ им. Н.Э. Баумана afinogenov.evgeniy@gmail .com
Введение
Известно [1], что цифровая модель рельефа местности (ЦМР) строится по аэрофотоснимкам во многих геоинформационных системах (ГИС). Трехмерное изображение местности с точной координатной привязкой характерных объектов и целей становится необходимой основой геодезических изысканий, геологической разведки и планирования авиационных операций. Принципиальный выигрыш от использования таких «виртуальных» 3D-представлений заключается в максимальной наглядности геопространственных данных и совершенно новых интерактивных информационных возможностях, которые обеспечивают компьютерные технологии машинной графики по сравнению с обычными 2D картами и схемами. Единая методология построения АРМ, с помощью которых решается задача построения ЦМР, в доступных публикациях не приводится.
Использование цифровой модели рельефа в ГИС помогает решать множество задач, таких как:
• вычисление уклонов и экспозиции склонов, что важно в строительстве дорог и продуктопроводов, сельском хозяйстве при выборе полей под культуры с разными требованиями к освещенности и др.;
• анализ поверхностного стока на территории;
• моделирование затопления территорий;
• анализ видимости, который используют при планировании коммуникационных сетей, в военном деле и других отраслях;
• ортокоррекция изображений;
• измерение площадей и объемов, получение профилей поверхности;
• просмотр данных в трех измерениях, создание виртуальных полетов над местностью и светотеневых моделей;
• анализ тектонических сдвигов и разломов.
Для решения таких задач требуются цифровые модели рельефа с различной плановой и высотной точностью. Источниками информации для построения ЦМР служат топографические карты, стереопары аэро- и космических снимков, данные радиолокационной съемки и т.п.
Помимо этого, технологии реконструкции поверхностей и обнаружения трехмерных структур применяются для создания высокоточных метрических геопространственных данных при навигации и наведении летательных аппаратов (ЛА), для точной координатной привязки целей, а также при создании реалистичных авиационных тренажеров нового поколения.
В данной работе рассматривается наиболее актуальная задача автоматического построения ЦМР на основе стереореконструкции рельефа местности по аэрофотоснимкам. Особое внимание уделяется применению эффективного метода поиска перекрывающихся изображений в базе данных аэрофотоснимков с использованием индексной схемы на основе построения словаря признаков. Такой подход в известных публикациях не приводится. Он может стать основой методики построения и доработки АРМ для различных ГИС.
1. Задача автоматизированного построения ЦМР на основе базы данных
аэрофотоснимков
Пусть имеется база данных с набором аэрофотоснимков. Будем считать, что изображения не структурированы и не имеют точной координатной привязки к местности. Требуется восстановить трехмерную структуру рельефа местности.
Предлагается следующая последовательность этапов решения поставленной задачи:
1) Предварительная обработка изображений аэрофотоснимков.
2) Стереореконструкция рельефа местности по аэрофотоснимкам.
a) Выделение «особых» точек на аэрофотоснимках, использующихся в качестве ключевых при поиске перекрывающихся изображений.
b) Поиск соответствующих точек на аэрофотоснимках для стереоотождествления.
c) Пространственная верификация найденных соответствий.
d) Построение карты глубины рельефа местности.
3) Построение триангуляционной модели рельефа.
4) Наложение текстуры на построенную ЦМР.
В настоящее время алгоритмы обработки нижнего уровня (фильтрация шумов, гистограммная обработка) детально изучены и проработаны, в то время, как алгоритмы среднего уровня (сегментация, классификация, поиск и т.д.) продолжают оставаться центральным полем приложения исследовательских усилий.
Одной из самых сложных задач в области машинного зрения является поиск соответствующих точек на стереопаре. Рассматриваемая в данной работе задача построения ЦМР по набору аэрофотоснимков является еще более сложной, так как среди входного множества изображений нет четко построенных стереопар. Изображения в базе данных хранятся неструктурированно, что требует разработки эффективного метода поиска соответствующих точек на снимках.
В процессе стереореконструкции трехмерных объектов основная вычислительная сложность ложится на поиск соответствующих точек среди множества изображений.
С ростом количества аэрофотоснимков в базе данных время, необходимое для сравнения выбранного изображения с каждым из изображений в базе данных, становится неоправданно большим. В таком случае вместо сравнения изображений «каждого с каждым» необходимо применять методы ускоренного поиска, использующие механизмы индексации изображений и позволяющие по входному аэрофотоснимку выдавать несколько схожих, которые в дальнейшем будут рассмотрены более детально.
На рисунке 1 представлена традиционная архитектура систем поиска по содержанию (CBIR - Content Based Image Retrieval), в которых индексирование и поиск осуществляется на основе вычисления сигнатур (характерных признаков) изображений.
Рис. 1. Традиционная архитектура систем поиска изображений по содержанию (CBIR -
Content Based Image Retrieval)
Для повышения эффективности поиска изображений в базе данных аэрофотоснимков при построении цифровой модели рельефа местности целесообразно применить подобную схему индексирования на основе характерных точек, извлекаемых из аэрофотоснимков.
1.1 Выделение характерных точек на аэрофотоснимках
Анализ публикаций [2, 3, 12, 13, 14, 15, 17, 18] показывает, что обнаружение и сопоставление точечных особенностей на изображении является одной из основных задач при реконструкции рельефа местности по набору аэрофотоснимков.
В настоящее время наиболее распространен метод на основе сопоставления точек и фрагментов изображений, выделения признаков внутри малых фрагментов, высокой точности 3Б-позиционирования точек, что подразумевает соответствующее моделирование и калибровку датчиков и их комбинаций, выделение простых яркостно-геометрических структур типа «точка», «край», «пятно», «прямая линия», «угол». Эти «первичные» особенности изображения, также называемые характерными чертами, играют базовую роль и при составлении яркостно-геометрических моделей объектов и разработке робастных алгоритмов их выделения.
Характерные черты на изображении имеют следующие виды атрибутов [23]:
1) Положение: концы отрезка, центр отрезка, центр тяжести области, вершины многоугольников.
2) Геометрические атрибуты: ориентация, длина, кривизна, площадь, периметр, ширина линии, минимальный и максимальный диаметр области, оси симметрии, число и положение особых точек, показатель компактности, и др.
3) Радиометрические атрибуты: контраст, статистика распределения яркости, знак и величина края, автокорреляция.
4) Текстурные атрибуты: матрица смежности, показатель однородности, энергия, энтропия, статистика градиентов текстуры, результаты применения текстурных фильтров, моменты.
5) Топологические атрибуты: связность, соседство, общие точки, пересечение, параллельность, перекрытие, включение.
6) Цветовые/многозональные атрибуты: вектор атрибутов для каждого цветового канала.
7) Динамические атрибуты: атрибуты статических и движущихся объектов.
8) Временные атрибуты: функции изменения атрибутов со временем.
При работе с реальными изображениями выбор характерных черт и их атрибутов зависит от доступной вычислительной мощности и от минимальной требуемой робастности описания модели объекта в терминах характерных черт.
Вплоть до 80-х гг. прошлого века основным классом алгоритмов обнаружения и идентификации объектов, использовавшихся в бортовых системах технического зрения ЛА, являлся класс корреляционно-экстремальных алгоритмов. Однако по мере возрастания требований к точности и надежности алгоритмов обнаружения всё более сложных объектов во всё более сложной реальной обстановке всё сильнее стали проявляться недостатки данной группы методов. Это, прежде всего, высокая вероятность ошибок, необходимость иметь большое число эталонов для описания разноракурсных образов трехмерных объектов, неустойчивость по отношению к яркостно-геометрической изменчивости изображений, имеющей место в реальных условиях регистрации. Таким образом, наметился переход от корреляционных детекторов заданных образов к методам и алгоритмам структурного анализа изображений.
1.1.1 Использование дескрипторов характерных точек изображения
В данной работе сопоставление изображений осуществляется по набору характерных черт, в качестве которых используются так называемые особые или характерные точки, то есть, такие точки изображения, окрестности которых можно отличить от окрестности любой другой точки изображения.
Для сравнения обнаруженных характерных точек на изображениях используются дескрипторы особенностей, представляющие собой векторы числовых характеристик окрестностей особых точек D(x) = [/i(w(x)),...,/n(w(x))].
Для стереореконструкции трехмерной сцены требуется найти набор пар точек (хц,Уи),(х2,и y2,i) i = 1.N таких, что (хц, Уц),(х2,и y2,i) являются изображениями одной и той же точки в разных системах координат.
Известны различные методы поиска особенностей. Наибольшей популярностью пользуются уголковый детектор Харриса [5], SIFT (Scale-Invariant Feature Transform) [6], SURF (Speed-Up Robust Features) [7], Ferns [8], GLOH (Gradient Localization-Orientation Histograms) [3].
В условиях поставленной задачи предпочтительным является использование алгоритма SIFT для выявления на аэрофотоснимке особых точек и вычисления для них дескрипторов, обладающих инвариантностью к повороту, масштабированию и изменениям в освещенности, а также некоторой устойчивостью к наличию шума в изображениях.
Рассмотрим процедуру построения SIFT-дескрипторов подробнее.
Нахождение особых точек
Обнаружение особых точек основано на построении пирамиды гауссианов (Gaussian) и разностей гауссианов (Difference of Gaussian, DoG). Гауссианом (или изображением, размытым гауссовым фильтром) является изображение
L(х, y, а) = G(х, у,а) * I(х, y) . (1)
Здесь L — значение гауссиана в точке с координатами (х,у), а С — радиус размытия. G — гауссово ядро, I — значение исходного изображения, * — операция свертки.
Разностью гауссианов вычисляется путем попиксельного вычитания одного гауссиана исходного изображения из гауссиана с другим радиусом размытия.
D(x, y, a) = (G(x, y, ka) - G(x, y, a)) * I(x, y) = L(x, y, ka) - L(x, y, a) (2)
Инвариантность относительно масштаба изображений в дескрипторах SIFT достигается за счет нахождения характерных точек на исходном изображении, взятом в разных масштабах. Для этого строится пирамида гауссианов: все масштабируемое пространство разбивается на некоторые участки — октавы, причем часть масштабируемого пространства, занимаемого следующей октавой, в два раза больше части, занимаемой предыдущей. При переходе от одной октавы к другой делается разреживание изображения, его размеры уменьшаются вдвое. При этом каждая октава охватывает бесконечное множество гауссианов изображения, поэтому строится только некоторое их количество N, с определенным шагом по радиусу размытия. С тем же шагом достраиваются два дополнительных гауссиана (всего получается N+2), выходящие за пределы октавы. Масштаб первого изображения следующей октавы равен масштабу изображения из предыдущей октавы с номером N.
Масштабируемым пространством изображения является набор всевозможных, сглаженных некоторым фильтром, версий исходного изображения. Доказано, что гауссово масштабируемое пространство является линейным, инвариантным относительно сдвигов, вращений, масштаба, не смещающим локальные экстремумы, и обладает свойством полугрупп. Важно, что различная степень размытия изображения гауссовым фильтром может быть принята за исходное изображение, взятое в некотором масштабе.
Параллельно с построением пирамиды гауссианов, строится пирамида разностей гауссианов (DoG), состоящая из разностей соседних изображений в пирамиде гауссианов. Соответственно, количество изображений в этой пирамиде будет N+1.
На рисунке 2 слева изображена пирамида гауссианов, а справа — их разностей. Схематично показано, что каждая разность получается из двух соседних гауссианов, количество разностей на единицу меньше количества гауссианов, при переходе к следующей октаве размер изображений уменьшается вдвое.
Пирамида гауссианов
Рис. 2. Построение пирамиды гауссианов и разностей гауссианов
После построения пирамид гауссианов и разностей гауссианов выполняется поиск особых точек на изображении. Точка считается особой, если она является локальным экстремумом разности гауссианов. Для поиска экстремумов используется метод, схематично изображенный на рисунке 3.
Рис. 3. Точка локального экстремума в пирамиде разностей гауссианов
Если значение разности гауссианов в точке, помеченной крестиком (рис. 3), больше (меньше) всех значений в соседних точках, то эта точка считается точкой локального экстремума.
Во всех изображениях пирамиды разностей гауссианов (БоО) ищутся точки локального экстремума. Каждая точка сравнивается с её восемью соседями в изображении пирамиды гауссианов и с девятью соседями, находящимися на уровень выше и ниже в пирамиде. Если значение в этой точке больше (меньше) соседних, то она принимается за точку локального экстремума.
БШТ-дескриптор представляет собой вектор, который вычисляется на гауссиане, ближайшем по масштабу к ключевой точке, исходя из градиентов в некотором окне ключевой точки. Перед вычислением дескриптора это окно поворачивают на угол преобладающего градиента в окрестности ключевой точки, чем и достигается инвариантность относительно поворота.
На рисунке 4 схематично показана часть изображения (слева) и полученный на её основе дескриптор (справа). Справа изображен дескриптор особой точки, размерности 2x2x8. Первые две цифры в значении размерности — это количество регионов по горизонтали и вертикали. Те квадраты, которые охватывали некоторый регион пикселей на левом изображений, справа охватывают гистограммы, построенные на пикселях этих регионов. Соответственно, третья цифра в размерности дескриптора означает количество компонент гистограммы этих регионов.
Рис. 4.
Дескриптор ключевой точки состоит из всех полученных гистограмм. Размерность дескриптора, приведенного на рисунке 4 в качестве примера, равна 32 (2x2x8), но на практике используются дескрипторы размерности 128 компонент (4x4x8).
1.2 Индексирование
Основная идея построения эффективной системы поиска изображений в базе данных, рассматриваемая в настоящей работе, заключается в применении механизма индексации, заимствованного в полнотекстовых поисковых системах.
Задача быстрого поиска частичных совпадений между документами является одним из центральных вопросов теории поиска информации (IR - Information Retrieval). В IR-системах для ускорения поиска используются предварительно построенные индексы. В системах поиска текстовой информации наиболее распространены инвертированные (обратные) индексы, которые представляют собой структуры данных, где для каждого слова коллекции документов в соответствующем списке перечислены все места, в которых оно встретилось.
В задачах анализа текстов и информационного поиска в качестве одного из критериев релевантности документа поисковому запросу часто используется TF-IDF (term frequency - inverse document frequency).
TF-IDF - статистическая мера оценки важности слова в контексте документа, являющегося частью коллекции документов. Вес некоторого слова пропорционален количеству употребления этого слова в документе и обратно пропорционален частоте употребления слова в других документах коллекции.
Частота слова (tf) - отношение числа вхождений некоторого слова t к общему количеству слов документа d. Так оценивается важность слова в пределах одного документа.
n
tf (t, d ) = =H-. (3)
Z nk
k
Обратная частота документа (idf) - инверсия частоты, с которой некоторое слово встречается в коллекции. Учет idf уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах коллекции существует только одно значение idf:
idf (t, D) = logD (4)
Kl
Здесь |d| - количество документов в коллекции,
di - количество документов, в которых встречается ti.
Таким образом,
tfidf (г, (, Б) = г/(г, () х ¡ё/(г, Б). (5)
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употребления в других документах.
Поскольку для текстов уже разработана структура эффективного поиска страниц, на которых упомянуто слово, то наша цель - применить данный механизм для поиска изображений, которым соответствуют заданные векторы признаков. Чтобы использовать эту идею, необходимо построить из признаков словарь «визуальных слов» [14].
1.3 Построение словаря признаков
Согласно предложенному алгоритму, после извлечения из аэрофотоснимков характерные точки заносятся в базу данных признаков (рис. 5). Необходим способ организации хранения, позволяющий по запросу быстро и эффективно находить в хранилище наиболее похожие объекты.
Рис. 5. Извлекаемые из каждого аэрофотоснимка характерные точки заносятся в базу
данных признаков
Каждый вектор признаков (рис. 5) - точка в пространстве высокой размерности (128- для дескрипторов SIFT). Соседние точки в пространстве признаков соответствуют близким векторам, что свидетельствует о подобии изображений.
Словарь признаков удобно организовать в виде дерева, каждый лист которого соответствует одному «визуальному слову». В качестве слова будем использовать целочисленную величину, полученную квантованием SIFT-дескриптора с помощью кластеризации пространства признаков.
В настоящее время разработано множество методов кластеризации, таких как:
1) графовые методы кластеризации;
2) методы иерархической кластеризации:
a) агломеративные (объединительные),
b) дивизивные (разделяющие);
3) статистические методы кластеризации:
a) EM-алгоритм,
b) метод к-средних
Для построения словаря «визуальных слов» удобно использовать метод к-средних. Алгоритм разбивает множество элементов векторного пространства на заранее определенное число кластеров к. Основная идея заключается в том, что на каждой итерации заново вычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из векторов оказался ближе к центру по выбранной метрике.
Алгоритм завершается при стабилизации положения центров кластеров. Причем, это происходит за конечное число итераций, так как количество разбиений конечного множества конечно.
Результат работы алгоритма зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
Достоинствами кластеризации методом к-средних являются простота и быстрота использования, понятность и прозрачность алгоритма. Однако из-за того, что наибольшие затраты приходятся на выполнение поиска ближайших соседей, метод не может быть эффективным при работе с большими объемами данных. Поэтому для построения словаря признаков предлагается использовать иерархический вариант кластеризации методом к-
средних. Построение словаря в виде дерева обеспечивает более быструю индексацию и поиск при большем размере базы данных объектов.
Работа системы происходит в два этапа:
1) построение словаря «визуальных слов» в виде дерева признаков (обучение без учителя - off-line режим);
2) Работа со структурированной базой данных аэрофотоснимков (поиск, добавление, удаление изображений - on-line режим).
1.3.1 Кластеризация пространства признаков
Точность поиска схожих аэрофотоснимков в базе данных во многом определяется размером словаря признаков. Построение словаря осуществляется на подготовительной фазе в процессе «обучения квантователя» (рис. 6) в режиме Off-line.
Рис. 6. Построение словаря признаков по набору аэрофотоснимков
Квантование БШТ-дескрипторов осуществляется путем кластеризации пространства признаков иерархическим методом к-средних (принцип квантования представлен на рисунке 7). В данной работе словарь признаков строится в виде дерева, имеющего 5 ярусов (п = 5) и 10 ветвей (к = 10) на каждом ярусе. При этом каждый БШТ-дескриптор характерной точки изображения будет представлен в виде одного целого числа, кодирующего путь от корня к соответствующему листу дерева.
Рис. 7. Иллюстрация построения словаря признаков иерархическим квантованием пространства методом к-средних (на примере к = 3)
1.3.2 Работа с базой данных аэрофотоснимков
После того, как словарь «визуальных слов» построен, то есть определены все центры кластеров, его можно использовать для управления набором аэрофотоснимков: добавления, удаления, поиска «ближайших» (по содержанию) снимков.
Добавление изображения в таком случае осуществляется следующим образом:
1) извлекаются локальные признаки изображения;
2) дескрипторы отображаются в «слова» путем квантования по ранее построенному дереву;
3) список «визуальных слов» добавляется в базу данных, осуществляется построение обратного индекса по визуальным словам изображения.
Процедура поиска осуществляется по схеме:
1) извлекаются локальные признаки изображения;
2) дескрипторы отображаются в «слова» путем квантования по дереву признаков;
3) по найденным соответствиям на основе весов «визуальных слов» (ТЕ-ГОБ) рассчитываются наиболее подходящие изображения в базе данных (рис. 8).
Рис. 8. Иллюстрация поиска изображения в базе данных на основе словаря признаков 1.3 Пространственная верификация найденных соответствий
Для решения задачи стереореконструкции нельзя использовать предположение, что все исходные данные являются корректными. После нахождения соответствующих точек на аэрофотоснимках среди них необходимо выбрать корректные соответствия. В связи с этим использование стандартных методов, например, метода наименьших квадратов
(МНК), невозможно. В подобных ситуациях применимы методы оценки параметров, учитывающих присутствие выбросов в исходных данных - М-оценки, схемы голосования (например, метод Хафа), а также семейство методов на основе случайных выборок (RANSAC) [10, 11].
Идея преобразования Хафа состоит в поиске объектов, подходящих для наибольшего числа точек входного набора. Для этого модели объектов параметризуются, и исследование ведется в пространстве параметров данной модели. В машинной реализации пространство параметров дискретно и представляет собой многомерный массив (по количеству параметров модели) целочисленных значений. Значение, хранящееся в каждой ячейке, рассчитывается как число точек, удовлетворяющих данному набору параметров. Выбрав ячейки с наибольшим хранимым значением, определяют параметры наиболее вероятной модели.
Недостатками метода являются:
1) ресурсоемкость при использовании моделей с большим количеством параметров;
2) метод плохо работает при большом количестве данных, не относящихся к модели.
Метод RANSAC (RANdom SAmple Consensus) основан на случайных выборках [10, 11]. В общем случае метод используется при необходимости определить параметры некоторой модели, которой должны удовлетворять имеющиеся исходные данные.
Пусть имеется набор T исходных данных, состоящий из N элементов. Известно, что большинство его элементов должно удовлетворять параметрической модели M(P) с параметрами P, количество которых |P| = p. Имеется алгоритм, позволяющий вычислить параметры P модели по набору данных из к элементов.
Возьмем подмножество K, состоящее из к элементов множества T, и определим параметры модели M(K). Затем необходимо проверить все элементы множества T на соответствие данной модели и зафиксировать количество элементов, согласующихся с моделью. Повторив данную последовательность действий некоторое количество раз, каждый раз выбирая новый набор Ki, следует выбрать ту модель Mi, которая имеет наибольшее количество удовлетворяющих элементов из T. Шаги алгоритма RANSAC представлены в виде блок-схемы на рис. 9.
Каждый элемент при выборе очередного подмножества выбирается с равной вероятностью. Количество подмножеств, которые необходимо попробовать, оценивается по формуле:
Г = 1 -(1-(1 -е)ку, (6)
где Г - требуемая вероятность выбора «хорошего» подмножества за время работы, к -количество элементов в наборе, необходимое для вычисления модели, 8 - процент выбросов в наборе Т, т - количество проверяемых подмножеств.
Оценка того, удовлетворяет ли элемент модели, осуществляется заданием порога ошибки соответствия. Для разных моделей применяется свой метод определения такой ошибки.
На рис. 9 представлена блок-схема алгоритма, реализующего определение параметров модели методом КЛКБЛС [10].
Рис. 9. Блок-схема алгоритма КЛКБЛС. http://technomag.bmstu.ru/doc/657404.html 391
При решении задачи построения цифровой модели рельефа местности (ЦМР) по набору аэрофотоснимков для верификации найденных стереосоответствий предлагается использовать рассмотренный алгоритм оценки параметров модели на основе случайных выборок (RANSAC). Для этого строится список пар изображений, между которыми есть достаточное число соответствий, используя таблицу парных соответствий. Для каждой такой пары вычисляется фундаментальная матрица робастным (устойчивым к ложным соответствиям) методом на основе RANSAC.
1.4 Построение карты глубины
Карта глубины рельефа, как правило, строится методами обратной проекционной реконструкции. Данная группа методов также, как и большинство систем трехмерных сканеров, использует в своей основе триангуляцию, то есть сопоставление нескольких проекций (минимум двух) p1xXi = (x1,y1), p2,Xi = (x2,y2) видимой точки поверхности объекта в местной системе координат (МСК). В результате сопоставления точек p1xXi и p2,Xi можно получить точное значение расстояния от оптической системы до точки на объекте в системе координат камеры и в результате восстановить карту глубины или прообраз Zi в МСК.
Под соответствующими точками здесь и далее понимается пара p1,Xi = (x1,y1), p2,Xi = (x2,y2), полученная в результате проецирования пространственной точки Xi с поверхности объекта.
Существует довольно большое число модификаций методов проекционной реконструкции трехмерных точек с поверхности объекта. В первую очередь методы следует разделить по числу используемых проекций:
• проекционная стерео реконструкция [12, 13, 14, 17, 18];
• ^-проекционная реконструкция [15].
Также можно выделить группу методов на основе характера светового излучения, используемого в процессе восстановления:
• проекционная реконструкция на основе естественного освещения или пассивная[13, 14, 15, 16, 17, 18];
• проекционная реконструкция на основе специальной подсветки объектов или активная [12].
Несмотря на разнообразие алгоритмов, все они имеют принципиальные аксиоматические свойства на основе элементарных геометрических правил. То есть, все методы этого класса используют общую схему для получения трехмерных координат точек с поверхности объектов, а различия, в большинстве случаев, возникают на этапе поиска правильных соответствующих проекций.
Рассмотрим общую схему восстановления координат точки объекта на рис. 10. Будем считать проекционные плоскости (экраны) аналогами ПЗС элементов цифровой фото- или видеокамеры, при этом ориентация экранов друг относительно друга определена заранее (знаем величину стерео базы Т, то есть расстояние между оптическими центрами О] и 02 двух камер) и имеет выраженную горизонтальную направленность (у идентичных проекций координата у одинакова). Также будем полагать, что оптические свойства камер идентичны и известны (одинаковое фокусное расстояние
Л.
мск
Проекционная плоскость
Рис. 10.
Итак, известна правильная пара проекций (р],хи Р2,Хг) искомой трехмерной точки X По приведенной схеме на основе теоремы подобия треугольников несложно получить формулу для вычисления координаты ^, являющейся недостающим измерением в системе координат, привязанной к оптической системе одной из фото/видеокамер:
7е = . (7)
Т -1
Величина I определяется через смещение проекций (рии р2,хд относительно точки пересечения оси проекции и плоскости экрана в первой и второй оптической системе: (йх1,йх2). Часто в подобных задачах используют величину й = йх1 + йх2, называемую смещением. Таким образом, в результате нахождения пары соответствующих проекций (р1,хи Р2Х1) можно подсчитать й, а затем величину
I = Т - й. (8) Подставляя в (7) формулу (8), получаем
7е = . (9)
а
Далее при более детальном рассмотрении алгоритмов проекционной реконструкции, не ясно, будет ли финальным этапом получение карты глубины представленной в виде множества смещений Б = {й1,а2,^,ап}, где п - число пикселей изображения. Формула (9) дает однозначное соответствие между картой и 3Б моделью.
Заключение
В работе рассмотрена задача автоматического построения цифровой модели рельефа на основе базы аэрофотоснимков. Показано, что высокая эффективность поиска ближайших по содержанию снимков в базе данных достигается засчет использования дерева признаков изображений, схемы обратного индексирования и учета весов «визуальных слов».
Иерархическая кластеризация пространства признаков, полученных на основе БШТ-дескрипторов, делает возможным и эффективным использование большого словаря «визуальных слов», а чем больше словарь, тем больше точность результатов поиска.
Инвертированный индекс делает систему масштабируемой до миллионов и даже миллиардов изображений. Она может быть интегрирована в текстовую систему поиска.
Список литературы
1. Чандра А.М., Гош С.К. Дистанционное зондирование и географические информационные системы: пер. с англ. М.: Техносфера, 2008. 312 с.
2. Форсайт Д. А., Понс Ж. Компьютерное зрение. Современный подход : пер. с англ. М.: Издательский дом «Вильямс», 2004. 928 с.
3. Szeliski R. Computer Vision: Algorithms and Applications. Springer, 2011. DOI: 10.1007/978-1-84882-935-0
4. Tomasi C., Kanade T. Shape and Motion from Image Streams: a Factorization Method. Full Report on the Orthographic Case, 1992.
5. Harris C., Stephens M.J. A combined corner and edge detector // In: Proc. of the 4th Alvey Vision Conference, 1988. P. 147-152. DOI: 10.5244/C.2.23
6. Lowe D.G. Object recognition from local scale-invariant features // Proc. of the International Conference on Computer Vision. 1999. P. 1150-1157.
7. Bay H., Ess A., Tuytelaars T., Luc Van Gool. SURF: Speeded Up Robust Features // Computer Vision and Image Understanding. 2008. Vol. 110, no. 3. P. 346-359.
8. Lepetit V., Fua P. Keypoint recognition using randomized trees // IEEE Transactions on Pattern Analysis and Machine Intelligence. Sept. 2006. Vol. 28, no. 9. P. 1465-1479. DOI: 10.1109/TPAMI.2006.188
9. Nister D., Stewenius H. Scalable recognition with a vocabulary tree // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2006. Vol. 2. P. 2161-2168. DOI: 10.1109/CVPR.2006.264
10. Конушин А. Устойчивые алгоритмы оценки параметров модели на основе случайных выборок // Компьютерная Графика и Мультимедиа Сетевой журнал. 2003. Режим доступа: http://cgm.computergraphics.ru/content/view/47 (дата обращения 01.10.2013).
11. Fishler M.A., Bolles R.C. RANdom Sampling Consensus: a paradigm for model fitting with application to image analysis and automated cartograghy // Commun. of the ACM. 1981. Vol. 24. P. 381-395.
12. Scharstein D., Szeliski R. High-Accuracy Stereo Depth Maps Using Structured Light // IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR '03). Vol. 1. 2003. P. 195-202. DOI: 10.1109/CVPR.2003.1211354
13. Klaus A., Sormann M., Karner K. Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure // Proc. of the 18 th International Conference on Pattern Recognition (ICPR'06). Vol. 3. 2006. P. 15-18. DOI: http://doi.ieeecomputersociety.org/10.1109/ICPR.2006.1033
14. Sadeghi H., Moallem P., Monadjemi S.A. Feature Based Dense Stereo Matching using Dynamic Programming and Color // International Journal of Computational Intelligence. 2008. Vol. 4, no. 3. P. 179-186.
15. Roy S., Cox I. A maximum-flow formulation of the n-camera stereo correspondence problem // Proc. of the Sixth International Conference on Computer Vision (ICCV'98). 1998. P. 492. DOI: http://doi.ieeecomputersociety.org/10.1109/ICCV.1998.710763
16. Boykov Y., Veksler O., Zabih R. Fast Approximate Energy Minimization via Graph Cuts // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2001. Vol. 23, no. 11. P. 1222-1239. DOI: 10.1109/34.969114
17. Boykov Y., Veksler O., Zabih R. Markov Random Fields with Efficient Approximations // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 1998. P. 648. DOI: 10.1109/CVPR.1998.698673
18. Zeng-Fu Wang, Zhi-Gang Zheng. A Region Based Stereo Matching Algorithm Using Cooperative Optimization // IEEE Conference on Computer Vision and Pattern Recognition (CVPR'08). 2008. P. 1-8. DOI: 10.1109/CVPR.2008.4587456
19. Афиногенов Е.И. Автоматическое построение панорамного изображения по набору аэрофотоснимков для использования в геоинформационной системе // Наукоемкие Технологии и Интеллектуальные Системы: Тез. докл. XV МНТК (Москва, 2013). М.: МГТУ им. Н.Э. Баумана, 2013. C. 124-126.
20. Афиногенов Е.И. Отслеживание положения камеры системы компьютерного зрения в трехмерном пространстве в режиме реального времени // Наукоемкие Технологии и Интеллектуальные Системы: Тез. докл. XIV МНТК (Москва, 2012). М.: МГТУ им. Н.Э. Баумана, 2012. С. 76-79.
21. Афиногенов Е.И. Восстановление аффинной структуры сцены по движению // Наукоемкие Технологии и Интеллектуальные Системы: Тез. докл. XIII МНТК (Москва, 2011). М.: МГТУ им. Н.Э. Баумана, 2011. С. 135-137.
22. Афиногенов Е.И., Александров Д.А. Распознавание геометрических примитивов в системе компьютерного зрения // Наукоемкие Технологии и Интеллектуальные Системы: Тез. докл. XII МНТК (Москва, 2010). М.: МГТУ им. Н.Э. Баумана, 2010. С. 125-128.
23. Желтов С.Ю., Визильтер Ю.В. Перспективы интеллектуализации систем управления ЛА за счет применения технологий технического зрения. // Авиационные системы в XXI веке. Юбилейная научно-техническая конференция: Сб. докл. 2006. Т. 1. С. 39-52.
SCIENTIFIC PERIODICAL OF THE BAUMAN MSTU
SCIENCE and EDUCATION
EL № FS77 - 48211. №0421200025. ISSN 1994-0408
electronic scientific and technical journal
Method of automated construction of a digital relief model # 12, December 2013 DOI: 10.7463/1213.0657404 Afinogenov E.I.
Bauman Moscow State Technical University, 105005, Moscow, Russian Federation
afinogenov.evgeniy@gmail .com
The author considers a problem of effective construction of a digital relief model (DRM) for a certain region on the basis of a large number of aerial photographs. Main stages of DRM construction were described. Special attention was paid to increase efficiency of search for the "nearest" (in terms of content) images in the database; it was proposed to use a search scheme based on inverse indexing of images' unique characteristics and the database organized in the form of a tree of "visual words". Construction of a lexical tree with the use of hierarchical clusterization of the attribute space, obtained on the basis of SIFT- descriptors, was shown; weighing coefficients of "visual words", calculated on the principle of TF-IDF (Term Frequency - Inverse Document Frequency), were taken into account.
Publications with keywords: digital elevation model (DEM), stereo-reconstruction, search system, inverse indexing, visual words
Publications with words: digital elevation model (DEM), stereo-reconstruction, search system, inverse indexing, visual words
References
1. Chandra A.M., Ghosh S.K. Remote Sensing and Geographical Information System. Alpha Science, Oxford, UK, 2007. (Russ. ed.: Chandra A.M., Gosh S.K. Distantsionnoe zondirovanie i geograficheskie informatsionnye sistemy. Moscow, Tekhnosfera, 2008. 312 p.).
2. Forsyth D.A., Ponce J. Computer Vision: A Modern Approach. Prentice Hall, 2002. (Russ. ed.: Forsyth D.A., Ponce J. Komp'yuternoe zrenie. Sovremennyypodkhod. Moscow, Publishing House "Vil'yams", 2004. 928 p.).
3. Szeliski R. Computer Vision: Algorithms and Applications. Springer, 2011. DOI: 10.1007/978-1-84882-935-0
4. Tomasi C., Kanade T. Shape and Motion from Image Streams: a Factorization Method. Full Report on the Orthographic Case, 1992.
5. Harris C., Stephens M.J. A combined corner and edge detector. In: Proc. of the 4th Alvey Vision Conference, 1988, pp. 147-152. DOI: 10.5244/C.2.23
6. Lowe D.G. Object recognition from local scale-invariant features. In: Proc. of the International Conference on Computer Vision, 1999, pp. 1150-1157.
7. Bay H., Ess A., Tuytelaars T., Luc Van Gool. SURF: Speeded Up Robust Features. Computer Vision and Image Understanding, 2008, vol. 110, no. 3, pp. 346-359.
8. Lepetit V., Fua P. Keypoint recognition using randomized trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, vol. 28, no. 9, pp. 1465-1479. DOI: 10.1109/TPAMI.2006.188
9. Nister D., Stewenius H. Scalable recognition with a vocabulary tree. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006, vol. 2, pp. 2161-2168. DOI: 10.1109/CVPR.2006.264
10. Konushin A. Ustoychivye algoritmy otsenki parametrov modeli na osnove sluchaynykh vyborok [Stable algorithms of estimation of model parameters on the basis of random samples]. Komp'yuternaya Grafika i Multimedia, 2003. Available at: http://cgm.computergraphics.ru/content/view/47 , accessed 01.10.2013.
11. Fishler M.A., Bolles R.C. RANdom Sampling Consensus: a paradigm for model fitting with application to image analysis and automated cartograghy. Commun. of the ACM, 1981, vol. 24, pp. 381-395.
12. Scharstein D., Szeliski R. High-Accuracy Stereo Depth Maps Using Structured Light. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR '03), Vol. 1, 2003, pp. 195-202. DOI: 10.1109/CVPR.2003.1211354
13. Klaus A., Sormann M., Karner K. Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure. In: Proc. of the 18th International Conference on Pattern Recognition (ICPR'06), Vol. 3, 2006, pp. 15-18. DOI: http://doi.ieeecomputersociety.org/10.1109/ICPR.2006.1033
14. Sadeghi H., Moallem P., Monadjemi S.A. Feature Based Dense Stereo Matching using Dynamic Programming and Color. International Journal of Computational Intelligence, 2008, vol. 4, no. 3, pp. 179-186.
15. Roy S., Cox I. A maximum-flow formulation of the n-camera stereo correspondence problem. In: Proc. of the Sixth International Conference on Computer Vision (ICCV'98), 1998, pp. 492. DOI: http://doi.ieeecomputersociety.org/10.1109/ICCV.1998.710763
16. Boykov Y., Veksler O., Zabih R. Fast Approximate Energy Minimization via Graph Cuts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, vol. 23, no. 11, pp. 1222-1239. DOI: 10.1109/34.969114
17. Boykov Y., Veksler O., Zabih R. Markov Random Fields with Efficient Approximations. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1998, pp. 648-655. DOI: 10.1109/CVPR.1998.698673
18. Zeng-Fu Wang, Zhi-Gang Zheng. A Region Based Stereo Matching Algorithm Using Cooperative Optimization. IEEE Conference on Computer Vision and Pattern Recognition (CVPR'08), 2008, pp. 1-8. DOI: 10.1109/CVPR.2008.4587456
19. Afinogenov E.I. Avtomaticheskoe postroenie panoramnogo izobrazheniya po naboru aerofotosnimkov dlya ispol'zovaniya v geoinformatsionnoy sisteme [Automatic construction of panorama image based upon a set of aerial photographs for use in geoinformation system]. In: Naukoemkie Tekhnologii i Intellektual'nye Sistemy: Tez. dokl. 15 MNTK [Science Intensive Technologies and Intelligent Systems: Proc. of reports. of the 15 Int. Scientific and Technical conf.], Moscow, 2013. Moscow, Bauman MSTU Publ., 2013, pp. 124-126.
20. Afinogenov E.I. Otslezhivanie polozheniya kamery sistemy komp'yuternogo zreniya v trekhmernom prostranstve v rezhime real'nogo vremeni [Tracking the position of camera system of computer vision in the three dimensional space in real time].In: Naukoemkie Tekhnologii i Intellektual'nye Sistemy: Tez. dokl. 14 MNTK [Science Intensive Technologies and Intelligent Systems: Proc. of reports. of the 14 Int. Scientific and Technical conf.], Moscow, 2012. Moscow, Bauman MSTU Publ., 2012, pp. 76-79.
21. Afinogenov E.I. Vosstanovlenie affinnoy struktury stseny po [Restoration of affine structure of the scene based upon the motion]. In: Naukoemkie Tekhnologii i Intellektual'nye Sistemy: Tez. dokl. 13 MNTK [Science Intensive Technologies and Intelligent Systems: Proc. of reports. of the 13 Int. Scientific and Technical conf.], Moscow, 2011. Moscow, Bauman MSTU Publ., 2011, pp. 135-137.
22. Afinogenov E.I., Aleksandrov D.A. Raspoznavanie geometricheskikh primitivov v sisteme komp'yuternogo zreniya [Recognition of geometric primitives in the system of computer vision]. In: Naukoemkie Tekhnologii i Intellektual'nye Sistemy: Tez. dokl. 12MNTK [Science Intensive Technologies and Intelligent Systems: Proc. of reports. of the 12 Int. Scientific and Technical conf.], Moscow, 2010. Moscow, Bauman MSTU Publ., 2010, pp. 125-128.
23. Zheltov S.Yu., Vizil'ter Yu.V. Perspektivy intellektualizatsii sistem upravleniya LA za schet primeneniya tekhnologiy tekhnicheskogo zreniya [Prospects of intellectualization of aircraft control systems through the use of technology of technical vision]. In: Aviatsionnye sistemy v 21 veke. Yubileynaya nauchno-tekhnicheskaya konferentsiya: Sb. dokl. [Aviation systems in the 21 century. Anniversary scientific and technical conference: proc.], 2006, vol. 1, pp. 39-52.