УДК 004.923
СТАТИСТИЧЕСКИЙ МЕТОД ОПТИМИЗАЦИИ ЛОКАЛЬНЫХ АЛГОРИТМОВ УСТАНОВЛЕНИЯ ПИКСЕЛЬНЫХ СООТВЕТСТВИЙ НА СТЕРЕОПАРАХ
© 2011 г. В.Ф. Гузик, А.В. Чумаченко
Технологический институт Южного федерального университета, г. Таганрог
Taganrog Technological Institute of Southern Federal University
Представлен краткий анализ методов установления пиксельных соответствий на стереопарах. Для локальных методов предложен и проверен экспериментально способ оптимизации качества и быстродействия.
Ключевые слова: стереопара; пиксельное соответствие; корреляция; диапазон расхождений; функция.
The short analysis of stereo correspondence methods is presented. The local method optimization is proposed and checked by experiment.
Keywords: stereo pair; pixel correspondence; correlation; disparity range; function.
Значительно возросшие в последние годы требования к информационным системам различного назначения требуют разработки и использования программных систем, решающих все более сложные задачи. Не является исключением и область компьютерного зрения.
Компьютерное зрение - сравнительно молодая и разнообразная область знаний. Кроме того, компьютерное зрение является пограничной областью знаний. Также, и это даже более важно, нет стандартной формулировки того, как должна решаться проблема компьютерного зрения. Вместо этого существует масса методов для решения различных строго определенных задач компьютерного зрения, где методы часто зависят от задач и редко могут быть обобщены для широкого круга применения. Многие полезные идеи не имеют под собой теоретической основы, а некоторые теории бесполезны на практике.
Отличительная черта компьютерного зрения - извлечение описаний из изображений или последовательности изображений. Процесс снятия изображения обычно недеструктивен, кроме того, он достаточно прост и на сегодняшний момент недорог [1].
Для построения систем автоматической обработки изображений используются особенности стереоскопического зрения, одним из свойств которого является возможность оценки удаленности наблюдаемых объектов. Оценка удаленности наблюдаемых объектов может быть основана на различных принципах и физических явлениях. Рассмотрим некоторые способы оценки глубины сцены на примере стереоскопического зрения человека.
Если приблизительно известны пространственные характеристики объекта (человек, дерево и др.), то можно оценить расстояние до него или понять, какой из объектов ближе, сравнивая угловую величину объекта.
Если один предмет расположен впереди другого и частично его заслоняет, то человек воспринимает передний объект как расположенный ближе.
Важным признаком удаленности служит параллакс движения - кажущееся относительное смещение близких и более далеких предметов, если наблюдатель будет двигать головой влево и вправо или вверх и вниз.
Рассмотрим пример системы, состоящей из одной или двух камер и некоторой точки трехмерного пространства М. После формирования двух изображений стереопары некоторая точка пространства М формирует на снимках проекции т1 и т2 (рис. 1). Если известны внутренние и внешние характеристики стереосистемы, то можно восстановить положение точки М в трехмерном пространстве [2].
Рис. 1. Пространственная модель формирования стереопары
В случае если два изображения стереопары формируются параллельным переносом камеры, то глубина точки М может быть вычислена по формуле
2 = f -
fB
где B - величина смещения камеры, f - фокусное расстояние камеры.
Определение соответствия между проекциями m\ и m2 некоторой точки трехмерного пространства M (correspondence) является ключевой задачей стерео-фотограмметрии.
Большинство методов установления пиксельных соответствий оперирует статистическими данными в выделенных областях, извлекаемыми из изображений (средняя интенсивность цветовых каналов, наличие границ в определенных зонах изображения и т.д.).
Традиционно и наиболее широко применяются методы на основе оценки взаимной корреляции. Основным достоинством данной группы методов является их естественный параллелизм и соответственно потенциально высокий уровень эффективности аппаратной реализации. К недостаткам можно отнести большую вычислительную сложность, возможность применения при относительно небольших изменениях в изображениях, ошибки при оценке корреляции областей без выраженных цветовых признаков.
Следует отметить большое количество исследований, алгоритмов, а также аналитических работ по методам установления пиксельных соответствий. В данной работе освещаются результаты аналитических работ [3, 4], и на их основании ставятся исследовательские задачи.
Работа [3] посвящена разработке системы классификации алгоритмов, а также построению универсальной методики оценки различных характеристик алгоритмов. В качестве примеров в работе рассмотрены и реализованы некоторые существующие методы и алгоритмы, производящие сплошную обработку изображений (без исключения некоторых областей сцены) и оперирующие с двумя изображениями, т. е. со стереопарой. В итоге авторы выделяют два класса алгоритмов: локальные (local) и глобальные^^Ьа^.
В локальных алгоритмах степень несоответствия в некоторой точке зависит только от значений интенсивности цветовых каналов в ограниченной области (в «окне»).
В глобальных алгоритмах находится такое соответствие, которое минимизирует некоторую глобальную целевую функцию.
В практической части работы производится анализ и сравнение основных приемов для локальных и глобальных алгоритмов.
Для локальных алгоритмов исследуется зависимость количества неверно найденных соответствий от следующих факторов:
- вид целевой функции;
- размера окна;
- применения фильтрации, в частности минимального фильтра (MF).
Результаты исследований, приводимые в работе, демонстрируют некоторые фундаментальные ограничения локальных алгоритмов. Большие окна улучшают качество поиска в областях со слабовыраженными цветовыми признаками и ухудшают его в областях перепада высот. Причина этого заключается в том,
что в этих алгоритмах делается неявное предположение об одинаковой удаленности от наблюдателя всех точек, попадающих в окно. Если окно «накрывает» область перепада высот, то в нем одновременно находятся точки с разной величиной смещения на стереопаре. Для поверхностей, не параллельных плоскости съемки, выраженной является сама граничная область, которая находится на переднем плане. Это объясняет эффект расширения границ объектов на переднем плане при увеличении размера окна (foreground fattening) [3].
В частичном решении этой проблемы используются так называемые адаптивные окна, в простейшем варианте - минимальный фильтр. Однако эти приёмы всё равно оказываются неработоспособными в областях с ровным фоном и даже могут ухудшать результаты поиска [3].
В работе [4] проведен обзор и сравнение результатов широкого круга методов установления пиксельных соответствий на стереопарах. Для всех методов приведены результаты в виде карты относительных высот сцены. По результатам проведенного анализа в работе делаются следующие выводы:
- большинство локальных методов обладают высокой скоростью работы в ущерб качеству распознавания;
- глобальные методы демонстрируют высокое качество распознавания, но при этом требуют больших временных затрат на выполнение и плохо поддаются распараллеливанию;
- в настоящий момент наиболее актуальной проблемой является создание систем компьютерного зрения, работающих в режиме реального времени. Одним из вариантов её решения является аппаратная реализация некоторого метода, обладающего естественным параллелизмом;
- в силу естественного параллелизма наиболее эффективная аппаратная реализация достигается для локальных методов.
В соответствии с выводами, сделанными в двух аналитических статьях, в данной работе ставятся следующие цели:
- разработать оптимизирующий метод, полностью или частично решающий проблемы локальных методов, связанные с их фундаментальными ограничениями;
- для разработанного метода провести серию экспериментов, доказывающих его эффективность на различных наборах входных данных.
Одним из решений проблем локальных методов, очевидно, является применение окон большего размера для областей с ровным фоном, и окон меньшего размера в участках, где наблюдается перепад высот на сцене.
Однако при попытке выделить на изображении эти участки возникают следующие ограничения:
- поиск областей со слабовыраженными цветовыми признаками сильно зависит от физических параметров сцены, настроек того или иного алгоритма фильтрации;
- поиск областей с перепадом высот на сцене можно провести только после восстановления рельефа сцены.
Для того чтобы обойти эти ограничения и одновременно решить исходные проблемы, разработан метод определения корректности некоторого найденного соответствия двух проекций.
Для установления пиксельных соответствий на стереопаре предлагается использовать следующие четыре шага:
1. Оценка нижней и верней границы допустимых смещений точек на двух изображениях.
2. Установление соответствия точек для всего изображения окном меньшего размера.
3. Выделение точек, соответствие для которых (установленное на шаге 2) не попало в диапазон допустимых значений смещений, определенный на шаге 1.
4. Нахождение соответствия для точек, выделенных на шаге 3, окном большего размера.
Рассмотрим процедуру нахождения одной пары соответственных точек. Исходными данными для алгоритма являются:
- базовое изображение стереопары (массив чисел, описывающих интенсивность светового потока для каждой точки (пикселя) изображения);
- второе изображение стереопары, полученное сдвигом камеры относительно базового (массив чисел, описывающих интенсивность светового потока для каждого пикселя изображения);
- координаты пикселя (х, у) базового изображения (для этого пикселя будет производиться поиск пары на втором изображении).
При поиске соответствия на стереопаре каждое изображение рассматривается как одномерная случайная величина, т. е. не существует некоторой заведомо известной закономерности распределения световой интенсивности в пределах изображения. Поиск соответствия осуществляется на основе корреляционного метода.
Корреляционные методы - это нахождение пиксельных соответствий путём сравнения профилей яркости в окрестности потенциально соответствующих точек разных изображений объекта. Рассмотрим фрагмент стереопары и точку (х, у) на базовом изображении (рис. 2). С окном размера р=(2т+1)*(2п+1), центрированным на (х,у), соотнесем вектор W(x, у) £ Ер, который получен путём построчного сканирования значений окна. Теперь для данной точки второго изображения (х+^у), потенциально соответствующей точке (х,у), можно построить второй вектор №'(х + d, у) и определить соответствующую корреляционную функцию [1]:
0 0 Базовое изображение q q Второе изображение
£ (wi - w)(w- - W')
C (d ) =
i=1
i=1
£ (W - w)\Ц W - W')2
(1)
i=1
Рис. 2. Корреляция двух окон вдоль соответствующих эпиполярных линий
Положение второго окна отделено от положения первого расстоянием d пикселей. В пространстве R15 указанные окна представляются векторами W и W'.
Инвариантность функции C относительно аффинных преобразований функции яркости позволяет использовать корреляционные схемы согласования, имеющие некоторую устойчивость в ситуациях, когда две камеры имеют разное усиление или объективы с разными диафрагменными числами [1].
Для вычисления данной функции требуются значительные вычислительные ресурсы. Поэтому в качестве основной корреляционной функции предлагается использовать функцию более простого вида (SAD, Sum of Absolute Differences):
Z W - WZ
S (d) = ^
(2)
где w и w - средние величины интенсивности в соответствующих векторах.
Обе корреляционные функции легко адаптируются для многозональных изображений. Необходимо провести вычисления для каждого цветового канала отдельно и найти среднее.
Результатом работы всего метода будет множество кортежей вида <(х, у), d(x, у)>, где (х, у) - координаты проекции некоторой точки пространства на базовом изображении, d(x, у) - величина смещения проекции точки на втором изображении относительно базового вдоль оси ОХ.
Нахождение пиксельных соответствий с помощью корреляционных функций - вычислительно дорогой процесс, поэтому имеет смысл заранее ограничить диапазон возможных расхождений D(l, г).
На основании выводов, сделанных в работах [3, 4], предложим метод оценки диапазона возможных расхождений D.
Поскольку для любых размеров окна есть точки, величина смещения которых не попала в заведомо правильные границы, то необходимо некоторым образом их исключить из рассмотрения. Предположим, что для некоторого размера окна величина смещения попала в корректные границы для не менее чем К процентов точек. Тогда диапазоном возможных рас-
хождений будет такой диапазон D(l, г), ширина которого минимальна и который включает не менее чем К процентов точек. В качестве примера рассмотрим некоторое распределение смещений точек (рис. 3). Вдоль горизонтальной оси изменяется величина смещения точек, а вдоль вертикальной - количество точек с некоторым смещением.
Распределение смещений
-jl-
„ ■ 1 1 П 1 1 П П ■ П П „
1 2 3 4 5 В 7 8 9 10 11 12 13 14 15 16 17 18 19
Величина смещения, пикс.
Рис. 3. Пример распределения смещений точек
Предположим, что смещение корректно определено для не менее чем 98 % от общего количества точек. Тогда наименьшим диапазоном D(l, г), содержащим не менее 98 % точек, будет отрезок [2, 15]. Таким образом, соответствие считается некорректно найденным для точек базового изображения, для которых d(x,у) е {1, 16, 17, 18, 19}.
Такой подход позволит оценивать корректность найденных соответствий и значительно сократить вычислительную сложность при обработке большей части базового изображения стереопары.
С учетом этого уточним схему установления пиксельных соответствий.
Рассмотрим некоторую точку г базового изображения с координатами (х, у). Образцом для поиска соответствия этой точки на втором (не базовом) изображении выступает область и на базовом изображении вокруг точки г (окрестность). Эта область представляет собой квадратную область размером м> х м> пикселей с центром в точке г (рис. 4).
0,0
N-
2 (r-l)
'НС-
x x+l x+r Второе изображение
у" Базовое изображение
Рис. 4. Поиск соответствующей точки на втором изображении для точки г базового изображения
Совмещение центральной точки образца для поиска с некоторой точкой второго изображения назо-
вем сопоставлением. С учетом границ изображения допустимые значения координаты х центра сопоставления на втором изображении имеют вид
г — I г — I
тах(0, х +1 ——) < х < тт(М — 1, х + г + .
Из всех возможных сопоставлений выбирается такое сопоставление и, для которого значение функции S(d) или С(ф минимально, и координаты центральной точки области данного сопоставления на втором изображении считаются координатами соответствия для точки г.
Для численной оценки качества восстановления используются величина среднеквадратического отклонения, рассчитываемая по формуле:
E =
f1 , ,2 ^ 2 — Е \dc (x,y) - dT (x,y)|
N ( x, У )
(3)
где dC(x, у) - вычисленная величина смещения пикселя базового изображения с координатами (х, у), d1{x, у) - эталонная величина смещения пикселя базового изображения с координатами (х, у), N - общее число точек стереопары.
Для оценки доли точек, с некорректно найденным соответствием, применяется следующая формула:
P = Е (| dc (x У) - dT (x y)\ >8d ) =
N (x,У)
(4)
где 5d - пороговое значения ошибки смещения, в данной работе 5d = 1.
В работе относительно характеристик (3) и (4) исследуются 3 режима восстановления рельефа. Они различаются видом корреляционных функций и/или последовательностью и назначением шагов. Размер окна на этапе оценки диапазона расхождений для всех режимов одинаков и равен 45х45 пикселей, на этапе установления соответствия 11х11 пикселей. Задача выбора оптимального размера окна для произвольных стереопар требует дополнительных изысканий и будет исследована в дальнейшем.
Режим «1»:
1. Вычисление пиксельных соответствий для базового изображения с помощью корреляционной функции (2).
2. Восстановление относительной карты высот.
Размер окна для 1-го шага - 11х11 пикселей.
Режим «2»:
1. Вычисление диапазона расхождений стереопары D(l, г) с помощью корреляционной функции (2).
2. Вычисление пиксельных соответствий для базового изображения с помощью корреляционной функции (2).
3. Завершающая обработка некорректных пиксельных соответствий, полученных на шаге 2, с помощью корреляционной функции (2).
4. Восстановление относительной карты высот.
Размер окна равен 45х45, 11х11, 45х45 пикселей
для первого, второго и третьего шага соответственно.
Y
Режим «3»:
1. Вычисление диапазона расхождений стереопары D(l, г) с помощью корреляционной функции (2).
2. Вычисление пиксельных соответствий для базового изображения с помощью корреляционной функции (1).
3. Завершающая обработка некорректных пиксельных соответствий, полученных на шаге 2, с помощью корреляционной функции (1).
4. Восстановление относительной карты высот. Размер окна равен 45*45, 11х11, 45*45 пикселей
для первого, второго и третьего шага соответственно.
Помимо этого, для экспериментальной части устанавливаются следующие начальные и граничные условия:
- для всех режимов проверяется влияние минимального фильтра на качество восстановления сцены на завершающем шаге построения карты высот в виде изображения, размер окна фильтра в два раза меньше, чем размер окна на основном шаге режима, т. е. 5*5 пикселей;
- при восстановлении карты относительных высот используется масштабный множитель С = 8;
Показатели работы модели в различных режимах
Стереопара Art RMS PCT TIME DRMS % DPCT % DTIME %
1-Step-SAD-MF 3,1291 16,3027 40 0,00 0,00 0,00
3-Step-SAD-MF 2,5497 15,1818 30 18,52 6,88 25,00
3-Step-SAD-Corr-MF 2,5244 15,4938 183 19,33 4,96 -357,50
1-Step-SAD 3,3148 17,8948 40 0,00 0,00 0,00
3-Step-SAD 2,7956 17,7511 30 15,66 0,80 25,00
3-Step-SAD-Corr 2,8125 18,2027 183 15,15 -1,72 -357,50
Стереопара Books RMS PCT TIME DRMS % DPCT % DTIME %
1-Step-SAD-MF 2,5664 11,3685 42 0,00 0,00 0,00
3-Step-SAD-MF 2,1008 9,7792 25 18,14 13,98 40,48
3-Step-SAD-Corr-MF 2,0616 9,5102 155 19,67 16,35 -269,05
1-Step-SAD 2,4409 12,2244 42 0,00 0,00 0,00
3-Step-SAD 1,9315 10,7089 25 20,87 12,40 40,48
3-Step-SAD-Corr 1,8596 10,3486 155 23,81 15,34 -269,05
Стереопара Moebius RMS PCT TIME DRMS % DPCT % DTIME %
1-Step-SAD-MF 2,6620 10,7138 44 0,00 0,00 0,00
3-Step-SAD-MF 1,9204 10,6157 25 27,86 0,92 43,69
3-Step-SAD-Corr-MF 1,8893 10,5871 143 29,03 1,18 -222,07
1-Step-SAD 2,9619 12,7873 45 0,00 0,00 0,00
3-Step-SAD 1,9885 12,2814 26 32,86 3,96 42,80
3-Step-SAD-Corr 1,9559 12,2776 147 33,96 3,99 -226,56
Стереопара Laundry RMS PCT TIME DRMS % DPCT % DTIME %
1-Step-SAD-MF 2,6268 16,3599 42 0,00 0,00 0,00
3-Step-SAD-MF 2,1615 16,0401 28 17,71 1,95 33,33
3-Step-SAD-Corr-MF 2,1698 15,4483 150 17,40 5,57 -257,14
1-Step-SAD 3,0267 20,0257 41 0,00 0,00 0,00
3-Step-SAD 2,2814 19,3167 28 24,62 3,54 32,17
3-Step-SAD-Corr 2,2621 18,7585 192 25,26 6,33 -365,11
Стереопара Dolls RMS PCT TIME DRMS % DPCT % DTIME %
1-Step-SAD-MF 2,1948 6,0986 41 0,00 0,00 0,00
3-Step-SAD-MF 1,9288 5,7726 23 12,12 5,35 45,00
3-Step-SAD-Corr-MF 1,7060 5,7187 98 22,27 6,23 -139,57
1-Step-SAD 2,0250 8,0614 41 0,00 0,00 0,00
3-Step-SAD 1,7347 7,4454 23 14,34 7,64 45,00
3-Step-SAD-Corr 1,5519 7,4101 98 23,36 8,08 -139,57
Стереопара Wood2 RMS PCT TIME DRMS % DPCT % DTIME %
1-Step-SAD-MF 4,3762 12,0788 50 0,00 0,00 0,00
3-Step-SAD-MF 3,5644 11,5274 26 18,55 4,57 48,00
3-Step-SAD-Corr-MF 3,4664 11,4951 114 20,79 4,83 -128,00
1-Step-SAD 3,4790 10,1766 50 0,00 0,00 0,00
3-Step-SAD 2,7998 8,4103 26 19,52 17,36 48,00
3-Step-SAD-Corr 2,7227 8,4517 114 21,74 16,95 -128,00
- для всех исследуемых стереопар выбраны изображения размером 665...695*555 пикселей, время выдержки при получении кадров 200 мсек;
- вычисления проводятся на 6 стереопарах, в их числе: «Wood2», «Dolls», «Laundry», «Moebiuss», «Books», «Art» [5];
- в качестве базового выбирается правое изображение стереопары, камера смещается влево, а точки сцены смещаются на положительное число пикселей на втором изображении;
- на изображениях стереопары отсутствуют шумы и радиальные искажения.
Для проведения экспериментов модель реализована программно. Для наглядности изложения результатов в таблице введем сокращенные названия режимов работы.
Режим «1» - 1-Step-SAD.
Режим «1» с минимальным фильтром - 1-Step-SAD-MF.
Режим «2» - 3-Step-SAD.
Режим «2» с минимальным фильтром - 3-Step-SAD-MF.
Режим «3» - 3-Step-SAD-Corr.
Режим «3» с минимальным фильтром - 3-Step-SAD-Corr-MF.
Величина среднеквадратического отклонения по формуле (3) - RMS.
Доля точек с некорректным соответствием по формуле (4) - PCT.
Время работы модели в некотором режиме (секунд) - TIME.
Уменьшение показателя RMS в процентах -DRMS %.
Уменьшение показателя PCT в процентах - DPCT %.
Уменьшение времени работы модели в процентах - DTIME %.
Результаты экспериментов приведены в таблице. Поступила в редакцию
Исходя из данных, приведенных в таблице, можно сделать следующие выводы об эффективности предложенного метода:
1. Применение дополнительного шага оценки диапазона возможных расхождений D(l, r) для всех режимов уменьшает среднеквадратическое отклонение (DRMS %) на 12 - 34 %, долю неверно найденных соответствий (DPCT %) на 0,8 - 17,36 %, время работы на 25 - 48 %.
2. Минимальный фильтр позволяет достичь меньших значений доли неверно найденных соответствий (PCT), за исключением стереопары «Wood2».
3. Применение корреляционной функции (1) в режиме «3» для коррекции пиксельных соответствий в большинстве случаев уменьшает среднеквадратиче-ское отклонение (DRMS %) и долю неверно найденных соответствий (PCT %) по сравнению с режимом «2», однако при этом в несколько раз возрастает время работы модели.
Литература
1. Форсайт Девид А., Понс Жан. Компьютерное зрение: современный подход. : пер. с англ. М., 2004. 928 с.
2. Hansung Kim, Seung-jun Yang, Kwanghoon Sohn. 3D Reconstruction of Stereo Images for Interaction between Real and Virtual Worlds // Proceedings of the 2nd IEEE/ACM Intern Symp on Mixed and Augmented Reality. 2003, P. 169.
3. Sharstein D., Szeliski R. A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms // IJCV. 2002. Vol. 7, № 1/3.
4. Nalpantidis L., Sirakoulis G. Ch., Gasteratos A. Review of Stereo Matching Algorithms for 3D vision // 16th Intern Symp on Measurement and Control in Robotics (ISMCR 2007). Warsaw, Poland, 21 - 23 June 2007.
5. Scharstein D. Taxonomy and comparison of two-frame stereo correspondence algorithms. URL: http://vision. middlebury. edu/stereo (дата обращения: 21.08.2010).
13 января 2011 г.
Гузик Вячеслав Филлипович - д-р техн. наук, профессор, зав. кафедрой вычислительной техники, Технологический институт Южного федерального университета, г. Таганрог. Тел. 8(8634)37-17-37.
Чумаченко Александр Викторович - аспирант, кафедра вычислительной техники, Технологический институт Южного федерального университета, г. Таганрог. Тел. 8-928-155-49-35. E-mail: [email protected]
Gusik Vjacheslav Filippovich - Doctor of Technical Sciences, professor, head of department «Computer Facilities», Taganrog Technological Institute of Southern Federal University. Ph. 8(8634)37-17-37.
Cumachenko AlexanderViktorovich - post-graduate student, department «Computer Facilities», Taganrog Technological Institute of Southern Federal University. Ph. 8-928-155-49-35. E-mail: [email protected]