Алгоритм построения пространственной структуры сцены

Беляков Павел Викторович

УДК 004.932

DOI: 10.25559/SITITO.15.201902.331-339

Длгоритм построения пространственной структуры сцены

П. В. Беляков

Рязанский государственный радиотехнический университет имени В.Ф. Уткина, г. Рязань, Россия

390005, Россия, г. Рязань, ул. Гагарина, д. 59/1 pvbel@ramЫer ги

Аннотация

Одной из наиболее актуальных проблем, связанных с разработкой систем технического зрения, является проблема высококачественной пространственной реконструкции статической сцены по изображениям с движущейся камеры. Построение трехмерных моделей требуется во многих областях, где активно ведется роботизация человеческой деятелности: медицине, промышленности, системах управления автономными транспортными средствами и многих других. Традиционные методы пространственной реконструкции основаны на поиске локальных особенностей на изображениях, затем между выявленными особенностями устанавливается соответствие, по этому соответствию определяется фундаментальная матрица и уже на ее основе вычисляется пространственная структура сцены. Качество методов, основанных на вычислении особенностей, зависит от качества выборки особенностей для вычисления фундаментальной матрицы. Предлагается алгоритм восстановления трехмерной структуры сцены по последовательности изображений, который основан на плотном методе сопоставления изображений - оптическом потоке, но с учетом ограничений эпиполярной геометрии. Алгоритм пространственной реконструкции основывается на минимизации совместного функционала вычисления оптического потока и эпиполярной геометрии с одновременным определением пространственных координат точек сцены. Такой способ минимизации одного общего функционала для всех неизвестных обеспечивает более высокую точность их совместного вычисления и соответственно более качественное построение пространственной структуры сцены. Эксперименты показывают, что метод является хорошей альтернативой подходам, основанным на поиске особых точек на изображениях и вычислении их позиции в трехмерном пространстве по принципу триангуляции. В качестве входных данных требуется последовательность изображений статической сцены, полученных при движении наблюдателя по непрерывной траектории. Кроме того, предполагаются известными внутренние параметры камеры.

Ключевые слова: оптический поток, фундаментальная матрица, трехмерная реконструкция, эпиполярная геометрия.

Для цитирования: Беляков П. В. Алгоритм построения пространственной структуры сцены // Современные информационные технологии и ИТ-образование. 2019. Т. 15, № 2. С. 331-339. DOI: 10.25559^1Т1ТО.15.201902.331-339

G ®

Контент доступен под лицензией Creative Commons Attribution 4.0 License. The content is available under Creative Commons Attribution 4.0 License.

Modern Information Technologies and IT-Education

THEORETICAL QUESTIONS OF COMPUTER SCIENCE, COMPUTATIONAL MATHEMATICS, COMPUTER SCIENCE AND COGNITIVE INFORMATION TECHNOLOGIES

The Scene Structure Construction Algorithm

P. V. Belyakov

Ryazan State Radio Engineering University, Ryazan, Russia 59/1 Gagarina St., Ryazan 390005, Russia [email protected]

One of the most important problems in the technical vision systems development is the problem of a static scene high-quality spatial reconstruction in accordance with images captured by moving camera. 3D-structure reconstruction is required in different areas where human activity is being actively robotized: medicine, industry, autonomous vehicle control systems, and many others. Traditional methods of spatial reconstruction are based on the images local features search, features matching, the fundamental matrix evaluation according this correspondence and the spatial structure of the scene is then calculated. The quality of the feature based methods generally depends of the feature sample quality for the fundamental matrix evaluation. Based on the variational optical flow model with the additional epipolar geometry constraint algorithm of a scene structure reconstruction from a sequence of images is proposed. The proposed approach of the spatial reconstruction is build on the optical flow and epipolar geometry joint functional minimization with the simultaneous scene points coordinates determination. The method of one gathered functional for all variables minimization provides higher accuracy of their joint computation and, accordingly, better scene spatial structure reconstruction. Experiments show that the method is a good alternative to the feature matching based approaches and their 3D-position computation based on triangulation. A sequence of a static scene images is required as input data and the internal parameters of the camera are assumed to be known.

Keywords: optical flow, epipolar geometry, features correspondence, fundamental matrix, spatial reconstruction.

For citation: Belyakov P.V. The Scene Structure Construction Algorithm. Sovremennye informa-cionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2019; 15(2):331-339. DOI: 10.25559/SITITO.15.201902.331-339

Abstract

Современные информационные технологии и ИТ-образование

Том 15, № 2. 2019 ISSN 2411-1473 sitito.cs.msu.ru

Введение

Построение трехмерных моделей требуется во многих областях, где активно ведется роботизация человеческой деятел-ности: медицине, промышленности, системах управления автономными транспортными средствами и т.д. Проблема высококачественной реконструкции статической сцены по изображениям с движущейся камеры является одной из самых актуальных задач в компьютерном зрении [1]. Пространственное положение точки сцены обратно пропорционально определяемому смещению пикселей и может быть определено, зная внутренние и внешние параметры камеры, через фокусное расстояние и базовую линию между двумя камерами. В монокулярном зрении базовая линия определяется с помощью методов оценки собственного движения, таких как разреженный или плотный метод одновременной локализация и картографирования. Корректная оценка позиции камеры, по сути фундаментальной матрицы черезвычайно важна для определения эпиполярной геометрии сцены, а значит и вычисления ее трехмерной структуры [2].

Многие из существующих алгоритмов для решения этой проблемы полагаются на разреженные признаки изображений. Такие методы должны тщательно отбирать наиболее подходящие признаки и устранять неустойчивые - выбросы. С другой стороны, методы плотного оптического потока в компьютерном зрении достигли огромных успехов за последнее десятилетие. В подходах на основе плотного оптического потока используется вариационные метод для восстановления трехмерного образа сцены по изображениям от камер. Это особенно выгодно в последовательностях с малым количеством текстур и наоборот множеством подобных структур, где сопоставление по их признакам затруднено.

Целью подходов, основанных на поиске особенностей на изображениях является оценка эпиполярной геометрии. Эпи-полярная геометрия - это связывающее отношение, которое лежит в основе двух стереоизображений и может быть описано одним объектом - фундаментальной матрицей. И наоборот, фундаментальная матрица - это базовое представление геометрического отношения, лежащего в основе взимосвязи двух изображений одной и той же сцены. Это отношение выражается так называемым эпиполярным ограничением, которое задает взаимное положение соответствующих точек двух изображений так, чтобы эти точки находились на определенных эпиполярных линиях, а не где-нибудь произвольно в плоскости изображения. Под извлечением точки интереса традиционно понимают определение ее местоположения на изображения с отличительной информацией об ее окрестности. Классическими примерами характерных признаков изображений являются ребра и углы. Как только определенное количество точек интереса было извлечено на обоих изображениях, между ними должны быть установлены соответствия, процесс, формально известный как сопоставление признаков. Эти методы пытаются сопоставить характерные особенности двух изображений и вычисляют фундаментальную матрицу, накладывая эпиполярное ограничение на этот разреженный набор соответствий. Соответствие обычно находится путем сопоставления разреженного набора дескрипторов признаков изображения, вычисленных, например, на основе методов SIFT или SURF. Методы идентифицирует местоположение точек интереса и связывают с каждой из них вектор дескрипто-

ра высокой размерности. Это векторное представление разработано, чтобы быть инвариантным относительно масштаба, вращения и частично инвариантным относительно афинных искажений и изменений освещения. В результате получается набор отличительных признаков изображения, которые могут быть сопоставлены с высокой вероятностью посредством поиска ближайшего соседа в дескрипторном пространстве [3]. Теоретически восьми точных совпадений достаточно для вычисления фундаментальной матрицы линейным способом. Однако на практике установление соответствий признаков подвержено ошибкам, поскольку локальная природа большинства алгоритмов сопоставления признаков приводит к ошибкам локализации и ложным совпадениям. Это привело к разработке множества надежных алгоритмов, которые могут справляться с относительно большим количеством выбросов. Среди таких надежных методов можно выделить М-оценки, наименьшая медиана квадратов и многочисленные варианты консенсуса по случайной выборке. Очевидно, что качество методов, основанных на вычислении особенностей, зависит от качества выборки. Тем не менее, не следует забывать, что и сами особенности также могут чувствительны ошибкам локализации.

Что касается точности сопоставления двух изображений, иссе-дования в области вычисления оптического потока доказали, что вариационные методы являются отличной альтернативой методам на основе признаков [4]. В вариационный метод вычисления оптического потока используется для оценки фундаментальной матрицы. Предлагаемый подход обещает по меньшей мере два преимущества по сравнению с подходами на основе признаков: плотный оптический поток обеспечивает очень большое количество сопоставлений; и гарантирует небольшое количество выбросов. Из-за присущей этому подходу надежности никакая дополнительная статистикая обработка не использовалась [5].

Вариационные методы вычисления оптического потока минимизируют функционал, который моделирует временное постоянство свойств изображения с помощью слагаемых яркости и регулярность поля потока через слагаемое гладкости. Модель Хорна и Шунка на основе квадратичной функции была постепенно расширена с помощью надежных ограничений на постоянство яркости, чтобы справиться с шумом, окклюзиями и изменениями освещения. Чтобы учесть разрывы гладкости поля оптического потока, были предложены слагаемые регуляризации гладкости, учитывающие края изображения, края эволюционирующего поля или их оба. Подобные расширения были введены и в вероятностные постановки вычисления оптического потока с использованием дискретных моделей. Минимизация вариационных методов оптического потока часто происходит с помощью метода градиентного спуска или численного решения уравнений Эйлера-Лагранжа [6]. Таким образом представляется многообещающей не только выгода от методов оптического потока для оценки эпиполяр-ной геометрии, но и наоборот, знание эпиполярной геометрии может оказывать стабилизирующее влияние на вычисление оптического потока.

Структура из движения (Structure from Motion) также применяется для оценки пространственной структуры сцены. Большинство методов использует разреженное соответствие между несколькими камерами и одновременно определяют положение камеры и трехмерных точек, например методом

Modern Information Technologies and IT-Education

факторизации . Однако такие методы полезны только для приложений, не работающих в реальном времени из-за требования наличия многих кадров [3].

Методы глубокого обучения реализуют плотное сопоставление, обрабатывают большие смещения и достигают производительности в реальном времени. Однако как это происходит со всеми методами глубокого обучения, сеть предварительно должна быть обучена на основе достоверных данных.

Вариационная модель вычисления пространственной структуры сцены

Чтобы совместно оценить оптический поток, фундаментальную матрицу и пространственную структуру предлагается расширить одну из наиболее точных, но вместе с тем наиболее вычислительно сложных моделей вычисления оптического потока в вариационной формулировке с поиском решения через минимизацию функционала [7].

Такой способ связи вычисления фундаментальной матрицы, оптического потока с одновременным определением структуры сцены путем минимизации одного общего функционала для всех неизвестных обеспечит более высокую точность их совместного вычисления [8].

Обобщенная вариационная модель вычисления пространственной структуры строится на базе функционала оптического потока с дополнительным эпиполярным огранчением и ограничением на пространственную структуру:

Е^,f,X) = 1I(х + w) -I(х) |2 +у | VI(х + w) -VI(х) |2) + ау ((|2 + |Уу|2)) + п

+ )2))0х + | G(X)dx, (1)

п п

здесь I(х, у, t): 0х[0, да) ^Ж.2 - последовательность изображений, х = (х, у,1)т -координаты пикселя внутри прямоугольной области изображения О с Ж.2 в момент времени I > 0. Предполагается, что изображение I(х, у, t) предобработано гауссовым фильтром слаживания со стандартным оклонением а , для обеспечения дифференцируемости. Оптический поток ■те = (и,v,\)т - искомый вектор смещения между пикселями двух изображений в момент времени t и момент времени / +1. В задаче стереореконструкции левое изображение - I (х, у, {), правое изображение I(х, у,t +1) в последовательности изображений по которой вычисляется оптического поток. У = (дх, ду )т - пространственный градиент, а | |2:=| V« |2 + | VV |2 - квадрат модуля пространственного

градиента оптического потока, где

|2 2 2 |2 2 2 ди

N =их + иу, |Уу| =уг + у,,, и = — .

ду

ди ду

dv дх

ду

(2)

функционала к изменениям яркости изображения и гладкости поля. Для обеспечения дифферинцируемости функции штрафа 2), е выбирается достаточно малым, = 1 .

т ч/Т+ё7

В эпиполярной геометрии х = (х, у,1) - проективные координаты признаков на левом изображении, х' = (х , у , 1)т - проективные координаты на правом. Тогда связь между признаками двух изображений определяется эпиполярным ограничением:

0 = х 'TFÍ = sT f, (3) где в = (хх' , ух' , х , ху' , уу , у' , х, у,\)т, ^ - фундаментальная матрица размером 3 х 3,а

Г = /и к}, Лз> /гм /г,г, Аз /з,1> /з,2> Лз/ - векторная форма фундаментальной матрицы, с компонентами вектора ., где

1 " i, ]" 3. Для решения уравнения (3) достаточно координат 8 точек, но для повышения надежности решения, обычно делается выборка более чем из 8 сопоставленных точек. Тогда требуется минимизировать следующее выражение относительно f :

?(f) = £ (sf f )2 =| If

(4)

где 5 матрица п х 9 со столбцами из векторов связи , 1 " i" п. Таким образом минимизация выражения (4) может быть осуществлена методом наименьших квадратов переопределенной однородной системы = 0. Чтобы избежать тривиального решеня f = 0, вводится дополнительное ограничение = 1. Решением будут являться собственные вектора, соответсвующие наименьшим собственным значениям матрицы STS [3].

Для устойчивости к шумам вместо квадратичной функции вычисления фундаментальной матрицы (4) используется нелинейную функцию штрафа, аналогичная функции штрафа при вычислена и оптического потока [9]:

ЕР () = f )2).

i=l

Совместный функционал (1) с учетом ограничения || = 1 может быть минимизирован методом множителей Лагранжа: L(w, f, Я) = Ер f) + Я(1 - f ^ f), (5)

для которого ищется (и ,V ,f ,X ) - вектор оптимальных значений, удовлетворяющий уравнениям Эйлера-Лагранжа [8],

[9].

Вычисление оптического потока

Для минимизации (5) относительно вектора оптического потока (и, у) уравнения Эйлера-Лагранжа примут вид [8]:

— L(w, f, Я) = 0, — L(w, f, Я) = 0. (6)

ди дv

Эпиполярное огранчение может быть записано в виде:

у -коэффициент между яркостью и градиентом яркости, а > 0 параметр регуляризации, описывает то, на сколько важно требование гладкости полученного вектора смещений. Первое слагаемое в (1) -терм данных, определяет постоянство яркости и градиента яркости пикселей при смещении изображения. Второе слагаемое в выражении (1) - терм гладкости вектора смещения, накладывает ограничения, в виде функции штрафа на резкое изменение вектора смещения. В данном случае регуляризация на вектор смещения определяется по норме L (сумма модулей) [6], [7]. Функция регуляризации

sT f =

1

У

v1 у

V 0 у

y

V 1 у

y

V 1 у

y

V 1 у

(7)

-bv-

q

определяет устойчивость минимизации

где эпиполярная линия Рх в точке х = (х, у, 1) на левом изображении будет иметь коэффициенты а = (FX)1 и Ь = (FX)2. А q может рассматриваться как расстояние точки х до этой эпиполярной линии с точностью до множителя. Частные производные по (и, у) слагаемого f )2) общего функционала (5) примут вид:

f )2) = f )2)(а 2и + аЬ + а^)'

ди

F

Современные информационные технологии и ИТ-образование

Том 15, № 2. 2019 ISSN 2411-1473 sitito.cs.msu.ru

P. V. Belyakov

THEORETICAL QUESTIONS OF COMPUTER SCIENCE, COMPUTATIONAL MATHEMATICS, COMPUTER SCIENCE AND COGNITIVE INFORMATION TECHNOLOGIES

335

—Y((sTf )2) = 2y'((sTf )2)(аЬи + Ь2и + Ь^).

ду

Тогда уравнения Эйлера -Лагранжа минимизации функционала (5) можно записать:

0= у'(1] + 7(11 + £))(V, + г(и„+)) -

-adiv(щ' (| Ум|2 + 2 )Уи) + Рщ' f )2 )(а2 и + аЫ + ад),

0 = ¥'( f + Y( iXz +

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1'yz M^z + 1'yy1'yz + 1'xy1'xz )) -

adiv(y'(\ Vuf +|Vv| 2)Vv) + ßy' ((sT f )2)(abu + b2v + bq)

здесь:

Ix =dj(x + w), Iy =dyI(x + w), Iz = I(x + w)-1(x^

4 (x + w), IXy = SJ (x + w), Iyy =dyyl (x + w),

4 =dj (x + w )-dJ (x ), lyz =dyI (x + w )-dyI (x ).

(9)

f k ,l ,m+1 Л f tk ,l ,m jk ,l ,m\ 1

du dvk

где

jk ,l ,m jk A11 A12

12

k ,l ,m jk,l ,m

■2 У

Ak ,l ,m Ak .12 A

A k ,l ,m Л

(10)

4/m = (vD i )J " S",m + у (D¡ ) ' ,m +

(, \k,',m / , \k,',m Wsi ) +(Wsj) a. , ,k' г k

+«А А - , \i -+ P(VM) (a2)

n=x,yJeNn(i) 2 (hnJ )

j ¡ /у \k,l,m , ¡ / , \k,l,t

A2,m =(va ) s^r + y (УDi )

rpk ,l ,m T22i

«z z.

n=x, y j^Nn (i)

У si) +Ы

-ß(yFi) ' (b2)

2 (h nJ )2

4/= (vdí )) ',m %%,m + у (v^ )k^ T2i+ ß (vFi ) k(ab)k',

?! / i \k,l,m , , í i \k,l,m , ,

-.„„.k ,l ,m \ '' rrk ,m „,1Ъ,, 1 Tk ,l ,m .

rw =-(wä) -y(WÄ) ?1зГ +

Wsi) + (Wsj ) uk '' + duk ',,m+1 - uk

+z z

n=x,y jeN„ (i)

+z z

n=x, yjsN+({)

2 (h"n )2

(wSi ),m +(wSj ),m u"j + duj,l,m - u"

(h П )2

' kk,l +ß ^wFi ^ (aq) >

?! / i \k,l,m , r / i \k,l,m , ,

rvk,l,m =-(ya ) Ski - Y (di ) Tk! +

(11)

Использование индекса вместо означает аппроксимацию операции дифференцирования по времени разностью. Линеаризация нелинейных дифференциальных уравнений приводит к системе линейных алгебраических уравнений (СЛАУ), которые могут быть численно решены итерационным методом ослабления Гаусса-Зейделя (методом релаксации, SOR - Successive-Over Relaxation), обладающим повышенной сходимостью [6]:

Ax = b, A = V + D + U,

Dx(m+1) = (1 - a)Dxm - a(Vx(m+r> + Uxm ) + rnb, где V - нижняя треугольная матрица, U - верхняя треугольная матрица, D -диагональная матрица и со -коэффициент релаксации.

Введя обозначения Iv=(lx,Iy,, S = IvIy, T = 7Vx Iyx + IVy Iyy дискретизированные уравнения Эйле-ра-Лагранжа (8) в матричном виде можно запсать как [10]:

+z z

n=x,у JsN- (i)

+z z

n=x, у jeN+(i)

(, \k,l,m / , \k,l,m . . . . .

У s i ) +0 vk,l + dvk - vk 2 (h^')2

(y 4k ,m +(ysj)),l ,m vj 'l + dvk,l ,m - vk,l

(h n^ )2

„, ■ -.kl,, ,l +ß(y^) (bq)

(г, j) - координаты пикселя для которого ищется вектор смещения в плоскости кадра; (duk'' 'm+1, dvk'' 'm+1) - искомые приращения вектора оптического потока, вычисляемые итерационно при линеаризации исходных дифференциальных уравнений (8) и (9); индексы k, l означают итерации линеаризации соответствующих слагаемых; \j/D - производная функции сохранения яркости и градиента яркости; \//s - производная функции гладкости вектора потока; \//F - производная функции эпиполярного ограничения; N+:={j е Nn (i)|j > i} - означает пикселы, которые только будут обработаны в текущей итерации вычисления SOR, N-:={j е Nn (i)|j < i} - означает пикселы, которые были вычислены на предыдущей итерации; m индекс итерации вычисления SOR; h - шаг сетки дискретизации численного решения уравнений (8) и (9) [6], [7].

Вычисление фундаментальной матрицы

Для подзадачи минимизации (5) относительно фундаментальной матрицы F приравниваем производные F(f, X) по f и X к нулю, уравнения Эйлера-Лагранжа примут вид: Vf L(w, f, А) = 0 и — L(w, f, X) = 0,

dX

(12)

где Vf градиент (3^ ,...,df )T. Таким образом: 0 = (!^'((sTf)2)ssTdxdy -XI)f := (M -XI)f,

0 = 1 - f

(13)

симметрчная

матрица

где М . . ,

т'' = ¡í¡¥'((sTf)2)sisjdxdy, 1 " i, ] " 9, а s¡ элемент вектора е. Вычисление весов т:) требует оценки фундаментальной матрицы и наоборот. Обновленным решением f4+1 будут являться собственные вектора, соответствующие наименьшим собственным значениям матрицы М , зафиксированной при текущем приближении fк.

Система уравнений (6) и (12) решаются итерационно, пооче-

Modern Information Technologies and IT-Education

+

2

+

2

rv

336

ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ИНФОРМАТИКИ, ПРИКЛАДНОМ МАТЕМАТИКИ,

КОМПЬЮТЕРНЫХ НАУК И КОГНИТИВНО-ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ П В Беляков

редно выполняя вычисление оптического потока и фундаментальной матрицы. Сначала решаются уравнения Эйлера-Ла-гранжа (8) относительно вектора оптического потока -те при фиксрованном векторе f фундаментальной матрицы. Затем с использованием оптического потока формируется матрица М уравнений (13) и решается задача на собственные значения матрицы. Из-за ограничения 0 = 1 — |^Ц решение всегда будет иметь единичную норму. Новая оценка фундаментальной матрицы, в свою очередь, будет использоваться для повторного решения уравнений Эйлера-Лагранжа для оптического потока. Этот процесс повторяется до сходимости [3], [9].

Вычисление пространственной структуры сцены

Пространственное положение точки X = (X, У, Z) для каждого х = (х, у) минимизирует функционал (1) в части слагаемого О(Х), что в итоге непосредственно и определяет реконструируемую поверхность [11].

Таким образом даны два изображения статической сцены 11,12 :0 ^ М+, полученые с движущейся камеры с известной внутренней матрицей К . Известен вектор оптического потока — , описывающий смещение пикселя х изображения А относительно изображения А2 в области изображения Ое Ж . Пространственные координаты каждой точки х

заданы как

X е S

где

Sc

- реконструируемая поверх-

ность. Связь между признаками двух изображений с учетом внутренних параметров камеры определяется эпиполярным ХтЕх = 0 , где Е = KTFK

ограничением как: ственная матрица. Так как E = , где

■ суще-

ра

R =

0 -t z t y

t z 0 -t x

-t y t x 0

Ii Г12 Г13

Г21 Г22 Г23

_r3i Г32 r33

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где

d

■ расстояние между проекцией X и координатой x че

G (X)

[ Vo- рО

[(х + u)p3 -p1 ]7

' X] 2

1 ] +

X] 2

1 +

[ JP0 - P0 ] [(У + v)p3 -p:

(15)

(16)

- кососиметричная матрица векто-

, то на данном этапе матрица вра-

щения К и вектор положения t могут быть получены с помощью сингулярного разложения (SVD) матрицы

Е = KTFK [3]. Таким образом определив матрицу проекции камеры Р = К[R 11] , трехмерная поверхность может быть вычислена путем минимизации суммы ошибок репроекции. Оптический поток — устанавливает плотное соответствие х' = x + w , поэтому слагаемое пространственной структуры функционала (1) можно в итоге выразить как:

G(X) = |\а(х,Р0Х)||2+|\а(x+w, РХ)||2 , (14)

рез матрицы камеры Р и Р0 . р = к[1 \ 0] - матрица положения камеры для изображения А , определяемая через нулевой вектор сдвига 0 с единичной матрицей поворота I . Зададим ошибку репроекции (14) как линейную функцию от X :

где P„ = [РоРоРо]7- и P = [pVpT [10]. Сформулируем (15) как:

arg min G(X) = arg min(-X + xZ)2 + (-Y + yZ)2 +

X ,Y ,Z X ,Y ,Z

+((x + u)r3l - rll)X + ((x + u)r32 -rl2)Y + ((x + u)r33 - r13)Z + +((x + uX - tx))2 + ((y + v)r3i - r21)X + ((y + v)ri2 -r22)Y + +((У + v)r33 -^)Z + ((y + v)tz - ty))2.

Приравнивая частные производные G(X) по X = (X, Y, Z) к нулю , запишем для (16) уравнения Эйле-ра-Лагранжа:

— G(X) = -2( X + xZ) +

dX

+2[((x + u)r31 -rn)X + ((x + u)r32 -rl2)Y + ((x + u)r33 - r13)Z + ((x + u)tt - tx)]((x + u)r31 - ru) + +2[((y + v)r,i - Гл)X + ((y + v)r,2 - r22)Y + ((y + v)r„ - r^Z + ((y + v)t, - ty)] ((y + у)Гц - r2l) = 0,

д

dYG(X) = -2(7 + yZ) +

+2[((x + u)r31 -ru)X + ((x + u)r32 -r12)Y + ((x + u)r33 -r13)Z + ((x + u)tt - tx)]((x + u)r32 - r12) + +2 [((y + v)r31 - Г21)X + ((y + v)r32 - r^Y + ((y + v)r33 - ^Z + ((y + v)t, - ty )] ((y + v)^ - = 0,

д

— G(X) = 2x( X + xZ) + 2 y(Y + yZ) + dZ

+2[((x + u)r3 1 -rn)X + ((x + u)r32 - rl2)Y + ((x + u)r33 - r3)Z + ((x + u)tl -tx)]((x + u)^ - r13) + +2 [((y + v)r,i - r>i) X + ((y + v)r32 - OY + ((y + v)r„ - r2,)Z + ((y + v)t, - ty )] ((y + v)r„ - Г2з) = 0.

(17)

Здесь также приходим к системе линейных алгебраических уравнений кото^ая^ решается методом наименьших квадратов. Если ,v ,f , X ) - решение задачи минимизации (1), то оно удовлетворяет уравнением Эйлера-Лагранжа. Однако функции, удовлетворяющие данным уравнениям, не обязательно гарантруют глобальный минимум функционалу. В силу нелинейности функционал может иметь множество локальных минимумов. Чтобы обойти это препятствие используется пирамида изображений. На изображении с низким разрешением минимум функционала будет находится в окрестности искомого глобального минимума функционала (1) изображения исходного разрешения. Постепенно продвигаясь по пирамиде к максимальному разрешению, можно уточнять решение. Чем меньше отличаются последовательные разрешения, тем меньше шансов попасть в локальный минимум. Хорошей аппроксимацией для сглаживания функционала энергии является сглаживание самих изображений. Т.к. сглаживание изображений устраняет мелкие детали, которые отвечают за локальные минимумы, можно ожидать, что функционал, построенный по сглаженным изображениям, содержит значительно меньше локальных минимумов [7].

Масштабирование изображения учитывается через соответ-свующее масштабирование матрицы внутренних параметров камеры:

Ks+1 = 0 ,,f пг , (18)

0 nc,

0 nfys nc

0 0 1

2

t

Современные информационные технологии и ИТ-образование

Том 15, № 2. 2019 ISSN 2411-1473 sitito.cs.msu.ru

_ 1

где ' К0ЭФФиЦиент масштабирования, (fxs,fys) -

фокусное расстояние, (cxs, cys) - оптический центр камеры, s - текущий уровень пирамиды изображений. Методы последовательных приближений сходятся лучше, если переход от грубого масштаба к точному происходит как можно плавнее. Каждый шаг по пирамиде должен быть инициализирующим для последующего более точного масштаба, чтобы быть как можно ближе к глобальному минимуму, который только обозначился на предыдущем масштабе. Риск попасть в локальный минимум уменьшается выбором меньшего шага масштабирования, т.к. появляется возможность быть ближе к глобальному минимуму при обнаружении локального минимума. Так коэффициент масштабирования Ле(0,1) обычно выбирается больше 0.5.

Для обработки цветных изображений RGB, возможен многоканальный вариант функционала (1), где 3 цветовых канала связываются в общий функционал.

Алгоритм построения пространственной структуры сцены

Приведенные выкладки можно резюмировать псевдокодом алгоритма построения пространственной структуры сцены [12]:

Входные данные: А ; А

Построить пирамиду разномасштабных изображений; while 5 < max level do while iter < k iters do

//итерации по интерполяции изображения //вычисление производных для текущего уровня //пирамиды изображения А и А

1'x , 1 xx , 1'y , 1 xy , А , 1 zx , 1 zy ; (8)

while iter < l iters do foreach col, row in Images [0, nRows - 1] x [0, nCols - 1] do

//вычисление градиента вектора оптического потока

ux , uy ,vx ,vy ; (2)

//вычисление производных функций штрафов для яркости изображении и гладкости потока Уд , V s ; //формирование тензоров движения S , T ;

//вычисление коэффициентов эпиполярнойлинии a , b , q ; (6)

//вычисление прозводной функции штрафа эпиполярного ограничения Vf ;

//формирование тензоров общего функционала

Al , Al , Azi ,^22 , ru , rv ; (11)

//Successive Over-Relaxation while iter < m _ SOR _ iters do

(dum+1, dvm+v) :=SOR (dum, dvm) ; (10) end while // end SOR m //интерполяция I в соответствии с полученными смещениями потока (du, dv)

А := интерполяция( А , (du, dv) );

end while // end l

// обновление значения вектора потока

u := u + du , v := v + dv ; // обновление матрицы F

минимизировать по

f = Oil, f12, fa, f21, fll' fl3' f31, f32, Аз) ;(13) вычислить матрицу P = K[R 11] ; минимизировать по X = (X ,Y, Z) end while //end k //интерполяция вектора потока на следующий //уровень пирамиды изображений

{us ,vs ) := интерполяция( ,v") , П ); // интерполяция внутренних параметров камеры для следующего уровня пирамиды изображений

K = Ks+1 ; (18)

//end s

Для ускорения вычислений систем линейных алгебраических уравнений может применяться многосеточный подход [10]. Аппаратная реализация вычисления оптического потока на ПЛИС может быть относительно просто доработана для вычисления обобщенного функционала (1) [13].

Основные результаты

Одним из наиболее популярным методом тестирования разрабатываемых алгоритмов является их тестирование на нескольких заранее известных сценах. Сравнение результатов их работы производится с тестовыми базами изображений для котрых известна достоверная пространственая структура (ground truth), полученная непосредственным обмером трехмерной сцены независимыми измерениями, например, лазерами или сгенерированная синтетически. Одновременно выполняя вычисление плотного оптического потока и эпиполярной геометрии по двум стереоизображениям можно определить диспаритет, который каждый пиксель одного изображения связывает с соответсвующим пикселем другого изображений. Через диспаритет может быть вычислена карта глубины, которая с каждым пикселем изображения связывает точку в пространстве. Диспаритет и карта глубины не являются полным представлением изображаемой сцены, однако позволяют оценить качество алгоритма построения пространственной модели косвенно, сравнивая полученный им диспаритет с истинным из тестовой базы.

На рис. 1 представлены диспаритеты (цвет означает величину и направление смещения пикселя) и соответсвующие им пространственные структуры сцен, полученные алгоритмом на тестовых наборах данных Middlebury Stereo Dataset изображений Adirondack, Recycle, Piano1.

Ошибку вычисления диспаритета в данных тестовых базах принято оценивать метрикой BAD2.0, которая показывает процент пикселей изображения, для которых вычисленное значение диспаритета превышает по модулю истинное значение более чем на два пикселя. В таблице 1 приведены значение ошибки BAD2.0 предложенного метода в сравнении с одним из высокорейтинговых методом Middlebury - NOSS и другим популярным методом, реализованным в библиотеке компьютерного зрения OpenCV - SGBM (Semi-global block matching).

1 Stereo Datasets - Middlebury Computer Vision Pages [Электронный ресурс]. URL: http://vision.middlebury.edu/stereo/eval3/MiddEval3-newFeatures.html (дата обращения: 06.06.2019).

Modern Information Technologies and IT-Education

Р и с.

F ig. 1

. Диспаритеты и пространственныеструктуры сцен тестовой базы

Middlebury: Adirondack,Recycle,Piano Disparitiesandspatialstructures ofscenesof theMiddleburytest base: Adirondack, Recycle, Piano

Т абли ца1. Ошибкавычислениядиспаритета (в метрике BAD2.0) T a bl e1. Disparitycalculationerror (in BAD2.0 metric)

Предлагаемый алгоритм Middlebury (NOSS ) Middlebury (SGBM1 )

№ Bads2.0%

1 Adirondack 5,81 3,51 29,3

2 Piano 15,7 11,3 30,6

3 Recycle 6,66 9,98 22,5

Следует отметить что предлагаемый алгоритм в частности сравнивается с высокорейтенговым методом Middlebury NOSS, основанном на сверточных нейронных сетях и обученный на изображениях той же базы Middlebury. При тестировании на изображениях не относяшихся к тестовому окружению Middlebury этот сопоставляемый алгоритм уже не показывает заявленной эффектвности.

Заключение

В статье предложена вариационная модель и алгоритм построения пространственной структуры сцены на основе вычисления оптического потока и фундаментальной матрицы с одновременным определением структуры сцены путем минимизации одного общего функционала для всех трех неизвестных. Это обеспечивает более высокую точность их совместного вычисления и соответственно более качественное построение пространственной структуры сцены. Эксперименты показывают, что метод является хорошей альтернативой подходам, основанным на поиске особых точек на изображениях и вычислении их позиции в трехмерном пространстве по принципу триангуляции. Алгоритм обеспечивает точное определение положения камеры и трехмерную реконструкцию сцены в реальном времени при реализации предлагаемого метода на ПЛИС.

Список использованных источников

[1] Гуров В. С. и др. Обработка изображений в авиационных системах технического зрения / Под ред. Л. Н. Костяш-кина, М. Б. Никифорова. М.: Физматлит, 2016. 240 с.

[2] Schneevoigt T., Schroers C., Weickert J. A Dense Pipeline for 3D Reconstruction from Image Sequences // Pattern Recognition. GCPR 2014. Lecture Notes in Computer Science / X. Jiang, J. Hornegger, R. Koch (eds). Vol. 8753. Springer, Cham, 2014. Pp. 629-640. DOI: 10.1007/978-3-319-11752-2_52

[3] Hartley R., Zisserman A. Multiple View Geometry in Computer Vision. 2nd Edition. Cambridge University Press, Cambridge, UK, 2004.

[4] Кузнецов П. К., Мартемьянов Б. В., Семавин В. И. Техническое зрение подвижных объектов. Метод анализа поля скоростей динамического изображения // Вестник компьютерных и информационных технологий. 2014. № 1(115). С. 3-9. DOI: 10.14489/vkit.2014.01.pp.003-009

[5] Кузнецов П. К., Мартемьянов Б. В., Семавин В. И., Чеко-тило Е. Ю. Метод определения вектора скорости движения подстилающей поверхности // Вестник Самарского государственного технического университета. Серия: Технические науки. 2008. № 2(22). С. 96-110. URL: https://elibrary.ru/item.asp?id=13089112 (дата обращения: 06.06.2019).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[6] Bruhn A., Weickert J, Schnorr C. Lucas/Kanade Meets Horn/Schunck: Combining Local and Global Optic Flow Methods // International Journal of Computer Vision. 2005. Vol. 61, Issue 3. Pp. 211-231. DOI: 10.1023/B:VI SI.0000045324.43199.43

[7] Brox T., Bruhn A., Papenberg N., Weickert J. High Accuracy Optical Flow Estimation Based on a Theory for Warping // Computer Vision - ECCV 2004. ECCV 2004. Lecture Notes in Computer Science / T. Pajdla, J. Matas (eds). Vol. 3024. Springer, Berlin, Heidelberg, 2004. Pp. 25-36. DOI: 10.1007/978-3-540-24673-2_3

[8] Valgaerts L., Bruhn A., Weickert J. A Variational Model for the Joint Recovery of the Fundamental Matrix and the Optical Flow // Pattern Recognition. DAGM 2008. Lecture Notes in Computer Science / Rigoll G. (eds). Vol. 5096. Springer, Berlin, Heidelberg, 2008. Pp. 314-324. DOI: 10.1007/978-3-540-69321-5_32

[9] Valgaerts L., Bruhn A., Mainberger M., Weickert J. Dense versus Sparse Approaches for Estimating the Fundamental Matrix // International Journal of Computer Vision. 2012. Vol. 96, Issue 2. Pp. 212-234. DOI: 10.1007/s11263-011-0466-7

[10] Bruhn A., Weickert J. Towards ultimate motion estimation: combining highest accuracy with real-time performance // Tenth IEEE International Conference on Computer Vision (ICCV'05). Vol. 1, Beijing, 2005. Pp. 749-755. DOI: 10.1109/ ICCV.2005.240

[11] Roxas M., Oishi T. Real-Time Simultaneous 3D Reconstruction and Optical Flow Estimation // 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, NV, 2018. Pp. 885-893. DOIi: 10.1109/WACV.2018.00102

[12] Беляков П. В., Никифоров М. Б. Вариационный метод вычисления оптического потока в системе-на-кристалле // Цифровая обработка сигналов. 2018. № 3. С. 76-82. URL: https://elibraryru/item.asp?id=36276676_(дата обращения: 06.06.2019).

[13] Беляков П. В., Ларкин Е. В., Никифоров М. Б. Модификация вариационного метода вычисления оптического

Современные информационные технологии и ИТ-образование

Том 15, № 2. 2019 ISSN 2411-1473 sitito.cs.msu.ru

потока для реализации на ПЛИС // Известия Тульского государственного университета. Технические науки. 2018. №. 9. С. 19-28. URL: https://elibrary.ru/item. asp?id=36394730_(дата обращения: 06.06.2019).

Поступила 06.06.2019; принята к публикации 03.07.2019; опубликована онлайн 25.07.2019.

|об авторе:|

Беляков Павел Викторович, инженер, кафедра электронных вычислительных машин, Рязанский государственный радиотехнический университет имени В.Ф. Уткина (390005, Россия, г. Рязань, ул. Гагарина, д. 59/1), ORCID: http://orcid.org/0000-0002-0757-1418, [email protected]

Автор прочитал и одобрил окончательный вариант рукописи.

References

[1] Gurov V.S. et al. [The image processing in aircraft vision systems]. Kostyashkin L.N., Nikiforov M.B. (eds). Fizmatlit, Moscow, 2016. (In Russ.)

[2] Schneevoigt T., Schroers C., Weickert J. A Dense Pipeline for 3D Reconstruction from Image Sequences. In: Jiang X., Hornegger J., Koch R. (eds). Pattern Recognition. GCPR 2014. Lecture Notes in Computer Science. Springer, Cham. 2014; 8753:629-640. (In Eng.) DOI: 10.1007/978-3-319-11752-2_52

[3] Hartley R., Zisserman A. Multiple View Geometry in Computer Vision. 2nd Edition. Cambridge University Press, Cambridge, UK, 2004. (In Eng.)

[4] Kuznetsov P.K., Martemyanov B.V., Semavin V.I. Machine Vision of Mobile Platforms. Method of the Optical Flow Analysis of Dynamic Images. Vestnik komp'iuternykh i informat-sionnykh tekhnologii (Herald of computer and information technologies). 2014; 1(115):3-9. (In Russ., abstract in Eng.) DOI: 10.14489/vkit.2014.01.pp.003-009

[5] Kuznesov P.K., Martemyanov B.V., Semavin V.I., Chekotilo E.Yu. Method for Computing Velocity of Moving Objects by Image Analysis. Vestnik of Samara State Technical University (Technical Sciences Series). 2008; 2(22):96-110. Available at: https://elibrary.ru/item.asp?id=13089112 (accessed 06.06.2019). (In Russ., abstract in Eng.)

[6] Bruhn A., Weickert J, Schnorr C. Lucas/Kanade Meets Horn/ Schunck: Combining Local and Global Optic Flow Methods. International Journal of Computer Vision. 2005; 61(3):211-231. (In Eng.) DOI: 10.1023/B:VISI.0000045324.43199.43

[7] Brox T., Bruhn A., Papenberg N., Weickert J. High Accuracy Optical Flow Estimation Based on a Theory for Warping. In: Pajdla T., Matas J. (eds). Computer Vision - ECCV2004. ECCV 2004. Lecture Notes in Computer Science. Springer, Berlin, Heidelberg. 2004; 3024:25-36. (In Eng.) DOI: 10.1007/978-3-540-24673-2_3

[8] Valgaerts L., Bruhn A., Weickert J. A Variational Model for the Joint Recovery of the Fundamental Matrix and the Optical Flow. In: Rigoll G. (eds). Pattern Recognition. DAGM2008. Lecture Notes in Computer Science. Springer, Berlin, Heidelberg. 2008; 5096:314-324. (In Eng.) DOI: 10.1007/978-3-540-69321-5_32

[9] Valgaerts L., Bruhn A., Mainberger M., Weickert J. Dense versus Sparse Approaches for Estimating the Fundamental Matrix. International Journal of Computer Vision. 2012; 96(2):212-234. (In Eng.) DOI: 10.1007/s11263-011-0466-7

[10] Bruhn A., Weickert J. Towards ultimate motion estimation: combining highest accuracy with real-time performance. Tenth IEEE International Conference on Computer Vision (ICCV'05). Vol. 1, Beijing. 2005; 749-755. (In Eng.) DOI: 10.1109/ICCV.2005.240

[11] Roxas M., Oishi T. Real-Time Simultaneous 3D Reconstruction and Optical Flow Estimation. 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, NV. 2018; 885-893. (In Eng.) DOI: 10.1109/WACV.2018.00102

[12] Belyakov P.V., Nikiforov M.B. System-on-Chip variational optical flow computation. Digital Signal Processing. 2018; 3:76-82. Available at: https://elibrary.ru/item.as-p?id=36276676 (accessed 06.06.2019). (In Russ., abstract in Eng.)

[13] Belyakov P.V., Larkin E.V., Nikiforov M.B. Variotional Optical Flow Method Modification FORFPGA Implementation. News of the Tula state university. Technical sciences. 2018; 9:1928. Available at: https://elibrary.ru/item.asp?id=36394730 (accessed 06.06.2019). (In Russ., abstract in Eng.)

Submitted 06.06.2019; revised 03.07.2019; published online 25.07.2019.

About the author:

Pavel V. Belyakov, engineer, Department of Electronic Computers, Ryazan State Radio Engineering University (59/1 Gagarina St., Ryazan 390005, Russia), ORCID: http://orcid.org/0000-0002-0757-1418, [email protected]

The author has read and approved the final manuscript.

Modern Information Technologies and IT-Education

Алгоритм построения пространственной структуры сцены Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беляков Павел Викторович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Беляков Павел Викторович

The Scene Structure Construction Algorithm

Текст научной работы на тему «Алгоритм построения пространственной структуры сцены»