Научная статья на тему 'Оценка движения в видеопоследовательности на основе тензорного подхода'

Оценка движения в видеопоследовательности на основе тензорного подхода Текст научной статьи по специальности «Физика»

CC BY
208
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ОЦЕНКА ДВИЖЕНИЯ / ОРИЕНТИРОВАННЫЕ ТЕНЗОРЫ / MOTION ESTIMATION / POINTED TENSORS

Аннотация научной статьи по физике, автор научной работы — Колосов Дмитрий Юрьевич

Рассмотрен подход к оценке движения с использованием ориентированного тензора. Представлен алгоритм построения оптического потока. Разработано программное обеспечение, с помощью которого проведены экспериментальные исследования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MOTION ESTIMATION BASED ON A TENSOR APPROACH

The author considers the approach to motion estimation using a pointed tensor and present an algorithm for construction of optical flow. The software for the experimental studies is developed.

Текст научной работы на тему «Оценка движения в видеопоследовательности на основе тензорного подхода»

В [1] рассмотрены кубатурные формулы

і і і

{{••• j f (x1, x2, •••, xn ) dx1 dx2 ••• dxn ~

(17)

N і~і

с 2d узлами (x{!),

ДО

.(i) x(i)

1 > x2 >

.x”°)

х”-1) е [0,1]”, образующими Пт-сетки (0 < т < ё ), и доказано, что они точны на полиномах Хаара степеней 5 < ё - т. В данной статье доказано асимптотическое равенство [1] для нормы функционала погрешности таких формул на пространствах На

IIMh: = оN'

lnиЧ N), N

Очевидно, что норма функционала погрешности ||§ N ||Н* формул, изученных автором данной статьи,

при N ~ 2ё, ё ^ да тоже ограничена по сравнению с 1п N, N ^ да.

В частности, условию N ~ 2ё, ё ^ да удовлетворяют кубатурные формулы, построенные в [3]. Данные формулы являются в некотором смысле обобщением формул, исследованных в [1] для случая п = 2. В то же время они, будучи минимальными формулами приближенного интегрирования, обеспечивают наилучшую поточечную сходимость 5дт[/] к нулю при N ^ да.

Библиографические ссылки

1. Соболь И. М. Многомерные квадратурные формулы и функции Хаара : монография. М. : Наука, 1969.

2. Кириллов К. А., Носков М. В. Минимальные квадратурные формулы, точные для полиномов Хаара // Журн. вычисл. математики и мат. физики. Т. 42. № 6. С. 791-799.

3. Кириллов К. А. Построение минимальных куба-турных формул, точных для полиномов Хаара высших степеней в двумерном случае // Вычисл. технологии : спец. выпуск, посвящ. 50-летию Краснояр. гос. техн. ун-та. Т. 10. Красноярск, 2005. С. 29-47.

4. Noskov M. V., Kirillov K. A. Minimal Cubature Formulas Exact for Haar Polynomials // J. of Approximation Theory. 2010. Vol. 162, Iss. 3. P. 615-627.

5. Кириллов К. А. Алгоритм построения минимальных кубатурных формул, обладающих d-свойством Хаара в двумерном случае // Журн. Сиб. федер. ун-та. Серия «Математика и физика». 2010. Т. 3. № 2.

С. 205-215.

6. Кириллов К. А., Носков М. В. Оценки погрешности на пространствах Sp кубатурных формул, точных для полиномов Хаара в двумерном случае // Журн. вычисл. математики и мат. физики. 2009. Т. 49. № 1. С. 3-13.

7. Haar A. Zur Theorie der orthogonalen Funktionen-systeme // Math. Annalen. 1910. Vol. 69. S. 331-371.

K. A. Kirillov

ON ERROR ESTIMATES FOR CUBATURE FORMULAS EXACT FOR HAAR POLYNOMIALS

On the spaces Ha the estimates are found for the norm of the error functional dN[f ] of cubature formulas possessing the Haar d-property in the two-dimensional case.

Keywords: Haar d-property, error estimate for cubature formula.

© Кириллов К. А., 2012

УДК 004.932

Д. Ю. Колосов

ОЦЕНКА ДВИЖЕНИЯ В ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ НА ОСНОВЕ ТЕНЗОРНОГО ПОДХОДА

Рассмотрен подход к оценке движения с использованием ориентированного тензора. Представлен алгоритм построения оптического потока. Разработано программное обеспечение, с помощью которого проведены экспериментальные исследования.

Ключевые слова: оценка движения, ориентированные тензоры.

Информация о движении в видеопоследовательности может быть использована в разных областях: сжатия видео, в системах видеонаблюдения, при реализации интерфейса между человеком

и компьютером, в системах анализа дорожного трафика и т. д. В данной статье будет рассматриваться метод оценки движения, основанный на тензорном подходе.

0 0 0

Анализ последовательных кадров приводит к пространственно-временному набору изображений с двумя пространственными и одним временным измерением. При движении в видеопоследовательности структуры с определенной ориентацией в наборе кадров происходит ее трансформация. Например, точка в линию, направление которой напрямую связано с ее смещением. Мощным инструментом представления локальной ориентации является ориентированный тензор.

Тензорный подход относится к методам, основанным на уравнении оптического потока - стандартном уравнении в частных производных, используемом в физике для описания процессов переноса различных сред:

(1)

2

є(у) = | м>(х - X) [VgTv] йх'.

(3)

где др - производная по времени; УР - пространственный градиент функции. В уравнении (1) под переносимой средой понимается яркость изображения р, а член £ в правой части моделирует источник, определяющий изменения яркости, не сводимые лишь к пространственному движению.

Задача состоит в определении поля векторов движения (1) на основе знания о сигнале яркости в двух соседних кадрах. Например, за вектор движения можно принять вектор, минимизирующий правую часть уравнения (1) по всей площади макроблока. Если представить вычисления в матричном виде, то для вычисления векторов движения можно использовать тензорную алгебру.

При тензорном подходе последовательность кадров представляется в виде единой трехмерной структуре [1-3]. Смещение значения интенсивности этой структуры внутри последовательности изображений дает структуру, которая направлена вдоль временной оси пространственно-временного объемного изображения.

Запишем уравнение оптического потока в векторной форме [4]:

У£Г v = 0, (2)

где У % - пространственно-временной градиент функции интенсивности; v = (Д хь Д х2, Д/)т - смещение интенсивности во времени, от кадра к кадру. Из выражения (2) следует, что градиент ортогонален вектору смещения v.

Введем функцию стоимости, определенную для окрестности м>(х - х') с центром в точке x, для которой ищется вектор смещения и в которой он постоянен:

и получим

е^) ^[У%тv]^ = (vтУ%У%тv). (5)

Из предположения, что скорость v постоянна в окрестности м(х - х'), следует, что значение v можно вынести из-под знака интеграла:

е = vт (У8У8т^ v = vт Jv, (6)

где J - произведение пространственно-временного градиента самого на себя, представляющее симметричный трехмерный структурный тензор:

( 8х8х) {8х8у) {8x8,)

{8x8у) (8у8у) (8у8,) . (7)

_(8x8^ (\8у8,) {8181) _

Элементы J определяются как

ад

•1РЧ ={8р8д) = I м(х-х')8р8дёх’, (8)

—ад

где 8Р, Р 6 {х, у, ,}, определяет частную производную по координате р.

Исходя из ограничения ||у|| = 1, воспользуемся методом Лагранжа и минимизируем составленную функцию Ь^Д):

Ь^, X) = vт Jv + Х(1 — vт v). (9)

Параметр Лагранжа X выбирается таким образом, чтобы все производные Ь(у, X) по всем трем координатам V были равны нулю:

дЬ(у, X)

ду,

■ = 2£- 2Ху, = 0, і є {1,2,3}. (10)

Представим уравнение в виде линейной системы уравнений

.IV = Ху. (11)

Таким образом, задача минимизации сводится к задаче поиска собственных значений симметричной матрицы I. После минимизации формула (6) принимает вид

Т Т (12)

є = уТ IV = уТ Ху = X,

Для решения задачи поиска оптического потока необходимо найти такой вектор V, который минимизирует функцию стоимости е^), и наложить ограничение ||у|| = 1 для исключения нулевых значений вектора V.

Сделаем следующую замену:

(а) = | ^(х - х' )айх'.

(4)

который показывает, что минимум е определяется собственным вектором матрицы тензора J, соответствующим минимальному собственному значению X.

Вначале необходимо построить тензор по формуле (7), элементы которого вычисляются по формуле (8). Для практического применения интеграл заменяют на взвешенную или простую сумму, например для окрестности (2мх + 1)х(2му + 1) точки х = (х, у, ,)т:

г=х+ м>х 3=у+Му

•/Р9 = X X а,г]8р8ч. (13)

г = х—-л>х 3 = у — Му

Здесь 8Р, Р 6 {х, у, ,}, задает частную производную по координате Р, Юу - вес соответствующей точки. Пространственные производные по х и у для точки х определяются соответствующими операторами Собела,

к

Шарра или другими. Временная производная является разностью между текущим и следующим значениями интенсивности в точке х:

= Л (X У) - Л-1( X У).

(14)

v =

(16)

структуры перемещается на расстояние между каждым кадром, равное в 3Б

v =

Структурный тензор содержит внутреннюю информацию о распределении яркости в пределах локальной пространственно-временной окрестности. В трехмерной пространственно-временной структуре путем анализа ранга структурного тензора, который получается из числа ненулевых собственных значений, могут быть выделены и определены четыре различных класса [5].

Первый класс - это класс постоянной яркости. В этом случае ранг (J) = 0 и все собственные значения вектора смещения, т. е. все частные производные вдоль главных осей, равны нулю:

X] = ^2 = X3 = 0.

Таким образом, распределение яркости остается постоянным в U, и нет движения, которое мы можем оценить. Этот класс можно отличить по сумме всех собственных значений, которая равна следу J0:

3

trace(J') = trace(J) = £ Jpp,

i

где trace (J) - след структурного тензора, который можно обнаружить, сравнивая его с порогом:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

trace(J) < t, (15)

перед нахождением собственных значений. Для этих точек поиск собственных значений может быть полностью пропущен, а порог t выбирается исходя из уровня шума видеопоследовательности.

Второй класс возникает, если ранг (J) = 1 и структуры изображения имеют пространственную ориентацию и движутся с постоянной скоростью.

Если пространственно-временная структура проста, т. е. направлена вдоль одной линии и только одно из собственных значений больше нуля:

X > 0, X2 = X3 = 0,

то возникает проблема апертуры, которая заключается в следующем. Если движущаяся линейная структура наблюдается через небольшое отверстие, то единственное смещение, которое может быть определено, является компонентой, перпендикулярной к структуре (рис. 1). Окрестности, помеченные как P, содержат изображения простых локальных структур и для них можно оценить только нормаль смещения. Окрестности же, обозначенные как L, не являются простыми и для них можно определить истинное смещение.

Теперь вычислим нормаль движения к линейной структуре. Для этого рассмотрим локальную линейную структуру, движущуюся с компонентой смещения

V1 У

(17)

Рис. 1. Проблема апертуры при оценке движения

Вектор V называют пространственно-временным вектором смещения. Этот вектор находится в постоянной трехмерной плоскости, которая появилась при движении линейной структуры, т. е. V является собственным вектором ориентированного тензора и его собственное значение равно 0. Поскольку сигнал в этом случае является локально простым, то соответствующий ориентированный тензор имеет ранг 1.

Если XI является наибольшим собственным значением соответствующего нормализованного собственного вектора

ei =

то можно считать, что в] и V перпендикулярны:

VlXl + V2X2 + хэ = 0. (18)

В связи с проблемой апертуры это будет единственным вариантом представления вектора смещения V.

С другой стороны, если в1 спроецировать на пространственные измерения, то тогда результирующий вектор п будет иметь вид

х х

и являться вектором-нормалью к двумерной линейной структуре сигнала. Следовательно, вектор

m

1

- x0

по двумерному изображению. Если смещение происходит в единицу времени на каждый кадр в последовательности, то это означает, что любая точка линейной

перпендикулярный к вектору п, указывает направление вдоль двумерной линейной структуры. Если вектор V представлен нормалью к смещению, то это означает, что векторы т и V перпендикулярны:

T

v m = V1X2 - V2X1.

(19)

n

Комбинируя формулы (18) и (19), получим

V =

2 2 х2 + х2

(20)

1

V =-

х3 I х

(21)

Это смещение оценивает истинное смещение точки.

Четвертый класс возникает при ранге (I) = 3, когда тензор не представляет очевидного линейного движения, структура яркости показывает изменения во всех направлениях и все собственные значения вектора смещения больше нуля:

X, X2, Xэ > 0,

т. е. в этом случае вектор движения определить нельзя.

Для отнесения тензора к определенному классу при X1 > X2 > Xэ > 0 можно использовать следующие метрики [6]:

- 1гасе(1) < , - для первого класса;

Отметим, что для нахождения оценки смещения здесь нужно не истинное смещение линейной структуры, а нормаль к компоненте истинной скорости.

Третий класс определяется для ранга (I) = 2. В этом случае структура пространственного распределения яркости движется с постоянной скоростью и проблемы апертуры не возникает. Пространственновременная окрестность состоит из вытянутой структуры, в которой только один собственный вектор имеет нулевое собственное значение:

X!, X2 > 0, Xз = 0.

Как и в случае движения линейной структуры, вектор смещения V может быть выведен вместе с соответствующим пространственно-временным вектором смещения V' по формулам (16) и (17). В этом случае есть два перпендикулярных собственных вектора е1 и е2, оба с ненулевыми собственными значениями. Очевидно, что V перпендикулярен е1 и е2:

( х Л

V да е3 =

Следовательно, вектор смещения V определяется как

Х1 Х 2

X!

- для второго класса;

X 2 — Х3

для третьего класса;

— с3 =-----для четвертого класса.

Отметим, что 0 < ск < 1 и с1 + с2 + с3 = 1.

Эти метрики могут быть использованы для классификации трехмерного ориентированного тензора. В большинстве практических реализаций, однако, нулевой класс необходим для тех случаев, когда разница между самым большим и вторым по величине значением является слишком малой.

Общий подход к оценке локального смещения на двумерном изображении можно сформулировать следующим образом:

а) последовательность изображений рассматривается как трехмерный сигнал и для каждой локальной пространственно-временной окрестности оцениваются структуры, соответствующие трехмерному ориентированному тензору;

б) тензор относится к одному из четырех классов;

— если тензор отнесен ко второму классу, то вычисляется соответствующая нормаль движения;

— если тензор отнесен к третьему классу, то вычисляется соответствующий вектор движения;

— если тензор отнесен к первому или четвертому классу, то вектор смещения принимается равным нулю.

Для реализации данного алгоритма было создано программное обеспечение (ПО), в котором алгоритмы оценки были реализованы на языке программирования С++, а интерфейс - на языке программирования С#. Это ПО позволяет загружать видеофайлы или последовательности изображений и выделять движущиеся объекты и строить для них оптический поток.

Оптический поток, построенный на нескольких кадрах, был визуализирован в виде векторов (рис. 2).

Рис. 2. Оптический поток объекта на кадрах с 2 по 30 с шагом 2

- с =

X

200

150

ф <D

“ І00

2 S > u50

-Тензорный подход

■Метод Лукаса-Канаде

50

100

250

150 Кадрів00

Рис. З. Сравнительная оценка ориентации вектора смещения

300

350

Для проведения исследований использовалась база видеопоследовательностей Object Tracking and Classification in and Beyond the Visible Spectrum [7].

В ходе экспериментов было выявлено, что тензорный подход по скорости работы сопоставим с методом Лукаса-Канаде, но при этом обладает большей чувствительностью в оценке и лучше определяет ориентацию вектора смещения (рис. 3). С помощью тензорного подхода легче фильтровать ложные срабатывания, что делает его более устойчивым к шуму.

Таким образом, в данной статье рассмотрен тензорный подход к оценке движения и сформулирован общий алгоритм, который позволяет построить оптический поток для выбранных точек кадра. Разработано программное обеспечение, реализующее данный подход и проведено его сравнение с методом Лукаса-Канаде. Сравнение показало, что по скорости работы рассматриваемый подход сравним с методом Лукаса-Канаде, но обладает большей чувствительностью к оценке ориентации вектора смещения, что характеризует его как более точный.

Библиографические ссылки

1. Collins T. Analyzing Video Sequences Using the Spatio-Temporal Volume // MSc Informatics Research Rev. 2004. P. 1-28.

2. Farneback G. Motion-Based Segmentation of Image

Sequences Using Orientation Tensors [Electronic resource] // Proc. of the SSAB Symp. on Image Analysis. 1997. URL: http://liu.diva-portal.org/smash/get/

diva2:273874/FULLTEXT01 (date of visit: 30.05.2012).

3. Jiang H. Robust Tensor-Based Velocity Estimation of Plant Root Growth : MS Thesis / Univ. of Missouri. Columbia, 2001.

4. Jahne B., Haussecker H. Handbook of Computer Vision and Applications [Electronic resource]. 1999. URL: http://www.filesonic.com/file/165368752/handbook_ of_computer_vision_and_applications_volume_3_system s_and_applications_-_bernd_jahne.pdf (date of visit: 30.05.2012).

5. Knutsson H. Edupack LiU.CVL.Orientation [Electronic resource] // Linkopings Univ. Tekniska Hogskolan. 2009. URL: http://www.cvl.isy.liu.se/_educa-tion/ tutorials/edupack-orientation/orientation.pdf (date of visit: 30.05.2012).

6. Kondo T., Kongprawechnon W. Robust Motion Estimation Methods Using Gradient Orientation Information // Science Asia : J. of the Science Soc. of Thailand. 2009. Vol. 35, №. 2. P. 189-195.

7. Object Tracking and Classification in and Beyond the Visible Spectrum (0TCBVS'07) [Electronic resource]. 2007. URL: www.cse.ohio-state.edu/otcbvs-bench (date of visit: 30.05.2012).

D. Yu. Kolosov

MOTION ESTIMATION BASED ON A TENSOR APPROACH

The author considers the approach to motion estimation using a pointed tensor and present an algorithm for construction of optical flow. The software for the experimental studies is developed.

Keywords: motion estimation, pointed tensors.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

© Колосов Д. Ю., 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.