Нахождение движущихся видеообъектов с применением локальных 3d-структурных тензоров

Фаворская Маргарита Николаевна

УДК621.391

М. Н. Фаворская

НАХОЖДЕНИЕ движущихся видеообъектов С ПРИМЕНЕНИЕМ ЛОКАЛЬНЫХ 3Б-СТРУКТУРНЫХ ТЕНЗОРОВ

Приведен анализ методов нахождения видеообъектов на основе пространственно-временного подхода. Введено понятие ЗБ-структурного тензора для эффективного определения локальной ориентации пространственно-временного движения. Построены подробные схемы этапов предсегментации сцены, пространственно-временной сегментации, постсегментации с дальнейшим распознаванием видеообъектов с применением локальных ЗБ-структурных тензоров.

Ключевые слова: пространственно-временная сегментация, ЗБ-структурный тензор, оценка движения.

Задача нахождения объектов из видеопоследовательностей с целью их дальнейшего распознавания и предсказания поведения востребована во многих приложений цифрового видео, таких как мультимедиа, виртуальная реальность, компьютерное зрение, искусственный интеллект. Существуют различные методы нахождения видеообъектов, которые объединяют сегментацию изображения (пространственные методы) и сегментацию на основе признаков движения (временные методы) с целью повышения точности нахождения этих объектов. Обычно подходы к сегментации видеообъектов классифицируются по трем категориям: методы, основанные на поиске регионов, методы, основанные на определении границ, и вероятностные методы [1-3].

Методы, основанные на поиске регионов, используют информацию о кластеризации или операциях расщепления и выращивания регионов в пространстве признаков. Такая информация обычно формируется из векторов движения и некоторых пространственных признаков: цветности, текстуры, взаимного расположения. Недостатками такого подхода являются проблемы появления, перекрытия и исчезновения регионов из кадра, а также низкая точность определения границ регионов.

Методы определения границ обычно используют угловые детекторы или активные контуры в сочетании с информацией о полях движения видеообъектов. Такие методы основаны на принципах когнитивной психологии, однако они имеют низкую помехоустойчивость, а активные контуры - еще и сильную зависимость от выбора начальных параметров.

Вероятностные методы для нахождения движущихся объектов используют байесовский подход, алгоритм максимизации-ожидания, минимизации расстояний в различных метрических пространствах.

Указанные подходы обладают высокой вычислительной сложностью, причем некоторые методы требуют предварительного задания количества объектов-регионов в качестве входного параметра, что ограничивает их использование на практике.

Примем, что рассматривается сложная сцена с движением нескольких объектов. Объекты могут двигаться с различной скоростью, ускорением, в разных направлениях и иметь различные локальные размеры. Изображение объекта О. может включать набор регионов (Я }, обладающих разделимыми цветовыми Со1огРагат8(Л) и текстурными Тех1игеРагат8(Л) показателями. Интерпрета-

ция регионов как единого объекта производится на основе анализа показателей движения МоИопРагатБС^) и повторяемости поведения регионов (в простейшем случае это отслеживание траектории перемещений регионов). Поскольку методы определения цветовых и текстурных показателей достаточно хорошо изучены, остановимся на нахождении показателей движения.

Известны два основных метода оценки движения, используемых для временной сегментации: метод оптического потока и метод соответствия блоков. В обоих подходах информация о движении формируется путем обнаружения изменения интенсивности пикселей между последовательными кадрами. При этом метод оптического потока обеспечивает более точное нахождение границ регионов, так как он использует информацию на уровне пикселей и лучше выделяет регионы со сложной текстурой, имеющие большие значения градиентов.

Видеопоследовательность 7(х), представленную в виде набора кадров, где х = [х, у, t]Т, здесь х и у - пространственные координаты пикселей кадра по осям ОХ и ОУ соответственно, t - временная координата, учитывающая последовательность появления кадров, можно интерпретировать как трехмерный объем данных. Известно, что 3Б-структурный тензор I позволяет эффективно определять локальную ориентацию пространственно-временного движения видеообъектов и определяется следующим образом:

і „ч

1(х) = Ч21 422 423

1 31 „ч

" 42 V, и

= V* П V,

_ V, V, 12

= У1 (х).уI (х )Т, где С - пространственно-временной градиент, вычисляемый по частным производным

, (д1 д1 д1 ^

VI(х) = I , , I.

1 ’ ^дх дУ дt 0 Собственные векторы ек (к = 1, 2, 3) симметричной ковариационной матрицы I размером 3x3 можно определить по локальным смещениям интенсивностей изображений соседних кадров и использовать для оценки ло-

кальных ориентаций движущихся сегментов. При этом, в силу особенностей видеонаблюдения, собственные значения 1 векторов вк указывают на локальные отклонения яркости по трем направлениям и могут быть отсортированы в следующем порядке: 11 > 1 > 1 > 0. Выражение VI(x) • VI(x)T можно рассматривать как корреляционную матрицу, составленную из векторов градиентов в пространственно-временном объеме. В соответствии с методом главных компонент собственные векторы корреляционной матрицы сортируются в порядке убывания. Первый собственный вектор, соответствующий наибольшему собственному значению, указывает направление наибольшего изменения данных. Отношение каждого собственного значения к сумме трех собственных значений характеризует концентрацию энергии по соответствующему направлению. Таким образом, собственные значения собственных векторов локального 3Б-структурно-го тензора можно использовать для обнаружения локальных изменений в последовательности кадров. Наименьшее собственное значение можно использовать для определения различий в кадрах, оно является более устойчивым к шуму и низко контрастным объектам фона по сравнению с простейшим методом яркостной разницы кадров.

На основе собственных значений 11(х, у, ^, 12(х, у, (), 13(х, у, 0 можно построить карты 11(1), 12(1), 13(1) локального 3Б-структурного тензора. При этом карта собственных значений 11(1) фиксирует как движущиеся объекты, так и некоторые изолированные текстурные регионы фона, карта 12(1) является менее информативной для сегментации, а карта 13(1) генерирует небольшие разрывы внутри масок видеообъектов. Поэтому при обнаружении движения основное внимание следует уделять первому собственному вектору корреляционной матрицы 11(1).

Рассмотрим процесс нахождения объектов из видеопоследовательностей, который представляет собой слож-

ную совокупность действий, особенно если сцена имеет несколько разнонаправленных движущихся объектов, а начальные условия наблюдения отсутствуют. Целесообразно принять, что имеются три этапа получения, обработки пространственно-временной информации и принятия решения:

- первый этап - предварительный анализ сцены (пред-сегментация);

- второй этап - пространственно-временная сегментация сцены;

- третий этап - постсегментация (с учетом многоуровневого движения) и распознавание объектов интереса сцены.

Этап предсегментации предназначен для грубой оценки пространственно-временных характеристик сцены (рис. 1). Предлагается использовать не исходное изображение опорного кадра Гг0, а преобразованный с помощью гауссовой пирамиды слой с малым разрешением, что позволяет снизить количество обрабатываемых пикселей в 2К раз, где К - номер слоя пирамиды Гаусса, без значительной потери качества. Г ауссова пирамида строится как для опорного кадра Гг0, так и для последовательности кадров Гг , Гг2,ГК Полученные таким образом изображения низкого разрешения обрабатываются для получения информации о предварительной пространственной сегментации сцены (вычисление признаков цветности, интенсивности, текстурных характеристик регионов и формирование гомогенных регионов) и предварительной временной сегментации (использование локальных 3Б-структурных тензоров и вычисление коэффициентов корреляции между соседними кадрами).

Для грубого нахождения движущихся регионов целесообразно вычислять коэффициент Я корреляции между кадрами, используя наименьшие собственные значения 13(1) и 13(1 + 1) кадров Гг< и Г^+ 1 соответственно:

Предварительная пространственная Предварительная временная

сегментация сцены сегментация сцены

Рис. 1. Этап предварительного анализа сцены (предсегментация)

Е(^ • и )-| ЕV-Е и

к = -

можно вычислить, используя стандартную формулу среднеквадратического отклонения:

ґ

Е V,2-|Е V,

і =1

2

Еиі -1Е и

2

£ =

1

п г.

Е( к, -к )2

где V. е 13(^) и и. е 13(^ + 1); N - общее количество пикселей в кадре.

Разброс коэффициентов корреляции кадров сцены позволяет оценить степень изменчивости формы движущихся объектов. Так, для мало изменяемых по форме объектов он будет значительно меньше, чем для объектов, характеризующихся значительными изменениями их положений в пространстве. Величину такого разброса

Опорный Предварительная Предварительная

кадр сцены пространственная временная

Гг о сегментация сегментация

где п - количество кадров в сцене; К - среднее значение величин К.. Если значение величины £ превышает установленное пороговое значение, то считается, что видеообъект претерпевает значительные геометрические изменения. В этом случае процедура сегментации усложняется.

На этапе пространственно-временной сегментации сцены (рис. 2) анализируется полное изображение с уче-

Последовательность кадров

Fn.Fr 2....Fr /

Пространственная сегментация на основе графов, маркировка значимых регионов

Оценка параметров регионов исходя из аффинной модели движения и 30-структурного тензора

Вычисление нормализованной меры движения регионов от их ближайших соседей

Объединение регионов по пороговым значениям и признакам движения

Пространственная

сегментация

Вычисление локальных 30 структурных тензоров регионов

Нахождение собственных значений локальных 30 структурных тензоров регионов

г

Точное нахождение движущихся регионов на основе коэффициентов корреляции Вычисление корреляции собственных значений локальных тензоров по последовательности кадров

Движение Нет

обнаружено?

1 Да і Г

Наложение маски Наложение маски

движения на основе движения на основе

наибольшего измерения связности

собственного значения регионов

Объединение регионов по маске движения и пространственным признакам

Временная

сегментация

Пространственная сегментация Временная сегментация регионов сцены регионов сцены

Рис. 2. Этап пространственно-временной сегментации сцены

том информации о регионах, полученной на этапе пред-сегментации. Можно предложить несколько стратегий сегментации в зависимости от дальнейших целей распознавания. Если обработка и распознавание должны происходить в реальном режиме времени и, например, поставлена цель слежения за движущимися объектами, то схему, приведенную на рис. 2, целесообразно применять не ко всем регионам, выявленным на этапе предсегмен-тации, а только к тем, у которых имеются признаки движения. Если поставлена цель распознавания сцены с неизвестным заранее сюжетом, то следует воспользоваться принципами человеческого визуального восприятия: анализом больших по размерам статистически однородных регионов и движущихся регионов с последующим анализом более мелких деталей изображения. Если же происходит поиск какого-либо неподвижного объекта в видеобиблиотеках, то основное значение приобретает пространственная сегментация. Остановимся более подробно на анализе движения регионов.

Для классификации полей движения недеформируе-мых по геометрическим параметрам и деформируемых регионов можно ввести меры сглаженности, вычисляемые с помощью трех собственных значений 1к(Т) регионов. Если все три собственных значения равны нулю (ранг матрицы га^(1) = 0), то перемещения по трем осям (х, у, () отсутствуют, т. е. регион неподвижен. Если 11(Т) > 0 и 1 (I) = 13(Т) = 0, то га^(1) = 1, что говорит о наличии изменений интенсивностей в нормальном направлении, т. е. о движении линии. Если 11(Т) > 0, 12(Т) > 0 и 13(Т) = 0, то га^(1) = 2 и наблюдается движение с постоянной скоростью в двух направлениях пространственно-временной структуры, т. е. движение точки. В этом случае оценить параметры движения возможно. Если же все три собственных значения больше нуля, то га^(1) = 3. Это означает, что локальная зона находится на границе двух полей движения и оценить параметры движения невозможно.

Однако показатель ранга матрицы I нельзя напрямую применить для оценки различных типов движения, поскольку он не является нормализованной мерой для оценки поступательного, вращательного или возвратно-поступательного движения. Следует использовать понятие «мера сглаженности», на основе которого и строятся маски обнаружения движения.

Собственные значения 3Б-структурных тензоров можно использовать для нахождения локальных движущихся структур, таких как границы, углы, статистически однородные регионы и т. д. В работе [4] предложены следующие выражения для определения меры сглаженности недеформируемого региона:

С = ((11(7) - ^(ТЩЮ + У!) ))2, границ деформируемого региона

с=ад - щщо)+ЦГ) ))2,

угловых точек деформируемого региона

С = С - с, =

= 4^1 (I) (X2 (I) - X3 (I)) ((*•! (I))2 - X2 (I)Х3 (I))

_ (Х^) + Х^))2 (Х^) + X2 (I))2 '

Как правило, в реальной сцене найденные объекты группируются по уровням движения. В общем случае

необходимо отнести объект к тому или иному уровню движения в зависимости от локальных размеров регионов объекта, значений модулей скорости и ускорения и гипотез, хранящихся в базе знаний.

Обычно в сцене имеется несколько движущихся объектов. Если для сегментации регионов достаточно ввести одно пороговое значение, то к классификации многоуровневого движения следует отнестись более тщательно, учитывая не только модули значений скорости и ускорений, но и направления движений, тем самым группируя регионы по уровням движений (рис. 3). Простейшим способом является метод попиксельного вычитания кадров D(N) с применением лапласиана и сравнением с заранее выбранными пороговыми значениями. При этом возможные ошибки не влияют на окончательную сегментацию, поскольку этот метод используется только для выбора масок движения.

Маски движения необходимы для устранения небольших перемещений объектов фона. Они определяются как процентное соотношение площадей движущихся регионов по методу вычитания кадров Mft с использованием собственных значений локальных ЗБ-струкгурных тензоров для недеформируемых Meigen и деформируемых M регионов соответственно:

corner А

R = JML_100%,

Mgen

Rc = 100%.

corner

Как показали эксперименты, после применения масок движения границы движущихся объектов остаются нечеткими, а внутри изображений видеообъектов имеются разрывы. Устранить эти недостатки можно с привлечением результатов пространственной сегментации. Каждый пространственный регион маркируется, и находится процентное отношение площадей движущихся регионов M и пространственных регионов M :

move А А А seg

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если значение Ят превышает заранее установленное пороговое значение (например, 50 %), то весь пространственный регион М считается движущимся регионом. Однако сложные видеообъекты, как правило, состоят из нескольких движущихся регионов. В условиях отсутствия априорной информации формирование видеообъекта можно осуществлять только с использованием характеристик движения соседних регионов.

Известны два подхода к объединению регионов: непараметрический и параметрический. Непараметрический подход, основанный на слиянии границ, нельзя использовать совместно с полями движения, так как для неоднородных полей движения трудно определить точные границы. Более целесообразен параметрический подход, основанный на объединении регионов по функции минимизации энергии или по моделям движения в плоских проекциях аффинной или проективной групп. Задача ставится таким образом, чтобы, используя характеристики локальных 3Б-структурных тензоров и параметров аффинной модели движения, можно было бы оценить расстояние между двумя соседними регионами.

Два региона объединяются, если вычисленное расстояние является достаточно малым, чтобы воспринимать объединенный регион как единый объект. Аффинная модель движения содержит шесть параметров:

^(х, у) = ах + Ьу + с,

vy(x, у) = йх + еу + /, где vx и vy - проекции скорости V на оси ОХ и ОУ соответственно; а, Ь, с, й, е, / - параметры аффинной модели.

Тогда проективная модель описывается восемью параметрами:

Vx(x, у) = а1 + а2х + а3у + а7х2 + а8ху, vy(x, у) = а4 + а5х + а у + а7ху + ау2.

Для дальнейших рассуждений будем пользоваться более простой аффинной моделью движения. Вектор скорости на плоскости расширим до 3Б-направленного вектора V с учетом временной составляющей [4]:

Пространственная сегментация регионов сцены

Временная сегментация регионов сцены

Последовательность кадров /-Гі, Гг..Яг,

і і Оценка признаков Вычисление

Оценка размеров и движения регионов по одометрических данных

формы регионов пороговым значениям регионов

Пространственные

признаки

£

Классификация регионов по уровням движения

Выдвижение гипотез о значимых уровнях движения в сцене

Признаки

движения

Разделение изображения на фон и объекты интереса

12

1 г

Нормализация изображения объектов интереса

Отслеживание изменений Отслеживание изменений

местоположения и параметров движения

размеров объектов объектов интереса

интереса

Постссгмснтация

і г

Учет предыстории движения объектов интереса

Распознавание объектов интереса и оценивание их поведенческих реакций

Распознавание

Принятие решений

Рис. 3. Этап постсегментации (с учетом многоуровневого движения) и распознавания объектов интереса сцены

vx a b c x

v = vy = d e f y

і _ 0 0 і і

x у і О О О 0 ООО x у і О О О О О О 0 і

= Sp.

Для объединения регионов используем функции расстояний трех видов:

й1 (■, *, ) = ут vi,

й1 (v,■, 1>)

d 2 (, Ji )=■

dз (vi, Ji ) =

d1 (, Ji )

Ы 1Г (1< )

Выразим расстояние й1(v., I) следующим образом: й^р I) = урн== р^р, где О = &Т1р. - положительно определенная матрица. Сумма расстояний внутри заданного пространственного сегмента, содержащего N пикселей, определяется как

(р )=£й1 (V,, I )=рт (х а

/=1 V ,=1

х р = рт р.

Поскольку величина 2, при расчете расстояния й1(у I) более критична к большим скоростям, чем к малым, то можно использовать нормированное расстояние й3(у I).

После проведения процесса постсегментации в течение нескольких последовательных кадров видеопоследовательности можно приступать к нормализации изображения объекта (приведению к эталонному виду) и формированию гипотез о поведении объекта с целью его

распознавания с использованием стандартных методов кластеризации.

Таким образом, в данной статье кратко рассмотрены существующие подходы к сегментации видеообъектов, которые классифицируются по трем категориям: методы, основанные на поиске регионов, методы, основанные на определении границ, и вероятностные методы. Показано, что при сегментации сложной сцены с многоуровневыми полями движения регионов целесообразен пространственно-временной подход с применением локальных 3D-струк-турных тензоров. Введено понятие меры сглаженности для деформируемых регионов, для границ и угловых точек недеформируемых регионов на основе собственных значений 3D-тензора. Построены подробные структурные схемы этапов предсегментации, пространственно-временной сегментации и постсегментации сложных сцен, характеризующихся аффинной моделью движения. Введены три функции расстояний на базе локальных структурных тензоров с целью объединения регионов в видеообъект и разделения видеообъектов сцены по уровням движения.

Библиографический список

1. Bresson, X. A Variational Model for Object Segmentation Using Boundary Information and Shape Prior Driven by the Mumford-Shah Functional / Х. Bresson, P. Vandergheynst, J.-P. Thiran // Intern. J. of Computer Vision. 200б. Vol. б8, №> 2. Р. 145-1б2.

2. Cavallaro, A. Shadow-aware object-based video processing / А. Cavallaro, Е. Salvador, T. Ebrahimi // IEEE Vision, Image and Signal Proc. 2005. Vol. 152, Iss. 4. Р. 14-22.

3. Thirde, D. Spatio-Temporal Semantic Object Segmentation using Probabilistic Sub-Object Regions / D. Thirde, G. Jones, J. Flack // British Machine Vision Conf. Norwich, UK, 2003. P. 1б3-172.

4. Wang, H.-Y. Spatio-Temporal Video Object Segmentation via Scale-Adaptive 3D Structure Tensor / H.-Y. Wang, K.-K. Ma // EURASIP : J. on Applied Signal Proc. 2004. Vol. б. P. 798-813.

M. N. Favorskaya

DETECTION OF MOVING VIDEO OBJECTS BASED ON LOCAL 3D-STRUCTURE TENSORS

The analysis of video objects detection based on spatio-temporal approach is given. It covers the term of 3D-structure tensor for effective definition of spatio-temporal motion local orientation. The detailed schemes of pre-segmentation, spatio-temporal segmentation, and post-segmentation with further video objects recognition using local 3D-structure tensors are built.

Keywords: spatio-temporal segmentation, 3D-structure tensor, moving estimation.

Нахождение движущихся видеообъектов с применением локальных 3d-структурных тензоров Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фаворская Маргарита Николаевна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фаворская Маргарита Николаевна

DETECTION OF MOVING VIDEO OBJECTS BASED ON LOCAL 3D-STRUCTURE TENSORS

Текст научной работы на тему «Нахождение движущихся видеообъектов с применением локальных 3d-структурных тензоров»