УДК 004.93
МЕТОДИКА И МОДЕЛЬ КЛАСТЕРИЗАЦИИ ПАТТЕРНОВ ДВИГАТЕЛЬНОЙ АКТИВНОСТИ ЛИЦА КАК ПРЕОБРАЗОВАНИЙ МЕТАГРАФОВ
Б.А. Князев, В.М. Черненький
МГТУ им. Н.Э. Баумана, Москва, Российская Федерация e-mail: [email protected]; [email protected]
Предложена методика кластеризации паттернов двигательной активности лица по последовательностям изображений на основе представления изображений в виде метаграфов и их преобразований. Отличительной особенностью работы является интеграция знаний из нескольких доменов в одну иерархическую структуру для вычисления таких преобразований. Предложены функции поиска паттерна и добавления нового паттерна, а также процедура обучения данных функций с использованием тренировочных баз, размеченных экспертами. Приведены результаты исследования алгоритма сравнения паттернов во временной и частотной областях. Рассмотрен алгоритм реорганизации кластеров, необходимый для оптимизации коллекции паттернов. Реализация представленной методики и модели позволит повысить производительность экспертов при работе с видеоархивами, снятыми не в лабораторных условиях, экспериментально проверить соответствие полученных кластеров паттернам системы кодирования двигательной активности лица FACS, применяемой во многих актуальных приложениях.
Ключевые слова: паттерны поведения, активность лица, метаграф, иерархическая модель, домены преобразований, видеоизображение, кластеризация.
METHOD AND MODEL FOR CLUSTERING FACIAL ACTIVITY PATTERNS USING METAGRAPH TRANSFORMATIONS
B.A. Knyazev, V.M. Chernenkiy
Bauman Moscow State Technical University, Moscow, Russian Federation e-mail: [email protected]; [email protected]
A method for clustering facial activity patterns from image sequences is proposed that is based on image representation as metagraphs and on their transformations. The distinctive feature of this work is integration of knowledge from several domains into a single hierarchical structure to compute these transformations. The functions of searching for a pattern and adding of a new one as well as the procedure for learning these functions by exploiting the training datasets annotated by experts are suggested. Experimental data for the algorithm, which compares patterns as temporal sequences applying time and frequency warping, are presented. The algorithm for cluster reorganization that is necessary for optimization of a collection ofpatterns is discussed. Implementation of the presented method and model is expected to improve performance of experts working with human videos recorded in more challenging conditions than in a lab. The presented work can also be used to experimentally compare the extracted clusters with the patterns defined in the Facial Action Coding System, which is employed in many up-to-date applications.
Keywords: behavioral patterns, facial activity, metagraph, hierarchical model, transformation domains, video, clustering.
Исследования внешности и поведения человека показывают, что существуют определенные паттерны (шаблоны): статические геометрические (физиогномика) и поведенческие. Эти паттерны несут в
себе разнородную информацию, полезную для решения актуальных проблем [1—3], которая содержится как в явном виде (количественные и качественные параметры паттернов), так и в неявном виде, требующем интерпретации. В отличие от контролируемых паттернов, в основном использующихся для передачи явной информации по невербальному каналу, например, в системах управления жестами [4], непроизвольные паттерны сложнее поддаются интерпретации и кодированию с помощью конечных алфавитов (наборов паттернов).
Однако вопрос интерпретации параметров паттернов не рассматривается в настоящей работе, так как он относится к изучению психологических, психических, физиологических, социальных и других областей знаний, касающихся процессов формирования внешности и поведения индивида в конкретный момент времени. Актуальные области применения методов интерпретации параметров паттернов поведения лица можно найти в работах [5, 6].
Для описания количественных и качественных параметров как произвольных, так непроизвольных паттернов поведения лица (Action Unit, AU) часто используют систему кодирования FACS [7]. Эта система содержит экспертные вербальные описания конечного набора паттернов поведения лица, следовательно, возникает вопрос о ее полноте, объективности и валидности интерпретации данных на основе указанной системы. Поэтому одной из задач настоящей работы является самоорганизованная кластеризация паттернов и их сопоставление с известным набором из системы FACS.
Количественный параметр паттерна — интенсивность (A-E). Однако в данной работе также добавлены длительность и частотные составляющие паттерна. Качественный параметр — его вербальное описание, заимствованное из работы [7].
Цель настоящей работы — предложить методические основы кластеризации паттернов поведения лица по последовательностям двумерных изображений для более эффективного исследования видеоархивов с поведением человека и экспериментальной проверки паттернов системы кодирования FACS. Более строгое и подробное описание отдельных моделей методики будет рассмотрено в последующих работах.
Краткое описание методики. Распознавание паттернов происходит покадрово (рис. 1) [8]. Для каждого i-го изображения из последовательности
Ф = [Ii,...,IN] е RaxbxN
формируется неориентированный метаграф G¿, так что последовательность изображений преобразовывается в последовательность метагра-фов:
Ф ^ [Gi,...,Gn],
где a и b — размеры изображения (кадра); N — общее число кадров; Gi = f (I). Аналогично работе [9], интервал времени dt = t (i + 1) — —t (i) = const V i £ {1,..., N — 1}. Входные и выходные данные алгоритма формирования метаграфа изложены ниже, его подробное описание будет представлено в последующих работах. Для оперирования в матричной форме метаграф G^ представляется в виде разряженного вектор-столбца g^ = [g1,... ,gn]т.
Граф первого кадра G1 — базовый (reference graph), его преобразования формируют последующие графы [G1, G2,... ,GN] ^ ^ [G1, T1 (G1),... ,TN-1 (TN-2(.. .T1 (G1)))]. При этом в дальнейшем для кластеризации паттернов сохраняются только сами преобразования T = [T1,..., TN-1 ] и граф элементов лица G^^. При вычислении преобразований и сопоставлении вершин метаграфа учитываются незначительные изменения между соседними кадрами, используются знания между доменами (модальностями) для расчета согласованных преобразований. Операторы агрегирования различных модальностей использовались, например в работе [4], для распознавания жестов. Таким образом, последовательность изображений представляет собой метаграф лица и последовательность преобразований:
ф ^ ^лицо, Gt ).
Как показано далее, паттерн поведения лица (AU) будет представлять собой подмножество преобразований на подмножестве изображений в одном из доменов преобразований. В предыдущих работах [10, 11] модели обучаются для распознавания конечного набора [AU 1, AU2,..., AUм] из системы кодирования FACS. Альтернативный подход — кластеризация неконечного алфавита. Однако в таких рабо-
Рис. 1. Схема, иллюстрирующая методику кластеризации паттернов поведения лица (группы элементов одной формы представляют собой экземпляры паттернов в пределах одного кластера)
тах используются жесткие граничные условия, включая длительность паттерна, встречаемость паттерна у других людей и др. [8]. При анализе видеоархивов, снятых не в лабораторных условиях (см. рис. 1), становится понятно, что с каждым новым видеоматериалом появляются новые паттерны в связи с индивидуальными особенностями людей и изменившимся контекстом ситуации.
Поэтому далее для выполнения цели настоящей работы формулируются две задачи:
1. Обучение функции поиска и добавления паттерна в кластер.
2. Реорганизация кластеров паттернов.
Отметим, что класс — это тип паттерна, кластер — набор экземпляров паттернов одного класса, т.е. число кластеров равно числу классов, поэтому в некоторых контекстах понятия "класс" и "кластер" имеют одинаковый смысл.
Первая задача сводится к задаче обучения бинарной функции добавления нового кластера паттернов Лааа, которая возвращает 0 в случае, если паттерн представляет собой разновидность или комбинацию других, или 1 в случае, если необходимо добавить новый кластер, центром которого является указанный паттерн. Вне зависимости от этого значения выполняется реорганизация кластеров, т.е. решается вторая задача.
Часть баз последовательностей изображений ММ1 [12] и СК+ [13] предложено использовать для обучения модели (функций добавления кластера и их реорганизации), часть — для тестирования модели и экспериментальной проверки соответствия полученных кластеров паттернам кодировки системы БАСБ. Также предложно применять базу видеоматериалов ("База1"), аннотированную с помощью инструмента автоматизированной обработки видеоизображений [14], для тестирования других паттернов, не представленных в базах ММ1/СК+.
В целом методика объединяет концепцию метаграфа и методы пространственно-временного и визуального анализа с помощью муль-тидоменной взаимосвязи и функций оптимизации.
Входные и выходные данные алгоритма формирования метаграфа статического изображения лица. Входными данными алгоритма является г-е изображение I, € МахЬ последовательности Ф = [II,..., ] € ЕахЬхМ, выходными данными — граф С, = f (I,).
Для кластеризации паттернов поведения лица необходимо найти представление изображения, более устойчивое к искажениям объектов на нем, чем пиксельное представление. Такое представление должно быть более компактным: п < аЬ, где п — число ненулевых компонентов представления. Так, в работе [8] в качестве описания изображения использованы геометрические параметры лица на основе модели активного представления (ААМ) (п1 = 8) и дескриптор
SIFT (n2 = const = 128), совместно формирующие вектор-дескриптор Xj = f (I), x G R(ni+n2). Известны и другие варианты, например, на основе фильтров Габора [15].
Графовые модели и их расширения успешно применяют во многих приложениях распознавания образов [16]. В настоящей работе для представления изображения создана модель, являющаяся частным случаем обобщенной модели метаграфа [17], но имеющая несколько специфичных для решаемой задачи свойств и ограничений, описанных далее. Введение метаграфа обусловлено наглядностью описания вложенностей и дуальностей значений из разных доменов (областей знаний, модальностей) Dq G {D\,..., Dq} и связей (ребер) элементов иерархии. Доменами Dq могут быть как вербальные (семантика), так и визуальные (текстурные свойства, геометрические и цветовые свойства объектов) свойства. Кроме того структура может быть адаптивной, и, следовательно, обладать меньшей избыточностью по отношению к изображению.
Алгоритмы формирования (f) и обучения метаграфа статического изображения для каждого домена сходны, но требуют детального и объемного описания, поэтому будут рассмотрены в отдельных работах. В настоящей статье требуется, чтобы выходом алгоритма f являлся иерархический граф (рис. 2):
Сг = f (1г) = (V, E>,
где V = {vjkDq} G Dq — набор вершин графа со значениями в домене Dq; j G {1,..., h} — уровень иерархии вершины; h = h11 — глубина графа, т.е. число его уровней; hjkDq — глубина вершины vjkDq, условие hjklDq = hjk2Dq не гарантировано для всех j и к (иерархия является несбалансированной); к G {1,... ,Kj-1}; K >2 — арность графа, или число дочерних вершин; E = {w(j+1)mDq} G R — набор ребер, соединяющих k-ю вершину уровня j с m-й вершиной уровня j + 1 в пределах домена Dq; m и к связаны соотношениями m = {K (к — 1) + 1,..., Kk}, к = \m/K]. Значение K определяет число блоков, на которое разбивается текущий блок изображения, и является предметом дальнейших эмпирических исследований.
Перечислим требования, предъявляемые к домену Dq.
Требование I. Возможность декомпозиции значений домена Dq и определение операции умножения на скаляр: vjkDq = (Jm W(j+1)mDq x
xV(j+1)mDq, где ^^ W(j+1)mDq = 1. Таким образом, вершины более
m
верхнего уровня j могут содержать вершины более низкого уровня j + 1 с учетом весовых скалярных коэффициентов (значений ребер). Подобное представление имеет тесную взаимосвязь с представлениями, приведенными в работах по иерархическим моделям [18,19], и
представляет собой специальный случай метаграфов, рассмотренных в работе [17]. Однако здесь для формирования метаграфа заданы значения его вершин в нескольких доменах Бд: = иq VjkDq. Кроме того, к домену предъявляют еще три требования.
Требование II. Декомпозиция существует хотя бы для одного уровня ] и число вариантов таких декомпозиций для одной и той же вершины больше или равно единице.
Требование III. Существует пустое значение VjkDq = 0, которое объявляется как недекомпозируемое и для которого не определена операция умножения на скаляр.
Требование IV. Определена мера расстояния между непустыми вершинами: PЛk1j2k2Dq = (Vnk1Dq в Vj2k2Dq) £ М
Примером домена, удовлетворяющего перечисленным требованиям I — IV, могут стать пространственные позиции вершины (например, ее центроид): Dq = Б. Значения в таком домене, принадлежащем пространству € М, следовательно: Vjks = ^^ ы^+^г^ь^+^тя =
т
= т^+1)з, где , У0+1)з € , число вариантов деком-
позиций больше 1 для К > 2. В качестве пустого элемента может использоваться то, меры расстояния — разность.
Примерами доменов могут быть: текстурное описание с помощью набора двумерных вейвлет-фильтров с ориентациями в и масштабами а [15]; распределения в цветовых каналах [4]; ссылка на концепт из модели знаний. Доказательство требований I — IV для этих и других доменов будет рассмотрено в последующих работах.
Предложенный метаграф можно представить как набор отдельных графов (см. рис. 2):
= / (1г) = {GгDl, . .. , }.
Формирование разряженного вектора метаграфа. Вычислительные системы обычно работают с векторами и матрицами, поэтому, как было отмечено ранее, во многих приложениях [8, 10, 11] изображения I € МахЬ преобразовываются в некоторые вектор-дескрипторы х^ € М фиксированной размерности п. Это позволяет работать с последовательностью изображений [11,..., ] € МахЬхМ как с матрицей X = [х1,...,хм] € Мпхм.
В таких случаях графы обычно представляются в виде инцидентных и смежных матриц. Однако в иерархическом графе связи присутствуют только на соседних уровнях, поэтому элементы на определенных индексах всегда будут нулевыми, что неэффективно. В настоящей работе структура, а следовательно, и размерность, формируемого метаграфа для каждого изображения зависит от самого изображения. В связи с этим для приведения метаграфа к одной размерности, а также сохранения его пространственной структуры
а бе
Рис. 2. Формирование метаграфа (алгоритм f) для трех доменов (а), разряженных векторов (б) и разностного вектора для домена О1 (в), частный случай для К = 2 (заштрихованные вершины формально отсутствуют в метаграфе (=0), в векторе они присутствуют как пустые элементы для сохранения структуры графа; каждый тип фигуры означает отдельный домен Од, толщина ребра ассоциирована с его весовым значением; стрелкой показано направление вычисления разности)
и других свойств применяется преобразование набора вершин V в разряженный вектор-столбец giDq = [дх,..., дп]т е ^, а набора ребер (весов) Е в разряженный вектор-столбец = [0, ^,..., гшп]т е Мп,
з-1
где т (3, к) = К1 + к,т е {1,... ,п} — индекс вершины и
г=0
ребра в векторах giDq и wiDq соответственно. Такое представле-
ние является обратимым, т.е. возможно восстановить граф Gi = /(I)
К
(см. рис. 2). Размерность векторов п = Ki, где Н = logcшах(а, Ь) —
i=0
высота дерева, которая будет идентична для всех изображений размером аЬ в независимости от домена; с > 1 — отношение размеров блоков верхнего уровня к нижним (обычно равно 2). При этом число нулей будет отличаться в зависимости от содержания изображения и домена и будет больше у менее информативных изображений. Особенностью является то, что, применяя разряженные типы хранения данных, в которых для хранения нулевых значений не выделяется память, можно решить проблему хранения вектора такой размерности. Отметим, что, если вектор весов известен для всех з и к, то значения вершин являются функцией значений весов и вершин уровня Н: ДgiDq = ^(ДwiDq). Таким образом, последовательность изображений переходит в матрицу разряженных метаграфов:
ф
[g1Dq , W1Dq ; ... ; , W1DQ Ii ... ;
[gNDq , WNDq ;...; gNDQ , wNDQ]
Q'
g Dnx2QxN
где giDq — г-й метаграф домена Dq в форме разряженного вектора размерностью п; wiDq — вектор его весовых коэффициентов. Вектора g¿D могут обобщаться и формировать граф Слицо, необходимый для определения элементов лица.
Недостаток такого представления заключается в сложности обработки абсолютных значений вершин в разных доменах, а также в отсутствии связей между доменами. Для устранения указанных недостатков и кластеризации паттернов поведения предлагаются преобразования метаграфов.
Сопоставление метаграфов последовательностей изображений и формирование последовательности переходов. Цель настоящего раздела — обучить модель сопоставлять два последовательных мета-графа С^ и 1 и вычислять оптимальный вектор преобразований Т одного к другому. Такие преобразования будут основой алгоритма кластеризации паттернов поведения.
Пусть имеется два метаграфа С^ и С»+1, такие что 3], к : Н^ = = Н(i+1)jk, К1 = К2 = К. Каждая вершина следующего графа сопоставляется с предыдущей по следующим принципам.
1. При вычислении преобразований и сопоставлении вершин мета-графа подразумеваются изменения |Дg| < т на каждом следующем кадре. Минимальное значение т ограничено техническими возможностями. Максимальное значение т остается предметом эмпирического исследования и зависит от области применения. Для исследования двигательной активности человека это значение соответствует не менее 20 кадр/с.
2. При сравнении двух метавершин приоритет отдается более близкой вершине в пространстве и времени, а не более похожей визуально. Поскольку графы приведены к идентичной структуре в каждом домене ^^, wlDq] и , W(i+l)Dq], рассматриваем преобразования только между вершинами с одинаковыми индексами ] и к в пределах одного домена.
Вектор преобразования весов определим как
ДwгDq = ^(¿+1^ — WiDq) € М", вектор преобразования значений вершин — как
Д^ = (Дj g(i + l)Dq в Дj € М", (1)
где
А3= [^11 , У21 © У11 , У22 © У11, . . . , УЦк © У(з-!)краг, . . . , ] =
= [у11, р2,1,1,1, р2,2,1,1, . . . , Рзк(з 1)краг , ... ].
Здесь краг = \к/К] — индекс родительской вершины; Узк £ giDq. Вектор AgiDq £ Кп в силу требования IV домена к мере расстояния р.
Операция Аз аналогична операции вычисления дискретной производной, но ей не является, так как индексы, для которых определяются меры расстояния, идут не последовательно, и вместо разности в области вещественных чисел используется мера расстояния. Отметим также, что в (1) первым элементом вектора AgiDq будет мера расстояния между корневыми элементами (у11 ), тогда как остальные элементы будут равны разностям соответствующих мер р в пространстве К.
Вектора весовых коэффициентов AwiDq необходимы только для согласования доменов и более корректного вычисления преобразований AgiDq, о чем будет изложено далее. Для последующей кластеризации паттернов определяется вектор преобразования между графами Gi и в домене : Т^ = AgiDq £ Кп, и матрица преобразований для всех доменов (рис. 3):
T
ÄgiDx; ;
£ RnxQ.
(2)
Последовательность изображений представляет собой аналогию второй производной по г и ]: Ф ^ A2j gi.
Отметим, что основная проблема решения задачи корректного вычисления значений Ti заключается в том, что последовательность Ф представляет собой дискретный набор матриц I, истинный вид функции перехода между которыми неизвестен так же, как неизвестны и значения матриц I между г-м и (г + 1)-м изображениями.
Еще одной особенностью является то, что значения вершин ме-таграфов Gi и Gi+1 вычисляются для областей, локализованных в
Рис. 3. Преобразования для вырезанных изображений глаз из базы MMI для одного из экземпляра паттерна "Моргание" (показаны только некоторые кадры)
пространстве и времени, поэтому при переходе от одного графа к другому изменения этих значений могут быть несовместимы с изменениями значений других вершин и в других доменах. Таким образом, при сопоставлении двух вершин неизбежно наличие нескольких преобразований-кандидатов, один из которых (или их уникальная комбинация) является истинной, т.е. наиболее приближенной к реальным изменениям в терминах некоторой метрики или функции ошибки. Иными словами, на практике от одного изображения к другому можно перейти различными способами, поэтому необходимо определить функции оптимизации и предложить ее решение.
Экспериментальные исследования показали следующее. Несмотря на то, что на i-м кадре ориентация некоторого объекта могла быть вычислена как в = 0°, а на кадре i + 1 как в = 30°, истинное значение Ав могло быть неравно 30°, так как объект был изменен в других доменах (переместился в пространстве, изменилось распределение яркости, добавились новые свойства текстуры, такие как складки, или морщины во время улыбки или нахмуривания, каждая из которых обладает своими углами ориентации и др.).
Обычно в случаях неоднозначности преобразований используют вероятностные характеристики или методы линейной (нелинейной) оптимизации для поиска оптимальных значений, которые требуют выпуклости целевой функции. В настоящей работе для поиска оптимальных преобразований предложено применять взаимосвязь знаний из разных доменов и предположение об их согласованности.
Значения векторов изменения весов и значений вершин принадлежат пространству R, но весовые коэффициенты являются нормализованными, что позволяет сопоставлять домены более корректно. Следовательно, связь любой пары доменов (Dq, Dq+1) можно представить матрицей соответствия Wiq(q+1) Е Rnxn между изменениями весов (рис. 4):
AwWq = Wiq(q+1)AWiDq+1 . (3)
Каждая строка матрицы W будет отражать связь одного из элементов домена Dq с элементами всех уровней домена Dq+1, первая строка — связь корневого элемента и т.д.
Поскольку матрица W содержит n2 неизвестных, а каждое матричное уравнение (3) формирует n уравнений, ее решение в явном виде будет возможно через n +1 кадров и потребует O(n2(n + 1)), что для больших n практически нереализуемо, т.е. требуется применение методов аппроксимации или распараллеливания вычислений.
Предполагается, что существует такая оптимальная характеристическая матрица Wq(q+1) = const, которая будет постоянна в независимости от номера кадра i, и тем самым отражает связь доменов Dq и
Рис.4. Схема, иллюстрирующая идею вычисления преобразований на основе согласования доменов (частный случай для трех доменов)
+1. Ее вычисление возможно, так как число вариантов декомпозиций каждого элемента больше или равно единице и, соответственно, можно подобрать эти веса. Если число вариантов равно единице, то изменения весов будут отражаться в измененных значениях вершин на всех уровнях выше. Если число вариантов больше единице, то необходимо поочередно фиксировать значения весов.
Одним из решений задачи является ее сведение к квадратичному программированию [20]. Допустим, что число п небольшое и матрица W вычислена после получения п + 1 кадра. Рассмотрим случай, когда число полученных кадров больше п +1 и найти решение, удовлетворяющее (3) для всех предыдущих кадров, невозможно без корректировки изменений весовых коэффициентов ДwiDq. Тогда формулируется задача обучения данных матриц так, чтобы определяемые на их основе весовые коэффициенты и преобразования вершин были максимально оптимально совместимы во всех доменах для каждого кадра в терминах следующей функции:
arg min(
w,W
Awin - Aw!
iDq
+ llw
q (q+1)
W!
q (q+1)
1/2
где ||х|| = ^2 — норма (длина) вектора х или ||Х|| = ^
в случае матрицы; Дw/Dq, ДwiDq+1 — изначальные вектора изменения весовых коэффициентов, вычисленные на основе формирования метаграфов для ^го кадра; Дw/Dq = Wq(q+1) Дw/Dq+1 — вектор изменения весовых коэффициентов, полученный для текущего кадра на основе вычисленной матрицы Wq^+1); Wq— одно из решений Дw/Dq = WqДw/D +1. Такая задача представляет собой частный
случай задачи поиском седловой точки [20, 21]. Ее экстремум может быть усредненным или локальным минимумом [21], если функция невыпукла, так как нормы разности на всех уровнях метаграфа (аргументов функции) идентично суммируются в функцию ошибки, что не всегда корректно аппроксимирует реальную функцию.
Поиск оптимальной матрицы W(q+1) требует теоретических и практических исследований и будет предложен в следующих работах. Далее подразумевается, что значения матрицы найдены и стабильны, на их основе можно рассчитать значения вершин и сформировать согласованную во всех доменах матрицу преобразований T £ RnxQ.
Кластеризация паттернов. Задача этого раздела — имея матрицу преобразований для N кадров T £ Rnx2Qx(N-1), предложить модель, позволяющую с помощью описания (1) определять факт наличия паттерна поведения, а с помощью матрицы (2) относить его к одному из известных типов или к некоторому новому типу, т.е. обобщать накопленные знания на новые последовательности изображения.
Важное допущение — постоянный или априори известный интервал между изображениями, измеряемый во временных единицах или номерах кадров. Это допущение аналогично постоянному интервалу между двумя точками изображения в пространстве, равному одному пикселю (или в других единицах). Для всех анализируемых последовательностей также подразумевается одинаковый размер изображения.
Паттерн поведения как преобразования метаграфа. Необходимо учитывать, что последовательности изображений могут иметь различную частоту съемки (fps), каждый человек обладает индивидуальными особенностями воспроизведения паттерна во времени и паттерны инерционны.
С позиции преобразований метаграфов паттерн поведения лица AUCl £ C1 уникально определяется через непрерывную последовательность векторов преобразований на фиксированных позициях на интервале [i, i + nCl] из последовательности Ф (i £ {1,..., N — nCl}) в домене Dq :
AU
ClDq
TiD ,..., T'-,-. — 1) Dq
£
Rnx2QxnCl
где Т^ = [Т1,..., Тп]т £ Кп — вектор преобразований от кадра t к ¿+1 в домене ; t £ {г,..., г + пС1}; тС1 = [т1,..., тп] — вектор индексов, соответствующих индексам элементов векторов AgiDq, AwiDq (см. (2)), такой, что тг = 0, если|Т | < т0,1 иначе, вектор тС1 фиксирован в пределах кластера С1 с учетом функции ошибки; пС1 — длительность паттерна, которая может варьироваться между экземплярами одного класса.
Синтезированный пример последовательности преобразований, в котором каждый паттерн порождает преобразования только в одном из доменов, показан на рис. 5, а. Однако на практике большинство паттернов порождают изменения как минимум в двух доменах (например, распределение яркости и текстура). Это тем более касается таких сложных паттернов, как "улыбка", "выражение агрессии" и др.
Рис. 5. Синтезированный пример векторов преобразований вершин g в одном из доменов с добавлением шума, вычисленных на основе изменений весовых коэффициентов (три класса паттернов, каждому из которых присвоен свой цвет; паттерны разных классов могут существовать одновременно на одном кадре на разных уровнях (индексах ], к) метаграфа): а — однодоменная структура; б — мультидоменная структура
Вопрос определения "мультидоменных паттернов" оставим открытым для дальнейших исследований.
Сложность разделения паттернов в однодоменных моделях вызвана тем, что на интервале [i, i + nCl]могут существовать другие паттерны или их части AUC2, такие, что часть их индексов пересекается: mClmC2 = 0 (рис. 5, б). Кроме того, на ограниченном интервале все индексы преобразований одного паттерна могут быть частью индексов другого mClmC2 = {mCl или mC2} или полностью совпадать mCl mC2 = {mCl и mC2}. В таких случаях разделение паттернов требует дополнительных данных от других доменов. Поэтому домены должны быть выбраны с учетом того, что пересечения не могли происходить в пределах одного домена.
Однако следует учитывать шумовые составляющие при принятии окончательного решения о принадлежности паттерна к классу. Диапазон (амплитуда) абсолютных значений преобразований определяет интенсивность паттерна ICl (в случае системы FACS есть пять градаций A — E [7]) и не влияет на его принадлежность к тому или иному классу, знак преобразования может характеризовать класс.
Поиск паттерна в последовательности изображений. Поскольку структура метаграфа фиксирована для фиксированного размера изображения, для сравнения паттернов можно применять метрики на основе евклидовой нормы.
Функция поиска границ паттерна AUCo вычисляется для каждого nCo е {1,..., N — 1} и номера кадра i е {1,..., N — nCo} из последо-
вательности Ф, пока не будет минимизирована следующая функция:
Jsearch ,ПСо) = <--+ У^ (а||AmiDq II ^ + в II ATiD(
I ПСоDq . ^ V ^
^ 0 i,nCо Dq
(4)
где AxiDq = (\х\^+ПСо^)Dq - \х\^); используется модуль вектора, так
как преобразование может быть отрицательным; ЦхЦ^ = \х | /г —
i
мера нормы, учитывающая предположение о том, что разность индексов более низкого уровня вносит меньший вклад в разность AmDq, чем разность индексов более высокого уровня; а = (0,1] , в > 0 — коэффициенты регуляризации. Функция (4) будет минимизирована, когда будет найден компромисс между длительностью паттерна и стабильностью значений преобразований и их позиций в метаграфе. Задание а = 1 запрещает любое отклонение индексов между двумя преобразованиями, коэффициент в имеет аналогичный смысл для разности значений преобразований и требует настройки или обучения (рис. 6) так же, как и порог абсолютного значения преобразования т0.
Как только значения функции 38еагс^ начинают увеличиваться, поиск прекращается, и последнее значение пСоDq считается оптимальным. Далее находятся кандидаты паттернов в каждом домене (пары (г^ ,пСо), затем итоговое значение границ паттерна выбирается исходя из максимальной длительности среди всех доменов: (г,пСо) = тах[пСо,...,пСо]. Если для следующих номеров г
Dq
функция 38еа1С^ начинает уменьшаться, то определяются границы следующего паттерна и т.д. (см. рис. 6).
а в в
Рис. 6. График нормализованных значений преобразований (Тн) для паттернов У, У2 и У3 (а), их Фурье-образы (Т) (б), график функции поиска границ паттерна, построенного на основе синтезированной последовательности паттернов
00:
Ат — интервал, на котором |ДТ\2 ~ 0, 1с1норм — нормализованная интенсивность паттернов У2 и У3; Ух — паттерн "закрытие глаз", У2 — "растянутое моргание", У3 — "моргание"; на графике Ух четко выделена фаза "глаза закрыты" (Т = 0)
Функция принятия решения о принадлежности паттерна к кластеру. После того, как найдены такие границы, что nCo > 0 для каждого номера кластера j рассчитывается бинарная функция добавления текущего паттерна AUCo в кластер Cj :
J add (AUco ,j, Dq) = dist (AUco ,j, Dq) - TjDq; (5)
dist(AUCo,j,Dq) = ^ AmaojDq ^ + Y (TCoDq) - ,
1 (6) где AmCojDq = (mCoDq — mjDq), p(x) — некоторое преобразование вектора x. В качестве преобразования р предложено использовать оператор Фурье. Если (Jadd > 0) = (Jadd = 1) для текущего номера j, то набор преобразований и частотные характеристики отличаются от паттернов в коллекции на значение, большее порогового значения TjDq. Следовательно, необходимо добавить текущий паттерн AUCo как экземпляр нового кластера Co. Если (Jadd < 0) = (Jadd = 0), то AUCo £ Cj, паттерн добавляется в кластер Cj, где он используется для реорганизации кластеров. Пороговые значения TjDq и коэффициенты нормализации y определяют экспериментально.
Временные последовательности успешно сравниваются с помощью нечетких конечных автоматов [4, 9]. В настоящей работе последовательности преобразований полагаются уже структурированными, поэтому предложено использовать алгоритм, аналогичный сопоставлению осей времени (dynamic time warping, DTW), примененный в работе [8] с радиально-базисной функцией ядра, но в частотной области (dynamic frequency warping, DFW). Это обусловлено тем, что процессы, имеющую разную продолжительность и содержащие повторяющиеся паттерны поведения, целесообразнее исследовать частотными методами. Для проверки гипотезы рассмотрим два примера последовательностей (сессия № 119 и 205) базы MMI, на которых присутствуют паттерны двух разных классов (Yi — "закрытие глаз"; Y3 — "моргание"). Без частотного анализа эти паттерны могут быть классифицированы как одинаковые. Нормированные значения синтезированных векторов преобразований T для вершины метаграфа "глаза", полученные по кадрам двух сессий, представлены на рис. 6, а, б.
Результаты исследования временного и частотного алгоритмов показывают, что они проявляют себя по-разному в зависимости от нормализации данных, В таблице в столбцах g и gH представлены результаты алгоритма сравнения значений вершин и их нормализованных значений соответственно, в столбцах T(g), T(gH) и Тн — результаты сравнения преобразований векторов g или gH и их нормализованных значений соответственно, F и FH — результаты сравнения преобразований Фурье и их нормализованных значений. При сравнении TH и FH
нормализация вектора g и векторов g и T не влияет на результат. В целом, несмотря на результаты, гипотезу о преимуществе алгоритма частотного сравнения следует проверить на большем объеме данных и с нелинейными функциями ядра. Для решения задачи сравнения паттернов следует рассмотреть возможность формирования метагра-фов во временном и частотном доменах. Также возможно встраивание частотных значений для фильтрации паттернов и шумов в функцию
Jsearch.
Результаты исследования алгоритмов временного и частотного сопоставления последовательностей
Сравниваемая пара паттернов (см. рис. 6) Временной алгоритм Частотный алгоритм
g gn T(g) T(gJ Тн F (g) F (gn) F (T(g)) F (T(gH)) F (Тн) Fн (g) Fн(Т)
Y1-Y2 Y 2-Y 3 Y1-Y3 17 10 0,07 0,24 0,05 0,07 6,3 0,005 3 0,35 0,14 0,39 33,7 0,03 12,7 0,31 0,68 0,04 0,31 0,25 1,02 8,30 8,39 0,80 0,0013 0,0003 0,0012 0,68 0,52 0,07 0,11 0,07 0,15 1,23 0,47 0,96
Примечание. Минимальные значения в столбцах, которые при правильном выборе алгоритма должны быть в строке Y2- Y3 выделены полужирным.
Обучение функций Jsearch и Jadd. Одним из вариантов определения пороговых значений и коэффициентов в выражениях (5) и (6), т.е. обучения функции Jadd, является использование баз последовательностей изображений, аннотированных экспертами. Среди таких баз следует выделить базы MMI [12] и CK+ [13]. База MMI содержит 2876 видеоизображений по несколько секунд (~ 2 ... 6") с fps = 25 кадр/с (~ 50 ... 150 кадров), на каждом из которых присутствует 1 - 6 из около 30 паттернов в зависимости от сложности выражения лица. База CK+ включает в себя приблизительно 700 последовательностей изображений, в каждой из которых около 20 кадров. Суммарное число представленных субъектов, выполняющих паттерны, составляет приблизительно 200 человек.
Часть базы MMI (329 видеоизображений) также имеют покадровые описания фаз паттернов: нарастание (onset); пик (apex); спад (offset). Данные материалы могут применяться для обучения функции поиска границ Jsearch (4).
Реорганизация паттернов. Под реорганизацией понимается выделение общих паттернов, вычисление новых центров кластеров ^jDq и пороговых значений TjDq , определяющих их границы, в каждом домене (рис. 7). Для разделения паттернов на классы (кластеры) применяются алгоритмы k-средних [4] и его нелинейные и взвешенные расширения [8].
Центр кластера Cj в домене Dq рассчитывается как паттерн HjDq = AUC , расстояние от которого до других паттернов мини-
мально в пределах кластера: arg min dist (AUCj, j, Dq Пороговое значение определяется как
TjDq = 2max dist (AUcj ,j,Dq),
j
Рис. 7. Схема добавления нового кластера и реорганизации кластеров
но так, чтобы кластеры не пересекались. Паттерн выделяется как общий c центром ^iDq и пороговым значением 2TiDq, если для двух паттернов AUCi, AU с ,i = j, существует функция
dist (AUci, AUcj ,Dq) = 2TiDq <
< min (dist (AUCi,k,Dq),dist (AUCj,m,Dq)) Vk,m,
где k, m — номера кластеров, т.е. два паттерна ближе друг к другу, чем каждый из них к любому паттерну из другого кластера.
Заключение. Получена методика, объединяющая концепцию ме-таграфа и методы пространственно-временного и визуального анализа с помощью мультидоменной взаимосвязи и функций оптимизации, для решения задачи более эффективного исследования видеоархивов с поведением человека и экспериментальной проверки паттернов системы кодирования FACS. Основная идея методики — преобразования метаграфов и их взаимосвязь между различными доменами — используется впервые для решения указанной задачи. Программная реализация методики позволит устранить или сгладить недостатки, частично или полностью присутствующие в предыдущих работах (недостаточная точность для использования на реальных видеоархивах, вызванная чувствительностью алгоритмов к сложному фону, поворотам лица, неравномерной освещенности и другим искажениям объекта).
Недостатки методики: сложность обучения модели по последовательностям изображений с частотой менее 20 кадр/с, отсутствие прямой возможности распознавания паттернов на статическом изображении; необходимость экспертного труда на начальных стадиях обу-
чения модели и на стадии фильтрации; сопоставление полученных паттернов.
В дальнейшем интерес представляет определение оптимальной арности и глубины графа, исследование характеристик матрицы соответствия доменов, функций поиска паттерна, его добавления в кластер и реорганизации паттернов, а также экспериментальная проверка соответствия полученных кластеров системе кодирования FACS, после которой можно будет сделать вывод о полноте и объективности кодировки FACS. Результаты настоящей работы могут быть полезны не только для анализа поведения лица человека, но и для анализа паттернов в других областях знаний.
ЛИТЕРАТУРА
1. Ануашвили А.Н. Основы объективной психологии. Международный институт управления, психологии и психотерапии. М.; Варшава, 2005. [Электронный ресурс]. Режим доступа: http://anuashvili.ru (дата обращения 02.05.2014).
2. Kanade T. Visual Processing and Understanding of Human Faces and Bodies, 9th International Conference (ICVS 2013), Jul. 2013, Keynote Talk.[Электронный ресурс] Режим доступа: http://workshops.acin.tuwien.ac.at/ICVS/downloads/Kanade_ICVS2013.pdf. (дата обращения 19.02.2013).
3. Ekman P, Rosenberg E.L. What the Face Reveals: Basic and Applied Studies of Spontaneous Expression Using the Facial Action Coding System. N.Y.: Oxford University Press, 2005. 639 p.
4. Алфимцев А.Н.Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов: Дис.... канд. техн. наук. М., 2008, 167 с.
5. Bartlett M.S., Whitehill J. Automated facial expression measurement: Recent applications to basic research in human behavior, learning, and education // Oxford Handbook of Face Perception, Oxford University Press, 2011. P. 489-514.
6. Романова Н.М., Рытик А.П., Самохина М.А., Скрипаль А.В., Усанов Д.А. Особенности глазодвигательных реакций человека при произнесении истинной и ложной информации // Психология. СГУ. 2008. С. 65-73.
7. Ekman P, Friesen W. Facial Action Coding System: A Technique for the Measurements of Facial Movements.Consulting Psychologists Press, 1978.
8. Zhou F., Simon T., de la Torre F., Cohn J.F. Unsupervised discovery of facial events// Technical Report CMU-RI-TR-10-10, Carnegie Mellon University, 2010. P. 1-20.
9. Девятков В.В., Лычков ^.^.Моделирование и анализ ситуаций в виртуальной среде движущихся объектов // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2013. //№ 3. С. 26-42.
10. Sikka K., Dykstra K., Sathyanarayana S., Littlewort G., Bartlett M. Multiple kernel learning for emotion recognition in the wild // Proceedings of the 15th ACM on International conference on multimodal interaction (ICMI'13). ACM, New York, USA. Р. 517-524.
11. Koelstra S., Pantic M., Patras I. A Dynamic Texture Based Approach to Recognition of Facial Actions and Their Temporal Models // IEEE Trans. on Pattern Analysis and Machine Intelligence. 2010. Р. 1940-1954.
12. Valstar M.F., Pantic M.Induced Disgust, Happiness and Surprise: an Addition to the MMI Facial Expression Database // Proc. International Language Resources and Evaluation Conference. Malta. 2010. Р. 65-70.
13. Lucey P, Cohn J., Kanade T., Saragih J., Ambadar Z., Matthews I. The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression // Proc. 2010 IEEE Computer Society Conference on CVPR Workshops. 2010. Р. 94-101.
14. Knyazev B. Human nonverbal behavior multi-sourced ontological annotation // Proc. International Workshop on Video and Image Ground Truth in Computer Vision Applications (VIGTA '13). Jul. 2013. Article 2. P. 1-8.
15. Кашапова Л.Х., Латышева Е.Ю., Спиридонов И.Н.Алгоритм распознавания эмоционального состояния по изображениям лица с использованием дискри-минантного анализа и фильтров Габора // Медицинская техника. № 3. 2012. С. 1-4.
16. Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching // IEEE Trans. on Pattern Analysis and Machine Intelligence. Vol. 17. No. 7. Jul. 1997. Р. 775-779.
17. Basu A., Blanning R.W. Metagraphs and Their Applications // Integrated Series in Information Systems. 2007. Vol. 15. No. VIII. 172 р.
18. Скурихин А.В. Рекурсивно-иерархическое представление одномерных фракта-лоподобных сигналов // Тр. СПИИРАН. 2003. № 1 (3). С. 107-117.
19. Болотова Ю.А., Спицын В.Г., Фомин А.Э. Применение модели иерархической временной памяти в распознавания изображений // Известия Томского политехнического университета. 2011. Т. 318. № 5. С. 60-63.
20. Интрилигатор М. Математические методы оптимизации и экономическая теория. М.: Прогресс, 1975. 607 с.
21. Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
REFERENCES
[1] Anuashvili A.N. Osnovy ob'ektivnoj psihologii. Mezhdunarodnyy institut upravleniya, psikhologii i psikhoterapii. 4-oe izd [Fundamentals of objective psychology. Int. Inst. Management, Psychol. Psychoth. 4th ed.]. Moscow, Warsaw, 2005. Available at: http://anuashvili.ru (accessed 02.05.2014).
[2] Kanade T. Visual Processing and Understanding of Human Faces and Bodies. 9th Int. Conf. (ICVS 2013), 2013, Keynote Talk. Available at: http://workshops.acin.tuwien.ac.at/ICVS/downloads/Kanade_ICVS2013.pdf (accessed 19.02.2013).
[3] Ekman P., Rosenberg E.L. What the Face Reveals: Basic and Applied Studies of Spontaneous Expression Using the Facial Action Coding System. N.Y., Oxford University Press, 2005. 639 p.
[4] Alfimcev A.N. Razrabotka i issledovanie metodov zahvata, otslezhivanija i raspoznavanija dinamicheskih zhestov. Diss. kand. tekhn. nauk [Development and study of methods of capture, tracking and recognition of dynamic gestures. Cand. tech. sci. diss.]. Moscow, 2008. 167 p.
[5] Bartlett M.S., Whitehill J. Automated facial expression measurement: Recent applications to basic research in human behavior, learning, and education. Oxford Handbook of Face Perception, Oxford University Press, 2011, pp. 489-514.
[6] Romanova N.M., Rytik A.P., Samohina M.A., Skripal' A.V., Usanov D.A. The eye-moving reaction features of the person due to pronouncing true and false information. Psihologija [Psychology], SGU, 2008, pp. 65-73 (in Russ.).
[7] Ekman P., Friesen W. Facial Action Coding System: A Technique for the Measurements of Facial Movements. Palo Alto, CA: Consulting Psychologists Press, 1978.
[8] Zhou F., Simon T., de la Torre F., Cohn J.F. Unsupervised discovery of facial events. Technical Report CMU-RI-TR-10-10, Carnegie Mellon University, 2010, pp. 1-20.
[9] Devjatkov V.V., Lychkov I.I. Simulation and the analysis of situations in the virtual environment of moving objects. Vestn. Mosk. Gos. Tekh. Univ. im. N. E. Baumana, Priborostr. [Herald of the Bauman Moscow State Tech. Univ., Instrum. Eng.], 2013, no. 3, pp. 26-42 (in Russ.).
[10] Sikka K., Dykstra K., Sathyanarayana S., Littlewort G., Bartlett M. Multiple kernel learning for emotion recognition in the wild. Proc. 15th ACM on Int. Conf. on Multimodal Interaction (ICMI '13), ACM, New York, USA, pp. 517-524.
[11] Koelstra S., Pantic M., Patras I. A Dynamic Texture Based Approach to Recognition of Facial Actions and Their Temporal Models. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2010, pp. 1940-1954.
[12] Valstar M.F., Pantic M. Induced Disgust, Happiness and Surprise: an Addition to the MMI Facial Expression Database. Proc. Int. Language Resources and Evaluation Conf., Malta, 2010, pp. 65-70.
[13] Lucey P., Cohn J., Kanade T., Saragih J., Ambadar Z., Matthews I. The Extended Cohn-Kanade Dataset (CK+): a complete dataset for action unit and emotion-specified expression. Proc. IEEE Comp. Soc. Conf. on CVPR Workshops, 2010, pp. 94-101.
[14] Knyazev B. Human nonverbal behavior multi-sourced ontological annotation. Proc. Int. Workshop on Video and Image Ground Truth in Comp. Vision Appl. (VIGTA '13), 2013, Article 2, pp. 1-8.
[15] Kashapova L.H., Latysheva E.Ju., Spiridonov I.N. Discriminant Analysis of Two-Dimensional Gabor Features for Facial Expression Recognition. Meditsinskaya Tekhnika [Biomedical Engineering, 2012, iss. 3, vol. 46, pp. 89-92], 2012, vol. 46, no. 3, pp. 1-4 (in Russ.).
[16] Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1997, vol. 17, no. 7, pp. 775-779.
[17] Basu A., Blanning R.W. Metagraphs and Their Applications. Integrated Series in Information Systems. Springer, 2007, vol. 15, no. VIII, 172 p.
[18] Skurihin A.V. Recursive and hierarchical representation of one-dimensional fractallike signals. Tr. S.-Peterburgskogo Ins. Inf. i Avtomat., RAN (SPIIRAN) [Proc. SPb Inst. Inf. and Autom., Russ. Ac. Sc. (SPIIRAS)], 2003, no. 1 (3), pp. 107-117 (in Russ.).
[19] Bolotova Ju.A., Spicyn V.G., Fomin A.Je. Model application of hierarchical temporary memory in recognitions of images. Izv. Tomskogo Politehnicheskogo Un. [Bulletin of the Tomsk Polytechnic Un.], 2011, vol. 318, no. 5, pp. 60-63 (in Russ.).
[20] Intriligator M.D. Mathematical Optimization and Economic Theory. Series: Classics in Applied Mathematics (Book 39). Prentice-Hall, 1971. 571 p. (Russ. Ed.: Intriligator M. Matematicheskie metody optimizacii i jekonomicheskaja teorija. Progress Publ., 1975. 607 p.).
[21] Bishop Chr. M. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag, New York, Inc., Secaucus, NJ, USA, 2006.
Статья поступила в редакцию 24.02.2014
Борис Александрович Князев — аспирант кафедры "Системы обработки информации и управление" МГТУ им. Н.Э. Баумана, инженер НИИЦ БТ МГТУ им. Н.Э. Баумана. Автор девяти научных работ в области искусственного интеллекта, компьютерного зрения, параллельных вычислений.
МГТУ им. Н.Э. Баумана, Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5.
B.A. Knyazev — post-graduate of "Systems of Information Processing and Management" department of the Bauman Moscow State Technical University, engineer of the Research and Testing Center for Biometric Technology of the Bauman Moscow State Technical University. Author of nine publications in the field of artificial intelligence, computer vision, and parallel computing.
Bauman Moscow State Technical University, Vtoraya Baumanskaya ul. 5, Moscow, 105005 Russian Federation.
Валерий Mихайлович Черненький — д-р техн. наук, заведующий кафедрой "Системы обработки информации и управления" MF^ им. Н.Э. Баумана. Автор 105 научных работ в области теории описания параллельно-последовательных процессов, имитационного моделирования информационных систем, проектирования автоматизированных систем организационного управления.
MP^ им. Н.Э. Баумана, Российская Федерация, 105005, Mосква, 2-я Бауманская ул., д. 5.
V.M. Chernenkiy — Dr. Sci. (Eng.), head of "Systems of Information Processing and Management" department of the Bauman Moscow State Technical University. Author of 105 publications in the field of description theory of parallel and serial processes, simulation of information systems, designing of automated systems of organizational management.
Bauman Moscow State Technical University, Vtoraya Baumanskaya ul. 5, Moscow, 105005 Russian Federation.