Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы–Джонса

Акимов Алексей Викторович; Сирота Александр Анатольевич

МОДЕЛИ И АЛГОРИТМЫ ИСКУССТВЕННОГО РАЗМНОЖЕНИЯ ДАННЫХ ДЛЯ ОБУЧЕНИЯ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ЛИЦ МЕТОДОМ ВИОЛЫ-ДЖОНСА

А.В. Акимов1, А.А. Сирота1 воронежский государственный университет, Воронеж, Россия

Аннотация

Описаны математические модели и алгоритмы внесения деформирующих искажений в решетчатые функции дискретных аргументов. Для изображений рассматриваются три модели внесения деформирующих искажений при размножении обучающей выборки в интересах построения алгоритмов распознавания лиц: на основе применения при деформации гармонических функций, на основе смещения контрольных точек и на основе поиска оптического потока при наложении фильтра энтропии. Для исходных и искусственно размноженных в соответствии с описанными моделями обучающих выборок проведены эксперименты по обучению алгоритмов распознавания изображений лиц методом Виолы-Джонса и сравнение точности работы полученных детекторов. Показана применимость данного подхода для размножения данных при обучении алгоритмов распознавания изображений объектов, характеризующихся определенной структурой.

Ключевые слова: распознавание изображений, деформирующие искажения, интерполяция, оптический поток, энтропия, метод Виолы-Джонса.

Цитирование: Акимов, А.В. Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы-Джонса / А.В. Акимов, А.А. Сирота // Компьютерная оптика. - 2016. - Т. 40, № 6. - С. 911-918. - DOI: 10.18287/2412-61792016-40-6-911-918.

Введение

Одной из важных задач, которые приходится решать при построении алгоритмов машинного обучения, является формирование обучающей выборки, содержащей множество образов анализируемых объектов. Их поиск и подготовка к использованию часто требуют значительных затрат времени и ресурсов. В ряде случаев сбор необходимого числа таких образов оказывается сложен или даже невозможен из-за специфического характера предметной области.

Решение данной задачи особенно актуально для систем распознавания объектов на изображениях и, в частности, распознавания лиц, базирующихся на реализации современных методов построения алгоритмов машинного обучения. С учетом необходимости обеспечения представительности обучающих данных одним из возможных подходов является искусственное размножение некоторых «опорных» образов на основе стохастических или детерминистских моделей преобразования.

В ряде исследований, например, [1, 2], метод искусственного размножения применяется при работе с несбалансированными обучающими выборками с малым числом примеров. В данных выборках образы одного класса (необязательно речь идет об изображениях) значительно превалируют над образами другого. При этом классы уравновешиваются за счет искусственной генерации новых значений признаков входящих в них элементов на основе результата оценки их статистических параметров, проведенной для исходной выборки.

Также известным подходом в задачах распознавания изображений, связанных с обнаружением объектов в естественной среде, является размножение обучающей выборки за счет искажения перспективы или

изменения освещенности, осуществляемых для моделирования различных условий съемки и положений детектируемых объектов в кадре [3].

Целью данной работы является обоснование и исследование различных моделей искусственного размножения обучающих данных на основе внесения деформирующих искажений (ДИ) в цифровые изображения подлежащих детектированию и имеющих явно выраженные структурные характеристики объектов, а также анализ возможностей применения подобного подхода на примере алгоритма распознавания лиц по методу Виолы-Джонса [4, 5].

Данный алгоритм был выбран в качестве инструмента исследования как один из самых надежных и популярных на данный момент детекторов фронтальных лиц [6]. Метод основан на применении комплекса взаимосвязанных подходов и технологий, в центре которых лежит идея построения точного или, как еще говорят, сильного классификатора путем комбинирования других менее точных или слабых классификаторов [7]. Как и большинство других методов машинного обучения, метод Виолы-Джонса требует подготовки большого набора обучающей выборки. В качестве инструмента при проведении исследований авторами был использован разработанный ими в среде МайаЬ с применением технологии СИБА алгоритм распознавания, содержащий в себе параллельные реализации как процесса обучения, так и процесса принятия решений [8].

1. Математическая модель внесения деформирующих искажений

Математическая модель процесса внесения ДИ для любой исходной функции f (х1,., хп) от п переменных определяется следующим соотношением:

(1)

Д Х + г1(х1,..., хп),..., хп + ги (*!,..., хп)) =

= ДиД Хх,..., Хп),...,и п (X,..., Хп)) = Хр..., Хп),

где %(Х1,.,хИ) - результирующая деформированная функция; г,(х1;...,хп), , = 1,п - функции вносимых деформирующих искажений по каждой координате, которые могут носить детерминированный или стохастический характер. Используя ранее введенные обозначения, а также введя векторы х = (х1,., хп)т, г(х) = (п(х),...,ги(х))т и и(х) = (щ(х),.,ии(х))т, можно записать

Дх + г(х)) = Аи(х)) = %(х).

(2)

При реализации процесса внесения ДИ на основе (1) и (2) возникает ряд особенностей [9]. Первая из них: для того, чтобы значение деформированной функции %(х) = ^и(х)) существовало, область ее определения не должна выходить за пределы области определения исходной функции ^х), т.е. если для ^х) вектор х е Ох, то и вектор и(х) е Ох.

Для обеспечения выполнения условия и(х) е ОХ применимы различные подходы. Один из возможных вариантов состоит в том, чтобы при выходе какой-либо компоненты координат в х + г(х) = и(х) из (2) за границы исходной области определения ОХ в качестве значения данной компоненты и(х) при расчете ^и(х)) подставлять граничное значение соответствующей координаты исходной функции ^х). Преимущество данного подхода состоит в том, что при его применении не ограничиваются значения функции деформации г(х) в случае, когда х + г(х) = и(х) находится в пределах ОХ. Именно этот подход был использован в нашей работе.

Вторая особенность процесса внесения ДИ на основе (1) и (2) состоит в следующем. Если исходная функция Дх) является решетчатой функцией дискретных аргументов, т.е. задана на многомерной дискретной сетке (например, в случае внесения ДИ в цифровые изображения), прямое применение (1) и (2) невозможно; и для обеспечения возможности модификации аргументов Дх) при внесении в них ДИ произвольного характера необходимо предварительно выполнить ее интерполяцию и представление в виде функции Дх) непрерывнозначных аргументов. При этом общая процедура будет соответствовать схеме, представленной на рис. 1.

Утверждение. Пусть: ^х) - функция, заданная на множестве значений п непрерывных аргументов ОХ; Дх) - решетчатая функция, сформированная на многомерной дискретной сетке, покрываемой ОХ; Дх) -функция, интерполированная на основе значений Дх) и определенная на ОХ сОХ; %(х) - деформированная функция на основе внесения ДИ г(х) в ^х) по формуле (1); %(х) - деформированная аналогичным

образом функция на основе внесения ДИ г(х) в Дх);

X - некое связное подмножество значений непрерывных аргументов х е X с ОХ. Пусть также для любого х е X выполняется и(х) е X.

Рис. 1. Схема процесса внесения ДИ в решетчатую функцию

Тогда ошибка |g(x) - g(x)|, возникающая при внесении деформации в интерполированную функцию f(x) , для x е X с Qx не превысит максимальную

ошибку интерполяции |f(x) - f(x)|.

Доказательство. Исходя из сформулированных условий, имеем, что g(x) = f(u(x)) и g(x) = f(u(x)). Вычтем эти два выражения друг из друга и возьмем абсолютные значения разностей в левой и правой части:

D(x) = |g(x) - g(x)| = |f(u(x)) - f(u(x))|.

Пусть U - множество всех значений, принимаемых u(x) внутри X, т.е. u(x) е U с X. Таким образом, функции g(x) = f(u(x)) и D(x) определены на множестве U. При этом функция |f(x) - f(x)| определена на множестве X. Возможны две ситуации.

Первая из них состоит в том, что функция искажения r(x) может оказаться такой, что для некоторого аргумента x(j) е X не найдется такого значения из U, что u(x) = x + r(x) = x( j) (данный элемент не будет использован при деформации). Действительно, достаточно, например, взять r(x) = -x + x(k), для некоторого x(k) е X такого, что x(k) ф x( j). Тогда:

u(x) = x + r(x) = x - x + x(k) = x(k) ф x(j .

max |g(x) - g(x)| = max |f(x) - f(x)| .

Во втором случае, если для данного искажения r(x) для любого x(j) е X найдется x е X такое, что

х(j) = u(x), то U=X, так как каждому x е X соответствует свое уникальное значение u(x) е U, при том, что по определению U с X, и в этом случае max|g(x) - g(x)| = max|f(x) -f(x)| .

Аналогичным образом можно доказать, что min|g(x) - g(x)| > min|f(x) -f(x)| .

Следствие. Ошибка |g(x) - g(x)|, возникающая при деформации интерполированной функции f(x) с областью определения Qx , не выйдет за пределы максимального и минимального значения ошибки интерполяции |f(x) -f(x)| при условии, что u(x) е Qx . Для подтверждения этого следствия достаточно повторить предыдущее доказательство в случае X = Qx.

Таким образом, при внесении ДИ достаточно выполнить u(x) е Qx, что производится при помощи того же описанного выше подхода, что и при обеспечении условия u(x) е Qx. При этом u(x) е Qx автоматически означает, что u(x) е Qx, так как Qx cflx.

Внесение ДИ в рассмотренной схеме может также производиться и обратным образом:

f(xj) = g(u-1(x,)) = g(xj + r-1(x,)),

где r-1(xi) - функция деформации, обратная к r(x2), и x1 с x2 такие, что

f(x2 + r(x2)) = f(u(x2)) = g(x2), x1 = x2 + r(x2), x2 = x1 + r-1(x1).

В некоторых публикациях данную технологию можно обнаружить под названием «варпинг» (warping) [10]. Он используется при «морфинге» (morphing) -процессе постепенного замещения одного изображения другим путем плавных изменений положений, схожих по некоему признаку частей этих двух изображений и интенсивностей их пикселей. Основной областью применения подобных технологий является компьютерная графика в кино и анимации.

2. Модели и алгоритмы внесения деформирующих искажений с целью размножения обучающей выборки

При проведении исследования нами были рассмотрены три модели внесения ДИ с целью искусственного размножения обучающих данных.

Первая модель внесения ДИ основана на применении в качестве функции деформации

r(x) = r(x, y) = {r (x, y), i = 1,2}, гармонических функций (ГФ) вида

rt (x, y) = Ai sin(fflxi-x + ЮуУ + Vi),

где Ai - амплитуда смещения при внесении ДИ, wxi и Wyi - частоты функции деформации по каждой из осей координат изображения и y - фаза.

Значение амплитуды А, ограничивает максимальную величину смещения координат пикселей при внесении ДИ и определяется тем, насколько можно независимо друг от друга сместить черты лица относительно их исходных позиций так, чтобы не разрушить его общую структуру.

Частоты ах, и ау, определяют размеры деталей изображения, которые будут деформироваться. При малых значениях осуществляется смещение и плавная деформация изображения объекта в целом с сохранением его структурных свойств, а при их увеличении -деформируются все более мелкие его части. Исходя из этих соображений используемые в экспериментах значения ах,- и ау,- подбирались так, чтобы период функции деформации г,(х,у) примерно соответствовал размерам основных черт лица на изображении.

Фаза функции деформации у определяет ее смещение, и для обеспечения возможности получения нескольких разных деформированных изображений на основе одного экземпляра исходной обучающей выборки ее значение генерируется случайным образом по равномерному закону на всей области определения Ох.

В итоге реализуемый в соответствии с данной моделью алгоритм состоял в том, что для каждого из изображений исходной обучающей выборки заданное число раз с учетом описанных выше соображений генерировались параметры функции деформации, и на их основе производилось внесение ДИ с целью получить новые изображения.

На рис. 2 показаны примеры результатов внесения ДИ такого типа в изображения лиц, которые могут использоваться в качестве обучающей выборки в методе Виолы-Джонса.

Вторая модель внесения ДИ основана на часто применяемом при реализации морфинга [10, 11] подходе, заключающемся в ручной расстановке соответствий на двух совмещаемых изображениях в виде контрольных точек или контуров. Далее, на основе известных для отмеченных элементов попарных смещений или значений функции деформации в данных точках, при помощи интерполяции или некоторого другого метода находят все остальные значения функции деформации. Одним из используемых при таком подходе способов интерполяции является применение радиально-базисных функций (РБФ) [12].

Рис. 2. Примеры внесения ДИ в изображения лиц с применением гармонической функции деформации (первый столбец слева является исходным)

Реализуемый в соответствии с данной моделью алгоритм состоит в следующем. Для каждого из изображений подлежащей размножению обучающей выборки сначала производится расстановка контрольных точек (Хк, ук), к = 1, т, где число контрольных точек т = 5: по одной на глаз, кончик носа и уголки рта (рис. 3).

Рис. 3. Примеры расстановки контрольных точек на изображениях лиц

Далее рассчитываются средние значения (Хк, ук) и их матрица ковариации, которые используются при генерации случайных положений контрольных точек для новых, искусственно получаемых данных. После этого внесение ДИ в одно из изображений исходной обучающей выборки производится следующим образом.

Генерируется случайный набор координат контрольных точек (Хк, ук) в соответствии с полученными ранее статистическими параметрами их распределения (при генерации вместо средних значений также могут подаваться координаты самих контрольных точек размножаемого изображения). Для каждой из этих точек на основе (1) и (2) рассчитываются значения функции деформации г, (Хк, ук), ,=1,2, в данной точке так, чтобы

^ Хк + г1(Хк, Ук X Ук + г2(Хк, Ук)) =

= Ди(Хк, Ук)) = %(Хк, Ук)

где ^х,у) - деформируемое изображение, а %(х,у) -результат деформации, соответствующий набору случайно сгенерированных положений контрольных точек. При этом (Хк + п(Хк, Ук)), Ук+г2(Хк, Ук)) - координаты контрольных точек деформируемого изображения обучающей выборки.

В данной модели конечные функции деформации г,,(Хк,Ук), ,=1,2 , представляются в виде сумм РБФ-функций:

г,-(x, У) = X т=1 ак. ехР(-

(Х - Хк) + (У - Ук ) 2о2

(3)

где о - ширина окна ЯБГ-функций, аи - неизвестные коэффициенты отображения. Элементам суммы соответствуют ЯБГ-функции с центрами по координатам

(Хк, Ук).

Если для Х и У в координатах контрольных точек (Хк, Ук), к = 1, т , вместо г,(Х, у), поочередно подставлять в (3) известные значения г,(Хк,ук), то для каждой из функций деформации, соответствующей смещению по координатам х или у, получится по системе из т линейных уравнений (число неизвестных также равно т):

X т=1ехр(-

(Хк - Х1)2 +(Ук -У1)2 2о2

■Н =г,- (Хк, Ук X

при к = 1, т .

В матричном виде это эквивалентно следующему уравнению:

ЕА, = Я,-, где матрица Е состоит из элементов

X т=1ехр(-

(Хк - Х1) + (Ук - У1) 2о2

со столбцами, пронумерованными значениями индексов I = 1, т, и строками, пронумерованными значениями к = 1,т , вектор А,- = (а,!,..., а,т)т содержит неизвестные коэффициенты РБФ-функций, и вектор = (г,(Х1,У1),., г,(Хт,Ут))т - известные значения функции деформации соответствующей компоненты изображения в контрольных точках. При этом матрица Е одинакова для всех г,. (Хк, ук), ,=1,2, и не зависит от компоненты изображения.

В простейших вариантах значение о определяется экспериментально путем перебора в заданном диапазоне значений или для каждой контрольной точки и соответствующей ей РБФ-функции выставляется равным расстоянию от нее до ближайшей к ней другой контрольной точки.

Получаемые таким образом системы уравнений не всегда могут иметь стандартное решение А, = Е-^ из-за плохой обусловленности матрицы уравнения или в ситуации, когда число контрольных точек меньше числа используемых для интерполяции функций. В этих случаях применяют методы регуляризации. В большинстве случаев используют расчет псевдообратной матрицы, тогда А, = Е+К,, где Е+ -псевдообратная матрица для Е, или получают решение на основе регуляризации по А.Н. Тихонову

А,, = (И+ЕтЕ)-1 Ет (И,. - ЕА,.0),

где I - единичная матрица размером т * т, 1 - параметр регуляризации, Аю - априорная оценка решения) [13].

На рис. 4 показаны примеры результатов внесения ДИ на основе описанного подхода.

Рис. 4. Примеры внесения ДИ в изображения лиц на основе расстановки контрольных точек и интерполяции функции деформации при помощи РБФ (первый столбец слева является исходным)

Третья модель основана на идеях определения оптического потока (ОП) в процессе изменения положений и ориентации объектов сцены в разные моменты времени или при разных условиях съемки [14,

15]. Вычисление оптического потока состоит в оценке по координатам x и y смещений содержимого сцены, которые и предлагается напрямую использовать в

качестве функций деформации r/ (x, y), /'=1,2 . Существует множество механизмов определения оптического потока [15 - 17]. Каждый из них ограничен своей областью применимости из-за заложенных в него допущений, на основе которых и производится его расчет. Выбранный для данной модели метод Фарне-бака [17] работает следующим образом. Оба изображения (предварительно сглаженные) представляются в виде квадратичных полиномов вида:

f(x) = хт Ax + bx + с ,

где х = (x, y)T, и A, b, с - параметры полинома, значения которых во время его построения вычисляются в соответствии с критерием наименьших квадратов: A - симметричная матрица, b - вектор, с - скаляр. При расчете оптического потока между кадрами f1(x) и f2(x) ищется смещение d, удовлетворяющее уравнениям:

f2 (x) = f1(x - d) = (x - dy A1 (x - d) +

+b1 (x - d) + с1 = xт A2x + b2x + с2.

Для повышения точности используемого приближения построение полинома при этом производится не для всего изображения, а для некоей его области, и, таким образом, все коэффициенты A, b, с и смещение d становятся зависимыми от координат x = (x, y)T: A(x), b(x), c(x) и d(x). Особенностью метода Фарнебака является возможность вычисления потоков большой величины всего для двух соседних по времени кадров за счет итерационного характера расчета d(x) в разных масштабах от меньшего к большему с постепенным уточнением получающихся значений [17].

Из-за специфики предметной области - обработка изображений лиц, разницу между которыми нельзя увязать к смещению положений их пикселей - перед процедурой поиска оптического потока требуется провести дополнительное преобразование. Им является операция наложения фильтра энтропии [18], который для каждой координаты изображения и ее окрестности из n пикселей вычисляется следующим образом. Рассчитываются вероятности , / = 1, n , появления каждого значения интенсивности пикселя в данной области, и на их основе - энтропия ее центрального пикселя:

е(А У) = -Х П=1 Р/ log Р/

где е(х, у) - результат наложения фильтра, который и используется для поиска оптического потока.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, изображения лиц заменяются образами, отражающими их основную структуру. В них мелкие черты лица соответствуют высоким значениям энтропии, а фон и кожа лба и щек - более низким (рис. 5).

В итоге размножение изображений обучающей выборки осуществлялось следующим образом. На каждое из них производилось наложение фильтра энтропии и вычисление е(х, у). После чего рассчитыва-

лись выборочные параметры энтропии: среднее и матрица ковариации.

Рис. 5. Примеры наложения фильтра энтропии на изображения лиц

Далее, при размножении каждого изображения исходной обучающей выборки производилась генерация случайных значений энтропии её(х, у) и расчет

функции деформации г,. (х, у), ¿=1,2, путем вычисления оптического потока между сгенерированным значением энтропии и энтропией размножаемого изображения. Полученный результат г (х, у), ¿=1,2, и использовался при внесении ДИ в качестве функции деформации. На рис. 6 показаны примеры работы алгоритма, основанного на данной модели.

Рис. 6. Примеры внесения ДИ в изображения лиц на основе наложения фильтра энтропии и расчета ОП (первый столбец слева является исходным)

3. Результаты экспериментальных исследований

Для оценки влияния искусственного размножения элементов обучающей выборки на качество детектирования были проведены эксперименты по обучению детекторов лиц по методу Виолы-Джонса с последующими замерами точности их работы. Обучение было осуществлено с использованием пяти вариантов формирования обучающих выборок:

- оригинальная, содержащая 4916 изображений лиц, собранных и подготовленных вручную авторами метода Виолы-Джонса [4, 5];

- усеченная, содержащая 492 изображения лиц из числа изображений оригинальной выборки;

- три искусственно размноженные выборки, содержащие по 4916 изображений лиц, из которых 492 изображения принадлежали усеченному набору изображений, а остальные (по 9 на каждое из исходных) сгенерированы искусственно, путем внесения ДИ на основе каждой из описанных выше моделей. Оценка качества детектирования производилось

следующим образом. Для каждого детектора модифицировался порог его реагирования, и в соответ-

ствии с полученными откликами были построены зависимости относительной частоты правильно найденных лиц от числа ложных срабатываний (рис. 7). В качестве изображений для тестирования был использован специальный набор изображений из выборки CMU+ MIT [19], часто применяемый для сравнения работы детекторов фронтальных лиц и содержащий 42 изображения со 170 лицами.

Число ложных детектирований

Рис. 7. Зависимости для относительной частоты

правильно найденных лиц от числа ложных срабатываний,

полученные при обучении по оригинальной и усеченной выборкам, а также с использованием трех рассмотренных моделей размножения обучающих данных

В табл. 1 представлены типичные результаты, полученные для каждого из детекторов при схожем числе ложных срабатываний.

Табл. 1. Относительные частоты правильно найденных лиц при схожем числе ложных срабатываний, полученные при обучении по оригинальной и усеченной выборкам, а также с использованием трех рассмотренных моделей размножения обучающих данных

Оригинальная Усеченная ГФ РБФ ОП

Процент найденных лиц 83,53 59,41 78,23 79,41 82,94

Число ложных срабатываний 26 22 19 25 18

Анализ данных табл. 1 и полученных зависимостей (рис. 7) показывает, что при схожем числе ложных срабатываний детектор, обученный с использованием усеченной выборки, стабильно выдает результаты хуже оригинального примерно на 20 %. В то же время детекторы, основанные на трех рассмотренных выше моделях размножения элементов обучающих данных путем внесения в них ДИ, дают сравнимый с оригиналом результат с отклонением от него по большей части в пределах 5 %. Таким образом, показано значительное увеличение точности их работы при сравнении с классификатором, основанным на усеченной обучающей выборке (которая и была использована для размножения).

Заключение

Полученные результаты позволяют говорить о применимости данного подхода к задачам построения

детекторов обнаружения объектов, имеющих ярко выраженные структурные характеристики, для сокращения затрат на поиск и подготовку обучающих данных, а также в условиях невозможности сбора достаточного для начала процесса обучения количества элементов тренировочной выборки.

Литература

1. Guo, H. Learning from Imbalanced data sets with boosting and data generation: the DataBoost IM approach / H. Guo, H.L. Viktor // ACM SIGKDD Explorations Newsletter. - 2004. -Vol. 6(1). - P. 30-39. - DOI: 10.1145/1007730.1007736.

2. Chawla, N. SMOTE: synthetic minority over-sampling technique / N. Chawla, K. Bowyer, L. Hall, W. Kegelmeyer // Journal of Artificial Intelligence Research. - 2002. -Vol. 16(1). - P. 321-357. - DOI: 10.1613/jair.953.

3. Жуковский, А.Е. Синтез обучающей выборки на основе реальных данных в задачах распознавания изображений / А.Е. Жуковский, С.А. Усилии, Н.А. Тарасова, Д.П. Николаев // Информационные технологии и системы (ИТиС'12): сборник трудов конференции. -М., 2012. - C. 377-382.

4. Viola, P. Rapid object detection using a boosted cascade of simple features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2001. - 2001. - Vol. 1. -P. 511-518. - DOI: 10.1109/CVPR.2001.990517.

5. Viola, P. Robust real-time face detection / P. Viola, M. Jones // International Journal of Computer Vision. -2004. - Vol. 57(2). - P. 137-154. - DOI: 10.1023/B:VI-SI.0000013087.49260.fb.

6. Калиновский, И.А. Обзор и тестирование детекторов фронтальных лиц / И.А. Калиновский, В.Г. Спицын // Компьютерная оптика. - 2016. - Т. 40, № 1. - С. 99111. - DOI: 10.18287/2412-6179-2016-40-1-99-111.

7. Freund, Y. A short introduction to boosting / Y. Freund, R. Schapire // Journal of Japanese Society for Artificial Intelligence. - 1999. - Vol. 14(5). - P. 771-780.

8. Акимов, А.В. Разработка и исследование алгоритмов распознавания изображений на основе метода Виолы-Джонса с использованием технологии вычислений на графических процессорах CUDA / А.В. Акимов, А.А. Сирота // Вестник ВГУ, Серия: Системный анализ и информационные технологии. - 2014. - № 3. - С. 100-108.

9. Акимов, А.В. Модели и алгоритмы внесения деформирующих искажений на изображениях с использованием радиально-базисных функций / А.В. Акимов, М.А. Дрюченко, А.А. Сирота // Вестник ВГУ, Серия: Cистемный анализ и информационные технологии. -2014. - № 1. - С. 130-137.

10. Wolberg, G. Image morphing: a survey / G. Wolberg // The Visual Computer. - 1998. - Vol. 14(8). - P. 360-372. - DOI: 10.1007/s003710050148.

11. Steyvers, M. Morphing techniques for manipulating face images / M. Steyvers // Behavior Research Methods, Instruments, & Computers. - 1999. - Vol. 31(2). - P. 359369. - DOI: 10.3758/BF03207733.

12. Arad, N. Image warping by radial basis functions: applications to facial expressions / N. Arad, N. Dyn, D. Reisfeld, Y. Yeshurun // CVGIP: Graph Models Image Processing. -1994. - Vol. 56, Issue 2. - P. 161-172. - DOI: 10.1006/cgip.1994.1015.

13. Сизиков, В.С. Устойчивые методы обработки результатов измерений: Учебное пособие / В.С. Сизиков. -СПб.: СпецЛит, 1999. - 240 с.

14. Brown, L.G. A survey of image registration techniques / L.G. Brown // ACM Computing Surveys. - 1992. -Vol. 24(4). - P. 325-376. - DOI: 10.1145/146370.146374.

15. Barron, J. Performance of optical flow techniques / J. Barron, D. Fleet, S. Beauchemin // International Journal of Computer Vision. - 1994. - Vol. 12(1). - P. 43-77. - DOI: 10.1007/BF01420984.

16. Horn, B. Determining optical flow / B. Horn, B. Schunk // Artificial Intelligence. - 1981. - Vol. 17(1-3). - P. 185203. - DOI: 10.1016/0004-3702(81)90024-2.

17. Farneback, G. Two-frame motion estimation based on polynomial expansion / G. Farneback // Proceedings of the

13th Scandinavian Conference on Image Analysis, Halm-stad, Sweden, June 29 - July 02, 2003. - 2003. - P. 363370. - DOI: 10.1007/3-540-45103-X_50.

18. Gonzalez, R.C. Digital image processing using MATLAB / R.C. Gonzalez, R.E. Woods, S.L. Eddins. - 2nd ed. - New Jersey: Prentice Hall. - 2009. - 826 p. - ISBN: 9780982085400.

19. CMU/VASC image database: Frontal face images [Electronical Resource]. - URL: http://vasc.ri.cmu.edu/idb/html/fa-ce/frontal_images/index.html (дата обращения 30.10.2016).

Сведения об авторах

Акимов Алексей Викторович, 1990 года рождения, в 2013 году окончил магистратуру Воронежского государственного университета по специальности «Информационные системы и технологии». Аспирант кафедры технологий обработки и защиты информации Воронежского государственного университета. Область научных интересов: распознавание изображений, машинное обучение. E-mail: [email protected] .

Сирота Александр Анатольевич, 1954 года рождения, в 1976 году окончил Воронежский государственный университет по специальности «Радиофизика и электроника». Доктор технических наук (1995 год), профессор, заведует кафедрой технологий обработки и защиты информации Воронежского государственного университета. Область научных интересов: синтез и анализ систем сбора и обработки информации, методы и технологии компьютерного моделирования информационных процессов и систем, системный анализ в сфере информационной безопасности, компьютерная обработка изображений, нейронные сети и нейросетевые технологии в системах принятия решений. E-mail: [email protected] .

ГРНТИ: 28.23.15

Поступила в редакцию 15 августа 2016 г. Окончательный вариант - 3 ноября 2016 г.

SYNTHETIC DATA GENERATION MODELS AND ALGORITHMS FOR TRAINING IMAGE RECOGNITION ALGORITHMS USING THE VIOLA-JONES FRAMEWORK

A. V. Akimov 1, A.A. Sirota1 1 Voronezh State University, Voronezh, Russia

Abstract

The paper describes mathematical models and algorithms of warping grid functions with discrete parameters. For images, three warping models, applied to the generation of extra training data to build face recognition algorithms, are examined: the one based on harmonic functions, the one based on offsetting user-specified control point coordinates, and the one based on the computation of the optical flow between entropy-filtered images. For the training sets, both initial and those synthetically generated using the above three models, learning of face detection algorithms based on the ViolaJones framework was performed and corresponding detection rates were compared. It is shown that this approach is applicable for synthetic data generation when training image recognition algorithms for recognition of objects characterized by inherent structure.

Keywords: image recognition, warping, interpolation, RBF, optical flow, entropy, Viola-Jones framework.

Citation: Akimov AV, Sirota AA. Synthetic data generation models and algorithms for training image recognition algorithms using the Viola-Jones framework. Computer Optics 2016; 40(6): 911-918. DOI: 10.18287/2412-6179-2016-40-6-911-918.

References

[1] Guo H, Viktor HL. Learning from imbalanced data sets with boosting and data generation: the DataBoost IM approach. ACM SIGKDD Explorations Newsletter 2004; 6(1): 30-39. DOI: 10.1145/1007730.1007736.

[2] Chawla N, Bowyer K, Hall L, Kegelmeyer W. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research 2002; 16(1): 321-357. DOI: 10.1613/jair.953.

[3] Zhukovsky A, Usilin S, Tarasova N, Nikolaev D. Synthetic training sets based on real data in the problems of image

recognition [In Russian]. Proceedings of the Conference "Information Technology and Systems (ITaS'12)", Moscow 2012; 377-382.

[4] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2001; 1: 511-518. DOI: 10.1109/CVPR.2001.990517.

[5] Viola P, Jones M. Robust real-time face detection. International Journal of Computer Vision 2004; 57(2): 137-154. DOI: 10.1023/B:VISI.0000013087.49260.fb.

[6] Kalinovskii IA, Spitsyn VG. Review and testing of frontal face detectors. Computer Optics 2016; 40(1): 99-111. DOI: 10.18287/2412-6179-2016-40-1-99-111.

[7] Freund Y, Schapire R. A Short Introduction to Boosting. Journal of Japanese Society for Artificial Intelligence 1999; 14(5): 771-780.

[8] Akimov AV, Sirota AA. Design and analysis of algorithms for image recognition based on the method of Viola-Jones using computing technology on GPU CUDA [In Russian]. Vestnik VSU, Series: System Analysis and Information Technology 2014; 3: 100-108.

[9] Akimov AV, Dryuchenko MA, Sirota AA. Models and algorithms for making distorting distortion in images using radial basis functions [In Russian]. Vestnik VSU, Series: System Analysis and Information Technology 2014; 1: 130-137.

[10] Wolberg G. Image Morphing Survey. The Visual Computer 1998; 14(8): 360-372. DOI: 10.1007/s003710050148.

[11] Steyvers M. Morphing Techniques for Manipulating Face Images. Behavior Research Methods, Instruments, & Computers 1999; 31(2): 359-369. DOI: 10.3758/BF03207733.

[12] Arad N, Dyn N, Reisfeld D, Yeshurun Y. Image warping by radial basis functions: applications to facial expressions.

CVGIP: Graph Models Image Processing 1994; 56(2): 161-172. DOI: 10.1006/cgip.1994.1015.

[13] Sizikov VS. Robust methods of processing measurement results. Tutorial [In Russian]. Saint-Petersburg: "SpecLit" Pulisher; 1999.

[14] Brown LG. A survey of image registration techniques. ACM Computing Surveys 1992; 24(4): 325-376. DOI: 10.1145/146370.146374.

[15] Barron J, Fleet D, Beauchemin S. Performance of Optical Flow Techniques. International Journal of Computer Vision 1994; 12(1): 43-77. DOI: 10.1007/BF01420984.

[16] Horn B, Schunk B. Determining Optical Flow. Artificial Intelligence 1981; 17(1-3): 185-203. DOI: 10.1016/0004-3702(81)90024-2.

[17] Farneback, G. Two-Frame Motion Estimation Based on Polynomial Expansion. Proc SCIA'03 2003; 363-370. DOI: 10.1007/3-540-45103-X_50.

[18] Gonzalez RC, Woods RE, Eddins SL. Digital image processing using MATLAB. 2nd ed. New Jersey: Prentice Hall; 2009. ISBN: 978-0982085400.

[19] CMU/VASC image database: Frontal face images. Source: (http://vasc.ri.cmu.edu/idb/html/face/frontal_images/in-dex.html).

Authors' information

Alexey Viktorovich Akimov (b. 1990) graduated from Voronezh State University in 2013 with master's degree in Information Systems and Technology. Currently postgraduate student at Information Processing and Security Technologies chair at Voronezh State University. Research interests: image recognition, machine learning. E-mail: [email protected] .

Alexander Anatolievich Sirota (b. 1954) graduated from Voronezh State University in 1976 majoring in "Radiophysics and Electronics". Professor, Doctor of Technical Sciences (since 1995). Currently head of Information Processing and Security Technologies chair at Voronezh State University. Research interests: analysis and design of information collection and processing systems, methods and techniques of information processes and systems computer modeling, system analysis in information security, digital image processing, neural networks and neural network technologies in decision-making systems. E-mail: [email protected] .

Received August 15, 2016. The final version - November 3, 2016.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Акимов Алексей Викторович, Сирота Александр Анатольевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Акимов Алексей Викторович, Сирота Александр Анатольевич

Synthetic data generation models and algorithms for training image recognition algorithms using the Viola-Jones framework

Текст научной работы на тему «Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы–Джонса»