УДК 004.032.26
РАСПОЗНАВАНИЕ АГРЕССИВНЫХ ДЕЙСТВИЙ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР 3D-CNN
М.Ю. Уздяев
Рассмотрена проблема распознавания агрессивных действий человека на основе RGB-видеоданных при помощи трехмерных сверточных нейронных сетей. Показано сравнительное исследование трех моделей нейронных сетей данного типа с целью выявления наиболее эффективной из них для решения специфичной задачи распознавания агрессивных действий: Convolutional 3D Neural Network (C3D), Inception 3D Neural Network (I3D), Residual 3D Neural Network (R3D). Оценка эффективности работы нейросетевых архитектур проводилась при помощи следующих метрик: доли правильных ответов, точности классификации, полноты, fl-меры и значения функции потерь. Архитектура I3D показала лучшие результаты по сравнению с C3D и R3D по всем показателям. Данная модель позволяет обрабатывать кадры с более высоким разрешением, что вносит наибольший вклад в повышение точности классификации, поскольку позволяет расширить пространственную обработку визуальных объектов на кадрах видеопотока.
Ключевые слова: распознавание действий, распознавание агрессивных действий, трехмерные сверточные нейронные сети, перенос знаний.
Введение. В последние годы широкое распространение получили системы наружного видеонаблюдения. В качестве опасного поведения можно выделить драки, нападения, ограбления, массовые столкновения, потасовки и т.д. Кроме того, необходимо противодействовать распространению видеоконтента, содержащего агрессивные действия в сети Интернет [1]. Ввиду цифровизации современного общества задача выявления агрессивных действий требует разработки новых подходов и методов, учитывающих современные технологии генерации, распространения и обработки информации. Большое количество видеоматериала, получаемого с камер наружного наблюдения, а также необходимость анализировать большой объем видеоконтента, загружаемого в сеть Интернет, делает актуальной задачу разработки автоматических методов распознавания агрессивных действий человека на видео.
Развитие нейросетевых технологий делает возможным проведение интеллектуального анализа Интернет-контента с целью оценки поведения человека и выявления агрессивных действий. Задача распознавания агрессивных действий человека является частным случаем распознавания двигательной активности человека. Специфика самой проблемы распознавания агрессивного поведения заключается в выделении одного вида двигательной активности из всего многообразия моделей поведения человека. Таким образом, для распознавания агрессивной поведенческой активности наилучшим образом подходит использование методов бинарной классификации.
В данной работе предложено применение подхода переноса знаний для распознавания агрессии на видеоизображении с использованием трех моделей трехмерных сверточных искусственных нейронных сетей (ИНС) в качестве экстрактора признаков. Статья организована следующим образом: в разделе 1 представлен обзор современных подходов к распознаванию агрессии на изображении. В разделе 2 описан предлагаемый подход, архитектура обучаемых классификаторов и трех моделей ИНС, используемых в качестве экстракторов признаков, а также обучающая и тестовая выборки. Раздел 3 содержит описание экспериментов и результаты тестирования трех обученных моделей ИНС.
1. Анализ известных подходов к распознаванию агрессии на видеоизображении. Рассмотрим общий процесс распознавания двигательной активности человека на кадрах видеопотока. Сам процесс движения в видеопотоке представляется в виде пространственного изменения значений пикселей, относящихся к визуальным объектам, на каждом кадре. Таким образом, с помощью выявления и анализа динамики движения пикселей визуальных объектов на кадрах можно выполнять распознавание двигательной активности субъекта. Схема, описывающая процесс автоматического распознавания двигательной активности человека приведена на рис. 1.
Рис. 1. Процесс распознавания двигательной активности человека
На вход системы выделения признаков поступают кадры видеопотока, после чего в блоке выделения признаков выполняется отбор наиболее значимых пространственно-временных признаков визуальных объектов на обрабатываемых кадрах согласно выбранным дескрипторам. В качестве таких дескрипторов могут использоваться различные методы анализа как отдельных кадров видеопотока (гистограммные признаки, спектральные признаки, SIFT (масштабно-инвариантные преобразования признаков), SURF (ускоренные устойчивые признаки), HOG (гистограмма направленных градиентов), CNN (сверточная нейронная сеть) и др.), так и их последовательности. Выбранные признаки поступают на вход блока анализа динамики признаков, который может быть представлен, в частности, скрытой марковской моделью, методом определения разности между признаками двух кадров, рекуррентной ИНС. Зачастую классификация признаков осуществляется при помощи метода опорных векторов (SVM, support vector machine), однако также можно использовать и другие методы: softmax-классификацию, логистическую регрессию и решающие деревья. Важно отметить, что блок выделения признаков и блок временного анализа могут
317
быть объединены в один блок пространственно-временного анализа динамики признаков. В работе [2] представлен метод, основанный на применении локальных бинарных дескрипторов движения с использованием в качестве классификатора SVM. Данный метод показал точность распознавания 80%. Подход, предложенный в [3] основан на применении дескриптора пространственно-временных точек интереса (spatio-temporal interest points - STIP) и SVM классификатора. Точность классификации в рамках данного метода составила 99,5%. Авторами работы [4] был предложен метод применения дескриптора MoSIFT для выделения пространственно-временных признаков агрессивных действий на кадрах видеопотока и классификации выделенных признаков с помощью SVM. Данный метод позволяет достичь 91,7% точности классификации. Также в данной работе представлены наборы видеороликов Movies и HockeyFights, содержащих различные агрессивные действия. В работе [5] представлен комбинированный дескриптор, состоящий из гауссовской модели оптического потока (Gaussian Model of Optical Flow - GMOF) и гистограммы оптического потока (Histogram of Optical Flow - OHOF). Признаки, полученные с помощью этого дескриптора, классифицируются с помощью SVM с результатом 86,7% точности. Кроме того, данный метод имеет высокую скорость обработки кадров, составляющую 36 мс на один кадр. Авторами работы [6] предложен новый метод, использующий сверточно-рекуррентную нейросетевую архитектуру в задаче распознавания агрессивных действий человека. Данная архитектура использует сверточную ИНС (Convolutional Neural Network - CNN) для выделения пространственных признаков визуальных объектов на кадрах видеопотока и временной анализ динамики следования этих признаков с помощью рекуррентной нейросети архитектуры долгой краткосрочной памяти (Long-Short Term Memory - LSTM) [7]. Кроме того, данный подход также характерен параллельной обработкой как RGB-кадров видеопотока, так и кадров оптического потока. Данный метод позволяет достичь 93,9% точности классификации агрессивных действий. В подходе [8] применяется архитектура сверточной LSTM [9], для анализа последовательности пространственных признаков кадров видеопотока. В отличие от обычной архитектуры LSTM, у которой ключевые элементы представляют полносвязные ИНС, в сверточной LSTM ключевые элементы используют операцию свертки. Данный метод позволяет достичь 94,57% точности распознавания агрессивных действий. Авторами подхода [10] предлагается использовать двунаправленную LSTM для распознавания агрессивных действий на видеопотоке с камер наружного наблюдения, используя только RGB-кадры видео. Данный метод имеет 88.7% точность распознавания агрессивных действий. В работе [11] впервые было предложено использовать трехмерные сверточные нейронные сети для распознавания агрессивных действий человека на основе анализа черно-белых кадров видеопотока. Данный метод имеет точность распознавания 91%. Нейросетевая архитектура FightNet, представленная в [12], позволяет выполнять классификацию агрессивных действий человека на основе анализа
с помощь архитектуры C3D RGB-кадров видео, кадров оптического потока, а также кадров ускорения объектов в видео. Точность данного метода составляет 97,4%. В работе [13] представлен новый алгоритм выбора ключевых кадров, основанный на вычислении центра масс черно-белых кадров видеопотока. Далее выполняется обработка ключевых кадров с помощью архитектуры C3D. Данный подход позволяет достичь 94,3% точности.
При решении задач классификации большого количества действий человека высокую эффективность демонстрируют архитектуры трехмерных сверточных ИНС 3D CNN [14]. Такие ИНС выполняют пространственно-временной анализ динамики признаков визуальных объектов на кадрах видеопотока с последующей классификацией действий. Однако применение 3D CNN для распознавания агрессивных действий и сравнительный анализ различных архитектур ИНС данного типа освещены в научной литературе недостаточно хорошо.
Важно отметить, что многие методы распознавания агрессивных действий человека, основанные на 3D CNN, подразумевают совместный анализ RGB-кадров видеопотока и кадров оптического потока. Такой подход обеспечивает высокую точность распознавания, так как кадры оптического потока уже содержат информацию о движущихся объектах. Однако операция выделения кадров оптического потока из RGB-видео затратна с точки зрения вычислительных мощностей [15]. Кроме того, совместная обработка RGB-кадров и кадров оптического потока при помощи архитектур 3D CNN является неэффективной с точки зрения длительности обработки и обучения. При решении задач классификации обучение глубоких нейросетевых архитектур осложняется необходимостью использовать репрезентативные наборы данных большого размера с множеством классов. С другой стороны, специфические наборы данных, описывающие, в частности, насильственные действия, обычно не обладают достаточной репрезентативностью. В данном контексте целесообразно применять подход переноса знаний (transfer learning), при котором сначала выполняется экстракция характерного представления или вектора признаков с помощью некоторой предобученной модели, после чего полученный вектор поступает на вход многослойной ИНС прямого распространения для классификации. При этом, в качестве входных данных 3D CNN применяются только RGB- видеопоток. Также в работе представлены результаты сравнительного анализа 3D CNN различных архитектур на основании следующих метрик: доли правильных ответов (accuracy), точности (precision), полноты (recall), fl-меры (f1-score) и значения функции потерь (loss function values). Рассмотрим другие известные подходы к распознаванию агрессивных действий на видеоизображении.
2. Предлагаемый подход к решению задачи распознавания. Отмечается, что для решения специфических задач обучение глубоких свер-точных ИНС может быть неэффективным с точки зрения длительности обучения и вычислительных затрат [16]. В этом случае целесообразно применять подход переноса знаний, при котором глубокая ИНС сначала
319
обучается на выборке большого размера, а затем используется в качестве экстрактора признаков. После этого полученные признаки используются для обучения классификатора. Целесообразность дообучения модели трехмерной сверточной сети 3D CNN на специфических данных доказана в [17, 18]. На рис.2 показана обобщенная архитектура ИНС для распознавания специфических действий, использующая подход переноса знаний. На вход предобученной 3D CNN поступают кадры видеопотока, после чего происходит выделение пространственно-временных признаков обработанных кадров. Полученный вектор признаков поступает на вход полносвязной ИНС прямого распространения, являющейся классификатором специфических действий человека. При этом выполняется обучение только классификатора, а параметры экстрактора признаков фиксируются.
Рис. 2. Обобщенная архитектура нейросетевой системы
на основе 3D CNN
В предлагаемом подходе в качестве экстракторов признаков используются следующие трехмерные сверточные архитектуры: Convolution-al 3D Neural Network (C3D) [19], Inception 3D (I3D) [17], 3D Neural Network (R3D) [18, 20]. Данные архитектуры были выбраны ввиду их высокой эффективности при решении общих задач на распознавание действий человека. Рассмотрим каждую из этих моделей сверточных ИНС подробнее.
2.1. Архитектура сверточной ИНС C3D. Особенность архитектуры Convolutional 3D Neural Network (C3D) заключается в последовательном чередовании сверточных слоев и слоев пулинга. При этом размер каждого фильтра для всех слоев одинаков и равен 3*3x3 с шагом, равным 1, по каждому измерению трехмерной свертки. Размер поля во всех слоях субдискретизации или пулинга составляет 2x2x2 с шагом, равным 2. Выходом данной ИНС является двухслойный полносвязный классификатор с матрицами весов размером 4096*4096 каждая. Фактически, архитектура C3D заимствует архитектуру сверточной сети VGG [21], использующуюся для распознавания объектов на изображениях. В работе [21] приведено обоснование архитектурных элементов - сверточных фильтров размером 3*3 и операций субдискретизации с полем размером 2*2. Применение сверточных слоев с фильтрами размером 3*3 обусловлено следующими факторами: сохранение размера рецептивного поля [22] ИНС; повышение дискриминационных свойств при обработке пространственной информации на изображениях; снижение количества настраиваемых параметров ИНС. Данные факторы применимы и для архитектуры C3D. Архитектура C3D приведена на рис. 3.
Рис. 3. Архитектура C3D
ИНС данной архитектуры способна обрабатывать фрагменты видео длиной 16 кадров каждый, при этом размер каждого RGB-кадра составляет 112^112 пикселей. В качестве экстрактора признаков была выбрана модель архитектуры C3D, предварительно обученная общей задаче классификации 487 действий человека на множестве данных Sports-1M [23]. Согласно [19], архитектура C3D, обученная на наборе Sports-1M, позволяет достичь 90,8% точности в общей задаче распознавания действий.
2.2. Архитектура сверточной ИНС I3D. Подробнее рассмотрим подробнее архитектурные особенности ИНС Inception 3d (I3D). Характерным отличием данной архитектуры является применение 3D Inception блоков [24] для пространственно-временного анализа признаков движения визуальных объектов в видеопотоке. Архитектура используемого Inception блока приведена на рис. 4. Inception блоки представляют собой аналоги блоков в ИНС Inception-V1 [24], где карта признаков, полученная на предыдущем слое параллельно обрабатывается четырьмя различными ветвями. Первая ветвь представляет собой свертку с фильтром размером 1^1x1, вторая и третья ветви содержат по два последовательных сверточ-ных слоя с фильтрами размером 1x1x1 и 3x3x3 соответственно, а третья ветвь содержит два последовательных слоя - Max-Pool с полем размером 3x3x3 и сверточного слоя размером 1x1x1. Далее формируется результирующая карта признаков с помощью конкатенации карт признаков, полученных с помощью всех четырех ветвей модуля Inception. Обоснование применения сверточных слоев с фильтрами размером 3x3x3 приведено в разделе, посвященном C3D. Применение сверточных слоев с фильтрами размером 1x1x1 обусловлено необходимостью эффективного сокращения количества карт признаков с сохранением наиболее значимой информации на этих картах. Применение Inception блоков, в свою очередь, мотивировано тем, что данные модули позволяют выделять существенные признаки без увеличения количества карт признаков. Данная особенность позволяет существенно сократить количество настраиваемых параметров ИНС без потери точности ее работы.
Архитектурные особенности I3D приведены на рис. 4. Первые слои архитектуры I3D представляют собой последовательное чередование трехмерных сверточных и слоев пулинга. Затем происходит чередование последовательностей слоев пулинга и блоков Inception. Выход ИНС представляет собой трехмерный сверточный слой размера 1x1x1. При этом выходная карта признаков этого слоя представлена вектором, размер которого соответствует количеству классов действий. ИНС данной архитектуры способна обрабатывать фрагменты видео различной длительности с разме-
321
ром каждого кадра 224*224 пикселей. В качестве экстрактора признаков была выбрана модель архитектуры I3D, которая была предварительно обучена общей задаче классификации 400 действий человека на наборе данных Kinetics [25]. Архитектура I3D представлена на рис. 5.
Рис. 4. Архитектура Inception блока
Рис. 5. Архитектура ИНСI3D
Согласно [17], описанная архитектура R3D позволяет достичь 73,7% точности в общей задаче распознавания действий на наборе данных Kinetics при обработке только RGB-кадров видео.
2.3. Архитектура сверточной ИНС R3D. Архитектура Residual 3D Neural Network (R3D) является аналогом 2D-архитекгуры ResNet [26]. Основной архитектурной составляющей этой сети является Residual Block (остаточный блок), который изображен на рис. 6.
Главной отличительной особенностью этого блока является учет на выходе блока карты признаков. Рассмотрим подробнее используемую в данной работе архитектуру Residual. Сверточная часть Residual блока состоит из трех последовательных блоков, каждый из которых представлен сверточным слоем, слоем пакетной нормализации [27] и функцией активации ReLU [28]. Пакетная нормализация выполняет функцию нормализации данных, обрабатываемых в процессе обучения ИНС, что позволяет заметно
322
ускорить сходимость алгоритма обучения сети. Как указано в [26], при увеличении количества слоев в глубоких сверточных ИНС, результативность их работы резко падает. Это происходит потому, что по мере увеличения количества слоев происходит потеря значимых признаков. Для этого и были разработаны остаточные блоки, где на выходе блока происходит учет информации, полученной блоком на входе. Учет информации выполняется с помощью операции поэлементного суммирования входной и выходной карт признаков.
Рис. 6. Архитектура Residual Block ИНС R3D
ИНС данной архитектуры способна обрабатывать фрагменты видео длиной 16 кадров размером 112x112 пикселей. В качестве экстрактора признаков была выбрана модель архитектуры R3D, которая была предварительно обучена общей задаче классификации 400 действий человека на наборе данных Kinetics [25]. Архитектура 3D ResNet приведена на рис. 7.
Conv 7x7x7 stride i хб4 Residual Residual
> 3x3x3,64 хЗ 3x3x3,128 х4
Fully connected 2048x400
AvgPool Residual
3x3x3. •*- 3x3x3.512
stnde2 хЗ
Residual
3x3x3,256 хб
Softmax
Рис. 7. Архитектура ИНС R3D
323
Архитектура R3D позволяет достичь 73,7% точности в общей задаче распознавания действий на наборе данных Kinetics.
2.4. Архитектуры обучаемых классификаторов. Для каждой из выбранных моделей были разработаны полносвязные нейросетевые клас-сификаторыв виде полносвязной многослойной ИНС прямого распространения. В качестве активационных функций каждого слоя, за исключением выходного, была выбрана функция активации ReLU. Для обеспечения устойчивости обучения после каждого слоя была применена операция прореживания (dropout) [29] с вероятностью прореживания, равной 0,5. Выход у всех классификаторов является полносвязным слоем с единственным выходом и сигмоидальной функцией активации. Рассмотрим подробнее архитектурные особенности каждого классификатора.
В модели с экстрактором признаков C3D признаки были получены после полносвязного слоя fc6, выход которого имеет 4096 канала. Классификатор для этого экстрактора признаков представляет собой четырех-слойную полносвязную ИНС прямого распространения со слоями размером 4096x1024, 1024x256, 256x32, 32x1 соответственно.
В модели с I3D в качестве экстрактора признаков признаки были получены после слоя AvgPool (2x7x7). Вход классификатора является 3D сверточным слоем со сверткой размером 1x1x1 со входом, обладающим размером 1024 канала, и выходом, размер которого составляет 512 каналов. Карта признаков, полученная с первого слоя классификатора подается на двухслойную полносвязную ИНС прямого распространения со слоями размером 512x32 и 32x1 соответственно.
В модели с экстрактором признаков R3D в качестве экстрактора признаков, признаки были получены после полносвязного слоя fc 2048x400. Классификатор представляет собой двухслойную полносвязную ИНС прямого распространения со слоями размером 400x32 и 32x1 соответственно.
Описанные выше нейросетевые классификаторы позволяют выполнять сложную нелинейную обработку данных, полученных с помощью рассмотренных ИНС 3D CNN. Данные конфигурации классификаторов были подобраны эвристически. При этом соблюдался следующий принцип: с увеличением глубины классификатора должен уменьшаться размер обрабатываемых признаков. это позволяет выделить наиболее значимые признаки, что в результате повышает эффективность классификаторов.
Для обучения и тестирования трех моделей ИНС необходимо сформировать соответствующие выборки данных. В данном случае для решения специфичной задачи распознавания агрессии наборы видеоданных должны содержать опасное деструктивное поведение людей в различных ситуациях.
2.5. Описание наборов видеоданных. Для обучения и тестирования трехмерных сверточных архитектур с использованием подхода переноса знаний были выбраны наборы данных, содержащие видеопоследовательности с дейтсвиями человеческой агрессии: драками, потасовками, столкновениями, проявлениями массовых беспорядков и т.д. В качестве обучающей и тестовой выборок были выбраны наборы HockeyFights, Mov-
324
ies [30], ViolentFlow [31]. Набор данных HockeyFights содержит 500 видео трансляций, матчей НХЛ продолжительностью около 1,5 с, содержащих хоккейные драки, взятые из. Кадры видеопотока имеют разрешение 360x288 пикселей. Набор Movies включает в себя 100 видеороликов продолжительностью около 1,5 с. и с разрешением 720x576 пикселей. Набор ViolentFlow содержит 123 видеоролика продолжительностью от 2 до 10 с и с разрешением 320x240 пикселей. Видеоролики ViolentFlow содержат проявления насильственных действий в толпе.
Для увеличения репрезентативности обучающей выборки был сформирован результирующий набор данных, состоящий из экземпляров каждого из рассмотренных наборов видеороликов. Так как размер HockeyFights намного больше, чем других наборы, то в результирующую выборку видеоданных были включены только 140 экземпляров каждого набора, выбранных случайным образом. Примеры кадров из результирующего набора видеоданных приведены на рис. 8.
(а) (Ь)
Рис. 8. Кадры из набора видеоданных. Примеры насильственных (а) ненасильственных (Ь) действий
Размер итогового набора данных составил 1087 экземпляров и был разбит на обучающую (869 видео) и тестовую (218 видео) выборки. При этом, был сохранено соотношение количества экземпляров исходных наборов данных в обучающей и тестовой выборках.
3. Тестирование. Представленные модели ИНС были обучены при помощи библиотеки глубокого обучения РуТогсИ [32] на платформе, обладающей аппаратной конфигурацией, приведенной в табл. 1.
Таблица 1
Аппаратная конфигурация
CPU Intel core i5 7600 3900 MHz
Motherboard Asus Prime B250
DDR DDR 4 2400 MHz 32 ГБ
GPU NVidia GTX 1080 Ti 11 ГБ
В качестве функции потерь была использована бинарная перекрестная энтропия:
L(yi , yi) = -yi log yi - (1 - yi) log(l- yi )> (1)
где з)г- - актуальное значение выхода ИНС, а yi - эталонное значение выхода ИНС.
При обучении был использован алгоритм градиентного спуска с малым размером пакетов (mini-batch gradient descent). Размер пакета данных, подаваемых в ИНС был принят равным 32 для всех рассматриваемых моделей. В качестве метода оптимизации был выбран алгоритм Adam [33]. Обучение производилось в течение 500 эпох. При этом после каждой эпохи обучения выполнялось тестирование модели. В качестве пространственной аугментации кадров видеопотока было использовано: случайное масштабирование всех исходных кадров видеофрагмента в 0,75, 1,25 и 1,5 раза; случайный пространственный поворот всех кадров на ±10°; фрагментация участков кадра случайным образом; случайное зеркальное отображение каждого кадра видеофрагмента. Кроме того, была использована временная аугментация, заключавшаяся в случайном выборе 16 последовательных кадров в каждом видеофрагменте.
Для оценки эффективности работы моделей ИНС били использованы следующие метрики:
Accuracy = (TP + TN) / (TP + TN + FP + FN), (2)
Precision = TP / (TP + FP), (3)
Recall = TP / (TP + FN), (4)
F1 - score = 2TP / (2TP + FP + FN), (5)
где TP - количество верно классифицированных позитивных экземпляров; TN - количество верно классифицированных негативных экземпляров; FP - количество неверно классифицированных позитивных примеров; FN - количество неверно классифицированных негативных примеров.
Результаты тестирования каждой модели показаны в табл. 2.
Таблица 2
Результаты тестирования моделей 3D-CNN
Модель Метрика оценки
значение функции потерь доля правильных ответов точность полнота F1 -мера
C3D 0,208 0,894 0,852 0,923 0,833
I3D 0,019 0,995 0,993 0,974 0,983
R3D 0,612 0,817 0,833 0,790 0,811
Архитектура 13Б показала лучшие результаты по сравнению с С3Б и Я3Б по всем метрикам оценки качества работы модели ИНС. Показатели Я3Б оказались самыми низкими относительно остальных архитектур. Следует отметить, что модель 13Б обрабатывает кадры с более высоким разрешением (224x224) по сравнению с С3Б и Я3Б (112x112). Вероятно, вы-
326
сокое разрешение обрабатываемых кадров вносит наибольший вклад в итоговый результат классификации, поскольку позволяет расширить пространственную обработку визуальных объектов на кадрах видеопотока. Однако обработка кадров высокого разрешения также требует высоких вычислительных затрат. Архитектура C3D, в свою очередь, имеет большое количество слоев, что также делает ее вычислительно неэффективной. Несмотря на то, что архитектура R3D показала самый низкий результат в классификации агрессивных действий, она обладает наименьшим количеством слоев, что делает ее самой эффективной из рассмотренных моделей с точки зрения требуемых мощностей.
Заключение. В работе описаны особенности современных ИНС распознавания агрессивных действий человека. Предложено и экспериментально обосновано применение подхода переноса знаний для классификации агрессии с использованием различных трехмерных моделей свер-точных ИНС: C3D, I3D и R3D. Приведено сравнительное исследование данных моделей на комбинированном наборе видеоданных по следующим метрикам: доле правильных ответов, точности, полноте, fl-мере и значению функции потерь. При этом классификация насильственных действий осуществлялась только лишь на основе анализа RGB-кадров видеопотока, в отличие от многих других подходов, использующих также кадры оптического потока. Лучшие показатели (доля правильных ответов 0,995), (точность 0,993), (полнота 0,974), (fl-мера 0,983) показала модель с архитектурой I3D в качестве экстрактора пространственно-временных признаков и трехслойную ИНС с входным сверточным слоем (1x1x1) в качестве классификатора. Кроме того, было экспериментально доказано, что использование подхода переноса знаний позволяет сократить время обучения в задаче классификации агрессивных действий человека в видеопотоке. Среднее время одной эпохи обучения на рассмотренном наборе данных составило 18,27 с, 22,34 с и 7,32 с для архитектур C3D, I3D и R3D соответственно. Дальнейшее исследование будет направлено на формирование расширенного набора данных и последующее обучение рассмотренных моделей, разработку нейросетевой системы классификации множества насильственных действий, анализ признаков заранее заданных дескрипторов, параметров оптического потока и т.д.
Работа выполнена при поддержке РФФИ (18-29-22061 мк).
Список литературы
1. Xu Z., Liu Y., Mei L., Hu C., Chen L. Semantic based representing and organizing surveillance big data using video structural description technology // Journal of Systems and Software, 2015. Т. 102. С. 217-225.
2. Chen D., Wactlar H., Chen M.Y., Gao C., Bharucha A., Hauptmann A. Recognition of aggressive human behavior using binary local motion descriptors // 2008 30th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE, 2008. P. 5238-5241.
327
3. De Souza F.D.M., Chavez G.C., Valle Jr E.A., Araüjo A.D.A. Violence detection in video using spatio-temporal features // 2010 23rd SIBGRAPI Conference on Graphics, Patterns and Images. IEEE, 2010. P. 224-230.
4. Nievas E.B., Suarez O.D., Garcia G.B., Sukthankar R. Violence detection in video using computer vision techniques // International conference on Computer analysis of images and patterns. Springer, Berlin, Heidelberg, 2011. P. 332-339.
5. Zhang T., Yang Z., Jia W., Yang B., Yang J., He X. A new method for violence detection in surveillance scenes // Multimedia Tools and Applications, 2016. ^ 75. №. 12. P. 7327-7349.
6. Dong Z., Qin J., Wang Y. Multi-stream deep networks for person to person violence detection in videos // Chinese Conference on Pattern Recognition. Springer, Singapore, 2016. P. 517-531.
7. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation, 1997. ^ 9. №. 8. P. 1735-1780.
8. Sudhakaran S., Lanz O. Learning to detect violent videos using con-volutional long short-term memory // 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2017. P. 1-6.
9. Xingjian S.H. I., Chen Z., Wang H., Yeung D.Y., Wong W.K., Woo W.C. Convolutional LSTM network: A machine learning approach for precipitation nowcasting // Advances in neural information processing systems, 2015. P. 802-810.
10. Ditsanthia E., Pipanmaekaporn L., Kamonsantiroj S. Video Representation Learning for CCTV-Based Violence Detection // 2018 3rd Technology Innovation Management and Engineering Science International Conference (TIMES-iCON). IEEE, 2018. P. 1-5.
11. Ding C., Fan S., Zhu M., Feng W., Jia B. Violence detection in video by using 3D convolutional neural networks // International Symposium on Visual Computing. Springer, Cham, 2014. P. 551-558.
12. Zhou P., Ding Q., Luo H., Hou X. Violent interaction detection in video based on deep learning //Journal of Physics: Conference Series. IOP Publishing, 2017. ^ 844. №. 1. P. 012044.
13. Song W., Zhang D., Zhao X., Yu J., Zheng R., Wang A.A Novel Violent Video Detection Scheme Based on Modified 3D Convolutional Neural Networks // IEEE Access, 2019. ^ 7. P. 39172-39179.
14. Panzner M., Cimiano P. Comparing hidden markov models and long short term memory neural networks for learning action representations // International Workshop on Machine Learning, Optimization, and Big Data. Springer, Cham, 2016. P. 94-105.
15. Farnebäck G. Two-frame motion estimation based on polynomial expansion // Scandinavian conference on Image analysis. Springer, Berlin, Heidelberg, 2003. P. 363-370.
16. Weiss K., Khoshgoftaar T.M., Wang D.D. A survey of transfer learning // Journal of Big data, 2016. ^ 3. №. 1. P. 9.
328
17. Carreira J., Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. P. 6299-6308.
18. Hara K., Kataoka H., Satoh Y. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet? // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2018. P. 6546-6555.
19. Tran D., Bourdev L., Fergus R., Torresani L., Paluri M. Learning spatiotemporal features with 3d convolutional networks // Proceedings of the IEEE international conference on computer vision, 2015. P. 4489-4497.
20. Hara K., Kataoka H., Satoh Y. Learning spatio-temporal features with 3D residual networks for action recognition // Proceedings of the IEEE International Conference on Computer Vision, 2017. P. 3154-3160.
21. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. 2014.
22. Luo W., Li Y., Urtasun R., Zemel R. Understanding the effective receptive field in deep convolutional neural networks // Advances in neural information processing systems, 2016. P. 4898-4906.
23. Karpathy A., Toderici G., Shetty S., Leung T., Sukthankar R., FeiFei L. Large-scale video classification with convolutional neural networks // Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2014. P. 1725-1732.
24. Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Rab-inovich A. Going deeper with convolutions // Proceedings of the IEEE conference on computer vision and pattern recognition, 2015. P. 1-9.
25. Kay W., Carreira J., Simonyan K., Zhang B., Hillier C., Vijaya-narasimhan S., Suleyman M. The kinetics human action video dataset // arXiv preprint arXiv:1705.06950. 2017.
26. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. P. 770-778.
27. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv preprint arXiv:1502.03167. 2015.
28. Nair V., Hinton G. E. Rectified linear units improve restricted boltz-mann machines // Proceedings of the 27th international conference on machine learning (ICML-10), 2010. P. 807-814.
29. Srivastava N., Hinton G., Krizhevsky A., Sutskever I., Salakhutdinov R Dropout: a simple way to prevent neural networks from overfitting // The journal of machine learning research, 2014. ^ 15. №. 1. P. 1929-1958.
30. Nievas E.B., Suarez O.D., Garcia G.B., Sukthankar R. Violence detection in video using computer vision techniques // International conference on Computer analysis of images and patterns. Springer, Berlin, Heidelberg, 2011. P. 332-339.
31. Hassner T., Itcher Y., Kliper-Gross O. Violent flows: Real-time detection of violent crowd behavior // 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2012. P. 1-6.
329
32. PyTorch [Электронный ресурс] URL: https:// pytorch. org/ (дата обращения: 13.11.2019).
33. Kingma D.P., Ba J. Adam: A method for stochastic optimization // arXiv preprint arXiv:1412.6980. 2014.
Уздяев Михаил Юрьевич, аспирант, младший научный сотрудник лаборатории, m.y. uzdiaev@gmail. com, Россия, Санкт-Петербург, Санкт-Петербургский институт информатики и автоматизации Российской академии наук
VIOLENT ACTION RECOGNITION USING 3D CNN NEURAL NETWORK
ARCHITECTURES
M.Yu. Uzdiaev
This paper considers the problem of violent action recognition, based on RGB video data using three-dimensional convolutional neural networks. Comparative study of three neural network models of this type is presented to discover the most efficient among them in solving a particular task of violent action recognition: Convolutional 3D Neural Network (C3D), Inception 3D Neural Network (I3D), Residual 3D Neural Network (R3D). Efficiency estimation of neural architectures was performed using the following metrics: accuracy, precision, recall, f1-measure and loss function. The I3D architecture showed the best performance compared to C3D and R3D in every metric. This model allows process the frames with higher resolution, which most significantly aids to classification accuracy improvement, hence it enables more extensive spatial processing of visual objects in all frames of video stream.
Key words: action recognition, aggressive action recognition, three-dimensional convolutional neural networks, knowledge transfer.
Uzdiaev Mikhail Yur 'evich, postgraduate, junior researcher, m. y. uzdiaev@gmail. com, Russia, St. Petersburg, St. Petersburg Institute of Informatics and Automation of the Russian Academy of Sciences