Научная статья на тему 'РАСПОЗНАВАНИЕ ЧАСТЕЙ ЧЕЛОВЕЧЕСКОГО ТЕЛА ГЛУБОКИМИ НЕЙРОННЫМИ СЕТЯМИ'

РАСПОЗНАВАНИЕ ЧАСТЕЙ ЧЕЛОВЕЧЕСКОГО ТЕЛА ГЛУБОКИМИ НЕЙРОННЫМИ СЕТЯМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
388
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / ПОЗА ЧЕЛОВЕКА / РЕГРЕССИЯ / СУСТАВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сергеев Николай Сергеевич, Чеховский Дмитрий Валериевич

Рассмотрены основные методы обнаружения частей человеческого тела с использованием глубоких нейронных сетей. По каждому из методов представлено описание с представлением внутренней структуры и выделены ключевые особенности работы алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сергеев Николай Сергеевич, Чеховский Дмитрий Валериевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RECOGNITION OF PARTS OF THE HUMAN BODY BY DEEP NEURAL NETWORKS

The main methods of detecting parts of the human body using deep neural networks are considered. For each of the methods, a description is presented with a presentation of the internal structure and the key features of the algorithms are highlighted.

Текст научной работы на тему «РАСПОЗНАВАНИЕ ЧАСТЕЙ ЧЕЛОВЕЧЕСКОГО ТЕЛА ГЛУБОКИМИ НЕЙРОННЫМИ СЕТЯМИ»

Смыляев Дмитрий Вячеславович, старший помощник начальника отдела (организации научной работы и подготовки научно-педагогических кадров), Smdm28@mail.ru, Россия, Пенза, Филиал Военной академии материально-технического обеспечения

MODELS OF TARGET RECONNAISSANCE PROCESSES BY AN ARMORED VEHICLE OPERATOR USING OPTOELECTRONIC SURVEILLANCE DEVICES

E.A. Pafikov, N.D. Fedyanin, D.V. Smyshlyaev

Models of the processes of target reconnaissance by the machine operator using various monitoring devices have been developed. The main characteristic of the image perceived by the operator of these models is the signal-to-noise ratio for various monitoring devices. A generalized methodology for evaluating the tank surveillance and reconnaissance system of targets has been developed, providing an analysis of existing systems and determining the directions for their improvement.

Key words: intelligence process, targets, search, recognition features, detection range, brightness contrast, operator.

PafikovEvgenyAnatolyevich, candidate of military sciences, docent, doctoral student, evgeniy_pafikov@mail.ru, Russia, Penza, Branch of the Military Academy of Logistics,

Fedyanin Nikolay Dmitrievich, teacher, rvvdku@mil.ru, Russia, Ryazan, Ryazan guards higher airbone school,

Smilyaev Dmitry Vyacheslavovich, senior assistant to the head of the department (Organization of Scientific Work and Training of Scientific and Pedagogical Personnel), Smdm28@mail.ru, Russia, Penza, Branch of the Military Academy of Logistics

УДК 004.93'11

DOI: 10.24412/2071-6168-2021-9-130-134

РАСПОЗНАВАНИЕ ЧАСТЕЙ ЧЕЛОВЕЧЕСКОГО ТЕЛА ГЛУБОКИМИ

НЕЙРОННЫМИ СЕТЯМИ

Н.С. Сергеев, Д.В. Чеховский

Рассмотрены основные методы обнаружения частей человеческого тела с использованием глубоких нейронных сетей. По каждому из методов представлено описание с представлением внутренней структуры и выделены ключевые особенности работы алгоритмов.

Ключевые слова: нейронные сети, поза человека, регрессия, сустав.

Оценка позы человека является важной проблемой в области компьютерного зрения. Технология отслеживания каждого небольшого движения человека и выполнения биомеханического анализа в режиме реального времени имеет огромное значение. Использование нейросетей в алгоритмах распознавания позволяет сократить объем вычислений и повысить точность путем предварительного обучения на датасетах, содержащих изображения с наиболее типичными ситуациями.

Событийно-ситуационный метод. В событийно-ситуационном подходе распознавания выделяют этапы распознавания объектов, событий и ситуаций. Объект - это графический образ, событие - мгновенное совершение действия объектом или без объекта, ситуация - последовательность событий. В работе [1] предложена имитационная модель распознавания ситуаций в реальном времени (рис. 1).

Рис. 1. Имитационная модель распознавания

Источник видеопотока V выдает периодически изображения, которые необходимо распознать. Текущее изображение 1Х поступает на начальную обработку - распознавание образов средствами YOLO. Блок распознавания образов выдает множество распознанных графических образов шх = {сох1,шх2,...,mxi], которые поступают на блок распознавания событий. Распознавание позы человека по запросу z выделено в отдельный блок для снижения нагрузки на вычислительные ресурсы. Распознавание в этом блоке вызывается в случае, когда есть признаки опасного события, например, человек находится около автомобиля. В этом случае возвращается информация о его позе Posx. Далее аналогично работе [1] блок распознавания событий передает шх в базу предыдущих образов, из которой последовательность ранее появлявшихся образов П = {q1,q2,..-mx} возвращается обратно в блок распознавания событий. На выходе блока распознавания событий выдается идентифицированное событие Ех (Ех может быть пустым, что означает отсутствие событий), которое поступает на блок распознавания ситуаций. Блок распознавания ситуаций передает Ех в базу предыдущих событий, из которой возвращается последовательность событий Е. На выходе блока распознавания ситуаций - распознанная ситуация Sx, которая является выходом модели и передается на блок расчета управляющего воздействия.

Несмотря на достоинства методов распознавания образов на основе глубоких нейронных сетей, результаты формируются с определенной степенью достоверности. Особенно это касается событий, в которых важно определение положения частей тела человека. Так, в [3,4,5] показано, что поза человека определяется с некоторой степенью достоверности. Высокая достоверность определяется двумя основными факторами: достаточно высоким качеством распознавания объектов и их местоположения глубокими нейронными сетями и задания сигнатуры угрозы на основе стохастической грамматики.

DeepPose. Оценка позы формулируется в виде задачи совместной регрессии по ключевым точкам, решение которой выполняется при помощи сверточных нейронных сетей глубокого обучения. Для выражения позы кодируют положения всех к суставов тела в векторе позы как у:

у = (...,yJ,...)T,ie{1,...,k}, где у; содержит х и у координаты i — го сочленения. Помеченное изображение обозначается как (х, у), где х - данные изображения, а у - вектор истинной позы. Совместные координаты находятся в абсолютных координатах изображения, поэтому оказывается полезным их нормализовать прямоугольником Ь, ограничивающим человеческое тело или его части. В тривиальном случае прямоугольник может являться полным изображением. Такой прямоугольник определяется центром be е R2, а также шириной bw и высотой bh:

b = (be, bw, bh).

Затем соединение у^ можно преобразовать в центр прямоугольника и масштабировать по размеру прямоугольника, который называется нормализацией на b:

N(.yi;b) = ^ fj(yi-bc). (1)

Для оценки проблемы нахождения позы как регрессии обучается и используется функция ф(х; 6)eR2k, которая для изображения х регрессирует к нормализованному вектору позы, где в обозначает параметры модели. Таким образом, используя преобразование нормализации из уравнения 1 прогноз позы y в абсолютных координатах изображения читается как

у* = Ы-1(<р(Ы(х)-,в)).

Сеть состоит из 7 слоев (рис. 2). Обозначим С - сверточный слой, ЬЯМ - слой нормализации локального отклика, Р - объединяющий слой и F - полностью связанный слой. Только слои С и F содержат обучаемые параметры, а остальные не содержат параметров. Оба слоя С и F состоят из линейного преобразования, за которым следует нелинейное преобразование, которое является выпрямленным линейным блоком. Для слоев С размер определяется как ши-ринаХвысотаХглубина, где первые два измерения имеют пространственное значение, а глубина определяет количество фильтров.

Initial stage Stage s

умхтзя

Рис. 2. СНН какрегрессор позы

Использование СНН избавляет от необходимости разрабатывать модель позы для конкретной предметной области. Вместо этого такая модель и особенности извлекаются из данных.

Использование метрики PDJ позволяет изменять пороговое значение расстояния между предсказанием и наземной истиной, которое определяет обнаружение. Этот порог можно рассматривать как точность определения местоположения, с которой отображаются уровни обнаружения. Кроме того, основные преимущества достигаются после одного этапа доработки. Причина в том, что на последующих этапах используются более мелкие фрагменты изображения вокруг каждого сустава. И хотя на последующих этапах рассматриваются входные данные с более высоким разрешением, они имеют более ограниченный контекст. Результаты представлены на рис. 3.

Wrists Elbows

Рис. 3. Процент обнаруженных суставов (PDJ) на FLIC или первых трех этапах

каскада DNN

Формулировка проблемы как регрессия на основе СНН к совместным координатам и представленный каскад таких регрессоров имеет то преимущество, что улавливает контекст и рассуждает о позе целостным образом. В результате достигаются современные, а в отдельных случаях лучшие результаты по нескольким сложным академическим наборам данных.

Forward-or-Backward Information. Учитывая изображение человека I, можно представить двухмерную позу как набор суставов скелета J2a = [Pi, Vi,—, Рп), где п обозначает количество стыков (обычно принимают п = 16), а Pi = (xt; уг) обозначает пиксель, в котором расположен ¿-й стык. Соответственно, трехмерная поза обозначается как Уз d = {Pi'> Pi', — ', Рп} и Pi = Yi'> означает трехмерные координаты (используется система координат камеры) ¿-го стыка, расположенного в точке. Трехмерные кости можно представить как B3d = {Bt; В2,—; Вт] где т - количество костей (т = 14). Bi указывает направленный вектор, который начинается от одного концевого соединения В? до другого Bf.

132

Каждая кость Bi = относительно обзора камеры имеет три состояния: вперед,

назад и параллельно визиру. Это показывает порядок глубины и ВI относительно кадра камеры. Следовательно, FBI изображения можно выразить с помощью двоичной матрицы F = {fi; /2;...; fm}, где fa - это трехмерный вектор, т. е. /¿(/) = 1 означает, что i — я кость имеет j — й статус и j = 0; 1; 2.

Сеть состоит из трех компонентов: двухмерного оценщика позы, предсказателя FBI и трехмерного регрессора позы. Вся сетевая архитектура метода проиллюстрирована на рис. 4.

Рис. 4. Архитектура сети

Проведено сравнение между методом с тонкой настройкой и без тонкой настройки при обобщении в естественных условиях, где метод без усиления в реальных условиях дает только 58% правильных результатов. Это также подтверждается некоторыми качественными результатами, показанными на рис. 5.

-4- -i-

EU*

Рис. 5. Результаты количественного сравнения рассмотренного метода с другими на некоторых изображениях в естественных условиях, выбранных из МР11 [2]

Для более точного определения позы человека предлагаемый подход предполагает использование нового типа информации, названного Forward-or-Backward Information (FBI), благодаря чему он превосходит все ранее используемые техники.

Выводы. Из описанных выше подходов наиболее перспективными являются алгоритм DeepPose и FBI. Эти методы объединяет использование регрессионных нейронных сетей каскадной структуры для локализации суставов человеческого тела. Алгоритм FBI также использует информацию о расстоянии от камеры до суставов для более точного обнаружения, в то время как DeepPose ограничивает область поиска на исходном изображении до окна размером

220 х 200, или до других размеров, в зависимости от размеров изображения оригинала. На практике это позволит выбрать большую точность или скорость выделения и в дальнейшем улучшить алгоритм до требуемых результатов.

Список литературы

1. Колмыков Д.В., Кручинин А.Ю. Имитационная модель распознавания ситуаций на основе структурных методов в системах видеонаблюдения // Информационные системы и технологии. 2017. № 2. С. 25-31.

2. Andriluka M., Pishchulin L., Gehler P., and Schiele B. 2d human pose estimation: New benchmark and state of the art analysis. In Proceedings of the IEEE Conference on computer Vision and Pattern Recognition, 2014. P. 3686-3693.

3. Devanne M., Wannous H., Berretti S., Pala P., Daoudi M., Del Bimbo A. 3D human action recognition by shape analysis of motion trajectories on riemannian manifold. Transactions on Systems Man and Cybernetics, 2015, vol. 7, no. 45. P. 1340-1352. DOI: 10.1109/TCYB.2014. 2350774.

4. Xia L., Chen C., Aggarwal J.K. View invariant human action recognition using histograms of 3D joints. Proc. CVPRW, Providence, Rhode Island, 2012. P. 20-27. DOI: 10.1109/ CVPRW.2012.6239233.

5. Yang X., Tian Y. Eigenjoints-based action recognition using naive-bayes-nearest-neighbor. Proc. Work. on Human Activity Understanding from 3D Data, Providence, Rhode Island, 2012. P.14-19.

Сергеев Николай Сергеевич, аспирант, murzilka.fm@gmail.com, Россия, Тула, Тульский государственный университет,

Чеховский Дмитрий Валериевич, канд. техн. наук, доцент, dmichekh@gmail. com, Россия, Тула, Тульский государственный университет

RECOGNITION OF PARTS OF THE HUMAN BODY BY DEEP NEURAL NETWORKS

N.S. Sergeev, D.V. Chekhovsky

The main methods of detecting parts of the human body using deep neural networks are considered. For each of the methods, a description is presented with a presentation of the internal structure and the key features of the algorithms are highlighted.

Key words: neural networks, human posture, regression, joint.

Sergeev Nikolay Sergeevich, postgraduate, murzilka.fm@gmail. com, Russia, Tula, Tula State University,

Chekhovsky Dmity Valerievich, candidate of technical scinces, docent, dmichekh@gmail.com, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.