РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ ОБРАБОТКИ ВИДЕОДАННЫХ НЕЙРОННЫМИ СЕТЯМИ ДЛЯ ПОЛУЧЕНИЯ КЛЮЧЕВЫХ ТОЧЕК ПОЛОЖЕНИЯ ТЕЛА ЧЕЛОВЕКА В ПРОСТРАНСТВЕ

Егоров М.С.; Павлов И.Р.; Кулаков Д.Г.; Иванов С.И.

УДК 004.8

Егоров М.С., Павлов И.Р., Кулаков Д.Г., Иванов С.И.

Разработка программного модуля обработки видеоданных нейронными сетями для получения ключевых точек положения тела человека в пространстве

Егоров Матвей Сергеевич - студент 4 курса бакалавриата факультета цифровых технологий и химического инжиниринга; e-mail: m.voroge@bk.ru.

Павлов Илья Русланович - студент 4 курса бакалавриата факультета цифровых технологий и химического Инжиниринга; e-mail: ilyapavlo667@gmail.com.

Кулаков Дмитрий Геннадьевич - студент 4 курса бакалавриата факультета цифровых технологий и химического инжиниринга; e-mail: dimacreator1998@gmail.com.

Иванов Святослав Игоревич - к.т.н., ассистент кафедры информационных компьютерных технологий, руководитель отдела разработки #3 ООО "КристалД";

Российский химико-технологический университет имени Д. И. Менделеева, Москва, Россия 125047, Москва, Миусская пл., д. 9.

В данной статье рассмотрено проектирование программного модуля обработки видеоданных нейронными сетями для получения ключевых точек положения тела человека в пространстве. Описаны инструменты, использованные для разработки модуля. Определены алгоритмы, используемые для получения наиболее подходящего для использования в SD-моделировании формата.

Ключевые слова: искусственная нейронная сеть, MediaPipe, обработка видеоданных, жестовый язык.

Development of a software module for processing video data by neural networks to obtain key points of the human body in space

Egorov M. S., Pavlov I. R., Kulakov D. G., Ivanov S.I.

D. Mendeleev University of Chemical Technology of Russia, Moscow, Russia

This article discusses the design of a software module for processing video data by neural networks to obtain key points of the position of the human body in space. The tools used to develop the module are described. Algorithms used to obtain the most suitable format for use in 3D modeling are defined. Keywords: artificial neural network, MediaPipe, video data processing, sign language.

В современном мире одной из задач, которую ставят перед собой различные области науки и технологий, является создание компьютерных систем, способных эффективно обрабатывать видеоданные. В частности, в области разработки систем виртуальной и дополненной реальности, биомеханики, спортивного тренинга и медицинской диагностики необходимы инструменты для анализа и обработки видеоданных, полученных в реальном времени.

Нейросетевой подход к обработке видеозаписи движения человека, как было сказано выше, может применяться в медицине. Так, исследование, опубликованное в журнале «nature» [1], показало доступность и эффективность использования данного метода анализа движений человека в диагностировании, планировании лечения и мониторинга результатов при таких состояниях, как болезнь Паркинсона, остеоартрит, инсульт, церебральный паралич и др. Доступность обусловлена тем, что предыдущие методы анализа движения человека возможно применять лишь с использованием дорогостоящего оборудования и более долгим процессом сбора данных.

С развитием глубокого обучения и сверточных нейронных сетей (СНС) появились эффективные методы для определения ключевых точек тела. Одним из наиболее известных подходов является OpenPose, который использует многозадачное каскадное сетевое обучение для одновременного распознавания

2D ключевых точек частей тела, включая пальцы, кисть, предплечье, плечо, голову и тело.

Классические методы компьютерного зрения, такие как детекторы особых точек и дескрипторы (SIFT, SURF, HOG), также применяются для выделения ключевых точек тела. Они обычно основаны на анализе локальных особенностей изображения и могут быть менее эффективными по сравнению с методами глубокого обучения.

Основной задачей разрабатываемого программного модуля, так как он создавался в рамках проекта сервиса переводчика звукового языка на жестовый - это обеспечение возможности минимизировать время и затраты на добавление каждого анимационного файла жеста. Данное требование возможно выполнить с помощью использования технологий машинного обучения, способных распознавать положение ключевых точек человека в пространстве из видео.

Подходящий же для подобной задачи подход -повторение анимационной моделью движений реального человека. При условии, что записывающий жесты человек полноценно владеет требуемым жестовым языком и заранее знает список слов, которые ему необходимо воспроизвести, время, затрачиваемое на пополнение сервиса на одно слово равно времени воспроизведения жеста в жизни и незначительное время на обработку движения с помощью программного обеспечения для подготовки

анимационного файла.

Целью модуля была разработка системы, которая могла бы точно идентифицировать и выделять ключевые точки человека из видео. Для выполнения вышеуказанных требований к системе был использован фреймворк MediaPipe, который известен своей точностью и надежностью при определении ключевых моментов в изображениях и видео. Платформа предоставляет набор инструментов и алгоритмов, позволяющих эффективно обрабатывать большие наборы данных и точно определять

ключевые точки.

У фреймворка есть следующие возможности, которые можно использовать для решаемой задачи:

1. MediaPipe Hands - это высокоточное решение для отслеживания рук и пальцев. Он использует машинное обучение, чтобы распознавать и отслеживать 21 ориентира руки в реальном времени (рис. 1). [2]

2. MediaPipe Pose - решение машинного обучения для высокоточного отслеживания позы тела, выведения 33 трехмерных ориентиров (рис. 2) [2].

12' »

II1 *16 715

10* » /14 •20

13

/ о

Рис. 1. 21

Ч1 "18

0. WRIST

1. THUMB.CMC

2. THUMB.MCP

3. THUMBJP

4. THUMB_TIP

5. INDEXING ER_M CP

6. INDEX_FINGER_PIP

7. INDEX_FINGER_DIP

8. 1NDEX_FINGER_TIP

9. MlDDLE_FINGER_MCP 10. MIDDLE_FINGER_PIP

ориентир, распознаваемый на руке с помощью MediaPipe Hands.

17

11. MIDDLE.FINGER.DIP

12. MIDDLE_FINGER_TIP

13. RING_FINGER_MCP

14. RING_FINGER_PIP

15. RING_FINGER_DIP

16. RING_FINGER_TIP

17. PINKY_MCP

18. PINKY_PIP

19. PINKY.DIP

20. PINKYTIP

Рис. 2. Пример работы распознавания MediaPipe Pose с реальными 3D координатами.

3. MediaPipe Holistic - решение, объединяющее три из вышеуказанных решений, а именно MediaPipe Pose, MediaPipe Hands и MediaPipe Face Mesh [2].

Для обработки видео использовался покадровый подход, при котором каждый кадр видео отправлялся на обработку нейросети. Фреймворк Mediapipe после обработки на выходе отдаёт массив координат по высоте, ширине и глубине, который разработанный модуль затем использует для определения положения

тела модели человека в пространстве.

Так как разработанный модуль предназначен для непосредственного использования вместе с 3D-движком Ийпу, то формат выходного файла анимации должен был быть совместимым с ним. Также, важной особенностью трёхмерной модели человека является то, что в ней должны быть так называемые кости, благодаря которым происходит управление моделью. И, наконец, кости не могут изменять свою длину и

места крепления, что в совокупности делает возможным управление движением этой модели зная лишь значения углов каждой кости модели, при условии, что какая-либо часть модели остаётся неподвижной, что, в свою очередь, подходит для анимации жестов.

Для выполнения совместимости формат данных с требуемым файл, получаемый на выходе работы разработанного модуля, представлен в виде структуры json. В этом файле находится информация по анимации движения человека в виде момента времени и углам требуемых для анимации костей модели в этот момент времени.

Как указывалось выше, MediaPipe на выходе отдаёт массив координат по высоте, ширине и глубине, что не совпадает с требуемыми углами костей модели. Поэтому, одна из особенностей модуля состоит в том, что используя алгоритмы векторной алгебры и некоторых особенностей человеческой анатомии он конвертирует пространственные координаты в углы костей модели.

Следующим немаловажным фактором сервиса является плавное отображение жестов. Использование искусственных нейронных сетей не может гарантировать абсолютную точность, отсутствие погрешностей и ошибок при определении пространственных координат. Поэтому

использование алгоритмов аппроксимации для сглаживания отображения - важное условие для модуля, ответственного за генерацию анимационного файла для сервиса перевода со звукового языка на жестовый.

По ряду факторов метод наименьших квадратов (МНК) оказался самым подходящим для борьбы с погрешностями работы фреймворка. Это один из наиболее распространенных и точных методов аппроксимации и часто применяется в научных и инженерных исследованиях, он позволяет учесть ошибки измерений и шумы, что делает его более устойчивым к выбросам и другим возможным искажениям данных. МНК заключается в поиске линейной функции, наилучшим образом

приближающей исходные данные. Данный метод аппроксимации применяется для нахождения коэффициентов приближающей функции,

минимизируя сумму квадратов отклонений значений функции от соответствующих значений исходных данных [3].

Таким образом, разработанный модуль удовлетворил требованиям системы и его стало возможно использовать для обработки видео с жестами для выделения ключевых точек анимации. Помимо проекта, в рамках которого разрабатывался данный модуль, есть перспективы развития модуля в самостоятельный проект, который сделает возможность анимации трёхмерной модели человека более доступной и менее трудозатратной, что может помочь небольшим компаниям по разработке игр или по созданию анимаций.

В результате успешных исследований и тестирования, авторами был получен патент на данную программу, что подтверждает её уникальность и инновационность в области современных технологий [4].

Список литературы

1. L., Yang, В., Hicks, J.L. et al. Deep neural networks enable quantitative movement analysis using singlecamera videos. Nat Commun 11, 4054 (2020). https://doi.org/10.1038/s41467-020-17807-z.

2. Документация MediaPipe - URL: https://google.github.io/mediapipe/ (дата обращения: 21.03.2023).

3. Демиденко Д.С. Гладкие и равномерные алгоритмы аппроксимации в компьютерной графике. — СПб.: Наука и техника, 2018. — 352 с.

4. Патент № 2022617055 Российская Федерация. Программный модуль обработки видеоданных нейронными сетями для получения контрольных точек положения частей тела человека в пространстве: № 2022610303 : заявл. 13.01.2022 : опубл. 18.04.2022 / Иванов С.И., Кулаков Д.Г., Егоров М.С., Павлов И.Р.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Егоров М.С., Павлов И.Р., Кулаков Д.Г., Иванов С.И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Егоров М.С., Павлов И.Р., Кулаков Д.Г., Иванов С.И.

DEVELOPMENT OF A SOFTWARE MODULE FOR PROCESSING VIDEO DATA BY NEURAL NETWORKS TO OBTAIN KEY POINTS OF THE HUMAN BODY IN SPACE