Научная статья на тему 'ОТБРАКОВКА ДЕФЕКТНЫХ СКЕЛЕТНЫХ МОДЕЛЕЙ ПРИ ИСПОЛЬЗОВАНИИ MICROSOFT KINECT V2'

ОТБРАКОВКА ДЕФЕКТНЫХ СКЕЛЕТНЫХ МОДЕЛЕЙ ПРИ ИСПОЛЬЗОВАНИИ MICROSOFT KINECT V2 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
56
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕТЕКТИРОВАНИЕ ПАДЕНИЙ / ДЕТЕКТИРОВАНИЕ АКТИВНОЙ ДЕЯТЕЛЬНОСТИ ЧЕЛОВЕКА / СКЕЛЕТНОЕ ОПИСАНИЕ / RGB-D КАМЕРА / СИСТЕМА МОНИТОРИНГА И УХОДА ЗА ПОЖИЛЫМИ ЛЮДЬМИ / НЕТИПИЧНЫЕ ОБЪЕКТЫ / АУТЛАЕРЫ / ДЕФЕКТНЫЕ СКЕЛЕТНЫЕ МОДЕЛИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сурков Егор Эдуардович, Середин Олег Сергеевич, Копылов Андрей Валериевич

В работе предлагается способ отбраковки дефектных скелетных моделей, построенных по фигуре человека RGB-D сенсором Microsoft Kinect v2 на основе анализа баз данных TST Fall Detection dataset v2 и NTU RGB+D 120 на наличие дефектов в скелетных описаниях и статистики обнаружения дефектных скелетных моделей. Приведена статистика детектирования кадров-аутлаеров и кадров с дефектными скелетами при различных параметрах одноклассового классификатора на основе Support Vector Data Description.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сурков Егор Эдуардович, Середин Олег Сергеевич, Копылов Андрей Валериевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OUT-OF-CONTROL SKELETONS REJECTION WHILE USING MICROSOFT KINECT V2

In the work we suggest an approach for rejection of defective skeletons built on the human figure for work with RGB-sensor Microsoft Kinect v2 based on analysis of TST Fall detection dataset v2 and NTU RGB+D 120 database for presence of defects in a skeleton description and stats for a detection of outliers and defective skeletons. The statistics of frames with outliers and frames with defective skeletons are provided with different parameters of the one-class classifier based on Support Vector Data Description.

Текст научной работы на тему «ОТБРАКОВКА ДЕФЕКТНЫХ СКЕЛЕТНЫХ МОДЕЛЕЙ ПРИ ИСПОЛЬЗОВАНИИ MICROSOFT KINECT V2»

УДК 004.93

DOI: 10.24412/2071-6168-2021-10-363-374

ОТБРАКОВКА ДЕФЕКТНЫХ СКЕЛЕТНЫХ МОДЕЛЕЙ ПРИ ИСПОЛЬЗОВАНИИ

MICROSOFT KINECT V2

Е.Э. Сурков, О.С. Середин, А.В. Копылов

В работе предлагается способ отбраковки дефектных скелетных моделей, построенных по фигуре человека RGB-D сенсором Microsoft Kinect v2 на основе анализа баз данных TST Fall Detection dataset v2 и NTU RGB+D 120 на наличие дефектов в скелетных описаниях и статистики обнаружения дефектных скелетных моделей. Приведена статистика детектирования кадров-аутлаеров и кадров с дефектными скелетами при различных параметрах од-ноклассового классификатора на основе Support Vector Data Description.

Ключевые слова: Детектирование падений, детектирование активной деятельности человека, скелетное описание, RGB-D камера, система мониторинга и ухода за пожилыми людьми, нетипичные объекты, аутлаеры, дефектные скелетные модели.

Во многих задачах, связанных с анализом поведения людей при помощи обработки данных, полученных с камер, как, например, в задаче детектирования падений человека, для представления его фигуры используется скелетная модель [1, 2, 7, 8]. Одним из способов получения трехмерной скелетной модели человека является использование сенсора RGB-D сенсор Microsoft Kinect v2. Скелетной моделью или скелетом принято называть специализированный граф, сформированный пространственными координатами точек, отражающих положение суставов, и отрезками прямых линий, которые эти точки соединяют (рис. 1). В задачах, где используется скелетное представление для описания позы человека, возникает вопрос о том, насколько достоверно и точно был построен скелет. При анализе баз данных, содержащих скелетные модели выяснилось, что Microsoft Kinect v2 не всегда может корректно построить скелет, что подтверждается при практическом использовании сенсора в программе автоматического обнаружения падений человека на основе учета изменения скелетного представления позы во времени [10]. Кроме скелетных моделей, которые не являются точным отображением позы человека (аутлаер, нетипичный скелет), в процессе построения сенсором скелетной модели, могут проявляться дефекты в её описании (дефектные скелетные модели). Так, например, для решения задачи детектирования падений в работах [1, 2] применяется алгоритм, включающий SVM классификатор и дефектные скелетные модели могут оказывать негативное влияние на обучение прогностической модели, поэтому перед построением решающего правила классификации нужно исключить их из обучающей выборки.

Целью исследования является оценка доли дефектных скелетов и определение способа их автоматического детектирования и отбраковки. Для исследования качества построения скелетной модели при помощи Microsoft Kinect v2 использовались базы данных TST Fall Detection dataset [3] и NTU RGB-D+120 [4]. Они записаны при помощи камеры Microsoft Kinect v2 и содержат RGB видео, скелетные модели, карты глубины. В работе приведена структура баз данных, рассмотрены способы представления скелетов и их описание, вычислены статистические характеристики для демонстрации доли дефектных моделей в базах данных, приводится статистика обнаружения аутлаеров и дефектных скелетных моделей при разных параметрах классификатора.

Описание скелетной модели, полученной при помощи Microsoft Kinect v2. Вид

скелета, получаемого при помощи такого сенсора представлен на рис. 1.

Скелетная модель, предоставляемая сенсором Microsoft Kinect v2 имеет 25 точек (рис. 1), соответствующих конечностям человека. Скелетная модель (рис. 1) подходит не для всех задач, например, для задачи детектирования падений [2] является избыточной. В работе [2] из скелетного описания были исключены точки, отражающие координаты пальцев рук и ног в пространстве, так как эти элементы скелета слишком подвижны и не будут нести в себе полезную информацию о возможном падении. В итоге рассматриваются только 17 из 25 точек скелета, представленных Microsoft Kinect v2. В работах [1, 2] для описания фигуры человека используются не сами точки, а расстояния между 17 точками скелетной модели, поэтому на основе исследований [2] были исключены также неизменяющиеся, исходя из антропометрических характеристик человека, расстояния. Таким образом конечный вид скелетного представления,

363

используемого в задаче детектирования падений демонстрируется на рис. 2. На этом рисунке красными закрашенными овалами обозначены исключённые в [2] точки, красными не закрашенными овалами - исключенные в [1] расстояния.

4 Л с нос плечо 5 Левый локоть

6 Левое запястье 1 Левая ладонь,

9 Локоть правый

10 Правое запястье 11 Правая рука

22 Большой палец Кончики пальцев {левая ладонь)

13 Левое голе

14 Левая лолыжка

23 Большой палец

правой руки 24 Кончики налы-правая ладонь)

! 7 Правое колено

18 Правая лолыжка

15 Левая ступня** ш 19 Правая ступня

Рис. 1. Скелетное представление, получаемое с Microsoft Kinect v2

6 Левое запя 7 Левая л;

20 Г1;лечи

1 Середина позвоночник! 0 OcHj

выи локоть

21 Кончики 22 Левый пальцев большой пал (левая ладонь)

13 Левое коле!

14 Левая лоды

15 Левая ступня

10 Правое запястье

11 Правая ладонь

пальцев (правая ладонь)

19 Правая ступня

Рис. 2. Сокращённое скелетное описание человека, красными овалами с заливкой обозначены точки, исключённые на основе исследований [2], остальные овалы демонстрируют расстояния, исключенные на основе исследований [1]

Кадры с необнаруженными точками скелетных моделей из базы данных TST Fall Detection v2. TST Fall Detection v2 - это одна из баз данных, используемых для проведения экспериментов разработанного алгоритма детектирования падения человека. Она содержит данные о карте глубины и данные о точках скелетного описания в пространстве, собранные при помощи сенсора Microsoft Kinect v2 и представленных в виде записей различной длительности. Набор данных, состоящий из записей, отражающих обычную деятельность и записей с падениями, смоделирован 11 актёрами. В наборе данных присутствуют повседневные обычные действия (Activity of Daily Living, ADL) следующих категорий: сидеть, наклоняться и поднимать что-либо, ходить, лежать, и действия относящиеся к категории падения (FALL): падать вперед, падать назад, падать вбок, падать назад и оставаться в положении сидя.

Общее количество записей в наборе данных TST Fall Detection v2 составляет 264, а количество кадров - 46 418. Частота кадров записей составляет 30 кадров в секунду. Самая короткая запись длится 2.5 с (75 кадров), а самая длинная - 15.4 с (463 кадра).

Основными компонентами, использующимися в программе детектирования падений [2], являются два файла с данными о скелетной модели на кадрах видеопоследовательности и набор карт глубины разрешения 512x424. Данные о скелетах хранятся в файлах FileSkeleton и FileSkeletonSkSpace.

Файл FileSkeletonSkSpace содержит расположение скелетных моделей в пространстве сцены. Координаты именно этих скелетных моделей используются для всех вычислений, выполняющихся в программе детектирования падений.

Файл FileSkeleton содержит координаты скелетных моделей, спроецированных на карту глубины. Эти координаты получаются при помощи преобразования координат скелетной модели в сцене и используются только при визуализации скелетной модели на экране.

На рис. 3-4 продемонстрирован пример одной из скелетных моделей, которые хранятся в базе данных. В частности, рассмотрен 50-тый кадр из видеопоследовательности категории ADL Grasp (рис. 3).

Рис. 3. Пример кадра, построенного на основании данных из TST Fall Detection v2

Запись соответствующей скелетной модели в базе данных продемонстрирована на рис. 4. Координаты неиспользуемых узлов [1, 2] выделены красным цветом.

Помимо полей с координатами x, y, z в структуре описанной скелетной модели имеются поля Player Index и Tracking State.

Player Index - номер скелета в кадре; Kinect позволяет обнаруживать до шести скелетов в кадре.

Tracking State - это специальное значение для каждой точки скелета, представленное тремя состояниями:

0 - точка неизвестна;

1 - точка обнаружена, но доверие к данным низкое;

2 - точка обнаружена и данным можно доверять.

При просмотре кадров-аутлаеров найденных в базе данных TST Fall Detection обнаружены кадры, на которых скелетная модель не является корректной и не может быть полностью достроена из-за отсутствия информации о положении координатах некоторых точек модели. В таком случае state имеет значение 0. Также в описании могут присутствуют точки, у которых имеются координаты, однако state принимает значение 0. В обоих случаях точка определяется как неизвестная. Например, у скелетной модели на рис. 5 семь точек являются неизвестными, из которых 2, 8, 20 точки не имеют координат. Такие скелетные модели будем называть дефектными.

Информация о достоверности отслеживания координат (state) повторяются в обоих файлах и не пересчитываются. Неизвестные точки в файле с координатами скелетной модели в пространстве Kinect обозначаются координатами (0,0,0). Неизвестные точки в файле с координатами скелетной модели в пространстве карты глубины обозначаются координатами (9999, 9999, 9999).

Точек, которые были обнаружены и которым можно доверять всего 7 из 25 (state = 2). В то время, как на корректном кадре (рис. 2, 3) все точки были уверено обнаружены.

№ х | v 1 z J tIMe | playerlndex № х f V 1 * 1 state | playerlndex

0 450.578 327.251 2579.67 2 2 0 195.5/4 243./84 2417 2 2

1 456.736 1 е.ш 2531-19 1 2 1 193.513 204,594 2414 2 2

2 457.9ЭЭ 286.037 2460-79 1 2 2 191.364 159.571 2377 2 2

3 00-67 4oe,3i 2416.36 2 2 3 198.785 140.185 2256 2 2

4 -603.792 181.127 7448.42 2 ? ч 169.141 175.052 2372 2 2

5 -677.088 -77.6389 2473-71 3 ? 5 159.783 213.77 2419 2 2

6 -654.767 -330.36 7447.18 3 ? б 160.571 251.89 2405 2 2

н ^95.07? 185.281 2554.96 3 / 3 217.383 175.674 2470 2 2

9 -239.026 •из.оьоэ 2601.83 г г 9 226.053 213.912 2548 2 2

10 -160.309 -320.39В 2545.54 2 г 10 236.605 248.33 2522 2 2

12 513.04/ 325.188 2524.63 2 2 12 184.312 249.535 2419 2 2

13 553.669 726.134 2565.87 2 2 13 180.195 306.463 2486 2 2

14 559.737 1102-92 2599.27 2 2 14 180.328 358.57 2556 2 2

16 -370.393 -320.869 2560-75 2 2 16 206.623 248.182 2464 2 2

17 -274.625 -696.126 2488.47 2 2 17 219.075 305.1.34 2408 2 2

1Я -276.376 -1103.96 2587.74 3 ? 13 220.305 359.472 2534 2 2

а б

Рис. 4. Записи скелетных моделей а) в пространстве Microsoft Kinect v2 б) в пространстве карты глубины Data1_ADL_grasp_1. Красным цветом выделены координаты

неиспользуемых точек

Frame number: 92

Ns ■ : Y 1 ■ 1 ll«M Nt - 1 У 1 * 1 *

0 1 г 205,324 701,269 0 538.546 527.91 a 1222.36 1198-22 0 0 0 0 0 1 2 197.778 VifJ/Ъ ■ws 364.571 364.571 2181 ¿181 0 D 0

3 4 -33.7699 -339.631 ■97.7786 -993.688 761.565 7229-93 2 2 3 A 717.7% 203.55 3K.993 3&6.42S 3356 2175 г 2

-m®» •362.335 -89B,467 -935.504 2105.78 7168.79 1 2 r. 6 739,556 198.089 359,531 361,226 2196 7184 г г

ft 0 0 0 0 а 9999 9999 9999 в

9 10 -15.8085 -47.6362 -109.789 -197.994 274-708 505.583 1 9 10 738,423 224,949 J49.12 342.903 2240 2266

J? -191.397 -577.106 1194.71 0 12 200.Ы4 ЗЬ4.»74 2176 0

13 14 -256,155 533.933 -718.847 -848.705 1476.95 1807-49 1 1 13 14 195.869 150.844 386.256 ЗУ5.214 2101 2184 1 1

16 -208.171 -520,911 1184.54 0 16 364.364 2175 о

17 -583.075 -1075.27 1831.89 1 17 4<№.3« 197S 1

ie -6*3,667 -1407.96 1927.78 1 1Я WW 9W3 X

_20 0 0 0 0 20 9999 qqqq qqqq в

J

а б в

Рис. 5. Пример кадра с дефектным скелетным описанием из видеопоследовательности Data4_Fall_side_1 из базы данных TST Fall Detection v2: а - кадр из базы данных; б - координа ты в пространстве экрана; в - координаты в пространстве

Microsoft Kinect v2

По кадрам из базы данных были вычислены статистические характеристики (табл. 1).

Таблица 1

Статистические характеристики по базе данных TST Fall Detection v2

Количество кадров в базе данных TST Fall Detection dataset v2 46 418

Количество кадров, где присутствуют точки, обнаруженные с низким доверием (state = 1) 27 616

Количество кадров, которые содержат только параметр state = 2 насчитывается 18 794

Количество кадров, где точек с низким доверием (state = 1) меньше половины 26 698

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Количество кадров с дефектными скелетными моделями 8

Количество кадров, состоящих только из точек, параметр доверия которым равен единице 0

Минимальное количество точек со значением state = 1 в кадре 1

Максимальное количество точек со значением state = 1 в кадре 13

Среднее количество точек со значением state = 1 в кадре 3,68 « 4

Среднее значение отношения количества точек с низким доверием к общему количеству точек в кадре по кадрам базы данных 21,65%

Всего в базе данных TST Fall Detection dataset v2 кадров с неизвестными точками 8 штук. Только эти кадры содержат в себе точки со значением state = 0. Скелеты с неизвестными точками встречаются в видеозаписях перед тем, как актёр оказывается в положении лёжа или

когда актёр выходит из видимости камеры Kinect. Если вторая причина очевидна, то первая вызвана тем, что в положении лёжа сенсор не всегда может не только построить скелет, но даже просто обнаружить актёра.

Описание дефектных скелетных моделей в базе данных TST Fall Detection v2. Как было упомянуто выше, кадров в файле с необнаруженными координатами скелетной модели в пространстве Microsoft Kinect v2 найдено 8 штук. Далее будут продемонстрированы некоторые из них.

1. Кадр № 92 из видеопоследовательности Data4_Fall_side_1 представлен на рис. 6.

-1.Л615 14.9734 73.5827

-«i.lKM

-360.773 Э57Л?8 О

-13,-югь 775.И9 506.401

336V.31 3141.8 О

307.S24 7SD4.33 2496.1 7381.97

ННИ

51-534 14&J&43 14Д.771

>557.62

Л] О/«/ 1102.26 ИИ

шш/ш

3908.29 ЛЧ1ЧЛЧ 3824.25

IQ.Vjtn

21.5417 508.341 -19.В2/3 -422-124

ibh

Э321.1 3698.74 1968.73

30,4469 26.4274 -47.50.18

36L452 -596.299

-sBi.sa

3342-33 36S4.84 4063-83

ЛбХОЗ? 341.471

263.022 241.421 9*34 'WW

258.051 218.169 2&7.49 235,203 J4JS.856 J7fi.658 249.13 327.359

264.5 254.489

27J.247 i«.142

273-977 308.231

BHH

263-037 241.027

257.537 252.564

357.84? ?41.1И

«12 2512

2m

2441

3853 SH3* 2921

2512 3627

HHHHH

7 63.007 741-Я 13 3513

262.293 261.53 3956

IM64? ЗЫЬ

тшя

а б в

Рис. 6. Пример дефектного скелета (Data4_Fall_side_1, кадр 92) из базы данных TST Fall Detection v2: а - кадр сцены; б - координаты в пространстве экрана; в - координаты

в пространстве Microsoft Kinect v2

2. Кадр № 87 из видеопоследовательности Data10_Fall_front_1 представлен на рис. 7.

N1 " 1 V 1 * ItJtO Ns " I r 1 ' 1 Hate

а 178.452 794.56? 1773.26 0 0 222.583 367.362 2174 0

1 -176.011 -783.695 1749 0 1 222.583 367.362 2174 0

2 Q 0 0 0 2 9999 9999 9999 0

3 -65.3201 -97.6376 255.50? 2 3 165.457 343.057 2343

4 365.071 992.623 2227.09 2 4 199.273 366-451 2180

5 140.174 Й97.419 2102.49 1 5 235.097 359.557 7500

ТИ 6 -357,319 .952-03 2208.92 J fi 200.0S7 361.063 2190

■т 3 J10038 '?59,717 ¡10541 Hi ■HI ■н ИНН ■Hi

и -186.253 -В5/.46/ 2352.63 2 8! 230.503 336.S1 2293

л! 9 -47.452 -910.626 2169.4 1 9 251.608 356.34/ 2220

10 301.504 955.992 2199-43 2 10 209.15 362.419 2180

^Жш 4и;я» 961 £31 2204X1 1 ■ ШШШ ИИ нн

13 -Jl 7.107 -656.96? 1553.3 0 12 208.118 35Я.232 2183

13 -311.5 -10/8,08 1943.02 l 13 200.Я51 405-801 2008

14 -6Э7.902 -1232.B1 2400.94 l 14 153.119 390.45 3083

■ПИ ШШ Vtt-УЫ »7J45 нн

If. ■133.793 902.006 1928.01 г 16 234.101 i/4.614 2177

17 •319.99 -1120.71 1822.1 i 1? 9999 991» 9999

IB -382.509 -1497,57 1917.84 l 18 9999 9999 9999

■В НИН НН

20 0 0 0 0 20 9999 9999 9999

Ji ■on ■^нв 2193 J 9 HI L Д1 Rt" нн ЙОД

И i 18 AS 2200Л 22 1ЯЧ.БС1 зм

М iia^s V 177 3 165 JK 1171

¿4 4UJB де» 7A IH H'i та? :177 э

а б в

Рис. 7. Пример дефектного скелета (Data10_Fall_front_1, кадр 87) из базы данных TST Fall Detection v2: а - кадр сцены; б - координаты в пространстве экрана; в - координаты

в пространстве Microsoft Kinect v2

3. Кадр № 88 из видеопоследовательности Data10_Fall_front_3 представлен на рис. 8.

Все 8 кадров являются заключительными для видеопоследовательностей. После этих кадров Kinect теряет скелет и запись данных о нём прерывается, но запись данных о глубине продолжается. Кадрами с дефектным скелетным описаниям могут идти как корректные скелеты, так и аутлаеры.

Статистика обнаружения аутлаеров при разных параметрах одноклассового классификатора. В работах [1, 2] для обнаружения аутлаеров применялся одноклассовый классификатор [5, 9]. Ниже приведена статистика, демонстрирующая влияние изменения параметра ядра радиальной базисной функции классификатора на количество кадров, распознанных, как аутлаер, по всей базе данных TST Fall Detection dataset v2. Статистика для одноклассо-вого классификатора, обученного на базе данных TST Fall Detection при различных параметрах классификатора приведена в табл. 2.

Рис. 8. Пример дефектного скелета (Data10_Fall_front_3, кадр 88) из базы данных TST Fall Detection v2: а - кадр сцены; б - координаты в пространстве экрана; в - координаты

в пространстве Microsoft Kinect v2

Таблица 2

Статистика детектирования аутлаеров при различных параметрах классификатора

nu = 0.03 nu = 0.02 nu = 0.01

ADL video 1303 917 556

ADL in FALL video 375 287 173

FALL in FALL video 1487 1064 703

Классификатор с параметрами g = 0.0001, пи = 0.03 показывает лучшие результаты. Если уменьшать параметр пи = 0.03 , то классификатор пропускает больше кадров, которые следовало бы исключать. Восемь вышеописанных дефектных скелетных моделей были детектированы при любых параметрах одноклассового классификатора как аутлаеры.

Примеры детектируемых аутлаеров одноклассового классификатора. На рис. 9-11 приведены примеры аутлаеров, которые не являются дефектными, однако сильно отличаются от реальной позы человека или просто детектируются классификатором как аутлаеры.

982 344 131 329 59.8 317

297 315 351 327 018 344

2412 2630 2758 2795 2657 2396 2174

3045 2659 2374

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

033 362.144 9999 9999 9999 9999

2362 9999 9999

318.343 356.972 9999 9999 9999 9999

2342 9999 9999

108 333.034

092 378.818

123 373.541

404 379.3

112 377.78

2128 2217 1922 1966

403.465 332.188 260.925 246.382 156.223 55.7491 131.657 109.215

1270.83 1116.91 960.259 943.652 .493 934.502 1041.04

1016.66 2219.71

416.849 331.409 400.257

792.754 929.619 930.765

963.795 2002.9

329.692 165.666 311.94

470.485 458.335

602.606

112.836 -1025.96

158.757 504.641 525.123

2982.92 2893.45 2788.8 3009.82 2693.35 2433.16 2222.72

2574.47 2732.13 2404.77

1274.62 1494.55 1803.77

2937.72 2260.87 2449.76

002 -1867.64 2336.92

1240.84 1439.28 1747.84

2955.44 1918.79 2108.15

1589.27 2065.79

999.606 2815.31

-1028.14 933.382 936.438

2140.38 2211.46 1937.48 1960.67

а б в

Рис. 9. Пример кадра аутлаера из видеопоследовательности Data1_ADL_lay_1_267, построенный на основании данных из TST Fall Detection v2: а - кадр сцены; б - координаты в пространстве экрана; в - координаты в пространстве Microsoft Kinect v2

Большинство кадров-аутлаеров в базе данных найдено именно в положении актёра лёжа. С построением скелетов по лежачему актёру Kinect практически не справляется.

В базе данных TST Fall Detection одноклассовый классификатор с параметрами g = 0.0001, nu = 0.03 определяет часть скелетов, которые выглядят как нормальные. Однако, если рассматривать их вместе с видеозаписью, то такие скелеты в 90% случаев всё же отклоняются от фигуры человека (удлиняется какой-либо отрезок скелета, либо скелет смещается в сторону относительно фигуры человека, также аутлаер может быть определён при возвращении скелета из отклонённого состояния в нормальное). Детектирование кадра-аутлаера в работах [1,

309

522 359

254

301 294

113 343 495 374

7

10

11

484.154

348

558 379

1953

15

9999

9999

19

569.138

9999

9999

20

296

2737

20

278.459

21

2] происходит на основе данных о скелетной модели, полученной не только по текущему кадру, но и по двум предшествующим. Кадр на рис. 10, а имеет качественный скелет, который не должен относиться к кластеру нетипичных скелетных моделей. Такая аномалия происходит из-за того, что предыдущие кадры являются кадрами с отклонениями, связанными с тем, что Ю-^^ некорректно строил скелеты во время действий актёра. На рис. 12 приведены кадры из фрагмента видеопоследовательности, описание кадра которой было представлено на рис. 10.

H № x 1 y 1 z 1 state № 1 y 1 z 1 state

Щ о 290.055 335.794 2699 2 0 250.583 •1101.5 3038.33 2

■ 1 294.239 299.249 2891 2 1 286.071 •802.853 3042.39 2

Щ 2 298.509 263.572 2949 2 2 320.764 •506.598 3029.19 2

Щ 3 306.783 250.703 2915 2 3 391.86 •403.169 3049.6 2

Щ 4 280.521 274.183 2903 2 4 169.186 •583.835 2976.69 2

В 5 266.694 300.51 2908 2 5 56.2775 •787.505 2944.92 2

1 6 276.787 325.141 2788 2 6 131.132 •941.587 2820.51 2

7 282.283 328.073 2783 2 7 170.891 •951.038 2783.03 2

Я 8 314.16 276.649 3080 2 8 462.595 •631.778 3118.59 2

Щ 9 320.166 295.513 3197 2 9 529.643 •816.69 3220.69 2

10 326.857 317.711 2554 1 10 559.479 •961.634 3067.43 1

11 326.619 320.133 2549 1 и 559.017 •984.471 3076.05 1

■ 12 279.222 336.981 2827 2 12 157.802 •1087.56 2973.36 2

Щ 13 312.898 316.316 2465 2 13 373.143 •799.769 2581.29 2

H 14 358.13 353.925 2395 1 14 665.321 •1025.04 2488.92 1

15 370.88 356.279 2336 1 15 753.25 •1043.4 2492.93 1

Щ 16 300.67 334.635 2652 2 16 337.502 •1089.92 3032.89 2

Щ 17 333.445 315.501 2546 2 17 525.427 •806.706 2623.65 2

1 18 374.109 356.742 2362 2 18 817.059 •1103.16 2627.2 2

19 384.461 359.481 2525 2 19 860.863 •1084.78 2535.75 2

Щ 20 297.306 272.358 2935 2 20 311.502 •580.428 3037.411 2

21 288.499 338.499 2704 2 21 212.145 •1002.77 2711.34 2

22 287.396 325.558 2716 2 22 204.112 •907.909 2710.79 2

23 326.596 320.833 2549 1 23 556.473 •986.143 3063.17 1

24 325.732 320.516 2529 1 24 548.117 •981.419 3056.57 1

б в Рис. 10. Пример кадра аутлаера из видеопоследовательности Data1_ADL_lay_2_118 построенный на основании данных из TST Fall Detection v2 а) кадр сцены б) координаты в пространстве экрана в) координаты в пространстве Microsoft Kinect v2

№ x 1 y 1 z I state № x 1 y 1 z 1 state

0 296.187 362.891 2348 2 0 264.749 •1164.78 2672.1 2

1 288.624 337.728 2821 2 1 219.66 •1027.97 2795.22 2

2 282.814 315.915 2860 2 2 182.291 •895.421 2898.42 2

3 294.618 317.835 2788 1 3 266.475 •881.487 2806.78 1

4 267.628 329.839 2489 1 4 60.8628 •976.03 2816.64 1

5 259.719 321.808 2490 2 5 0.342198 •833.887 2566.8 2

6 261.702 346.478 2352 2 6 13.1066 •930.326 2376.71 2

7 262.383 371.853 2090 2 7 15.9153 •995.215 2162.23 2

8 280.274 330.096 2790 1 8 150.114 •931.606 2683.26 1

9 291.72 336.78 2809 1 9 211.982 •889.921 2436.87 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10 312.487 348.891 2044 2 10 323.006 •896.907 2254.1 2

11 315.896 358.953 2022 2 11 312.855 •872.045 2050.74 2

12 292.701 356.504 2440 2 12 261.178 •1219.83 2914.42 2

13 272.412 331.352 2823 1 13 92.086 •933.168 2661.65 1

14 262.548 362.199 2228 2 14 17.8248 •990.974 2283.33 2

15 246.029 374.385 2296 1 15 •81.3444 •1026.55 2197.27 1

16 300.508 370.791 2208 2 16 261.766 •1080.45 2361.88 2

17 314.075 370.385 2049 1 17 306.06 •945.967 2072.58 1

18 318.858 373.902 2058 1 18 382.012 •1108 2377.16 1

19 337.283 381.063 2160 2 19 472.878 •1089.58 2241.28 2

20 284.286 321.69 2823 2 20 192.7921 •935.616 2883.221 2

21 259.897 375.005 2105 2 21 1.28263 •977.838 2085.49 2

22 252.666 378.667 2221 2 22 •41.9222 •1055.97 2205 2

23 318.814 352.747 2011 2 23 324.525 •825.892 2022.43 2

24 311.156 349.312 2039 2 24 285.17 •814.657 2041.53 2

а б в

Рис. 11. Пример кадра аутлаера из видеопоследовательности Data1_ADL_lay_3_186 построенный на основании данных из TST Fall Detection v2: а - кадр сцены; б - координаты в пространстве экрана; в - координаты в пространстве Microsoft Kinect v2

Рис. 12. Последовательность кадров, полученных при помощи Microsoft Kinect v2. Красным выделен 118 кадр последовательности, который определён классификатором,

как кадр-аутлаер

Корректные скелетные представления попадают в класс аутлаеров из-за того, что Ю-^^ не всегда вовремя и точно строит скелет по позе человека. Kinect в таких кадрах, как 115117 (рис. 12), «отстаёт» от актёра, а когда получается построить точный скелет (кадр 118), то вследствие учёта динамики позы скелета при резкой смене положения некоторых кадров в последовательности классификатор определяет скелету класс «аутлаер».

Также есть небольшая часть аутлаеров даже близко не соответствующих скелету человека (рис. 13).

|»|'|Д||||>||Д8 йтмЕкв

Рис. 13. Пример скелетных моделей, точки которых не являются реальным отражением

положения суставов человека

Dayily Actions

А1 drink waler A2: eat meal A3: brush teeth A4: brush hair

А5: drop AB: pick up A7: throw A8: sit down

А9: stand up A10: clapping A11: reading A12: writing

A13: tear up paper A14: put on jacket A15: take off jacket A16: put on a shoe

A17: take off a shoe A18: put on glasses A19: take off glasses A20: put on a hat/cap

A21: take off a hat/cap A22:cheer up A23: hand waving A24: kicking something

A25: reach into pocket A26: hopping A27: jump up A28: phone call

A29: play with phone/tablet A30: type on a keyboard A31: point to something A32: taking a selfie

A33: check time (from watch) A34:rubtwo hands A35: nod head/bow A36: shake head

A37: wipe face A38: salute A39: put palms together A40: cross hands in front

A61: put on headphone A62:take off headphone A63: shoot at basket A64: bounce ball

A65: tennis bat swing A66: juggle table tennis ball A67: hush A68: flick hair

A69: thumb up A70: thumb down A71: make OK sign A72: make victory sign

A73: staple book A74; counting money A75; cutting nails A76; cutting paper

A77: snap fingers A78; open bottle A79: sniff/smell A80: squat down

A81: tass a coin A82: fold paper A83: ball up paper A84: play magic cube

A85: apply cream on face A86: apply cream on hand A87: put on bag A88: take off bag

A89: put object into bag A90: take object out of bag A91:open a box A92: move heavy objects

A93: shake fist A94: throw up cap/hat A95: capitulate A96: cross arms

A97: arm circles A98: arm swings A99: run on the spot A100: butt kicks

A101: cross toe touch A102: side kick - -

Medical Conditions

[A41 : sneeze/cough A42: staggering A43: falling down A44:headache

A45: chest pain A46: back pain A47: neck pain A48: nausea/vomiting

A49: fan self A103: yawn A104: stretch oneself |A105: blow nose

Mutual Actions / Two Person Interactions

A50 punch/slap A51: kicking A52: pushing A53: pat on back

A54 point finger A55: hugging A56: giving object A57: touch pocket

A58 shaking hands A59: walking towards AGO: walking apart A106: hit with object

A107: wield knife A108: knock over A109: grab stuff A110: shoot with gun

A111: step on foot A112: high-five A113: cheers and drink A114: carry object

A115: take a photo A116: follow A117: whisper A118: exchange things

A119: support somebody A120: rock-paper-scissore

Рис. 14. Список активностей из базы данных NTURGB+D 120

370

Кадры с необнаруженными точками скелетных моделей из базы данных NTU

RGB-D+120. База данных NTU 120 dataset представляет собой 120 различных активностей, записанных в 114 480 видеозаписях. База данных включает в себя RGB видео, карты глубины и инфракрасные видео. Разрешение RGB видео - 1920x1080, карта глубины и ИК видео -512х424. База данных записана при помощи Microsoft Kinect v2 [4].

В базе данных 120 различных активностей таких как:

- повседневные активности (надевать куртку, принимать пищу, чистить зубы, сидеть, звонить по телефону, считать деньги, открывать бутылку);

- активности, связанные со здоровьем (кашель, боль в спине, падение);

- активности с участием двух персон (фотографировать, помогать кому-то, идти навстречу).

Активности имеют названия от A001 до A120. База данных может использоваться и в задаче детектирования падений [1, 2], так как содержит в себе активность «Падение» (A043). На рис. 14 представлен список активностей по ключевым группам.

Активности записаны тремя камерами, которые захватывали три различных горизонтальных вида, при различной высоте камеры и расстоянии до объекта. Запись каждой активности включает несколько дублей с участием 106 актеров различного возраста (от 10 до 57 лет), роста (от 1.3 метров до 1.9 метров) и разных стран.

Для каждой активности было записано несколько дублей с разными актёрами. Приглашены 106 актёров различного возраста

Все видеопоследовательности содержат только демонстрацию одной активности без переходов между ними.

По кадрам из базы данных NTU 120 dataset были вычислены статистические характеристики (табл. 2).

Таблица 2

Статистические характеристики по базе данных NTURGB+D 120_

Количество кадров в базе данных NTU RGB+D 120 6 387 136

Количество кадров, где присутствуют точки, обнаруженные с низким доверием (state = 1) 4 610 956

Количество кадров, которые содержат только параметр state = 2 насчитывается 1 776 187

Количество кадров, где точек с низким доверием (state = 1) меньше половины 4 582 575

Количество кадров с дефектными скелетными моделями 54

Кадров, состоящих только из точек, параметр доверия которым равен единице 0

Минимальное количество точек со значением state = 1 в кадре 1

Максимальное количество точек со значением state = 1 в кадре 17

Среднее количество точек со значением state = 1 в кадре 2,8 « 3

Среднее значение отношения количества точек с низким доверием к общему количеству точек в кадре по кадрам базы данных 16,48 %

В базе данных содержится 54 кадра, значение state которых принимает значение 0, 29 из которых имеют координаты (0, 0, 0).

Примеры дефектных скелетных моделей в базе данных NTU RGB-D+120 dataset.

На рис. 15 продемонстрирован пример сцены, построенной по данным из NTU RGB-D 120, а также описание скелетной модели. Сцена из видеопоследовательности является записью активности «Шатание» (Staggering).

На рис. 16 представлены примеры дефектных скелетных моделей из базы данных NTU RGB+D 120.

Заключение. В работе проведено исследование актуальных баз данных активностей человека TST Fall Detection dataset v2 и NTU 120 dataset собранных при помощи сенсора Microsoft Kinect v2 на наличие дефектных скелетных моделей. Количество кадров с дефектами в скелетном описании составляет 8 кадров в базе данных TST Fall Detection v2 dataset и 54 кадра в базе данных NTU RGB+D 120. Все дефектные скелетные модели могут быть определены при помощи специального флага «state» [6]. Флаг «state» определяет степень доверия (0 - точка неизвестна, 1 - точка известна, но доверие к позиционным данным низкое, точка известна и позиционным данным можно доверять) к каждой точке скелетной модели.

Fíame. ЯШвзШй

12 13

16

17

18

camera_x|camera_y|camera_z| screen_x | screen y state

0.02512 0.02487 0

0.00232

0.34642 0.34296 0

0.02113

2.594218 2.56829 0

0.240192

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0.001939 0.05286 0.290482

256.2725 256.2725 NaN

256.2799 NaN

262.2635

254.5307 254.5307 NaN

237.8269 NaN

272.3445

0.008851 0.10778 0.532882 265.9086 279.819

0.02835 0.06564 0.12945

0.19396 0.46754 0.72011

0.548123 4.516879 4.493721

278.8624 254.5 249.2632

335.9441 243.5161 264.3495

0.19128 0.88257 4.66802 244.7932 274.9628

0.21199 0.02411 0.05299

0.93734 0.34059 0.4384

4.729991 2.554668 2.899542

243.38 256.362 253.1228

278.3188 254.451 261.0188

0.15516 0.70112 2.85492 239.8582 295.8313

0.15682 0.02544 0.04054

0.72328 0.3428 0.32706

2.940455 2.562898 2.922022

240.2314 256.1833 254.7404

295.976 254.6102 246.6027

0.05395 0.69506 3.019574 253.2589 290.1265

0.04582 0

0.70112 0

3.107811 0

254.4066 NaN

288.4316 NaN

0.034127 0.027225 0.21665 0.21098

0.19715 0.18626 0.94994 0.93285

0.540131 0.526365 4.739758 4.707346

283.0877 278.8623 243.0522 243.38

340.0747 335.944 279.149 278.3188

а б

Рис. 15. Пример дефектного скелета из базы данных ЫТи 120 йа1а8еи а - сцена из базы данных; б - описание скелетной модели

6

7

Рис. 16. Пример кадров с дефектными скелетными моделями, построенными на основании

данных из ЫТиЯСВ+Б 120

372

Кроме того, проведён количественный анализ баз данных на наличие кадров-аутлаеров и дефектных скелетных моделей, выполнен подбор параметров одноклассового классификатора для классификации не только кадров аутлаеров, но и дефектных скелетных моделей. Параметры, выбранные в работе [2] являются оптимальными для детектирования как нетипичных, так и дефектных скелетных моделей.

Работа поддержана грантами РФФИ №20-07-00441, ФСИ №16406ГУ/2021.

Список литературы

1. Seredin O.S., Kopylov A.V., Surkov E.E. The study of skeleton description reduction in the human fall-detection task. Computer Optics 2020; 44(6): 951-958. DOI: 10.18287/2412-6179-C0-753.

2. Seredin O.S., Kopylov A.V., Huang S.C., & Rodionov D.S. A Skeleton Features-Based Fall Detection Using Microsoft Kinect v2 with One Class-Classifier Outlier Removal // ISPRS-International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019. Т. 4212. С. 189-195.

3. S. Gasparrini, E. Cippitelli, E. Gambi, S. Spinsante, J. Wahslen, I. Orhan and T. Lindh, "Proposal and Experimental Evaluation of Fall Detection Solution Based on Wearable and Depth Data Fusion", ICT Innovations 2015, Springer International Publishing, 2016. 99-108. doi: 10.1007/978-3-319-25733-4_11.

4. J. Liu, A. Shahroudy, M. Perez, G. Wang, L. -Y. Duan and A. C. Kot, "NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding," in IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. Vol. 42. No. 10. P. 2684-2701. doi: 10.1109/TPAMI.2019.2916873.

5. Scholkopf B., Platt J.C., Shawe-Taylor J., Smola a J., Williamson R.C. Estimating the support of a high-dimensional distribution. Neural Comput. 13, 2001. P. 1443-1471. doi:10.1162/089976601750264965.

6. Microsoft Docs TrackingState Enumeration [Электронный ресурс] URL: https://docs. microsoft.com/en-us/previous-versions/windows/ki-nect/dn758898(v=ieb.10) (дата обращения: 10.05.2021).

7. Vemulapalli R., Arrate F., Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group // Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., 2014. P.588-595.

8. Wang J., Liu Z., Wu Y., Yuan J. Mining actionlet ensemble for action recognition with depth cameras // in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2012. P. 1290-1297.

9. Larin A.O., Seredin O.S., Kopylov A.V. One-Class Classification Criterion Robust to Anomalies in Training Dataset // Pattern Recognition. ICPR International Workshops and Challenges: Virtual Event, January 10-15, 2021, Proceedings, Part V. Springer International Publishing, 2021. P.155-165.

10. Свидетельство о государственной регистрации программы для ЭВМ № 2020663198 Российская Федерация. Программа автоматического обнаружения падений человека на основе учета изменения скелетного представления позы во времени: № 2020662099: заявл. 12.10.2020: опубл. 23.10.2020 / Е. Э. Сурков, О. С. Середин, А. В. Копылов; заявитель Федеральное государственное бюджетное образовательное учреждение высшего образования «Тульский государственный университет» (ТулГУ).

Сурков Егор Эдуардович, студент, eg-su@mail.ru, Россия, Тула, Тульский государственный университет,

Середин Олег Сергеевич, канд. физ.-мат. наук, доцент, oseredin@yandex.ru, Россия, Тула, Тульский государственный университет,

Копылов Андрей Валериевич, канд. техн. наук, доцент, and.kopylov@gmail.com, Россия, Тула, Тульский государственный университет

OUT-OF-CONTROL SKELETONS REJECTION WHILE USING MICROSOFT KINECT V2

E.E. Surkov, O.S. Seredin, A.V. Kopylov 373

In the work we suggest an approach for rejection of defective skeletons built on the human figure for work with RGB-sensor Microsoft Kinect v2 based on analysis of TST Fall detection dataset v2 and NTU RGB+D 120 database for presence of defects in a skeleton description and stats for a detection of outliers and defective skeletons. The statistics of frames with outliers and frames with defective skeletons are provided with different parameters of the one-class classifier based on Support Vector Data Description.

Key words: fall detection, human activity detection, elderly people care system, skeleton description, rgb-d sensor, anomaly detection, outliers, out-of-control skeletons.

Surkov Egor Eduardovich, student, eg-su@mail.ru, Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of physics and mathematical science, docent, oseredin@yandex.ru, Russia, Tula, Tula State University,

Kopylov Andrey Valerievich, candidate of technical science, docent, and.kopylov@gmail.com, Russia, Tula, Tula State University

УДК 29.33.17

DOI: 10.24412/2071-6168-2021-10-374-380

МЕТОДИКА ОЦЕНИВАНИЯ ПОЛНОТЫ ИНФОРМАЦИИ ОБ ОБЪЕКТАХ НАБЛЮДЕНИЯ, ПОЛУЧАЕМОЙ БОРТОВОЙ ОПТИКО-ЭЛЕКТРОННОЙ

АППАРАТУРОЙ

А.А. Закутаев

Проведен анализ существующих подходов к оцениванию качества информации получаемой средствами дистанционного зондирования Земли, а также особенностей решения задачи наблюдения за космическими объектами при помощи бортовой оптико-электронной аппаратуры. Осуществлена постановка задачи и разработана методика оценивания полноты некоординатной информации о космических объектах, получаемой бортовыми оптическими средствами мониторинга околоземного космического пространства на основе расчета объема теряемой информации.

Ключевые слова: мониторинг околоземного космического пространства, оптико-электронное средство, космический объект, некоординатная информация.

Мониторинг технического состояния космической техники в процессе ее функционирования является актуальной задачей [1]. В настоящее время указанная задача решается путем использования информации от датчиковой аппаратуры, расположенной на борту космического аппарата (КА), которая передается на наземные пункты управления по имеющимся каналам связи. Поскольку данный подход имеет ряд существенных ограничений, то объем получаемой информации о техническом состоянии КА не всегда позволяет получить объективную картину при возникновении нештатных ситуаций [2, 3]. Наиболее остро указанная проблема проявляется в случае, когда связь с бортом КА отсутствует или неисправность не поддается детектированию. В таких случаях оценка технического состояния, а также возможные причины неисправностей определяются косвенными методами, в том числе на основе анализа информации, получаемой средствами мониторинга околоземного космического пространства (ОКП) [4]. Наземные оптические средства позволяют регистрировать амплитуду регистрируемого от КА сигнала, а также динамику его изменения во времени. На основе анализа указанной информации могут быть оценены таким параметры КА как стабилизация, определен факт раскрытия солнечных панелей или наличие повреждение при столкновении с космическим мусором и т.д. [5]. Вместе с тем, возможности наземных средств мониторинга весьма ограничены как по номенклатуре получаемой информации, так и по ее качеству. Одним из решений указанной проблемы является создание КА, оснащенных оптико-электронной аппаратурой и предназначенных для получения некоординатной информации (НКИ) о космических объектах, в том числе

i Надоели баннеры? Вы всегда можете отключить рекламу.