Научная статья на тему 'ОСОБЕННОСТИ РЕАЛИЗАЦИИ ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ ДЛЯ РАСПОЗНАВАНИЯ ЖЕСТОВ /'

ОСОБЕННОСТИ РЕАЛИЗАЦИИ ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ ДЛЯ РАСПОЗНАВАНИЯ ЖЕСТОВ / Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
134
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДАННЫЕ / РАСПОЗНАВАНИЕ / ЖЕСТ / СВЕРТОЧНАЯ НЕЙРОННАЯ СЕТЬ / ВЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬ / DATA / RECOGNITION / GESTURE / CONVOLUTIONAL NEURAL NETWORK / COMPUTATIONAL COMPLEXITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сиряк Р. В., Скарга-бандурова И. С., Шумова Л. О.

Рассмотрены основные этапы решения задачи машинного распознавания жестов рук, полученных с вебкамеры. Задача состояла в получении простой, точной и ресурсоэффективной системы визуального распознавания. В ходе работы были определены основные этапы подготовки и обработки данных, проведены эксперименты с изменением значений гиперпараметров, порядком прохождения и количеством слоев сверточной нейронной сети. В результате применения предлагаемой технологии получена точность распознавания 98.46%, со значением функции потери 0.02. Преимуществом системы является ее низкая вычислительная сложность на этапе распознавания, что позволяет классифицировать жесты рук в реальном времени. Ил.: 2. Библиогр.: 12 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сиряк Р. В., Скарга-бандурова И. С., Шумова Л. О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Special Considerations for the Implementation of Data Processing Technique for Gesture Recognition

The main stages of solving the problem of machine recognition of hand gestures received from a webcam are considered. The task was to obtain a simple, accurate, and resource-efficient visual recognition technique. The main stages of data preparation and processing were determined; experiments were carried out with different values of hyperparameters, the order, and the number of layers of a convolutional neural network. As a result, we obtained the recognition accuracy of 98.46% with a loss function value of 0.02. This technique has a low computational complexity at the recognition stage and makes it possible to classify hand gestures in real time. Figs.: 2. Refs.: 12 titles.

Текст научной работы на тему «ОСОБЕННОСТИ РЕАЛИЗАЦИИ ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ ДЛЯ РАСПОЗНАВАНИЯ ЖЕСТОВ /»

УДК 004.932.2 DOI: 10.20998/2411-0558.2019.13.11

Р. В. С1РЯК, здобув., СНУ iм. В. Даля, Северодонецьк,

I. С. СКАРГА-БАНДУРОВА, д-р техн. наук, проф., зав.каф., СНУ

iм. В. Даля, Северодонецьк,

Л. О. ШУМОВА, канд. техн. наук, СНУ iм. В. Даля, Северодонецьк

ОСОБЛИВОСТ1 РЕАЛ1ЗАЩ1 ТЕХНОЛОГИ ОБРОБКИ

ДАНИХ ДЛЯ РОЗП1ЗНАВАННЯ ЖЕСТ1В

Розглянуто основш етапи виршення задач! машинного розтзнавання жеспв рук, отриманих з вебкамери. Завдання полягало в отриманш просто!, точно! та ресурсоефективно! системи в1зуального розтзнавання. В ход! роботи були визначеш основш етапи тдготовки та обробки даних, проведен! експерименти з! зм!ною значень г!перпараметр!в, порядком проходження та к!льк!стю шар!в згортково! нейронно! мереж!. В результат! застосування пропоновано! технолог!! отримано точн!сть розтзнавання 98.46% з! значенням функц!!' втрати 0.02. Перевагою системи е !! низька обчислювальна складн!сть на етат розп!знавання, що дозволяе в реальному час! класифжувати жести рук. 1л.: 2. Б!блюгр.: 12 назв.

Ключовi слова: дан!; розп!знавання; жест; згорткова нейронна мережа; функц!! втрати; обчислювальна складшсть.

Постановка проблеми. Останнi десяташття, розпiзнавання жестiв рук для реалiзацii людино-машинно! взаемодп е сферою активних дослiджень галузi комп'ютерного зору та машинного навчання. Задачею дослщжень е створення систем, здатних щентифшувати жести людини та використовувати !х для передачi шформацп або керування пристроями. Застосування ще! технологи мае дуже великий потенщал. Через зчитування даних про жести можливе маншулювання об'ектами в середовищi вiртуальноi реальностi. Створення системи, яка розтзнае мову жеспв, здатне надати допомогу людям з вадами слуху. Разом з тим, на сьогодш, питання взаемодп через жести все ще не виршене i вимагае подальших дослiджень i вдосконалень. Розпiзнавання жестiв пов'язане з великою кшьюстю рiзноманiтних проблем, яю виникають кожного разу, коли необхщно розпiзнати об'ект, наприклад, при змш умов освiтлення, неоднорiдностi фону та ш. Пiдхiд, що використовуеться для розв'язання проблеми розтзнавання жеспв, полягае у виявленш пiкселiв на зображенш, якi складають руку, витягуваннi ознак з цих iдентифiкованих пiкселiв для класифшацп i використання цих функцш для розпiзнавання конкретних послiдовностей жеспв. Однак, мета розпiзнавання полягае не тшьки в тому, щоб знайти цшьове зображення в реальному час i вiдокремити його вiд фону, а й проаналiзувати динамiчнi просторово-часовi характеристики, вiдстежуючи початок i кiнець класифiкованого

© Р.В. С!ряк, 1.С. Скарга-Бандурова, Л.О. Шумова, 2019

жесту в потощ кадрiв.

Анал1з останшх дослщжень i публжацш. Залежно вiд пiдходiв i цiлей завдання розпiзнавання жеспв вирiшуються рiзними методами. Одним з найбшьш популярних i ефективних методiв розпiзнавання жестiв рук е згортковi нейроннi мережi (CNN). CNN використовуеться для вилучення, для сегментацп зображень [1], розтзнавання дiй людини, з урахуванням просторових i часових особливостей [2]. Значний устх досягнуто Pigou et al. [3], якi використовуючи CNN i Microsoft Kinect створили систему розтзнавання ^алшсько! мови жеспв. Вони дослiджували п'ять рiзних арх^ектур глибокого навчання i прийшли до висновку, що двонапрямна повторюванiсть i часова згортка можуть значно покращити класичну класифiкацiю жестiв. Bheda et al. [4] реалiзували метод класифшацп зображень для американсько! мови жеспв, отримавши 82,5% точностi на алфав^них жестах i 97% на цифрах. Пщходи до вирiшення задачi розтзнавання жеспв рук вiдрiзняються один вщ одного на рiзних стадiях - починаючи вiд способу отримання даних i закiнчуючи вибором класифiкатора. Дат можуть бути отримат через спещально обладнанi рукавички, через закрiплення на рущ датчикiв, через звичайнi камери або камери глибини простору. Залежно вщ способу отримання даних, проводиться !х сегментацiя. Витяг ознак може проводиться на основi обчислень пстограми орiентованих градiентiв, Principal Component Analysis (PCA), SIFT або нейронних мереж. Класифшатором може виступати Support Vector Machine, метод Random Forest, алгоритм Л-найближчих сусвдв, нейронна мережа та ш. Згорткова нейронна мережа, на основi яко! реалiзований представлений метод розтзнавання жеспв рук, мае низку переваг. Перш за все, шари згортки в такш мереж здатн будувати iерархiчнi уявлення i самостшно видiляти ознаки у вхiдних даних. CNN показала найкращi результати при робот з розпiзнаванням зображень i вiдео, значно випереджаючи iншi методи машинного навчання.

Цшь CTaTTi - реалiзацiя системи розпiзнавання жестiв рук на основi згортково! нейронно! мереж (CNN) та особливостi i'i' реатзацп.

Основна частина. Технологiя розпiзнавання жеспв складаеться з шести етатв: отримання набору даних; збшьшення набору (для випадюв використання власного вiдео та/або зображень); попередня пщготовка даних; витяг ознак; навчання класифшатора i, безпосередньо, розтзнавання жеспв.

Етап 1. Отримання наборiв вихщних даних.

Для роботи з жестами рук зазвичай можла використовувати два пщходи: формування власного набору або використання вщкритих наборiв даних. Найбшьш вщомим вщкритим набором е LSA64 [5].

Етап 2. Збшьшення даних.

Оскшьки навчання мереж i тестування проводилися на власному наборi даних, що мiстять зображення, отримат з веб-камери, до зiбраних даних була застосована операцiя збшьшення даних (data augmentation).

Додатковi зображення генеруються шляхом манiпуляцiй з вже наявними зображеннями, i охоплюють операцп масштабування, зрушення, деформацiю i повороти тд рiзними кутами. Крiм збшьшення набору даних для навчання, це робить мережу стшкою до спотворень у вхщних даних на стадп розтзнавання, а також додатково допомагае боротися з перенавчанням.

Етап 3. Пщготовка та попередня обробка даних.

Попередня обробка даних мютить очищення даних, змiну штрно! моделi, сегментацiю та видiлення контуру (розтзнавання крав).

Рис. 1. Пщготовка зображення для CNN: (a) початкове зображення, (b) сегментащя за кольором шюри, (с) вндшення контур1в за Canny

Перед початком процесу сегментацп, необхщно очистити зображення вiд цифрового шуму i знизити зайву деталiзацiю. Для цього, до кожного зображення з набору даних було застосовано фшьтр розмиття за Гауссом (Gaussian Blur) [6]

G (X y) =

1

2ps2

2 2 х2 + y 2

, 2s2

де х - вiдстань по ос абсцис, y - вiдстань по ос ординат, с - стандартне вщхилення розподiлу Гаусса. Взаемний вплив пiкселiв визначаеться як обернено пропорцшне квадрату вiдстанi мiж ними. Стутнь розмиття залежить вiд параметра стандартного вщхилення.

noTiM зображення переводяться з тшрно'1' моделi RGB в формат HSV, oскiльки завдяки тому, що хроматична iнфoрмацiя збер^аеться в ньому в окремому канал^ стае легше oрieнтуватися при сегментацп на кoлiр шкiри. Також при використанн HSV знижуеться проблема з мшливим oсвiтленням.

Сегментацiя полягае у вщокремлент руки вiд фону. Перш за все, для цього на зображенн видшяеться у вiдпoвiднoму дiапазoнi область кольору шкiри. Таким чином вщдаляеться заднiй фон, i подальша робота ведеться тiльки з рукою. Зображення перетвориться в одноканальне твтонове для зменшення обчислювальних витрат.

Останньою процедурою пiдгoтoвки було рoзпiзнавання кршв. Рoзпiзнавання кршв е важливим моментом в розтзнавант oбразiв, визначаючи границю мiж об'ектами або мiж об'ектом i фоном. До видiленoгo елементу застосовуеться детектор кршв Canny [7].

Робота детектора Canny складаеться з наступних кроюв:

1. Згладжування зображення шляхом застосування до нього розглянутого вище фшьтра Гауссова розмиття.

2. Взяття градieнта зображення, пiсля чого на максимальних значеннях позначаються межь Для цього використовуеться оператор Собеля [8], що обчислюе значення градieнта яскравoстi. Оператор Собеля використовуе два квадратних ядра згортки, якi ощнюють градieнт в горизонтальному i вертикальному напрямках. Шсля проходження згортки напрямок градieнта обчислюеться як:

Г 1

Q = arctan ,

I Gx 0

де Gy i Gx - значення для першо'1' похщно'1' вiдпoвiднo в горизонтальному i вертикальному положеннях.

3. Придушення немаксiмумoв. Краями визнаються тксет, в яких досягаеться локальний максимум градieнта в напрямку вектора градieнта. Значення кожного пiкселя невизнаного максимумом встановлюеться в нуль. В результат виходить тонка лiнiя контуру.

4. Подвшна порогова фiльтрацiя. Для ощнки того, чи дiйснo мае мюце край в кoнкретнiй тoчцi зображення, використовуються два порога. Якщо значення ткселя вiднoситься вище порога, то край визнаеться дoстoвiрним. 1накше вщкидаеться. Прoмiжним пiкселям присвоюеться середне значення.

5. Пстерзю (Hysteresis), тобто зв'язування кршв в контури. Шксель вище порогового значення Т1 е крайовим ткселем. Пiкселi, якi межують з крайовим ткселем, i при цьому мають значення вище, нiж Т2 також вiднoсяться до групи крайових пiкселiв.

В результат виконання даного етапу отримусться Ha6ip зображень, готових для завантаження до нейронно'1' мережа Результуюче зображення, тдготовлене до розтзнавання, представлене на рис. 1 с).

Етап 4. Витяг ознак.

На вщмшу вщ шших методiв машинного навчання, згорткова нейронна мережа не вимагае ручно! розробки набору ознак. Ознаки витягуються мережею самостшно в згортальних шарах. Розроблена мережа мае три згорткових шари з функщею активацп ReLU, за кожним з яких розташовуеться шар maxpooling (рис. 2). Умовно, створену CNN можна роздшити на двi частини: а) три блоки згорткових i subsampling шарiв, якi чергуються один з одним i формують вхiдний вектор ознак для навчання; б) три повнозв'язних шари. Згортковi шари, формують 16, 32 i 64 карти ознак, застосовуючи ядра згортки розмiром 3x3. Карти ознак проходять через шари subsampling з max-pooling 2x2, кожен раз зменшуючи розмiрнiсть даних вдвiчi.

г/

-►0

Input Convolutional MaxPool Convolutional MaxPool Convolutional MaxPool

Flatten Dense Softmax

Рис. 2. Арх1тектура нейронно! мереж

Витяг ознак здiйснюеться шляхом операцп згортки квадратною матрицею з непарною розмiрнiстю. Матриця, яка називаеться ядром згортки або фшьтром, ковзае по зображенню, виконуючи покрокове скалярне перетворення. На виходi е feature maps, кшьюсть яких залежить вiд числа застосовуваних фшы^в. Кожен фiльтр являе собою систему подшюваних ваг i призначений для пошуку i видшення ознак за певним шаблоном.

Згортка представлена як

^ m-1m-1 \

Conv(w Xy)lJ = s Xyli+a){j+b)

v a=0 b=0

де ю - ядро згортки розмiру mxm, y - входи з попереднього шару, с -функщя активацп нейрошв.

За кожним згортковим шаром слщуе шар max-pool, що зменшуе po3MipHiCTb карти ознак, проходячи по зображенню i покроково вибираючи з рецептивного поля розмiром 2*2 максимальне значення. Крiм зниження розмiрностi в два рази i зменшення кiлькостi параметрiв в нейронно'1 мереж1, max-pooling робить знайденi ознаки бшьш яскраво вираженими, а мережа стае бшьш iнварiантною до мюцезнаходження об'екта на карт ознак, до зрушень i поворотiв. Вихiд max-pool буде обчислювався через формулу:

yl+1 = max x\+1 +

0<i<H, 0<j<W i xH+i,j xj,d

де H, W- розмiр вiкна субдискретизацп, x - вихщш данi. Етап 5. Навчання класифшатора.

Частина мережу що безпосередньо виконуе класифшащю, складаеться з шару flatten, кожен вузол якого вщповщае одному значенню з вектора ознак, i двох повнозв'язних шарiв dense. Останнш шар е вихiдним i реалiзуе функцiю softmax. Данi з останнього шару субдюкрепзацп надходять на шар Flatten, перетворюючись у ньому в одновимiрний вектор. Обчислення значень нейрошв для повнозв'язного шару вщбуваеться за формулою:

m

xl=Z wly1;1+bl, k=0

де wlkl - вага вщ k-го нейрона шару l - 1 до i-го нейрону поточного шару

l; b - змщення поточного шару; yk"1 - вхщш данi з попереднього шару.

Останнш шар мережi з кшькютю виходiв що дорiвнюе кiлькостi категорш що розпiзнаються, реалiзуе функцiю активацп softmax. Softmax привласнюе значення, представлене невщ'емним дiйсним числом, кожному класу, вщображаючи ймовiрнiсть приналежностi. Сума вах вихiдних сигналiв дорiвнюе одиницi. Значення вихщного сигналу 1-го нейрона вщповщае ймовiрностi того, що правильна вщповщь е i. Значення l-го виходу в softmax визначаеться за формулою:

eZi

si = e

Етап 6. Розпiзнавання.

На етапi розпiзнавання навчена нейронна мережа через веб-камеру в режимi реального часу розтзнае клас одержуваного на вхщ жесту.

zj

Функщею активацп всюди, ^м останнього шару, виступала Rectified Linear Unit (ReLU)

f (x) = max(0, x).

ReLU значно перевершуе iншi функцп в стiйкостi до загасання градiента, а швидкiсть навчання згiдно [9] в порiвняннi з гiперболiчним тангенсом швидше в шють разiв.

Для регуляризацп моделi в мереж двiчi застосовувалася технiка dropout [10] з коефщентом 0.25. Dropout полягае в тому, щоб на кожну епоху з заданою вiрогiднiстю p виключати нейрони з мережу в результат чого вш повертае значення 0.

У якост функцп втрат була використана категоршна кросс-ентропiя - розрахована логарифмiчна втрата для декiлькох представлених клаав. Крос-ентропiя мiж розподiлами p i q визначаеться наступним чином:

H (p, q) = H (p) + DkL (p||q),

де H(p) - ентропiяp, DKL(p\\q) - розбiжнiсть Кулбака-Лейблера [11] для q з p (вiдносна ентропiя p до q).

Якщо прогнозованi значення моделi дорiвнюють q, тодi як справжш значення дорiвнюють p, то категоршна перехресна ентротя буде виглядати так:

H (y, y ) = yt logy,- = -y log y - (1 - y)log(1 - y ).

i

У якосп методу оптимiзацiï використано Adam (adaptive moment estimation) [12]. Adam використовуе як середт значення гpадieнта, так i другий ÏMnynbc градieнта, що заважае йому застрягти в мiсцевих мiнiмyмах. Далi йде формула, в якш mt обчислюе перший iмпyльc, а vt -квадрат:

m =ßimt + (1 -ßi) gt,

vt =ß2 Vt-1 + (1 -ß 2) gt2,

де ß1 - коефщент для зменшення ковзного середнього градiента, ß2 е коефiцiентом для зменшення ковзного середнього площi градiента. Перерахунок параметрiв виконуеться за формулою

h

wp = w1 —== mp, IVp ^

Ф

8

де £ = 10" вводиться для запоб^ання можливого дшення на нуль.

Результата експерименту.

Набiр складався з 7200 зображень розмiром 120 x 120, об'еднаних в умовн категорп "one", "two", "zero", "palm", "fist", "letter SH" по 1200 зразюв кожен. Для полегшення процедур навчання та обробки використовувався бший фон. Даш були зiбранi у чотирьох оаб при штучному розаяному свггль

Експериментальнi дослщження були проведенi на комп'ютерi з процесором Intel Core i3-7100, 8 Гб оперативно! пам'ят, NVIDIA GeForce GTX 1060. Програмне забезпечення написано мовою програмування Python. Були використаш бiблiотеки кадрiв Tensorflow i Keras, яю використовують бiблiотеки numpy, scikit-learn, OpenCV. В якост навчального набору було створено власну базу зображень ручного жесту. Зйомка руки проводилася з рiзних кутв огляду.

Процес як отримання даних, так i розтзнавання проводився за допомогою веб-камери на вщстат близько 1 метра.

Весь набiр даних був роздшений на навчальний - на якому власне i проходило навчання, валщацшний - призначений для контролю ходу навчання, i тестовий - призначений для перевiрки вже навчено! мереж. Розподш набору даних на тдмножини складав 70, 10 i 20 вiдсоткiв вщповщно.

Навчання нейронно! мережi тривало 50 епох. За одну епоху оброблялися вс тдмножини даних адаптацп та валщацп. Для перевiрки якостi використовувалася метрика accuracy, що показуе стввщношення кiлькостi правильно передбачених значень до вае! кiлькостi виданих мережею пророкувань.

Функцiею втрат виступала категорiальна перехресна ентропiя, яка вираховувала логарифмiчну втрату на кшька представлених класiв. В результатi навчання мереж була отримана точшсть на тестовому тдмножиш в 98.46%, а значення функцп втрат склало - 0.02.

Висновки. Метою проекту було створення просто!, дешево! i ресурсномютко! системи розтзнавання жеспв рук. Була розроблена i навчена модель згортково! нейронно! мережi, здатна з високою ймовiрнiстю розпiзнавати в вiдеопотоцi шють тестових жестiв. Розроблена модель багато в чому дотримуеться принцитв, яю застосовуються при використаннi згортково! нейронно! мережi як класифiкатора жестiв. При необхщносп, мережу можна навчити на бшьшш кiлькостi жестiв. Перевагою запропоновано! системи е !! низька обчислювальна складшсть на етапi розпiзнавання, що дозволяе в реальному чаа класифшувати жести рук. Серед недолiкiв можна вщзначити, що модель не працюе добре на неоднорщному, змiнюваному фот, о^м того, жести рук людей, яю не брали участь у створенш

набору даних, визнаються прше. Розроблена модель багато в чому слщуе принципам, необхщним для CNN як класифшатора жеспв. Ii точнiсть розпiзнавання з власним набором даних складае 98.46%, хоча е й деяю недолши, згадаш вище.

В майбутньому плануеться збшьшити кiлькiсть видiв жестiв, додати перюдичний блок для розпiзнавання бiльш складних жеспв. Плануеться також розробити засоби боротьби з гетерогенним фоном.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Список лггератури:

1. Tompson J. Real-time continuous pose recovery of human hands using convolutional networks / J. Tompson // ACM Transactions on Graphics (ToG). - 2014. - Vol. 33. - № 5. -P. 169-175.

2. Ji S. 3D convolutional neural networks for human action recognition / S. Ji // In IEEE Transactions on Pattern Analysis And Machine Intelligence. - 2013. - Vol. 35. - № 1. -P. 221-231.

3. Yamato J. Recognizing human action in time-sequential images using hidden Markov model / J. Yamato, J. Ohya, K. Ishii // In IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Proceedings CVPR'92. - 1992.

4. Bheda V. Using deep convolutional networks for gesture recognition in American sign language / V. Bheda, D. Radpour // In: CoRR, abs/1710.06836. - 2017.

5. A dataset for Argentinian Sign Language LSA64 http://facundoq.github.io/unlp/lsa64/

6. Nixon Mark. Aguado / Mark Nixon, S. Alberto // Feature extraction and image processing for computer vision. - Academic Press, 2012.

7. Canny John. A computational approach to edge detection / John Canny // Readings in computer vision. - Morgan Kaufmann. - 1987. - P. 184-203.

8. Sobel Irwin. A 3x3 isotropic gradient operator for image processing / Irwin Sobel, Feldman Gary // A talk at the Stanford Artificial Project in - 1968. - P. 271-272.

9. Krizhevsky Alex. Imagenet classification with deep convolutional neural networks / Alex Krizhevsky, Sutskever Ilya, E. Hinton Geoffrey // Advances in neural information processing systems. - 2012.

10. Hinton Geoffrey E. Improving neural networks by preventing co-adaptation of feature detectors / Geoffrey E. Hinton // arxiv preprint arxiv: 1207.0580. - 2012.

11. Kullback Solomon. On information and sufficiency / Solomon Kullback, Leibler Richard // The annals of mathematical statistics. - Vol. 22. - № 1. - 1951. - P. 79-86.

12. Kingma, Diederik P. Jimmy Ba. Adam: A method for stochastic optimization / Diederik P. Kingma, Jimmy Ba // arxiv preprint arxiv: 1412.6980. - 2014.

References:

1. Tompson, J. (2014), "Real-time continuous pose recovery of human hands using convolutional networks", ACM Transactions on Graphics (ToG), vol. 33, No. 5, pp. 169-175.

2. Ji, S. (2013), "3D convolutional neural networks for human action recognition", In IEEE Transactions on Pattern Analysis And Machine Intelligence, vol. 35, No. 1, pp. 221-231.

3. Yamato, J., Ohya J., and Ishii K. (1992), "Recognizing human action in time-sequential images using hidden Markov model", In IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Proceedings CVPR'92.

4. Bheda, V., and Radpour, D. (2017), "Using deep convolutional networks for gesture recognition in American sign language", In: CoRR, abs/1710.06836.

5. A dataset for Argentinian Sign Language LSA64 http://facundoq.github.io/unlp/lsa64/

6. Nixon, Mark, and Alberto S. Aguado (2012), Feature extraction and image processing for computer vision, Academic Press.

7. Canny, John (1987), "A computational approach to edge detection", Readings in computer vision, Morgan Kaufmann, pp. 184-203.

8. Sobel, Irwin, and Gary Feldman (1968), "A 3x3 isotropic gradient operator for image processing", a talk at the Stanford Artificial Project, pp. 271-272.

9. Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton (2012), "Imagenet classification with deep convolutional neural networks", Advances in neural information processing systems.

10. Hinton, Geoffrey E. (2012), "Improving neural networks by preventing co-adaptation of feature detectors", arXiv preprint arXiv:1207.0580.

11. Kullback, Solomon, and Richard, A. Leibler (1951), "On information and sufficiency", The annals of mathematical statistics, vol. 22, No. 1, pp. 79-86.

12. Kingma, Diederik P., and Jimmy Ba. (2014), "Adam: A method for stochastic optimization", arXiv preprint arXiv:1412.6980.

Статью представил д.т.н., проф. Национального технического университета "Харковский политехнический институт " С.Ю. Леонов

Надшшла (received) 01.01.2019

Siryak Rostislav, Ph.D. student

Volodymyr Dahl East Ukrainian National University

59-a Central Avenue, Severodonetsk, Luhansk region, Ukraine, 93400

tel./phone: (064) 522-89-97, e-mail: [email protected]

ORCID ID: 0000-0002-6775-1218

Skarga-Bandurova Inna, D.Sci.Tech., Professor

Volodymyr Dahl East Ukrainian National University

59-a Central Avenue, Severodonetsk, Luhansk region, Ukraine, 93400

tel./phone: (064) 522-89-97, e-mail: [email protected]

ORCID ID: 0000-0003-3458-8730

УДК 004.932.2

Особливост pea4i3a^T технологи обробки даних для розтзнавання жестш / Оряк Р.В., Скарга-Бандурова 1.С., Шумова Л.О. // Вюник НТУ "ХП1". Сер1я: 1нформатика та моделювання. - Харшв: НТУ "ХШ". - 2019. - № 1. - С. 90 - 100.

Розглянуто основш етапи виршення задач1 машинного розтзнавання жеспв рук, отриманих з вебкамери. Завдання полягало в отримант просто!, точно!' та ресурсоефективно!' системи в1зуального розтзнавання. В ход1 роботи були визначеш основт етапи тдготовки та обробки даних, проведет експерименти з1 змшою значень гшерпараметр1в, порядком проходження та шльшстю шар1в згортково! нейронно! мереж1. В результат застосування пропоновано! технологи отримано точтсть розтзнавання 98.46%, з1 значенням функцп втрати 0.02. Перевагою системи е и низька обчислювальна складтсть на етат розтзнавання, що дозволяе в реальному час1 класифжувати жести рук. 1л.: 2. Ыблюгр.: 12 назв.

Ключовi слова: дат, розтзнавання; жест; згорткова нейронна мережа; обчислювальна складтсть.

УДК 004.932.2

Особенности реализации технологии обработки данных для распознавания жестов / Сиряк Р.В., Скарга-Бандурова И.С., Шумова Л.О. // Вестник НТУ "ХПИ". Серия: Информатика и моделирование. - Харьков: НТУ "ХПИ". - 2019. - № 1. - С. 90 -100.

Рассмотрены основные этапы решения задачи машинного распознавания жестов рук, полученных с вебкамеры. Задача состояла в получении простой, точной и ресурсоэффективной системы визуального распознавания. В ходе работы были определены основные этапы подготовки и обработки данных, проведены эксперименты с изменением значений гиперпараметров, порядком прохождения и количеством слоев сверточной нейронной сети. В результате применения предлагаемой технологии получена точность распознавания 98.46%, со значением функции потери 0.02. Преимуществом системы является ее низкая вычислительная сложность на этапе распознавания, что позволяет классифицировать жесты рук в реальном времени. Ил.: 2. Библиогр.: 12 назв.

Ключевые слова: данные; распознавание; жест; сверточная нейронная сеть; вычислительная сложность.

UDC 004.932.2

Special Considerations for the Implementation of Data Processing Technique for Gesture Recognition / Siriak R.V., Skarga-Bandurova I.S., Shumova L.O. // Herald of the National Technical University "KhPI". Series of "Informatics and Modeling". - Kharkov: NTU "KhPI". - 2019. - № 1. - С. 90 - 100.

The main stages of solving the problem of machine recognition of hand gestures received from a webcam are considered. The task was to obtain a simple, accurate, and resource-efficient visual recognition technique. The main stages of data preparation and processing were determined; experiments were carried out with different values of hyperparameters, the order, and the number of layers of a convolutional neural network. As a result, we obtained the recognition accuracy of 98.46% with a loss function value of 0.02. This technique has a low computational complexity at the recognition stage and makes it possible to classify hand gestures in real time. Figs.: 2. Refs.: 12 titles.

Keywords: data; recognition; gesture; convolutional neural network; computational complexity.

i Надоели баннеры? Вы всегда можете отключить рекламу.