Научная статья на тему 'RECOGNITION OF HAND MODEL BY USING TECHNOLOGY FOR VISUAL PROCESSING'

RECOGNITION OF HAND MODEL BY USING TECHNOLOGY FOR VISUAL PROCESSING Текст научной статьи по специальности «Медицинские технологии»

CC BY
32
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РУКА / РЕКОНСТРУКЦіЯ ОБ'єКТУ

Аннотация научной статьи по медицинским технологиям, автор научной работы — Любівий А.І., Корнага Я.І.

The article describes the problem of recognizing the model of the hand using the image taken from one camera without additional depth sensors or range finders. The main properties of such a system were noted. The importance of this system was also noted. The properties of finding important key points and parts of the hand on the picture for creating a prototype of the hand image are determined. The method of obtaining a model of a hand from a picture of the environment based on a multilevel convolutional neural network Convolutional Pose Machines (CPM) is considered. It returns confidence maps for each key point of the hand with which it can be determined where this point is located and by using these points it is possible to construct a model of the hand for further recognition of hand gestures and hand behavior. Also, a way of solving the gradient attenuation for this model problem was noted.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «RECOGNITION OF HAND MODEL BY USING TECHNOLOGY FOR VISUAL PROCESSING»

Liubivyi A.I.

Master of Department of Technical Cybernetics, National Technical University of Ukraine «Igor Sikirsky Kyiv Polytechnic Institute»

Любiвий A.I.

Магiстер, Факультет iнформатики та обчислюваног техтки, Нацюнальний mexui4Huu утверси-тет Украши «Кшвський полiтеxнiчний тститут iMeHi 1горя Сжорського»

Корнага Я. I.

кандидат техтчних наук, доцент кафедри теxнiчноi юбернетики Нацюнального теxнiчного утвер-ситету Украти «Кшвський полiтеxнiчний iнститут iменi 1горя Скорського»

Kornaga Y.I.

Candidate of Engineering Sciences, Associate Professor of the Department of Technical Cybernetics, National Technical University of Ukraine «Igor Sikirsky Kyiv Polytechnic Institute»

RECOGNITION OF HAND MODEL BY USING TECHNOLOGY FOR VISUAL PROCESSING РОЗШЗНАВАННЯ МОДЕЛ1 РУКИ ЗА ДОПОМОГОЮ ЗАСОБ1В ВИКОРИСТАННЯ

В1ЗУАЛЬНО1 1НФОРМАЦП

Summary: The article describes the problem of recognizing the model of the hand using the image taken from one camera without additional depth sensors or range finders. The main properties of such a system were noted. The importance of this system was also noted. The properties of finding important key points and parts of the hand on the picture for creating a prototype of the hand image are determined. The method of obtaining a model of a hand from a picture of the environment based on a multilevel convolutional neural network Convolu-tional Pose Machines (CPM) is considered. It returns confidence maps for each key point of the hand with which it can be determined where this point is located and by using these points it is possible to construct a model of the hand for further recognition of hand gestures and hand behavior. Also, a way of solving the gradient attenuation for this model problem was noted.

Keywords: object modeling, hand, object reconstruction, convolutional neural networks.

Анотащя: У статп охарактеризовано проблему розшзнавання моделi руки за допомогою зображення вщзнятого з одше! камери без додаткових датчишв глибини або далекомiрiв. Було зазначено основш вла-стивосп тако! системи. Також було наголошено на важливосп тако! системи. Визначено властивосп знаходження важливих ключових точок та частин руки на зображенш для створення прототипу образу руки. Розглянуто метод отримання моделi руки з картини середовища на основi багаторiвневоi згортково! нейронно! мережi Convolutional Pose Machines (CPM), яка повертае heatmaps для кожно! ключово! точки руки, з яко! попм можна визначити де знаходиться ця точка, й ,використовуючи щ точки, можна побуду-вати модель руки для подальшого розпiзнавання жестiв руки i поведiнки руки. Також, було зазначено споаб вирiшення затухания гращенту для тако! нейронно! мережi.

Ключовi слова: моделювання об'ектiв, рука, реконструкщя об'екту, згортковi нейроннi мережi.

Постановка проблеми

Моделювання поведшки руки - задача, яка вщграе важливу роль, тому що руки самi по собi займають важливе мiсце у повсякденному житгi: за допомогою 1х ми взаeмодieмо з навколишнiм свггом: ми використовуемо прилади, граемо на му-зикальних й iнших шструментах, торкаемось речей, спiлкуемось за допомогою жеспв. Системи, якi не можуть розпiзнавати жести й поведiнку руки, недо-статньо взаемодшть з користувачами.

Аналiз останнiх дослiджень i публшацш

1снують два основних способи розшзнавання жеспв й поведiнки руки. Перший споаб заснова-ний на одяганш спецiальних електронних при-строiв(спецiальнi рукавиц з датчиками), який в основному використовують в кшошдустрп та добре працюе, але е дорогим i не завжди придатний для використання в iнших галузях.

Другий в основному використовуе комп'ютерне бачення, яке передбачае обробку зоб-ражень за допомогою камер або шших датчикiв.

За останнiй час яшсть вирiшення задачi покра-щилась, пов'язано з новими сенсорами(Microsoft Kinect), але так датчики не завжди працюють

якiсно в певному середовищi: тд час загасання ш-фрачервоного промшня у водi, датчик Microsoft Kinect.

Крiм цього iснують способи обробки зображення з камери за допомогою засобiв обробки в!зу-ально! шформацп. Для цього використовують: гiстограму орiентацii[1], приховану Марковську модель[2], фiльтрувания частинок[3], метод опор-них векторiв(SVM, support vector machine)[4] та iншi[5][6].

Яшсть таких методiв значно шдвищилась через використання нових згорткових нейронних мереж та велико! шлькосп нових дослщжень щодо розпiзнавания об'екпв. А також, через розвиток технологш та збiльшения кiлькостi даних.

Задачу розшзнавання руки визначають як задачу класифжацп зображення, а саме: подаеться зображення або його частина на вхщ нейронно! мереж^ й нейронна мережа визначае, що знаходиться на цьому зображеннi: рука чи фон. Далi частина цього зображення, де знаходиться рука, подаеться на вхвд iншоi' нейронно! мереж!, яка на виходi отри-муе клас зображення, в нашому випадку - це кон-кретний жест руки.

Ul

Видшення iieiuipiiiieinix paiiiinc частин за-гально'1 проблеми й щль CTaTTi

У данш робот розглядаеться проблема розтзнавання образу руки, що знаходиться у нав-колишньому середовищi й може перемiщувaтись та взaемодiяти з ним. Так об'екти(руки) сприйма-ються нaвколишнiм середовищем через систему обробки вiзуaльноï шформаци. Розглянемо спосiб

знаходження ключових точок та проведемо аналiз для побудови модел руки(жесту). Виклад основного матерiалу Вибiр та прогнозування ключових точок Вщзначимо скелетон руки, для вибору ключових точок руки використовують шнщвки пальцiв й суглоби, яш зображеннi на рисунку 1. Приклад heatmap наведено на рисунку 2.

Рис. 1. Ключовi точки руки

Рис. 2. Приклад heatmap

Для детектування ключових точок використовують архггектуру Convolutional Pose Machines (CPM) [11]. CPM повертае heatmaps для кожно1' ключовоï точки. Heatmaps - це грaфiчне представления шформаци, на якому вона видiленa кольо-рами: холоднi(не iмовiрнi) й теплi(iмовiрнi) дiлянки положення ключових точок. За допомогою них знаходяться положення потрiбних ключових то-чок[12].

CPM мае неявне навчання залежностей мiж зображенням i виведенням зразу дек1лькох ключових точок, тюна iнтегрaцiя мiж навчання й виведенням та модульний послiдовний дизайн.

Диференцiйовaнa архггектура, яка дозволяе проводити звичайне тренування за допомогою метода зворотного поширення помилки

CPM складаються з послiдовностi згорткових мереж, що неодноразово виробляють 2D heatmaps з мюцезнаходженням ключово1' частини.

На кожному етат CPM, отримуеться зобра-ження та heatmaps, виготовленi на попередньому етaпi, як вхiдне. Heatmap забезпечують наступну стадш: уточнююче непараметричне кодування просторовоï невизнaченостi розташування для кож-но1 частини, що дозволяе CPM навчитися залежно-стям мiж зображенням й взаемному розмiщеннi на ньому ключових точок. Зaмiсть того, щоб чiтко анал1зувати таку heatmap використовують грaфiчнi модел1 [7, 8, 9] або спецiaлiзовaнi етапи пiсля обробки [8, 10], навчаемо згортковi мереж1, як1 без-посередньо працюють на промiжних heatmaps i нав-

чають неявно знаходити зaлежностi мiж зображенням просторовоï моделi й сшвввдношень м1ж части-нами.

На кожному етат в CPM, просторовий контекст частини heatmap забезпечуе сильнi невщповщш сигнали на наступний етап. Як результат, кожен етап CPM створюе heatmaps з бшьш ви-разними оцшками розташування кожно1' частини.

Позначимо розташування шксел1в p-ï ана-томiчноï точки,Yp € Z с R2 , де Z е множиною усiх (u,v) точок на картинщ. Наша цiль це передбачити позицп Y = (Ух , ...Yp) для кожно1' точки P. Так як, pose machine [11] складаеться з послвдовносп бага-токласових предикaторiв, gt, що намагаються навчитися визначати позицiю ключових точок на кожному рiвнi iерaрхiï. На кожному рiвнi iерaрхiï t € {1.7} , класифжатор gt намагаеться визначити позицiю кожно1' ключово1' точки, Yp = z,V z € Z , ос-нованому на обробцi частини вхвдно1' картинки, де знаходиться рука й шформаци з попереднього рiвня класифжатора. Тобто, перший рiвень оброблюе лише вхвдну картинку, а усi iншi вхвдну картинку й результати попереднього рiвня:

3i(xz) ^ = z)]pe{o.p},

де bf(Yp = z) е оцiнкa прогнозована кла-сифiкaтором gi для визначення p-ï ключовою точки на першому рiвнi отримуючи на вхвд частину картинки, де знаходиться рукa(location z). Ввдобра-жаемо heatmaps для кожно!' частини картинки, де

знаходиться рука г = (и, у)т позищя на картинц , як Ь^ е И™ х к , де знаходиться рука. Де w й h е шириною й висотою картинки ввдповвдно. Тобто:

Ь*[иМ = Ъ*(УР=2).

Для зручносп, позначимо набори heatmaps для уах частин, як е х н х(р+1) ( p частин плюс одна для фону).

На наступних рiвня, класифiкатор намагаеться визначити позицiю, кожноi' ключовоi точки, кожноi частини картинки де знаходиться рука, отримуючи на вх1д частину картинки де знаходиться рука(location Z) , й результапв роботи попереднь-ого рiвня. Тобто:

З&^'ФЛг^^)) ^ {Ъ*(Ур = г)}ре{о...р+1},

де (.) е heatmaps кожноi ключовоi точки з попереднього рiвня. Пiсля роботи кожного наступ-ного рiвня, позицiя кожно1' ключово1' точки все бшьш виражена на heatmap. Зауважимо, що частина картинки х' для кожного кроку рiзниться вщ ча-стини картинки, яку ми використали на першому кроцi.

Функця втрат й виршення проблеми зату-хання градieнта

Створення кшькох згорткових мереж у СРМ призводить до загально1' мережi з багатьма рiвнями, що призводить до проблеми затухання градiентiв шд час навчання. Ця проблема може виникнути, оск1льки зворотнi градiенти знижуються в силi, оск1льки вони поширюються через багато шарiв мереж!. Контроль дуже глибоких мереж у промiжних шарах допомагае в навчанш, вони в основному були обмежеш класифiкацiйними проблемами. Для структуровано1' проблеми прогнозування, тако1' як оцiнка пози, СРМ, природно, пропонуе система-тичну структуру, яка поповнюе градiенти та спря-мовуе мережу до створення все бшьш точних

heatmaps шляхом перюдичного промiжного уточ-нення[12].

Послщовна система прогнозування pose machine дае нам можливiсть забезпечити шдхщ до навчання таких багатошарових архитектур, що вирiшуе цю проблему. Кожен р!вень pose machine тренуеться, щоб визначити heatmaps для кожно! важливо! точки вiдповiдно. Ми намагаемось визначити функщю втрат на виходi кожного етапу t, що мiнiмiзуе вiдстань l2 мiж прогнозованими та шеаль-ними heatmaps кожно! ключово! точки. 1деальна heatmap для частини p, як b^ (Yp = z) , що створюе гаусовi тки на мюцях iстинного розташування кожно! ключово! точки p. Функщя витрат, яку ми прагнемо мiнiмiзувати на виходi кожного етапу на кожному рiвнi, виглядатиме:

А = %+ÎZZeZllb?(z) - b?(Z)lH

Загальна цiль для усiеï архiтектури виглядатиме, як додавання втрат на кожному еташ, тобто:

F = I.Tt=ift.

Використовуючи стандартний стохастичний градiентний спуск для спшьного тренування усiх рiвнiв мереж!.

Виводи й мромозицп

Експеримент

Подали на вх1д нейронно! мереж! картинку руки. На виход! отримали 21 heatmaps з тдсв!че-ними ключовими точками. На рисунку 3 вхвдна картинка, та heatmaps, яш тдсв!чують ключов! точки на рут. Дал!, д!знавшись щ точки, можна побуду-вати модель руки й визначити ïï жест. Наприклад, за допомогою шшо1 нейронно1 мереж1 або за допо-могою математичного опису положения цих точок одше! вшносно шшо1.

НИ

Bxidrn зображення

Heatmaps мiзинцн

Heatmaps пiдмiзинного(6езiменного) памbцм

Heatmaps середнbого памbцн

Heatmaps 8еmкого паnbцн

Heatmap з 'еднання зап 'ястя та долош Рисунок 3. BxidHa картинка та euxidHi heatmaps

Показано, що використання Convolutional Pose Machine(CPM) для визначення heatmaps для знаходження точок руки з одте! монокамери е ба-гатообвдючим напрямком для вирiшення про-блеми знаходження ключових точок руки, й по-дальшого !х використання для розтзнавання жестiв та поведшки руки. Зокрема, вона дозволяе змен-шити залежнiсть вiд використання додаткових датчиков на руках(рукавицi з датчиками) або вим!рю-ючих сенсорiв(датчики глибини або далекомiрiв). Використання CPM дозволяе побудувати мереж1 р!зно! глубини, через використання р!зно! кiлькостi рiвнiв, кожен з яких буду уточнювати положення ключових точок й також покращить тренування за допомогою поповнення градiента кожного рiвня, вирiшивши проблему затухання для глибоко! мереж! такого типу для тако! задачi.

Список лггератури:

1. W. T. Freeman and M. Roth, Orientation histograms for hand gesture recognition. International workshop on automatic face and gesture recognition. 1995, 12: 296-301.

2. T. Starner and A. Pentland, Real-time american sign language recognition from video using hidden markov models. Motion-Based Recognition. Springer Netherlands, 1997: 227-243.

3. L. Bretzner, I. Laptev and T. Lindeberg, Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering. Automatic Face and Gesture Recognition, 2002. Proceedings. Fifth IEEE International Conference on. IEEE, 2002: 423-428.

4. N. H. Dardas and N. D. Georganas, Real-time hand gesture detection and recognition using bag-of-

features and support vector machine techniques. IEEE Transactions on Instrumentation and Measurement, 2011, 60(11): 3592-3607.

5. Y. Wu and T. S. HuangVision-based gesture recognition: A review. International Gesture Workshop. Springer Berlin Heidelberg, 1999: 103- 115.

6. S. Mitra and T. Acharya, Gesture recognition: A survey. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2007, 37(3): 311-324.

7. L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, and B. Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. arXiv preprint arXiv:1511.06645, 2015

8. J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler. Efficient object localization using con-volutional networks. In CVPR, 2015. [39] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In NIPS, 2014.

9. J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In NIPS, 2014.

10. A. Toshev and C. Szegedy. DeepPose: Human pose estimation via deep neural networks. In CVPR,

2013.

11. V. Ramakrishna, D. Munoz, M. Hebert, J. Bagnell, and Y. Sheikh. Pose Machines: Articulated Pose Estimation via Inference Machines. In ECCV,

2014.

12. Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikhn: Convolutional Pose Machines arXiv preprint arXiv: 1602.00134, 2016

Hasanov A.A., Mamedova F.M.

THE TECHNOLOGICAL PECULIARITIES OF BRINES BY DESALINATION OF MINERALIZATED

WATERS.

Abstract

The technological scheme of discharge brines utilization of desalination plants is proposed, which is based on a change of the complex stage of NaCl - Na2SO4 system separation on comparatively simple and sifficiently studied stage of NaCl - CaCl2 system separation. It is based on the deep desulphatization of brines by calcium -containing solutions, produced in their own technological cycle of processing and includes the stages of gypsum crystallization, precipitation of magnesium hydroxide, thermal separation of the NaCl - CaCl2 system.

Key words: discharge brines, desulphatization, crystallization, precipitation.

i Надоели баннеры? Вы всегда можете отключить рекламу.