Научная статья на тему 'РОЗПІЗНАВАННЯ ОБ'ЄКТІВ У ВІДЕОПОТОЦІ'

РОЗПІЗНАВАННЯ ОБ'ЄКТІВ У ВІДЕОПОТОЦІ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
168
29
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Губаренко Є.В., Губаренко М.С., Антонюк М.В.

Описані проблеми попередньої обробки зображень у відеопотоці для подальшого аналізу і розпізнавання об'єктів. Розглянуті основні способи та підходи до компенсації недоліків чи дефектів зображень, серед яких оптимізація контрастності зображення, різкості, нормалізація освітлення, пошук і відбракування схожих зображень. Запропоновано використання методу еквіваріантного детектора для розпізнавання об'єктів, що швидко рухаються. Синтезована нейрона мережа, яка пройшла навчання для розпізнавання транспортних засобів та обличь людини, ймовірно водія. Запропоновано підхід для вдосконалення алгоритму пошуку локальних ознак при навчанні нейронної мережі. Наведені та проаналізовані результати експерименту з використанням навченої мережі при розпізнаванні окремих об'єктів та композитних сцен.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Image pre-processing in the video stream

The stages of the process of object recognition in the video stream are analyzed, the problems that arise at each of the stages are highlighted. It is proposed to improve the method of an equivalent detector for recognizing fast-moving objects. A neural network for object recognition in a video stream has been created and trained. The recommendations on improvement of algorithm of search of local signs at training of a neural network are described. An experiment was performed to demonstrate the operation of a neural network when working with images under different conditions. The results of composite scene recognition are presented.

Текст научной работы на тему «РОЗПІЗНАВАННЯ ОБ'ЄКТІВ У ВІДЕОПОТОЦІ»

УДК 004.93 DOI: 10.30837/0135-1710.2021.177.018

е.В. ГУБАРЕНКО, М.С. ГУБАРЕНКО, М.В. АНТОНЮК РОЗП1ЗНАВАННЯ ОБ'еКТШ У В1ДЕОПОТОЦ1

Описанi проблеми попередньо! обробки зображень у вщеопотощ для подальшого аналiзу i розшзнавання об'eктiв. Розглянуп основнi способи та тдходи до компенсацй' недолiкiв чи дефекпв зображень, серед яких оптишзащя контрастност зображення, рiзкостi, нормалiзацiя освгглення, пошук i вiдбракування схожих зображень. Запропоновано вико-ристання методу еквiварiантного детектора для розпiзнавання об'екпв, що швидко рухають-ся. Синтезована нейрона мережа, яка пройшла навчання для розшзнавання транспортних засобiв та обличь людини, ймовiрно водiя. Запропоновано щдхвд для вдосконалення алгоритму пошуку локальних ознак при навчаннi нейронно! мережi. Наведенi та проаналiзованi результата експерименту з використанням навчено! мережi при розпiзнаваннi окремих об'eктiв та композитних сцен.

1. Вступ

Розшзнавання зображень е важливим компонентом систем управлшня, обробки шфор-мацп та прийняття рiшень. Завдання, пов'язанi з класифшащею i iдентифiкацiею предметiв, явищ i сигналiв, що характеризуються кшцевим набором деяких властивостей i ознак, виникають в таких сферах як робототехшка, шформацшний пошук, монiторинг та аналiз вiзуальних даних, дослiдження штучного штелекту. На даний момент широко використову-ються системи розпiзнавання рукописного тексту, автомобшьних номерiв, вiдбиткiв пальщв або людських обличь, що знаходять застосування в iнтерфейсах програмних продукпв, системах безпеки та аутентифшацп особи [1].

За останнш час з появою методiв зниження розмiрностi, згортальних нейронних мереж, deep learning i констеляцюнних моделей у розпiзнаваннi вiзуальних образiв був досягнутий iстотний прогрес. Однак, незважаючи на досягнутi усшхи, сучаснi дослiдження шдтверджу-ють той факт, що алгоритми розпiзнавання об'екпв не можуть повноцiнно замiнити людину.

Актуальним залишаеться питання розпiзнавання зображень тривимiрних об'ектiв пiд рiзними кутами зору, що тддаються перетворенням обертання, масштабування i транс-ляцп. Сучасш пiдходи до вирiшення цього питання, таю як багатошаровi згортковi нейронш мережi, а також використання iнварiантних детекторiв ознак SIFT i ORB [2], в даний момент пропонують частковi рiшення, що не забезпечують достатньо! точностi розтзна-вання i втрачають iнформацiю про структуру об'екта. 1снують проблеми з обробкою потокового вщео i виявлення об'ектiв, що рухаються. Також проблемою е розшзнавання нечпких розмитих зображень або зображення перекрит шшими об'ектами в отриманих кадрах.

Використання камер як ушфшованого пристрою для визначення множини параметрiв рухомих об'ектiв (вiдстанi, швидкостi, метричш параметри) дозволить знизити собiвартiсть системи i спростити формалiзацiю одержувано! шформаци за рахунок зменшення рiзновидiв застосовуваних технiчних пристро!в, а також, без додаткових налаштувань робочого мiсця i додавання апаратних засобiв, пiдвищити багатофункцюнальшсть системи контролю.

Мета дослiдження полягае у вдосконаленш методу розпiзнавання об'екпв, якi рухаються, за рахунок використання еквiварiантного детектора на етат навчання та використання нейронно! мереж^ що повинно покращити роботу систем автоматизованого та автоматичного мошторингу.

У рамках дослщження придшялась увага геометричним, кiнематичним та динамiчним характеристикам стану i поведiнки рухомих та нерухомих об'ектiв, якi виявляються шфор-мацiйно-вимiрювальними системами монiторингу в системах з рухомими об'ектами.

Теоретичне i практичне значення дослiдження полягае у тому, що розроблеш i реалiзо-ванi алгоритмiчне, математичне i програмне забезпечення становлять основу вимiрюваль-но! системи, яка може використовуватися для вщдаленого контролю i мошторингу транспортних засобiв, людей, технолопчних процесiв в рiзних сферах дiяльностi, а також входити

до складу комплексу техшчного зору, що забезпечуе автономне функцiонування транспорт-но-технолопчних комплексiв, безпiлотних систем.

2. Проблеми на етапах розшзнавання об'eктiв у вiдеопотоцi

Процес розпiзнавання об'eктiв у вщеопотощ може буди роздiлений на наступш етапи (рис. 1).

Рис.1. Схема екывар1антного детектора на баз1 трансформуючого автоенкодера

Етап 1. Порiвняння кадрiв у вiдеопотоцi - серед проблем, яю виникають на цьому етат, слiд зазначити незмiннiсть ка^в. Частiше за все вiдеопотiк мае 16-30 кадрiв у секунду, часто виникають ситуацп, коли кадри щентичш, або мають незначнi вiдмiнностi. 1снують три основних пiдходи до виршення тако! проблеми [3]: порiвняння значення хеш-функцiй двох кадрiв, як змiнюються; обчислення коефiцiенту кореляцп; побудова та аналiз SURF-дискриптiв.

Етап 2. Ощнка якостi зображення - серед проблем, як виникають на цьому етат, слщ зазначити розмиття, наявнiсть шумiв та засвiчення кадрiв. З багатьох причин зображення у кадрi може бути пошкоджено, iнодi якiсть кадру може бути дуже низькою i не придатною до розшзнавання, такi кадри слiд вщкинути. На цьому етапi слiд провести ощнку контраст-ностi, рiзкостi та чггкосп [4]. Можна також шдвищити рiзкiсть або компенсувати недолши якостi зображення.

Етап 3. Зменшення розмiрностi зображення - серед проблем, яю виникають на цьому етат, слщ зазначити вхiднi кадри високо! розмiрностi. Кадри надходять у виглядi матрицi пiкселiв, чим бiльша розмiрнiсть, тим бiльше операцiй буде виконано i бiльше часу на розшзнавання буде витрачено. Iнодi е можливим зменшити розмiрнiсть зображення, при цьому залишивши достатньо даних для обробки [5].

Етап 4. Розшзнавання об'екпв на зображенш - серед проблем, як виникають на цьому етат, слщ зазначити оклюзп та трансформащю. Iнодi об'екти повертаються, вщдаляються або перекриваються iншими об'ектами. Таю проблеми виршуються завдяки використанню вщповщних алгоритмiв розпiзнавання [5].

Етап 5. Отримання результату розшзнавання.

3. Удосконалення методу еквiварiантного детектора розшзнавання об'екпв,

що швидко рухаються

Головш особливостi методологiй та алгоритмiв розшзнавання об'екпв, що швидко рухаються, а також програмного забезпечення, створеного на !х основi, визначаються особливо-стями предметно! областi та апаратного забезпечення. На даний момент складно створити ушверсальну систему для розшзнавання рiзних клашв об'ектiв та подальшого !х аналiзу. Вузькими мiсцями подiбноl системи зараз е обчислювальнi можливост комп'ютерiв та недосконалiсть алгоритмiв. У дослщженш пропонуеться розглядати переважно розшзнавання рухомих об'ектiв транспортного типу. Програмне забезпечення, яке використовуеть-ся для виршення задач подiбного типу, зараз е одним з найбшьш затребуваних. Таке забезпечення може використовуватися для спостереження за дотриманням правил дорож-нього руху на шлагбаумах, пропускних пунктах, залiзничних шляхах, мапстралях, для монiторингу трафiку, знаходження вузьких мiсць в трафiку на дорогах, для перепустки в яюсь мiсця тощо.

Вхiдними даними е кадри з вщеопотоку чи запис трафшу.

Виходом е навчена нейронна мережа, результат розшзнавання у виглядi областей знай-дених об'ектiв та щентифшований об'ект.

Слiд видiлити наступш етапи роботи алгоритму розпiзнавання:

Етап 1. Оптимiзацiя обробки вiдеопотоку. На даному еташ вибираемо зображення з серп кадрiв, якi вiдрiзняються, знаходимо кращий кадр за якiстю серед схожих для бшьш детального аналiзу зображення. Даний етап потрiбен для оптимiзацil швидкостi роботи алгоритму: не мае сенсу повшстю аналiзувати кожен кадр з вщеопотоку, адже юнуе велика ймовiрнiсть того, що зображення щентичш або майже незмiннi. Важливо також вибрати для подальшого аналiзу чiткiше i контрастнiше зображення серед вибiрки з декiлькох схожих задля покращення процесу розпiзнавання.

Етап 2. Стиснення, зменшення розмiрностi зображення з мшмальною втратою шформа-тивностi. Даний крок необхщний для оптимiзацil швидкодп алгоритму, адже, як правило, необроблеш зображення мають дуже високi розмiрностi, що ускладнюе обробку i потребуе бшьше ресурсiв i часу для аналiзу.

Етап 3. Знаходження границь об'ектiв на зображеннi. На даному еташ знаходимо конту-ри об'екпв, встановлюемо !х кiлькiсть i розташування на зображенi. Таким чином, надалi ми будемо аналiзувати лише частини зображення, яю нас цiкавлять.

Етап 4. Аналiз iнформативних параметрiв об'екта. На даному еташ знаходимо колiр, розмiри, вiддаленiсть вiд камери, швидюсть руху, позицiю вiдносно камери, напрям руху. Всi цi характеристики далi використовуються для вирiшення бiзнес-задач конкретно! системи.

Етап 5. Видшення класу об'екта та його виду. На даному еташ аналiзуемо, що за об'ект був знайдений, його клас та тип, виршуеться, чи потрiбен вш для роботи системи, чи е аномалiею, далi вш може класифiкуватися, а також використовуватися для навчання адап-тивних нейронних мереж для самовдосконалення системи.

Було проведено експериментальну оцшку результатiв дослiдження. Отримаш результа-ти роботи алгоритму розшзнавання було порiвняно з результатами роботи вщомих аналоп-чних алгоритмiв, зокрема, були порiвнянi долi успiшно розшзнаних зображень. Як тестовi вибiрки було взято зображення, згенероваш спецiальними програмними засобами, а також вiдомi тестовi набори, якi знаходяться у вщкритому доступi.

4. Синтез моделi нейронноТ мережi з використанням еквiварiантного

детектора на базi трансформуючого автоенкодера

Алгоритм розшзнавання з використанням еквiварiантного детектора, побудованого на базi трансформуючого автоенкодера (рис. 1), де вихщними даними для мережi е дiлянка зображення (для першого рiвня iерархi!) або конкатенащя вихiдних кортежiв з детекторiв нижчих рiвнiв (для другого та вищих за номером рiвнiв). Результатом е кортеж розмiрнiстю

п ^, ^, у1 ], Т, р^ , де - значення iдентифiкатора функцп детектора, вираженого як вектор-

маска; \xi, yi ] - вщносш координати центру детектора; Т - значення трансформацi!, вира-

жене як матриця афшно! трансформаций pi - значення впевненостi детектора на вiдрiзку [0;1].

Детектори е частинами iерархiчно! структури, кожен рiвень iерархi! вiдповiдаe локальним ознакам або груш ознак, як описують певну частину об'екта (рис. 2). Перший рiвень iерархi! мiстить детектори мiнiмальних локальних ознак об'екта (наприклад, фара, лобове скло чи колесо автомобшя). Наступний рiвень описуе групи локальних ознак, як можна об'еднати у бшьш складну локальну ознаку. Останнiй рiвень iерархi! мiстить один детектор, який описуе весь об'ект i включае у себе локальнi ознаки попередшх рiвнiв. Мiж першим та останшм рiвнем iерархi! може бути скшьки завгодно рiвнiв.

Рис.2. Схема 1ерарх1чно! оргатзаци локальних екшвар1антних детектор1в

5. Вдосконалення алгоритму пошуку локальних ознак

Алгоритм розшзнавання складаеться з послщовно! активаци детекторiв моделi, почина-ючи з першого рiвня, на заданому зображенш. Нехай е функцiя розшзнавання g : X ^ Y , аргументами яко! е зображення xn е X, представлен в виглядi вектору довжини п, а значеннями функцп - множина клашв (категорiй) у е У, варшована в залежностi вщ постав-леного завдання. С також тдмножина пар аргументiв i значень функци D = {(х0, у0),..., (х0, у0)}. Таким чином, iерархiя детекторiв, що послiдовно активуються, реалiзуе функцiю h: X ^ У , яка апроксимуе функщю g на всш И областi визначення, в тому чи^ в точках, яю не включенi в D. Для розрахунку значення к(х) зображення надходить на вхщ першого шару навчено! системи, по^м виконуеться послiдовна активащя локальних детекторiв на кожному з рiвнiв. Вихiдне значення iерархi! являе собою бiнарне число, що визначае прина-лежнiсть зображення до класу, при цьому вихщний рiвень також проводить оцiнку пара-метрiв локалiзацil зображеного об'екта, якщо значення активаци дорiвнюе 1 (зображення устшно розпiзнано i належить класу).

У такому вигщщ розроблена система розшзнавання використовуеться для виршення задачi унарно! класифшаци, коли множина класiв у е У представлена двома елементами

{0,1}. Функщя, таким чином, дорiвнюе 1 у випадках, коли зображення, що служить !! аргументом, мiстить об'ект, що належить класу, i 0 в шшому випадку. Для випадюв, коли потрiбно розпiзнати зображення серед кшькох можливих класiв (завдання мультикласово! класифiкацi!), проводиться навчання окремо! iерархi! детекторiв для кожного конкретного класу, i потiм проводиться послiдовна перевiрка зображення на позитивну вiдповiднiсть

кожного з них. В цьому випадку розглядаеться функщя ^, визначена на множит х', значеннями яко! е множина клашв, така що для обраного у-го класу У ' = \у, и у ФгУг) .

Нехай дана навчена iерархiя детекторiв Мс для деякого класу зображень с (наприклад, людських обличь), або кшька iерархiй для завдання мультикласового розшзнавання, i зображення I, яке необхщно розпiзнати. Алгоритм розшзнавання складаеться з наступних кроив:

Крок 1. Вибираемо iерархiю детекг^в Мс .

Крок 2. Для /-того рiвня iерархi!, починаючи з першого, i для кожного детектора вщповщ-

ного рiвня D(l) складаемо вектор вихщних даних 2(/).

Крок 3. Якщо / = 0, то заповнимо вектор вихщних даних наступним чином: розраховуемо

значення функци iдентифiкацi! детектора i значення впевненостi для кожно! дiлянки зображення I(x..x+w,y..y+h), де w та h вiдповiдають розмiрам локально! дiлянки зображення, i проведемо конкатенащю вектора 2(/) з вихiдними значеннями детектора для

тих дiлянок, де = 1, та ^Р^ > 1, де I - обрана стушнь впевненостi.

Крок 4. Якщо / ф 0, вектор вхщних даних отримаемо як

2(/) = (р^1) 2(/_1) ))|1---ф(1) (2(/_1) ))||(00||...||0^), де Nl - максимальна кiлькiсть можливих детекторiв на рiвнi /.

Крок 5. Якщо для рiвня I активацн всiх детекторiв цього рiвня негативнi (дорiвнюють нулю), то зображення не належить класу с.

Крок 6. В шшому разi iнкрементуемо значення I i повторюемо алгоритм з другого кроку.

Крок 7. Якщо активащя останнього рiвня позитивна, то зображення належить класу с. 1накше повторюемо алгоритм з першого кроку.

Використовуючи той факт, що низькорiвневi локальш дшянки зображення (взятi з дос-татнiм масштабом), як правило, представляють собою край, межi i кути, слщ зазначити, що мае мюце тенденцiя до зростання рiзноманiтностi серед еквiварiантних детекторiв на бiльш високих рiвнях моделi. Експерименти показують, що кшьюсть детекторiв першого рiвня при навчанш не перевищуе 10, при цьому iерархi!, навченi на об'ектах рiзних категорiй, здатнi роздiляти мiж собою частину детекторiв першого рiвня, демонструючи ефект, що нагадуе трансферне навчання або попередне навчання без вчителя.

6. Аналiз результатiв експерименту

Для оцшки ефективностi розробленого алгоритму розпiзнавання зображень проведемо експерименти для трьох варiантiв алгоритму об'еднування в однiй категорп зображень, рiзних з iнформатико-теоретично! точки зору (таких, як зображення людського обличчя в профшь i в фас), але вiдповiдних при цьому однш категорi! приналежностi.

Варiант 1. Навчання локального еквiварiантного детектора в якост окремого класифша-тора. Метою експерименпв е визначення точностi вщновлення фрагментiв зображення за компактними репрезентащями, адекватностi сформованих репрезентацiй, !х вщповщнють значенням трансформацiй. Крiм цього, тестуеться ефектившсть роботи детектора в якосп опцп-щентифшатора. У завершальнiй частинi проводиться зютавлення з iншими алгоритмами унарно! класифшацп та вiдновлення трансформаций

Варiант 2. Розпiзнавання зображень за допомогою повнощнно! iерархi! локальних екыва-рiантних ознак. Об'ектами експерименту е показники помилки розшзнавання (в порiвняннi з вщомими алгоритмами), а також сформоваш моделлю просторовi структури еквiварiантних детекторiв.

BapiaHT 3. Робота системи на узагальнених вщеофрагментах, що мютять множину об'екпв рiзних класiв. Дослiджуeться здатнiсть моделi кластеризувати сцену, виявляючи окремi об'екти i формуючи вiдповiднi ïm репрезентацп.

Оскiльки представлена модель вимагае для навчання обмежену вибiрку з повнозв'язних вщеофрагменпв - тип даних, який не отримав поширення серед сучасних методiв розпiзна-вання зображень, - навчання моделей для експерименту проводилося на даних, представле-них автором. Навчальш вибiрки включають в себе як вщеофрагменти, отриманi в результат обробки згенерованих з використанням комп'ютерноï графiки тривимiрних моделей, так i фрагменти живоï зйомки навколишнього свгту.

Оцiнка ефективностi розпiзнавання людських обличь проводилася на вщкритих базах даних LFW [6], HPID (Head Pose Image Database) [7]. Деяю модел^ що використовують альтернативнi методи розшзнавання, наданi бiблiотекою Caffe [8]. Також для експери-ментiв використовувалися даш, отриманi за допомогою програми тривимiрного моделюван-ня FaceGen [9], що представляють собою маркованi зображення людських обличь в рiзних орiентацiях щодо камери.

Експериментальна перевiрка розробленого методу розшзнавання проведена вщповщно до рекомендацш з навчання i порiвняння моделей розшзнавання образiв в рамках апарату теорп розпiзнавання образiв i машинного навчання [10, 11]. Для ощнки ефективност ме-тодiв, якi використовуються в експериментi, використовувалися показники точност i повно-ти (що вщображають помилки першого i другого роду).

Для ощнки результативних показникiв застосовувався метод розрахунку довiрчих штер-вашв. Вiдповiдно до прийнятоï практиками постановки експерименту в област розшзнаван-ня i рекомендащями щодо вибору рiвня довiри, значення рiвня довiри p вибрано рiвним 0.95 [12]. Експериментальш данi продемонстрували, що для досягнення вщповщного рiвня досить вибiрки, яка складаеться з близько 500 примiрникiв, що для авторського методу вщповщае короткому вiдеофрагменту, який за часом не перевершуе 15 секунд. Частота змши кадрiв дорiвнюе 24 кадри за секунду, за умови використання методу пермутаци.

Оскiльки специфiка розробленого методу полягае у визначенш просторовоï локалiзацiï об'ектiв пiд рiзними кутами зору, то експериментальш вибiрки для навчання i тестування мютять набори вщповщних зображень. Для оцiнки здатност методу розпiзнавання стiйким чином обробляти об'екти тд впливом вiдповiдних iнварiантних перетворень, для кожного етапу експерименту результати обчислювалися за допомогою агрегаци показникiв серiï експериментальних перевiрок. При цьому кожна серiя складаеться з наступних елементiв: навчання i тестування на загальнш вибiрцi, навчання i тестування випадковою вибiркою, навчання i тестування на кластеризован^ вибiрцi. Кластеризащя включае в себе розбивку вибiрки на вiдеофрагменти, що мiстять зображення окремих об'екпв (конкретних людських ошб), при цьому данi вiдеофрагментiв навчання не перетинаються з тестовими. Таким чином, результатом експерименту е агрегований показник серп з двох стадш навчання i тестування з урахуванням розраховано' на базi складових показниюв стандартно!' помилки.

В рамках експерименту проводиться зютавлення результатiв використання розробленого методу i альтернативних методiв розпiзнавання зображень, що використовуються в даний час. Вибраш альтернативи широко застосовуються як у виробнищга (метод Вюли-Джонса [13], згортковi нейронш мереж [14]), так i в академiчних дослiдженнях. При виборi альтернатив використовувалися даш вщкритих змагань з машинного навчання в обласп розшзнавання зображень, таких як ILSVRC [15]. Реатзаци алгоршмв, що використовувалися в ходi експерименту, представленi авторами вщповщних методiв i отриманi з вщкри-тих джерел [10,16].

На базi отримано' вибiрки, згруповано' попарно, проводиться навчання розрщженого трансформуючого автоенкодера. В експеримеш! брали участь чотири моделi автоенко-дерiв, позначенi нижче як A, B, C i D, що вiдрiзняються кшьюстю нейрошв першого i останнього прихованих шарiв.

- A - 36x3 6 нейрошв;

- B- 64x64 нейрони;

- C - 256x256 нейрошв;

- D - 768x768 нейрошв.

Вибiр юлькосп нейронiв зроблено вiдповiдно до вщомих експериментiв з навчання автоасоащатвних нейронних мереж [17]. Трансформацп представляють собою поворот камери по осях X i Z.

У табл. 1 наведет результати розшзнавання для рiзних категорiй фрагментiв зображень, взятих з вщеофрагмешгв (складання вибiрки проводилося в автоматичному режимi, методом треюнгу; категори промаркованi назвами для спрощення i зручностi аналiзу).

Таблиця 1

A (36x36), % B (64x64), % C (256x256), % D (768x768), %

Обличчя: оч1 79+4 95+3 96+3 96+3

Обличчя: тс 82+3 92+3 93+3 94+2

Обличчя: рот 84+3 97+4 97+3 97+3

Обличчя: вуха 72+3 91+3 93+4 93+3

Обличчя: детал контуру 92+4 96+3 97+4 98+3

Автомобшь: колеса 72+4 92+4 94+3 95+4

Автомобшь: фари 74+3 91+3 92+2 92+2

Автомобшь: лобове скло 80+3 94+4 95+2 95+3

Автомобшь: задне скло 82+4 92+2 93+3 93+3

Автомобшь: бампер 79+4 90+3 92+4 93+4

Автомобшь: детал контуру 78+2 89+4 90+3 91+3

З отриманих даних можна зробити висновок про оптимальшсть моделi - збшьшення числа нейронiв веде до незначного шдвищення точностi реконструкций при цьому збшьшую-чи обчислювальне навантаження. Також бiльше число нейрошв вимагае бiльшого числа iтерацiй навчання для досягнення збiжностi. Найбiльш проблемними випадками для роботи еквiварiантного детектора е аномальш ситуаци, якi не зустршися у вiдеофрагментi - наприк-лад, оклюзiя шукано! дiлянки зображення стороннiми предметами. Крiм щентифшаци дшя-нок зображення, вторинною функцiею еквiварiантного детектора е оцiнка параметрiв шстан-цiювання або оцiнка позици об'екта. Для експериментально! перевiрки точностi ще! оцiнки використовувалися змiшанi данi вибiрки HPID i згенеровано! вибiрки зображень оаб FaceGen з подальшою пост-обробкою вiзуальними ефектами розмиття i випадково! оклюзи. Для зiставлення результатiв використовувалися таю методи як класичний алгоритм POSIT [18], i навчаеться з учителем регресор - випадковий лю [19]. Осюльки прогноз трансформацп являе собою регресда, а не класифшащю, як показник ефективностi обрано вщносну похиб-ку, виражену у вщсотках. Результати представленi у табл. 2.

В результат експерименту виявлено, що еквiварiантний детектор показуе бiльш точну ощнку просторових параметрiв об'екта в порiвняннi з альтернативними методами. 1стотна перевага над класичними методами комп'ютерного зору пояснюеться тим, що алгоритм POSIT вимагае для оцiнки позицп наявностi маркерiв, якi можуть бути спроектоваш на об'ект за допомогою методiв епшолярно! геометри.

Було проведено дослщження ефективностi просто1 дворiвневоl моделi на трьох категор-iях зображень людських обличь: звичайнi зображення ошб, зображення з штучним зашум-ленням за допомогою оклюзи i розмиття. Ефективнють розпiзнавання розраховувалася за допомогою показниюв точностi i повноти та порiвнювалася з аналогiчними показниками альтернативних методiв розпiзнавання.

Оскiльки однiею з основних переваг дано! моделi е еквiварiантнiсть - здатнiсть до щентифшацп об'ектiв на зображеннi в рiзних орiентацiях - то експериментальнi вибiрки згрупованi таким чином: розглядаеться деяка вихщна позицiя об'екта з координатами обертання (кутв Ейлера) (0,0,0), при цьому в групу, що характеризуеться значеннями

(pmin, (pmax), входять зображення об'екпв, якi зазнали трансформацп обертанням (р ,Pj ),

тако!, що для будь-якого P e (P ,Pj ,Pk) е вiрною нерiвнiсть pmin <р< pmax .

Таблиця 2

POSIT, % Випадковий лю, % Авторський метод, %

Обличчя очi 25+3 17+5 11+3

Обличчя ню 27+3 14+2 12+3

Обличчя рот 18+4 16+4 10+4

Обличчя вуха 24+4 12+4 11+2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Обличчя деталi контуру 20+2 14+3 14+4

Розмиття: очi 27+3 19+3 12+3

Розмиття: ню 32+3 18+3 14+2

Розмиття: рот 25+3 15+3 12+4

Розмиття: вуха 21+2 17+2 14+3

Розмиття: деталi контуру 31+4 16+4 12+3

Оклюзiя: очi 32+4 20+3 10+5

Оклкгая: нiс 28+2 16+5 14+2

Оклюзiя: рот 31+5 16+2 13+3

Оклюзiя: вуха 31+3 18+4 11+4

Оклкгая: деталi контуру 30+4 17+4 13+4

Оскшьки для цього експерименту потрiбна значна кшьюсть зображень об'екпв з рiзних кутiв огляду, для його проведення була використана вибiрка, отримана з використанням комп'ютерно! графки i генераци осiб програмою FaceGen.

Тестування розпiзнавання осiб проводилося шляхом зютавлення методом Вiоли-Джонса, класифiкатора SVM в поeднаннi з обчисленням пстограми орieнтованих градieнтiв i згорт-кових мереж, навчених на вибiрцi ImageNet. Навченi моделi були наданi бiблiотеками Са£Ге з OpenCV. Результати наведет у табл.3.

Таблиця 3

Метод Вюли-Джонса, % SVM+HOG, % CaffeNet, % Авторський метод, %

(0°,15°) 85+3 84+5 87+4 92+3

(15°,30°) 72+3 75+2 85+4 91+3

(30°,45°) 67+4 72+4 86+2 89+4

(45°,60°) 66+4 78+4 83+3 86+2

(60°,90°) 86+2 77+3 82+3 90+4

(90°,120°) 67+3 80+3 83+3 86+3

Метод Вюли-Джонса потребуе наявностi окремо! стади навчання для кожно! орiентащ!. В рамках експерименту використовувалася попередньо навчена модель, яка продемонстру-вала зютавш результати для фронтально! i профiльно! орiентацi! осiб, але вкрай низькi результати в промiжних станах. При використаннi SVM в поеднанш з методами зниження розмiрностi i пiдвищення iнварiантностi (гiстограма орiентованих градiентiв) для класифша-тора характерно зниження точносп в мiру включення до вибiрки зображень рiзних орiен-тацiй. Така поведiнка пов'язана з тим, що модель в процес навчання намагаеться виробити ознаки, яю однаково пiдходять для всiх зображень у вибiрцi, в результатi отримуемо рiвномiрно розподiленi невисокi значення точность Серед порiвнянних методiв авторська модель поступаеться тiльки глибиною згортково! мереж^ здатно! до навчання рiзних (таких, що не змшуються) локальних ознак для рiзних орiентацiй об'екта.

Слщ зазначити, що на вiдмiну вщ методу Вiоли-Джонса, розроблена система розтзна-вання дозволяе видiлити комплексну структуру голови людини, не обмежуючись дшянкою,

що мютить очi i рот. Такий ефект е наслщком використання ознак деталей контуру обличчя.

Порiвняння результатiв розтзнавання зображень обличь, пiдданих впливу, розмиття проводилося за допомогою методiв SVM + HOG, глибинно! згортково! мережi i алгоритму випадкового лiсу. Вибiрка проводилася на базi CVLAB Dataset i включала в себе об'екти, подаш з рiзних кутiв (табл. 4). Шумом е розмиття по Гаусу зi значенням а = 0.5 ... 2.5.

Таблиця 4

Випадковий лiс, % SVM+HOG, % CaffeNet, % Авторський метод, %

(0°,15°) 72+4 72+4 85+2 91+4

(15°,30°) 73+3 74+3 81+3 88+3

(30°,45°) 75+2 76+4 80+4 88+4

(45°,60°) 72+3 74+4 82+4 89+4

(60°,90°) 71+3 73+4 83+3 91+3

(90°,120°) 73+3 72+4 83+3 87+4

При впливi ефекту розмиття диспершя результапв по вiдношенню до орiентацil об'екта знижуеться.

Як завершальнi групи експериментально! вибiрки використовувалися зображення людських обличь пiд впливом шуму оклюзп (часткового перекриття). Шум оклюзи згенерований за допомогою випадкового розмщення на зображеннях ошб непрозорих геометричних ф^ур. При генерацп шуму оклюзи параметри розмщення ф^ур пiдiбранi таким чином, щоб залишати вiдкритою мiнiмум двi третини площi зображення. Результати наведет у табл. 5.

Таблиця 5

Випадковий лiс, % SVM+HOG, % CaffeNet, % Авторський метод, %

(0°,15°) 72+4 72+3 84+3 90+5

(15°,30°) 69+3 66+4 82+3 89+4

(30°,45°) 70+3 68+4 83+2 88+3

(45°,60°) 71+4 70+4 81+4 89+4

(60°,90°) 70+2 67+3 84+5 88+3

(90°,120°) 72+3 67+3 85+4 87+3

Як демонструють результати, оклюзiя е суттевою перешкодою для алгоршмв розтзна-вання, що використовують компактнi цiлiснi представлення, таких як випадковий лю i SVM+HOG - для деяких груп орiентацiй спостерiгаеться падiння точностi розпiзнавання до 10%. 1нструменти розпiзнавання, якi використовують локальш ознаки (наприклад, розробле-на система i мережа CaffeNet), менш чутливi до часткового перекриття локальних областей зображення. У таких ситуащях продуктивнють представленого методу наближаеться до показниюв основного конкурента - згорткових мереж.

7. Аналiз композитних сцен

В даному експеримент перевiрялася здатнiсть розроблено! системи за допомогою багаторiвневоl моделi аналiзувати сцени, що мютять безлiч об'ектiв, i автономно (без наявносп вчителя) класифiкувати !х мiж собою. Як вибiрки використовувалися вiдкритi данi, що мiстять вщеозаписи камер спостереження за дорожнiм трафшом. Оцiнка продук-тивностi алгоритму проводилася в такий спошб: пiдраховувалася кшьюсть об'ектiв в кадрi, аналогiчним чином вручну робилося розбиття по групах, потм цi значення зiставлялися зi значеннями знайденими алгоритмом (рис. 3).

У табл. 6 значення наведет у вщсотках вщ фак-тично! кiлькостi об'екпв. Слiд зазначити, що на вiдмiну вiд ситуацп з конт-рольованим трекiнгом i ру-хом камери навколо об'екта, алгоритм в режимi аналiза композитних сцен зi сто-роннiх вiдеофрагментiв поз-бавлений шформацп про фактичний рух об'екта навколо камери. Так система не здатна без додатково! шформацп визначити, що рух вщ камери автомобiля що вiддаляеться являе собою перемщення по площинi, непаралельнш площинi сенсору камери. У загальному випадку в такiй ситуацп алгоритм знаходиться в умовах невизначе-ност i здатний сформувати тiльки обмежене представлення об'екта за допомогою моделi еквiварiантних детекторiв. 1снуе можливiсть, використовуючи методи проективно! гео-метрп, ввести деяю припущення в розрахунок оптичного трекшгу - так для розглянутих експериментальних випадкiв стадiя оптичного трекшгу була доповнена умовою жорсткостi (фшсованою формою) об'ектiв в кадрi. При цьому трекер штерпретував зменшення розмiрiв об'екта на зображеннi як видалення вiд камери, i на пiдставi вщносно! змiни площi об'екта i показникiв оптичного потоку обчислював напрямок його руху.

Таблиця 6

Об'ектав знайдено, % Груп об'екпв знайдено, %

Запис трафжу 1 70 96

Запис трафiку 2 72 100

Запис трафжу 3 75 75

Запис трафiку 4 74 75

8. Висновки

Результатом дослщження стала модершзащя алгоритму розшзнавання. Запропоновано вико-ристання екв!вар!антного детектора на баз! трансформуючого автоенкодера алгоритму розшзнавання. Створена та навчена нейронна мережа для розшзнавання об'екпв у вщеопотощ. Проведено експеримент, у процеа якого ефективнють розроблено! системи пор!внювалася з показниками альтернативних вщомих метод1в розшзнавання. Точн1сть розшзнавання у раа використання запро-понованого методу зростае на 3-5%. Розроблена система розшзнавання бшьш стшка до локального шуму: для зображень, що шдцаються розмиттю 1 оклюзи, пад1ння точност! розшзнавання розроблено! системи становить 3-6% проти 5-10% у альтернативних вщомих методах.

Результати дослщжень становлять практичний штерес при проектуванш систем управл1ння та обробки шформацп в област комп'ютерного зору I розшзнавання зображень, для тих завдань, де юнуе необхщтсть визначення просторових параметр1в зображених об'екпв. Запропонований пщхщ навчання системи базуеться на використанш вщеозапишв, тобто система може навчатися на встановленому пункт мон1торингу для адаптаци до локальних образ1в. Для використання системи для мошторингу в режим! реального часу слщ проанал!зувати ! спроектувати систему на баз! розподшених обчислень для паралельного анал!зу кадр!в, адже результати локальних експе-римент!в показують труднощ! при багатьох кадрах в секунду, активация детектор!в багатьох р!вн!в потребуе значних обчислювальних ресурс!в.

Рис.3. Результат розп!знавання запису «трафш 2»

Список лггератури: 1. Nechiporenko A.S., Gubarenko E.V., GubarenkoM.S. Authentication of users of mobile devices by their motor reactions. Telecommunications and Radio Engineering. 2019. V. 78 (11). P. 9871003. doi: 10.1615 / TelecomRadEng.v78.i11.60. 2. Ebrahim Karami, Siva Prasad, andMohamedShehata. Image Matching Using SIFT, SURF, BRIEF and ORB: Performance Comparison for Distorted Images. 2017. arXiv preprint arXiv:1710.0272. 3. ЛоктевД.А., КочневВ.А., ЛоктевА.А. Вивчення функцш розмиття зображення у виглядi шформативного параметра стану i поведшки аналiзованого об'екта. Динамжа складних систем - XXI столгтгя. 2020. N° 2. С. 16-27. 4. LoktevD., LoktevA. Image blurring function as an informative criterion. Advances in Intelligent Systems and Computing. 2021. V. 1258. P. 173-183. 5. Фiсенко В.Т., Фюенко Т.Ю. Комп'ютерна обробка i розтзнавання зображень: навчальний поабник. СПб: СПбГУ 1ТМО, 2008. 192 с. 6. Huang G.B., Ramesh M., Berg T., Learned-Miller E. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical Report 07-49, University of Massachusetts. 2007. No. 1 (2). pp. 3-37. 7. Gourier N., HallD., Crowley J.L. Estimating face orientation from robust detection of salient facial structures. FG Net Workshop on Visual Observation of Deictic Gestures, 2004. V. 6(4). 8. Gourier N., Hall D., Crowley J.L. Caffe: Convolutional architecture for fast feature embedding. FG Net Workshop on Visual Observation of Deictic Gestures. 2004. P. 1-9. 9. Singular Inversions. FaceGen modeller (Version 3.3). Singular Inversions, 2008. 10. Bishop C.M. Neural networks for pattern recognition. Oxford: Oxford university press, 1995. P. 482. 11. Bishop C.M. Pattern recognition and machine learning. New York: Springer, 2006. P. 758. 12. TanX., TriggsB. Enhanced Local Texture Feature Sets for Face Recognition Under Difficult Lighting Conditions. IEEE Transactions on image processing. 2010. Vol. 19, No 6. P. 1635-1650. 13. Viola P., JonesM. Rapid object detection using a boosted cascade of simple features. 2001. No. 1. P. 502-511. 14. Szegedy et al., Going deeper with convolutions. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015. P. 1-9, doi: 10.1109/CVPR.2015.7298594. 15. Hinton G.E. A practical guide to training restricted Boltzmann machines. Momentum. 2010. No. 9 (1). P. 926. 16. Hubel D.H., Wiesel T.N. Brain and visual perception. ISBN13, 2005. 17. Hinton G.E., SalakhutdinovR.R. Reducing the dimensionality of data with neural networks. Science. 2006. No.313 (5786). P. 504-507. 18. Duin R.P., Pekalska E. Open issues in pattern recognition. Computer Recognition Systems. 2005. P. 27-42. 19. Leo B. Random forests. Machine learning. 2001. No. 45 (1). P. 5-32.

Надтшла до редколегИ' 24.05.2021

Губаренко С.В., кандидат техшчних наук, доцент, доцент кафедри системотехтки ХНУРЕ. Науковi штереси: теорiя прийняття ршень, управлшня соцiально-економiчними системами, системи штучного зору. Адреса: Укра!на, 61166, м. Харшв, пр. Науки, 14, тел. +38 (050) 741 01 74.

Губаренко М.С., асистент кафедри системотехтки ХНУРЕ. Науковi штереси: згортковi нейронш мережц глибоке навчання, розтзнавання зображень. Адреса: Украша, 61166, м. Харюв, пр. Науки, 14, тел. +38 (050) 532 61 23.

Антонюк М.В., магистрант кафедри системотехтки ХНУРЕ. Науковi штереси: проблеми розтзнавання зображень. Адреса: Укра!на, 61166, м. Харюв, пр. Науки, 14, тел. +38 (068) 342 43 74.

i Надоели баннеры? Вы всегда можете отключить рекламу.