Науковий вкник НЛТУ УкраТни Scientific Bulletin of UNFU
http://nv.nltu.edu.ua https://doi.org/10.15421/40270925 Article received 01.11.2017 р. Article accepted 28.11.2017 р.
УДК 004.93
ISSN 1994-7836 (print) ISSN 2519-2477 (online)
J El Correspondence author O. P. Maksymiv aleks.maksymiv@gmail.com
О. П. Максимiв
Львiвський державний утверситет безпеки життeдiяльностi, м. Львiв, Украта
КАСКАДНИЙ МЕТОД ДЕТЕКТУВАННЯ ПОЛУМ'Я У В1ДЕОПОТОЦ1 З ВИКОРИСТАННЯМ ГЛИБОКИХ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ
Запропоновано каскадний бшарний класифжатор, який базуеться на використанш сум^ Гауссового розподшу, примь тивiв Хаара та глибоких згорткових нейронних мереж. Застосування такого тдходу дае змогу, з одного боку, здшснювати мониторинг середовища в режим^ наближеному до реального часу, а з шшого - забезпечити досить високий показник ефек-тивностi виявлення полум'я на ввдеозображеннях (92,7 %). На першому етапi, за допомогою використання примiтивiв Хаара, до попередньо виокремлених рухомих регiонiв вiдеозображення генеруються так зваш регiони iнтересу. На другому етат отриманi регiони iнтересу передаються для класифжацп на вхвд до глибоко! згортково! нейронно! мережi, яка формуе вис-новок про наявнiсть або ввдсутшсть полум'я на зображеннi. У межах проведення дослiдження запропоновано модифжовану модель нейронно! мережi - SqueezeNet. Виявлено, що за допомогою використання трансферного пiдходу пiд час навчання нейронно! мережi, iснуе змога мiнiмiзувати кiлькiсть хибних викликiв, особливо на об'ектах, яю вiзуально можуть нагадува-ти полум'я, та зменшити часовi затрати, якi необхiднi для !! навчання. Для покращення ефективностi роботи нейронно! мере-жi здiйснено низку тонких налаштувань (ансамбль з нейронних мереж, поворот зображень, зменшення показника швидкостi навчання, кадрування та передискретизащя), що сумарно дало змогу покращити !! ефективнiсть на 2,4 %.
Ключовi слова: виявлення руху; примггиви Хаара; трансферне навчання; iнтелектуальнi системи; комп'ютерний зiр.
Вступ. Протягом останшх рок1в спостерiгають знач-не збшьшення об'ему потоково! шформацп, отримува-них з камер ввдеоспостереження. Iнформацiя такого типу мктить в собi значний потенцiал для И використання в контексп забезпечення безпеки життедiяльностi лю-дини та прийняття управлшських рiшень. Проте, через потребу постшного контролю вхвдно! шформацп, лю-дина не може гарантувати яшсного та оперативного ре-агування на можливi загрози. Цi факти призвели до значного збiльшення кiлькостi iнтелектуальних систем ввдеоспостереження, як1 можуть самостiйно виконувати покладенi на них завдання.
Одним iз найпопулярнiших напрямк1в ввдеоаналгти-ки е виявлення конкретних подiй або об'екпв. Так, значного поширення набули системи детектування т-шоходiв, розтзнавання облич, автоматичного керуван-ня автомобшем тощо. На нашу думку, не менш важли-вою е реалiзацiя автоматично! системи детектування полум'я. Порiвняно з наявними пожежними давачами, щентифжащя полум'я у вiдеопотоцi мае низку переваг: широкий обсяг контрольовано!' територп, можливiсть встановлення на вiдкритих донках, легкость встанов-лення, спроможнiсть одразу ж перевiрити правильнiсть спрацювання та оцшити можливу загрозу.
Аналiз останшх дослщжень та публiкацiй. Упро-довж останшх рошв тривае тдвищений рiвень защкав-леностi вчених до розроблення алгоритмiв та методiв детектування полум'я на зображеннях. Оск1льки найпо-мггшшою вiзуальною ознакою пожеж1 е колiр, то зви-
чайно ж бшьшкть публiкацiй присвячена використан-ню pi3HOMaHrram колiрних моделей, просторовоТ ш-формацп про не! тощо (Maksymiv, Rak & Peleshko, 2016; Chen et al., 2004; Qi & Ebert, 2009; Celik & Demi-rel, 2009). Проте, враховуючи неоднорiднiсть кольору горшня (колiр полум'я чи диму залежить вiд його тем-ператури та речовини, яка горить), такий пвдхвд супро-воджуеться низкою хибних спрацювань.
Значною мiрою ефективнiсть роботи системи детектування пожеж1 у вщеопотощ можна пiдвищити завдя-ки додатковому використанню aлгоритмiв, як1 дають змогу виокремити рухомi об'екти. Для цього використо-вують як нaйпростiшi методи видiлення рухомих об'ектiв ^зниця кaдрiв (Lipton et al., 1998), порiвняння з фоном (Piccardi, 2004), мжстура гауссового розподiлу (KaewTraKulPong & Bowden, 2002)), так i таю, яш пот-ребують значних обчислювальних затрат (базуються на стохaстичнiй оцiнцi змши форми та руху вогню (Chen et al., 2003), набору правил руху (Celik et al., 2007), оп-тичного потоку (Horn & Schunck, 1981)).
Щодо сучасних пiдходiв до детектування об'ектiв на зображеннях, то, безумовно, потрiбно згадати про використання згорткових нейронних мереж. Так, у 2012 р. Алекс Крижевский, навчивши згорткову мережу, яка складалася лише з 8 згорткових i 2 повзнозв'язних ша-рiв вдалося досягнути показника 16 % (найближча команда з показником 26 %) (Russakovsky et al., 2015). Уже в 2015 р. компашя Microsoft за допомогою глибоких згорткових мереж вдалося перемогти людину з И
1нформащя про aBTopiB:
Макси^в Олексiй Петрович, ад'юнкт кафедри управлiння iнформацiйною безпекою. Email: aleks.maksymiv@gmail.com Цитування за ДСТУ: Максимiв О. П. Каскадний метод детектування полум'я у вщеопотоц з використанням глибоких згорткових
нейронних мереж. Науковий вкник НЛТУ УкраТни. 2017. Вип. 27(9). С. 115-120. Citation APA: Maksymiv, O. P. (2017). Cascade-Based Method for Flame Detection in Video Sequences Using Deep Convolutional Neural Networks. Scientific Bulletin of UNFU, 27(9), 115-120. https://doi.org/10.15421/40270925
piBHeM помилок в 5,33 %. Вщповвдно, за перюд з 2012 по 2015 рр. можна простежувати тенденцш, що чим бiльше шарiв у згортковш мереж1, тим краще вона працюе. Проте у 2016 р. в конкура Imagenet перемогла команда з рiвнем помилок 2,9 %, яка використовувала ансамбль з 9 нейронних мереж (He et al., 2016).
Щодо використання нейронних мереж для детекту-вання полум'я, то можемо вщзначити лише науковi ро-боти (Qingjie et al., 2016; Frizzi et al., 2016; Maksymiv, Rak & Peleshko, 2016). Проте, незважаючи на висок1 по-казники ефективностi, треба зазначити, що 1х використання неможливе в режимi реального часу, що нiвелюe можливють ix використання в системi безпеки життедь яльностi.
Узагальнюючи науковий досвщ можемо зазначити, що нинiшнi методи виявлення пожеж1 у вiдеопотоцi ма-ють недостатню високу як1сть детектування або харак-теризуються низькою швидкодieю, що не дае змоги ви-користовувати ix для побудови автоматизованих систем детектування полум'я. Вирiшенням зазначених вище проблем може послужити використання глибоких згор-ткових нейронних мереж, за умов забезпечення роботи в режимi реального часу.
Методика дослщження. Бшьшстъ сучасних детек-торiв об'ектiв на зображеннях складаються з двох час-тин: екстрактор ознак та класифжатор. Вiдповiдно до цього пiдxоду, роботу детектора полум'я було роздше-но на два основш етапи. На першому етапi здшсню-еться пошук регiонiв (ROI), як1 можуть вiзуально нага-дувати вогонь. Для цього, насамперед визначаються лише руxомi об'екти, як1 передаються на вхщ класифша-тору, побудованого на основi примiтивiв Хаара, де i визначаеться вiзуальна схожесть з вогнем. Осшльки використання цього пiдxоду е недостатшм для забезпечення ефективно! роботи детектора, то отриманi реп-они, як1 попереднiй класифiкатор вщшс до класу "пожежа", передаються на вхщ до нейронно! мереж!, яка i надае остаточний висновок про наявшсть або вщсут-шсть полум'я на зображеннi.
Видiлення рухомих об'ект1в. Аналiз лише рухомих об'екпв на зображеннi дае змогу зменшити загальний об'ем шформацп, яку потр!бно проаналiзувати класифь катору для надання остаточного висновку. Для цього було виршено використовувати сумш Гауссового роз-под!лу (GMM). Кожен пiксель на зображенш моде-люеться на основ! окремо! Гауссово! сумш! для фону, переднього плану та тшей. Базуючись на час! юнування i дисперсп кожного гаусаана в сумш!, можна визначи-ти, як1 з них належать до фону. Шксел!, значення яких не вкладаються у фоновий розподш, вважають пе-редньоплановими доти, поки не з'явиться гаусаан, що дае змогу з достатньою точшстю вщнести 1х до фону. Приклад видшення рухомих об'екпв зображено на рис. 1. Имов!ршсть, що певний тксель мае !нтенсив-шсть х, на пром!жку часу t, можна описати як (Stauffer & Grimson, 1999), а саме:
K
P{x,) = 2 wi П(хьПь£,■),
i=1
де: К - шльшсть гауссових сумшей; wi - оцшка ваг i-го гауссового розпод!лу; - середне значення для i-го гауссового розпод!лу; - матриця ковар!ацп для i-го гауссового розпод!лу; - функщя щшьносп гауссового розпод!лу:
r](xt,V, 2) = -
1
-1(xt-Jt)T2 '(xt-Jt)
(2n)2
n - к1льк1сть вим1рювань для 1нтенсивност1 ткселя х i
®Kt = (1 - a)mKt-i + а(< MkJ), де: а - швидшсть навчання; - дор1внюе 1, якщо модел1 ствпали, i 0, якщо ш.
Рис. 1. Приклад детектування лише рухомих дшянок зображення. Справа - оригшальш зображення, злiва - отриманий результат
Генерацiя кандидатiв-регiонiв. До регюшв, на яких спостернався рух, для визначення 'х в1зуально! схожосп з полум'ям, застосовують бшарний класиф1катор, який грунтуеться на використанш каскад1в Хаара. На ввдмшу в1д загальноприйнятих шдход1в щодо вщнесення об'екта до категорп "пожежа", на основ1 застосування р1знома-нггних кол1рних моделей, цей шдх1д дае змогу уникнути прив'язки до кольору вогню, який може набувати практично будь-яко' кол1рно' гами залежно в1д температуря та речовини, яка горить. Зокрема, потр1бно зазначити, що завдяки використанню штегрального представлення зображення, отримуваш ознаки можуть опрацьовувати-ся в режим1 реального часу навиъ на пристроях 1з слаб-кою обчислювальною спроможшстю.
1нтегральне представлення зображення е матрицею, розм1ршсть яко' збтаеться з розм1ршстю вихщного зображення, а елементи матриц обчислюють за формулою (Chen et al., 2004), а саме
i< x,j < y
II (x, y) = Z I (i, j),
i=0, y=0
де I(i, j) - яскрав1сть шксел1в вихщного зображення.
На етат генерацп регюшв, як1 можна ввднести до категорп "пожежа", важливим етапом е навчання класи-фжатора, який зможе розтзнати уа можлив1 дшянки зображення, на яких присутнш вогонь. Навчання класи-фжатора такого типу буде прийнятним навиъ, якщо бу-де спостер1гатися високий р1вень хибно позитивних спрацювань. Для цього ми вщбрали тре^вальн1 екзем-пляри розм1рами 12^12 п1ксел1в, як1 характеризуються вар1атившстю якост1 зображення та в1зуального вигля-ду вогню (рис. 2). Загальна к1льк1сть зображень, в1д1б-раних для навчання, становила: 3547 позитивних та 9000 негативних.
Сам по соб1 каскад Хаара - це наб1р примггив1в, для яких розраховуеться значення 'х згортання 1з зображен-ням. Використовують найпрост1ш1 прим1тиви, що складаються з прямокутнишв i мають всього два р1вн1 (+1 та -1). При цьому кожен прямокутник використовуеться
e
n
к!лька раз!в р!зного розм!ру. Шд згортанням мають на уваз!
5 = X - Y ,
де: Y - сума елеменпв зображення в темнш обласп, а X - сума елеменпв зображення у свгттй обласп (можна так само брати X/Y, тод! буде стшк!сть в раз! змши масштабу).
Рис. 2. Приклад зображень з датасету
Вщповщно до зазначеного вище, було розроблено наб!р прим1тив1в, який дае змогу описати можлив! в!зу-альш ознаки полум'я на зображенш (рис. 3).
Рис. 3. Запропоноваш ознаки Хаара
Унасл!док навчання було отримано 21-р!вневий каскад Хаара, що, окр!м швидко! роботи, характеризувався високим р!внем детектування полум'я на зображеш (99,4 %). Проте, треба зазначити, що спостерйаеться значний р!вень хибно позитивних спрацювань (~20 % в!д уах виклик1в), особливо на таких об'ектах, як в!кна в денний час (рис. 4), р1зномаштш засоби освилення, прлянди тощо. Зазначений недолж зумовлюе використання додаткового класифшатора для уах репошв, як! було отримано теля зашнчення цього етапу.
Рис. 4. Приклад генераци регiонiв iнгересу
Класифiкацiя. На етат класифжацп використо-вуемо згорткову мережу, яка е ансамблем, з трьох нейронних моделей для надання остаточного висновку щодо приналежност! отриманих репошв штересу з по-переднього етапу до категорп "пожежа". Зокрема, для
покращення ефективност! роботи такого детектора, було використано низку тонких налаштувань мереж1 та використання тдходу трансферного навчання до двох нейронних моделей.
Трансферне навчання. П!д час навчання CNN важ-ливо видшити не тшьки ознаки, як1 можуть описати шуканий об'ект, а й ознаки шших об'екпв, що дасть змогу мш1м1зувати к1льк1сть хибних спрацювань детектора, особливо тд час розтзнавання зображень, яш можуть в!зуально нагадувати його (у цьому раз! це можуть бути прлянди, р!зномаштш засоби освилення та шш1 об'екти з яскравими текстурами). Так, у робот! (Yosinski et al., 2014) зазначено, що кожен прихований шар у згортковш нейроннш мереж1 мае виразш ознаки, як1 пов'язаш з особливостями нижшх шар!в забезпечу-вати можлив!сть видшення загальних ознак. Своею чертою, вищ! шари несуть шформацш, яка е конкретш-шою до вих1дно! задач! класифжацп.
Вщповвдно до зазначено! вище парадигми, можемо використати апрюрну згорткову нейронну мережу, яка натренована на основ! датасету Imagenet, для розтзна-вання бшьш шж 1000 клаав об'екпв. Зокрема, потр!бно врахувати той факт, що за умов використання уже нав-чено! нейронно! мереж1, ïï подальше донавчання змен-шить часов! затрати в!д дшв або навиъ тижшв до к1ль-кох хвилин.
Bn6ip арх^ектури нейронно!' мережi. Враховуючи поставлен! вимоги щодо побудови детектора полум'я (висока ефектившсть детектування та можлив!сть роботи в режим!, наближеному до реального часу), використання загальноприйнятих арх!тектур нейронних мереж (GoogleNet (Szegedy et al., 2015), VGG-16 тощо) е проб-лематичним, оск!льки вони характеризуються великими розм!рами та к!льк!стю параметр!в, що може спричини-ти ïï неефективн!сть на машинах !з невеликими обчис-лювальними ресурсами.
В!дпов!дно, для розв'язання поставленоï задач!, вир!-шили використати мережу SqueezeNet (Iandola et al., 2016). Цей виб!р зумовлений тим, що ця мережа дае змогу працювати з однаковою ефективн!стю глибоко!' мере-ж1 AlexNet, проте мае в 50 раз!в менше параметр!в. Ос-новними стратег!ями до побудови такоï арх!тектури е:
1) замша фшьтр1в 3x3 на 1x1 фшьтри, що дае змогу змен-шити кшьюсть параметр1в у 9 раз1в;
2) зменшення кшькосп канал1в бшьш стиснутими модулями;
3) пониження дискретизацп останшх шар1в мереж! Стра-тегi! 1 та 2 надшей! на зменшення кшькосп параметр1в мереж!, третя стратегiя - на покращення ïï ефективнос-п, незважаючи на зменшення параметрiв.
Для покращення ефективност! детектування вирше-но використовувати модифшовану архiтектуру мереж! SqueezeNet шляхом впровадження залишкових (residual) блок!в (рис. 5). К!нцеву арх!тектуру мереж! зобра-жено на рис. 6.
Доналаштування нейронно!' мережь Шд час тонкого налаштування ваг нейронноï мереж!, починаемо з! заздалепдь тдготовлених моделей, як! навчеш на ори-пнальному набор! даних (тобто зображення без будь-яких спотворень). Здшснили тонке налаштування перших N шар!в модел! на спотвореному набор! даних, а в шших шарах використовували фшсоваш параметри. Основною причиною такоï фiксацiï е спостереження, що п!д час розмиття ! шуму останн! шари набувають
бшьшого впливу на HrobKopÍBHeBi властивостi, таю як колiр, границi та текстурш ознаки. Проте цi спотворен-ня мають незначний вплив на шформащю вищого piB-ня, таку як семангачш значения зображень (Song Han, 2016). Отже, пiд час тонкого налаштування ваг нейрон-но! мереж оpieнтуeмося на вихвдш шари SqueezeNet, яш мютять в co6i шформацшэ нижчого р1вня.
lxl Conv Squeeze
lxl Conv Expand
3x3 Conv Expand
Output
Concat/Eltwise
1128
Рис. 5. Residual блок (Iandola et al., 2016)
Рис. 6. Арх^ектура residual SqueezeNet мережi (Qi & Ebert, 2009)
Через обмежений наб1р даних у нашому датасеп (тшьки 5000 зображень, на яких мютиться полум'я) про-понуемо використовувати: поворот зображень, передис-кретизащю та кадрування.
На початковому етат було виршено навчати мережу з випадковими поворотами 0°, 75°, 285°, проте це не дало будь-яких покращень. Лише за умов використання усередненого значения, отримуваного в1д класифшато-ра тд час повороту зображень в зазначених напрямках (значення було пвдбрано експериментальним шляхом), було отримано змогу покращити ефектившсть роботи детектора (табл.).
Щодо передискретизацп та кадрування зображень, то процес !х використання нагадуе операщю з поворотами зображення. Так, вхвдне зображення под1ляеться на 5 частин (чотири кутових та одне центральне), до яких i застосовуеться операщя передискретизацп. Отри-муванш результати з кожно! частини зображення знову ж усереднюються, внаслщок чого отримуеться к1нцеве передбачення.
Потр1бно також зазначити про те, що уа модел1 на певному етат навчання зггкнулися з проблемою пере-
навчання (overfitting), що було помiчено у зв'язку з початком зростання втрат на валiдацiйному наборi даних (250 зображень). Для виршення ще! проблеми, почина-ючи з цього етапу, показник швидкостi навчання було зменшено в 10 разiв (порiвняно з початковим).
Пришнцевим етапом доналаштування детектора полум'я стала реалiзацiя ансамблю з нейронних мереж. Для цього була навчена модель, яка навчалася лише на базi даних зображень iз полум'ям (без застосування тд-ходу трансферного навчання). Незважаючи на те, що така модель характеризувалася нижчою точнiстю, поеднавши И з шшими тонко налаштованими моделями, вдалося покращити загальний показник ефектив-носп детектора полум'я. На нашу думку, такий факт зу-мовлений тим, що мережа натренована лише на дата се-тi, який мiстить у собi зображення з вогнем, врахувала iншi ознаки об'екта, атж тонко налаштована мережа.
Додатково до ансамблю ввшшли ще двi нейроннi моделi, як1 мiстили уже в собi ознаки, отримуванi внас-лщок трансферного навчання. Перша модель донавча-лася внаслщок штучного збшьшення наявного датасету шляхом повороту зображень, друга - на датасеп збшь-шеного шляхом кадрування та передискретизацп.
Експериментальнi досл1дження. Для експеримен-тальних дослщжень використано датасет, загальною м^шстю 5000 зображень, який, своею чергою, було подшено так: 65 % - для навчання, 15 % - для ватдацд та 20 % - для тестування. На цьому наборi зображення, яш мютять полум'я, були вручну проанотованi, зображення ж без полум'я були виключеш з набору. Зокрема, для ощнки можливосп роботи запропонованого детектора в режимi наближеного до реального часу, було використано набiр з 10 вщеороликами, в яких спостерпа-ються процеси горшня.
Загальний показник ефективностi роботи нейронно! мереж1 SqueezeNet без тонких налаштувань становив 89 %. За допомогою тонких налаштувань вдалося тд-няти показник ефективностi додатково на 2,4 % (див. табл.). Приклад роботи класифшатора в складних умо-вах вщеозйомки наведено на рис. 7.
Табл. Ефектившсть окремих етапiв тонкого
Етап тонкого налаштування мережм Частка покращення ефек-тивиостi роботи детектора, %
Поворот уах зображень 0,7
Кадрування та передискретизащя 0,4
Зменшення показника швидкостi навчання 0,5
Ансамбль нейронних мереж 0,8
Рис. 7. Приклади правильних спрацювань класифжатора
Треба зауважити, що все ще спостерпаються не спрацювання класифшатора, особливо впродовж перших секунд вщ моменту початку пожеж1 (рис. 8, а), що обумовлено особливостями використання детектора ру-ху. Зокрема, за умов рiзкоl змши заднього фону (див.
рис. 8, б) спостернаються деяш помилковi спрацюван-ня, що знову ж, на нашу думку, вимагае доопрацювання
а) б)
Рис. 8. Приклади неправильно! роботи класифжатора
Окремо потрiбно вiдзнaчити про пiдходи, викорис-тання яких не покращило ефективнiсть роботи нейрон-но! мереж1: штучне збшьшення датасету (масштабуван-ня, перекоси, випaдковi зрушення), подiл датасету на день/шч (результати вимагають доопрацювання, оскшь-ки зображення, на яких мiститься полум'я, в нiчний час становить лише 17 % вш загально! кшькосп зобра-жень), використання iншо! архггектури SqueezeNet (dense^-sparse^-dense (Song Han, 2016)), добавлення додаткових моделей до ансамблю.
Висновки. Отже, описано метод детектування полум'я у вадеопотош, який дае змогу поеднати переваги детектора Хаара (швидшсть роботи) та глибоких згор-ткових нейронних мереж (точшсть детектування). Зага-лом вдалося створити три моделi нейронних мереж:
1. Модель, до яко! було застосовано трансферне навчання, кадрування та передискретизащя;
2. Доповнена перша модель внаслщок донавчання шляхом повороту зображень;
3. Модель без тонких налаштувань та без трансферного навчання.
Незважаючи на досить висок1 показники ефектив-ностi класифшацп нaявностi полум'я на зображеннях (91,4 % правильности, вважаемо доцiльним подальше дослвдження можливостей тонкого налаштування мережа (особливо в напрямку навчання на зображеннях, яш важко клaсифiкуються), доопрацювання алгоритму виз-начення рухомих об'ектiв та додаткового збшьшення кшькосп шaрiв i моделей в aнсaмблi.
Перелiк використаних джерел
Celik, Т., & Demirel, H. (2009). Fire detection in video sequences using a generic color model. Fire Safety Journal, 2, 147-158. https://doi.org/10.1016/j.firesaf.2008.05.005 Celik, Т., et al. (2007). Fire pixel classification using fuzzy logic and statistical color model. Acoustics, Speech and Signal Processing, ICASSP 2007. IEEE International Conference on. IEEE, 2007, 1205-1208. https://doi.org/10.1109/ICASSP.2007.366130 Chen, Т., et al. (2004). An early fire-detection method based on image processing. ICIP '04, 1707-1710.
https://doi.org/10.1109/ICIP.2004.1421401
Chen, T. H., et al. (2003). An intelligent real-time fire-detection method based on video processing. Security Technology, Proceedings. IEEE 37th Annual 2003 International Carnahan Conference on. — IEEE, 104-111. https://doi.org/10.1109/CCST.2003.1297544 Frizzi, S., et al. (2016). Convolutional neural network for video fire and smoke detection. Industrial Electronics Society, IECON 201642nd Annual Conference of the IEEE, 877-882. https://doi.org/10.1109/IEC0N.2016.7793196 He, K., et al. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770-778. https://doi.org/10.1109/CVPR.2016.90 Horn, B. K. P., & Schunck, B. G. (1981). Determining optical flow. Artificial intelligence, 17(1-3), 185-203.
https://doi.org/10.1016/0004-3702(81)90024-2 Iandola, F. N., et al. (2016). SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size. arXiv preprint ar-Xiv:1602.07360, 1-13. KaewTraKulPong, P., & Bowden, R. (2002). An improved adaptive background mixture model for real-time tracking with shadow detection. Video-based surveillance systems. Springer US, 135-144. https://doi.org/10.1007/978-1 -4615-0913-4_11 Lipton, A., et al. (1998). Moving target classification and tracking
from real-time video. Proc. of WACV'98, 8-14. Maksymiv, O. P., Rak, T. E., & Peleshko, D. D. (2016). The Analytical Review of Fire Detecting Method by Using Computer Vision. Scientific Bulletin of UNFU, 26(5), 318-325. https://doi.org/10.15421/40260550 Maksymiv, O., et al. (2016). Deep convolutional network for detecting probable emergency situations. Data Stream Mining & Processing (DSMP), IEEE First International Conference on. IEEE, 2016, 199-202. https://doi.org/10.1109/DSMP.2016.7583540 Piccardi, M. (2004). Background subtraction techniques: a review. Systems, man and cybernetics, 2004 IEEE international conference on. IEEE, 2004, 3099-3104.
https://doi.org/10.1109/ICSMC.2004.1400815 Qi, X., & Ebert, J. (2009). A Computer Vision-Based Method for Fire Detection in Color Videos. International journal of imaging, 9, 2234.
Qingjie, Z., et al. (2016). Deep Convolutional Neural Networks for Forest Fire Detection. International Forum on Management, Education and Information Technology Application, 568-575. https://doi.org/10.2991/ifmeita-16.2016.105 Russakovsky, O., et al. (2015). ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211-252. https://doi.org/10.1007/s11263-015-0816-y Song Han (2016) SqueezeNet-DSD-Training. Retrieved from:
https://github.com/songhan/SqueezeNet-DSD-Training. Stauffer, C., & Grimson, W. E. L. (1999). Adaptive background mixture models for real-time tracking. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on. IEEE, 1999, 246-252. https://doi.org/10.1109/CVPR.1999.784637 Szegedy, C., et al. (2015). Going Deeper with Convolutions, Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on, 1-9. https://doi.org/10.1109/CVPR.2015.7298594 Yosinski, J., et al. (2014). How transferable are features in deep neural networks? Advances in neural information processing systems, 3320-3328.
А. П. Максымив
Львовский государственный университет безопасности жизнедеятельности, г. Львов, Украина
КАСКАДНЫЙ МЕТОД ДЕТЕКТИРОВАНИЯ ПЛАМЕНИ В ВИДЕОПОТОКЕ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ
Предложен каскадный бинарный классификатор, основанный на использовании смеси Гауссова распределения, примитивов Хаара и глубоких сверточных нейронных сетей. Применение такого подхода дает возможность, с одной стороны, осуществлять мониторинг среды в режиме, приближенном к реальному времени, а с другой - обеспечить достаточно высокий показатель эффективности обнаружения пламени на видео (92,7 %). На первом этапе, с помощью использования примитивов Хаара, к предварительно выделенным подвижным регионам видеоизображения генерируются так называемые регионы
интереса. На втором этапе полученные регионы интереса передаются для классификации на вход глубокой сверточной нейронной сети, которая формирует вывод о наличии или отсутствии пламени на изображении. В рамках проведения исследования предложена модифицированная модель нейронной сети - SqueezeNet. Выявлено, что с помощью использования трансферного подхода при обучении нейронной сети, существует возможность минимизировать количество ложных вызовов, особенно на объектах, которые визуально могут напоминать пламя и уменьшить временные затраты, необходимые для ее обучения. С целью повышения эффективности работы нейронной сети осуществлен ряд тонких настроек (ансамбль из нейронных сетей, поворот изображений, уменьшение показателя скорости обучения, кадрирование и передискретизация), что суммарно позволило улучшить ее эффективность на 2,4 %.
Ключевые слова: обнаружение движения; примитивы Хаара; трансферное обучение; интеллектуальные системы; компьютерное зрение.
O. P. Maksymiv
Lviv State University of Life Safety, Lviv, Ukraine
CASCADE-BASED METHOD FOR FLAME DETECTION IN VIDEO SEQUENCES USING DEEP CONVOLUTIONAL NEURAL NETWORKS
The authors present a novel flame detection approach based on the application of Haar features and Gaussian distribution as region of interest generator and deep convolutional neural network as classifier. The actuality of the paper is determined by fact, that camera is more versatile means of obtaining data which, in terms of developing appropriate algorithms, on the one hand allow faster receiving of information (even compared to modern sensors) and on the other hand, due to the large array of received information, will process such data as number of people in the placement, terrorist activity threat, unconsciousness people etc. The paper proposes the use of a Gaussian mixture models for the detection of moving objects. In order to verify the received regions, we used modified Ha-ar-like features. It is the first stage, where region of interests is generated. At the second stage, the obtained results from the previous stage are transmitted for further classification to a deep convolutional neural network. Furthermore, significant efforts were made to choose the architecture of the neural network, since a number of neural networks requires a large amount of computing resources and does not allow working in real time. In order to solve this problem the use of modified SqueezeNet network architecture was proposed. As a result, we have achieved similar levels of classification accuracy, using 50 times fewer coefficients. Our results show that application of such approach as ensemble of neural networks, rotation of images, decrease of the rate of learning, framing and resampling allow increasing efficiency rate of convolutional neural network. To confirm this statement we have developed dataset including 5000 images of different categories and image qualities. As a result, efficiency rate, under the conditions of the above-mentioned approaches used, has increased to 2.4 %. In terms of accuracy and number of parameters, this method has surpassed state of the art method for fire detection in video sequences. To conclude, we should note that simple combination rules used here provide potentials for further improvement, especially region of interest's generator.
Keywords: motion detection; Haar features; transfer learning; intellectual systems; computer vision.