Krasnoshchok I.O.
Master at the department of the Mathematical Methods of System Analysis, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute»
Danylov V.Y.
Doctor of Engineering Sciences, Professor at the department of the Mathematical Methods of System Analysis, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute»
Краснощок I.O.
Магiстр кафедри Математичних Memodie системного anani3y Нацюнального технЫного утверситету Украти «Кшвський пoлimeхнiчний iнсmиmym iмeнi 1горя Скорського»
Данилов В.Я.
Доктор техтчних наук, професор кафедри Математичних мemoдiв системного аналiзy, Нацюнального meхнiчнoгo утверситету Украти «Кшвський полтехтчний тститут iмeнi 1горя Сжорського»
ENCODER-DECODER CONVOLUTION NEURAL NETWORK WITH CORRELETION LAYER
FOR DEPTH ESTIMATION
ЕНКОДЕР-ДЕКОДЕР ЗГОРТКОВА НЕЙРОННА МЕРЕЖА З КОРЕЛЯЦ1ЙНИМ ШАРОМ ДЛЯ
ОЦ1НКИ ГЛИБИНИ
Summary:
Today Convolution Neural Networks (CNN) successfully used in many areas of Computer Vision, especially in Stereo Vision. However, the problem of calculation depth map with high accuracy remains unresolved. In this paper we propose convolution neural network that allow obtain depth map with high precision and small inference time. This network is based on encoder-decoder type, with correlation layer. Unlike other fast architectures for depth estimation, our architecture has higher accuracy and can be used in self-driving cars. We have achieved high accuracy on Kitti Stereo2015 benchmark.
Key words: depth map, disparity, convolution neural network, correlation layer, encoder-decoder.
Анотащя:
На сьогодт 3ropTKOBi нейронш мережi (ЗНМ) устшно застосовуються у багатьох областях комп'юте-рного зору, особливо в стерео баченш Однак проблема визначення карти глибини з високою точшстю залишаеться ще не виршеною. В данш робот ми пропонуемо архитектуру згортково! нейронно! мережц яка з високою швидшстю дозволяе отримати карту глибини з великою точшстю. Дана мережа будуеться на тит енкодер-декодер, з кореляцшним шаром. Експерименти показали, що на ввдм^ шших швидких ршень оцшки карти глибини, дана архитектура дозволяе з високою точшстю отримувати карту глибини при рус автомобшя. Нам вдалося досягти високих результапв на Kitti Stereo 2015 онлайн змаганш
Ключoвi слова: карта глибини, неввдповщшсть, згорткова нейронна мережа, кореляцшний шар, енко-дер-декодер.
Постановка проблеми
Мета зютавлення двох стерео зображень - це оцшиги значення невщповщносп вах пiкселiв ль вого зображення вiдносно правого зображення стерео пари. Це одна з головних проблем комп'ютер-ного зору, яка мае багато застосувань в приклад-них задачах, такi як самохвдш автомобiлi, навiгацiя роботiв та в пристроях з доповненою реальшстю. Хоча технiчне визначення глибини, наприклад за допомогою LIDAR або ToF, легко дозволяе визна-чити глибину, використання лише стерео пари для визначення глибини е б№ш ресурсозбер^аючим пiдходом.
Маючи стерео пару, попередньо вирiвнявши зображення, глибина пiкселя може бути визначена зютавленням пiкселiв на стерео парi вздовж осi х при фiксованiй осi у. Нехай для одного пiкселя на лiвому зображеннi - (х, у), вщповщний пiксель зна-ходиться з координатами (x+d, у), d - неввдповщ-нiсть. Тодi глибина для даного ткселя може бути обчислена, як , де f - фокальна вщстань камери, 1 -
ввдстань мiж обома камерами. Так як глибина обер-нено пропорцiйна до невщповщносп, то проблему знаходження глибини можна замiнити на знахо-дження невiдповiдностi.
Проблема стерео зiставлення штенсивно дос-лiджуеться з 1980-х рошв. Проблеми визначення глибини: камери можуть по рiзному передавати ко-лiр пiкселя (наприклад вiдсвiчування сонця), зашу-млення картинок, вiдмiннiсть ракурсiв у камер, ре-пони з однаковим кольором, повторення об'ектiв (тин), дзеркальшсть об'ектiв, прозорiсть (скло), за-городження (на лiвiй камерi об'ект присутнш, на ш-шiй вiн затуляеться iншим об'ектом).
Початковi дослiдження в основному робили зь ставлення в чотири кроки: розрахунок функцii вар-тостi, розрахунок сукупноi' функцii' вартосл, розрахунок невiдповiдностi та покращення невщповвд-ностi. До недавнього часу даш чотири кроки були присутш в багатьох методах для оцшки невщповщ-ностi [17, 19, 20, 5]. Але останшм часом згортковi мережi показали свою продуктивнiсть в багатьох
задачах комп'ютерного зору [13, 4, 27]. Не винят-ком стала i задача покращення невiдповiдностi в стерео парт Використання згорткових мереж для оцшки глибини значно перевершило традицiйнi чо-тирьох кроковi методи [26, 23, 9, 2].
Вперше для стерео зютавлення згортковi ней-роннi мереж1 були застосованi Zbontar та Lecun [23] для шдрахунку схожостi двох пiкселiв на стерео парi. Даний метод досяг найкращо1 точностi на Kitti2015 [16] i Middlebury [18] стерео датасетах в той час. Даний метод показав, що порiвнювати значения пiкселiв у функцп вартостi було недостатньо, в той час коли згорткова нейронна мережа може на-вчитися б!льш стшко знаходити невiдповiднiсть, використовуючи карти ознак зображення. Але в да-нш роботi були недолiки, а саме тривалий час тд-рахування неввдповщносп (> 60s); тому даний метод не можна використовувати для отримання не-вiдповiдностi в закритих зонах (для точок, як не присутш на правому зображеннi, але присутнi на ль вому); при використанш методiв для покращення неввдповщносп використовуються параметри, що шдбираються самостшно.
Данi роботи [10, 9] показали, що тдрахунок функцiï вартостi, пвдрахунок сукупно1 функцiï вар-тостi та тдрахунок неввдповвдносп можуть бути пораховаш згортковою нейронною мережею.
Зазвичай в традицшних методах комп'ютерного зору, наприклад, як Semi-Global Block Matching метод [21], використовуеться пiдрахунок функцп енергп в дек1лькох напрямках. На вiдмiну вiд традицiйних методiв Mayer [10] i Kendal [9] ви-користовують багато згорткових шарiв, розташова-них один за одним i тренували вих1д даноï мереж1, щоб вш був схожий на правильну невiдповiднiсть. Данi методи досягли найкращих результапв у точ-ностi та в чай отримання невщповвдносп, на вщ-мiну в!д методiв, що використовували згортковi шари тiльки для шдрахунку функцiï вартостi.
У Mayer та ш. [10], крiм синтетичних датасе-тiв, пропонуеться дек1лька варiантiв згорткових мереж, як1 показали непогаш результати на Kitti2015 [16]. Даш варiанти один в!д одного вiдрiзняються, але найкращим виявився Dispnet з кореляцiйним шаром. Дана нейронна мережа вiдрiзняеться неймо-вiрною швидшсю обрахунку невiдповiдностi, бли-зько 60 ms/frame. Також 1'хня архiтектура побудо-вана по типу - енкодер-декодер, що спочатку змен-шуе зображення, а попм збiльшуе його. Даний тип мереж зустр!чаеться дуже часто, вш присутнiй i у Kendal [9]. На вщм!ну вiд мережi Mayer [10], ми додали ще шари в кшш ïхньоï арх1тектури, так щоб вих1д мереж1 був таких самих розмiрiв як i вхвд. У Mayer [10] вихвд з мережi вдвiчi менший, нiж вхiд (на виходi використовувалась штерполящя до вхщ-ного розмiру зображення).
Анaлiз останшх дослiджень та публжацш
На сьогоднiшнiй день юнуе велика к1льк1сть методiв та книжок для оцiнки невiдповiдностi зi стерео пари. Ми оглянемо лише дешлька з них i зро-бимо наголос на методах, як1 використовують згор-тковi нейроннi мережi.
Одними з основних методiв для побудови карти глибини зi стерео пари в комп'ютерному ба-ченш е GBM i SGBM. Недолжом цих методiв е те, що вони не можуть аналiзувати текстуру зображення, не може аналiзувати дзеркальш поверхнi, погано справляються з закритими областями (occlusion) тощо. На Kitti2015 [16] змаганнi данi ал-горитми мають занадто високу помилку та трива-лий час роботи.
На вщм!ну в!д типових алгоршшв [21, 3], як1 виконуються в чотири кроки (див. вище), методи основаш на згорткових нейронних мережах ошню-ють невiдповiднiсть безвiдносно до цих крошв. Умовно пiдходи ЗНМ можна подiлити на двi кате-горiï: навчання функцiï вартостi та навчання кшець-в-к1нець.
Навчання функци вартостi. На вiдмiну в!д зви-чайних метрик для оцiнки функци вартосл, так1 як сума ввдмшностей абсолютно!' iнтенсивностi (SAD), нормалiзована перехресна кореляшя (NCC), згортковi нейроннi мереж! використовують для ви-мiрювання схожосп двох патчiв зображення. Han та ш. [6] надали мережу: MatchNet - видiляе ознаки з двох патч!в i на основ! повнозв'язних шарiв ро-бить висновок про 1'х схожесть. На в!дм!ну ввд да-ного шдходу, Zbontar i Lecun [23] за допомогою ЗНМ бшарно класифшували пата зображень розмь р!в 9х9. Також в данш робот! використовувались методи для пост-обробки: перехресна агрегац1я, на-шв-глобальне зютавлення (SGM), перев!рка узго-дженосп зл!ва направо, по-шксельне покращення та мед!анний i бшатеральний фшьтри. Дана архитектура потребуе багато повтор!в запуску для тдрахунку функцп вартосл (залежить в!д максимально!' величини невщповвдносл). Park i Lee [12] запропо-нували по-шксельний шрашдний пулшг для збшь-шення рецепторного поля тд час пор!вняння двох патч!в. На ввдм!ну в!д бшарно1' класифжаци м!ж двома патчами, Luo [2] запропонували вчити розпо-дш ймов!рносп для кожного можливого значення невщповщносл. Хоча використання згорткових нейронних мереж значно покращило пор!вняння патч!в, але тсля цього щуть кроки варлсно1' агрега-цп, оптим!защя неввдповщносп та покращення не-ввдповщносл, що загалом потребують покращення, як в точносл, так i в час! обчислень.
Навчання кшець-в-кшець. В цш категорп, ЗНМ повшстю ошнюе невщповщшсть, що дозво-ляе тренувати мережу з вчителем шнець-в-шнець, подаючи на вхщ стерео пару i правильне зображення невщповвдносл. Mayer [10] першим запро-понував к1нець-в-к1нець шдхвд з енкодер-декодер архитектурою (Dispnet) для оцшки невщповщносл. Шдрахунок функцп' вартосл включено в енкодер частит архггектури. Схож! архггектури на Dispnet були застосоваш для оцшки потошв (optical flow) в роботах [14, 22]. Кендал [9] з архггектурою мереж! GC-Net, використовуе 3D згортки шсля шдрахунку фунцп вартосл. Особливютю даних архитектур е те, що вони мають малий час виконання (менше 1 с). Також в деяких роботах [24, 7] для оцшки глибини
з одного зображення, а не стерео пари використову-ються згортковi мереж1, але точшсть набагато ri-рша, шж в стерео парi.
До ща ж катеrорiï належить i наш метод. В на-шiй робот ми змiнили архiтектуру однieï варiацiï архiтектури Dispnet, так щоб отримати неввдповвд-нiсть високоï якостi. Завдяки цьому ми змогли до-сягти великоï точностi для оцiнки неввдповвдносп за цiлком прийнятний час.
Виокремлення мевир1шеми\ рашше частин загально'1 проблеми
Проблема отримання карти глибини з високою точшстю зi стереопари залишаеться невирiшеною. Крiм точностi важливим параметром е час обчис-лення карти глибини. Яшсть карти глибини, отри-мано1' за допомогою нашо1' енкодер-декодер архгге-ктури була оцiнена ввдповвдно до заrальновiдомих метрик. На ввдмшу вiд вищезгаданих дослвджень ми застосували бiльш глибшу згорткову нейронну мережу з кореляцшним шаром, що дозволило пок-ращити точнiсть на Kitti онлайн змаганш Цшь статт
Метою дано1' роботи е дослiдження оцшки карти глибини зi стереопари, за допомогою згортко-вих нейронних мереж. Зокрема, ЗНМ за типом енкодер-декодер та з кореляцшним шаром. Також, продемонструвати застосування дано1' архiтектури в самох1дних автомобiлях за рахунок малого часу обчислення карти глибини i високо1' точностi.
Виклад основного мaтepiaлу 1. Шдыд
Mayer [10] розглядають дек1лька архiтектур, а саме DispNet та DispNetCorr1D. DispNetCorr1D - це
арх1тектура DispNet, яка мае додатковий Correlation layer. Ми обрали DispNetCorrlD як базову, осшльки вона дае кращi результати, шж DispNet [10]. Наша арх1тектура мае енкодер-декодер тип. Однак, на вь дмiну вiд DispnetCorrlD, в якому вих1дна неввдпо-вiднiсть мае розширення вдвiчi менше за вх1дне зображення, наша мережа мае ще додатковi шари, як1 збiльшують вихвдну невiдповiднiсть до вхiдноrо розмiру стерео пари. Як буде показано в секцп 4, що дана мережа показала бтш кращi результати на датасетах Kitti та FlyingThings3D. Нашу архггек-туру ми назвали DispNetEqual (Equal- означае р!в-ний, тобто вихвдне розширення невiдповiдностi, такого ж розмiру як i вхвдне розширення стерео пари).
В данш мереж1 Correleation шар рахуе функцш вартостi в просторi ознак. На даному етапi викори-стовуються неглибош карти ознак, а саме вихвд з шару "conv2_2". Далi вихвд Correlation шару об'ед-нуеться з картами ознак л1вого зображення, в надп на те, що наступна частина мереж! покращить функцш вартосп i удосконалить вихвдну неввдповвд-шсть. В частинi енкодер, мережа витягуе шформа-цш з вихвдно1' картинки та вчить карти ознак. Дана частина мае зменшуе площу карт ознак, але зб№-шуе розм!ршсть - це дае зменшуе час обчислення i збшьшуе шльшсть запам'ятованих карт ознак. В декодер частиш ми пiднiмаемось до вихвдного зображення, при цьому додаемо шформацш з енкодер шарiв, щоб пам'ятати не лише високор!вшв! карти ознак, а й низькорiвневу.
Оцiнка невiдповiдностi ввдбуваеться в декодер частиш за р!зного масштабу картинки, як показано в табл. 1.
Таблиця 1.
Архггектура DispNetEqual
Шар K S Канали Вх. Вих. Вхвдш канали
conv1_1 7 2 6/64 1 2 left+right
conv1_2 3 1 64/64 2 2 conv1_1
conv2_1 5 2 64/128 2 4 conv1_2
conv2_2 3 1 128/128 4 4 conv2_1
Correlation - - 128/128 - - conv2_2
conv3_1 3 2 128/256 4 8 Correlation
conv3_2 3 1 256/256 8 8 conv3_1
conv4_1 3 2 256/512 8 16 conv3_2
conv4_2 3 1 512/512 16 16 conv4_1
conv5_1 3 2 512/512 16 32 conv4_2
conv5_2 3 1 512/512 32 32 conv5_1
conv6_1 3 2 512/1024 32 64 conv5_2
conv6_2 3 1 1024/1024 64 64 conv6_1
pr6 3 1 1024/1 64 64 conv6_2
deconv5 4 2 1024/512 64 32 conv6_2
up6_to_5 4 2 1/1 64 32 pr6
conv_concat5 3 1 1025/512 32 32 conv5_2+deconv5+up6_to_5
pr5 3 1 512/1 32 32 conv_concat5
deconv4 4 2 512/256 32 16 conv_concat5
up5_to_4 4 2 1/1 32 16 pr5
conv_concat4 3 1 769/256 16 16 conv4_2+deconv4+up5_to_4
pr4 3 1 256/1 16 16 conv_concat4
deconv3 4 2 256/128 16 8 conv_concat4
up4_to_3 4 2 1/1 16 8 pr4
conv_concat3 3 1 385/128 8 8 conv3_2+deconv3+up4_to_3
pr3 3 1 128/1 8 8 conv_concat3
deconv2 4 2 128/64 8 4 conv_concat3
up3_to_2 4 2 1/1 8 4 pr3
conv_concat2 3 1 193/64 4 4 conv2_2+deconv2+up3_to_2
pr2 3 1 64/1 4 4 conv_concat2
deconv1 4 2 64/32 4 2 conv_concat2
up2_to_1 4 2 1/1 4 2 pr2
conv_concat1 3 1 97/32 2 2 conv1_2+deconv 1 +up2_to_ 1
pr1 3 1 32/1 2 2 conv_concat1
deconv0 4 2 32/32 2 1 conv_concat1
up1_to_0 4 2 1/1 2 1 pr1
conv_concat0 3 1 39/32 1 1 input+deconv0+up1_to_0
pr 3 1 32/1 1 1 conv_concat0
Вих!д мереж! - це вих1д з шару pr. Зменшува-льна частина мютить conv1_1 - conv6_2 та Correlation шари. Розширювальна частина мютить згортков! шари (pr, conv_concat) та deconvolution шари (deconv, up..to..). Окр1м шар1в в шнш, ми додали ще дек1лька шар1в на початку.
2. Тренування
2.1 Датасети
Для тренування велико! згортково! мереж1 не-обх1дно датасет з стерео парою та правильною гли-биною. Розглянемо основш датасети.
Middlebury dataset [18] мютить пльки 23 стерео пари зображень з правильною глибиною. Максима-льне значення невщповвдносп (disparity) е 10, що е малим значенням.
Kitti2015 [16] датасет е вже значно бшьшим i був вщзнятий у реальних дорожнiх ситуацiй з рухо-мого автомобшя, одночасно знiмаючи зображення з камери та лазерного сканера. Даний датасет м!с-тить 200 стерео зображень для тренування та 200 стерео зображень для оцшки онлайн. Розмiр зображень 375 х 1240. Максимальне значення неввдпо-вiдностi сягае 60, що е вже практично використову-ваним. Недолжом даного датасету е те, що значення глибини в ньому е розрщженими на 50%, для верхньо! половини зображення значення глибини вщсутне та через рух автомобшя значення глибини можуть бути небагато змщеними. Але його реалю-тичнiсть та достатньо невелика кшьшсть сприяла його використанню для тренування мереж!.
Syntel [25] датасет отриманий з рендерингу штучних сцен з акцентом на реалютичних ефектах та пропорщях в зображеннi. Даний датасет мае дв! верси: звичайну та фшальну. Фшальна верйя мае багато ефекпв, так! як туман, в той час як звичайна не мютить цих ефекпв. Syntel датасет - один з най-б!льших датасепв, в якому доступно бшьше тисяч! зображень для тренування для кожно1 з версш та в якому присутш мал! та велик! змщення. Даний датасет не використовувався для тренування, оск!-льки персонаж!, не зовам реалютичш
FlyingChairs [14] датасет - перший датасет з достатньо великою виб!ркою (бшьше 22 тисяч), в якому на певному фон! виставлялися сттльщ 62 ти-тв. Недолшом даного датасету е однотипшсть об'екпв на зображенш, тому ми тренували на датасет! FlyingThings3D.
FlyingThings3D [10]- це синтетичний датасет з понад 22 тис. стерео пар для тренування та прибли-зно 4 тис. для тестування. В ньому на фон! коробок розташоваш р!зш лггаюч! об'екти (лижи, машини, дивани). Даний датасет мае переваги: великий та мае р!зш типи об'екпв. Тому спочатку ми трену-вали на ньому.
Шзшше ми звернули увагу на ще два датасети: Monkaa та Driving. Monkaa датасет мае фон з р!зних тр року та незвичайш кольори. Також оскшьки ми збиралися вадправляти результати визначання глибини на Kitti веб-сторшку [1], то для того, щоб мережа навчилася розтзнавати дорожш ситуацп, ми
взяли для тренування також датасет Driving. Даний данасет складався з 4 тисяч стерео зображень.
Ва три датасети (FlyingThings3D, Monkaa, Driving) ми об'еднали в один i назвали Синтетич-ний датасет, з кшьшстю стерео пар понад 36 тисяч. Даного обсягу достатньо для тренування глибоко! згортково! мережi, щоб не було overfitting пiд час тренування.
2.2 Метрика
Для оцшки навчання нейронно! мереж1 на ви-щенаведених датасетах, використовувалися насту-пнi двi метрики:
1) Три тксел помилки (3 PE).
Дана метрика була взята, осшльки вона вико-ристовуеться для оцiнки результапв на Kitti [1] в категори Stereo 2015 та Stereo 2012. Дана метрика використовувалася для оцшки отриманих резуль-татiв. (Також додатково до дано! метрики використовувалася умова з Kitti вебсайту - вщносна поми-лка). Пiксель вважаеться помилково порахованим, якщо одночасно виконуються двi умови: \dgt
d„
>3 та
\dgt-dest \ dgt
> 0.05.
2) MAE - середне значения модуля рГзниць.
МАЕ
¿=1
dest'
Дана метрика використовувалася тд час навчання нейронно1' мережi.
2.3 Параметри тренування
Архггектура нашо1' мережi була розроблена на фреймворку Caffe [15]. В якосп оптимiзатора вико-ристовувався Adam [11] з параметрами та .
Юльшсть зображень для тренування (batch size) був 4. Також тдчас тренування застосовува-вся метод multistep, з кроком в 70 тис. ггерацш. По-чатковий learning rate значення було встановлено в 10-4, зменшувався вдвГчГ до 10-6.
Для того щоб не було overfitting, тд час тренування застосовувалась data augmentation, а саме поворот, обрiзання, масштабування зображення, та змша кольору (контрастшсть, гамма фактор зображення i освгглешсть).
З.Результати
Результати тренування DispNetEqual наведено в таблицi 2.
Як бачимо з таблиц 2, наша мережа переважае архггектуру DispnetCorr1D: на Synthetic датасетг на 1.83% з 3PE та на Kitti2015 датасетi: на 0.66% з 3PE.
Також наша архитектура мае бшьший час раху-вання невiдповiдностi, осшльки в шнш було доданi шари. Час рахування невiдповiдностi збГльшився на 8 мс.
Також результат нашо1' архггектури були по-данi на KITTI змагання.
Таблиця 2.
Результати тренування
Датасет Частина DispNetCorr1D DispNetEqual
MAE 3PE MAE 3PE
Synthetic train 1.48 9.76 1.23 8.28
test 1.73 11.08 1.56 9.25
Kitti 2015 train 0.47 3.41 0.34 3.19
test 0.65 4.41 0.57 3.75
Час(мс) - 60 68
Наша архггектура показала результат кращий на 0.55%, шж ориriнальна архiтектура DispNetCorr1D. Наш результат на KITTI становить 3.79% D1-all помилка.
ПорГвняння DispnetCorr1D з DispnetEqual наведено в таблицi 3.
На зображеннях помилок: наявшсть черво-ного кольору означае помилку.
Як бачимо, результат DispnetEqual мае кращу невiдповiднiсть на задньому Фон! зображення за DispnetCorr1D.
При експерименп з бшьшою шльшстю шарГв у шнш, коли зображення на початку збшьшуеться вдвГчГ i в кшш зменшуеться за допомогою штерпо-ляци до вихщного розмГру, було помГчено, що час
роботи мереж значно збшьшувався, оск1льки згор-ктовГ шари дуже чутливГ до вхщного розмГру, тому час рахування невадповадносп збГльшувався майже вдвГчГ. Через обмежений час використання GPU ресурсГв, дану мережу не тренували.
При спробГ додати ще один шар у глибину (всередину арх1тектури екнодер-декодер) було по-мГчено, що результат змшюеться мало, осшльки на найнижчому рГвт зображення буде зменшено аж в 128 раз, за кожним розмГром.
Осшльки ми спочатку тренували на Synthetic датасет!, де зображення розмГру 540х960, то при такому зменшенш, на нижньому рГвт буде дуже мала карта ознак.
Таблиця 3. Графнчне пор1вняння DispnetCorr1D з DispnetEqual
Л!ве зображення
DispnetEqual невщ-поввдшсть
Помилка DispnetEqual
Помилка DispnetCorr1D
Висновки з даного дослвдження та перспек-
тиви
Використання згорткових нейронних мереж досягли визначних результапв в обласп комп'юте-рного зору, а саме у визначенш глибини карти з! стерео пари. Але визначення глибини i дос потре-буе покращення. Ми запропонували використову-вати згорткову нейронну мережу за типом архггек-тури енкодер-декодер, DispnetEqual. Дана мережа мае додатков! шари, як1 збшьшують неввдповщ-нють до вих1дного розм!ру. Наш! експерименти показали, що використання додаткових шар!в до-зволяе значно покращити точшсть глибини, при цьому час отримання глибини становить 68 мс, на вщм!ну в!д шших швидких архитектур. Дана архь тектура показала гарш результати на Kitti онлайн змаганш.
В майбутшх дослщженнях покращення карти глибини буде здшснюватися за допомогою Байе-авських метод!в для знаходження апостерюрного розподшу, що тдвищить ефектившсть оцшки ка-рти глибини.
fl^epe^a
[1] A. Geiger. Are we ready for autonomous driving? the kitti vision benchmark suite. In IEEE Conference on Computer Vision and Pattern Recognition, pages 33543361, 2012.
[2] W. Luo, A. G. Schwing, and R. Urtasun. Efficient deep learning for stereo matching. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5695-5703, 2016.
[3] J. Sun, N.-N. Zheng, and H.-Y. Shum. Stereo matching using belief propagation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(7):787-800, 2003.
[4] K. Schmid, T. Tomic, F. Ruess, H. Hirschmul-ler, and M. Suppa. Stereo vision based indoor/outdoor navigation for flying robots. IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 39553962, 2013.
[5] D. Scharstein, H. Hirschmuller, Y. Kitajima, G. Krathwohl, N. Nei, X. Wang, and P. Westling. Highresolution stereo datasets with subpixel-accurate ground truth. In German Conference on Pattern Recognition, pages 3142, 2014.
[6] X. Han, T. Leung, Y. Jia, R. Sukthankar, and A. C. Berg. Matchnet: Unifying feature and metric learning for patch-based matching. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3279-3286, 2015.
[7] Y. Kuznietsov, J. Stückler, and B. Leibe. Semi-supervised deep learning for monocular depth map prediction. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6647-6655, 2017.
[8] Y. Zhong, Y. Dai, and H. Li. Self-supervised learning for stereo matching with self-improving ability. CoRR, abs/1709.00930, 2017.
[9] A. Kendall, H. Martirosyan, S. Dasgupta, P. Henry, R. Kennedy, A. Bachrach, and A. Bry. End-to-end learning of geometry and context for deep stereo regression. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[10] N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 40404048, 2016.
[11] D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. ArXiv preprint arXiv:1412.6980, 2014.
[12] H. Park and K. M. Lee. Look wider to match image patches with convolutional neural networks. IEEE Signal Processing Letters, PP(99):11, 2017.
[13] S. Sivaraman and M. M. Trivedi. A review of recent developments in vision-based vehicle detection. IEEE Intelligent Vehicles Symposium, pages 310315, 2013.
[14] A. Dosovitskiy, P. Fischer, E. Ilg, P. Hausser, C. Hazirbas, V. Golkov, P. van der Smagt, D. Cremers, and T. Brox. Flownet: Learning optical flow with con-volutional networks. In Proc. of the IEEE International Conference on Computer Vision, pages 2758-2766, 2015.
[15] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. ArXiv preprint arXiv:1408.5093, 2014.
[16] M. Menze and A. Geiger. Object scene flow for autonomous vehicles. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.
[17] D. Scharstein and R. Szeliski. High-accuracy stereo depth maps using structured light. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 195202, 2003.
[18] D. Scharstein and R. Szeliski. High-accuracy stereo depth maps using structured light. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2003), volume 1, pages 195202, Madison, WI, June 2003.
[19] D. Scharstein and C. Pal. Learning conditional random fields for stereo. In IEEE Conference on Computer Vision and Pattern Recognition, pages 18, 2007.
[20] H. Hirschmuller and D. Scharstein. Evaluation of cost functions for stereo matching. In IEEE Conference on Computer Vision and Pattern Recognition, pages 18, 2007
[21] H. Hirschmuller. Stereo processing by semiglobal matching and mutual information. IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(2):328-341, 2008.
[22] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy, and T. Brox. Flownet 2.0: Evolution of optical flow estimation with deep networks. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2462-2470, 2017.
[23] J. Zbontar and Y. LeCun. Stereo matching by training a convolutional neural network to compare image patches. Journal of Machine Learning Research, 17(1-32):2, 2016
[24] C. Godard, O. Mac Aodha, and G. J. Brostow. Unsupervised monocular depth estimation with left-right consistency. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pages 279270, 2016.
[25] D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black. A naturalistic open source movie for optical flow evaluation. In ECCV, 2012.
[26] A. Shaked and L. Wolf. Improved stereo matching with constant highway networks and reflective confidence learning. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[27] N. Zenati and N. Zerhouni. Dense stereo matching with application to augmented reality. In IEEE International Conference on Signal Processing and Communications, pages 15031506, 2008.
Martynova V.A.
Ufa State Petroleum Technological University
Idrisova K.R.
Ufa State Petroleum Technological University, assistant professor Ufa
Egorov D. V.
Gazprom transgaz Ufa Ltd, Lead Engineer Ufa
THE INFLUENCE OF THE HUMAN FACTOR ON THE LEVEL OF SAFETY CULTURE IN THE
ORGANIZATION
Summary: The main causes of accidents at work and the theory of their occurrence are considered. The dependence of industrial traumatism on insufficient financing of measures to improve labor conditions and safety is shown. The main provisions of the state policy in the field of labor protection are given. The need to take into