МЕТОДИ ОЦІНКИ ЕФЕКТИВНОСТІ МОДЕЛЕЙ ВИЯВЛЕННЯ ОБ’ЄКТІВ У КОМП’ЮТЕРНОМУ ЗОРІ

Д. К. Марчук; М. С. Граф

УДК 004.8

https://doi.Org/10.35546/kntu2078-4481.2023.2.25

Д. К. МАРЧУК

старший викладач кафедри комп'ютерних наук Державний ушверситет «Житомирська полггехшка»

ORCID: 0000-0001-8675-8047

ORCID: 0000-0003-4873-548X

МЕТОДИ ОЦ1НКИ ЕФЕКТИВНОСТ1 МОДЕЛЕЙ ВИЯВЛЕННЯ ОБ'СКТ1В

У КОМП'ЮТЕРНОМУ ЗОР1

Основними завданнями комп'ютерного зору е розтзнавання, виявлення об'ектгв та сегментация. Розтзна-вання зображень використовуеться в р1зних галузях в1д систем безпеки до д1агностування у медицинi. Виявлення об'ект1в - це технта визначення мiсцезнаходження з подальшим розп1знавання у реальному ча&. Сегментащя -це процес розбиття зображення на багато сегментiв. Процес побудови тiеï чи гншог моделi може бути склад-ним i щоб модель вiдnовiдала поставленому завданню в повному обсязi потрiбно визначити ïï ефективтсть. Метою дослiдження е огляд показнитв ефективностi, точностi, продуктивностi моделей комп'ютерного зору. Було описано класична верая показника перетин через об'еднання (IoU). Представленрiзнi модифiкацiï i покра-щення IoU таю як багато масштабний IoU (MIoU), обмежувальний IoU (BaloU) та BhIoU. Особу увагу придi-лено узагальненому перетену через об'еднання (GIoU), для усунення недолМв втрати IOU. Тобто втрата IOU завжди буде дорiвнювати нулю, коли два блоки не взаемодiють - не перетинаються. Продуктивтсть алгоритмiв комп'ютерного зору виявлення об'ектiв i сегментаци зазвичай перевiряеться за допомогою середнього значення середнього (mAP). А так як mAP базуеться на р1зних субметриках, було розглянути матриця плутанини, перетин через об'еднання, Recall та Precision. Для кращого розумтня показниюв було продемонстровано приклад з розрахунком продуктивностi (Accuracy), точностi (Precision), ефективностi класифiкацiï (Recall), гармонш-ного середнього значення точностi та чутливостi моделi (F1-Score). Насамктець, очевидно, що це до^дження показало що за допомогою цих метрик можна перевiрити, насюльки точна навчена модель.

Ключовi слова: комп'ютерний зiр, метрики оцтювання, IoU, Recall, F1-Score, Precision, Confusion matrix, mAP.

METHODS FOR EVALUATING THE EFFECTIVENESS OF OBJECT DETECTION MODELS

IN COMPUTER VISION

The main tasks of computer vision are recognition, object detection, and segmentation. Image recognition is used in a variety of industries from security systems to medical diagnostics. Object detection is a technique for locating objects and then recognizing them in real time. Segmentation is the process of dividing an image into many segments. The process of building a model can be complex, and in order for the model to fully meet the task, it is necessary to determine its effectiveness. The purpose of the study is to review the performance, accuracy, and productivity of computer vision models. The classical version of the intersection of union (IoU) indicator is described. Various modifications and improvements of the IoU such as the multi-scale IoU (MSIoU), the bounding IoU (BaloU), and the BhIoU are presented. Particular attention is paid to the generalized intersection through union (GIoU) to eliminate the disadvantages of IOU loss. That is, the IOU loss will always be zero when two blocks do not interact - do not intersect. The performance of computer vision algorithms for object detection and segmentation is usually tested using the mean of the mean (mAP). And since mAP is based on various submetrics, we considered the confusion matrix, Intersection through Merging, Recall, and Precision. For a better understanding of the metrics, an example was demonstrated with the calculation of accuracy,

D. K. MARCHUK

Senior Lecturer at the Department of Computer Science Zhytomyr Polytechnic State University ORCID: 0000-0001-8675-8047

M. S. GRAF

Ph.D., Head of the Department of Computer Science Zhytomyr Polytechnic State University ORCID: 0000-0003-4873-548X

precision, recall, harmonic mean of accuracy, and model sensitivity (F1-Score). Finally, it is obvious that this study has shown that these metrics can be used to check how accurate a trained model is.

Key words: computer vision, evaluation metrics, IoU, Recall, F1-Score, Precision, confusion matrix, mAP.

Постановка проблеми

Машинне навчання часто використовуеться для ршення задач яш сприяють прийняттю того чи шшого ршення, для цього будуеться модель. Процес побудови тако! моделi може бути складним i розроблена модель повинна вщповщати задачi в повному обсяз! Визначення ефективностi побудовано! моделi е важливим кроком, тому що може впливати на прийняття рiшення.

Для виршення завдань, що пов'язанi комп'ютерним зором, найчаспше використовуються рiзнi моделi нейрон-них мереж на базi CNN. Наприклад, це можуть бути AlexNet, GoogleNet, VGGNet, тощо. Кожна iз них мае сво! особливостi та працюватиме по-рiзному залежно в!д рiзних факторiв. Щоб визначитися з найкращою моделлю шляхом об'ективного порiвняння потрiбно мати рiзнi метрики оцiнки та показники продуктивностi.

Метою дослвдження е аналiз рiзних показник1в ефективностi i оцiнцi для моделей виявлення об'екпв у комп'ютерному зорi. Метрики оцшки виявлення об'ектiв повиннi враховувати як категорш, так i розташування об'екпв, i саме для цього використовуеться mAP. А щоб зрозумгги mAP, необхщно розумiти IoU, Precision, Recall та криву Precision-Recall.

Анaлiз останшх досл1джень та публiкацiй

Перетин через об'еднання (Intersection Over Union, IoU) е найпопуляршшим показником оцiнки, який використовуеться в контрольних тестах виявлення об'екпв. Завдяки свое! привабливосп i властивостям IoU використовуеться для оцшки виявлення об'екпв [1, 2, 3, 4] i вщстеження [5, 6].

Автори статей [7, 8, 9] запропонували доповнення, покращення IoU. У роботi [7] автори тдкреслили нечутли-вiсть популярних оцшочних метрик до структури виявлених об'екпв i запропонували нову метрику для виршення ще! проблеми. Автори пропонують Multiscale IoU (MIoU), яка е поеднанням популярно! метрики ощнювання, а саме перетину через об'еднання (IoU) i геометрично! концепци, яка називаеться фрактальним вимiром. MIoU, як стверджують автори, чутлива до тонких граничних структур, як! повнiстю не помiчаються IoU та Fl-Score. У документ! [8] була розглянута проблема виявлення 2D/3D об'екпв, використовуючи IoU для двох повернутих Bbox. Автори запропонували ушфшований рiвень втрат IoU, який можна застосувати для фреймворк1в виявлення 2D/3D об'екпв, вир!вняних по ос! або повернутих. Зокрема, запропоноваш втрати IoU працюють набагато краще, коли пор!г IoU встановлено на високе значення. У дослiдженнi [10] висвгглюеться проблема велико! похибки навчання та низько! точносп навчання на основ! функцп втрат IoU i запропоновано дв! вдосконаленi версi! функ-цш втрат BaIoU та BhIoU, покращуючи форму IoU для покращення алгоритму IoU. Експеримент регресшного моделювання обмежувально! рамки доводить, що BaIoU та BhIoU можуть ефективно подолати проблеми повшь-но! зб!жносп та велико! похибки навчання функцп втрат на основ! IoU.

Викладення основного MaTepi^y дослвдження Виявлення об'екпв вщноситься до обласп комп'ютерного зору, яка займаеться локал!защею та класифша-щею об'екпв, що мютяться на зображенш чи ввдео. В процес! виявлення об'екту навколо нього малюеться обмеж-увальна рамка i об'ект в даному випадку вже е класифшованим.

1снуе багато показнишв для оцшки моделей машинного навчання, а саме для виявлення об'екпв. Кожен показ-ник мае сво! переваги та недолши.

Наприклад, показник перетин через об'еднання (Intersection over Union, IoU), також ввдомий як коефщент Жаккара (Jaccard), ошнюе точшсть детектору об'екпв, показник, який кшьшсно визначае стушнь перекриття мгж двома репонами.

IoU м1ж двома обмежувальними рамками обчислюеться як вщношення площ! перетину до площ! об'еднання (рис. 1).

Рис. 1. Показник перетин через об'еднання

Також IoU можна представити у вигляд! формули:

IoU --

A n B

A и B A + B - A n B

Для обчислення IoU необхщно знайти координата обласи перетину i об'еднання, це мшшальт i максимальш значения координат двох обмежувальних рамок. Отримане значения буде коливатися вщ 0 до 1. За доиомогою значения IoU можна визначити, чи е прогноз ютинно-позитивним (True Positive, TP), icTHHHO-HerarnBHnM (True Negative, TN), хибно-позитивним (False Positive, FP) чи хибно-негативним (False Negative, FN) (рис. 2). Загалом nopir IoU, який можна використати для виявлення об'екта, становить 0,5. Якщо IoU перевищуе 0,5 прогноз можна вважатп 1стинно-познтивним або хибно-позитивним, якщо менше 0,5. Найкраще значения буде дор1вню-вати 1, але це дуже малоймов1рно.

Рис. 2. Визначення IoU у трьох р1зних сценар1ях

Якщо IoU = 0, це означае що обмежуючи рамки не перетинаються (рис.3), i ф1гури можуть бути рядом або знаходяться далеко одна вщ однот

Рис. 3. IoU=0

В дослщження [9] було запропоновано узагальнену версш IoU яка BHpiniye проблему, де |АПВ| = 0, IoU(A, В) = 0 шд назвою узагальнений иеретин через об'еднання (Generalized Intersection over Union, GIoU).

Мета методу иолягае в тому щоб знайти для A i В найменший опуклий об'ект С, де С Я S G R. Якщо А, В Я S G R. Пот1м обчислити сшввщношення м1ж об'емом (площею), яку займае С, за винятком A i В, i подшита на загальний об'ем (площу), яку займае С. Це нормал1зований показник, який зосереджуеться на порожньому об'ем1 (плопц) м1ж A i В. Зрештою, GIoU визначаеться шляхом вщшмання цього вщношення вщ значения IoU, що можна представити насту иною формулою:

\Ас\В\ \C\AvB\

GIoU = \-[-1----[

\AkjB\ \С\

GIoU завжди е нижньою межею для IoU, тобто VA, В Я S GIoU(A, В) < IoU(A, В), i ця нижня межа стае бшып жорсткою, коли A i В мають бшыну иод1бшсть форми та близьюсть, тобто limA^B GIoU(A, В) = IoU(A, В). VA, В <= S, 0 < IoU(A, В) < 1, але GIoU мае симетричний д1аиазон, тобто VA, В Я S, -1 < GIoU(A, В) < 1. Под1бно до IoU, значения 1 виникае лише тод1, коли два об'екти накладаються щеально, тобто якщо |AUB| = |АПВ|, тод1 GIoU = IoU = 1

Для вим1рювання продуктивное^ модел1 шод1 використовують матрицю илутанини (Confusion matrix), яка шдсумовуе продуктившеть модел1 машинного навчання на тестовому Ha6opi даних. Матриця в1дображае кшь-юсть noKa3HHKiB: ¿стинно-позитивних, ютинно-негативних, хибно-позитивних i хибно-негативних.

Матриця в1дображаеться у внгляд1 таблищ. Для 6iHapHoï клаенфжацп матриця буде представлена таблицею 2x2, де буде представлено чотири типи результата (таблиця 1). Для класифжаци з п клас1в матриця буде представлена таблицею пхп.

Таблиця 1

Матриця плутанини 2x2

Прогнозоване

Позитивне (Р) Негативне (N)

Фактичне Позитивне (Р) 1стино-позитивне (TP) 1стино-негативне (TN)

Негативне (N) Хибно-позитивне (FP) Хибно-негативне (FN)

Для прикладу розглянемо модель бшарно! класифпащп. яка може передбачити результат розшзнавання машини на картиищ

Припустимо, що ТР = 4, БР = 1, РЫ = 3 ТЫ = 2, тещ матриця плутанини буде мати вид, представлений на рисунку 4.

Confusion Matrix

Actual

Рис. 4. Матриця плутанини

Отримавши матрицю плутанини можна знайти иаступш метрики:

- продуктавнють модсл1 (Accuracy);

- точшеть (Precision);

- ефектившеть модсл1 класифпсацп в адентифпсацп Bcix вадповадних екземпляр1в i3 набору даних (Recall);

- оцшку загальио! ефективиосп (Fl-Score).

Продуктившсть модсл1 - це вадиошеиня загальио! кшькосп правильних випадшв до загальио! шлькосп випадшв. Обчислюеться за формулою:

TP + TN

accuracy =-

' TP+TN + FP + FN

Для наведеного вище випадку продуктившсть Mcuc.ii = (4+2)/(4+2+1+2) = 6/9 = 0,667.

Щоб визначити насшльки точними е позитивш прогнози модсл1 n0Tpi6H0 шлыасть icTHHHO-позитивних про-гноз1в подшити на загальну юлькють позитивних nporH03iB. Обчислюеться за формулою:

TP

precision =-

TP + FP

Точшеть = 4/(4+1) = 4/5 = 0,8.

Ефектившеть MOflefli класифгацп в iдeнтифiкaцii Bcix вадповадних ск !смпляр1в i3 набору даних - це вадношення id.ibKOCTi icTHHO-позитивних випадшв до суми ютино-позитивних i хибно-негативних випадшв. Обчислюеться за формулою:

TP

recall =-

TP+FN

Ефектившеть модсл1 класифтащ! в адентифшацй Bcix вадповадних eкзeмпляpiв i3 набору даних = 4/(4+3) = 4/7 = 0,57.

Оцшки загально! eфeктивнocтi - це гармошйне середне значения точносп та чутливосп модсл1. Обчислюеться за формулою:

_ 2 * Precision * Recall

F1 -Score =-

Precision + Recall

Оцшки загально! ефективиосп = (2*0,8*0,57)/(0,8+0,57) = 0,67.

Чим показиик Fl-Score вище, тим краще точшеть модель яюцо показник низький тим найпрше, е дисбаланс \ii>K точшетю та продуктившетю MOJC.li.

Продуктившсть алгоритм! в виявлення об'екпв i сегментацп зазвичай пepeвipяeгьcя за до помогаю метрики шАР (mean average precision). Багато алгоритм! в використовують шАР для оцшки свое! продуктивное^ перед ny6fliKauiere остаточних результата, зокрема R-CNN, Faster R-CNN, YOLO, Mask R-CNN. Формула шАР базу-еться на субметриках таких як Confusion matrix, IoU, Recall та Precision. mAP складаеться i3 середиього значения (АР) кожного класу. Але для оцшки виявлення об'екпв COCO АР i mAP штерпретуються однако во.

mAP обчислюеться шляхом визначення середньо! точносп (АР) для кожного класу, а попм усереднення для заданих клаав. шАР можна обчислити за формулою:

N

тпАР = И-"

N

де N - загальна шлыасть клаав;

АР, - середня точшсть для заданого класу i.

Алгоритм розрахунку середнього значения (АР) кожного класу:

1) за до помогаю модел1 згенерувати оцшки прогнозу;

2) перетворити оцшки прогнозу на мггки класу;

3) обчислити матрицю плутанини (TP, FP, TN, FN).

4) обчислити показники Recall та Precision;

5) побудувати криву Precision-Recall, обчислиъ площу пад кривою;

6) обчистити середню точшсть.

Розраховуемо АР шляхом взяття плонц шд кривою Precision-Recall для приклада з розшзнавання машини на картинш (рис. 5).

Рис. 5. Розрахунок АР для першого класу

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 6. Розрахунок АР для другого класу Шсля обрахування АР для кожного класу в Ha6opi даних обчислюеться шАР.

Для иаведеиого прикладу шАР = (0,86+0,82)/2 = 0,84. Чим вищий показник, тим точшше виявлеиня модель

Висновки

Проведено дос ладження pi3Hnx показиишв ефективиосп та ошики моделей виявлеиня об' cirri в у комп 'ютериому 3opi. Були розглянуп pi3Hi метрики таки як IoU, Precision Recall, крива Precision-Recall та mAP. За допомогою цих метрик можна псрсв1рити. иасшльки точна навчена модель i3 набором даних для nepeBipKH. Як змшюються метрики, якщо '»пнювати noporoBi значения або параметри.

Список використаио1 .liicpaiypii

1. C.-d. Yang, R.-c. Xie, S.-b. Shi and Z. Tang, "Multi-Target Tracking and Segmentation Method for Mssile-Borne Image Based on IoU Association," 2019 12th International Conference on Intelligent Computation Technology and Automation (1С 1С TA), Xiangtan, China, 2019, pp. 207-211, doi: 10.1109ЛС1СТА49267.2019.00051.

2. C. Ma, L. Zhuo, J. Li, Y. Zhang and J. Zhang, "Prohibited Object Detection in X-ray Images with Dynamic Deformable Convolution and Adaptive IoU," 2022 IEEE International Conference on Image Processing (ICIP), Bordeaux, France, 2022, pp. 3001-3005, doi: 10.1109/ICIP46576.2022.9897684.

3. M. Sugang, L. Ningbo, P. Guansheng, C. Yanping, W Ying and H. Zhiqiang, "Object detection algorithm based on cosine similarity IoU," 2022 International Conference on Networking and Network Applications (NaNA), Urumqi, China, 2022, pp. 1-6, doi: 10.1109/NaNA56854.2022.00077.

4. V. Levkivskyi, D. Marchuk, N. Lobanchykova et al, . "Available parking places recognition system", 2022 CEUR Workshop Proceedings 4th Workshop for Young Scientists in Computer Science & Software Engineering, Vol. 3077, pp. 123-134, [Online], available at: http://ceur-ws.org/Vol-3077/paper07.pdf

5. L. Janos Lance, T. Edwin Sybingco and J. A. C. Jose, "Efficient Vehicle Counting Algorithm using Gaussian Mixing Models and IOU Based Tracker for LPWAN Based Intelligent Traffic Management Systems," 2022 IEEE 14th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment, and Management (HNICEM), Boracay Island, Philippines, 2022, pp. 1-4, doi: 10.1109/HNICEM57413.2022.10109498.

6. Zhang, H., Wang, Y., Dayoub, F., & Sunderhauf, N. (2021). Varifocalnet: An iou-aware dense object detector. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 8514-8523).

7. A. Ahmadzadeh, D.J. Kempton, Y. Chen and R.A. Angryk, "Multiscale IOU: A Metric for Evaluation of Salient Object Detection with Fine Structures," 2021 IEEE International Conference on Image Processing (ICIP), Anchorage, AK, USA, 2021, pp. 684-688, doi: 10.1109/ICIP42928.2021.9506337.

8. D. Zhou, J. Fang, X. Song, C. Guan, J. Yin, Y. Dai, and R. Yang, "Iouloss for 2d/3d object detection," In 2019International Conference on 3D Vision (3DV), pp. 85-94. IEEE, 2019.

9. H. Rezatofighi, N.Tsoi, J. Gwak, A. Sadeghian, I. Reid and S. Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 658-666. 2019.

10. Z. Liu, J. Cheng, Q. Wang and L. Xian, "Improved Design Based on IoU Loss Functions for Bounding Box Regression," 2022 IEEE 6th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC ), Beijing, China, 2022, pp. 452-458, doi: 10.1109/IAEAC54830.2022.9929938.

References

1. C.-d. Yang, R.-c. Xie, S.-b. Shi and Z. Tang, "Multi-Target Tracking and Segmentation Method for Missile-Borne Image Based on IoU Association," 2019 12th International Conference on Intelligent Computation Technology and Automation (ICICTA), Xiangtan, China, 2019, pp. 207-211, doi: 10.1109/ICICTA49267.2019.00051.

2. C. Ma, L. Zhuo, J. Li, Y. Zhang and J. Zhang, "Prohibited Object Detection in X-ray Images with Dynamic Deformable Convolution and Adaptive IoU," 2022 IEEE International Conference on Image Processing (ICIP), Bordeaux, France, 2022, pp. 3001-3005, doi: 10.1109/ICIP46576.2022.9897684.

3. M. Sugang, L. Ningbo, P. Guansheng, C. Yanping, W Ying and H. Zhiqiang, "Object detection algorithm based on cosine similarity IoU," 2022 International Conference on Networking and Network Applications (NaNA), Urumqi, China, 2022, pp. 1-6, doi: 10.1109/NaNA56854.2022.00077.

4. V. Levkivskyi, D. Marchuk, N. Lobanchykova et al, . "Available parking places recognition system", 2022 CEUR Workshop Proceedings 4th Workshop for Young Scientists in Computer Science & Software Engineering, Vol. 3077, pp. 123-134, [Online], available at: http://ceur-ws.org/Vol-3077/paper07.pdf

5. L. Janos Lance, T. Edwin Sybingco and J. A. C. Jose, "Efficient Vehicle Counting Algorithm using Gaussian Mixing Models and IOU Based Tracker for LPWAN Based Intelligent Traffic Management Systems," 2022 IEEE 14th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment, and Management (HNICEM), Boracay Island, Philippines, 2022, pp. 1-4, doi: 10.1109/HNICEM57413.2022.10109498.

6. Zhang, H., Wang, Y., Dayoub, F., & Sunderhauf, N. (2021). Varifocalnet: An iou-aware dense object detector. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 8514-8523).

7. A. Ahmadzadeh, D. J. Kempton, Y. Chen and R. A. Angryk, "Multiscale IOU: A Metric for Evaluation of Salient Object Detection with Fine Structures," 2021 IEEE International Conference on Image Processing (ICIP), Anchorage, AK, USA, 2021, pp. 684-688, doi: 10.1109/ICIP42928.2021.9506337.

8. D. Zhou, J. Fang, X. Song, C. Guan, J. Yin, Y. Dai, and R. Yang, "Iou loss for 2d/3d object detection," In 2019International Conference on 3D Vision (3DV), pp. 85-94. IEEE, 2019.

9. H. Rezatofighi, N.Tsoi, J. Gwak, A. Sadeghian, I. Reid and S. Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 658-666. 2019.

10. Z. Liu, J. Cheng, Q. Wang and L. Xian, "Improved Design Based on IoU Loss Functions for Bounding Box Regression," 2022 IEEE 6th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), Beijing, China, 2022, pp. 452-458, doi: 10.1109/IAEAC54830.2022.9929938.

МЕТОДИ ОЦІНКИ ЕФЕКТИВНОСТІ МОДЕЛЕЙ ВИЯВЛЕННЯ ОБ’ЄКТІВ У КОМП’ЮТЕРНОМУ ЗОРІ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Д. К. Марчук, М. С. Граф

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Д. К. Марчук, М. С. Граф

METHODS FOR EVALUATING THE EFFECTIVENESS OF OBJECT DETECTION MODELS IN COMPUTER VISION

Текст научной работы на тему «МЕТОДИ ОЦІНКИ ЕФЕКТИВНОСТІ МОДЕЛЕЙ ВИЯВЛЕННЯ ОБ’ЄКТІВ У КОМП’ЮТЕРНОМУ ЗОРІ»