УДК 004.85 https://doi.Org/10.35546/kntu2078-4481.2023.3.17
О. М. ШУШУРА
доктор техшчних наук, доцент, професор кафедри цифрових технологш в енергетищ Нацюнальний техшчний ушверситет Украши «Кшвський полiтехнiчний шститут iменi 1горя Сшорського» ORCID: 0000-0003-3200-720X
В. В. ПРИСЯЖНЮК
магiстр кафедри цифрових технологш в енергетищ Нацюнальний техшчний ушверситет Украши «Кшвський пол^ехшчний iнститут iменi 1горя Сшорського» ORCID: 0009-0002-2267-3559
1НФОРМАЦ1ЙНА СИСТЕМА КЛАСИФ1КАЦ11 ТА МАРКУВАННЯ ЗОБРАЖЕНЬ ДЛЯ НАВЧАННЯ МОДЕЛЕЙ ШТУЧНОГО 1НТЕЛЕКТУ
Стаття присвячена розробц iнформацiйноi системи для класифiкацii та маркування зображень з метою навчання моделей штучного ттелекту. Покращення швидкостi та точностi класифжаци i маркування зображень шляхом надання iм певних мток або категорш вiдкриваe новi можливостi для використання машинного навчання у р1зних сферах, включаючи комп'ютерний зiр, медичну дiагностику, розп1знавання образiв. Проведений анализ наявних систем анотування зображень показав, що слабкими сторонами цих технологш е неповно-та та незручнкть реалгзованих iнструментiв, недостатньо висока швидюсть виконання операцт. У роботi запропоновано для класифжаци та маркування зображень використати технологи штучних нейронних мереж. З метою автоматизацп класифiкацii зображень обрано мережу ResNet, яка навчаеться в процесi виконання роботи в межах одного датасету, що дозволяе скоротити витрати часу на проведення операцп. Для задач маркування зображень застосовано мережу SAM, яка дае змогу узагальнювати незнайомi об'екти та зображення без необхiдностi додаткового навчання. До^дження використання цих технологш на контрольнш вибiрцi даних показало достатньо високу точнкть iх роботи. Сформовано вимоги до iнформацiйноi системи автоматизацп класифiкацii та маркування зображень, яю формалiзованi у виглядi дiаграми прецедентiв UML, спроектована ii структура та обрат засоби розробки, створене програмне забезпечення на мовi Python та проведене його тестування. В якостi системи управлтня базами даних обрано MongoDB через ii безкоштовтсть та продук-тивнкть. Результати до^джень можуть бути використанi розробниками тформацшних технологш, що пра-цюють в областi навчання моделей штучного ттелекту.
Ключовi слова: класифжащя зображень, маркування зображень, штучш нейронш мережi, модель штучного ттелекту, тформацшна технологiя, автоматиза^я.
O. M. SHUSHURA
Doctor of Technical Sciences, Associate Professor, Professor at the Department of Digital Technologies in Energy National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" ORCID: 0000-0003-3200-720X
V. V. PRYSYAZHNUK
Master at the Department of Digital Technologies in Energy National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" ORCID: 0009-0002-2267-3559
INFORMATION SYSTEM FOR IMAGE CLASSIFICATION AND LABELING FOR TRAINING ARTIFICIAL INTELLIGENCE MODELS
The paper is devoted to the development of an information technology for image classification and labeling for the purpose of training artificial intelligence models. Improving the speed and accuracy of image classification and labeling by assigning them specific tags or categories opens up new possibilities for the use of machine learning in various fields, including computer vision, medical diagnostics, and image recognition. The analysis of existing image annotation systems has shown that their weaknesses lie in the incompleteness and inconvenience of implemented tools, as well as insufficiently high execution speed. The proposed approach for image classification and labeling involves the use of
artificial neural network technologies. For the automation of image classification, the ResNet network was selected, which is trained within the framework of a single dataset, thus reducing the time required for the operation. For image labeling tasks, the SAM network was applied, which allows for generalizing unfamiliar objects and images without the need for additional training. Research on the use of these technologies on a test dataset has demonstrated their sufficiently high accuracy. Requirements for an information system for automating image classification and labeling have been formulated, which are formalized in the form of a UML use case diagram. The system's structure has been designed, and development tools have been chosen. The software has been created using the Python programming language and subjected to testing. MongoDB has been selected as the database management system due to its free-of-charge availability and productivity. The research results can be used by information technology developers working in the field of artificial intelligence model training.
Key words: image classification, image labeling, artificial neural networks, artificial intelligence model, information technology, automation.
Постановка проблеми
Класифжащя та маркування зображень використовуються при навчанш моделей штучного штелекту, яш застосовуються у рiзних сферах, включаючи комп'ютерний зiр, медичну дiагностику, розшзнавання образiв, та ш. Сьогодш значна шльшсть компанш використовуе штучний штелект для прискорення виконання бага-тьох завдань. Необхщшсть обробки величезних обсяпв шформацп для навчання моделей штучного штелекту, яка здебшьшого виконуеться персоналом компанш, визначае актуальшсть розробки шформацшних техноло-гш з метою автоматизацп цього процесу. Очжуеться, що до 2026 року ринок маркування даних зросте до 5,5 мiльярдiв доларiв США [1].
Автоматизащя класифтаци та маркування зображень (анотування) для навчання моделей штучного штелекту е процесом використання рiзноманiтних технологш, методiв та алгоршшв для автоматизованого аналiзу зображень та надання 1м певних мггок або категорш. Це допомагае в пвдготовщ даних для навчання моделей машинного навчання, що забезпечуе б!льш точну класифiкацiю зображень у майбутньому.
Аналiз останшх досл1джень i публжацш
Анотованi данi е джерелом шформаци для моделей машинного навчання, осшльки продуктивнiсть i точнiсть таких моделей залежать вiд якостi та шлькосл анотованих даних. Моделi машинного навчання мають широкий спектр критично важливих застосувань, в тому числi ri (наприклад, охорона здоров'я), де !х помилки можуть бути небезпечними. Наприклад, застосування методiв машинного навчання в патологи значно полiпшуе виявлення метастазiв у лiмфовузлах, оцiнку показника Ki67 у раку грудей, рейтинг Глюона у раку простати та оцшку л1мфо-цитiв, що проникають у пухлину (TIL) у меланомi [2, 3].
Для анотування даних застосовуються спецiалiзованi шформацшш системи Computer Vision Annotation Tool (CVAT) та Label Studio (LS). Система CVAT пропонуе ряд шструменпв для створення анотацш, якi допомагають у процесi маркування для подальшого навчання штучного штелекту [4]. Програмне забезпечення LS пропонуе рiзнi типи анотацiй, включаючи обмежувальш рамки, полiгони, полшни, ключов! точки i маски семантично! сег-ментаци [5]. Основним недол1ком вказаних платформ е обмежешсть iнструментiв для тих титв задач, де потрiбно об'еднати класифтацш та маркування зображень.
Для класифшаци та аналiзу зображень застосовуються глибош нейроннi мереж! [6], в тому числ! з використан-ням переднього навчання (pre-training) на великих наборах даних для досягнення навчання за допомогою методiв transfer learning на даних з обмеженим обсягом [7]. В процесах маркування зображень використовуеться мульти-модальне активне навчання з глибоким навчанням та шдкршленням для видiлення цшьових ознак [8]. Широке розповсюдження отримало застосування нейронних мереж ConvNet, ResNet та DenseNet [9].
Виб!р м!ж DenseNet, ConvNet та ResNet залежить ввд конкретно! задач!, набору даних та обчислювальних ресурсiв. Шдльш зв'язки DenseNet вимагають, щоб кожен шар отримував прям! вхвдш данi ввд уах попередшх шарiв, що може призвести до зб!льшення використання пам'ят пор!вняно з традицшними архитектурами, такими як ResNet. Мереж! ConvNets обробляють локальш особливосп за допомогою згорткових фшьтр!в, як! е ефектив-ними для захоплення локальних шаблошв. Однак вони можуть не мати повного розумшня глобального контексту, особливо в задачах, де розумшня ширшого контексту мае виршальне значення. В даному дослвдженш було обрано мережу ResNet через пом'якшення проблеми зникаючого град!енту в дуже глибоких мережах та використання меншо! шлькосп пам'яп та обчислювально! потужносп для навчання модел! [10].
Формулювання мети дослiдження
Метою дано! роботи е розробка шформацшно! технологи класифшаци та маркування зображень для навчання моделей штучного штелекту. Для прискорення процесу класифжацп i маркування, зменшення частки ручно! пращ пвд час обробки масив!в навчальних даних слщ розглянути можливють застосування в шформацшнш технолог!! штучних нейронних мереж. Необхщно визначити загальш та функцюнальш вимоги до шформацшно! системи автоматизацп класифтацп та маркування зображень, сформувати !! структуру та обрати засоби розробки, роз-робити програмне забезпечення та провести його тестування.
Викладення основного MaTepi&^y дослвдження
Анотування е це важливою задачею, яка вимагае надiйноï, швидко1 та ефективно1' платформи для роботи з даними в р!знш шлькосп та з використанням рiзних шструменлв. Класифiкацiя вих1дного масиву зображень необхщна для його сортування по навчальним наборам.
Для автоматизацiï класифiкацiï та пвдвищення продуктивностi роботи персоналу, що здшснюе обробку зображень, запропоновано використовувати штучну нейронну мережу Residual neural network (ResNet), яка е глибо-кою нейронною мережею, що мае особливу архитектуру, яка дозволяе досягати кращих результатiв у задачах класифшаци зображень за рахунок можливосп навчання в процесi виконання роботи в межах одного датасету. Архгтектура ResNet передбачае використання блок1в, що назваш "residual blocks". Цi блоки мютять звичайнi шари нейронноï мереж!, але з деяким додатковим з'еднанням, яке дозволяе зберiгати вхвдну шформацш та додавати ïï до виходу блоку. Обрана модель залишково1' нейромереж1 з тришаровими пропусками, що мютять пакетну нор-малiзацiю та нелшшшсть мiж ними [10]. Для навчання мереж! було використано 50000 фото. Перед проведенням навчання цей масив було роздшено на тдмасиви Train, Test, та Validation, у вщношенш 10%, 20% та 70% вщпо-ввдно. Результати навчання модел! показано на рисунку 1.
Epoch 1/6127
43/43 [======
Epoch 2/6127 43/43 [======
Epoch 3/6127 43/43 [======
Epoch 6125/6127 Epoch 6126/6127 Epoch 6127/6127
43/43 [==============================
17s 367iris/step - loss: 0.6303 - val_loss: 0.6133 17s 3Cliris/step - loss: 0.6235 - val_loss: 0.6655 17s 317iris/step - loss: 0.6171 - val_loss: 0.6011
17s 322ns/step - loss: 0.0575 - val_loss: 0.0742
17s 325iris/step - loss: 0.Ö5&6 - val_loss: 0.0732
■ 175 331ins/step - loss: 0.Ö5Ö3 - val_loss: 0.0727 Рис. 1. Результат навчання моделi ResNet для автоматизацй класифшаци зображень
Як видно з рисунку 1, точнють класифшаци складае приблизно 93%, що сввдчить про можливють практичного використання моделi. З метою подальшого покращення якостi роботи мереж! можна збiльшити датасет та кшь-к1сть епох навчання модель
Для автоматизацй' маркування даних запропоновано використовувати нейронну мережу Segment Anything Model (SAM), що е швидкою системою сегментаци, яка дозволяе узагальнювати незнайомi об'екти (в тому чи^ зображення) без додаткового навчання [11].
На рисунку 2 представлено приклад роботи моделi SAM, роздшено! на кодер одноразових зображень i декодер масок, який може працювати в браузерi всього за калька мшсекунд на запит. Архiтектурою, що використову-еться в моделi для сегментаци об'екпв, е Convolutional Neural Network (CNN), яш складаються з багатьох шарiв, що вивчають iерархiчнi представлення вихiдних даних. Вони складаються зi шарiв для вилучення ознак даних i шарiв шдвищено! вибiрки, призначених для генераци сегментованого результату. Для навчання моделi сегмен-тацй' потрiбен достатньо великий набiр зображень, позначених анота^ми на рiвнi пiкселiв, де кожному ткселю присвоюеться мiтка класу, що вказуе на об'ект, до якого вш належить. Пiд час навчання модель вчиться зютавляти вхвдш зображення з масками сегментаци на рiвнi пiкселiв.
Процес навчання включае оптимiзацiю параметрiв моделi для мiнiмiзацil рiзницi мiж прогнозованими масками сегментаци та ютинними анотацiями. Шсля того, як модель навчена, li можна використовувати для сегментаци об'ектiв на нових зображеннях, що не були використаш при навчанш. Пiд час виведення вхiдне зображення пропускаеться через навчену модель, яка створюе карту ймовiрностей, що вказуе на ймовiрнiсть належностi кожного ткселя до певного класу. В деяких випадках результат сегментаци може пщдаватися обробцi методами постобробки з метою уточнення результапв. Це можуть бути так1 методи, як морфолопчш операцй' (наприклад, розширення) для видалення шуму або згладжування для покращення меж сегментаци.
Ефективнють моделi "Segment Anything Model" залежить вiд рiзних факторiв, зокрема вiд якостi та рiзноманiт-ностi навчального набору даних, а також вiд застосованих метсдов постобробки.
Для автоматизацй' класифтаци та маркування зображень на основi зазначених штучних нейронних мереж необхiдно розробити шформацшну систему. На рисунку 3 представлено основш функцiональнi можливостi системи у виглядi дiаграми прецеденпв UML.
Prompt
point*. fcKW, mpslts
□ □ □
Embedding □
□ □
Final Mask
GPU
ffl.lSs
Web-browier (CPU)
ffl.OSSs
Рис. 2. Приклад роботи моделi SAM
Рис. 3. UML дiаграма прецеденив шформащйно!' системи класифжацп та маркування зображень
Як видно з рисунку 3, у системи видшено 3 ролi Kop^TyBa4iB, а саме «пращвник», який мае доступ до маркування та класифтацп зображень, а також до ïx nepeBipra на коректшсть, «системний адмiнiстратор», функщю якого е пвдтримка пpацeздатностi системи, та «директор\куратор», що мае доступ до пepeвipки даних на коректшсть та перегляду повно1' шформацп зображень.
До структури iнфоpмацiйноï системи класифшаци та маркування зображень входить модуль вiзyальноï ком-поненти програми, який складаеться з дек1лькох вшэн для взаемодп з користувачем, та бази даних зображень, яш мютять вичерпну iнфоpмацiю про фотогpафiï та ввдповщш 1'м мiтки. В якосп системи yпpавлiння базами даних було обрано MongoDB через ïï безкоштовшсть та пpодyктивнiсть, що е важливим показником для компанiй, як1 не мають великого бюджету для розгортання подiбниx систем. Програмне забезпечення системи розроблене на мовi Python, яка мае необхвдш бiблiотeки.
Висновки
В данш pоботi представлено iнфоpмацiйнy технологш класифiкацiï та маркування зображень для навчання моделей штучного штелекту. За рахунок використання наведених в робот штучних нейронних мереж для кла-сифiкацiï та сeгмeнтацiï зображень скорочуеться час обробки вихвдних масивiв даних при пвдготовщ навчальних набоpiв зображень. Об'еднання цих iнстpyмeнтiв в едину iнфоpмацiйнy систему дозволить компанiям, яш спещ-алiзyються на анотyваннi даних, тдвищити пpодyктивнiсть виробничих пpоцeсiв. Результата дослщжень можуть бути викоpистанi розробниками iнфоpмацiйниx тexнологiй, що працюють в области навчання моделей штучного штелекту.
Список використано'1 лiтератури
1. Data Labeling: How to Choose a Data Labeling Partner in 2023 [Електронний ресурс]. Режим доступу до ресурсу: https://research.aimultiple.eom/data-labeling/#why-is-it-important-now
2. Acs B, Rantalainen M, Hartman J. Artificial intelligence as the next step towards precision pathology. J Intern Med. 2020. Vol. 288. P. 62-81.
3. Gulbahar Karatas. Data Annotation in 2023: Why it matters & Top 8 Best Practices. AIMultiple [Електронний ресурс]. Режим доступу до ресурсу: https://research.aimultiple.com/data-annotation/.
4. Документащя Computer Vision Annotation Tool (CVAT) [Електронний ресурс]. Режим доступу до ресурсу: https://github.com/opencv/cvat.
5. Документащя Label studio(LS) [Електронний ресурс]. Режим доступу до ресурсу: https://labelstud.io/guide/.
6. Abdou, M.A. Literature review: efficient deep neural networks techniques for medical image analysis. Neural Comput & Applic. 2022. Vol. 34. P. 5791-5812. https://doi.org/10.1007/s00521-022-06960-9.
7. Gulzar, Y. Fruit Image Classification Model Based on MobileNetV2 with Deep Transfer Learning Technique. Sustainability. 2023. Vol. 15, 1906. https://doi.org/10.3390/su15031906.
8. Dhiman, G., Kumar, A.V, Nirmalan, R. et al. Multi-modal active learning with deep reinforcement learning for target feature extraction in multi-media image processing applications. Multimed Tools Appl Vol. 82. P. 5343-5367. https://doi.org/10.1007/s11042-022-12178-7.
9. G. Huang, Z. Liu, L. Van Der Maaten and K. Q. Weinberger. Densely Connected Convolutional Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017, pp. 2261-2269. https://doi. org/10.1109/CVPR.2017.243.
10. Огляд ResNet та його ваpiантiв [Електронний ресурс] - Режим доступу до ресурсу: https://datascience.eu/ machine-learning/an-overview-of-resnet-and-its-variants/.
11. Офщшний Сайт Segment Anything Model (SAM) [Електронний ресурс]. Режим доступу до ресурсу: https:// segment-anything.com/.
References
1. Data Labeling: How to Choose a Data Labeling Partner in 2023. Retrieved from https://research.aimultiple.com/ data-labeling/#why-is-it-important-now.
2. Acs B, Rantalainen M, Hartman J. (2020). Artificial intelligence as the next step towards precision pathology. Journal of Internal Medicine, 288, 62-81.
3. Gulbahar Karatas. (2023). Data Annotation in 2023: Why it matters & Top 8 Best Practices. AIMultiple. Retrieved from https://research.aimultiple.com/data-annotation/.
4. Computer Vision Annotation Tool (CVAT) Documentation. Retrieved from https://github.com/opencv/cvat.
5. Label studio (LS) Documentation. Retrieved from https://labelstud.io/guide/.
6. Abdou, M.A. (2022). Literature review: efficient deep neural networks techniques for medical image analysis. Neural Computing & Applications, 34, 5791-5812. https://doi.org/10.1007/s00521-022-06960-9.
7. Gulzar, Y. (2023). Fruit Image Classification Model Based on MobileNetV2 with Deep Transfer Learning Technique. Sustainability, 15, 1906. https://doi.org/10.3390/su15031906.
8. Dhiman, G., Kumar, A.V., Nirmalan, R. et al. (2022). Multi-modal active learning with deep reinforcement learning for target feature extraction in multi-media image processing applications. Multimedia Tools and Applications, 82, 5343-5367. https://doi.org/10.1007/s11042-022-12178-7.
9. G. Huang, Z. Liu, L. Van Der Maaten, & K. Q. Weinberger. (2017). Densely Connected Convolutional Networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, pp. 2261-2269. https:// doi.org/10.1109/CVPR.2017.243.
10. Overview of ResNet and Its Variants. Retrieved from https://datascience.eu/machine-learning/an-overview-of-resnet-and-its-variants/.
11. Official Website of Segment Anything Model (SAM). Retrieved from https://segment-anything.com/.