DOI: 10.24937/2542-2324-2023-1-S-I-26-32 УДК 004.9:629.5 EDN: XWSUOK
Н.А. Мальцев, Н.С. Фролов
ПАО СЗ «Северная верфь», Санкт-Петербург, Россия
ПРИМЕНЕНИЕ ПЛАТФОРМЫ НА БАЗЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА ПОТОКА МЕДИАДАННЫХ В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ
Статья посвящена внедрению и анализу системы RTMIP (Real-Time Media Intelligence Platform) в судостроительной промышленности. Система RTMIP предоставляет возможности по анализу видеоданных в реальном времени для автоматизированного контроля производства. Данная работа подчеркивает актуальность темы в свете развития BigData и машинного обучения, а также освещает цель исследования: оценка актуальности и ценности RTMIP для судостроительной отрасли.
В статье описаны материалы и методы, использованные при интеграции системы, включая программное и аппаратное обеспечение, а также различные методы тестирования. Обсуждаются результаты интеграции, в частности гибкость системы, способность распознавать и отслеживать лица и объекты, а также некоторые ограничения и недостатки, выявленные в ходе исследования.
Выводы подчеркивают потенциал системы RTMIP в контексте контроля производственных зон, определения нарушений техники безопасности, анализа захламленности, отслеживания транспорта и контроля прогресса строительства. Отмечается, что в настоящее время ведутся работы по улучшению системы распознавания лиц и мелких объектов для повышения ее эффективности.
Ключевые слова: система аналитики медиаданных в реальном времени RTMIP, искусственный интеллект, распознавание лиц и объектов.
Авторы заявляют об отсутствии возможных конфликтов интересов.
DOI: 10.24937/2542-2324-2023-1-S-I-26-32 UDC 004.9:629.5 EDN: XWSUOK
N.A. Maltsev, N.S. Frolov
JSC Sevemaya Verf (Northern Shipyard), St. Petersburg, Russia
RTMIP ARTIFICIAL-INTELLIGENCE PLATFORM FOR REAL-TIME ANALYSIS OF MEDIA DATA FLOW
This paper describes AI-based Real-Time Media Intelligence Platform (RTMIP) in terms of its possible shipbuilding applications. This platform can perform real-time analysis of video data for automated production control. The study emphasizes the relevance of this topic in the light of the progress in BigData and machine learning technologies, as well as discusses the purpose of the study, i.e. assessment of RTMIP relevance and value for shipbuilding industry.
The paper also describes materials and methods used for system integration, including hardware, software and various testing methods. It discusses integration results, in particular, flexibility of RTMIP, its potential in identification and recognition of faces and objects, as well as certain limitations and drawbacks of the platform found during the study.
The conclusions of this paper underscore the potential of RTMIP in control of production zones, identification of occupational safety breaches, analysis of junk amounts, tracking of vehicle traffic and monitoring of the construction process. The paper
Для цитирования: Мальцев Н.А., Фролов Н.С. Применение платформы на базе искусственного интеллекта для анализа потока медиаданных в режиме реального времени. Труды Крыловского государственного научного центра. 2023; Специальный выпуск 1: 26-32.
For citations: Maltsev N.A., Frolov N. S RTMIP artificial-intelligence platform for real-time analysis of media data flow. Transactions of the Krylov State Research Centre. 2023; Special Issue 1: 26-32 (in Russian).
points out that RTMIP developers are currently improving platform capabilities in recognition of faces and small objects in order to increase RTMIP efficiency.
Keywords: RTMIP system for real-time analysis of media data, artificial intelligence, face and object recognition. The authors declare no conflicts of interest.
Введение
Introduction
В современном мире промышленные предприятия активно внедряют инновационные технологии для повышения эффективности производства, снижения рисков, сокращения издержек и оптимизации рабочих процессов. Решениям на основе AI и Big Data посвящен ряд статей как у нас, так и за рубежом.
В частности, судостроительная промышленность в последние годы активно интегрирует системы автоматизированного контроля производства, обеспечивающие повышение качества работы и безопасности сотрудников.
Объектом исследования является система аналитики медиаданных в реальном времени RTMIP, предназначенная для автоматического обнаружения, отслеживания и анализа объектов и сотрудников. В рамках работы осуществляется интеграция системы RTMIP на судостроительном предприятии с целью определения ее актуальности и ценности для производства на примере поиска и сопровождения лиц в режиме реального времени методом прямого распознавания лиц, а также посредством дополнительного анализа через встроенную систему определения AprilTag (рис. 1).
Целью данной научной работы является тестирование системы RTMIP для оценки эффективности ее использования в промышленных условиях, а также выявление возможных слабых мест, требующих доработки и оптимизации, изучение возможностей системы в контексте судостроительной промышленности, где критически важны точность, надежность и оперативность получаемых данных.
В статье будут рассмотрены следующие аспекты: программное обеспечение и аппаратная
база системы, методы тестирования и оптимизации, а также результаты интеграции RTMIP на предприятии и обсуждение выявленных проблем и возможностей улучшения системы для повышения ее эффективности и адаптации к специфическим условиям работы. Основное внимание будет уделено анализу работы алгоритмов распознавания лиц и объектов, их точности и быстродействию, а также определению возможных областей применения системы в судостроительной отрасли.
Данная работа может быть интересна для широкого круга исследователей и разработчиков, занимающихся проблемами автоматизации производства, анализа данных и машинного обучения. Исследования, проведенные в рамках работы, могут стать основой для дальнейшего развития системы RTMIP и адаптации ее к потребностям различных отраслей промышленности.
Обзор индустрии
Review of the industry
Большие данные (Big Data), машинное обучение (Machine Learning, ML) и искусственный интеллект (Artificial Intelligence, AI) являются терминами, которые часто путают друг с другом из-за их возросшей популярности в последние годы и изменяющегося понимания их значения.
Например, буквальное понимание термина «большие данные» уже не соответствует его применению в научной литературе и общественном обсуждении. Под этой фразой понимают совокупность технологий обработки больших объемов информации, а не сами данные, которые вполне могут быть небольшими в конкретной задаче.
Рис. 1. April Tags Fig. 1. April Tags
(HS
E
4
Tag36hl1
Также продолжает оставаться открытым вопрос определения искусственного интеллекта. В недавней статье французский исследователь Ян Лекун, один из ведущих мировых специалистов по искусственному интеллекту, пытается определить сильный А1 в сравнении со слабым А1 на примере широко известных генеративных моделей, таких как Midjoumey (рис. 2) и ChatGPT.
В настоящей работе термин А1 относится к решениям, основанным на методах машинного обучения. Машинное обучение представляет собой методы, которые отличаются от прямого решения задачи тем, что они позволяют обучать модели на основе множества сходных задач. Данные методы используются для автоматического извлечения закономерностей из больших объемов данных и позволяют решать широкий спектр задач, включая классификацию, регрессию, кластериза-
Рис. 3. Изображение, сгенерированное нейросетью Midijourney
Fig. 2. Image created by Midjourney neural network
GE Brilliant Factory Creating the «digital thread»
Supply
Chain
Network
цию и другие. Характерной чертой машинного обучения является способность адаптироваться к новым данным и изменяющимся условиям, что делает его очень полезным инструментом во многих областях, включая медицину, финансы, транспорт и другие.
В области автоматизации бизнес-процессов и производства широко применяются методы машинного обучения (ML). Классические методы, такие как рекомендательные алгоритмы и экспертные системы, уже получили широкое применение. Однако все большее значение приобретают более сложные решения, которые способны гибко обрабатывать входные данные. Они включают в себя классификацию документов по их содержанию и различные системы взаимодействия с клиентами на основе методов обработки естественного языка (NLP - Natural Language Processing).
Для промышленных предприятий также разрабатываются более сложные решения. Примером могут послужить разработки компаний Siemens -MindSphere1 (облачная платформа) и Brilliant Factory от General Electric (платформа анализа и быстрого реагирования) (рис. 3). Решения этих компаний направлены на создание Интернета вещей (IoT) в рамках предприятия. Они позволяют собирать и анализировать данные, полученные от различных устройств, чтобы повысить эффективность производства.
Еще один пример таких решений - продукты, разработанные немецкой компанией Rethink Robotics на основе машинного зрения (сканирование и анализ поверхности). Они улучшают производительность промышленных роботов.
Обзор решений в рамках экосистемы индустриального искусственного интеллекта (AI) представлен в статье Industrial Artificial Intelligence for Industry 4.02-based Manufacturing Systems [2], рис. 4.
fV.
Virtual Product
Design
Virtual
Manufacturings
Service/Repair Shop
Рис. 3. Взаимодействие в среде GE Brilliant Factory Fig. 3. Interaction in GE Brilliant Factory environment
1 MindSphere - это промышленное решение, разработанное
Siemens для приложений в контексте Интернета вещей (IoT) в виде облачной услуги с удаленными вычислениями. MindSphere хранит оперативные данные и делает их доступными через цифровые приложения, позволяющие промышленным заказчикам принимать решения на основе ценной фактической информации. Система используется в таких приложениях, как автоматизированное производство и управление автопарком.
2 Industry 4.0 - это термин, который обозначает четвертую промышленную революцию, связанную с внедрением новых технологий в производственном процессе, таких как IoT, машинное обучение и AI.
Challenges
Attributes of Next-Generation Intelligent Systems
Self-Aware Self-Compare Self-Predict Self-Optimize Resilient
Common Unmet Needs
Embedded AI Devices
Resilient Factory
Smart Human & Health Performance
Predictive Energy Systems
Worry-free Transportation
Industrial Al-based Education System
Industrial Sectors
Рис. 4. Содержание статьи Industrial Artificial Intelligence for Industry 4.0-based Manufacturing Systems (2018), представленное в виде блок-схемы
Fig. 4. Content of article Industrial Artificial Intelligence for Industry 4.0-based Manufacturing Systems (2018) in form of a flow chart
Существенным препятствием для интеграции подобных решений может стать состояние основных фондов предприятия. Интеграция Интернета вещей требует наличия у оборудования соответствующего интерфейса для взаимодействия. Однако новейшие разработки предлагают решения этой проблемы.
Материалы и методы
Materials and methods
Система RTMIP, разработанная компанией Neirolis, представляет собой интегрированное решение для анализа видеопотока и других медиаданных в реальном времени. По сути, RTMIP - это сервис, который позволяет объединить оборудование, такое как камеры, базы данных предприятия, алгоритмы машинного обучения и BigData. Интеграция данного сервиса в работу предприятия включает в себя интеграцию с системой контроля доступа и развертывание системы контроля производства.
Основные компоненты системы включают: ■ платформу аналитики медиаданных RTMIP, которая обеспечивает мониторинг и анализ видеопотока с IP-камер слежения;
■ ореп-Боигсе-решение для распознавания лиц, идущее в стандартном пакете ЯТМГР. В основе -модель детекции УОЬОуЗ,3 и решения библиотеки ОрепСУ.4.
■ систему контроля доступа предприятия для идентификации и авторизации сотрудников (СКУД);
■ аппаратную часть, состоящую из сервера и 1Р-камер слежения.
■ Для успешной интеграции RTMIP на судостроительном предприятии были проведены следующие работы:
3 YOLOv5 (You Only Look Once version 3) - один из самых популярных алгоритмов обнаружения объектов в реальном времени. Это нейронная сеть, обученная на множестве различных изображений, которая может обнаруживать и классифицировать объекты на изображении или видео с высокой точностью и скоростью.
4 OpenCV (Open Source Computer Vision Library) - библио-
тека компьютерного зрения с открытым исходным кодом, разработанная для обработки изображений и видео. Она включает в себя множество алгоритмов обработки изображений, распознавания объектов, сегментации, а также множество инструментов для работы с камерами и потоками видео.
■ подключение IP-камер слежения к локальной сети предприятия;
■ установка и настройка сервера для обработки видеопотока и хранения аналитических данных;
■ интеграция СКУД с RTMIP для обмена информацией о сотрудниках и их местоположении. Для оценки эффективности системы RTMIP
были проведены тесты распознавания лиц сотрудников, распознавания и отслеживания объектов, таких как контейнеры, краны и другое оборудование, распознавание тегов AprilTag [9].
AprilTag представляет собой матричный штрих-код, разработанный для распознавания в условиях ограниченного доступа к оборудованию. Он имеет высокую устойчивость к шумам и искажениям, что делает его применимым для систем автоматической идентификации в реальном времени.
Для определения оптимальных параметров видеопотока и настройки системы RTMIP были проведены A/B тесты (табл. 1, 2). В ходе тестирования изменялись различные параметры, такие как разрешение видео, частота кадров, степень сжатия и др. Тесты проводились в разных условиях освещения и с различными ракурсами съемки, чтобы определить настройки, обеспечивающие наилучшую производительность системы в разных сценариях.
Таблица 1. Результаты A/B тестов измерения быстродействия
Table 1. A/B test results: platform speed
Low-code алгоритм Среднее быстродействие, мс
Распознавание лиц и объектов, одна камера 200
Распознавание лиц 200
и объектов, две камера
Распознавание лиц 200
и объектов, четыре камеры
AprilTag, одна камера 450
AprilTag, две камеры 700
AprilTag, четыре камеры 1256
Таблица 2. Результаты A/B тестов измерения
пропускной способности
Table 2. A/B test results: bandwidth
Качество Кадров в секунду Разрешение Формат видеосжатия Битрейт
Лучшее 24 1920x1080 HEVC 160168,5 кбит/с
Среднее 24 1920x1080 HEVC 33032,3 кбит/с
Среднее 20 1920x1080 HEVC 19262,1 кбит/с
Низкое 20 1280x960 HEVC 4834,5 кбит/с
Результаты
Results
В ходе тестирования было определено, что система с высокой точностью распознает лица (рис. 5), однако сталкивается с проблемами при идентификации конкретного сотрудника в случае низкого качества видеопотока или неудачного ракурса съемки. Проблемы возникают при неудачном расположении камеры, кратковременном появлении человека в объективе, неудачном расположении головы или наличии каких-либо закрывающих лицо предметов (маски, шапки, кепки и т.д.).
Теоретически, современные методы распознавания лиц устойчивы к подобному шуму, равно как и к низкому качеству изображения. Наиболее вероятная причина - неэффективность стандартной сборки для распознавания лиц: в прошлом году произошел релиз YOLOv8, показывающий более высокие результаты по сравнению с третьей версией [10]. Идет разработка собственной экспериментальной сборки на основе YOLOv8 и архитектуры ArcFace [11].
Было выявлено узкое место алгоритма обработки видеоряда: перекодирование кадра в удобный для обработки кодом формат. Так как библиотек по работе с видеопотоком немного (альтернативы ffmpeg для данного направления нет), это узкое место не удается преодолеть. Сама обработка изображения не влияет на работу алгоритма в целом. Существенный скачок объема видеопотока можно снизить распределением вычислительных ресурсов между потоками вычислений для обеспечения равномерной нагрузки и повышения быстродействия системы либо понижением качества видеопотока.
Система RTMIP успешно распознавала и отслеживала перемещение различных объектов, таких как контейнеры и краны (рис. 6). В ряде случаев, когда объекты были частично перекрыты другими объектами или находились на большом расстоянии от камеры, система испытывала сложности с их идентификацией. Однако в целом результаты тестирования показали высокую эффективность системы в обнаружении и отслеживании объектов на территории предприятия.
Система RTMIP справляется с распознаванием AprilTag с высокой точностью. Однако сам AprilTag имеет небольшой диапазон значений, что ограничивает его применимость в некоторых случаях. Также следует отметить, что логика библиотеки крайне ресурсозатратна и сказывается на быстродействии системы в целом. Альтернативой
AprilTag могут послужить QR-коды, алгоритмы которых более оптимизированы, однако их полезность сомнительна в заводских условиях. Сильной стороной AprilTag является устойчивость к деформации и повреждениям. Например, в случае залома или скрытия части кода нейросеть распознавания продолжит работу, обнаружив и интерпретируя оставшиеся элементы. AprilTag также более устойчив к сильным искажениям изображения, вызванным перспективным сдвигом или поворотом камеры.
Выбор между использованием AprilTag и QR-кодов зависит от конкретной задачи и условий, в которых система будет работать. Если требуется высокая устойчивость к деформации и низкий порог чувствительности к освещению, стоит использовать AprilTag. Если же нужна высокая скорость чтения и большая информационная загрузка, а также если предполагается работа в условиях хорошей освещенности, то лучше использовать QR-коды.
Выводы
Conclusion
Система справляется с задачами, связанными с обнаружением и трекингом объектов. На практике система наиболее перспективна для контроля производственных зон, грубого нарушения техники безопасности, определения чрезвычайных ситуаций, анализа захламленности, отслеживания транспорта, контроля прогресса строительства, формирования отчетной статистики в реальном времени.
На данный момент ведутся работы по улучшению распознавания лиц и мелких объектов, которые являются слабым местом сервиса и либо требуют неприемлемо больших технических мощностей, либо выдают в целом неудовлетворительный результат.
Список использованной литературы
1. LeCun Y. A Path Towards Autonomous Machine Intelligence. Version 0.9.2, 2022-06-27 // OpenReview. 2022. 62 p. URL: https://openreview.net/pdf?id=BZ5a1r-kVsf&trk=public_post_comment-text (Accessed: 18.07.2023).
2. Industrial Artificial Intelligence for Industry 4.0-based Manufacturing Systems / J. Lee, H. Davari, J. Singh, V. Pandhare // Manufacturing Letters. 2018. Vol. 18. P. 20-23. DOI: 10.1016/j.mfglet.2018.09.002.
Рис. 5. Идентификация сотрудников RTMIP Fig. 5. RTMIP outputs: face recognition
Рис. 6. Идентификация объектов RTMIP Fig. 6. RTMIP outputs: object recognition
3. Artificial intelligence, automation, and the economy : A Government report / Executive Office of the President. [Washington] : The White House, 2016. 49, [3] p. URL: https: //obamawhitehouse. archives. go v/sites/ whitehouse.gov/files/documents/Artificial-Intelligence-Automation-Economy.PDF (Accessed: 18.07.2023).
4. Lee J., Bagheri B., Kao H.-A. A cyber-physical systems architecture for industry 4.0-based manufacturing systems // Manufacturing letters. 2015. Vol. 3. P. 18-23. DOI: 10.1016/j.mfglet.2014.12.001.
5. Recent advances and trends in predictive manufacturing systems in big data environment / J. Lee, E. Lapira, B. Bagheri, H.-A. Kao // Manufacturing letters. 2013. Vol. 1, No. 1. P. 38-41. DOI: 10.1016/ j.mfglet.2013.09.005.
6. Tuptuk N., Hailes S. Security of smart manufacturing systems // Journal of manufacturing systems. 2018. Vol. 47. P. 93-106. DOI: 10.1016/j.jmsy.2018.04.007.
7. Platform technology for intelligent spindle.J. Lee et al. / Manufacturing Letters 18 (2018) 20-23 23.
8. Кручинин Р. Как искусственный интеллект помогает бороться с браком на производстве // Управление качеством. 2020. С. 60-66.
9. Olson E. AprilTag: A robust and flexible visual fiducial system // Proceedings of IEEE International Conference on Robotics and Automation. Piscataway : IEEE, 2011. P. 3400-3407. DOI: 10.1109/ICRA.2011.5979561.
10. Terven J., Cordova-Esparza D. A Comprehensive Review of YOLO: From YOLOv1 to Beyond // arXiv : [site]. New York, 2023. 33 p. (Preprint arXiv ; 2304.00501). DOI: 10.48550/arXiv.2304.00501.
11. Arcface: Additive angular margin loss for deep face recognition / J. Deng, J. Guo, J. Yang [et al.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. Vol. 44, No. 10. P. 5962-5979. DOI: 10.1109/TPAMI.2021.3087709.
References
1. LeCun Y. A Path Towards Autonomous Machine Intelligence. Version 0.9.2, 2022-06-27 // OpenReview. 2022. 62 p. URL: https://openreview.net/pdf?id=BZ5a1r-kVsf&trk=public_post_comment-text (Accessed: 18.07.2023).
2. Industrial Artificial Intelligence for Industry 4.0-based Manufacturing Systems / J. Lee, H. Davari, J. Singh, V. Pandhare // Manufacturing Letters. 2018. Vol. 18. P. 20-23. DOI: 10.1016/j.mfglet.2018.09.002.
3. Artificial intelligence, automation, and the economy : A Government report / Executive Office of the President. [Washington] : The White House, 2016. 49, [3] p. URL: https://obamawhitehouse.archives.gov/ sites/whitehouse.gov/files/documents/Artificial-Intelligence-Automation-Economy.PDF (Accessed: 18.07.2023).
4. Lee J., Bagheri B., Kao H.-A. A cyber-physical systems architecture for industry 4.0-based manufacturing systems // Manufacturing letters. 2015. Vol. 3. P. 18-23. DOI: 10.1016/j.mfglet.2014.12.001.
5. Recent advances and trends in predictive manufacturing systems in big data environment / J. Lee, E. Lapira, B. Bagheri, H.-A. Kao // Manufacturing
letters. 2013. Vol. 1, No. 1. P. 38-41. DOI: 10.1016/ j.mfglet.2013.09.005.
6. Tuptuk N., Hailes S. Security of smart manufacturing systems // Journal of manufacturing systems. 2018. Vol. 47. P. 93-106. DOI: 10.1016/j.jmsy.2018.04.007.
7. Platform technology for intelligent spindle.J. Lee et al. / Manufacturing Letters 18 (2018) 20-23 23.
8. Кручинин Р. Как искусственный интеллект помогает бороться с браком на производстве // Управление качеством. 2020. С. 60-66.
9. Olson E. AprilTag: A robust and flexible visual fiducial system // Proceedings of IEEE International Conference on Robotics and Automation. Piscataway : IEEE, 2011. P. 3400-3407. DOI: 10.1109/ICRA.2011.5979561.
10. Terven J., Cordova-Esparza D. A Comprehensive Review of YOLO: From YOLOv1 to Beyond // arXiv : [site]. New York, 2023. 33 p. (Preprint arXiv ; 2304.00501). DOI: 10.48550/arXiv.2304.00501.
11. Arcface: Additive angular margin loss for deep face recognition / J. Deng, J. Guo, J. Yang [et al.] // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. Vol. 44, No. 10. P. 5962-5979. DOI: 10.1109/TPAMI.2021.3087709.
Сведения об авторах
Мальцев Никита Андреевич, инженер-программист ПАО СЗ «Северная верфь». Адрес: 198096, Россия, Санкт-Петербург, Корабельная ул., д. 6. Тел.: +7 (812) 600-52-60 (26-23). E-mail: [email protected]. Фролов Николай Сергеевич, техник-программист ПАО СЗ «Северная верфь». Адрес: 198096, Россия, Санкт-Петербург, Корабельная ул., д. 6. E-mail:, [email protected].
About the authors
Nikita A. Maltsev, Programming Engineer, Northern Shipyard JSC, address: 6, Korabelnaya street, St. Petersburg, Russia, post code 198096, tel.: +7 (812) 600-52-60 (26-23). E-mail: [email protected].
Nikolay S. Frolov, Programming Technician, Northern Shipyard JSC, address: 6, Korabelnaya street, St. Petersburg, Russia, post code 198096, e-mail:, [email protected].
Поступила / Received: 14.07.23 Принята в печать / Accepted: 01.08.23 © Мальцев Н.А., 2023