Научная статья на тему 'АЛГОРИТМ РАСПОЗНАВАНИЯ МАРКИРОВКИ ГРУЗОВОГО КОНТЕЙНЕРА С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ'

АЛГОРИТМ РАСПОЗНАВАНИЯ МАРКИРОВКИ ГРУЗОВОГО КОНТЕЙНЕРА С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
40
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / АЛГОРИТМ / ГРУЗОВЫЕ КОНТЕЙНЕРЫ / НЕЙРОННАЯ СЕТЬ / КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ / РАСПОЗНАВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Макаров Р.А.

В данной статье реализован алгоритм распознавания маркировки грузового контейнера на основе глубоких нейронных сетей. Основным преимуществом предложенного алгоритма - является отсутствие необходимости дополнительных преобразований изображения для локализации маркировки и сегментации символов. Для решения задачи локализации использовался алгоритм EAST. Для распознавания кода собственника и серийного номера контейнера были обучены модели нейронных сетей Faster R-CNN Resnet 50. В результате оценки точности работы алгоритма, были сделаны соответствующие выводы, а также сформулированы возможные варианты улучшения работы алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FREIGHT CONTAINER MARKING RECOGNITION ALGORITHM USING DEEP NEURAL NETWORKS

This article implements an algorithm for recognizing the markings of a freight container based on deep neural networks. The main advantage of the proposed algorithm is the absence of the need for additional image transformations for marking localization and character segmentation. The EAST algorithm was used to solve the localization problem. To recognize the owner code and serial number of the container, Faster R-CNN Resnet 50 neural network models were trained. As a result of assessing the accuracy of the algorithm, appropriate conclusions were made, and possible options for improving the algorithm were formulated.

Текст научной работы на тему «АЛГОРИТМ РАСПОЗНАВАНИЯ МАРКИРОВКИ ГРУЗОВОГО КОНТЕЙНЕРА С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ»

Алгоритм распознавания маркировки грузового контейнера с использованием глубоких нейронных сетей

Р.А. Макаров

Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ, Казань

Аннотация: В данной статье реализован алгоритм распознавания маркировки грузового контейнера на основе глубоких нейронных сетей. Основным преимуществом предложенного алгоритма является отсутствие необходимости дополнительных преобразований изображения для локализации маркировки и сегментации символов. Для решения задачи локализации использовался алгоритм EAST. Для распознавания кода собственника и серийного номера контейнера были обучены модели нейронных сетей Faster R-CNN Resnet 50. В результате оценки точности работы алгоритма, были сделаны соответствующие выводы, а также сформулированы возможные варианты улучшения работы алгоритма.

Ключевые слова: машинное обучение, распознавание цифр, грузовые контейнеры, нейронная сеть, классификация изображений.

Введение

На текущий момент реализация системы распознавания маркировки грузового контейнера включает в себя следующие этапы:

1) Локализация маркировки на изображении

2) Сегментация символов маркировки

3) Классификация символов

В результате этого удается получить код собственника и серийный номер контейнера.

Исходя из анализа работ [1-3], видно, что для локализации и сегментации символов используются стандартные методы компьютерного зрения, а именно: бинаризация изображения, добавление размытия для получения более гладких границ символов, изменение яркости и контрастности.

Также исходя из анализа работ, видно, что наиболее слабым местом является алгоритм локализации и сегментации символов. Это связано с высокой вариативностью входных изображений для распознавания. В

результате различных вариантов установки камеры, а также различных погодных условий, яркость изображения может существенно изменяться. Также грузовые контейнеры не имеют стандартизированного цвета маркировки, в результате этого при локализации и сегментации на основе изменения яркости относительно фона могут возникнуть проблемы. Кроме того, грузовой контейнер подвержен воздействию внешних факторов, вследствие чего могут возникнуть дополнительные искажения маркировки грузового контейнера.

В результате возникает необходимость реализации алгоритма распознавания на основе глубоких нейронных сетей, для минимизации ошибки алгоритма классического компьютерного зрения с целью сегментации и локализации маркировки.

В данной статье рассматривается реализация алгоритма с использованием глубоких нейронных сетей. Основными целями работы являются проверка и оценка возможности использования только глубоких нейронных сетей для решения задачи распознавания маркировки грузового контейнера. Предложенный алгоритм позволяет снизить вероятность возникновения ошибки в результате этапа локализации и сегментации символов, что позволит достичь большей точности распознавания символов маркировки.

Также одной из особенностей предметной области является отсутствие наборов данных, содержащих грузовые контейнеры. Вследствие этого, для обучения и тестирования моделей необходимо собрать и разметить собственный набор данных.

Алгоритм локализации текста на изображении

Для локализации текста на изображении нужно использовать реализацию алгоритма EAST (Efficient and Accurate Scene Text) [4]. Ключевым компонентом алгоритма является сверточная нейронная сеть,

которая обучена для прогнозирования нахождения элементов с текстом на изображении.

В данном случае, основной целью реализации алгоритма автор ставит возможность получения области с текстом без дополнительных преобразований исходного изображения. Это позволяет получить результат без необходимости изменения яркости изображения.

В исходной реализации, результатом работы алгоритма являются следующие данные:

1) Координаты ограничивающего прямоугольника с текстом

2) Точность определения области с текстом

3) Угол поворота текста.

Архитектура нейронной сети EAST представлена на рисунке 1.

Рис. 1. - Архитектура нейронной сети EAST [4] В данном случае для использования алгоритма было принято решение не использовать данные для поворота текста. Это обусловлено тем, что маркировка грузового контейнера не имеет поворота относительно контейнера и в данном случае это позволит упростить локализацию маркировки грузового контейнера.

М Инженерный вестник Дона, №4 (2023) ivdon.ru/ru/magazine/arcliive/n4y2023/8340

Результат локализации текста на изображении контейнера представлен на рисунке 2. Исходя из него, видно, что модель успешно справляется с локализацией маркировки грузового контейнера на изображении.

Рис. 2. - Пример результата работы алгоритма EAST

Распознавание серийного номера грузового контейнера

Для реализации распознавания серийного номера грузового контейнера использовалась модель, полученная в результате работы [5]. Используемая автором модель Faster R-CNN Resnet 50 реализует алгоритмы сегментации и распознавания. В результате этого отсутствует необходимость реализовывать алгоритм сегментации на основе преобразования изображения.

Пример результата работы модели представлен на рисунке 3.

Рис. 3. - Пример результата распознавания серийного номера контейнера

Модель обучена на открытом наборе данных Street View House Numbers. Это связано с отсутствием данных с грузовыми контейнерами.

Результатом работы алгоритма являются следующие данные:

1) Координаты ограничивающего прямоугольника с цифрой

2) Точность распознавания цифры

3) Класс распознанной цифры

Распознавание кода собственника грузового контейнера

Для реализации модели распознавания кода собственника также использовался алгоритм Faster R-CNN, данный алгоритм имеет сходство с алгоритмом RetinaNet [6]. Для обучения модели использовался открытый набор данных IIIT 5K. Выбранный набор содержит 5000 изображений слов.

К преимуществам выбранного набора данных можно отнести высокую вариативность цветов с текстом и фоном, а также использование различных шрифтов. Это позволяет увеличить точность работы модели [7].

Пример данных для обучения представлен на рисунке 4.

AUGUST If НAN

Рис. 4. - Пример данных для обучения модели распознавания букв Обучение модели производилось с использованием языка программирования Python и фреймворка Tensorflow. В данном случае использование фреймворка позволяет производить процесс обучения с использованием графического процессора, что увеличивает скорость обучения [8]. График функции потерь в процесс обучения представлен на рисунке 5. Исходя из него, видно, что модель обучалась около 39 тыс. итераций, среднее значение функции потерь не превышало 10%. В результате этого, можно сделать вывод, что модель успешно обучена.

М Инженерный вестник Дона, №4 (2023) ivdon.ru/ru/magazine/arcliive/n4y2023/8340

0.000 5.0001! ТО-ООк 15-001: 20.00к г^.ООк ЗО.ООк 35.00к 40.00к

Рис. 5. - График функции потерь в процессе обучения модели Пример работы модели по распознаванию кода собственника представлен на рисунке 6.

Рис. 6. - Пример работы модели по распознаванию букв Исходя из рисунка 6, видно, что модель успешно распознает код собственника грузового контейнера.

Реализация алгоритма распознавания маркировки

На рисунке 7 представлена схема предложенного алгоритма распознавания маркировки грузового контейнера. Исходя из схемы, видно, что первым этапом работы является локализация текста на изображении. Критерием успешной локализации является определение двух областей с текстом на одном уровне, также области должны располагаться выше, относительно других найденных областей. Данный критерий обусловлен тем, что маркировка грузового контейнера располагается в правом верхнем углу. После успешной локализации областей, распознавание серийного номера и кода собственника контейнера производится в двух параллельных потоках.

и

Это обусловлено тем, что в результате локализации, имеются две отдельных области с кодом собственника и серийным номером контейнера, реализация параллельной обработки фрагментов позволяет существенно сократить время работы алгоритма [9].

Рис. 7. - Схема работы алгоритма распознавания маркировки Для программной реализации алгоритма распознавания использовался язык программирования Python и фреймворк Tensorflow. Обработка и распознавание производилось с использованием графического процессора. Для реализации распознавания кода собственника и серийного номера были реализованы две отдельные функции, вызов которых производился одновременно.

Результат работы алгоритма представлен на рисунке 8.

Рис. 8. - Результат работы алгоритма распознавания маркировки грузового

контейнера

Оценка точности работы алгоритма

Для оценки точности работы алгоритма, было собрано 115 изображений с грузовыми контейнерами, снятыми под прямым углом к камере. С целью корректной оценки, необходимо также определить точность работы алгоритма в случае поворота контейнера на изображении [10]. Для этого, на основе собранных данных, были сформированы дополнительные наборы с поворотами контейнеров на изображении и были выбраны следующие углы поворотов:

• 0 градусов

• 5-15 градусов

• 15-25 градусов

• 25-35 градусов

• 35-50 градусов

В данном случае, поворот осуществлялся на основе преобразования изображения. Шаг изменения обусловлен возможными вариантами установки камеры для реализации системы распознавания. Угол 50 градусов является максимальным критическим, в противном случае необходимо рассмотреть другое место для установки камеры.

Результат оценки точности работы алгоритма представлен в таблице 1. Исходя из нее, видно, что наибольшая точность распознавания обеспечивается в случае отсутствия поворота контейнера, с увеличением угла поворота точность распознавания понижается.

Таблица № 1

Точность работы алгоритма распознавания в зависимости от угла

поворота грузового контейнера

Угол поворота 0 градусов 5-15 градусов 15-25 градусов 25-35 градусов 35-50 градусов

Точность распознавания 96,73% 94,56% 92,38% 90,21% 88,5%

Заключение

В результате данной работы был реализован алгоритм распознавания маркировки грузового контейнера. Для реализации алгоритма были обучены модели для распознавания цифр и букв на изображении.

Главной целью работы - являлось разработка алгоритма распознавания с использованием глубоких нейронных сетей, что позволит не использовать алгоритмы компьютерного зрения для сегментации символов на изображении. В результате оценки точности работы алгоритма, можно сделать вывод, что алгоритм является работоспособным.

Для улучшения точности работы необходимо расширение обучающей выборки, а именно: увеличение обучающей выборки цифр и букв, путем добавления дополнительных данных с увеличенным углом поворота символа

и использование реальных данных для обучения моделей. Также, для улучшения работы алгоритма, можно рассмотреть применение весовых моделей изображения [11-13] с целью распознавания границ образов и сжатия данных.

В результате увеличения обучающей выборки, удастся повысить точность работы алгоритма при поворотах контейнера на изображении. Использование реальных данных позволит дополнительно увеличить точность распознавания.

Благодарности. Работа выполнена в рамках программы «Приоритет-2030», выполняемой КНИТУ-КАИ (молодые ученые).

Литература

1. Wu W., Liu Z., Chen M. An automated vision system for container-code recognition // Expert Systems with Applications. 2012. V. 39. URL: doi.org/10.1016/j.eswa.2011.08.143.

2. Yoon Y., Yoon H., Kim D. Automatic Container Code Recognition From Multiple Views // Etri Journal. 2016. V. 38. URL: doi.org/10.4218/etrij.16.0014.0069.

3. Chun-ming T., Peng C. Container Number Recognition Method Based on SSD_MobileNet and SVM // American Academic Scientific Research Journal for Engineering, Technology, and Sciences. 2020. V. 74. pp. 200-211.

4. Zhou X., Yau C., Wen H. EAST: An Efficient and Accurate Scene Text Detector // Computer Vision and Pattern Recognition, 2017. URL: arxiv.org/abs/1704.03155v2.

5. Макаров Р.А. Распознавание цифр маркировки грузового контейнера с использованием алгоритма Faster-RCNN // Инженерный вестник Дона, 2023, №3. URL: ivdon.ru/ru/magazine/archive/n3y2023/8276.

6. Евсина В.А., Широбокова С.Н., Жжонов В.А., Евсин В.А. Моделирование и реализация процесса распознавания знаков дорожного

движения при определении ситуации на дороге с помощью искусственных нейронных сетей // Инженерный вестник Дона, 2022, №4. URL: ivdon.ru/ru/magazine/archive/n4y2022/7587

7. Николенко С.И., Кадурин А.А., Архангельская Е.В. Глубокое обучение. Погружение в мир нейронных сетей. СПб.: Питер, 2018. 480 с.

8. Nigar N., Faisal H.M., Shahzad M.K. An Offline Image Auditing System for Legacy Meter Reading Systems in Developing Countries: A Machine Learning Approach // Journal of Electrical and Computer Engineering. 2022. V. 2022. URL: doi.org/10.1155/2022/4543530.

9. Бережнов Н.И., Сирота А.А. Универсальный алгоритм улучшения изображений с использованием глубоких нейронных сетей. // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2022. №2. С. 81-92.

10. Ren, Y.; Zhu, C.; Xiao, S. Small Object Detection in Optical Remote Sensing Images via Modified Faster R-CNN // Appl. Sci., 2018, №8. DOI: doi.org/10.3390/app8050813.

11. Гизатуллин З.М., Ляшева С.А., Морозов О.Г., Шлеймович М.П. Метод обнаружения контуров на основе весовой модели изображения. // Компьютерная оптика. 2022. Т.44. № 3. С. 393-400.

12. Ляшева С.А., Морозов О.Г., Шлеймович М.П. Анализ весовой модели для сжатия изображений на основе вейвлет-преобразования. // Прикаспийский журнал: управление и высокие технологии. 2020. № 3 (51). С. 9-22.

13. Lyasheva S., Morozov O., Shleymovich M. Analysis of energy characteristics for issuing areas of significance when compressing images in cyber-physical systems. // Studies in Systems, Decision and Control. 2021. T. 350. pp. 259-270.

М Инженерный вестник Дона, №4 (2023) ivdon.ru/ru/magazine/arcliive/n4y2023/8340

References

1. Wu W., Liu Z., Chen M. Expert Systems with Applications. 2012. V. 39. URL: doi.org/10.1016/j.eswa.2011.08.143.

2. Yoon Y., Yoon H., Kim D. Etri Journal. 2016. V. 38. URL: doi.org/10.4218/etrij.16.0014.0069.

3. Chun-ming T., Peng C. American Academic Scientific Research Journal for Engineering, Technology, and Sciences. 2020. V. 74. pp. 200-211.

4. Zhou X., Yau C., Wen H. Computer Vision and Pattern Recognition, 2017. URL: arxiv.org/abs/1704.03155v2.

5. R.A. Makarov Inzhenernyj vestnik Dona, 2023, №3. URL: ivdon.ru/ru/magazine/archive/n3y2023/8276.

6. V.A. Evsina, S.N. Shirobokova, V.A. Zhzhonov, V.A. Evsin Inzhenernyj vestnik Dona, 2022, №4. URL: ivdon.ru/ru/magazine/archive/n4y2022/7587.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Nikolenko S.I., Kadurin A.A., Arhangel'skaya E.V. Glubokoe obuchenie. Pogruzhenie v mir nejronnyh setej [Deep learning. Loading into the world of neural networks]. Saint Petersburg: Piter, 2018. 480 p.

8. Nigar N., Faisal H.M., Shahzad M.K. Journal of Electrical and Computer Engineering. 2022. V. 2022. URL: doi.org/10.1155/2022/4543530.

9. Berezhnov N.I., Sirota A.A. Vestnik Voronezskogo gosudarstvennogo universiteta. Seria Sistemnyj analiz i informacionnye tehnologii. 2022. №2. pp. 81 -92.

10. Ren, Y.; Zhu, C.; Xiao, S. Appl. Sci., 2018, №8. DOI: doi.org/10.3390/app8050813

11. Gizatullin Z.M., Lyasheva S.A., Morozov O.G., Shleymovich M.P. Komp'uternaa optika. 2022. T.44. № 3. pp. 393-400.

12. Lyasheva S.A., Morozov O.G., Shleymovich M.P. Prikaspijskij zurnal: upravlenie i vysokie tehnologii. 2020. № 3 (51). pp. 9-22.

13. Lyasheva S., Morozov O., Shleymovich M. Studies in Systems, Decision and Control. 2021. T. 350. pp. 259-270.

i Надоели баннеры? Вы всегда можете отключить рекламу.