Научная статья на тему 'Применение сверточных нейронных сетей для обнаружения плодов роботами для сбора урожая'

Применение сверточных нейронных сетей для обнаружения плодов роботами для сбора урожая Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
273
92
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
садоводство / робот для сбора урожая / машинное зрение / обработка изображений / распознавание образов / сверточные нейронные сети / оценка качества / horticulture / harvesting robot / machine vision / image processing / pattern recognition / convolution neural networks / quality assessment

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузнецова Анна Анатольевна, Малева Татьяна Вячеславовна, Соловьев Владимир Игоревич

Целью исследования является обзор применения глубоких сверточных нейронных сетей в системах машинного зрения роботов для уборки урожая плодовых культур. Рассмотрено применение для обнаружения плодов модели AlexNet и ее модификаций, модели R-CNN и ее модификаций, а также алгоритма YOLO и его модификаций. Проведено сравнение качества распознавания плодов различными алгоритмами. Показано, что алгоритм YOLO и его модификации, распознающие плоды за один проход, являются достаточно быстрыми и точными, позволяя обнаруживать порядка 90% фруктов на изображениях. Выделена наиболее важная метрика качества алгоритмов обнаружения плодов: доля необнаруженных фруктов, фактически определяющая недобор урожая роботом. Этот показатель является более важным, чем доля объектов, ошибочно принимаемых алгоритмом за фрукты (влияющая на скорость работы робота), и чем традиционно рассчитываемый специалистами по нейронным сетям показатель IoU (Intersection over Union). При этом о репрезентативности результатов оценки качества алгоритмов распознавания плодов возможно говорить лишь в том случае, если показатели качества рассчитываются на тестовом наборе изображений, содержащем хотя бы 1000 фруктов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кузнецова Анна Анатольевна, Малева Татьяна Вячеславовна, Соловьев Владимир Игоревич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN FRUIT DETECTION APPROACHES IN HARVESTING ROBOTS

The study aims to review the use of deep convolutional neural networks in machine vision systems of robots for harvesting fruit crops. Using the AlexNet model, the R-CNN model, the YOLO algorithm, and modifications of these models for fruit detection are considered. The quality of fruit detection by various algorithms is compared. It is shown that the YOLO algorithm and its modifications, recognizing the fruits in one pass, are quite fast and accurate, allowing to detect about 90% of the fruits in the images. The most important metric of the quality of fruit detection algorithms is highlighted: the proportion of undetected fruits, which actually determines the crop shortage by a robot. This indicator is more important than the percentage of objects that the algorithm mistakenly accepts for fruit (affecting the speed of the robot) and than the IoU (Intersection over Union) indicator traditionally calculated by neural network specialists. At the same time, it is possible to speak about the representativeness of the results of assessing the quality of fruit recognition algorithms only if the quality indicators are calculated on a test set of images containing at least 1000 fruits.

Текст научной работы на тему «Применение сверточных нейронных сетей для обнаружения плодов роботами для сбора урожая»

УДК 631.3:635

DOI: 10.24411/2587-6740-2020-15089

ПРИМЕНЕНИЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБНАРУЖЕНИЯ ПЛОДОВ РОБОТАМИ ДЛЯ СБОРА УРОЖАЯ

А.А. Кузнецова, Т.В. Малева, В.И. Соловьев

ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации», г. Москва, Россия

Целью исследования является обзор применения глубоких сверточных нейронных сетей в системах машинного зрения роботов для уборки урожая плодовых культур. Рассмотрено применение для обнаружения плодов модели AlexNet и ее модификаций, модели R-CNN и ее модификаций, а также алгоритма YOLO и его модификаций. Проведено сравнение качества распознавания плодов различными алгоритмами. Показано, что алгоритм YOLO и его модификации, распознающие плоды за один проход, являются достаточно быстрыми и точными, позволяя обнаруживать порядка 90%% фруктов на изображениях. Выделена наиболее важная метрика качества алгоритмов обнаружения плодов: доля необнаруженных фруктов, фактически определяющая недобор урожая роботом. Этот показатель является более важным, чем доля объектов, ошибочно принимаемых алгоритмом за фрукты (влияющая на скорость работы робота), и чем традиционно рассчитываемый специалистами по нейронным сетям показатель IoU (Intersection over Union). При этом о репрезентативности результатов оценки качества алгоритмов распознавания плодов возможно говорить лишь в том случае, если показатели качества рассчитываются на тестовом наборе изображений, содержащем хотя бы 1000 фруктов.

Ключевые слова: садоводство, робот для сбора урожая, машинное зрение, обработка изображений, распознавание образов, сверточные нейронные сети, оценка качества.

Р. Ли и Й. Сью (2020) для обнаружения киви и показала точность на уровне 90% [7]. Набор данных Hayward-Kiwi, на котором обучалась данная модель, опубликован авторами в 2019 г. в открытом доступе (https://github. com/Hayward-kiwi/Hayward-Kiwi-RGB-NIR-D).

Похожая нейронная сеть, построенная в 2018 г. Х. Мурешаном и М. Олтеаном [8], была обучена на собранном авторами наборе данных Fruits 360 (https//github.com/Horea94/Fruit-Images-Dataset), состоящем из 4000 фотографий реальных плодов. В результате на контрольном наборе изображений доля правильно распознанных плодов составила 96,3%.

Введение

За последние сто лет в сельском хозяйстве произошло несколько революций. Две основные из них, связанные с механизацией и использованием химических удобрений, привели к значительному повышению производительности труда. Тем не менее ручной труд продолжает оставаться основным компонентом затрат в сельском хозяйстве [1].

В садоводстве сбор плодов происходит вручную, доля ручного труда в общей стоимости выращиваемых овощей, фруктов, злаков достигает 40%. В результате стремления людей переселяться из сельской местности в городскую с каждым годом набирать сезонных работников для сбора урожая становится все сложнее. При этом недобор урожая фруктов доходит до 50% [2].

Развитие использования интеллектуальных роботов для сбора плодов теоретически может существенно повысить производительность труда, уменьшить долю тяжелых рутинных ручных операций по сбору урожая, снизить недобор урожая. Прототипы роботов для сбора фруктов начали разрабатываться еще в конце 1960-х годов. Но до сегодняшнего дня ни один прототип не перешел в фазу практического использования в агропредприятиях, поскольку себестоимость производства таких роботов достигает сотен тысяч долларов, при том, что скорость сбора плодов крайне низка, а доля несобранных плодов остается очень высокой.

В значительной степени низкая скорость сбора плодов и высокий процент фруктов, остающихся висеть на деревьях, связаны с недостаточным качеством систем машинного зрения, используемых в роботах для сбора яблок [3]. Однако в последнее время, с появлением свер-точных нейронных сетей, в системах машинного зрения, используемых в роботах для сбора плодов, происходит довольно существенное развитие.

Данная статья имеет целью провести подробный обзор глубоких сверточных нейронных сетей, используемых в системах машинного зрения роботов для уборки урожая, выявить наиболее перспективные алгоритмы, а также наиболее важные с точки зрения практического

использования характеристики качества работы этих алгоритмов.

Детерминированные методы, а также классические алгоритмы машинного обучения, применяемые в роботах для сбора плодов, подробно обсуждались в статье, опубликованной в предыдущем номере журнала.

Модель AlexNet и ее модификации

С 2012 г., с появлением глубоких сверточных нейронных сетей, в частности сети AlexNet, предложенной в работе А. Крижевского, И. Суц-кевера и Дж.Е. Хинтона [4], машинное зрение и его применение для обнаружения на фотографиях различных объектов, в том числе фруктов, получило импульс в развитии. Сеть AlexNet с серьезным отрывом заняла первое место на конкурсе ImageNet Large-Scale Visual Recognition Challenge — 2012 (доля правильно распознанных изображений составила 84,7% против 73,8% у второго места).

В 2015 г. К. Симонян и А. Зиссерман опубликовали статью [5], в которой предложили улучшенную версию модели AlexNet — сверточную нейронную сеть VGG16, показавшую 92,7% правильных ответов на конкурсе ImageNet Large-Scale Visual Recognition Challenge — 2014.

Х.А.М. Вильямс, М.Х. Джонс, М. Нежати, М.Дж. Сибрайт и Б.А. МакДональд (2018) построили робота для сбора киви и провели его полевые испытания [б]. Система машинного зрения в этом роботе, построенная на базе сети VGG16, оказалась способна обнаруживать 76% киви. При этом система машинного зрения также определяла фрукты, до которых манипулятор способен дотянуться (таких оказалось 55%). В полевых испытаниях робот собирал урожай в саду, в котором было 1456 плодов киви. Был собран 51% плодов, 24,6% были потеряны в процессе сбора, а 24,5% остались на деревьях. Сбор одного фрукта занимал в среднем около 5 с, основное время при этом занимала работа нейронной сети. Тем не менее, по-видимому, на сегодняшний день это один из самых быстрых роботов для сбора урожая.

Нейронная сеть VGG16 была использована Ж. Лью, Дж. Ву, Я. Маджидом, Я. Фенгом,

Модель R-CNN и ее модификации

Следующим продвижением в компьютерном зрении стала предложенная Р. Гиршиком, Дж. Донахью, Т. Дарреллом и Дж. Маликом (2014) сеть R-CNN [9] и ее модификации Fast R-CNN [10] (Р. Гиршик, 2015), Faster R-CNN [11] (С. Рен, К. Хе и Р. Гиршик, 2017) и Mask R-CNN [12] (К. Хе, Дж. Гки-оксари, П. Доллар и Р. Гиршик, 2017), которые дали возможность на изображении, содержащем большое количество объектов, многие из которых перекрывают друг друга, идентифицировать различные объекты, определять их границы и взаимное расположение.

Предложенная в 2016 г. К. Хе, К. Чжангом, С. Реном и Дж. Саном сеть ResNet [13], основанная на модели Faster R-CNN, заняла первое место на конкурсе ImageNet Large-Scale Visual Recognition Challenge — 2015, дав 96,4% правильных ответов.

Дж. Чжанг, Л. Хе, М. Карке, К. Чжанг, Кс. Чжанг и З. Гао (2018) с помощью сети R-CNN правильно обнаружили 86% яблоневых ветвей [14].

И. Са, З. Ге, Ф. Дайоуб, Б. Апкрофт, Т. Перез и К. МакКул (2016) использовали сеть Faster R-CNN для распознавания томатов [15], С. Бар-готи и Дж. Андервуд (2017) распознавали с помощью Faster R-CNN яблоки, манго и миндаль [16], М. Пиблз, С.Х. Лим, М. Дюк, Б. МакГиннесс (2019) обнаруживали спаржу с помощью сети Faster R-CNN [17]. В работах [16, 15] показатель F1 превысил 90%, авторы статьи [17] сообщили, что показатель F1 оказался равен 73%.

© Кузнецова А.А., Малева Т.В, Соловьев В.И., 2020 Международный сельскохозяйственный журнал, 2020, том 63, № 5 (377), с. 39-41.

SCIENTIFIC SUPPORT AND MANAGEMENT OF AGRARIAN AND INDUSTRIAL COMPLEX

С. Барготи и Дж. Андервуд в 2016 г. также опубликовали в свободном доступе набор данных ACFR-Multifruit-2016 (http//data.acfr.usyd.edu. au/ag/treecrops/2016-multifruit/), на котором обучалась их модель. Этот набор данных содержит 1120 фотографий крон яблок с плодами, 1964 фотографий крон манго и 620 фотографий крон миндаля.

И. Ю, К. Жанг, Л. Янг и Д. Жанг (2019) построили модель Mask R-CNN для обнаружения клубники, при этом показатель F1 превысил 90% [18].

У. Джиа, Ю. Тиан, Р. Люо, Ж. Чжанг, Ю. Чженг (2020) использовали Mask R-CNN для распознавания яблок, сообщив о том, что на контрольной выборке из 368 яблок на 120 изображениях алгоритм продемонстрировал 97%-ю точность и 95%-ю полноту [19].

Дж. Гене-Мола, Э. Грегорио, Ф.А. Чеин, Х. Гуэ-вара, Х. Ллоренс, Р. Санс-Кортиелла, А. Эскола и Х.Р. Роселл-Поло (2020) применили Mask R-CNN к анализу трехмерных изображений, полученных с помощью лидара, что позволило достигнуть 86,5%-й доли обнаруженных яблок. При этом сеть обучалась на наборе данных, состоящем из трехмерных изображений 434 яблок на 3 деревьях, а в контрольный набор данных вошло 1021 яблоко на 8 деревьях [20].

Х. Ган, У.С. Ли, В. Алканатис, Р. Эсхани и Дж.К. Шуэллер (2018) применили Faster R-CNN для распознавания зеленых цитрусовых [21], при этом достигнута точность обнаружения плодов на уровне 95,5% и полнота на уровне 90,4%.

Алгоритм YOLO

В 2016 г. был предложен новый алгоритм — YOLO (You Only Look Once — смотрим только один раз). До этого чтобы обнаружить на изображении объекты, модели классификации, основанные на нейронных сетях, применялись к одному изображению несколько раз — в нескольких различных областях и/или на нескольких масштабах. Подход YOLO предполагает однократное применение одной нейронной сети к целому изображению. Модель разделяет изображение на области и сразу определяет рамки объектов и вероятности отнесения к классам для каждого объекта [22]. Третья версия алгоритма YOLO опубликована в 2018 г. под названием YOLOv3 [23], последняя версия, YOLOv4, опубликована в апреле 2020 г. [24].

Данный алгоритм обучался на наборе данных COCO — Common Objects in Context (http://cocodataset.org/#overview), состоящем из 123287 изображений, на которых содержится 886284 объектов, каждый из которых отнесен к одному из 80 классов (66808 людей, 5756 рюкзаков, 4142 зонта, 2346 бананов, 1662 яблока, 1784 апельсина и др.)

Алгоритм YOLO является одним из самых эффективных по скорости, поэтому в работах по созданию прототипов роботов для сбора фруктов данный алгоритм очень быстро нашел применение.

Ю. Тиан, Г. Янг, Ж. Ванг, Х. Ванг, Е. Ли и З. Ли-анг (2019) применили для обнаружения яблок модификацию модели YOLO [25]. В данной модификации сеть сделали плотно связанной: каждый слой связали со всеми последующими слоями, как предлагает подход DenseNet [26]. Для оценки качества обнаружения фруктов полученным в результате алгоритмом YOLOv3-Dense использовалось среднее отношение пересечения истинного прямоугольника, описанного вокруг яблока, и предсказанного прямоугольника к среднему объединению данных прямоугольников (IoU — Intersection over Union). Этот по-

40 -

INTERNATIONAL AGRICULTURAL JOURNAL № 5 (37:

казатель оказался равным 89,6% при среднем времени распознавания одного яблока, равном 0,3 с. В той же статье применение модели Faster R-CNN показало значение IoU на уровне 87% при среднем времени обнаружения, равном 2,42 с.

Х. Канг и Ч. Чен (2020) предложили для обнаружения яблок модель нейронной сети, которая определяет объекты на изображениях с учетом их наложения за один проход — так же, как и YOLO. Показатель IoU в этой сети DaSNet-v2 оказался на уровне 86% [27].

Ш. Ван и С. Гудос (2020) сравнили три алгоритма распознавания апельсинов, яблок и манго на основе компьютерного зрения. Оказалось, что предложенная авторами модификация алгоритма Faster R-CNN обнаруживает примерно 90% плодов, что на 3-4% лучше, чем стандартный Faster R-CNN на том же наборе данных и примерно на том же уровне, что YOLOv3. Однако средняя скорость распознавания плода у YOLOv3 составила 40 мс против 58 мс у модифицированной сети Faster R-CNN и 240 мс у стандартной сети Faster R-CNN [28].

Следует отметить, что доля правильно распознанных плодов и доли ошибок первого и второго рода приводятся в абсолютном меньшинстве статей, а показатель IoU приводится лишь в единичных работах.

Заключение

Анализ современных глубоких сверточных нейронных сетей, используемых в прототипах роботов для уборки урожая плодовых культур, показал, что современные однопроходные алгоритмы типа YOLO способны обнаруживать высокую долю фруктов на изображениях — порядка 90%. При этом такие алгоритмы работают достаточно быстро, и на обнаружение одного плода уходит от нескольких миллисекунд до нескольких десятков миллисекунд, что является приемлемым для использования на практике.

Наиболее важной метрикой качества алгоритмов обнаружения плодов является не традиционно рассчитываемый специалистами по нейронным сетям показатель IoU (Intersection over Union), а доля необнаруженных фруктов, фактически определяющая недобор урожая роботом. Меньшую важность имеет доля объектов, ошибочно принимаемых алгоритмом за фрукты — этот показатель влияет на скорость работы робота.

При этом о репрезентативности результатов оценки качества алгоритмов распознавания плодов возможно говорить лишь в том случае, если показатели качества рассчитываются на тестовом наборе изображений, содержащем хотя бы 1000 фруктов.

Литература

1. Bechar, A. & Vigneault, C. (2016). Agricultura! robots for field operations: Concepts and components. Biosystems Engineering, vol. 149, pp. 94-111.

2. Ceres, R., Pons, J., Jiménez, A., Martín, J. & Calderón, L. (1998). Design and implementation of an aided fruit-harvesting robot (Agribot). Industrial Robot, vol. 25, no. 5, pp. 337-346.

3. Edan, Y., Han, S.F. & Kondo, N. (2009). Automation in agriculture. In: Springer Handbookof Automation. Berlin, Heidelberg, Germany: Springer, pp. 1095-1128.

4. Krizhevsky, A., Sutskever, I. & Hinton, G.E. (2012). ImageNet classification with deep convolutional neural networks. In: Proceedings of the Advances in Neural Information Processing Systems Conference — NIPS 2012, Harrahs and Har-veys, Lake Tahoe, Canada, 3-8 December 2012, pp. 1-9.

5. Simonyan, K. & Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. In: Proceedings of the International Conference on Learning Rep-

2020

resentations — ICLR 2015, San Diego, California, USA, 7-9 May 2015, pp. 1-14.

6. Williams, H.A.M.,Jones, M.H., Nejati, M., Seabright, MJ. & MacDonald, B.A. (2019). Robotic kiwifruit harvesting using machine vision, convolutional neural networks, and robotic arms. Biosystems Engineering, vol. 181, pp. 140-156.

7. Liu, Z., Wu, J., Fu, L., Majeed, Y., Feng, Y., Li, R. & Cui, Y. (2020). Improved kiwifruit detection using pre-trained VGG16 with RGB and NIR information fusion. IEEE Access, vol. 8, pp. 2327-2336.

8. Murejan, H. & Oltean, M. (2018). Fruit recognition from images using deep learning. Acta Universitatis Sapien-tiae. Informatica, vol. 10, no. 1, pp. 26-42.

9. Girshick, R., Donahue, J., Darrell, T. & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, Ohio, USA, 23-28 June 2014, pp. 580-587.

10. Girshick, R. (2015). Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision—ICCV

2015, Santiago, Chile, 7-13 December 2015, pp. 1440-1448.

11. Ren, S., He, K., Girshick, R. & Sun, J. (2017). Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149.

12. He, K., Gkioxari, G., Dollar, P. & Girshick, R. (2017). Mask R-CNN. In: Proceedings of the 2017 IEEE International Conference on Computer Vision — ICCV2017, Venice, Italy, 2229 October 2017, pp. 2980-2988.

13. He, K., X. Zhang, X., Ren, S. & Sun, J. (2016). Deep residual learning for image recognition. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition — CVPR2016, Las Vegas, Nevada, USA, 26 June — 1 July

2016, pp. 770-778.

14. Zhang, J., He, L., Karkee, M., Zhang, Q., Zhang, X. & Gao, Z. (2018). Branch detection for apple trees trained in fruiting wall architecture using depth features and Regions-Convolutional Neural Network (R-CNN). Computers and Electronics in Agriculture, vol. 155, pp. 386-393.

15. Sa, I., Ge, Z., Dayoub, F., Upcroft, B., Perez, T. & Mc-Cool, C. (2016). DeepFruits: A fruit detection system using deep neural networks. Sensors, vol. 16, no. 8 (Special Issue: Vision-Based Sensors in Field Robotics), pp. 1222-1244.

16. Bargoti, S. & Underwood, J. (2017). Deep fruit detection in orchards. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation — ICRA 2017, Singapore, 29 May — 3 June, 2017, pp. 1-8.

17. Peebles, M., Lim, S.H., Duke, M. & McGuinness, B.

(2019). Investigation of optimal network architecture for asparagus spear detection in robotic harvesting. IFAC Paper-sOnLine, vol. 52, no. 30, pp. 283-287.

18. Yu, Y., Zhang, K., Yang, L. & Zhang, D. (2019). Fruit detection for strawberry harvesting robot in non-structural environment based on Mask-RCNN. Computers and Electronics in Agriculture, vol. 163, Article 104846.

19. Jia, W., Tian, Y., Luo, R., Zhang, Zh. & Zheng, Y. (2020). Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot. Computers and Electronics in Agriculture, vol. 172, Article 105380.

20. Gene-Mola, J., Gregorio, E., Cheein, F.A., Guevara, J., Llorens, J., Sanz-Cortiella, R., Escola, A. & Rosell-Polo, J.R.

(2020). Fruit detection, yield prediction and canopy geometric characterization using LiDAR with forced air flow. Computers and Electronics in Agriculture, vol. 168, pp. 105-121.

21. Gan, H., Lee, W.S., Alchanatis, V., Ehsani, R. & Schuel-ler, R. (2018). Immature green citrus fruit detection using color and thermal images. Computers and Electronics in Agriculture, vol. 152, pp. 117-125.

22. Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2016, Las Vegas, Nevada, USA, 26 June — 1 July 2016, pp. 779-788.

23. Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2018). YOLOv3: An incremental improvement. In: Proceedings of the 31th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2018, Salt Lake City, Utah, USA, 1822 June 2018, pp. 1-6.

24. Bochkovskiy, A., Wang, Ch.-Y. & Liao, Y.-Y.M. (2020). YOLOv4: Optimal speed and accuracy of object detection. Available at: https://arxiv.org/abs/2004.10934 (accessed: 20 May 2020).

www.mshj.ru

25. Tian, Y.,Yang, G., Wang, Zh., Wang, H., Li, E. & Liang, Z. (2019). Apple detection during different growth stages in orchards using the improved YOLO-V3 model. Computers and Electronics in Agriculture, vol. 157, pp. 417-426.

26. Huang, G., Liu, Zh., van der Maaten, L. & Weinberger, K.Q. (2017). Densely connected convolutional networks.

In: Proceedings of the30th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2017, Honolulu, Hawaii, USA, 22-25 July 2017, pp. 1-9.

27. Kang, H. & Chen, C. (2020). Fruit detection, segmentation and 3D visualization of environments in apple

orchards. Computers and Electronics in Agriculture, vol. 171, Article 105302.

28. Wan, Sh. & Goudos, S. (2020). Faster R-CNN for multi-class fruit detection using a robotic vision system. Computer Networks, vol. 168, Article 107036.

Об авторах:

Кузнецова Анна Анатольевна, менеджер департамента анализа данных и машинного обучения, ОРСЮ: http://orcid.org/0000-0001-5934-2361, anakuznetsova@fa.ru Малева Татьяна Вячеславовна, кандидат физико-математических наук, доцент департамента анализа данных и машинного обучения, ОРСЮ: http://orcid.org/0000-0002-9282-1011, tvmaleva@fa.ru

Соловьев Владимир Игоревич, доктор экономических наук, профессор, руководитель департамента анализа данных и машинного обучения, ОРСЮ: http://orcid.org/0000-0003-0338-1227, vsoloviev@fa.ru

MODERN FRUIT DETECTION APPROACHES IN HARVESTING ROBOTS

A.A. Kuznetsova, T.V. Maleva, V.I. Soloviev

Financial university under the Government of the Russian Federation, Moscow, Russia

The study aims to review the use of deep convolutional neural networks in machine vision systems of robots for harvesting fruit crops. Using the AlexNet model, the R-CNN model, the YOLO algorithm, and modifications of these models for fruit detection are considered. The quality of fruit detection by various algorithms is compared. It is shown that the YOLO algorithm and its modifications, recognizing the fruits in one pass, are quite fast and accurate, allowing to detect about 90% of the fruits in the images. The most important metric of the quality of fruit detection algorithms is highlighted: the proportion of undetected fruits, which actually determines the crop shortage by a robot. This indicator is more important than the percentage of objects that the algorithm mistakenly accepts for fruit (affecting the speed of the robot) and than the IoU (Intersection over Union) indicator traditionally calculated by neural network specialists. At the same time, it is possible to speak about the representativeness of the results of assessing the quality of fruit recognition algorithms only if the quality indicators are calculated on a test set of images containing at least 1000 fruits.

Keywords: horticulture, harvesting robot, machine vision, image processing, pattern recognition, convolution neural networks, quality assessment.

References

1. Bechar, A. & Vigneault, C. (2016). Agricultural robots for field operations: Concepts and components. Biosystems Engineering, vol. 149, pp. 94-111.

2. Ceres, R., Pons, J., Jiménez, A., Martín, J. & Calderón, L. (1998). Design and implementation of an aided fruit-harvesting robot (Agribot). Industrial Robot, vol. 25, no. 5, pp. 337-346.

3. Edan, Y., Han, S.F. & Kondo, N. (2009). Automation in agriculture. In: Springer Handbook of Automation. Berlin, Heidelberg, Germany: Springer, pp. 1095-1128.

4. Krizhevsky, A., Sutskever, I. & Hinton, G.E. (2012). ImageNet classification with deep convolutional neural networks. In: Proceedings of the Advances in Neural Information Processing Systems Conference—NIPS 2012, Harrahs and Har-veys, Lake Tahoe, Canada, 3-8 December 2012, pp. 1-9.

5. Simonyan, K. & Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. In: Proceedings of the International Conference on Learning Representations — ICLR 2015, San Diego, California, USA, 7-9 May 2015, pp. 1-14.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Williams, H.A.M.,Jones, M.H., Nejati, M., Seabright, MJ. & MacDonald, B.A. (2019). Robotic kiwifruit harvesting using machine vision, convolutional neural networks, and robotic arms. Biosystems Engineering, vol. 181, pp. 140-156.

7. Liu, Z., Wu, J., Fu, L., Majeed, Y., Feng, Y., Li, R. & Cui, Y. (2020). Improved kiwifruit detection using pre-trained VGG16 with RGB and NIR information fusion. IEEE Access, vol. 8, pp. 2327-2336.

8. Murejan, H. & Oltean, M. (2018). Fruit recognition from images using deep learning. Acta Universitatis Sapien-tiae. Informatica, vol. 10, no. 1, pp. 26-42.

9. Girshick, R., Donahue, J., Darrell, T. & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, Ohio, USA, 23-28 June 2014, pp. 580-587.

10. Girshick, R. (2015). Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision—ICCV 2015, Santiago, Chile, 7-13 December 2015, pp. 1440-1448.

About the authors:

11. Ren, S., He, K., Girshick, R. & Sun, J. (2017). Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149.

12. He, K., Gkioxari, G., Dollar, P. & Girshick, R. (2017). Mask R-CNN. In: Proceedings of the 2017 IEEE International Conference on Computer Vision — ICCV2017, Venice, Italy, 2229 October 2017, pp. 2980-2988.

13. He, K., X. Zhang, X., Ren, S. & Sun, J. (2016). Deep residual learning for image recognition. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2016, Las Vegas, Nevada, USA, 26 June — 1 July 2016, pp. 770-778.

14. Zhang, J., He, L., Karkee, M., Zhang, Q., Zhang, X. & Gao, Z. (2018). Branch detection for apple trees trained in fruiting wall architecture using depth features and Regions-Convolutional Neural Network (R-CNN). Computers and Electronics in Agriculture, vol. 155, pp. 386-393.

15. Sa, I., Ge, Z., Dayoub, F., Upcroft, B., Perez, T. & Mc-Cool, C. (2016). DeepFruits: A fruit detection system using deep neural networks. Sensors, vol. 16, no. 8 (Special Issue: Vision-Based Sensors in Field Robotics), pp. 1222-1244.

16. Bargoti, S. & Underwood, J. (2017). Deep fruit detection in orchards. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation — ICRA 2017, Singapore, 29 May — 3 June, 2017, pp. 1-8.

17. Peebles, M., Lim, S.H., Duke, M. & McGuinness, B. (2019). Investigation of optimal network architecture for asparagus spear detection in robotic rarvesting. IFAC PapersOn-Line, vol. 52, no. 30, pp. 283-287.

18. Yu, Y., Zhang, K., Yang, L. & Zhang, D. (2019). Fruit detection for strawberry harvesting robot in non-structural environment based on Mask-RCNN. Computers and Electronics in Agriculture, vol. 163, Article 104846.

19. Jia, W., Tian, Y., Luo, R., Zhang, Zh. & Zheng, Y. (2020). Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot. Computers and Electronics in Agriculture, vol. 172, Article 105380.

20. Gene-Mola, J., Gregorio, E., Cheein, F.A., Guevara, J., Llorens, J., Sanz-Cortiella, R., Escola, A. & Rosell-Polo, J.R. (2020). Fruit detection, yield prediction and canopy geometric characterization using LiDAR with forced air flow. Computers and Electronics in Agriculture, vol. 168, pp. 105-121.

21. Gan, H., Lee, W.S., Alchanatis, V., Ehsani, R. & Schuel-ler, R. (2018). Immature green citrus fruit detection using color and thermal images. Computers and Electronics in Agriculture, vol. 152, pp. 117-125.

22. Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2016, Las Vegas, Nevada, USA, 26 June - 1 July 2016, pp. 779-788.

23. Redmon, J., Divvala, S., Girshick, R. & Farhadi, A.

(2018). YOLOv3: An incremental improvement. In: Proceedings of the 31th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2018, Salt Lake City, Utah, USA, 1822 June 2018, pp. 1-6.

24. Bochkovskiy, A., Wang, Ch.-Y. & Liao, Y.-Y.M. (2020). YOLOv4: Optimal speed and accuracy of object detection. Available at: https://arxiv.org/abs/2004.10934 (accessed: 20 May 2020).

25. Tian, Y., Yang, G., Wang, Zh., Wang, H., Li, E. & Liang, Z.

(2019). Apple detection during different growth stages in orchards using the improved YOLO-V3 model. Computers and Electronics in Agriculture, vol. 157, pp. 417-426.

26. Huang, G., Liu, Zh., van der Maaten, L. & Weinberger, K.Q. (2017). Densely connected convolutional networks. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition — CVPR 2017, Honolulu, Hawaii, USA, 22-25 July 2017, pp. 1-9.

27. Kang, H. & Chen, C. (2020). Fruit detection, segmentation and 3D visualization of environments in apple orchards. Computers and Electronics in Agriculture, vol. 171, Article 105302.

28. Wan, Sh. & Goudos, S. (2020). Faster R-CNN for multi-class fruit detection using a robotic vision system. Computer Networks, vol. 168, Article 107036.

Anna A. Kuznetsova, manager of the department of data analysis and machine learning, ORCID: http://orcid.org/0000-0001-5934-2361, anakuznetsova@fa.ru Tatiana V. Maleva, candidate of physical and mathematical sciences, associate professor of the department of data analysis and machine learning, ORCID: http://orcid.org/0000-0002-9282-1011, tvmaleva@fa.ru

Vladimir I. Soloviev, doctor of economic sciences, professor, head of the department of data analysis and machine learning, ORCID: http://orcid.org/0000-0003-0338-1227, vsoloviev@fa.ru

vsoloviev@fa.ru

- 41

МЕЖДУНАРОДНЫЙ СЕЛЬСКОХОЗЯЙСТВЕННЫЙ ЖУРНАЛ № 5 (377) / 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.