Научная статья на тему 'АЛГОРИТМ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ВИДЕОИЗОБРАЖЕНИЙ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОБНАРУЖЕНИЯ МАЛОРАЗМЕРНЫХ ОБРАЗОВ'

АЛГОРИТМ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ВИДЕОИЗОБРАЖЕНИЙ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОБНАРУЖЕНИЯ МАЛОРАЗМЕРНЫХ ОБРАЗОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАЗ / РАСПОЗНАВАНИЕ ОБРАЗОВ / СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / ОБРАБОТКА ВИДЕОИЗОБРАЖЕНИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковалев Владислав Владимирович, Сергеев Николай Евгеньевич

Распознавание определенных образов в видеоизображениях, снятой камерой, осуществляется с помощью методов обучения на основе сверточных нейронных сетей. Чем больше количество образов с множеством признаков и разнообразнее обучающая выборка видеоизображений, тем лучше сверточные нейронные сети извлекают признаки из последовательности видеоизображений, которые не были включены в обучающую выборку. Это является следствием повышения точности обнаружения визуальных образов на видеоизображениях, содержащих признаки целевых образов. Однако, существуют ограничения в улучшении характеристик обнаружения, когда размеры образа, который нужно обнаружить, значительно меньше, чем область фона или, когда образ описан малым количеством информации. Для решения проблем подобного рода авторами статьи разработан алгоритм пространственно-временного комплексирования информации о движении динамических образов. Алгоритм обрабатывает фиксированное количество видеоизображений в определенные моменты времени и извлекает новые независимые признаки движения динамических образов на основе пространственно-временной обработки видеоизображений. Далее объединяет новые локальные признаки движения с исходными признакам видеоизображения. Это позволяет добавить признак движения динамических образов с сохранением исходных признаков изображения, описывающих статичные образы. Области видеоизображения, характеризующие признак движения, отображаются «цветным» кластером. Применение предварительной обработки направлено на повышение точности обнаружения образов при условии наличия динамических визуальных образов на статичном заднем фоне. Если камера работает в режиме сканирования, то статичный задний фон можно обеспечить стабилизатором видеоизображений. Экспериментальным путем получены оценки интегральных критериев точности детекционных нейросетевых алгоритмов, показывающие увеличение в точности обнаружения визуальных образов с применением алгоритма пространственно-временного комплексирования информации о движении.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ковалев Владислав Владимирович, Сергеев Николай Евгеньевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM FOR PRE-PROCESSING VIDEO IMAGES TO INCREASE THE ACCURACY OF SMALL OBJECT DETECTION

Recognition of certain patterns in video images captured by a camera is carried out using training methods based on convolutional neural networks. The larger the number of images with multiple features and the more diverse the training sample of video images, the better the convolutional neural networks extract features from the sequence of video images that were not included in the training sample. This is a consequence of increasing the accuracy of detecting visual images on video images containing features of target images. However, there are limitations in improving the detection performance when the size of the image to be detected is much smaller than the background area, or when the image is described with little information. To solve problems of this kind, the authors of the article have developed an algorithm for the spatio-temporal integration of information about the movement of dynamic images. The algorithm processes a fixed number of video images at certain points in time and extracts new independent signs of motion of dynamic images based on space-time processing of video images. Further, it combines new local motion features with the original video image features. This allows you to add a motion feature of dynamic images while preserving the original image features that describe static images. Areas of the video image that characterize the motion feature are displayed in a «color» cluster. The use of pre-processing is aimed at improving the accuracy of pattern detection, provided there are dynamic visual images on a static background. If the camera is in scan mode, a static background can be provided with a video stabilizer. Experimentally, estimates of integral criteria for the accuracy of detection neural network algorithms have been obtained, showing an increase in the accuracy of detecting visual images using the algorithm for spatial-temporal integration of motion information.

Текст научной работы на тему «АЛГОРИТМ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ВИДЕОИЗОБРАЖЕНИЙ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОБНАРУЖЕНИЯ МАЛОРАЗМЕРНЫХ ОБРАЗОВ»

УДК 681.3.07 DOI 10.18522/2311-3103-2021-5-146-154

В.В. Ковалев, Н.Е. Сергеев

АЛГОРИТМ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ВИДЕОИЗОБРАЖЕНИЙ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОБНАРУЖЕНИЯ МАЛОРАЗМЕРНЫХ

ОБРАЗОВ

Распознавание определенных образов в видеоизображениях, снятой камерой, осуществляется с помощью методов обучения на основе сверточных нейронных сетей. Чем больше количество образов с множеством признаков и разнообразнее обучающая выборка видеоизображений, тем лучше сверточные нейронные сети извлекают признаки из последовательности видеоизображений, которые не были включены в обучающую выборку. Это является следствием повышения точности обнаружения визуальных образов на видеоизображениях, содержащих признаки целевых образов. Однако, существуют ограничения в улучшении характеристик обнаружения, когда размеры образа, который нужно обнаружить, значительно меньше, чем область фона или, когда образ описан малым количеством информации. Для решения проблем подобного рода авторами статьи разработан алгоритм пространственно-временного комплексирования информации о движении динамических образов. Алгоритм обрабатывает фиксированное количество видеоизображений в определенные моменты времени и извлекает новые независимые признаки движения динамических образов на основе пространственно-временной обработки видеоизображений. Далее объединяет новые локальные признаки движения с исходными признакам видеоизображения. Это позволяет добавить признак движения динамических образов с сохранением исходных признаков изображения, описывающих статичные образы. Области видеоизображения, характеризующие признак движения, отображаются «цветным» кластером. Применение предварительной обработки направлено на повышение точности обнаружения образов при условии наличия динамических визуальных образов на статичном заднем фоне. Если камера работает в режиме сканирования, то статичный задний фон можно обеспечить стабилизатором видеоизображений. Экспериментальным путем получены оценки интегральных критериев точности детекционных нейросетевых алгоритмов, показывающие увеличение в точности обнаружения визуальных образов с применением алгоритма пространственно-временного комплексирования информации о движении.

Образ; распознавание образов; сверточные нейронные сети; обработка видеоизображений.

V.V. Kovalev, N.E. Sergeev

ALGORITHM FOR PRE-PROCESSING VIDEO IMAGES TO INCREASE THE ACCURACY OF SMALL OBJECT DETECTION

Recognition of certain patterns in video images captured by a camera is carried out using training methods based on convolutional neural networks. The larger the number of images with multiple features and the more diverse the training sample of video images, the better the convolu-tional neural networks extract features from the sequence of video images that were not included in the training sample. This is a consequence of increasing the accuracy of detecting visual images on video images containing features of target images. However, there are limitations in improving the detection performance when the size of the image to be detected is much smaller than the background area, or when the image is described with little information. To solve problems of this kind, the authors of the article have developed an algorithm for the spatio-temporal integration of information about the movement of dynamic images. The algorithm processes a fixed number of video images at certain points in time and extracts new independent signs of motion of dynamic images based on space-time processing of video images. Further, it combines new local motion features with the original video image features. This allows you to add a motion feature of dynamic images while preserving the original image features that describe static images. Areas of the video image that characterize the motion feature are displayed in a «color» cluster. The use of pre-processing is aimed at improv-

ing the accuracy of pattern detection, provided there are dynamic visual images on a static background. If the camera is in scan mode, a static background can be provided with a video stabilizer. Experimentally, estimates of integral criteria for the accuracy of detection neural network algorithms have been obtained, showing an increase in the accuracy of detecting visual images using the algorithm for spatial-temporal integration of motion information.

Pattern; pattern recognition; convolutional neural networks; image processing.

Введение. Проблема обнаружения визуальных образов в потоке видеоизображений является актуальной в последнее время. Это связано с автоматизацией процессов, которые до сих пор выполняет человек. Нейросетевые алгоритмы, основанные на операции «свертка», показали лучшие результаты в решении этой проблемы [1]. Сверточные нейронные сети относятся к алгоритмам обучения с учителем, которые в процессе обучения подбирают весовые коэффициенты фильтров, минимизируя функцию ошибки методом обратного распространения. Это позволяет подобрать весовые коэффициенты фильтров так, чтобы количество извлеченной информации хватало для принятия верного решения. Чем больше количество извлеченной информации, описывающей конкретный образ, тем больше уверенность решения [2-4]. Однако, на практике не всегда получается извлечь достаточное количество информации для принятия верного решения. Для решения проблем подобного рода специалисты в области распознавания визуальных образов используют алгоритмы предварительной обработки видеоизображений. Большая часть алгоритмов направлена на фильтрацию шумов, фильтрацию аномальных выбросов, улучшения качества видеоизображений и т.д. При этом признаки целевых образов остаются без значительных изменений.

Для устранения данного недостатка авторами статьи разработан алгоритм предварительной обработки видеоизображений, комплексирующий локальный признак движения динамических образов с исходными признаками видеоизображения [5], на основе пространственно-временной обработки видеоизображений для статичного заднего фона, увеличивающий точность обнаружения, а также сравнение разработанного алгоритма на основе интегральной метрики точности обнаружения визуальных образов.

Описание алгоритма обнаружения образов. Авторами статьи предложен алгоритм обнаружения образов, который можно представить структурной схемой приведенной на рис. 1.

Рис. 1. Структурная схема алгоритма обнаружения образов

Последовательное во времени видеоизображение поступает на «Блок предварительной обработки видеоизображений», где происходит преобразование исходных признаков видеоизображения в новые более информативные [1, 6]. Каждое исходное видеоизображение является реальным видеоизображением в инфракрасном (ИК) оптическом диапазоне, которое можно описать трехмерной функцией fix,у, t0), где х и y - пространственные координаты видеоизображения в фиксированный момент времени ^ , а f называется интенсивностью, яркостью видеоизображения в точке с этими координатами, которая является признаком видео-

изображения [7]. ИК оптический диапазон является невидимым для человеческих глаз, потому что волновой диапазон ИК излучения находится выше видимого излучения. ИК излучение является тепловым излучением, а приборы, фиксирующие данный вид излучения, называются тепловизорами. Результат детектирования тепловизора является инфракрасная термограмма или тепловое видеоизображение, которое отображает картину распределения температурных полей.

В исследовании используется обучающая выборка в количестве 20000 видеоизображений, включающая в себя как статичные, так и динамичные образы интереса, принадлежащие к одной из трех категорий классов: легковой автомобиль, грузовой автомобиль и человек на статичном заднем фоне. Размеры образов в обучающей выборке видеоизображений являются мелкими по сравнению с разрешением видеоизображения, которое составляет 640 на 480 элементов яркости.

«Блок предварительной обработки видеоизображений» (рис. 1) включает в себя алгоритм обработки видеоизображений, способствующий увеличению точности обнаружения образов. Согласно авторам [6] методы и алгоритмы предварительной обработки можно разделить на три категории:

1. Уменьшение шума, порождаемого в процессе формирования, измерения и передачи образа. Для этого можно использовать методы пространственной фильтрации видеоизображений: усредняющий фильтр, фильтры, основанные на порядковых статистиках, адаптивные фильтры. Подробное описание приведенных методов фильтрации рассмотрено авторами [9, 10].

2. Глобальные преобразования, в процессе которых все входные значения используются для определения каждого выходного значения. Для осуществления этого рода преобразования часто используют различные разложения, результатом которых является набор коэффициентов [9, 10].

3. Локальные преобразования, в процессе которых лишь небольшое количество входных значений, характеризующихся временной или пространственной близостью, объединяются для «одновременной» обработки. Локальными преобразованиями видеоизображений могут являться: метод контурного анализа, сегментация, разделение по порогу, разностные методы и т.д. [10, 11].

Обработанное видеоизображение поступает на «Блок обнаружения образов», который представляет собой детекционную сверточную нейронную сеть (СНС) «You only look once v3» (YOLOv3). Подробное описание архитектуры сети YOLOv3 рассмотрено авторами статьи [12]. СНС являются современными алгоритмами, относящимися к парадигме алгоритмов второго подхода [8], которые подразумевают заданное разработчиком решающее правило. Требуется найти систему признаков, которая обеспечивала бы необходимое количество извлечения информации при минимальных вычислительных затратах. Главная особенность СНС заключается, в том, что до процесса обучения разработчиком задается архитектура сети со случайно инициализированными импульсными характеристиками (ядрами) фильтров, которые подбираются в процессе обучения, методом обратного распространения так, чтобы минимизировать функцию ошибки [13, 14].

Результатом решения СНС: есть список детекций, каждая из которых содержит класс обнаруженного образа, уверенность решения и область расположения образа на видеоизображении. После чего полученные детекции отображаются на исходном видеоизображении в «Блоке отображения образов». На рис. 2 приведен пример типового ИК видеоизображения на выходе «Блока отображения образов».

Далее рассмотрим алгоритм, который реализован в «Блоке предварительной обработки видеоизображений» (рис. 1).

Рис. 2. Типовое ИК видеоизображение на выходе «Блока отображения обнаруженных образов»

Алгоритм комплексирования информации о движении. Алгоритм преобразует существующие признаки видеоизображений в заданные моменты времени

, ^[1, 6] для выделения новых независимых признаков. Это достигается

на основе пространственно-временной обработки последовательности видеоизображений, которая выделяет локальные области на видеоизображении, характеризующие признак движения динамических образов. После чего полученные признаки комплексируются с исходными признаками видеоизображения, что позволяет сохранить признаки статичных образов. На рис. 3 приведена структурная схема, отображающая принцип работа алгоритма.

Рис. 3. Структурная схема алгоритма комплексирования информации о движении, где Т0 - временная задержка поступающего видеоизображения

На вход алгоритма поступает статичное видеоизображение, где последовательно накапливается в линии задержки с отводами, формирующими многомерную матрицу, тензор видеоизображений в «блоке формирования тензора» (рис. 4). Далее сформированный тензор проходит через цветоразностное контрастирование, которое включает в себя разность видеоизображений с логарифмическим преобразованием [15, 16]. Результатом данного преобразования являются кластеры движения, которые далее фильтруются по пороговому значению. Конечным результатом является текущее видеоизображение с «цветными» областями, характеризующими движение динамических образов. На рис. 4,а,б отображены типовые ИК видеоизображения на входе и выходе алгоритма, из которых видно, что подвижные образы выделяются цветным кластером.

а б

Рис. 4. Типовые ИК видеоизображения для алгоритма цветоразностного контрастирования: а - на входе, б - выходе

К особенностям данного алгоритма следует отнести работу со статичным потоком видеоизображений, а также формирование признака движения при наличии динамических образов на видеоизображении. Если тепловизионная камера работает в режиме сканирования, то статичность кадров можно обеспечить стабилизатором видеоизображений [17].

Сравнение и оценка точности разработанных алгоритмов. В данном разделе производится оценка двух детекционных моделей СНС YOLOv3, обученных на выборках видеоизображений: исходной и предварительно обработанной алгоритмом комплексирования информации о движении.

В качестве интегрального критерия точности обнаружения (локализации и классификации образа) используется метрика Mean Average Precision (mAP), которая рассчитывается как среднее между средней точностью обнаружения Average Precision (AP) каждого класса [18]. Следует отметить, что в состязательном соревновании алгоритмов обнаружения образов «COCO» [19] лучший алгоритм [20] на сегодняшний момент достигает точности 58,7 по критерию mAP.

Оценка точности обученных моделей производилась на генеральной выборке видеоизображений [21-23]. Генеральная выборка получена из обучающей выборки путем различных преобразований, минимизируя взаимосвязь признаков, описывающих видеоизображения. Список используемых преобразований включает: изменение значений динамического диапазона элементов яркости видеоизображения, изменение среднего значения элементов яркости видеоизображения, изменение разрешения видеоизображения. В табл. 1 отображены точности AP и mAP, рассчитанные на генеральной выборке видеоизображений для двух моделей СНС.

Таблица 1

Модель сверточной нейронной сети Average Precision Mean Average Precision

Легковой автомобиль Грузовой автомобиль Человек

Без предварительной обработки 0,58 0,49 0,26 0,44

Алгоритм комплексирования информации о движении 0,68 0,53 0,33 0,51

Сравнение интегральных оценок точности алгоритмов обнаружения показало, что лучшую точность 0,51 обеспечивает модель СНС, обученная на выборке видеоизображений, предварительно обработанной алгоритмом комплексирования информации о движении в то время, как модель СНС, обученная на исходной выборке видеоизображений, достигла 0.45 в точности обнаружения. Эти результаты показывают, что нейросетевой алгоритм обучился извлекать новые признаки образов, как следствие, повысил точности обнаружения.

На рис. 5,а,б приведены ИК видеоизображения с отображенными детекциями для моделей СНС, обученных на исходных видеоизображениях и видеоизображениях с комплексированием информации о движении. На видеоизображениях присутствует динамический образ класса «человек», однако, только модель СНС, обученная на видеоизображениях, обработанных алгоритмом комплексирования информации о движении, выдает верное решение (зеленый обрамляющий прямоугольник).

I _

а б

Рис. 5. Модель СНС, обученная на: а - исходных видеоизображениях, б - видеоизображениях, обработанных алгоритмом комплексирования информации о движении

Заключение. Обнаружение визуальных образов в последовательности видеоизображения является не тривиальной задачей в области компьютерного зрения. В ряде случаев это связано с количеством и качеством информации, описывающей образ интереса. Для устранения данного недостатка авторами статьи разработан алгоритм предварительной обработки видеоизображений, увеличивающий количество информации, описывающей динамические образы с сохранением исходных признаков видеоизображения как следствие увеличения точности алгоритмов обнаружения образов. Это достигается комплексированием информации о движении динамических образов с исходными признаками видеоизображения. Предварительная обработка видеоизображений основывается на пространственно-временном анализе видеоизображений в фиксированные моменты времени. При этом условия формирования нового признака движения основываются на последовательности видеоизображений со статичным фоном и присутствием динамических образов.

В качестве алгоритма обнаружения образов используется детекционная свер-точная нейронная сеть YOLOv3. Оценка влияния разработанного алгоритма на точность обнаружения визуальных образов осуществлялась сравнением интегральных метрик точности обнаружения образов детекционных моделей сверточных нейронных сетей, обученных на исходной выборке видеоизображений и обработанной алгоритмом комплексирования информации о движении. Сравнение обученных моделей осуществлялось на генеральной выборке видеоизображений по критерию Mean

Average Precision, которое показало, что модель, обученная на выборке видеоизображений, обработанных алгоритмом комплексирования информации о движении, позволяет достичь точности 0,51 в то время, как модель, обученная на исходной выборке, достигает точности 0,44. Эти результаты доказывают влияние предварительной обработки на повышение точности алгоритмов обнаружения образов. Дальнейшие исследования будут направлены на усовершенствование алгоритма комплекси-рования информации о движении, добавлением средств сопровождения подвижных образов, а также определением направления вектора движения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Aurelien G. Hands-On Machine Learning with Scikit-Leam and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. - O'Reilly Media, 2017. - 572 p.

2. Вапник В.Н. Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). - М.: Наука, 1979. - 416 с.

3. Сенин А.Г. Распознавание случайных сигналов. - Новосибирск: Наука, 1974. - 76 с.

4. Аркадьев А.Г., Браверман Э.М Обучение машины распознаванию образов. - М.: Изд-во «Наука», 1964.

5. ВасильевВ.И. Распознающие системы. - Киев: Наукова думка, 1983. - 422 с.

6. Верхаген К., Дейн Р., Грун Ф. и [др]. Распознавание образов. Состояние и перспективы.

- М.: Радио и связь, 1985. - 104 с.

7. Алпатов Б.А., Бабаян П.В., Балашов О.Е., Степашкин А.И. Методы автоматического обнаружения и сопровождения объектов. Обработка изображений и управление. - М.: Радиотехника, 2008. - 176 с.

8. Загоруйко Н.Г. Классификация задач распознавания образов // Вычислительные системы. - Вып. 22. - Новосибирск, 1966.

9. Гансалес Р., Вудс Р. Цифровая обработка изображений. - М.: Техносфера, 2005. - 1012 с.

10. Фисенко В., Фисенко Т. Компьютерная обработка и распознавание изображений: учеб. пособие. - СПб: СПбГУИТМО, 2008. - 192 с.

11. Redmon J., Farhadi A. YOLOv3: An Incremental Improvement // arXiv, 2018. Available at: https://arxiv.org/abs/1804.02767v1.

12. Brkic K. An overview of traffic sign detection methods // Zagreb: Department of Electronics, Microelectronics, Computer and Intelligent Systems, Faculty of Electrical Engineering and Computing, 2010. - 9 p.

13. Dumoulin V., Visin F. A guide to convolution arithmetic for deep learning // arXiv, 2018. Available at: https://arxiv.org/abs/1603.07285v2.

14. LeCun Y., Boser B., Denker J.S., Henderson D., Howard R.E., Hubbard W., Jackel L.D. Backpropagation applied to handwritten zip code recognition // Neural Computation. - 1989.

- 1:4. - P. 541-551.

15. Rashid M., Vinu T. A Background Foreground Competitive Model for Background Subtraction in Dynamic Background // Procedia Technology. - 2016. - Vol. 25. - P. 536-543.

16. Zivkovic Z. Improved adaptive gaussian mixture model for background subtraction // Proc. of the 17th Intern. Conf. on Pattern recognition. ICPR 2004. IEEE. - 2004. - Vol. 2. - P. 28-31.

17. Буряченко В. Методы стабилизации видеопоследовательностей сложных статических и динамических сцен в системах видеонаблюдения: автореф. дис. ... канд. тех. наук.

- Красноярс, 2014. - С. 23-24.

18. Van Etten A. Satellite imagery multiscale rapid detection with windowed networks // In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE. - P. 735-743).

19. Ze L., Yutong L., Yue C. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows // arXiv, 2021. Available at: https://arxiv.org/abs/2103.14030.

20. Tsung-Yi L., Michael M., Serge B. Microsoft COCO: Common Objects in Context // arXiv, 2015. Available at: https://arxiv.org/abs/1405.0312.

21. Shorten C., Khoshgoftaar T. A survey on Image Data Augmentation for Deep Learning // J Big Data. - 2019. - 6: 60.

22. The Effectiveness of Data Augmentation in Image Classification using Deep Learning.

23. Wang J., Perez L. The Effectiveness of Data Augmentation in Image Classification using Deep Learning // arXiv, 2017. Available at: https://arxiv.org/abs/1712.04621v1.

REFERENCES

1. Aurelien G. Hands-On Machine Learning with Scikit-Leam and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media, 2017, 572 p.

2. Vapnik V.N. CHervonenkis A.Ya. Teoriya raspoznavaniya obrazov (statisticheskie problemy obucheniya) [Pattern recognition theory (statistical learning problems)]. Moscow: Nauka, 1979, 416 p.

3. Senin A.G. Raspoznavanie sluchaynykh signalov [Recognition of random signals]. Novosibirsk: Nauka, 1974, 76 p.

4. Arkad'ev A.G., Braverman E.M. Obuchenie mashiny raspoznavaniyu obrazov [Learning a machine for pattern recognition]. Moscow: Izd-vo «Nauka», 1964.

5. Vasil'ev V.I. Raspoznayushchie sistemy [Recognition systems]. Kiev: Naukova dumka, 1983, 422 p.

6. Verkhagen K., Deyn R., Grun F. i [dr]. Raspoznavanie obrazov. Sostoyanie i perspektivy [Pattern Recognition. State and prospects]. Moscow: Radio i svyaz', 1985, 104 p.

7. Alpatov B.A., Babayan P.V., Balashov O.E., Stepashkin A.I. Metody avtomaticheskogo obnaruzheniya i soprovozhdeniya ob"ektov. Obrabotka izobrazheniy i upravlenie [Methods for automatic detection and tracking of objects. Image processing and control]. Moscow: Radiotekhnika, 2008, 176 p.

8. Zagoruyko N.G. Klassifikatsiya zadach raspoznavaniya obrazov [Classification of pattern recognition problems], Vychislitel'nye sistemy [Computing systems], Issue 22. Novosibirsk, 1966.

9. GansalesR., VudsR. Tsifrovaya obrabotka izobrazheniy [Digital image processing]. Moscow: Tekhnosfera, 2005, 1012 p.

10. Fisenko V., Fisenko T. Komp'yuternaya obrabotka i raspoznavanie izobrazheniy: ucheb. posobie [Computer processing and image recognition: textbook]. Saint Petersburg SPbGUITMO, 2008, 192 p.

11. Redmon J., Farhadi A. YOLOv3: An Incremental Improvement, arXiv, 2018. Available at: https://arxiv.org/abs/1804.02767v1.

12. Brkic K. An overview of traffic sign detection methods, Zagreb: Department of Electronics, Microelectronics, Computer and Intelligent Systems, Faculty of Electrical Engineering and Computing, 2010, 9 p.

13. Dumoulin V., Visin F. A guide to convolution arithmetic for deep learning, arXiv, 2018. Available at: https://arxiv.org/abs/1603.07285v2.

14. LeCun Y., Boser B., Denker J.S., Henderson D., Howard R.E., Hubbard W., Jackel L.D. Backpropagation applied to handwritten zip code recognition, Neural Computation, 1989, 1:4, pp. 541-551.

15. Rashid M., Vinu T. A Background Foreground Competitive Model for Background Subtraction in Dynamic Background, Procedia Technology, 2016, Vol. 25, pp. 536-543.

16. Zivkovic Z. Improved adaptive gaussian mixture model for background subtraction, Proc. of the 17th Intern. Conf. on Pattern recognition. ICPR 2004. IEEE, 2004, Vol. 2, pp. 28-31.

17. Buryachenko V.Metody stabilizatsii videoposledovatel'nostey slozhnykh staticheskikh i dinamicheskikh stsen v sistemakh videonablyudeniya: avtoref. dis. ... kand. tekh. nauk [Methods of stabilization of video sequences of complex static and dynamic scenes in video surveillance systems: abstract cand. of eng, sc, diss.]. Krasnoyars, 2014, pp. 23-24.

18. Van Etten A. Satellite imagery multiscale rapid detection with windowed networks, In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, pp. 735-743.

19. Ze L., Yutong L., Yue C. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, arXiv, 2021. Available at: https://arxiv.org/abs/2103.14030.

20. Tsung-Yi L., Michael M., Serge B. Microsoft COCO: Common Objects in Context. arXiv, 2015, Available at: https://arxiv.org/abs/1405.0312.

21. Shorten C., Khoshgoftaar T. A survey on Image Data Augmentation for Deep Learning, J Big Data, 2019, 6: 60.

22. The Effectiveness of Data Augmentation in Image Classification using Deep Learning.

23. Wang J., Perez L. The Effectiveness of Data Augmentation in Image Classification using Deep Learning, arXiv, 2017. Available at: https://arxiv.org/abs/1712.04621v1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Статью рекомендовал к опубликованию д.т.н. А.В. Боженюк.

Ковалев Владислав Владимирович - Южный федеральный университет; e-mail: [email protected]; г. Таганрог, Россия; тел.: +79525864492; кафедра вычислительной техники; аспирант.

Сергеев Николай Евгеньевич - e-mail: [email protected]; тел.: +79281742585; кафедра вычислительной техники; д.т.н.; профессор.

Kovalev Vladislav Vladimirovich - Southern Federal University; e-mail: [email protected]; Taganrog, Russia; phone: +79525864492; the department of computer science; post-graduate student.

Sergeev Nikolay Evgenievich - e-mail: [email protected]; phone: +79281742585; the department of computer science; dr. of eng. sc.; professor.

УДК 004.472.43 DOI 10.18522/2311-3103-2021-5-154-168

С.А. Дудко, И.И. Левин

МЕТОДЫ ПРЕОБРАЗОВАНИЯ ВЫЧИСЛИТЕЛЬНЫХ СТРУКТУР С ОБРАТНЫМИ СВЯЗЯМИ ДЛЯ ЭФФЕКТИВНОЙ РЕАЛИЗАЦИИ НА РЕКОНФИГУРИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ

В настоящее время для решения задач на реконфигурируемых вычислительных системах используются различные системы автоматизированного проектирования. В большинстве случаев они состоят из двух основных компонент: компилятора (транслятора), переводящего текст исходной программы в графовую информационно-вычислительную структуру, и синтезатора, размещающего ее в архитектуре программируемых логических интегральных схем. Существующие синтезаторы, как правило, обрабатывают информационно-вычислительную структуру без комплексной оптимизации. Поэтому полученное решение прикладной задачи может содержать неэффективные фрагменты, снижающие быстродействие прикладной программы. Наиболее распространёнными примерами неэффективных вычислительных структур являются фрагменты, реализующие рекурсивные выражения, так как они снижают быстродействие прикладной программы. В статье предложены методы преобразования рекурсивных выражений (фрагментов с обратными связями), которые позволяют в автоматическом режиме сократить интервал обработки данных при решении прикладных задач на рекон-фигурируемых вычислительных системах. В основе методов лежат информационно-эквивалентные преобразования информационно-вычислительной структуры исходной задачи. Для каждого преобразования определен набор правил, которым должны удовлетворять операционные вершины вычислительной структуры. Применение правил позволяет выполнять эквивалентные преобразования не только над простыми структурами данных, такими как числа, но также и над более сложными структурами (матрицами, векторами, тензорами и т.п.). По результатам моделирования разработанные методы преобразования информационно-вычислительных структур с обратными связями позволяют сократить время решения прикладных задач примерно в 2-5 раз, за счет сокращения интервала обработки данных. Предложенные методы реализованы в прототипе оптимизирующего синтезатора информационно-вычислительных структур.

Информационно-эквивалентные преобразования; оптимизирующий синтезатор; ре-конфигурируемые вычислительные системы.

S.A. Dudko, I.I. Levin

TRANSFORMATION METHODS OF COMPUTING STRUCTURE WITH FEEDBACKS FOR EFFECTIVE IMPLEMENTATION ON RECONFIGURABLE COMPUTING SYSTEMS

At present, various computer-aided (CAD) systems are used for solving tasks on reconfigurable computing systems (RCS). In most cases, they consist of two main parts: a compiler (translator), which translates the source code of a program into a graph-like information and computing structure, and a synthesizer, which maps it on an FPGA architecture. As a rule, existing synthesiz-

i Надоели баннеры? Вы всегда можете отключить рекламу.