АЛГОРИТМ ОБНАРУЖЕНИЯ ОБЪЕКТОВ ДЛЯ ОПТИКО-ЭЛЕКТРОННЫХ СИСТЕМ С ОБУЧЕНИЕМ В РЕАЛЬНОМ ВРЕМЕНИ

Бондаренко Владимир Александрович; Гессен Павел Алексеевич; Павлова Валерия Анатольевна; Созинова Мария Владимировна; Тупиков Владимир Алексеевич

19. Sokolov S.M., Beklemishev N.D., Boguslavsky A.A. Coordinated use of visual odometry and landmarks for navigation of mobile ground vehicles, ISPRS International Workshop Photo-grammetric and computer vision techniques for video Surveillance, Biometrics and Biomedi-cine Moscow, April 26-28, 2021. (в печати).

20. Sprunk C. Planning Motion Trajectories for Mobile Robots Using Splines, Faculty of Applied Sciences Department of Computer Science Autonomous Intelligent Systems, 2008. Available at: http://www2.informatik.uni-freiburg.de/~lau/students/Sprunk2008.pdf.

21. Sokolov S.M., Boguslavskiy A.A., Trifonov O.V. Intellektual'nye moduli sistemy tekhnicheskogo zreniya dlya operativnogo opredeleniya sostoyaniya i kontrolya ob"ektov infrastruktury zheleznoy dorogi [Intelligent modules of the technical vision system for rapid determination of the state and control of railway infrastructure facilities], Tr. 2-y mezhdunarodnoy nauchno-prakticheskoy konferentsii «Intellektual'nye sistemy na transporte» (IntellectTrans-2012) 28-31 marta 2012 g. [Proceedings of the 2nd International scientific and practical conference "Intelligent Systems in Transport" (IntellectTrans-2012) 28-31 March 2012-St. Petersburg, 2012]. Saint Petersburg, 2012, pp. 346-355.

22. Sokolov S.M., Boguslavsky A.A., Vasilyev A.I., Trifonov O.V. Development of software and hardware of entry-level vision systems for navigation tasks and measuring, Advances in Intelligent Systems and Computing (Springer), 2013, Vol. 208 AISC, pp. 463-476.

23. SBG Systems. Ellipse Series, 2021. Available at: https://www.sbg-systems.com/products/ellipse-series/.

Статью рекомендовал к опубликованию д.т.н., профессор В.Х. Пшихопов.

Соколов Сергей Михайлович - Федеральное государственное учреждение «Федеральный исследовательский центр Институт прикладной математики им. М.В. Келдыша Российской академии наук» (ИПМ им. М.В. Келдыша РАН); e-mail: sokolsm@keldysh.ru; Москва, Россия; тел.: 89161220113; д.ф.-м.н.; профессор; г.н.с..

Беклемишев Николай Дмитриевич - e-mail: nbekl@mail.ru; тел.: +74992207994; к.ф.-м.н.; с.н.с.

Богуславский Андрей Александрович - e-mail: anbg74@mail.ru; тел.: 89167379448; д.ф.-м.н.; в.н.с.

Sokolov Sergey Mikhailovich - Keldysh Institute of Applied Mathematics Russian Academy of Sciences; e-mail: sokolsm@keldysh.ru; Moscow, Russia; phone: +74992207994; dr. of phys. and math. sc.; professor; chief researcher.

Beklemishev Nikolay Dmitrievich - e-mail: kap56@mail.ru; phone: +74992207994; cand. of phys. and math. sc.; senior researcher.

Boguslavsky Andrey Alexandrovich - e-mail: anbg74@mail.ru; phone: +79167379448; dr. of phys. and math. sc.; leading researcher.

УДК 004.93'12 DOI 10.18522/2311-3103-2021-1-247-258

В.А. Бондаренко, П.А. Гессен, В.А. Павлова, М.В. Созинова, В.А. Тупиков

АЛГОРИТМ ОБНАРУЖЕНИЯ ОБЪЕКТОВ ДЛЯ ОПТИКО-ЭЛЕКТРОННЫХ СИСТЕМ С ОБУЧЕНИЕМ В РЕАЛЬНОМ

ВРЕМЕНИ

В целях создания нового алгоритма автоматического обнаружения объектов с обучением в реальном времени произведено исследование мирового научного задела в области автоматического сопровождения общего назначения с возможностью распознавания объекта слежения с потенциалом применения во встраиваемых вычислительных системах оптико-электронных систем перспективных робототехнических комплексов. На основе проведенных исследований отобраны и протестированы методы и подходы, которые позволяют с наибольшей точно-

стью, при сохранении высокой вычислительной эффективности, обеспечивать обучение классификаторов на лету (online learning) без априорного знания о типе объекта слежения и обеспечивать последующее обнаружение исходного объекта в случае его кратковременной потери. В число таких способов входит гистограмма направленных градиентов - дескриптор ключевых признаков, основывающийся на анализе распределения градиентов яркости изображения объекта. Его использование позволяет сократить количество используемой информации без потери ключевых данных об объекте и увеличить скорость обработки изображений. В статье обоснован выбор одного из алгоритмов классификации в режиме реального времени, позволяющего решить задачу бинарной классификации - метода опорных векторов. В виду высокой скорости обработки данных и необходимости небольшого количества исходных обучающих данных для построения разделяющей гиперплоскости, на основе которой и происходит классификация объектов, данный метод выбран как наиболее подходящий для решения поставленной задачи. Для осуществления online-обучения была выбрана модификация метода опорных векторов, реализующая стохастический градиентный спуск на каждом шаге работы алгоритма -Pegasos. Авторами исследования проведена разработка и полунатурное моделирование выбранного алгоритма, проведена оценка эффективности его работы в задачах обнаружения объекта интереса в режиме реального времени с предварительным online-обучением в процессе слежения за объектом. Разработанный алгоритм показал высокую эффективность при решении поставленной задачи и планируется к внедрению в составе специального программного обеспечения оптико-электронных систем перспективных робототехнических комплексов. В заключении представлены предложения по дальнейшему повышению точности и вероятности обнаружения объекта интереса разработанным алгоритмом, а также по повышению его производительности путем оптимизации вычислений.

Автоматическое обнаружение; обучение на лету; метод опорных векторов; гистограмма направленных градиентов; автоматическое сопровождение.

V.A. Bondarenko, P.A. Gessen, V.A. Pavlova, M.V. Sozinova, V.A. Tupikov

OBJECT DETECTION ALGORITHM FOR OPTOELECTRONIC SYSTEMS WITH ONLINE LEARNING

In order to create a new algorithm for automatic detection of objects with real-time training, a study of the world scientific groundwork in the field of general-purpose automatic tracking with the ability to recognize a tracked object with the potential for application in embedded computing systems of optoelectronic systems of promising robotic complexes was carried out. Based on the conducted research, methods and approaches were selected and tested that allow, with the greatest accuracy, while maintaining high computational efficiency, to provide training of classifiers on the fly (online learning) without a priori knowledge of the type of tracking object and to ensure the subsequent detection of the original object in the event of its short-term loss. Such methods include a histogram of oriented gradients - a descriptor of key features based on the analysis of the distribution of the brightness gradients of the object image. Its use allows you to reduce the amount of information used without losing key data about the object and to increase the speed of image processing. The article substantiates the choice of one of the real-time classification algorithms that allows solving the problem of binary classification - the support vector machine. Due to the high speed of data processing and the needfor a small amount of initial training data to construct a separating hyperplane, on the basis of which the classification of objects is done, this method is chosen as the most suitable for solving the problem. For online training, a modification of the support vector machine method was chosen, which implements stochastic gradient descent at each step of the algorithm - Pegasos. The authors of the study carried out the development and semi-natural modeling of the selected algorithm, evaluated the effectiveness of its work in the tasks of detecting an object of interest in real time with preliminary online training in the process of tracking the object. The developed algorithm has shown high efficiency in solving the problem and is planned to be implemented as part of a special software for optoelectronic systems of advanced robotic systems. In the conclusion, proposals are presented to further improve the accuracy and probability of the object detection by the developed algorithm, as well as for improving its performance by optimizing calculations.

Automatic detection; online learning; support vector machine; histogram of oriented gradients; automatic tracking.

Введение. При разработке современных робототехнических комплексов часто возникает задача обнаружения недетерминированных объектов в реальном времени, например, в процессе автоматического сопровождения. В общедоступной научной литературе представлено много вариантов решения поставленной задачи, однако данные решения не могут считаться удовлетворительными по совокупности критериев, таких как вычислительная эффективность, высокая точность, наличие возможности обучения на лету (online learning), которые предъявляются в качестве ключевых требований для представленной работы. Данные критерии были продиктованы анализом тенденций в разработке новых алгоритмов, которые сводятся к использованию машинного обучения для задач обнаружения, а также спецификой предполагаемых областей применения алгоритма.

Постановка задачи. Пусть имеется некоторый алгоритм автоматического сопровождения объектов по их изображениям, реализованный в рамках встраиваемого вычислителя оптико-электронной системы наблюдения. Первоначальный захват объекта на сопровождение осуществляется оператором, либо иным алгоритмом обработки изображений. В процессе сопровождения алгоритм формирует описывающий объект прямоугольник К^опр, при этом наблюдаемый объект может выходить из зоны наблюдения оптической системы, или перекрываться помехой, а изображение сопровождаемого объекта может подвергаться различным ракурсным и масштабным искажениям.

Требуется разработать такой алгоритм обработки изображений, который мог бы в процессе слежения накапливать информацию о сопровождаемом объекте имея на входе Ясопр (например, текстурные и/или контурные признаки, однозначно характеризующие объект интереса), а в случае потери объекта наблюдения, или при появлении помехи - осуществлять обнаружение объекта интереса основываясь на накопленной ранее информации и формируя на выходе алгоритма предсказанный описывающий прямоугольник Кпредск. Тем самым должна повышаться вероятность корректного дальнейшего сопровождения. Таким образом, требуется разработать алгоритм автоматического обнаружения объектов с обучением в реальном времени, при этом вычислительные затраты на алгоритм должны быть приемлемыми для осуществления его работы в реальном масштабе времени на базе бортовых вычислителей оптико-электронных систем перспективных робото-технических комплексов.

Обзор существующих методов. Значительное развитие при решении подобных задач в последнее время получили подходы с применением искусственных нейронных сетей, однако их применение в реальном времени затруднено, так как они, как правило, требуют априорного знания об объекте (обучающей выборки) и/или имеют высокую вычислительную сложность при использовании, например, требуют использования графического ускорителя уровня GeForce GTX Titan X для работы в реальном времени, что невозможно при разработке перспективных отечественных оптико-электронных систем [1-3].

При анализе существующих работ было принято решение ориентироваться на одни из наиболее эффективных по предъявляемым требованиям алгоритмов: TLD [4] и KCF [5].

Алгоритм TLD (Tracking-Learning-Detection) базируется на методе Сопровождение-Обучение-Обнаружение. Данный алгоритм не только производит слежение за объектом на каждом кадре, но и осуществляет обнаружение всех локальных проявлений выбранной цели, в процессе чего строит модель объекта, который отслеживается. Добавление модуля обучения обусловлено необходимостью увеличить точность работы алгоритма путем изменения представления об актуальной модели в процессе ее отслеживания. Недостатком данного алгоритма является то,

что обнаружение производится по всему изображению путем использования смещений окон разных масштабов. Хотя для обучения и используются достаточно быстрые вейвлеты Хаара, вычислительная сложность все равно слишком велика, что не позволяет использовать данный алгоритм в системах реального времени.

Алгоритм KCF (Kemelized Correlation Filter) является представителем группы корреляционных методов. Он использует гистограмму направленных градиентов для обучения детектора и свойства циркулянтной матрицы (circulant matrix) [6] вместе с дискретным преобразованием Фурье для повышения скорости обработки изображения. Данный метод достигает высоких скоростей обработки изображения, что положительно выделяет его на фоне остальных конкурентов, однако обладает достаточно низкой вероятностью нахождения объекта после его потери, может перестать отслеживать нужный объект при его плавном перекрытии помехой (слабое разделение объект/не объект) и имеет недостатки, свойственные многим алгоритмам с корреляционным подходом: достаточно резкое изменение масштаба или положения отслеживаемого объекта (или исчезновение из кадра и последующее появление) ведет к его потере.

На основе анализа данных алгоритмов, принимая во внимание их сильные и слабые стороны, авторами был разработан новый алгоритм обнаружения объектов, основанный на online-обучении SVM-классификатора, позволяющий осуществлять повторное обнаружение в случае потери отслеживаемого объекта. Алгоритм разработан таким образом, чтобы иметь возможность применяться во встраиваемых системах в режиме реального времени, без предварительного анализа данных, и совмещать скорость работы, присущую KCF, с точностью, свойственной TLD.

Прежде чем приступать к детальному разбору логики разработанного алгоритма, рассмотрим и обоснуем необходимость методов и алгоритмов, используемых в предлагаемом решении.

Гистограмма направленных градиентов (HOG). Перед выполнением любой задачи, связанной с обработкой изображений, часто необходимо предварительно обработать изображения, чтобы сделать их более подходящими для применения в качестве входных данных для других алгоритмов. Использовать значения яркостей пикселей зачастую неэффективно, и большинство алгоритмов обработки изображений, как правило, извлекают из входных данных наиболее значимую для дальнейшего применения информацию - ключевые признаки изображения или его дескриптор, позволяющие определить объект интереса минимальным количеством данных, сокращая тем самым размерность входных данных и облегчая дальнейшую их обработку.

В дескрипторе ключевых признаков HOG [7] в качестве ключевых признаков используются распределения (гистограммы) направлений и магнитуд градиентов (ориентированные градиенты). Градиенты изображения полезны, так как их значение велико на краях и углах какой-либо фигуры (областях резкого изменения интенсивности), а именно эти области несут в себе ключевую информацию о форме объекта, в отличие от плоских (монотонных) регионов.

Опишем алгоритм преобразования изображения в HOG-дескриптор:

1. Масштабирование выбранной части кадра к единому, заранее определенному размеру.

2. Вычисление градиента изображения по осям x и y (рис. 1).

3. Составление гистограммы градиентов в ячейках 8x8 (рис. 1).

4. Нормализация гистограмм в блоках по 4 гистограммы (ячейки).

5. Финальное вычисление вектора ключевых признаков.

Рис. 1. Формирование гистограммы ориентированных градиентов

Таким образом на выходе, после преобразования из исходных значений яркости получается вектор численных значений, описывающий изображение.

HOG-дескриптор является отличным методом описания изображения ввиду своей высокой дискриминативности, скорости работы, малого количества хранимой информации, нашедшим признание среди исследователей в различных областях применения [8-10], а также имеет широкие возможности для оптимизации и ускорения своей работы за счет применения векторных команд [11] и других методов [12]. К недостаткам данного метода можно отнести отсутствие поворотной инвариантности в финальном виде (на стадии составления гистограмм возможен ограниченный поворот на фиксированный угол) и необходимость этапа предварительной обработки изображения, который оказывает сильное влияние на качество работы алгоритма, если исходные изображения имеют сильные различия в масштабе. В нашей реализации этап предварительной обработки сводится к масштабированию изображения к фиксированной величине, определяемой в зависимости от исходного размера выделенной части изображения, и происходит вычислительно быстро.

Классификаторы режима реального времени. Режим реального времени означает такой режим обработки данных, при котором скорость взаимодействия системы со внешними процессами соизмерима со скоростью протекания этих процессов. Для решения задачи классификации (построение алгоритма способного по известным соотношениям объект - его принадлежность распределить ранее неизвестные объекты по известным группам принадлежностей) в таких условиях, ис-

пользуют алгоритмы машинного обучения, подразделом которых являются и нейронные сети. Применение искусственных нейронных сетей является более точным и прогрессивным подходом, однако он страдает от двух главных недостатков: необходимость обработки заранее предоставленных (априорных) данных и достаточно низкая скорость работы ввиду высокой вычислительной сложности обучения. И если первый недостаток еще можно обойти, то второй на данный момент не позволяет использовать нейронные сети для обучения и обнаружения в реальном времени во встраиваемых системах. Поэтому для поставленной задачи выбран подход машинного обучения без использования нейронных сетей.

Для решения задачи бинарной классификации (распределения объектов на два множества: объект - не объект) [13] был выбран один из наиболее успешных классических методов машинного обучения - метод опорных векторов (англ. SVM - Support Vector Machine) [14-16].

SVM. Основная идея метода состоит в разделении векторов признаков обучающей выборки некоторой гиперплоскостью оптимальным образом. Мерой оптимальности в данном случае выступает расстояние между разделяющей гиперплоскостью и объектами разделяемых классов: чем оно больше, тем меньше будет средняя ошибка классификатора.

Главным достоинством такого метода, по сравнению с другими известными решениями, является необходимость достаточно малого объема исходных данных для получения высокой точности предсказания результата, а также высокая скорость работы - это один из быстрейших методов нахождения решающей функции, что имеет ключевое значение для задач обработки в режиме реального времени. Еще одним достоинством является возможность регулировки параметра, позволяющего избежать переобучения - ситуации, при которой классификатор чересчур точно определяет модель объекта и становится восприимчивым даже к самым небольшим ее изменениям. К недостаткам данного метода можно отнести чувствительность к выбросам в исходных данных (шумам) и необходимости стандартизации входных данных. Решение первого недостатка возлагается на алгоритм слежения за объектом. Проблема стандартизации решается при помощи применения HOG-дескриптора, описанного выше.

Методы машинного обучения, в которых данные поступают последовательно и используются для улучшения предсказываемого результата на каждом шаге, называются online-методы обучения (online learning) [17]. Основным их отличием от обычных является возможность обработки исходных данных (обучения), поступающих последовательно и поэтапно, то есть без необходимости наличия базы исходных данных об объекте обучения. Один из таких методов, реализующий метод опорных векторов в режиме online - Pegasos (Primal Estimated sub-GrAdient SOlver for SVM) [18]. Основная идея метода заключается в выполнении стохастического градиентного спуска на каждом шаге. Выбор именно этого метода обусловлен скоростью работы и достаточно ограниченным количеством тренировочных примеров, необходимых для обучения классификатора.

Применяемый подход. Реализация разработанного алгоритма используется в совокупности с многоагентным алгоритмом автоматического обнаружения и сопровождения недетерминированных объектов [19].

На вход системы подаются видеопоток и описывающий прямоугольник, определяющий первоначальное положение объекта слежения. На стадии инициализации, основываясь на соотношении сторон исходной рамки, выбирается фиксированный размер изображения, к которому будут приводиться изображения объекта даже при изменении их масштаба (фиксация размерности входных данных для классификатора).

В дальнейшем на каждом k-ом кадре видеопотока изображение объекта, ограниченное прямоугольником, масштабируется к размеру, определенному на стадии инициализации, после чего для этого участка изображения вычисляется дескриптор HOG. В данной работе k принималось равным 5, так как на соседних кадрах объект изменяется мало, а избыток одинаковых данных снижает характеристики точности обучаемого классификатора, однако данный параметр может быть скорректирован в зависимости от кадровой частоты оптической системы и динамики наблюдаемых объектов.

За точность предоставляемых входных данных на этапе предварительного обучения отвечает алгоритм сопровождения. Таким образом формируется эталонное описание объекта интереса в виде набора HOG-дескрипторов. Аналогичным образом выбираются и подготавливаются несколько произвольных окон на изображении, которые будут использоваться в качестве примеров "не-объекта" для обучения классификатора. Выбранные окна объекта интереса и "не-объекта" подвергаются предварительной фильтрации посредством нормализованной кросс-корреляции (Normalized Cross Correlation) - если разница меньше определенного порога (изображения не похожи), то оба дескриптора подаются на вход алгоритму Pegasos с соответствующими метками ("объект", "не-объект"). Данная предварительная отбраковка негативных примеров по результатам анализа позволяет повысить скорость сходимости обучения классификатора и, в дальнейшем, повысить стабильность его предсказаний. В соответствии с полученными данными происходит корректировка гиперплоскости. После этого для каждой из рамок берутся несколько масштабов, и с каждым из них производятся вышеописанные действия, после чего происходит переход к следующему кадру видеопотока. Дополнительно на первых кадрах происходит хранение положительных и отрицательных HOG-дескрипторов. После набора нескольких результатов происходит обучение линейной SVM в оф-флайн-режиме. Это сделано для подстраховки основного классификатора на первых кадрах, когда количество данных еще недостаточно для уверенной классификации.

На данный момент самым точным способом локализации объекта является метод скользящего окна, в котором применяется вычисление откликов обученного классификатора для большого количества накладываемых на изображение окон. Однако насколько этот способ точен, настолько он вычислительно неэффективен, что недопустимо для поставленной задачи. Поэтому для экономии времени при потере объекта интереса осуществляется предварительное обнаружение потенциального местоположения объекта с помощью алгоритма [19], тем самым осуществляется значительное сокращение области поиска. При наличии положительного отклика в окрестности предполагаемого нахождения объекта запускается алгоритм скользящего окна, для чего берутся несколько описывающих прямоугольников различного масштаба (рис. 2, красная рамка - оригинальный размер, возвращаемый алгоритмом слежения, синяя и зеленая - уменьшенная и увеличенная рамки соответственно). Каждая из рамок последовательно сдвигается относительно своего изначального положения, для каждого смещения осуществляется проверка области изображения при помощи обученного классификатора. Координаты каждого окна, внутри которого обнаружен положительный отклик от классификатора запоминаются, после чего самые крайние координаты из ранее запомненных формируют результирующий описывающий прямоугольник, который считается искомым объектом и подается алгоритму слежения для его повторного захвата и последующего сопровождения (рис. 3, синяя рамка - подозрительная зона от алгоритма предварительного обнаружения, остальные рамки - вариации сдвига описывающих прямоугольников с рис. 2, красный цвет означает отрицательный отклик классификатора, зеленый - положительный, для наглядности, отрисована только часть откликов).

Рис. 2. Рамки трех разных масштабов для масштабного поиска

Рис. 3. Результат работы алгоритма обнаружения в зоне поиска

Результаты. Тестирование выполнялось при помощи полунатурного моделирования с использованием программного комплекса автоматизации тестирования алгоритмов обнаружения и сопровождения, разработанного АО «НПП «АМЭ», и реальных видеозаписей, полученных в различных условиях наблюдения. Для тестирования были размечены 15 видеопоследовательностей, содержащих объекты интереса типа «Кунг», «Здание», «Мост» и др. размером от ~64х64 до ~256х256 пикселей.

Для наиболее полной оценки точности предлагаемого алгоритма обнаружения с обучением в реальном времени, в сравнении с подходом к предварительному обнаружению объекта после его потери из многоагентного алгоритма обнаружения и сопровождения, использовалась метрика IoU (Intersection over Union) [20]. Данная метрика подразумевает оценку отношения площадей пересечения описывающих прямоугольников к площади их объединения. Один из прямоугольников (Si), определяющий истинное положение объекта в кадре, задается оператором при тестировании, второй (S2) является результатом работы того или иного алгоритма обнаружения:

jou = s-l^e [0;1 ] .

SiUSj

Чем ближе получаемое значение IoU к единице, тем более точное предсказание истинного положения объекта и его размеров даёт оцениваемый алгоритм.

Тестирование проводилось по следующей методике:

1. На интересующей видеозаписи в определенный момент выполнялся захват объекта на сопровождение.

2. На протяжении 100-400 кадров выполнялось обучение SVM классификатора предложенного алгоритма обнаружения по данным об объекте интереса, формируемым алгоритмом сопровождения.

3. Имитировался срыв сопровождения посредством перехода на другой кадр видеопоследовательности.

4. Зоны предполагаемого местонахождения объекта (формируемые алгоритмом сопровождения) подвергались обработке алгоритмом обнаружения по методике, описанной выше. Таким образом, выполнялось подтверждение наличия объекта в зоне интереса и уточнение его положения в случае его наличия.

5. Результирующие значения для алгоритма сопровождения (без уточнения положения) и для алгоритма обнаружения 10^™ записывались в таблицу.

Результаты систематизации экспериментов, проведенных по данной методике, представлены на рисунке 4. Среднее значение (то есть без использования уточнения положения объекта интереса при попытке повторного захвата) по результатам 19 экспериментов с имитацией срыва сопровождения составило ^Цгал = 0.359, тогда как среднее значение 10^™ с применением алгоритма с обучением в реальном времени в качестве средства подтверждения наличия цели и уточнения её положения составило IoUsvm = 0.431, что даёт прирост ЛIoU = +0.072. Данное значение Л1ои является средним по всем типам объектов интереса, при этом для малоразмерных целей оно меньше, а для крупноразмерных объектов значение Л!ои значительно больше.

Рис. 4. Графики области пересечения IoUtrack (оранжевый) и IoUsvm (синий)

Заключение. По результатам полунатурного моделирования с использованием программного комплекса автоматизации тестирования алгоритмов обнаружения и сопровождения использование предложенного алгоритма обнаружения с обучением в реальном времени позволило повысить метрику точности охвата цели при её повторном обнаружении после потери на AIoU = +0.072, то есть более чем на 20% для рассмотренного алгоритма сопровождения, при этом временные затраты на обучение классификатора составили 16 миллисекунд на кадр для процессора Core-i5-4440@3.1GHz, что может служить объективным доказательством эффективности предложенного подхода.

Таким образом, резюмируя результаты проведенных исследований можно сделать вывод, что разработанный алгоритм обнаружения недетерминированных объектов и уточнения их положения с обучением в реальном времени позволяет осуществлять подтверждение наличия объекта в заданной области и уточнять его координаты с точностью, достаточной для обоснованного использования во встраиваемых вычислительных системах перспективных робототехнических комплексов.

На дальнейших этапах развития алгоритма предполагается заменить фиксированный сдвиг окон при обнаружении на использование циркулянтных матриц, что должно повысить точность локализации объекта интереса. Поскольку дескриптор HOG является дескриптором формы объекта, планируется также при обучении классификатора использовать дополнительно дескрипторы текстуры, на-

пример, локальные бинарные паттерны (local binary patterns, LBP) [21, 22], что должно положительно сказаться на точности классификации [23]. Также перспективной является замена одного сильного классификатора на каскад слабых классификаторов - это позволит более простым способом избегать переобучения и дополнительно повысит точность нахождения объекта, ввиду корректировки параметров по ходу слежения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Bertinetto L., Valmadre J., Henriques J.F., Vedaldi A., Torr P.H.S. Fully-Convolutional Siamese Networks for Object Tracking. In: Hua G., Jegou H. (eds) Computer Vision - ECCV 2016 Workshops. ECCV 2016. Lecture Notes in Computer Science. - Vol. 9914. - Springer, Cham, 2016.

2. Zhang Y., Wang L., Qi J., Wang D., Feng M., Lu H. Structured Siamese Network for RealTime Visual Tracking. In: Ferrari V., Hebert M., Sminchisescu C., Weiss Y. (eds) Computer Vision - ECCV 2018. ECCV 2018. Lecture Notes in Computer Science. - Vol. 11213.

- Springer, Cham, 2018.

3. Li D., Yu Y. & Chen X. Object tracking framework with Siamese network and re-detection mechanism // J Wireless Com Network. - 2019, 261.

4. Kalal Z., Mikolajczyk K., Matas J. Tracking-Learning-Detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2012. - Vol. 34, No. 7. - P. 1409-1422.

5. Henriques J.F., et al. High-Speed Tracking with Kernelized Correlation Filters // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2015. - Vol. 37, No. 3. - P. 583-596.

6. Davis P.J. Circulant Matrices. Wiley-Interscience, NY, 1979.

7. Dalal N., Triggs B. Histograms of oriented gradients for human detection // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego, CA, USA, 2005. - Vol. 1. - P. 886-893. - Doi: 10.1109/CVPR.2005.177.

8. Rybski P.E., Huber D., Morris D. D., Hoffman R. Visual classification of coarse vehicle orientation using Histogram of Oriented Gradients features // 2010 IEEE Intelligent Vehicles Symposium, La Jolla, CA, USA, 2010. - P. 921-928. - Doi: 10.1109/IVS.2010.5547996.

9. Dollar P., Appel R., Belongie S. and Perona P. Fast Feature Pyramids for Object Detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. - Aug. 2014. - Vol. 36, No. 8. - P. 1532-1545.

10. Самсонов Н.А., Гнеушев А.Н. Дескриптор в аккумуляторном пространстве Хафа градиентного поля изображения для детектирования пешеходов // Машинное обучение и анализ данных. - 2017 - № 3. - Т. 3. - С. 203-215. - eISSN: 2223-3792.

11. Misra I., Shrivastava A., Hebert. M. HOG and Spatial Convolution on SIMD Architecture // Technical report, Robotics Institute, Carnegie Mellon University, 2013.

12. Huang C., Huang J. A Fast HOG Descriptor Using Lookup Table and Integral Image. ArXiv, abs/1703.06256, 2017.

13. Roshan K., Saurabh S. Machine Learning: A Review on Binary Classification // International Journal of Computer Applications. - 2017.

14. Cortes C, Vapnik V. Support Vector Networks // Mach. Learn. - 1995. - Vol. 20. - P. 273-297.

15. Burges J.C. A tutorial on support vector machines for pattern recognition // Data Min. Knowl. Disc. - 1998. - P. 121-167.

16. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernelbased learning methods. - Cambridge University Press, Cambridge, 2000.

17. Zhou X., Zhang X., Wang B. Online Support Vector Machine: A Survey. In: Kim J., Geem Z. (eds) Harmony Search Algorithm. Advances in Intelligent Systems and Computing. - Vol. 382.

- Springer, Berlin, Heidelberg, 2016. - https://doi.org/10.1007/978-3-662-47926-1_26.

18. Shalev-Shwartz S., Singer Y., Srebro N. et al. Pegasos: primal estimated sub-gradient solver for SVM // Math. Program. - 2020. - Vol. 127. - P. 3-30.

19. Бондаренко В.А., Ельцова Д.К., Лизин А.И., Павлова ВА., Созинова М.В., Тупиков ВА. Мно-гоагентный алгоритм автоматического обнаружения и сопровождения недетерминированных объектов // Известия ЮФУ. Технические науки. - 2020. - № 1 (211). - С. 218-232.

20. Rezatofighi H., Tsoi N., Gwak J., Sadeghian A., Reid I. Savarese S. Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019. - P. 658-666.

21. Heikkila M., Pietikainen M. A texture-based method for modeling the background and detecting moving objects // IEEE Transactions on Pattern Analysis and Machine Intelligence.

- 2006. - Vol. 28 (4). - P. 657-662.

22. Kertesz C. Texture-Based Foreground Detection, International Journal of Signal Processing // Image Processing and Pattern Recognition (IJSIP). - 2011. - Vol. 4, No. 4.

23. Khalifa T. §engul G. The Integrated Usage of LBP and HOG Transformations and Machine Learning Algorithms for Age Range Prediction from Facial Images // Tehnicki Vjesnik.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- 2018. - Vol. 25. - P. 1356-1362. - Doi. 10.17559/TV-20170308030459.

REFERENCES

1. Bertinetto L., Valmadre J., Henriques J.F., Vedaldi A., Torr P.H.S. Fully-Convolutional Siamese Networks for Object Tracking. In: Hua G., Jegou H. (eds) Computer Vision - ECCV 2016 Workshops. ECCV 2016. Lecture Notes in Computer Science, Vol. 9914. Springer, Cham, 2016.

2. Zhang Y., Wang L., Qi J., Wang D., Feng M., Lu H. Structured Siamese Network for RealTime Visual Tracking. In: Ferrari V., Hebert M., Sminchisescu C., Weiss Y. (eds) Computer Vision - ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, Vol. 11213. Springer, Cham, 2018.

3. Li D., Yu Y. & Chen X. Object tracking framework with Siamese network and re-detection mechanism, J Wireless Com Network, 2019, 261.

4. Kalal Z., Mikolajczyk K., Matas J. Tracking-Learning-Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, Vol. 34, No. 7, pp. 1409-1422.

5. Henriques J.F., et al. High-Speed Tracking with Kernelized Correlation Filters, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, Vol. 37, No. 3, pp. 583-596.

6. Davis P.J. Circulant Matrices. Wiley-Interscience, NY, 1979.

7. Dalal N., Triggs B. Histograms of oriented gradients for human detection, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego, CA, USA, 2005, Vol. 1, pp. 886-893. Doi: 10.1109/CVPR.2005.177.

8. Rybski P.E., Huber D., Morris D.D., Hoffman R. Visual classification of coarse vehicle orientation using Histogram of Oriented Gradients features, 2010 IEEE Intelligent Vehicles Symposium, La Jolla, CA, USA, 2010, pp. 921-928. Doi: 10.1109/IVS.2010.5547996.

9. Dollar P., Appel R., Belongie S. and Perona P. Fast Feature Pyramids for Object Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, Aug. 2014, Vol. 36, No. 8, pp. 1532-1545.

10. Samsonov N.A., Gneushev A.N. Deskriptor v akkumulyatornom prostranstve khafa gradientnogo polya izobrazheniya dlya detektirovaniya peshekhodov [Textural descriptor in the Hough accumulator space of the gradient field for detecting pedestrians], Mashinnoe obuchenie i analiz dannykh [Machine learning and data analysis], 2017, No. 3, Vol. 3, pp. 203215. eISSN: 2223-3792.

11. Misra I., Shrivastava A., Hebert. M. HOG and Spatial Convolution on SIMD Architecture, Technical report, Robotics Institute, Carnegie Mellon University, 2013.

12. Huang C., Huang J. A Fast HOG Descriptor Using Lookup Table and Integral Image. ArXiv, abs/1703.06256, 2017.

13. Roshan K., Saurabh S. Machine Learning: A Review on Binary Classification, International Journal of Computer Applications, 2017.

14. Cortes C., Vapnik V. Support Vector Networks,Mach. Learn., 1995, Vol. 20, pp. 273-297

15. Burges J.C. A tutorial on support vector machines for pattern recognition, Data Min. Knowl. Disc, 1998, pp. 121-167.

16. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernelbased learning methods. Cambridge University Press, Cambridge, 2000.

17. Zhou X., Zhang X., Wang B. Online Support Vector Machine: A Survey. In: Kim J., Geem Z. (eds) Harmony Search Algorithm. Advances in Intelligent Systems and Computing, Vol. 382. Springer, Berlin, Heidelberg, 2016. Available at: https://doi.org/10.1007/978-3-662-47926-1_26.

18. Shalev-Shwartz S., Singer Y., Srebro N. et al. Pegasos: primal estimated sub-gradient solver for SVM, Math. Program, 2020, Vol. 127, pp. 3-30.

19. Bondarenko V.A., El'tsova D.K., Lizin A.I., Pavlova V.A., Sozinova M.V., Tupikov V.A. Mnogoagentnyy algoritm avtomaticheskogo obnaruzheniya i soprovozhdeniya nedeterminirovannykh ob"ektov [Multi-agent algorithm for automatic detection and tracking of non-deterministic objects], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2020, No. 1 (211), pp. 218-232.

20. Rezatofighi H., Tsoi N., Gwak J., Sadeghian A., Reid I. Savarese S. Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression, 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019, pp. 658-666.

21. Heikkila M., Pietikainen M. A texture-based method for modeling the background and detecting moving objects, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, Vol. 28 (4), pp. 657-662.

22. Kertesz C. Texture-Based Foreground Detection, International Journal of Signal Processing, Image Processing and Pattern Recognition (IJSIP), 2011, Vol. 4, No. 4.

23. Khalifa T. §engul G. The Integrated Usage of LBP and HOG Transformations and Machine Learning Algorithms for Age Range Prediction from Facial Images, Tehnicki Vjesnik, 2018, Vol. 25, pp. 1356-1362. Doi. 10.17559/TV-20170308030459.

Статью рекомендовал к опубликованию к.т.н. С.Н. Крюков.

Тупиков Владимир Алексеевич - АО «Научно-производственное предприятие «Авиационная и морская электроника»; e-mail: tupikov@nppame.ru; г. Санкт-Петербург, Россия; тел.: 88123274667; д.т.н.; профессор; зам. ген. Директора; директор научно-производственного комплекса робототехнических систем специального назначения (НПК РТС СН).

Павлова Валерия Анатольевна - e-mail: pavlova@nppame.ru; к.т.н.; зам. директора НПК РТС СН по НИОКР.

Бондаренко Владимир Александрович - e-mail: bondarenko@nppame.ru; начальник центра средств интеллектуальной обработки изображений (ЦСИОИ) НПК РТС СН.

Созинова Мария Владимировна - e-mail: sozinova@nppame.ru; начальник отдела перспективных методов обработки изображений ЦСИОИ НПК РТС СН.

Гессен Павел Алексеевич - e-mail: pasha.gessen@outlook.com; научный сотрудник отдела прикладного программирования ЦСИОИ НПК РТС СН.

Tupikov Vladimir Alekseevich - SPE "Research and Production Enterprise "Air and Marine Electronics"; e-mail: tupikov@nppame.ru; Saint Petersburg, Russia; phone: +78123274667; dr. of eng. sc.; professor; Deputy Director General; Director of Research and production complex of special purpose robotic systems (RPCSPRS).

Pavlova Valeria Anatolyevna - e-mail: pavlova@nppame.ru; cand. of eng. sc.; Deputy Director of research at RPCSPRS.

Bondarenko Vladimir Alexandrovich - e-mail: bondarenko@nppame.ru; Chief of intellectual image processing center (IIPC) RPCSPRS.

Sozinova Maria Vladimirovna - e-mail: sozinova@nppame.ru; Chief of the Department of Advanced Image Processing Techniques IIPC RPCSPRS.

Gessen Pavel Alekseevich - e-mail: pasha.gessen@outlook.com; Researcher at Department of Applied Programming IIPC RPCSPRS.

OBJECT DETECTION ALGORITHM FOR OPTOELECTRONIC SYSTEMS WITH ONLINE LEARNING

Текст научной работы на тему «АЛГОРИТМ ОБНАРУЖЕНИЯ ОБЪЕКТОВ ДЛЯ ОПТИКО-ЭЛЕКТРОННЫХ СИСТЕМ С ОБУЧЕНИЕМ В РЕАЛЬНОМ ВРЕМЕНИ»