Научная статья на тему 'ИНВАРИАНТНЫЙ К ЛИНЕЙНЫМ КОНФОРМНЫМ ПРЕОБРАЗОВАНИЯМ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗМЫТОГО ИЗОБРАЖЕНИЯ ЦЕЛЕВОГО ОБЪЕКТА МАЛОГО РАЗМЕРА'

ИНВАРИАНТНЫЙ К ЛИНЕЙНЫМ КОНФОРМНЫМ ПРЕОБРАЗОВАНИЯМ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗМЫТОГО ИЗОБРАЖЕНИЯ ЦЕЛЕВОГО ОБЪЕКТА МАЛОГО РАЗМЕРА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
53
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОВПАДЕНИЕ ИЗОБРАЖЕНИЙ / МАШИННОЕ ОБУЧЕНИЕ / SVM-КЛАССИФИКАТОР / МЕТОД НЕЛДЕРА-МИДА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тимофеев А.В.

Предмет исследования. Предложен новый, практически эффективный метод обнаружения и оценивания координат центра изображения целевого объекта малого размера на зашумленной сцене. Метод является инвариантным к линейным конформным преобразованиям (поворот, сдвиг и масштаб). Метод. Рассмотрен бинарный классификатор, который принимает решение: содержит ли конкретный участок сцены искомое изображение или только фон? В основе предложенного подхода лежит интерактивная процедура поиска экстремума функции, которая аппроксимирует функцию правдоподобия бинарного классификатора. Для реализации поиска экстремума использована двухэтапная процедура на основании метода Нелдера-Мида. С целью обеспечения устойчивости к помехам и линейным конформным преобразованиям, при обучении классификатора применены как специальные методы обучения, так и подход, основанный на использовании ансамбля классификаторов, каждый из которых соответствует определенному масштабу. Основные результаты. Создан метод обнаружения размытого изображения объекта малого размера на сцене, зашумленной коррелированной помехой, с одновременным оцениванием координат центра искомого изображения. Метод устойчив к линейным конформным преобразованиям и успешно протестирован как на модельных, так и на реальных изображениях. Робастность метода к коррелированной помехе аддитивного типа, а также устойчивость к линейным конформным преобразованиям подтверждена результатами численного исследования. В рамках предложенного подхода, формально решена задача построения доверительного множества для координат центра искомого изображения, а также численно исследована эффективность полученного решения. Свойства доверительного множества оформлены в виде теоремы. Выполнено сравнение с классическим, корреляционно-экстремальным методом. При необходимости, предложенный метод легко обобщается на случай мультиклассовой постановки задачи. Практическая значимость. Метод может быть использован в системах машинного зрения, в том числе для оперативного анализа данных аэрофотосъемки, а также в системах видеоконтроля механического состояния сложного технического оборудования в условиях сильных метеорологических помех.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETECTION OF A SMALL TARGET OBJECT IN BLURRY IMAGES AFFECTED BY AFfiNE DISTORTIONS

The paper proposes a novel and practically effective method for detecting, classifying, and estimating the coordinates of the image center of a small-size target object on a noisy scene, which is invariant to linear conformal transformations (rotation, shift, and scale). We consider a binary classifier that decides whether a particular part of the scene contains the desired image or only the background. The proposed approach implies an interactive procedure for finding an extremum of a function that approximates the likelihood function of the binary classifier. A two-step procedure based on the Nelder-Meade method is used to implement the extremum search. In order to ensure the robustness to noise and linear conformal transformations, both special training methods and the approach based on using an ensemble of classifiers, each of which corresponds to a certain scale, are applied in training the classifier. The author created a method for detecting a blurred image of a small-sized object in a scene that is distorted by correlated noise and proposes simultaneous estimation of the coordinates of the center of the target image. The method is robust to linear conformal distortions and has been successfully tested both on the artificial model and real images. The results of numerical study confirmed the robustness of the method to correlated noise of additive type and to linear conformal transformations. Within the framework of the proposed approach, the problem of constructing a confidence set for the coordinates of the target image center has been formally solved, and the efficiency of the obtained solution has been numerically investigated. The properties of the confidence set are formalized in the form of a theorem. The work also makes a comparison with the classical correlation-extreme method. If necessary, the proposed method can be easily generalized to the multiclass case. The method can be applied to machine vision systems, including online analysis of aerial survey data and to systems for video monitoring of the mechanical condition of complex technical equipment under conditions of strong meteorological disturbance.

Текст научной работы на тему «ИНВАРИАНТНЫЙ К ЛИНЕЙНЫМ КОНФОРМНЫМ ПРЕОБРАЗОВАНИЯМ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗМЫТОГО ИЗОБРАЖЕНИЯ ЦЕЛЕВОГО ОБЪЕКТА МАЛОГО РАЗМЕРА»

УНИВЕРСИТЕТ ИТМО

НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ март-апрель 2021 Том 21 № 2 http://ntv.ifmo.ru/

SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS March-April 2021 Vol. 21 No 2 http://ntv.ifmo.ru/en/

ISSN 2226-1494 (print) ISSN 2500-0373 (online)

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

КОМПЬЮТЕРНЫЕ СИСТЕМЫ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

COMPUTER SCIENCE

doi: 10.17586/2226-1494-2021-21-2-206-224 УДК 004.852

Инвариантный к линейным конформным преобразованиям алгоритм обнаружения размытого изображения целевого объекта

малого размера Андрей Владимирович Тимофеев1^

1 ТОО «Эквалайзум», Астана, 010000, Казахстан 1 timofeev.andrey@gmail.comH, https://orcid.org/0000-0001-7212-5230 Аннотация

Предмет исследования. Предложен новый, практически эффективный метод обнаружения и оценивания координат центра изображения целевого объекта малого размера на зашумленной сцене. Метод является инвариантным к линейным конформным преобразованиям (поворот, сдвиг и масштаб). Метод. Рассмотрен бинарный классификатор, который принимает решение: содержит ли конкретный участок сцены искомое изображение или только фон? В основе предложенного подхода лежит интерактивная процедура поиска экстремума функции, которая аппроксимирует функцию правдоподобия бинарного классификатора. Для реализации поиска экстремума использована двухэтапная процедура на основании метода Нелдера-Мида. С целью обеспечения устойчивости к помехам и линейным конформным преобразованиям, при обучении классификатора применены как специальные методы обучения, так и подход, основанный на использовании ансамбля классификаторов, каждый из которых соответствует определенному масштабу. Основные результаты. Создан метод обнаружения размытого изображения объекта малого размера на сцене, зашумленной коррелированной помехой, с одновременным оцениванием координат центра искомого изображения. Метод устойчив к линейным конформным преобразованиям и успешно протестирован как на модельных, так и на реальных изображениях. Робастность метода к коррелированной помехе аддитивного типа, а также устойчивость к линейным конформным преобразованиям подтверждена результатами численного исследования. В рамках предложенного подхода, формально решена задача построения доверительного множества для координат центра искомого изображения, а также численно исследована эффективность полученного решения. Свойства доверительного множества оформлены в виде теоремы. Выполнено сравнение с классическим, корреляционно-экстремальным методом. При необходимости, предложенный метод легко обобщается на случай мультиклассовой постановки задачи. Практическая значимость. Метод может быть использован в системах машинного зрения, в том числе для оперативного анализа данных аэрофотосъемки, а также в системах видеоконтроля механического состояния сложного технического оборудования в условиях сильных метеорологических помех. Ключевые слова

совпадение изображений, машинное обучение, SVM-классификатор, метод Нелдера-Мида

Ссылка для цитирования: Тимофеев А.В. Инвариантный к линейным конформным преобразованиям

алгоритм обнаружения размытого изображения целевого объекта малого размера // Научно-технический

вестник информационных технологий, механики и оптики. 2021. Т. 21, № 2. С. 206-224. doi:

10.17586/2226-1494-2021-21-2-206-224

© Тимофеев А.В., 2021

Detection of a small target object in blurry images affected by affine distortions

Andrey V. Timofeev1^

1 LLP EqualiZoom, Astana, 010000, Republic of Kazakhstan 1 timofeev.andrey@gmail.comH, https://orcid.org/0000-0001-7212-5230 Abstract

The paper proposes a novel and practically effective method for detecting, classifying, and estimating the coordinates of the image center of a small-size target object on a noisy scene, which is invariant to linear conformal transformations (rotation, shift, and scale). We consider a binary classifier that decides whether a particular part of the scene contains the desired image or only the background. The proposed approach implies an interactive procedure for finding an extremum of a function that approximates the likelihood function of the binary classifier. A two-step procedure based on the Nelder-Meade method is used to implement the extremum search. In order to ensure the robustness to noise and linear conformal transformations, both special training methods and the approach based on using an ensemble of classifiers, each of which corresponds to a certain scale, are applied in training the classifier. The author created a method for detecting a blurred image of a small-sized object in a scene that is distorted by correlated noise and proposes simultaneous estimation of the coordinates of the center of the target image. The method is robust to linear conformal distortions and has been successfully tested both on the artificial model and real images. The results of numerical study confirmed the robustness of the method to correlated noise of additive type and to linear conformal transformations. Within the framework of the proposed approach, the problem of constructing a confidence set for the coordinates of the target image center has been formally solved, and the efficiency of the obtained solution has been numerically investigated. The properties of the confidence set are formalized in the form of a theorem. The work also makes a comparison with the classical correlation-extreme method. If necessary, the proposed method can be easily generalized to the multiclass case. The method can be applied to machine vision systems, including online analysis of aerial survey data and to systems for video monitoring of the mechanical condition of complex technical equipment under conditions of strong meteorological disturbance. Keywords

image matching, machine learning, SVM-classifier, Nelder-Meade method

For citation: Timofeev A.V. Detection of a small target object in blurry images affected by affine distortions. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2021, vol. 21, no. 2, pp. 206-224 (in Russian). doi: 10.17586/2226-1494-2021-21-2-206-224

Введение

В приложениях технического зрения, например, в задачах оперативного анализа данных аэрофотосъемки и видеоконтроле механического состояния сложного технического оборудования в условиях сильных метеорологических помех, возникает необходимость обнаружения на анализируемой сцене объекта малой формы, с сильно размытым контуром в условиях интенсивной коррелированной помехи. Ввиду размытости контура изображения целевого объекта, а также из-за его сравнительно малой площади, методы детекции целевого объекта, основанные на использовании мелких геометрических особенностей изображения, оказываются практически неэффективными. В частности, для изображений упомянутого типа, такие известные методы как SIFT (Scale-invariant Feature Transform) [1], SURF (Speeded Up Robust Features) [2], ORB (Oriented FAST and Rotated BRIEF) [3], FAST (Fast Affine Template Matching) [4] практически неработоспособны. Все эти методы, в различной форме, используют в своей работе оценки локального градиента контраста, оценки гессиана контраста или подобные численные характеристики локальных областей изображения, которые в дальнейшем объединяются в так называемые дескрипторы (числовые наборы определенной мощности). Далее эти дескрипторы используются для описания множества ключевых точек изображения, описывая его контура, углы и иные ключевые точки. Но для размытых, интенсивно зашумленных изображений качественно рассчитать оценки градиентов, гессианов и иных ха-

рактеристик изображений, основанных на локальных перепадах яркости, очень сложно, а в ряде случаев и просто невозможно.

В этом состоит основная причина потери работоспособности упомянутой группы методов для размытых целевых изображений малого размера. Для обнаружения и одновременной классификации целевых изображений этого типа логично использовать методы, которые единомоментно исследуют изображения в некоторой, пространственно распределенной области, с размером, сравнимым с радиусом корреляции искомого изображения. В основе работы метода лежит концепция формирования геометрически целостного образа искомого изображения, причем этот образ единовременно собирается из группы пространственно разнесенных точек, в отличие от методов, основанных на исследовании локального контраста, которые сначала формируют множество разрозненных признаков и далее формируют из них образ, который сравнивается с эталоном. К методам такого типа, например, относится классический, корреляционно-экстремальный метод [5-7], а также его современные обобщения [8, 9]. В настоящей работе предложен метод обнаружения и классификации, с одновременным оцениванием центра целевого, размытого изображения небольшого размера на сцене, зашумленной коррелированной помехой. Метод основан на исследовании сцены в областях, размер которых сравним с радиусом корреляции искомого изображения и сохраняет работоспособность в условиях сильной размытости контуров при наличии интенсивного, коррелированного шума. Метод

устойчив к линейным конформным преобразованиям формы искомого объекта (поворот, сдвиг и масштаб) относительно шаблона. Проведено сравнение с классическим, корреляционно-экстремальным методом, а в силу принципа, заложенного в основу предложенного метода, он легко распространяется на мультиклассовый случай.

Идея метода

В данном разделе приведено неформальное описание предложенного подхода для тех читателей, которые не планируют погружение в формальную базу и после ознакомления с настоящим разделом могут продолжить чтение сразу с раздела «Результаты исследования алгоритма». Основная идея предложенного метода основана на введении бинарного классификатора, который принимает решение: содержит ли конкретный участок сцены искомое изображение или в данной точке сцены присутствует только фон? Важную роль играет функция правдоподобия этого классификатора, которая теоретически достигает своего максимума именно в точке местоположения искомого объекта. Это обусловлено логикой обучения классификатора, которое производится по специальной схеме. Для рассматриваемого случая задача бинарной классификации изображения конкретного участка сцены эквивалентна задаче обнаружения (детекции) искомого изображения на сцене. В этом случае «сигнальный» класс представляет собой различные варианты представления искомого изображения, а «фоновый» класс включает в себя изображения фона или фрагментов нецелевых изображений. Важно то, что оценка координат точки максимума функции правдоподобия, де-факто, является оценкой центра искомого изображения. Таким образом, задачи обнаружения и оценивания координат центра искомого изображения инкапсулированы в процедуру бинарной классификации изображения конкретного участка сцены, которая, в виде побочного результата, формирует оценку координат центра изображения. В принципе, предлагаемый алгоритм подразумевает возможность обнаруживать одним и тем же классификатором сразу несколько типов целевых изображений, отличая их и от фона, и друг от друга. В этом случае речь идет о мультиклассовой постановке задачи, которая в данной статье не рассмотрена. Упрощая, можно считать, что предложенный метод является сильным обобщением методов совпадения изображений.

Для аппроксимации функции правдоподобия классификатора используются широко известные методы, например масштабирование Платта. Для интеграционного поиска точки экстремума функции правдоподобия в области, сравнимой с радиусом корреляции искомого изображения, использован практически эффективный метод Нелдера-Мида. С целью повышения вероятности поиска глобального экстремума поисковая процедура построена по двухэтапной схеме:

— на первом этапе используется классификатор с более «широкой» функцией правдоподобия;

— на втором этапе используется классификатор с «узкой» и более «точной» функцией правдоподобия,

где в качестве начальной точки используются результаты первого этапа.

Вычислительные эксперименты показали, что предложенный алгоритм робастен к аддитивному коррелированному шуму в следующем смысле: средняя ошибка оценивания центра искомого изображения при увеличении интенсивности шума нарастает сравнительно плавно. Сделана попытка формализовать этот тип ро-бастности. Важная задача — обеспечение сохранения работоспособности алгоритма в условиях линейных конформных преобразований (сдвиг, поворот, масштаб), когда априорно неизвестно: под каким углом будет расположено целевое изображение на сцене и каков будет его масштаб? Решение этой задачи стало центральным моментом настоящей работы и достигнуто композицией двух подходов.

Первый подход: для преодоления неопределенности относительно значения масштаба использовался ансамбль классификаторов, каждый из которых был настроен методами машинного обучения на определенное значение масштаба, а результирующее решение представляло собой взвешенную сумму этих классификаторов. Значения масштаба, на которые настраиваются соответствующие классификаторы ансамбля — последовательность чисел (масштабная сетка) с шагом п % (п больше нуля, конкретное значение этого параметра выбирается специальными методами), внутри интервала, который определяет априорно допустимые вариации масштаба. Вычислительные эксперименты показали, что при шаге масштабной сетки равном 5 %, система гарантировала вероятность правильной классификации (детекции) не хуже, чем 0,99, при величине средней ошибки оценивания координат центра искомого изображения, не превышающей величину 4 %.

Второй подход: преодоление априорной неопределенности относительно угла поворота искомого изображения на сцене. В рамках подхода в обучающие множества, соответствующие каждому элементу масштабной сетки, внедрялись варианты образцов искомого изображения, углы поворота которых представляли собой последовательность значений углов поворота (ротационную сетку) с шагом 5 % внутри интервала (0,2п). Этот достаточно простой подход также доказал свою практическую эффективность.

Определения и обозначения

Обозначим символом о — целевой объект. Любому объекту о соответствует счетное множество его возможных изображений F(o) = {^}. Изображение конкретного, целевого объекта будем называть объектовым.

В общем случае изображения могут не быть объектовыми и содержать:

— изображения только подстилающей поверхности (фона);

— изображения фрагментов группы целевых или нецелевых объектов.

Такие изображения будем называть фоновыми. Для множества F(o) определено конечное подмножество ^(о) с F(o), состоящее из так называемых «шаблонных» изображений объекта о. Все элементы

априорно доступны для анализа и представляют собой изображения объекта o, полученные в разных условиях.

Любое изображение f б F(°), f = {ф(х)|х б C[f] с Rm}, целевого объекта представляет собой совокупность наборов информативных, числовых параметров ф(х), вычисленных в точках с координатами х б C[f] с Rm. Параметры ф(х) изображения f определены в совокупности точек х, совместно образующих связную, замкнутую область пространства C[f] с Rm.

us(x), х е Rm — значение набора информативных, числовых параметров в точке х б Rm, соответствующей местоположению фона или подстилающей поверхности.

Область C[f] называется контуром объектового изображения f. Геометрический размер контура C[] или его диаметр: |C[-]| = Sup ||х1 - х2||. Можно сказать, что

хьх2«^-]

объектовое изображение f определено только внутри соответствующего ему контура C[f].

Центр произвольной связной области U = {х|х б U} с Rm — точка х0 б U с декартовыми координатами: < х0 >D = (xmaxj - xminj)/2,1 < j < m, где

xmmj = Min<x>f, xmaxj = Max<x>f. xеU хе.и

Обозначим: Cntr[U] — операцию определения центра области U: хо = Cntr[U].

Соответственно, центр изображения f = {ф(х)|х б б C[f] — точка х0 = Cntr[C[f]].

Когда центром изображения f б F(o) является точка хо = C[f(xo)], это записывается так: f(xo) = {ф(х|хо)|х б е C[f(xo)]}.

Значение изображения f(xo) в точке х е C[f(xo)]: f(xo)(x).

[ф(х|х0), r(x|xo)], ф(x|x0) е (0,2п) — полярные координаты произвольной точки х е C[f(xo)] при условии, что начало координат — точка xo е Rm.

Для произвольной х е C[f(xo)] обозначим полярные координаты этой точки:

<х>ф = фИ^Х <x>f = r(x|xoX

где ф(х|х0) — угол; r(x|x0) — радиус точки х е C[f(x0)] в полярной системе координат; P — индекс, обозначающий полярность координатной системы.

Н(х) — прямоугольный параллелепипед (Bounding Box) с размерами |Е(х)| = (xs, ys), для заданных 0 < xs, yH < да, с центром в точке х е Rm, х = Cntr[H(x)]. Так как m = 2, то в дальнейшем будем называть эти параллелепипеды рамками или поисковыми рамками. Если рамка Е(х) построена на изображении ю, запишем как: Е(х|ю). Если место привязки рамки в конкретном контексте, или изображение, на котором размещена эта рамка, не имеют значения, то вместо Е(х|ю) запишем Е() или Е(-|ю).

П = {ю(х)|х е C[n] с R2} — изображение, в общем случае представляющее из себя сцену, в том числе содержащую и искомое изображение f/xo). Таким образом, кроме искомого изображения f/xo), сцена П может содержать изображения f^(x) = {ф^(х)|-} g F(o) иных, нецелевых объектов или фон {us(x)}.

Границы контура C[f(xo)]: P[f(xo)] = {[ф, гф(х0)]|ф е е (0,2)}, где гф(х0) = Max (x>f для произвольного

Ф б (0,2п).

жеС[Г(жо)]

f/x0) = {фу(х|х0)|х е C[f{x0)]} е F{o)\F{o) — искомое изображение объекта o, такое, что C[f/(xo)] с C[H]: C[f7(xo)] П C[Q] = fx,)].

На сцене П задана декартова система координат (координатная плоскость), в которой производятся все координатные преобразования и расчеты.

Е — множество всех возможных поисковых рамок. Для простоты, но без потери общности, считаем, что стороны любой рамки Е е Е параллельны осям координатной плоскости сцены П. В общем случае возможны варианты произвольной ориентации рамок по углу поворота. Данный случай будет рассмотрен в разделе «Исследование алгоритма на реальных изображениях».

Координаты углов рамки Е(х) составляют множество пар ^[Е0)] = {а1Е(ж)]} с R2.

Когда говорится, что некое изображение ю помещено в рамку Е, это означает то, что C[ro] с Е , и записывается следующим образом: ЕЗДю]}.

В общем случае рамка Е(х|ю) может служить для выделения некоторого фрагмента сцены ю в окрестности точки х. В этом случае рамка может не содержать полных контуров изображений f е F(o), напротив — включать в себя лишь фрагменты контуров изображений f или фона us(-). Рамки такого типа для удобства условимся называть фоновыми, так как они служат для ограничения области фоновых изображений.

A(0, A, s) — оператор линейного конформного преобразования изображения, иначе называемый «angle-preserving conformal map»: R2 A(0 A' s)> R2, который преобразует изображение f е F{o) в f е F{o): f = A(0, A, sf с сохранением углов. Здесь параметры: 0 — угол поворота, A — сдвиг и s — масштаб.

Рамка называется «идеальной фиксирующей» для f(xo) и обозначается Е^ если следующее высказывание верно:

ЗЕ' е Е:|Е'{C[f(xo)]}\{C[f(xo)]| < < Pf{C[f(xo)]}\C[f(xo)]|.

Легко показать, что

(xo = Cntr[C[f]]) (xo = Cntr[Еf(x|•){C[f]}]), УЕ(- е ЕЗГ ф f е F : Е(- = Ег и Vf е F : З !Е(- е Е.

Рамка называется «неидеальной фиксирующей» для f(xo) и обозначается символом Е—, если Е е Е:(Е ф Ег) л л (Cntr[C[f]] = Cntr[Е{C[f]}] = х0). На рис. 1 рамка с маркером 2 является «идеальной» для изображения автомобиля, а рамки с маркерами 1 и 3 — примеры «неидеальных» рамок для целевого изображения. Маркером xo отмечен искомый центр изображения автомобиля. Для случая произвольной ориентации рамок «идеальная» рамка будет иметь угол поворота, совпадающий с углом разворота изображения. Стоит обратить внимание на нечеткость, слабую контрастность и размытость контуров изображения. Но именно поиск и оценка центра изображений такого качества является целью настоящей работы.

Опорные изображения объекта o — изображения fSP е I е L = {l, ..., L}, |L| < да, такие как |Е(<о| =

= ^ Уsp), где размеры Уsp), 0 < ^ ysp < да опРеделены априорно.

Рис. 1. Примеры рамок Fig. 1. Examples of frames

Масштаб if произвольного изображения f б F°) — кортеж if = f f)) = (xfxp, yRllysp); 0 < i(x), f < о.

Vf e F(o)30f, Af, if: f = A(Of, Af, if

где Of, Af, if — угол поворота, сдвиг и масштаб изображения f относительно fip соответственно.

Контур С[ю], ограничивающий фрагмент фонового изображения ю, совпадает с его рамкой: С[ю] = S(^ro), xffl = Cntr[C[ro]] = Cntr [S(^ro)]. Для объектовых изображений f e F(o), в общем случае C[f] Ф Sf.

Таким образом, любая рамка может быть либо объектовой, либо фоновой, в зависимости от того, контур какого изображения она ограничивает.

Масштаб идеальной рамки Sf — параметр i = if.

Множество S имеет следующее ограничение:

Vf e F(o)3S e S:S = Sf.

Сцена Q = {ю(х)|х e C[Q]} наблюдается с аддитивным случайным шумом {^(x)}. Если для некоторого fi e F(o) и C[fi] с C[Q], то Vx e C[f]: ю(х) = 9i(x) + ^(x).

Зашумленный фрагмент сцены Q' = {9(x|xo) + ^(x)|x e e C[Q] П C[f(xo)]} с Q, где f(xo) = Mx|xo)}, f(xo) e F<°), является г-гладким, если для некого г > 0 имеем:

V(x e p[f(xo)], A Ф 0):|E(9(x|xo) + ^(x) - 9(x + A|xo) -- ij(x + A))| < E^2(x)(1 + e||A||).

Здесь и далее E — оператор математического ожидания.

Определение. Оценка x+ величины xo (центр изображения f e F(o)) называется R-робастной по отношению к шумовой составляющей ^(x), если для любых двух ситуаций, первая из которых (оценка x+) соответствует величине E^(x), а вторая (оценка x++) величине E^(x), и 3R:(1 < R <оо, E^(x), E^(x) < R, имеет место следующая импликация:

(E^(x)lE^(x) > 1) ^ ^ (E^(x)lE^(x) > E||x+ - xo||lE||x+ - xo||). (1)

Постановка задачи

Дано:

1. Множество F°) = U^_/'<o):(fi б= {ф,(х)|х б C[f,]}).

2. Сцена П, возможно содержащая целевое изображение f/x0).

Для неизвестных целевого изображения f/xo) и параметров линейного конформного преобразования 07, Aj, sj верна следующая запись:

3(0j е (0,2п); Aj, sj е R2, l е L):fJ(xo) = A(0j, Aj, sj)fS^(x), Vx е С[П]ПСЩх0)]:ю(х) = 9j(x|x0) + ^(x), Vx е C[Q]\C[fj(xo)]3 f¿(x) = {<p¿(x)|-} Й F(°):(o>(x) = = ^(x)) V (ro(x) = 9¿(x) + ij(x)),

где ^(x) — аддитивный пространственно-коррелированный стохастический шум наблюдения с неизвестным распределением, матрица корреляции E^2(x) < да которого неизвестна.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. В общем случае fj(xo) й F°).

4. Vx е С[П]ПC[fj(x0)]:ro(x) = 9j(x|x0) + ф). Необходимо:

1) построить процедуру обнаружения Search(Q) целевого изображения fj(x0) на сцене П, а также точечную оценку x+ его центра x0; R-робастную (R — некоторая конечная, положительная константа) к аддитивным, коррелированным шумам ^(x) при условии априорной неопределенности относительно параметров линейного конформного преобразования 0j, Aj, sj:

ix+, if C[fj(x0)] П П = C[fj(x0)]. Search (П) = i .

(0, if C[fj(x0)] П П = 0

2) для заданной величины 0 < a < 1 определить способ построения конечного множества Y, ||Т|| < да, такого что

P(x0 е Y(x+)) > 1 - a.

Метод решения

Для обеспечения стабильности работы алгоритма в условиях коррелированных шумов, нечеткости целевого изображения и неоднородностей сцены, а также для обеспечения устойчивости к влиянию линейных конформных преобразований (сдвиг, поворот и масштаб), решение поставленной задачи сводится к решению задачи классификации (возможно мультиклассовой) в экстремальной постановке, при условии специального способа формирования как обучающих множеств, так и самой поисковой процедуры. Как отмечалось в разделе «Идея метода», бинарная классификация изображения конкретного участка сцены эквивалентна задаче обнаружения (детекции) искомого изображения на сцене, а процедура поиска координат точки максимума функции правдоподобия бинарного классификатора формирует оценку координат центра искомого изображения.

Рассмотрим два множества. 1. Множество (нулевой класс):

= {n(°)(x0)} составляют различные изображения fi = {9,(x|x0)} е F(°°)\fj(x0) целевого объекта °, на фоне

ш(х), при наличии пространственных, коррелированных шумов ^(х), помещенные в соответствующие идеальные рамки Нс(х0|-) с центрами в точке х°.

®i(x) :

VQ(0)(xo) g П(0): П(0)(хо) = {ю,(х)},

Ф^Ы + if х g C[fi(x0)]

us(x) + 4(x), if x g Hf{C[fI.(xo)]}\C[fI.(xo)], Cn?r[Hf{C[f,]}] = x0.

Если изображение П(0)(х0) б П(0) в качестве своего фрагмента содержит ^(х0), будем говорить, что изображение П(°)(х0) основано на £г(х°) и, для удобства символьной записи, обозначать это следующим образом:

0(°)(х°) = БК<х°)],

где В — обозначение того, что изображение П(°)(х°) основано на ^(х°). Изображение П(°)(х°) е П(°) может быть основано только на одном изображении ^(х°).

Координаты точек изображений е определены в одной и той же координатной плоскости, которую назовем единой.

П(°) может быть разбито на «равномасштабные» подмножества: (и^М0) _ П(0), _ 0),

У/УБ^)], Б^л^] е М0): (&£ * 0г2) V Ц _£ = 4 2. Множество (первый класс): П(1) _ {П(1)} составляют связные множества С с С[£г(х°)], £ = {ф г(х|х°)} е на фоне ыл(х), при наличии пространственных, коррелированных шумов 4(х), помещенные в соответствующие «фоновые» рамки Е(хг) различного размера (масштаба).

Множество с 1 с ю г таково, что с,: (е1 < |С[£г(х°)]\сг1 < < £2, ° < £1, £2 < ») V (х° г С,).

У(П(1) е ПО), П(1) = {юг(х)})ЗЕ(хг): |Ух е Е(хг): юг(х) =

_ |ф ,(х|х°) + ^(x), $ х е С I

(и^х) + ^(х), г/х е Н(х¡)\сг

По способу построения П(1) состоит из участков изображений £ е помещенных в «фоновые» рамки, образующих множество С _ {Е(хг)|1)} таким образом, чтобы ни одна рамка из С не захватывала центр изображения х°.

Способ формирования множества фоновых рамок С — критически важен, поэтому рассмотрим его подробнее. Рассмотрим окружность Сгг(х°, г) с центром в точке х° е Ят и радиусом г, при г > °, а также последовательность положительных величин: Ф _ {ф ,|г _ 1, ..., п},

п

Хф,- _ 2п У ||ф г- Фг+111 _ 2п/п. Пусть ^ ГЪ ф, е ф —

г_1 1<,<п-1

полярные координаты некоторой точки [фг, г] е Сгг(х°, г), Д[фг, г] — координаты этой точки в единой координатной плоскости. Множество С рассмотрим в виде множества С^' ф) _ {Еф; |ф,- е Ф}, представляющем собой множество рамок равного размера sz(Уsz _ |Еф; |) такое, что

С^";-ф): Уф, е ФЗ!Е _ Еф е С^";-ф): (За е Л\Е], [ф,, г] е е С,г(х°, г): а _ -0[фг, г]).

Очевидно, что УЕф е С^;' ф):|Еф ПСгг(х°, г)| _ 1.

Множество П(1), подобно множеству П(°), разбито на «равномасштабные» подмножества {М^)}, такие как (и^1) _ ПС1), П,^1) _ 0) и

У(Ус1 с П(1) _ Б[£1] е М«, с2 с П« _ Б£2] е :(0Г! * 0г2) V (£ _ £ _ 4

Множество М(0) и М^) назовем уровнем масштаба

Пусть х[Е(х|ю)] е X с Яр — некая р-мерная функция, вычисленная по изображению ю, помещенному в рамку Е(х|ю). Будем называть эту функцию вектором характеристических параметров (вектором признаков) изображения в рамке Е(х|ю). Как упоминалось ранее, рамка может быть либо фоновой, либо объектовой. По значению %[Е(х|ю)] можно определять тип рамки, т. е. ответить на вопрос: ограничивает ли эта рамка целевой объект, либо она ограничивает фон? Собственно, эта простая идея и лежит в основе предлагаемого в данной работе подхода.

Теперь рассмотрим множество бинарных клас-

сификаторов {CLs}: Vs: CLs: X

CLs

{0,1}. Каждый

CLs настроен для работы с рамкой Е: 3f б Е: Sf, которая является идеальной для некоторого f б F(o), и поэтому имеет масштаб s = Sf. В этом случае каждый CLS обучается на множествах {(x[S(x0|w0 s)], 0)| wö,s 6 W0)} — нулевой класс и {(х[Е(х|^)], 1)| б WW} — первый класс, т. е. классификатор CLS обучен на уровне масштаба s. Иначе: CLS(x[S(x|w)]) = к, к 6 {0,1}, k — номер класса: это решение, которое выносит классификатор CLz(%[S(x|w)]) по значению X[S(x|w)].

V3pcls(x) 6 (0,1), X 6 X: VX[S(x|0] 6 X: p^S^)]) ~ ~ P(C[f(x0)] с S(x|0). (2)

Здесь для x[S(x|f)] 6 X величина P(C[f(x0)] с S(x|f)) представляет собой байесовскую вероятность того, что контур S(x|f), с центром в точке x, содержит контур изображения целевого объекта f и центр контура x = x0. Причем:

(x ф x0) ^ (P(C[f(x0)] с S(x0|f)) >

> P(C[f(x0)] с S(x|f))). (3)

Из импликации (3) сразу следует, что

x0 = Arg Sup P(C[f(x0)] с S(x|f)). (4)

x6C[H*]

Заменим в (4) величину P(C[f(x0)] с S(x|f)) на ее приближение pCLs(x[S(x|f)]), например, на широко известные масштабирование Платта или softmax scaling [10], и рассмотрим оценку x0* в следующем виде:

x0* = Arg Sup PCLS(x[S(x|f)]).

В дальнейшем для простоты вместо PCLS(x[S(x|f)]) и CLS(x[S(x|f)]) условимся использовать более компактные обозначения: (x) и CLS(x) соответственно.

С учетом (2) имеем x0* ~ x0. Таким образом, x0* — оценка искомой величины x0, а величина (x0*) ха-

рактеризует качество этой оценки, так как исходя из выражения (2):

Рсх/хо*) ~ Р(С[«(хо)] с Е(х|!)).

На основании способа обучения сЬ, не может быть эффективен для тех изображений Г, у которых Ф Для того, чтобы преодолеть эту очевидную особенность в условиях произвольного масштаба классифицируемых изображений, используется не один классификатор, а комбинация разномасштабных классификаторов, представляющая собой взвешенную сумму следующего вида:

CLs(x) = X CLs(x)y(Pcls(x)),

seS

(5)

где ХУ(РСЬ (х)) = 1, У(0 > 0, у(0 — строго монотонная,

возрастающая функция; х — дискретное множество допустимых масштабов.

В этом случае для оценки Р(С[^хо)] с Н(хо|1)) используется не Рсь,(х), а величина

Р^) = ХРсь^ЖРсь^)),

seS

где

*0S = Arg SuP Ps(x)-

0 xeC[H*]

Классификационное решение при использовании (5) принимается по правилу: [СЬ,], т. е. по правилу округления к ближайшему целому. В качестве функции

у(0 можно использовать у'(Рсь,(х)) = Рсь/х)( I Рськ(х))-1.

кех

Выбор множества Х, которое определяет априорно просчитанные варианты значений масштаба, описан в разделе «Стабилизация алгоритма...».

Рассмотрим функционал:

А(х|т) = 1 - рх(х) + тсЬ,(х), т > 0. (6)

Очевидно, что А(х0Х)|т) = ЩА(х|т) при условии

х

сЬ,(х0Х)) = 0. При корректном обучении классификатора сЬ, равенство сЬ,(х0Х)) = 0 будет достигаться с высокой вероятностью. В выражении (6) слагаемое тсЬ,(х) выполняет роль штрафной функции. Штрафуются те значения переменной х, при которых классификатор указывает на принадлежность изображения внутри рамки Е к классу (фон или фрагменты нецелевых изображений). Величина т выполняет роль регуляризирующей константы и подбирается в процессе настройки.

Окончательно точечной оценкой величины х0 будем считать величину

(7)

x0+ = Arg Inf A(x|x).

xeC[H*]

Очевидно, что V(f е F(o), х е ОДхо)]): р,(х) = Е(р,(х)) + £(х),

где ^(х) — случайный компонент; Е^(х) = 0.

Для заданного 0 < а < 1 рассмотрим двусторонний

квантиль ^ cа, Р(-са < С(х) < са) > 1 - а, (р(|С(х)1 < са) >

> 1 - а), который вычисляется на стадии предварительного численного анализа, также как и величины

Е(р,(хо)) = 8 > 0 и са. Значение са зависит от свойств изображения, от способа вычисления величины %[Е(х|-), а также от статистических характеристик шумов ^(х).

Теорема. Рассмотрим множество:

Т = {х|рх(х) - 8 < Са.

Пусть Е(рх(х0)) = Мах(Е(рх(х))) = 8.

Тогда Р(х0 е Т) > 1 - а.

Доказательство. Из условия теоремы имеем:

(х = х0) (Е(Рх(х)) = 8). (8)

Обозначим: е^ = са - £(х). Очевидно, что

Vx е Т: (|^(х)| < с„) ^ (е? > 0). (9)

Далее:

Vx е Т: (|£(х)| < с„) ^ (рх(х) - 8) = = Е(рх(х)) - 8 + £(х) < Са) ^ Е(рх(х)) - 8 < е?. (10)

При (|£(х)| < са), х е Т, из условия теоремы следует, что значения величины (Е(Рх(х)) - 8) могут принимать любое значение из интервала Е^ = (-», е^), причем, с учетом (9), 0 е Е^, поэтому (10) можно записать в следующем виде:

Vx е Т: (|£(х)| < с„) ^ (Е(рх(х)) - 8) е Е^) ^

^ (Е(рх(х)) - 8 = 0 е ес). (11)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Из (8) и (11) имеем:

Vx е Т: (|£(х)| < с„) ^ (Е(рх(х)) - 8 = 0 е Е^) ^

^ (х0 е Т). (12)

Из (12) следует, что:

(Р(|С(х)| < са) > 1 - а) ^ (Р(х0 е Т) > 1 - а).

Теорема доказана.

Предложенный метод формирования доверительного множества во многом аналогичен методу, предложенному в [11-13]. Результаты этой теоремы состоят не только в способе определения доверительного множества для величины х0, но и в способе принятия решения о том, является ли Е(х|-) идеальной рамкой для целевого изображения? Иначе говоря: насколько вероятно то, что Е(х|-) содержит большую часть контура с[^(хо)] целевого изображения ^(хо)? Правило простое: (Рх(х) < са + 8) ^ (Р(^о) £ Е(х|-)) > 1 - а).

Выбор вектора признаков

Вектор признаков %[Е(х|ю)] е X с Яр вычисляется по части изображения ю, которое попало внутрь рамки Е. С одной стороны, величина р (размерность %) должна быть минимизирована с целью снижения требований к мощности вычислителя. С другой стороны, слишком малое значение р понизит надежность обнаружения целевого изображения. Как правило, изображение имеет ключевые точки, которые в значительной мере характеризуют его индивидуальность, а следовательно,

и распознаваемость. Потому для конкретного изображения желательно выделять эти точки и формировать вектор % в их окрестностях. Например, это могут быть границы контура, углы или иные значимые особенности. Для выделения ключевых точек традиционно используются такие методы как SIFT, FAST, ORB, SURF. Однако многочисленные эксперименты показали, что все эти подходы теряют работоспособность в условиях интенсивных коррелированных помех и размытых контуров. В настоящей работе рассмотрены именно такие условия. В качестве альтернативы можно найти информативные области изображения с использованием кластерного анализа либо метода главных компонент. Но эти методы довольно затратны в вычислительном аспекте, что вступает в противоречие с необходимостью обеспечения функционирования системы в реальном масштабе времени. В рамках настоящей работы % представлен в следующем виде:

%[Е(х|ю)] = (Е(х|ю)[х1], ..., Е(х|ю)[хр]) б RP, V xi 6 Е(х|ю): ||xi+i - xi|1 = 0,

1<i<P

где 0 > 0, Е(х|ю)[х,] = ю(х,);p < х^; |Е(х|ю)| = (xs, ys).

С одной стороны, при малом p, вычисление % указанным образом предъявляет минимальные требования к мощности вычислителя, необходимой для его определения в реальном масштабе времени. Но с другой, — большие значения размерности %, приближающиеся к х£ун, обуславливают повышение вычислительной нагрузки при решении задачи (7). Исходя из этого, выбор параметра p (количество тестовых точек) представляет собой крайне важную задачу и осуществляется на этапе настройки системы на множество целевых изображений. В значительной степени на величины параметра p оказывает значение радиуса корреляции изображения, который определяет ширину автокорреляционной функции вблизи ее максимума и характеризует гладкость изображения. Следует заметить, что чем более гладким является изображение, тем меньше локальных экстремумов у функционала А(х|т), и тем проще решение задачи (7). Но, с другой стороны, гладкие изображения — неинформативны, системе поиска целевого изображения не за что «зацепиться», что приводит к снижению надежности поисковой процедуры. Результаты численного исследования влияния значения параметра p на эффективность работы поисковой системы приведены в разделе «Исследование алгоритма на реальных изображениях».

Классификатор

В качестве алгоритма классификации использован классический SVM (Support Vector Machine) [14], который в сравнении с альтернативами (Gradient Boosting [15, 16], XGBoost [17]), обеспечил высокую продуктивность и надежность. Также для решения задачи классификации может быть использована и конволюци-онная нейронная сеть, но для ее обучения потребуется большая мощность обучающих корпусов, поэтому этот вариант реализации классификатора в настоящей работе не рассмотрен.

Стабилизация алгоритма: неформальное описание способов обеспечения устойчивости к линейным конформным преобразованиям

Сцена, на которой предстоит найти объект 1 может быть зашумлена пространственно-коррелированной помехой, но, и это значительно усложняет задачу, объект может присутствовать на сцене в неизвестном масштабе и с неизвестным углом поворота. Формально основные методы обеспечения устойчивости метода к неопределенности такого рода были описаны в разделе «Метод решения», а в этом разделе будут приведены некоторые неформальные пояснения их сути.

Обеспечение устойчивости поиска к влиянию пространственно-коррелированной помехи. Поисковая процедура призвана минимизировать (оптимально до нуля) сдвиг между центром х0 искомого изображения 1|(хо) на сцене О и центром поисковой рамки. Для обеспечения устойчивости поисковой процедуры совместно использовались два подхода.

Первый подход касается самого способа формирования обучающих множеств и П(1), используемых при обучении системы поиска. Искомый класс, представленный элементами из составляют изображения П(°)(хо) е О(°), П(°)(хо) = В[1(хо)], геометрические центры которых помещены в центры рамок Ег.(хо|и>о,), 1 е Из самого способа построения этого множества следует, что максимальная степень правдоподобия рсь (%[Е(х|-)]) будет у тех х, которые располагаются достаточно близко к искомой величине х0.

Второй подход касается фонового класса и построен так, что за пределами области с/г(хо, г) все участки изображений 1 е в смеси с шумами и фоном, попавшие в рамки Е(х|и^,), такие как |с/г(хо, г)П Е(х|и^ ,)| < 1, относятся к фоновому классу (первый класс). Такой способ построения обучающих множеств, при использовании поисковой процедуры оптимизационного типа, позволяет довольно эффективно оценивать х0 в условиях пространственно-коррелированной помехи, обеспечивая устойчивость поисковой процедуры. Рис. 2 иллюстрирует способ формирования множеств и Здесь белая рамка соответствует классу черные рамки — классу Черный пунктирный круг обозначает с/г(хо, г), черная точка — местоположение центра изображения хо е Ят, которое подлежит оцениванию.

Рис. 2. Формирование обучающих множеств Fig. 2. Training sets formation

Обеспечение устойчивости к масштабу. Обеспечение устойчивости к масштабу сводится к определению состава множества S, которое назовем масштабной сеткой. Априорно задается диапазон допустимого изменения масштаба s в виде замкнутого интервала S = (smín> smax), s е S. Внутри S определяется конечное упорядоченное множество точек («сеть»):

S = {si\i = 1 • • •, nS}: (s1 = smín, sn = smax,

V : (si+i - si) = US =

1<i<n-1

где % — параметр шага сетки S.

Если V : (si+1 - s¡) = us, то сеть называется ре-

1<i<n-1

гулярной. Численные эксперименты показали, что величина nS не обязательно должна быть значительной. Например, для практически удовлетворительного функционирования системы обнаружения, при \S\ = 0,25 (25 % уровень различия в масштабах), достаточно, чтобы nS = 5, т. е. % = 5%. В общем случае для получения практически приемлемых результатов сеть S не обязательно должна быть регулярной. Вопрос оптимального выбора us, представляет собой отдельное исследование, и в значительной степени определяется помеховой обстановкой (матрицей пространственной корреляции шума E^(x1)4(x2) и его распределением), а также корреляционными свойствами изображений.

Обеспечение устойчивости к повороту. По аналогии с обеспечением устойчивости к масштабу, для устойчивости к повороту вводится множество ©, которое назовем ротационной сеткой. Множество © состоит из априорно определенных значений углов поворота 0¿ целевого изображения f вокруг точки *о.

© = {0/\i = 1, •••, n©}: (а1 = 0, Gn© = 2п,

V : (0¿+1 - 0i) = и© = 2nn©-1),

1<i<n-1

где U© — шаг сетки ©.

Для Ft°), L и S допустима следующая запись:

V(l е L, 0 е ©, s е S)3!f(s,G)(x0) е F°): f(s,G)(x0) = = A(0, 0, sf^),

где L — множество индексов опорных изображений, определенное в разделе «Определения и обозначения».

Мощность ротационной сетки n© принята равной 72, что соответствует шагу углового перебора и© = 5°. Численные эксперименты показали, что и© = 5° оказался достаточным для обеспечения робастности алгоритма к поворотам искомого изображения.

Поисковая процедура

Процедура поиска экстремума (7) является важным пунктом при реализации предлагаемого подхода. Основные требования к поисковой процедуре: устойчивость к шумам, минимизация числа вычислений целевого функционала A(x\x) в процессе поиска, а также высокая вероятность нахождения глобального экстремума. Начальная точка поиска на сцене П, в которой предположительно может находиться целевое изобра-

жение f/x0), определена методами грубого обнаружения. Например, для этой цели может использоваться поточечный пороговый классификатор, который принимает решение о том, что на фрагменте присутствует фон в том случае, когда изменение яркости в данной точке изображения во времени меньше некоторого порогового значения. В противном случае принимается решение о том, что в данной части сцены может присутствовать целевой объект. При анализе динамических сцен могут быть использованы различные варианты методов вычитания. Описание этих алгоритмов не рассмотрены в настоящей работы. Так как в общем случае функционал A(x|t) является многоэкстремальным, для обеспечения высокой вероятности схождения к глобальному экстремуму поисковая процедура является двухэтапной.

Задача первого этапа: определение точки xGlob из области притяжения глобального экстремума.

Задача второго этапа: «быстрый» поиск точки глобального экстремума (точки x0), начиная от точки xGlob.

Для первого этапа функционал A(x|t) модифицируется таким образом, чтобы сделать область притяжения глобального экстремума более «широкой», пусть и с потерей точности. Для этой цели на этапе обучения в состав множества искусственно добавляют образцы w(0 6 W0), такие как E(x0 + ?¿|w0')), где q¡ — случайные величины, = 0, Eq¡2 < £<_. Гладкость функционала A(x|x) достигается подстройкой параметров SVM-классификатора (т и у).

Изображения на рис. 3, а, b соответствуют «широкой» процедуре поиска Ai(x|t), а на рис. 3, c, d — «узкой» процедуре поиска A2(x|t).

Структура функционала A,(x|t) для каждого этапа основывалась на различных настройках SVM-классификатора CLs(). В частности, для Aj(x|t) использовалось сигмоидное ядро (гиперболический тангенс), а для A2(x|t) — классический RBF (Radial Basis Function).

Гиперпараметры SVM подбирались для каждого этапа индивидуально. В качестве алгоритма поиска применен эффективный метод Нелдера-Мида [18], который не использует производную от функционала A,(x|t). На каждой итерации поиска процедура Нелдера-Мида оценивает: насколько далеко центр x¡+ поисковой рамки H(x¿+) отстоит от точки экстремума целевого функционала A,(x|t). Экстремум функционала соответствует оценке величины x0, а k — номер итерации. Процесс поиска останавливается по определенному правилу, момент останова соответствует точке x+, которая объявляется оценкой для xo. В процессе численных экспериментов среднее число поисковых итераций при определении величины x+ составило величину равную 12, а среднее число вычислений значения целевого функционала — в диапазоне 30-40 (зависит от значения параметраp). В численных экспериментах, в качестве показателя точности оценивания координат экстремальной точки функционала A,(x|t), использовалась статистическая оценка величины

E||x+ - x0||,

где x+ — полученная в результате поиска оценка целевого параметра.

X, M

Рис. 3. Вид функционала Д,(х|т) процедуры поиска для первого (а, b) и второго (с, d) этапов Fig. 3. View of the search procedure functional А,(х|т) for the first (a, b) and second (с, d) steps

y, M

Для оценки Е||х+ - хо|| процедура поиска запускалась N раз, с различными начальными условиями и различными реализациями шумового искажения. При практической реализации алгоритма, согласно Теореме, останавливать процесс поиска можно в момент г+ = А^Мш{/|рсь(%[Е(х1-+)]) > са Ф 8}. В этом случае:

г

х+ = хг++. Кроме этого способа, в процессе численного исследования использовались и иные критерии останова. В процессе вычислительных экспериментов полагалось N = 5.

Результаты исследования алгоритма

Качество функционирования предложенного алгоритма исследовалось на размытых изображениях различного типа, соответствующих разным уровням помеховой обстановки. В том числе рассматривались как искусственные модели, так и реальные изображения.

Исследование на искусственных изображениях.

Рассматривались две модели изображений:

1. «Острая» модель: радиус корреляции в центре 12, г(х, у) = АДО + Бу)(1 + Вх)]-1 + 4(х, у), где х, у — независимые переменные; г — ордината. А1 = 10, Бу = (у - (-50 + су)0,2)2, Бх = (х - (-50 + сх)0,2)2, где сх, су — координаты центра искомого изображения, сх = 46, су = 48.

2. «Плоская» модель: радиус корреляции в центре равен 18. г(х, у) = АДх, у) + ^2^(х, у) + £(х, у), где 4(х, у) — пространственно распределенный, коррелированный шум; Д(х, у) = 81п(2х)81п(у)(х, у)-1; и(х, у) = = 81п(с2 + х^ВД + у)((с2 + х)(с1 + у))-1; с1 = 2,5; с2 = 2,2; А1 = 10; А2 = 10.

На рис. 4, а представлены изображения тестовой функции «плоская» модель, а на рис. 4, Ь — «острая» модель.

Функции отличаются значениями величин радиусов корреляции. Верхние фрагменты обоих частей содержат по четыре изображения, соответствующие различным вариантам аддитивного шума, который представлял собой гауссово поле ^(х, у) с Е^(х, у) = 0 и значениями дисперсии Е^2(х, у) е {0,1,2,4}, при пространственной корреляции на уровне 0,3.

Рис. 4. Изображения тестовых функций с различными радиусами корреляции: «плоская» (а) и «острая» (b) модели Fig. 4. Images of test functions with different correlation radii: "flat" (a) and "sharp" (b) models

На рис. 5 представлены результаты сравнения точности классического корреляционного метода и предложенного метода на «плоской» (рис. 5, а) и на «острой» (рис. 5, Ь) моделях, в зависимости от размера рамки (БЬТ — полуширина поисковой рамки, БЬТ = |Н(-)|2-1) при различных дисперсиях шумов. Рис. 5, а, Ь содержат по четыре изображения, соответствующие величинам Е^2(х, у) е {2,4,6,8}. Параметр точности на оси ординат: оценка величины АЕ(х+, х0) = = 100Е||х+ - хо|Н|хо||-1. Из экспериментального материала следует, что с возрастанием величины Е^2(х, у) параметр АЕ(х+, хо) увеличивается, т. е. точность плавно ухудшается. Однако существенно большее значение имеет размер поисковой рамки. Для рассмотренных моделей оптимальный размер рамки совпадает с размером «идеальной» рамки, при котором обеспечивается оптимальная точность. Для обеих моделей оптимальный размер рамки равен 24. Из данных эксперимента следует, что модель с меньшим радиусом корреляции («острая») обеспечила 25-30 % преимущество по точности. Важно, что классический корреляционный метод оценивания хо существенно проигрывает предложенному методу по точности. Например, при |Е(-)| = 24 проигрыш по точности составляет около 100 %.

На рис. 6 представлена зависимость точности оценивания х0 предложенным методом в виде зависимости

параметра АЕ(х+, х0) от полуширины поисковой рамки БЬТ, для случая «плоской» модели при различных величинах Е^2(х, у) е {1,2,4,6,8}. Для оптимального размера рамки (|Е(-)| = 24) параметр АЕ(х+, х0) — минимален, т. е. достигнута наилучшая точность. С другой стороны, что ожидаемо, увеличение параметра Е^2(х, у) ухудшает точность оценивания, но достаточно плавно. Таким образом, алгоритм робастен к шумам.

На рис. 7 представлена зависимость величины АЕ(х+, х0) от степени зашумления изображения Е^2(х, у) е {1, ..., 15}, для моделей разного радиуса корреляции («плоская»: серый график и «острая»: черный график). Радиусы корреляции в центре, соответственно, 12 и 18. Здесь |Е(-)| = 24. Из графика следует, что модель с большим радиусом корреляции («плоская») проигрывает по точности модели с меньшим радиусом корреляции («острая»). Проигрыш примерно на уровне 25-30 %. При увеличении дисперсии шума точность ухудшается для обоих изображений, но деградация точности носит достаточно плавный характер, что свидетельствует о робастности алгоритма к аддитивному шуму.

На рис. 8 представлена зависимость точности от Е^2(х, у) е {1, ..., 15} для «широкой» модели с 95 % доверительными интервалами для величины АЕ(х+, х0). Здесь |Е(-)| = 24. Доверительные интервалы изображены вертикальными отрезками.

Дисперсия шума 2 Дисперсия шума 4

Дисперсия шума 2

Дисперсия шума 4

Рис. 5. Сравнения точности оценивания классического и предложенного методов для «плоской» (а) и «острой» (b) моделей Fig. 5. Comparisons of estimation accuracy of classical and proposed methods for "flat" (a) and "sharp" (b) models

Для исследования робастности алгоритма к воздействию аддитивных шумов рассмотрена следующая функция:

Ф(г + 1) = (Е||х++1 - хо||/Е||х+ - хо||)(Е^+1(х)Щ2(х))-1 V/ > 0: Е^2+1(х) = Е^2(х) + 1.

Поведение Ф(/ + 1), г > 0 наглядно демонстрирует темп ухудшения точности при увеличении дисперсии

Рис. 6. Точность оценивания x0 в зависимости от размера рамки и дисперсии шумов Fig. 6. Estimation accuracy of x0 as a function of frame size and

аддитивного шума. Согласно (1), для того чтобы алгоритм был К-робастен к аддитивному шуму, достаточно, чтобы V/ > 0: [(Е^2+1(х) < К) ^ (Ф(/ + 1) < 1)]. В эксперименте использовалась «широкая» модель при |Н(-)| = 24. Из рис. 9 следует, что Ф(/ + 1) < 1, при увеличении Е^2(х) от 1 до 14, при этом Ф(/ + 1) возрастает достаточно плавно. Иначе говоря, предлагаемый алгоритм для данного изображения оказался К-робастным для К = 14.

На рис. 10 представлена зависимость величины Б1аш(Т)||хо||-1 относительного диаметра байесовского доверительного множества Т для величины хо при раз-

S

noise variance

4 6 8 10 12 Дисперсия помехи

Рис. 7. Зависимость математического ожидания относительной ошибки от величины дисперсии помехи для

двух изображений с различными радиусами корреляции Fig. 7. The dependence of the relative error expectation on the noise variance for two images with different correlation radii

о4

f4

6 8 10 12 Дисперсия помехи

Рис. 8. Зависимость величины математического ожидания относительной ошибки от величины дисперсии помехи

(с 95 % доверительными интервалами) Fig. 8. Dependence of the relative error expectation on the interference variance (with 95 % confidence intervals)

4 6 8 10 Д исперсия помех

Рис. 9. Робастность алгоритма к влиянию аддитивного шума

Fig. 9. Robustness of the algorithm to the additive noise

2 4 6 8 10

Д исперсия помех

Рис. 10. Зависимость диаметра 95 % доверительного интервала для x0 от дисперсии аддитивного шума Fig. 10. Dependence of the diameter of the 95 % confidence interval for x0 on the additive noise variance

личных дисперсиях аддитивных помех. Здесь DLT = 11, P(x0 б Y) > 0,95, а численные исследования реализованы для «широкой» модели. Из приведенной зависимости следует, что величина Diam(Y)||xo||-1 находится в практически приемлемых границах (не превышает 10 %) при сравнительно небольших шумах. А начиная с некоторого значения E^2(x, y) (в конкретном примере, с величины дисперсии 5) резко возрастает. В этой связи имеет смысл использовать доверительное множество Y для небольших дисперсий шумов. Практически, это вполне допустимое ограничение.

Исследование алгоритма на реальных изображениях

На рис. 11-14 приведены результаты работы алгоритма на четырех реальных сценах:

— оригинальные и зашумленные (размытые) сцены (рис. 11-14, а, b). Поступающие на обработку, зашумленные сцены соответствуют E^2(x, y) = 7, коэффициент пространственной корреляции шума 0,3. Поиск искомого изображения происходит на искаженной помехами сцене;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— автокорреляционные функции сцен по двум осям в точке x0 для исходного и зашумленного изображений (рис. 11-14, c, d);

— результаты поиска целевой картинки на зашум-ленном изображении (рис. 11-14, e). По оси ординат отложена относительная ошибка оценивания AE(x+, xo), в процентах, а по оси абсцисс — величина E^2(x, y) е {1, ..., 10}. Приведены 95 % доверительные интервалы для AE(x+, x0). В целом результаты работы алгоритма хорошие.

Для сцены «трактор на фоне песчаного грунта» (рис. 11) при E^2(x, y) < 5 имеем AE(x+, x0) < 2 %, обеспечение вероятности правильной классификации типа объекта 100 %.

Случай «автомобиль на фоне лиственного леса» (рис. 12) — самый сложный. Но и тут: для E^2(x, y) < 2 имеем AE(x+, x0) < 5 %. Вполне приемлемый практически результат.

Случаи на рис. 13 и 14 — сравнительно просты для предложенного алгоритма, и он справляется с ними довольно уверенно.

Для сцен, изображенных на рис. 11-14, и соответствующих им типов искомых изображений, множества Q(0) и Q(1) для этапа настройки (обучения) системы формировались по одной и той же схеме.

Шаг 1. Множество U П(1)(|П(0) U = 500) составляют зашумленные образцы сцен, и определено его разбиение на уровни Щ°) U Щ1) масштаба s, в соответствии с масштабной сеткой S(L) = {s¿|/ = 1,., ns}, ns = 5, шаг us = 5 %.

Шаг 2. Каждый уровень масштаба s е S(L%) содержит такие изображения oSL^o) = B[f(s,0,l)(x0)], что

Vf(sA0(x0)3(/ е L, 0 е 0(L), k е

:[®k(x0)(x) = f^^Xx) + 4L)(x)í,

где fO,0,')(x0)(x) = A (0, 0, s f^Xx), QS^x 0) = = {®k(x0)(x)|k е NL);, xе С^/Ы]}, nf¡¡ = OSL);^,

= a nSL),;}.

4 6 8

Дисперсия помехи

Рис. 11. Изображение «трактор на фоне песчаного грунта»: оригинальная (а) и зашумленная (размытая) (b) сцены; автокорреляционные функции (с, d) и результаты поиска целевой сцены на зашумленном изображении (e) Fig. 11. The image "tractor on sandy ground": original (a) and noisy (blurred) (b) scenes; autocorrelation functions (с, d) and the

result of searching for the target scene on the noisy image (e)

Ротационная сетка ©(L) такова, что и0(ь) = 72, а шаг углового перебора и0 = 5°.

На этапе обучения системы, для оценивания обобщающей способности, использовалась стандартная схема скользящего контроля, иначе называемая CV (Cross Validation), в варианте LOO (leave-one-out). Для обеспечения этапа тестирования множество П(0)У П(1) не используется. Напротив, формируются множества следующего типа:

ПСТ = {^/Ы^/Ы = B[f*A0(xo)]},

где

VßÄ,6,/)(x0)3(/ б L, G 6 0(T), s 6 S(T), к 6 Nfe/):

:а>*Ы(х) = К^ЫМ + #>(х). п$/х0) = {а^(х0)(х)|ке Л$,/, хе С^Ы]},

= |"7/х0)|, N8/ = {!, ., "%}.

Принципиально важно то, что Ух,г:^(7)(х) ф ^(7)(х), 0(7) ф 0(£), а М7) ф $£). Неформально: помехи — различны, ротационные сетки — различны, масштабные сетки — различны. |П(7)| = 500.

4 6 8

Дисперсия помехи

Рис. 12. Изображение «автомобиль на фоне лиственного леса»: оригинальная (а) и зашумленная (размытая) (b) сцены;

автокорреляционные функции (с, d) и результаты поиска целевой сцены на зашумленном изображении (e) Fig. 12. The image "car on the background of a deciduous forest": original (a) and noisy (blurred) (b) scenes; autocorrelation functions (с, d) and the result of searching for the target scene on the noisy image (e)

Все изображения, которые исследовались в процессе численных экспериментов, были г-гладкими, для г = 0,5. Методы SIFT, SURF, ORB и FAST оказались совершенно неработоспособны для изображения рассматриваемого типа.

Важный вопрос представляет собой выбор параметра p (число тестовых точек внутри поисковой рамки S). Этот вопрос исследован на реальных изображениях нескольких типов. На рис. 15 приведены результаты этого исследования для случая, когда целевой класс представлял собой смесь из изображений двух типов

(классов). Первый тип: «автомобиль на фоне асфальтового дорожного покрытия» и второй тип: «микроавтобус на фоне асфальтового покрытия». Использование «смесевого» класса, в качестве целевого, было сделано с целью демонстрации способности алгоритма устойчиво обнаруживать объекты, принадлежащие высоко вариабельному по составу классу, надежно отличая их от фона и достоверно оценивая их центр. Пример фрагмента корпуса, который использовался для обучения, приведен на рис. 15, а-г. Данная совокупность изображений приведена исключительно с целью де-

i t" iE ■

" ' J if « IL

: Я

Kfc «

ï Я

f

g 0,6 я

& 0,0 §

о

4 6 8

Дисперсия помехи

Рис. 13. Изображение «автомобиль на фоне асфальтового дорожного покрытия»: оригинальная (а) и зашумленная (размытая) (b) сцены; автокорреляционные функции (с, d) и результаты поиска целевой сцены на зашумленном изображении (e) Fig. 13. The image "car on the background of the asphalt road surface": original (a) and noisy (blurred) (b) scenes; autocorrelation functions (с, d) and the result of searching for the target scene on the noisy image (e)

монстрации чрезвычайного низкого качества визуального материала, который способен эффективно обрабатывать предлагаемый алгоритм. Очевидно, что исходные изображения сильно размыты и зашумлены. Так как рассматривается «смесевой» класс, часть картинок относится к изображению легкового автомобиля (рис. 15, а-с, g, И), а часть — к изображению микроавтобуса (рис. 15, г). На рис. 15,у представлен график зависимости показателя точности (параметр АЕ(х+, хо), с 95 % доверительными интервалами), оценивания параметра хо в зависимости от значения параметра р. На

графике доверительные интервалы представлены вертикальными черными отрезками. Из графика следует, что наилучшее оценивание достигается при значении р = 1936. Но этому случаю соответствуют и наибольшие вычислительные затраты. По мере уменьшения величины р, точность плавно ухудшается, но даже для случая р = 176 (меньше «оптимальной» почти в 11 раз), величина АЕ(х+, хо) < 3,3 %, что вполне приемлемо с практической точки зрения.

Выполнено исследование влияния на устойчивость и точность решения поисковой задачи фактора рас-

4 6

Дисперсия помехи

Рис. 14. Изображение «автомобиль на фоне грунтового дорожного покрытия»: оригинальная (а) и зашумленная (размытая)

(b) сцены; автокорреляционные функции (с, d) и результаты поиска целевой сцены на зашумленном изображении (e) Fig. 14. The image "car on the background of the unpaved road surface": original (a) and noisy (blurred) (b) scenes; autocorrelation functions (с, d) and the result of searching for the target scene on the noisy image (e)

согласованности масштабных сеток и Этот случай критически важен, так как точное совпадение масштабов изображения, на котором система была обучена, с масштабом s(curr') текущего изображения, на практике реализуется с очень низкой вероятностью. Есть все основания считать, что s(curr') £

На рис. 16 приведены результаты исследования влияния несовпадения масштабов для ситуации, когда искомый класс состоял из смеси изображений двух типов (автомобиль и микроавтобус). Для тестирования

принято: ДО ф ДО, причем: ДО = {0, 8, 16, 20, 25}, а ДО = {0, 1, ..., 45}, т. е. | ДО П ДО | = 5. Устойчивость поисковой системы характеризуется зависимостью показателя «вероятность правильного обнаружения объекта» (Рев) от значения параметра масштаба 5 (рис. 16, а). Точность поисковой системы характеризуется параметром средней ошибки оценивания координат центра искомого изображения (параметр (АЕ(х+, х0)) в зависимости от значения параметра масштаба 5 (рис. 16, Ь). Горизонтальная линия ограничива-

1936 968 660 484 396 352 308 264 220 176 Количество тестовых точек в рамке, р

Рис. 15. Выбор количества тестовых точек внутри поисковой рамки (p): фрагмент корпуса, на котором производилось тестирование (а-i); величины AE(x+, x0) с 95 % доверительными интервалами для различных

значений параметра p (j) Fig. 15. Selection of the number of test points within the search frame (p): fragment of the corpus on which testing was performed (a-i); average errors of the algorithm, with 95 % confidence intervals, for different values of parameterp j)

ет уровень 5 %, черные точки на рис. 16, b обозначают элементы S(L), черная точка на рис. 16, a — граничное значение из S(L) равное 25. Из рис. 16 следует, что система поиска сохраняла приемлемую точность AE(x+, x0) < 4 % (рис. 16, b) и устойчивость (рис. 16, a) вплоть до значения s = 29. Хотя «ближайшее» к этой точке значение масштаба из S(L) равнялось лишь 25. Причем зависимости на рис. 16 вполне согласованы между собой: на интервале (0, 25) система функционировала ожидаемо удовлетворительно PCD > 0,99, AE(x+, xo) < 4 %, а на интервале (26, 29) продолжала оставаться работоспособной, обеспечивая PCD > 0,99, AE(x+, xo) < 5 %. Быстрая деградация системы поиска началась примерно от значения s = 30, а уже при s = 35 было получено Pcd = 0,7, что неприемлемо практически. Таким образом, для обеспечения устойчивости

0 4 8 12 16 20 25 30 35 40 45 Параметр масштаба, s

Рис. 16. Зависимости эффективности поиска от значения

параметра масштаба s: вероятности правильного обнаружения объекта (Pcd) (а); величины AE(x+, x0) (b) Fig. 16. Dependence of search efficiency on scale mismatch: dependence of the probability of correct object detection on the value of the scale parameter s (а); dependence of AE(x+, x0) on the value of the scale parameter s (b)

алгоритма к фактору рассогласования масштабов, на интервале (0, 25), оказалось достаточно иметь всего пять опорных точек, составляющих множество $L), в которых происходит машинное обучение системы.

Вывод: обученная (настроенная) описанным образом система сохраняет работоспособность для масштабов S(T)\S(L), обеспечивая AE(x+, x0) < 5 % при PCD > 0,99.

Заключение

Метод, предложенный в настоящей работе в первую очередь предназначен для работы с изображениями низкого качества и малого размера, с плохо выраженными контурами. Численные исследования подтвердили его практическую работоспособность, а также состоятельность основных теоретических предпосылок. Для реализации метода на мобильной платформе потребуется перевод алгоритмов под архитектуру последовательного выполнения команд и в среде параллельных вычислений CUDA.

Литература

1. Lowe D.G. Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image. Patent US 6711293B1. 2004.

2. Bay H., Ess A., Tuytelaars T., Van Gool L. Speeded-Up Robust Features (SURF) // Computer Vision and Image Understanding. 2008. V. 110. N 3. P. 346-359. doi: 10.1016/j.cviu.2007.09.014

3. Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An efficient alternative to SIFT or SURF // Proc. 2011 International Conference on Computer Vision (ICCV). 2011. P. 2564-2571. doi: 10.1109/ICCV.2011.6126544

4. Rosten E., Drummond T. Fusing points and lines for high performance tracking // Proc. 10th IEEE International Conference on Computer Vision (ICCV). 2005. V. 2. P. 1508-1515. doi: 10.1109/ICCV.2005.104

5. Vijaya Kumar B.V.K., Mahalanobis A., Juday R.D. Correlation Pattern Recognition. Cambridge University Press, 2005. 390 p. doi: 10.1017/CB09780511541087

6. Тарасенко В.П., Тимофеев А.В. Доверительное оценивание точности совмещения в корреляционно-экстремальных системах // Автометрия. 1990. № 4. P. 106-111.

7. Kober V., Campos J. Accuracy of location measurement of a noisy target in a nonoverlapping background // Journal of the Optical Society of America A. 1996. V. 13. N 8. P. 1653-1666. doi: 10.1364/J0SAA.13.001653

8. Kim H.Y., De Araujo S.A. Grayscale template-matching invariant to rotation, scale, translation, brightness and contrast // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2007. V. 4872. P. 100-113. doi: 10.1007/978-3-540-77129-6_13

9. Korman S., Reichman D., Tsur G., Avidan S. FAsT-Match: Fast Affine Template Matching // Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2013. P. 2331-2338. doi: 10.1109/CVPR.2013.302

10. Rflping S. Robust Probabilistic Calibration // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2006. V. 4212. P. 743-750. doi: 10.1007/11871842_75

11. Timofeev A.V. Non-asymptotic sequential confidence regions with fixed sizes for the multivariate nonlinear parameters of regression // Statistical Methodology. 2009. V. 6. N 5. P. 513-526. doi: 10.1016/j.stamet.2009.05.002

12. Timofeev A.V. The guaranteed estimation of the Lipschitz classifier accuracy: confidence set approach // Journal of the Korean Statistical Society. 2012. V. 41. N 1. P. 105-114. doi: 10.1016/j.jkss.2011.07.005

13. Timofeev A.V. Nonasymptotic confidence sets of prescribed dimensions for parameters of nonlinear regressions // Automation and Remote Control. 2009. V. 70. N 2. P. 233-243. doi: 10.1134/S0005117909020052

14. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000. XIII, 197 p. doi: 10.1017/CB09780511801389

15. Mason L., Baxter J., Bartlett P., Frean M. Boosting algorithms as gradient descent // Advances in Neural Information Processing Systems. 2000. P. 512-518.

16. Friedman J.H. Greedy function approximation: a gradient boosting machine // Annals of Statistics. 2001. V. 29. N 5. P. 1189-1232. doi: 10.1214/aos/1013203451

17. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proc. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA. 2016. P. 785-794. doi: 10.1145/2939672.2939785

18. Nelder J.A. Mead R. A simplex method for function minimization // The Computer Journal. 1965. V. 7. N 4. P. 308-313. doi: 10.1093/comjnl/7.4.308

Автор

Тимофеев Андрей Владимирович—доктор технических наук, научный

директор, ТОО «Эквалайзум», Астана, 010000, Казахстан,Щ56689367600,

https://orcid.org/0000-0001-7212-5230, timofeev.andrey@gmail.com

Статья поступила в редакцию 21.01.2021 Одобрена после рецензирования 11.02.2021 Принята к печати 16.03.2021

References

1. Lowe D.G. Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image. Patent US 6711293B1, 2004.

2. Bay H., Ess A., Tuytelaars T., Van Gool L. Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding, 2008, vol. 110, no. 3, pp. 346-359. doi: 10.1016/j.cviu.2007.09.014

3. Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An efficient alternative to SIFT or SURF. Proc. 2011 International Conference on Computer Vision (ICCV), 2011, pp. 2564-2571. doi: 10.1109/ICCV.2011.6126544

4. Rosten E., Drummond T. Fusing points and lines for high performance tracking. Proc. 10th IEEE International Conference on Computer Vision (ICCV), 2005, vol. 2, pp. 1508-1515. doi: 10.1109/ICCV.2005.104

5. Vijaya Kumar B.V.K., Mahalanobis A., Juday R.D. Correlation Pattern Recognition. Cambridge University Press, 2005, 390 p. doi: 10.1017/CB09780511541087

6. Tarasenko V.P., Timofeev A.V. Confidence estimation of registration precision in correlation-extreme systems. Avtometriya, 1990, no. 4, pp. 106-111. (in Russian)

7. Kober V., Campos J. Accuracy of location measurement of a noisy target in a nonoverlapping background. Journal of the Optical Society of America A, 1996, vol. 13, no. 8, pp. 1653-1666. doi: 10.1364/J0SAA.13.001653

8. Kim H.Y., De Araujo S.A. Grayscale template-matching invariant to rotation, scale, translation, brightness and contrast. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2007, vol. 4872, pp. 100-113. doi: 10.1007/978-3-540-77129-6_13

9. Korman S., Reichman D., Tsur G., Avidan S. FAsT-Match: Fast Affine Template Matching. Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013, pp. 2331-2338. doi: 10.1109/CVPR.2013.302

10. Ruping S. Robust Probabilistic Calibration. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2006, vol. 4212, pp. 743-750. doi: 10.1007/11871842_75

11. Timofeev A.V. Non-asymptotic sequential confidence regions with fixed sizes for the multivariate nonlinear parameters of regression. Statistical Methodology, 2009, vol. 6, no. 5, pp. 513-526. doi: 10.1016/j.stamet.2009.05.002

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12. Timofeev A.V. The guaranteed estimation of the Lipschitz classifier accuracy: confidence set approach. Journal of the Korean Statistical Society, 2012, vol. 41, no. 1, pp. 105-114. doi: 10.1016/j.jkss.2011.07.005

13. Timofeev A.V. Nonasymptotic confidence sets of prescribed dimensions for parameters of nonlinear regressions. Automation and Remote Control, 2009, vol. 70, no. 2, pp. 233-243. doi: 10.1134/S0005117909020052

14. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000, XIII, 197 p. doi: 10.1017/CB09780511801389

15. Mason L., Baxter J., Bartlett P., Frean M. Boosting algorithms as gradient descent. Advances in Neural Information Processing Systems, 2000, pp. 512-518.

16. Friedman J.H. Greedy function approximation: a gradient boosting machine. Annals of Statistic, 2001, vol. 29, no. 5, pp. 1189-1232. doi: 10.1214/aos/1013203451

17. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System. Proc. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, USA, 2016, pp. 785-794. doi: 10.1145/2939672.2939785

18. Nelder J.A. Mead R. A simplex method for function minimization. The Computer Journal, 1965, vol. 7, no. 4, pp. 308-313. doi: 10.1093/comjnl/7.4.308

Author

Andrey V. Timofeev — D.Sc., Chief Scientific Officer, LLP

EqualiZoom, Astana, 010000, Republic of Kazakhstan, S3 56689367600,

https://orcid.org/0000-0001-7212-5230, timofeev.andrey@gmail.com

Received 21.01.2021

Approved after reviewing 11.02.2021

Accepted 16.03.2021

Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»

i Надоели баннеры? Вы всегда можете отключить рекламу.