Научная статья на тему 'СПОСОБ ОБУЧЕНИЯ ГЛУБОКОЙ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ РОБАСТНОЙ ЛОКАЛИЗАЦИИ ОБЪЕКТОВ НА АЭРОФОТОИЗОБРАЖЕНИЯХ'

СПОСОБ ОБУЧЕНИЯ ГЛУБОКОЙ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ РОБАСТНОЙ ЛОКАЛИЗАЦИИ ОБЪЕКТОВ НА АЭРОФОТОИЗОБРАЖЕНИЯХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
46
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБУЧЕНИЕ / АУГМЕНТАЦИЯ / ИСКАЖЕНИЕ ИЗОБРАЖЕНИЙ / ГАУССОВО РАЗМЫТИЕ / ГЛУБОКАЯ СВЁРТОЧНАЯ НЕЙРОННАЯ СЕТЬ / ЛОКАЛИЗАЦИЯ ОБЪЕКТОВ / АЭРОФОТОИЗОБРАЖЕНИЯ / ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ ЗЕМЛИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ильина О.В., Терешонок М.В.

Введение: в настоящее время активно используются системы обнаружения объектов на аэрофотоизображениях с использованием глубоких свёрточных нейронных сетей. Однако при дистанционном зондировании Земли качество изображений может быть крайне низким из-за разнообразных негативных явлений. Наиболее часто на изображениях возникают искажения в виде гауссова размытия, которое приводит к снижению четкости границ объектов на этих изображениях, что, в свою очередь, сильно снижает результативность работы системы обнаружения объектов. Цель исследования: повысить робастность (результативность при наличии искажений) свёрточной нейронной сети в системе локализации объектов на размытых аэрофотоизображениях без использования дополнительных блоков предварительной или последующей обработки, которые приводят к излишним затратам вычислительных ресурсов. Методы: для достижения поставленной цели предложено использовать оригинальный метод аугментации обучающих данных с введением размытых данных с различными степенями искажения. Результаты: благодаря проведенному моделированию показано, что с увеличением доли искаженных изображений и одновременно с увеличением степени этих искажений в обучающей выборке наблюдается рост метрики усредненной полноты системы локализации транспортных средств на искаженных тестовых изображениях. Однако одновременно наблюдается падение метрики пересечения предсказанных системой регионов интереса с истинными объектами на этих же искаженных тестовых изображениях. Исследование показало существование оптимального уровня искажений изображений в обучающем наборе данных для получения наиболее устойчивых (робастных) глубоких свёрточных нейронных сетей. Задача решена на примере локализации транспортных средств на аэрофотоизображениях Земли. Практическая значимость: предложенный способ позволяет повысить результативность системы локализации объектов на аэрофотоизображениях при наличии искажений без повышения вычислительной сложности. Обсуждение: дальнейшие более подробные исследования поведения глубоких свёрточных нейронных сетей в условиях реального мира, а именно, при наличии различного рода искажающих эффектов, позволят в последующем добиться повышения робастности в самых разнообразных условиях.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ильина О.В., Терешонок М.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A DEEP CONVOLUTIONAL NEURAL NETWORK TRAINING TECHNIQUE FOR REMOTE SENSING ROBUST OBJECT LOCALIZATION

Intoduction: At present, aerial photographic object detection systems using deep convolutional neural networks are heavily used. However, in the case of remote sensing of the Earth, the quality of images can be extremely low due to a variety of negative phenomena. The most common distortion in the images is the Gaussian blur, which leads to a reduction in the clarity of the objects in these images, which in turn greatly reduces the effectiveness of the object detection system. Purpose: the purpose of the paper is to improve robustness (distortion performance) of the convoluted neural network in the system of localization of objects on blurred aerial photographs without the use of additional pre-processing or post-processing units, which results in unnecessary computing costs. Methods: to achieve the main goal, using training data augmentation by including blurred images with various levels of distortion is proposed. Results: The simulation has shown that, as the fraction of distorted images increases and the level of distortion raises, the training dataset increases the metric of the average recall of the vehicle localization system on distorted test images. At the same time, however, there is a decline in the metric of intersection of the predicted regions of interest with the true objects in the same distorted test images. The study has shown the existence of an optimal level of image distortion in the training dataset to produce the most stable (robust) deep convolutional neural networks. Problem is solved on the example of localization of vehicles on aerial photographs of the Earth. Practical relevance: the proposed method makes it possible to increase the efficiency of the system for localizing objects on distorted aerial images without increasing the computational complexity. Discussion: Further detailed studies of deep convolutional neural networks behavior in the real world, namely, under various image distortions, will allow to increase robustness in a wide variety of situations.

Текст научной работы на тему «СПОСОБ ОБУЧЕНИЯ ГЛУБОКОЙ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ РОБАСТНОЙ ЛОКАЛИЗАЦИИ ОБЪЕКТОВ НА АЭРОФОТОИЗОБРАЖЕНИЯХ»

НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 14. № 5-2022

АВИАЦИОННАЯ И РАКЕТНО-КОСМИЧЕСКАЯ ТЕХНИКА Сок 10.36724/2409-5419-2022-14-5-4-13

СПОСОБ ОБУЧЕНИЯ ГЛУБОКОЙ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ РОБАСТНОЙ ЛОКАЛИЗАЦИИ ОБЪЕКТОВ НА АЭРОФОТОИЗОБРАЖЕНИЯХ

ИЛЬИНА

Ольга Викторовна1

ТЕРЕШОНОК Максим Валерьевич2

Сведения об авторах:

1 научный сотрудник, Московский Технический Университет Связи и Информатики, Москва, Россия, c.v.ilina@mtuci.ru

2 д.т.н., доцент, начальник научно-исследовательского отдела, Московский Технический Университет Связи и Информатики, Москва, Россия, m.v.tereshcnck@mtuci.ru

АННОТАЦИЯ

Введение: в настоящее время активно используются системы обнаружения объектов на аэрофотоизображениях с использованием глубоких свёрточных нейронных сетей. Однако при дистанционном зондировании Земли качество изображений может быть крайне низким из-за разнообразных негативных явлений. Наиболее часто на изображениях возникают искажения в виде гауссова размытия, которое приводит к снижению четкости границ объектов на этих изображениях, что, в свою очередь, сильно снижает результативность работы системы обнаружения объектов. Цель исследования: повысить робастность (результативность при наличии искажений) свёрточной нейронной сети в системе локализации объектов на размытых аэрофотоизображениях без использования дополнительных блоков предварительной или последующей обработки, которые приводят к излишним затратам вычислительных ресурсов. Методы: для достижения поставленной цели предложено использовать оригинальный метод аугментации обучающих данных с введением размытых данных с различными степенями искажения. Результаты: благодаря проведенному моделированию показано, что с увеличением доли искаженных изображений и одновременно с увеличением степени этих искажений в обучающей выборке наблюдается рост метрики усредненной полноты системы локализации транспортных средств на искаженных тестовых изображениях. Однако одновременно наблюдается падение метрики пересечения предсказанных системой регионов интереса с истинными объектами на этих же искаженных тестовых изображениях. Исследование показало существование оптимального уровня искажений изображений в обучающем наборе данных для получения наиболее устойчивых (робастных) глубоких свёрточных нейронных сетей. Задача решена на примере локализации транспортных средств на аэрофотоизображениях Земли. Практическая значимость: предложенный способ позволяет повысить результативность системы локализации объектов на аэрофотоизображениях при наличии искажений без повышения вычислительной сложности. Обсуждение: дальнейшие более подробные исследования поведения глубоких свёрточных нейронных сетей в условиях реального мира, а именно, при наличии различного рода искажающих эффектов, позволят в последующем добиться повышения робастности в самых разнообразных условиях.

КЛЮЧЕВЫЕ СЛОВА: обучение, аугментация, искажение изображений, гауссово размытие, глубокая свёрточная нейронная сеть, локализация объектов, аэрофотоизображения, дистанционное зондирование Земли.

Для цитирования: Ильина О.В., Терешонок М.В. Способ обучения глубокой сверточной нейронной сети для робастной локализации объектов на аэрофотоизображениях // Наукоемкие технологии в космических исследованиях Земли. 2022. Т. 14. № 5. С. 4-13. Сок 10.36724/2409-5419-2022-14-5-4-13

Уо!. 14. N0. 5-2022, H&ES RESEARCH

AVIATЮN, ЭРДСЕ-ЯОСКЕТ HARDWARE

Введение

В последние годы наблюдается быстрое развитие технологий дистанционного развития Земли (ДЗЗ), благодаря чему в настоящее время имеются разномасштабные аэрофотоснимки Земли [1], охватывающие несколько десятков тысяч квадратных километров и содержащие в себе разнообразные подстилающие поверхности. Изображения ДЗЗ в большинстве случаев содержат объекты различных размеров (от нескольких единиц до нескольких сотен пикселей), различных цветов, имеющих разнообразное расположение на местности. Также стоит отметить, что количество объектов на изображении ДЗЗ может тоже сильно варьироваться от нуля до нескольких тысяч [2]. Такие объемы данных привели к необходимости автоматической обработки подобных изображений.

Обнаружение объектов - фундаментальная задача, связанная с компьютерным зрением и обработкой изображений, состоящая в определении класса объектов, представленных на входном изображении, и местоположения этих объектов. При этом обнаруживаемые объекты на изображении могут наблюдаться в произвольном количестве, иметь произвольное расположение и ориентацию, а также различные размеры и формы. На данный момент известны различные методы обнаружения объектов на изображениях, при этом наибольшую популярность и эффективность демонстрируют методы, основанные на глубоких свёрточных нейронных сетях (ГСНС) [3], обладающих способностью извлекать высокоуровневые абстрактные свойства без высоких вычислительных затрат для их обучения [4]. Наиболее эффективным подход для решения проблемы обнаружения объектов основан на решении двух подзадач: предложение регионов интереса и классификация объектов внутри этих регионов [5].

Методы обнаружения объектов, основанные на регионах предложения, зарекомендовали себя как методы, обладающие высокой способностью локализации и классификации объектов на изображениях [5]. На первом этапе метода происходит предложение регионов и оценка их объектности, т.е. определения, находится ли объект в найденном регионе или нет. На втором этапе происходит распознавание классов объектов в найденных на предыдущем этапе регионов, путем определения их класса из ограниченного списка категорий. На качество обнаружения таких двухэтапных систем сильно влияет этап предложения регионов. Так, в случае потери большого количества истинных объектов на этом этапе, точность обнаружения системы в целом будет значительно ниже. Поэтому всеобъемлющие исследования в области влияния работы этапа локализации не зависящих от класса объектов являются неотъемлемой частью для разработки качественной и робаст-ной системы обнаружения объектов. Большие объемы аэрофотоснимков привели к развитию области автоматического обнаружения транспортных средств, которые широко используется в различных приложениях, таких как мониторинг трафика [6] и морского судоходства [7], городское планирование [8], операции поиска и спасения [9] и т. п.

Из-за многообразия факторов, например, атмосферных явлений (осадки, туман и т.п.), ограничений датчиков, загрязненности, наличия царапин и сколов на объективе съемочной аппаратуры, а также дрожания и расфокусировки оптической

системы, качество изображений ДЗЗ может существенно снижаться [1]. Наиболее частым искажением снимков является их размытие. Эффект размытия сглаживает переход цвета на изображениях, из-за чего происходит снижение чёткости границ объектов на изображении. Существуют работы, в которых проводится анализ точности распознавания объектов на изображениях ГСНС. Так, например, в работе [10] показано, что распознавание объектов ГСНС на изображениях очень чувствительно к размытию. Авторы объясняют это тем, что размытие удаляет текстуры на изображениях, а СНС может искать определенные текстуры для классификации объектов на этих изображениях.

В настоящее время существует тенденция быстрого развития архитектур ГСНС, решающие большой спектр задач, однако существует мало исследований, направленных на анализ их стабильности и способности обобщать. В большинстве случаев авторы современных архитектур стремятся повысить их производительность на эталонных наборах данных, однако заявленные показатели могут не подтверждаться на реальных данных.

Целью данной работы является повышение робастности (результативности при наличии искажений) ГСНС, решающих задачи предложения регионов для автоматической локализации объектов, в том числе транспортных средств, на размытых аэрофотоизображениях Земли, подверженных гауссову размытию с различными размерами окна без использования дополнительных блоков предварительной или последующей обработки, которые приводят к излишним затратам вычислительных ресурсов.

Обзор публикаций по теме исследования

В настоящее время существует большой интерес в области применения нейронных сетей для устранения размытия на входном изображении, но не для определения класса объекта на этом изображении [11-15]. Также существуют работы, направленные на усложнение архитектур ГСНС для повышения точности классификации объектов на изображении. Так, авторы [16] предложили усовершенствовать СНС для задач обнаружения лиц путем добавления ансамбля ветвей к изначальной СНС, а также путем расширения обучающей выборки её размытой копией.

В статье [17] предложено несколько вариантов улучшенных моделей СНС для распознавания изображений путем ро-бастного предварительного обучения. Для этого авторы предлагают обучить свёрточную часть модели на исходных изображениях, реконструированных из искаженных, после чего полная модель обучается распознавать образы на искаженных изображениях.

В ряде источников представлены исследования влияния на производительность ГСНС различного типа и степени искажений, влияющих на качество изображений. Так, исследование влияния внешних объектов (линейка, волосы) и качества изображения (размытие, шум, контраст) на классификацию меланомы с использованием современных моделей ГСНС проведено в [18], где авторы эмпирическим путем продемонстрировали способности различных ГСНС справляться с тем или иным видом искажения входных данных.

В работе [19] показано, что тонкая настройка первых нескольких слоев СНС и обучение всей сети с нуля на искаженных данных положительно влияет на качество классификации искаженных тестовых выборок. Однако, авторы предполагают, что обучение СНС с нуля на искаженных данных может привести к адаптации модели распознавать исключительно искаженные данные. Практически одновременно с предыдущей работой вышла статья [20], в которой авторы сравнивают качество распознавания ГСНС (в том числе, полученных после тонкой настройки последнего полносвязного слоя на частично неискаженных и частично искаженных изображениях одновременно) с наблюдениями людей на искаженных изображениях. Проведенные в данной работе исследования показали, что, хотя ГСНС работают лучше или наравне с людьми на изображениях хорошего качества, однако на искаженных изображениях производительность ГСНС все еще намного ниже, чем производительность человека. Также в работе показано, что производительность человека снижается быстрее для размытых изображений по сравнению с зашумленными изображениями, но производительность ГСНС показывает противоположную тенденцию. Проведенный в данной работе анализ матриц ошибок показал, что существует низкая корреляция ме^ду ошибками, совершенных ГСНС и людьми. Это может быть признаком того, что внутреннее представление изображений отличается между ГСНС и зрительной системой человека.

В [21] показано поведение многослойного перцептрона, обученного при добавлении искажений ко входным данным. Авторы показали, что чем выше фиксированный уровень искажений в обучающем наборе данных, тем хуже сеть работает на данных без шума, но тем медленнее она деградирует с ростом уровня шума. Также показано, что для каждого уровня шума в тестовом наборе данных существует оптимальный фиксированный уровень шума в обучающей выборке, соответствующий тому же уровню, что и в рассматриваемом уровне тестового набора данных. Таким образом, можно сделать вывод, что при обучении многослойного перцептрона уровень внесённого шума (искажения) является признаком, запоминаемым нейронной сетью.

Результаты, полученные в [21], применимы к полносвязной нейронной сети с относительно простой структурой. Другими авторами предпринимались попытки исследования помехоустойчивости свёрточных нейронных сетей. Авторы работ [22, 23] исследовали качество классификации ГСНС на изображениях с добавленными разнообразными видами искажений, где показали, что при обучении ГСНС на обучающем наборе данных, включающим несколько уровней искажений, точность классификации на тестовом наборе данных с разными уровнями искажений выше, чем при обучении на фиксированном уровне искажений. Однако, данный вывод не распространяется на точность классификации на неискажённых данных.

Для повышения робастности авторы [22] использовали предварительно обученную современную архитектуру ГСНС и дообучили ее за три эпохи на неискаженных и искаженных изображениях с различной степенью искажений одновременно, что привело к значительному увеличению робастности

такой ГСНС. Также авторы исследовали аналогичным образом стабильность системы сегментации объектов на изображении и обнаружили, что дообучение такой системы на неискаженных и искаженных изображениях хоть и увеличивает качество работы системы сегментации объектов на изображении, однако существует большой разрыв ме^ду качеством сегментации неискаженных и размытых изображений.

Отмечается большее влияние искажений на качество сегментации по сравнению с качеством распознавания. Авторы считают, что это связано со способностью системы сегментации объектов решать задачу идентификации и разделения объектов, однако размытие границ объектов сильно затрудняет эту задачу. В [23] продемонстрировано, что точность классификации будет наивысшей при обучении и тестирования ГСНС на наборах данных с одинаковым фиксированным уровнем искажений. В случае, когда разница ме^ду фиксированным уровнем искажений обучающих данных и фиксированным уровнем искажений тестовых данных велика, точность классификации на тестовом наборе данных может быть очень низкой.

Также авторы показали, что предварительная очистка тестовых изображений от искажений современными алгоритмами (а именно, удаление тумана и размытия движения) не улучшает качество классификации ГСНС по сравнению с методом добавления искаженных данных в процесс обучения сети. Повышение качества распознавания изображений путём добавления искажений в обучающую выборку подробно исследовано в работах [24,25], результаты которых показывают, что для большого разнообразия искажающих воздействий существует оптимальное значение уровня добавляемого искажения в обучающий набор данных.

Большинство упомянутых выше исследований касаются ГСНС, решающих задачу идентификации класса объекта, находящегося в центре изображения и занимающего большую его часть. Широких исследований производительности систем предложения регионов интереса на размытых изображениях не проводилось.

Анализ помехоустойчивости ГСНС, решающей задачи предложения регионов на аэрофотоснимках Земли, впервые представлен в [26], где авторы демонстрируют повышение робастности анализируемой системы за счет введения шумовых искажений в обучающий набор данных, а также показывают, что существует оптимальный уровень искажения части обучающих данных для получения стабильной системы, работающей в сложных реальных условиях.

При этом в работе [26] рассмотрены искажения только в виде аддитивного белого гауссова шума. Размытие изображений не исследовано. Однако такого рода искажения могут сильно повлиять на достоверность системы обнаружения в целом. Возможным подходом к решению проблемы снижения качества обнаружения объектов на размытых изображениях может являться аугментация обучающих данных. В частности, размытие доли обучающих изображений может привести к появлению у ГСНС обобщающей способности, распространяющейся не только на признаки чётких, но и размытых объектов.

Описание анализируемой системы локализации объектов на аэрофотоизображениях Земли

Исследователи всего мира применяют систему Faster R-CNN [28] с сетью извлечения пирамиды признаков (Feature Pyramid Network, FPN) [29] для обработки аэрофотоснимков Земли [30] из-за ее способности с высокой точностью локализовать объекты различных размеров на многообразных подстилающих поверхностях, с чем не справляются одноэтапные модели, которые больше подходят для обработки видеопотока с невысокой плотностью нахождения объектов в кадре. В случае потери большого количества истинных объектов на этапе предложения регионов (Region Proposal Network, RPN) [28], точность обнаружения и распознавания объектов всей системы в целом будет значительно ниже, поскольку классификатор работает только с регионами, предложенными ему на предыдущем этапе (на этапе предложения регионов). В связи с вышеизложенным, для настоящего исследования стабильности системы автоматической локализации транспортных средств выбрана архитектура Faster R-CNN с FPN. Использованная в данной работе система представлена на рисунке 1.

Рис. 1. Упрощенная структура анализируемой системы локализации транспортных средств на аэрофотоснимках

В качестве опорной ГСНС решено использовать хорошо зарекомендовавшую себя в задачах распознавания объектов на изображении СНС ResNet-50 [31], обладающую свойством извлечения глубоких абстрактных признаков из входного изображения. Такая сеть обходит глобальную проблему глубоких нейронных сетей - проблему исчезающего градиента -путем включения в последовательно соединенные свёрточные слои блоков соединения быстрого доступа.

Архитектура ResNet-50 изначально представляет собой пять последовательно соединенных свёрточных блоков (CI, С2, СЗ, С4 и С5), за которыми следует детекторная часть, состоящая из слоя субдискретизации (Max Pooling) и полносвязного слоя для классификации образов на изображении. Однако, в качестве опорной сети в составе системы обнаружения объектов необходимо использовать только полностью свёрточную часть данной ГСНС (пять свёрточных блоков предварительно обученной СНС ResNet-50). Пирамидальная архитектура FPN [29] использует разномасштабную информацию из опорной ГСНС. Так, на входы FPN поступают карты

признаков, полученные с выходов свёрточных блоков С2, СЗ, С4 и С5. Карты признаков с разными пространственными размерами, полученные с выходов сети FPN (PI, Р2, РЗ,Р4и Р5), поступают на ряд сетей предложения регионов (RPN1, RPN2, RPN3, RPN4 и RPN5). Задача каждого модуля RPN состоит в генерации ограничивающих рамок из входных карт признаков, причем каждый предсказанный регион содержит оценку нахождения в нем не зависящего от класса объекта (объект-ность). Так, анализируемая система представляет собой полностью свёрточную архитектуру, позволяющую обрабатывать изображения с любыми пространственными размерами и извлекать информацию об объектах, не зависящих от их класса.

Полученная с выходов всех подсистем предложения регионов (RPN) информация объединяется и поступает в блок пост-обработки, который не принимает участия в процессе обучения, но необходим на этапе оценки качества работы анализируемой системы для извлечения релевантных регионов из выходных данных модулей RPN. Блок пост-обработки состоит из порогового устройства и жадного алгоритма не максимального подавления (non-maximum suppression, NMS).

Пороговое устройство пропускает регионы от RPN с оценкой объектности не менее 0.5, которые поступают на вход алгоритма NMS, который в свою очередь оставляет только один регион с наивысшей оценкой объектности из множества перекрывающихся регионов (порог перекрытия равен 0.7) [28]. Такие параметры пост-обработки позволяют охватить больше релевантных объектов с наименьшей вероятностью потери интересующих объектов. В качестве функции потерь используется та же функция, что и в оригинальной системе Faster R-CNN [28], а для ее минимизации применяется алгоритм стохастического градиентного спуска [35].

Таким образом, на вход исследуемой системы поступает изображение с варьируемым пространственным разрешением, а выходной информацией является набор координат областей-кандидатов, с высокой вероятностью содержащих объекты.

Способ оценки качества работы систем локализации объектов

Ввиду того, что системы предложения регионов генерируют варьируемое количество регионов, потенциально содержащих объекты интереса, оценка качества таких систем сильно отличается от оценки качества традиционных систем обнаружения объектов с их последующей идентификацией. Так, классический показатель mean Average Précision (mAP) не может быть применен. В системах предложения регионов важно иметь высокий охват интересующих объектов, т.к. потерянные регионы не могут быть восстановлены для последующей стадии их классификации. Таким образом, одним из основных показателей оценки предложений регионов является метрика полноты (recall), определяющая долю правильно обнаруженных истинных объектов [3].

Для определения полноты, обеспечиваемой системой предложения регионов, необходимо вычислить меру совпадения предложенного моделью региона с ограничивающей рамкой истинного объекта. Для этой цели используется метрика

отношения пересечения к объединению (intersection over union, IoU), которая вычисляется как отношение площади пересечения к площади объединения истинного и предсказанного прямоугольников. В случае, когда метрика IoU превышает некоторый заданный порог (обычно, в диапазоне от 0,5 до 1), истинный объект считается обнаруженным и классифицированным как истинно-положительный. Если же истинный объект не был обнаружен моделью (т.е. ни одна предсказанная ограничивающая рамка с ним не имеет перекрытие IoU выше определенного порога), то объект классифицируется как ложноотрицатель-ный Формула вычисления полноты обнаружения R:

R =

S

^pj j=i

S L-S

£ pj + £ nj

j=1 j=l

где pj - количество истинно-положительных предсказании, n - количество ложноотрицательных предсказаний, L - количество всех истинных объектов, из которых S объектов предсказано системой обнаружения верно (S<L),j - номер предсказанного ограничивающего потенциальный объект прямоугольника. В целях отвязки метрики качества от величины пороговой меры пересечения (IoU), изменением которого можно манипулировать оценкой полноты обнаружения, существует метрика усредненной полноты обнаружения (Average Recall, AR), которая рассчитывается как площадь под кривой полноты обнаружения R при значении пороговой меры пересечения IoU в диапазоне от0.5 до 1:

AR = 2• j R(IoU)d(IoU)

(1)

0.5

Эффект размытия представляет собой ухудшение качества изображения, вызванное усреднением яркостей ближайших пикселей. Размытое изображение может быть смоделировано с помощью применения операции свёртки исходного неискаженного изображения и ядра размытия, которое представляет собой фильтр нижних частот, приводящее к потере или ослаблению высокочастотных деталей изображения (т.е. уменьшению резкости изображения). В данной работе в качестве искажений используется гауссово размытие, которое реализовано путем применения операции двумерной свёртки матрицы изображения с ядром гауссовых значений размером 2k+1 при заданном радиусе ядра размытия k, которое представляет собой целое неотрицательное число:

к к

Iblur (x= y )= £ £ gnorm (m n)• I (x - m, y - n) ,

m=-k n=-k

где I(x,y) - матрица неискаженного цветного изображения, значения которого находятся в диапазоне от 0 до 255 и представляют собой значения яркости пикселей в каждом RGB-канале, Iblur(x,y) - матрица размытого изображения, значения которого также находятся в диапазоне от 0 до 255, gnorm(x,y) -двумерное ядро размытия, причем сумма величин ядра равна единице, т.е.:

gnorm ( y )

g (x y) =

g (x y)

k k

£ £ g (m n)

m=-kn=-k

, x e [-k;k], y e [-k;k].

2nd1

x + y

2d 2

, x e [-k;k], y e [-k;k].

(2)

(3)

Получаем, что метрика усредненной полноты обнаружения AR суммирует эффективность предложения при различных значениях пороговой меры перекрытия. Известно, что метрика усредненной полноты обнаружения AR коррелирует с конечной эффективностью обнаружения лучше, чем другие показатели [3].

Набор данных для обучения и тестирования

В настоящее время в задачах обнаружения разномасштабных объектов на аэрофотоснимках широко используется ряд наборов данных, например, NWPU VHR-10 [32], COWC [33], VEDAI [34] И DOTA [30]. В целях исследования способности рассматриваемой системы извлекать области, содержащие разнообразные транспортные средства на размытых аэрофотоснимках, используется набор данных DOTA [30], который содержит наибольшее количество аннотированных объектов по сравнению с другими перечисленными наборами данных. В наборе данных DOTA [30] представлены транспортные средства в пяти категориях, а пространственные размеры изображений варьируют от 800 до 4000 пикселей. Для обучения и анализа качества работы описанной выше архитектуры обнаружения регионов изображения исходного набора данных [30] разделены на обучающую выборку и тестовую выборку, соответственно.

где g(x,y) - ненормированное двумерное ядро размытия.

В данной работе используются гауссовы ядра с варьируемым параметром стандартного отклонения d и радиуса ядра ^ причем

k = тах (1,\d]),

где [.] - операция округления в большую сторону. Так, в данной работе степень искажения, применяемого к изображению, в дальнейшем будет описываться единственным параметром - стандартным отклонением гауссовых значений d. На рисунке 2 представлены проекции ядер, полученных по формулам (2)-(3) (приу=0 в выражении (2)), для трех различных значений стандартного отклонения d.

Рис. 2. Двумерные изображения гауссовых ядер размытия для трех различных значений степеней искажений d и размеров ядра размытия к. а) d=3, k=3; б) d=5, k=5; в) d=7, k=^

Из рисунка 2 видно, что с увеличением стандартного отклонения гауссовых величин ё увеличивается количество соседних пикселей, которые участвуют в размытии изображений.

Способ добавления искажений в обучающие наборы данных

Опыт предыдущих исследований [19-26] показывает, что включение в обучающую выборку одновременно неискаженных и искаженных изображений показывает более высокую производительность ГСНС. Однако нет исследований, определяющих долю неискаженных и искаженных изображений в обучающей выборке, а также диапазон изменения уровня искажений, позволяющий добиться повышения качества распознавания, стабильности и робастности нейронной сети. В настоящей работе в качестве уровня искажения изображений ё в обучающей выборке предложено использовать модуль случайной величины, подчиняющейся нормальному распределению с нулевым средним значением и стандартным отклонением оГаш. На рисунке 3 изображены графики плотностей вероятности уровня искажений ё в обучающих наборах данных в соответствии с параметром оГат, причем каждый график описывает оценку доли обучающей выборки, которая размывается в соответствии с параметром искажения ё.

Из рисунка 3 видно, что при оъат=1 большая доля обучающего набора данных имеет степень искажений ё в диапазоне от 0 до 1, при огат=5 обучающий набор данных содержит изображения с уровнями искажений ё, изменяющимися в широком диапазоне (примерно от 0 до 10). В ходе настоящего исследования была поставлена цель исследовать влияние распределения уровня искажений в обучающей выборке оГат на качество распознавания тестовых изображений.

Исследование робастности анализируемой системы локализации объектов при различных распределениях уровней гауссова размытия в обучающей выборке

Под робастностью в данном исследовании понимается устойчивость работы ГСНС при различных уровнях искажений входных изображений. Для более полного поиска и анализа способности анализируемой системы локализации транспортных средств на аэрофотоснимках Земли были подготовлены следующие модели: «Модель 0» - модель, обученная на исходной (без искажений) обучающей выборке, «Модель 1», «Модель 2», «Модель 3», «Модель 4» и «Модель 5» - модели, обученные на наборах данных, изображения которых искажены в соответствии с правилом, описанном выше с параметрами 0>гат=1, <7гат=1 И <7гат= 3, <7гат=4 И <7гат=5, СООТВеТСТВеННО.

На рисунке 4 представлены кривые зависимости величины усредненной полноты обнаружения ЛЯ (1) перечисленных выше моделей от различной степени искажений тестового набора данных о^. Здесь тестовый набор данных размывается с фиксированным значением

Из рисунка 4 видно, что при обучении и тестировании ГСНС на неискаженных данных «Модель 0» показывает наивысшую производительность, но с увеличением степени размытия тестовых данных о^ качество обнаружения быстро падает. В случае увеличения разброса степени искажений в обучающей выборке (т.е. с увеличением а^ат) видно, что уровень усредненной полноты анализируемой системы уменьшается медленнее при больших значениях искажений в тестовом наборе данных оыа, однако, на исходных (без искажений) данных оценка качества обнаружения заметно падает.

г) д)

Рис. 3. Графики плотностей вероятности уровня искажений изображений ё в обучающем наборе данных при:

а) Ол-ат= 1; б) Ошт= 1\ В) Ошт= 3; г) Ол-ат= 4; д) Оггат = 5

Рис. 4. Графики зависимости метрики усредненной полнотыАЯ от степени искажений в тестовом наборе данных аг^г для моделей «Модель 0» (черная кривая), «Модель 1» (оранжевая кривая), «Модель 2» (красная кривая), «Модель 3» (коричневая кривая), «Модель 4» (розовая кривая) и «Модель 5» (зеленая кривая)

Таким образом, можно сделать вывод, что существует оптимальное значение <7^ , при котором модель, обученная с данным параметром, будет иметь довольно высокий охват истинных объектов на неискаженных или слабо размытых входных данных и медленно ухудшаться с ростом степени искажений входных изображений, что позволяет достичь высокой обобщающей способности модели.

Как описано ранее, для оценки полноты обнаружения системой локализации объектов используется метрика перекрытия истинного объекта с лучшей предсказанной ограничивающей рамкой — 1ои. На рисунке 5 представлены контурные тепловые карты для моделей «Модель 0», «Модель 1», «Модель 2», «Модель 3», «Модель 4» и «Модель 5», на которых цветом показана доля правильно обнаруженных и локализованных транспортных средств на аэрофотоснимках Земли Я от метрики перекрытия 1оП. Данные карты показывают, что чем точнее предсказаны ограничивающие рамки (т.е. чем выше их метрика перекрытия с истинными объектами 1оЦ), тем выше на контурных графиках будет отображаться более интенсивный красный цвет.

На рисунке 5 видно, что пятно, показывающее наивысший уровень полноты, растекается на большие значения огел с увеличением разброса искажений в обучающей выборке о^ат, что подтверждает описанное выше наблюдение.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Однако стоит отметить, что несмотря на то, что доля правильно обнаруженных объектов растет с увеличением оГат

при больших уровнях размытия в тестовой выборке, мера перекрытия обнаруженных объектов с истинными падает, что может являться следствием размытия границ объектов.

Таким образом, можно заключить, что избыточное размытие обучающих изображений, несмотря на рост метрики усредненной полноты обнаружения, приводит к нежелательным результатам в виде снижения меры перекрытия границ предложенных нейронной сетью регионов интереса с истинными объектами на изображении. Оптимальный уровень размытия следует искать, исходя из компромисса между ростом метрики качества системы локализации объектов и снижением метрики пересечения их границ с границами истинных объектов.

Заключение

В ходе решения проблемы влияния размытия аэрофотоизображений Земли на качество обнаружения объектов при мониторинге был предложен способ эффективного обучения ГСНС путем аугментации обучающих изображений. В результате проведённого моделирования удалось экспериментально показать, что размытие изображений в обучающем наборе данных с интенсивностью, описываемой положительной ветвью распределения Гаусса, может являться эффективным способом аугментации. Выбор дисперсии этого распределения (и, соответственно, доли искажённых изображений и уровня их искажений в обучающем наборе) обусловлен двумя конкурирующими процессами - ростом метрики усредненной полноты обнаружения и снижением метрики перекрытия границ между предсказанными нейронной сетью регионов интереса и истинными объектами на изображении по мере увеличения дисперсии уровня размытия входного изображения.

В частности, достаточно эффективная «Модель 2», обученная на наборе данных с параметром разброса уровней размытия аггат=2, демонстрирует прирост полноты обнаружения более, чем в 2 раза при уровнях искажения тестовых данных в диапазоне 6 < агехг < 12, по сравнению с обученной на неискажённых изображениях.

Выбор оптимального значения параметра разброса уровней размытия обучающих изображений должен в каждой задаче определяться особенностями обнаруживаемых объектов и взаимодействием между блоками локализации и классификации в обобщённой структуре нейросетевого обнаружителя. Этому будут посвящены дальнейшие исследования.

О К 12 \6 20 24 2Я О <1 Я 16 20 24 28 0 4 Я 12 16 20 24 28 В 'I К 12 16 20 24 23 О 4 Я 12 16 20 24 28 И 4 3 12 16 20 24 28

°1езг а re.it ^ te.it ^ te.it ^ te.it

Рис. 5. Тепловые контурные карты зависимости доли правильно обнаруженных и локализованных транспортных средств на аэрофотоснимках Я от метрики их перекрытия с истинными объектами 1ои для моделей «Модель О», «Модель 1», «Модель 2», «Модель 3», «Модель 4» и «Модель 5» при различных уровнях размытия тестовых данных твэг

Литература

1. Zhang L., Zhang L., Du B. Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art II IEEE Geoscience and Remote Sensing Magazine, 2016, vol. 4, № 2, pp. 22-40, doi:10.1109/MGRS.2016.2540798.

2. Qingyun F., Lin Z., Zhaokui W. Efficient Feature Pyramid Network for Object Detection in Remote Sensing Imagery II IEEE Access, 2020, vol. 8, pp. 93058-93068, doi: 10.1109/ACCESS.2020.2993998.

3. Hosang J., Benenson R., Dollar P., Schiele B. What Makes for Effective Detection Proposals? II IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, vol. 38, № 4, pp. 814-830, doi: 10.1109/TPAMI.2015.2465908.

4. Зиядинов В.В., Курочкин П.С., Терешонок М.В. Оптимизация обучения сверточных нейронных сетей при распознавании изображений с низкой плотностью точек II Радиотехника и электроника, 2021, Т. 66, № 12, сс. 1207-1215, doi: 10.31857/S0033849421120202.

5. Huang J., Rathod V., Sun C., Zhu M., Korattikara A., Fathi A., Fischer I., Wojna Z., Song Y., Guadarrama S., Murphy K. Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors II IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 3296-3297.

6. Makiuchi A., Saji H. Vehicle detection using aerial images in disaster situations //International Conference on Global Research and Education. - Springer, Cham, 2019, doi:10.1007/978-3-319-99834-3_25.

7. YangX., Sun H., Fu K., Yang J., Sun X., Yan M., Guo Z. Automatic Ship Detection in Remote Sensing Images from Google Earth of Complex Scenes Based on Multiscale Rotation Dense Feature Pyramid Networks II Remote Sensing, 2018, vol. 10, № I,p.l32,doi:10.3390/rsl0010132.

8. Huang B., Zhao B., Song Y. Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery II Remote Sensing of Environment, 2018, vol. 214, pp. 73-86,doi:10.1016/j.rse.2018.04.050.

9. Bejiga M., Zeggada A., Nouffidj A., Melgani F. A Convolutional Neural Network Approach for Assisting Avalanche Search and Rescue Operations with UAV Imagery II Remote Sensing, 2017, vol. 9(2), p. 100, doi:10.3390/rs9020100.

10. Dodge S., Karam L., Understanding how image quality affects deep neural networks II Eighth International Conference on Quality of Multimedia Experience (QoMEX), 2016, doi: 0.1109/QoMEX.2016.7498955.

11. Li L., Pan J., Lai W.-S., Gao C, Sang N., YangM.-H. Learning a Discriminative Prior for Blind Image Deblurring II IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.

12. Chakrabarti A. A Neural Approach to Blind Motion Deblurring II Lecture Notes in Computer Science, 2016, pp. 221-235.

13. Kupyn O., Budzan V., Mykhailych M., Mishkin D., Matas J. DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks II IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 8183-8192.

14. Sun J., Wenfei Cao, Zongben Xu, Ponce J. Learning a convolutional neural network for non-uniform motion blur removal II IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 769-777.

15. Zhang K., Zuo W., Zhang L. Deep Plug-And-Play SuperResolution for Arbitrary Blur Kernels II IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp.1671-1681.

16. Ding C., Ta D. Trunk-Branch Ensemble Convolutional Neural Networks for Video-Based Face Recognition II IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, vol.40, № 4,pp. 1002-1014,doi:10.1109/TPAMI.2017.2700390.

17. Liu D., Cheng B., Wang Z., Zhang H., Huang T. S. Enhance Visual Recognition under Adverse Conditions via Deep Networks II IEEE Transactions on Image Processing, 2019, vol.28, № 9, pp. 4401-4412, doi:10.1109/TIP.2019.2908802.

18. Akkoca Gazioglu B. S., Kama^ak M. E. Effects of objects and image quality on melanoma classification using deep neural networks II

Biomedical Signal Processing and Control, 2021, vol. 67, p. 102530, doi:10.1016/j.bspc.2021.102530.

19. Zhou Y., Song S., Cheung N.-M.On classification of distorted images with deep convolutional neural networks II IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 1213-1217, doi:10.1109/ICASSP.2017.7952349.

20. Dodge S., Karam L. A Study and Comparison of Human and Deep Learning Recognition Performance under Visual Distortions II 26th International Conference on Computer Communication and Networks (ICCCN), 2017, doi: 10.1109/ICCCN.2017.8038465.

21. Isaev I., Dolenko S. Adding noise during training as a method to increase resilience of neural network solution of inverse problems: test on the data of magnetotelluric sounding problem II International Conference on Neuroinfoimatics, 2018, pp. 9-16, doi: 10.1007/978-3-319-66604-4_2.

22. Vasiljevic I., Chakrabarti A., Shakhnarovich G. Examining the impact of blur on recognition by convolutional networks, 2016.

23. Pei Y., Huang Y., Zou Q., Zhang X., Wang S. Effects of Image Degradation and Degradation Removal to CNN-based Image Classification II IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, vol. 43, №4, pp. 1239-1253, doi: 10.1109/TPAMI.2019.2950923.

24. Ziyadinov V., Tereshonok M. Noise Immunity and Robustness Study of Image Recognition Using a Convolutional Neural Network II Sensors, vol. 22,2022, p.1241.

25. Ziyadinov V. V., Tereshonok M. V. Neural Network Image Recognition Robustness with Different Augmentation Methods II 2022 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO), 2022, pp. 1-4, doi: 10.1109/SYNCHROINF055067.2022.9840987.

26. Ильина O.B., Терешонок М.В. Исследование помехоустойчивости глубокой сверточной нейронной сети при обнаружении транспортных средств на аэрофотоснимках Земли II Радиотехника и электроника, 2022, Т.67, № 2. С. 166-173, doi:10.31857/S0033849422020048.

27. Lin T.-Y., Goyal P., Girshick R., He K., Dollar P. Focal Loss for Dense Object Detection II IEEE International Conference on Computer Vision (ICCV), 2017, doi: 10.1109/ICCV.2017.324.

28. Ren S., He K., GirshickR., Sun J. Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks II IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, № 6, 2017, pp. 1137-1149.

29. Lin T.-Y., Dollar P., Girshick R., He K., Hariharan B., Belongie S. Feature Pyramid Networks for Object Detection II IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 2117-2125, doi: 10.1109/CVPR.2017.106.

30. Xia G.-S., Bai X., Ding J., Zhu Z., Belongie S., Luo J., Datcu M., Pelillo M., Zhang L. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images II IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 3974-3983, doi: DOTA: A Large-Scale Dataset for Object Detection in Aerial Images.

31. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition II IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778,doi: 10.1109/CVPR.2016.90.

32. Cheng G., Zhou P., Han J. Learning Rotation-Invariant Convolutional Neural Networks for Obj ect Detection in VHR Optical Remote Sensing Images II IEEE Transactions on Geoscience and Remote Sensing, 2016, vol. 54, № 12, pp. 7405-7415, doi: 10.1109/TGRS.2016.2601622.

33. Mundhenk T. N., Konjevod G., Sakla W. A., Boakye K. A Large Contextual Dataset for Classification, Detection and Counting of Cars with Deep Learning II Lecture Notes in Computer Science, 2016, pp. 785-800,doi:10.1007/978-3-319-46487-9_48.

34. Razakarivony S., Jurie F. Vehicle detection in aerial imagery : A small target detection benchmark II Journal of Visual Communication and Image Representation, 2016, vol. 34, pp. 187-203, doi: 10.1016/j.jvcir.2015.11.002.

35. LeCun Y. A., Bottou L., Orr G. B., Muller K.-R. Efficient BackProp II Neural Networks: Tricks ofthe Trade, 2012, pp. 9-48.

A DEEP CONVOLUTIONAL NEURAL NETWORK TRAINING TECHNIQUE FOR REMOTE SENSING ROBUST OBJECT LOCALIZATION

OLGA V. ILINA

Moscow, Russia, o.v.ilina@mtuci.ru

KEYWORDS: training, augmentation,image distortion, Gaussian MAXIM V. TERESHONOK blur, deep convolutional neural network, object localization, aerial

Moscow, Russia, m.v.tereshonok@mtuci.ru imagery, remote sensing.

ABSTRACT

Intoduction: At present, aerial photographic object detection systems using deep convolutional neural networks are heavily used. However, in the case of remote sensing of the Earth, the quality of images can be extremely low due to a variety of negative phenomena. The most common distortion in the images is the Gaussian blur, which leads to a reduction in the clarity of the objects in these images, which in turn greatly reduces the effectiveness of the object detection system. Purpose: the purpose of the paper is to improve robustness (distortion performance) of the convoluted neural network in the system of localization of objects on blurred aerial photographs without the use of additional pre-processing or post-processing units, which results in unnecessary computing costs. Methods: to achieve the main goal, using training data augmentation by including blurred images with various levels of distortion is proposed. Results: The simulation has shown that, as the fraction of distorted

images increases and the level of distortion raises, the training dataset increases the metric of the average recall of the vehicle localization system on distorted test images. At the same time, however, there is a decline in the metric of intersection of the predicted regions of interest with the true objects in the same distorted test images. The study has shown the existence of an optimal level of image distortion in the training dataset to produce the most stable (robust) deep convolutional neural networks. Problem is solved on the example of localization of vehicles on aerial photographs of the Earth. Practical relevance: the proposed method makes it possible to increase the efficiency of the system for localizing objects on distorted aerial images without increasing the computational complexity. Discussion: Further detailed studies of deep convolutional neural networks behavior in the real world, namely, under various image distortions, will allow to increase robustness in a wide variety of situations.

REFERENCES

1. Zhang L., Zhang L., Du B. (2016). Deep Learning for Remote Sensing Data: A Technical Tutorial on the State of the Art. IEEE Geoscience and Remote Sensing Magazine, vol. 4, no. 2, pp. 22-40, doi:10.1109/MGRS.2016.2540798.

2. Qingyun F., Lin Z., Zhaokui W. (2020). Efficient Feature Pyramid Network for Object Detection in Remote Sensing Imagery. IEEE Access, vol. 8, pp. 93058-93068, doi: 10.1109/ACCESS.2020.2993998.

3. Hosang J., Benenson R., Dollar P., Schiele B. (2016). What Makes for Effective Detection Proposals? IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 4, pp. 814-830, doi: 10.1109/TPAMI.2015.2465908.

4. Ziyadinov V. V., Kurochkin P. S., Tereshonok M. V. (2021). Convolutional neural network training optimization for low point density image recognition. Journal of communications technology and electronics, vol. 66, no. 12, pp. 1363-1369, doi: 10.1134/S1064226921120202.

5. Huang J., Rathod V., Sun C., Zhu M., Korattikara A., Fathi A., Fischer I., Wojna Z., Song Y., Guadarrama S., Murphy K. (2017). Speed/Accuracy Trade-Offs for Modern Convolutional Object Detectors. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3296-3297.

6. Makiuchi A., Saji H. (2019). Vehicle detection using aerial images in disaster situations. International Conference on Global Research and Education. Springer, Cham, doi:10.1007/978-3-319-99834-3_25.

7. Yang X., Sun H., Fu K., Yang J., Sun X., Yan M., Guo Z. (2018). Automatic Ship Detection in Remote Sensing Images from Google Earth of Complex Scenes Based on Multiscale Rotation Dense Feature

Pyramid Networks. Remote Sensing, vol. 10, no. 1, p. 132, doi:10.3390/rs10010132.

8. Huang B., Zhao B., Song Y. (2018). Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery. Remote Sensing of Environment, vol. 214, pp. 73-86, doi:10.1016/j.rse.2018.04.050.

9. Bejiga M., Zeggada A., Nouffidj A., Melgani F. (2017). A Convolutional Neural Network Approach for Assisting Avalanche Search and Rescue Operations with UAV Imagery. Remote Sensing, vol. 9(2), p. 100, doi:10.3390/rs9020100.

10. Dodge S., Karam L. (2016). Understanding how image quality affects deep neural networks. Eighth International Conference on Quality of Multimedia Experience (QoMEX), doi: 0.1109/QoMEX.2016.7498955.

11. Li L., Pan J., Lai W.-S., Gao C, Sang N., Yang M.-H. (2018). Learning a Discriminative Prior for Blind Image Deblurring. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.

12. Chakrabarti A. A Neural Approach to Blind Motion Deblurring (2016). Lecture Notes in Computer Science, pp. 221-235.

13. Kupyn O., Budzan V., Mykhailych M., Mishkin D., Matas J. (2018). DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 8183-8192.

14. Sun J., Wenfei Cao, Zongben Xu, Ponce J. (2015). Learning a convolutional neural network for non-uniform motion blur removal. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 769-777.

15. Zhang K., Zuo W., Zhang L. (2018). Deep Plug-And-Play Super-Resolution for Arbitrary Blur Kernels. IEEE/CVF Conference on

Computer Vision and Pattern Recognition (CVPR), pp. 1671-1681.

16. Ding C., Ta D. (2018). Trunk-Branch Ensemble Convolutional Neural Networks for Video-Based Face Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.40, № 4, pp. 10021014, doi:10.1109/TPAMI.2017.2700390.

17. Liu D., Cheng B., Wang Z., Zhang H., Huang T. S. (2019). Enhance Visual Recognition under Adverse Conditions via Deep Networks. IEEE Transactions on Image Processing, 2019, vol.28, no. 9, pp. 4401-4412, doi:10.1109/TIP. 2019.2908802.

18. Akkoca Gazioglu B. S., Kamasak M. E. (2021). Effects of objects and image quality on melanoma classification using deep neural networks. Biomedical Signal Processing and Control, 2021, vol. 67, p. 102530, doi:10.1016/j.bspc.2021.102530.

19. Zhou Y., Song S., Cheung N.-M. (2017). On classification of distorted images with deep convolutional neural networks. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1213-1217, doi:10.1109/ICASSP.2017.7952349.

20. Dodge S., Karam L. A Study and Comparison of Human and Deep Learning Recognition Performance under Visual Distortions // 26th International Conference on Computer Communication and Networks (ICCCN), 2017, doi: 10.1109/ICCCN.2017.8038465.

21. Isaev I., Dolenko S. (2018). Adding noise during training as a method to increase resilience of neural network solution of inverse problems: test on the data of magnetotelluric sounding problem. International Conference on Neuroinformatics, pp. 9-16, doi: 10.1007/978-3-319-66604-4_2.

22. Vasiljevic I., Chakrabarti A., Shakhnarovich G. (2016). Examining the impact of blur on recognition by convolutional networks.

23. Pei Y., Huang Y., Zou Q., Zhang X., Wang S. (2019). Effects of Image Degradation and Degradation Removal to CNN-based Image Classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 4, pp. 1239-1253, doi: 10.1109/TPAMI.2019.2950923.

24. Ziyadinov V., Tereshonok M. (2022). Noise Immunity and Robustness Study of Image Recognition Using a Convolutional Neural Network. Sensors, vol. 22, p.1241.

25. Ziyadinov V. V., Tereshonok M. V. (2022). Neural Network Image Recognition Robustness with Different Augmentation Methods. 2022 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO), pp. 1-4, doi: 10.1109/SYN-CHROINFO55067.2022.9840987.

26. Ilina O. V., Tereshonok M. V. (2022). Robustness study of a deep convolutional neural network for vehicle detection in aerial imagery. Journal of communications technology and electronics, vol. 67, no. 2, pp. 164-170, doi: 10.1134/S1064226922020048.

27. Lin T.-Y., Goyal P., Girshick R., He K., Dollar P. (2017). Focal Loss for Dense Object Detection. IEEE International Conference on Computer Vision (ICCV), doi: 10.1109/ICCV.2017.324.

28. Ren S., He K., Girshick R., Sun J. (2017). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149.

29. Lin T.-Y., Dollar P., Girshick R., He K., Hariharan B., Belongie S. (2017). Feature Pyramid Networks for Object Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2117-2125, doi: 10.1109/CVPR.2017.106.

30. Xia G.-S., Bai X., Ding J., Zhu Z., Belongie S., Luo J., Datcu M., Pelillo M., Zhang L. (2018). DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3974-3983, doi: DOTA: A Large-Scale Dataset for Object Detection in Aerial Images.

31. He K., Zhang X., Ren S., Sun J. (2016). Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770-778, doi: 10.1109/CVPR.2016.90.

32. Cheng G., Zhou P., Han J. (2016). Learning Rotation-Invariant Convolutional Neural Networks for Object Detection in VHR Optical Remote Sensing Images. IEEE Transactions on Geoscience and Remote Sensing, vol. 54, no. 12, pp. 7405-7415, doi: 10.1109/TGRS.2016.2601622.

33. Mundhenk T. N., Konjevod G., Sakla W. A., Boakye K. (2016). A Large Contextual Dataset for Classification, Detection and Counting of Cars with Deep Learning. Lecture Notes in Computer Science, pp. 785-800, doi:10.1007/978-3-319-46487-9_48.

34. Razakarivony S., Jurie F. (2016). Vehicle detection in aerial imagery?: A small target detection benchmark. Journal of Visual Communication and Image Representation, vol. 34, pp. 187-203, doi: 10.1016/j.jvcir.2015.11.002.

35. LeCun Y. A., Bottou L., Orr G. B., Muller K.-R. (2012). Efficient BackProp. Neural Networks: Tricks of the Trade, pp. 9-48.

INFORMATION ABOUT AUTHORS:

Ilina O. V., Scientific Researcher, Moscow Technical University of Communications and Informatics, Moscow, Russia

Tereshonok M. V., PhD, Docent, Head of Department, Science and Research Department, Moscow Technical University of Communications and Informatics, Moscow, Russia

For citation: Ilina O. V., Tereshonok M. V. A Deep Convolutional Neural Network Training Technique for Remote Sensing Robust Object Localization. H&ES Reserch. 2022. Vol. 14. No 5. P. 4-13. doi: 10.36724/2409-5419-2022-14-5-4-13 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.