Методика обнаружения и оценивания динамики дефектов инженерных сооружений на основе обработки изображений с беспилотного
летательного аппарата
М.Н. Суетин 12, В.Е. Дементьев 2, А.Г. Ташлинский 2, Р.Г. Магдеев 2 1 ФНПЦАО «НПО «Марс», 432027, Россия, г. Ульяновск, ул. Солнечная, д. 20;
2 Ульяновский государственный технический университет;
432027, Россия, г. Ульяновск, ул. Северный Венец, д. 32
Аннотация
Предложена неинвазивная методика автоматизированного обнаружения и оценивания динамики дефектов инженерных сооружений, основанная на обработке изображений, формируемых при периодических облетах инженерного сооружения беспилотными летательными аппаратами. Методика включает этапы детектирования дефектов, совмещения изображений дефектов с их изображениями, полученными с предыдущих облетов, и выявления динамики развития дефекта. Приведен пример реализации и апробации методики для задачи обнаружения и оценивания динамики трещин в металлических конструкциях мостовых переходов. Методика позволяет существенно сократить затраты на мониторинг состояния дефектов инженерных сооружений при увеличении вероятности обнаружения дефектов.
Ключевые слова: мониторинг, мостовой переход, металлическая конструкция, дефект, методика, обработка, нейронная сеть, обнаружение, детектирование, стохастическая адаптация, изображение, деформации, совмещение.
Цитирование: Суетин, М.Н. Методика обнаружения и оценивания динамики дефектов инженерных сооружений на основе обработки изображений с беспилотного летательного аппарата / М.Н. Суетин, В.Е. Дементьев, А.Г. Ташлинский, Р.Г. Магдеев // Компьютерная оптика. - 2024. - Т. 48, № 5. - С. 762-771. - DOI: 10.18287/2412-6179-CO-1438.
Citation: Suetin MN, Dementiev VE, Tashlinskii AG, Magdeev RG. Methodology for detecting and assessing the dynamics of defects in engineering structures by processing images from an unmanned aerial vehicle. Computer Optics 2024; 48(5): 762-771. DOI: 10.18287/2412-6179-CO-1438.
Введение
Одной из важнейших задач, возникающих при эксплуатации инженерных сооружений, является мониторинг их состояния. Основной целью такого мониторинга является выявление возможных дефектов и оценка их потенциальной опасности для сооружения. Особую актуальность задача мониторинга имеет для инженерных транспортных объектов, эксплуатирующихся в интересах большого количества физических и юридических лиц. Примерами таких объектов являются мостовые сооружения разного вида. Их особенностью является наличие динамических нагрузок, приводящих к ускоренному развитию дефектов и в ряде случаев преждевременному выходу из строя сооружения. Так, за последние годы в Российской Федерации было зарегистрировано не менее четырех обрушений железнодорожных мостов, вызванных катастрофическим разрушением элементов их конструкции. Каждый такой инцидент приводит не только к необходимости восстановления, но и к большим финансовым потерям, обусловленным долговременными нарушениями логистических маршрутов.
В настоящее время используется в основном три подхода к мониторингу подобных сооружений. Первый, являющийся ведущим, основан на проведении периодического осмотра конструкций специально
обученным персоналом в соответствии с профильными нормативными и методическими документами [1, 2]. К сожалению, дефицит квалифицированных кадров зачастую не позволяет выдерживать регламентные сроки подобных осмотров. Кроме этого, техническая сложность реализации такого мониторинга, связанная с работой на высоте, сложными погодными условиями, усталостью персонала, порой приводит к значительному числу пропущенных дефектов. Второй подход связан с использованием методов ультразвуковой и рентгеновской дефектоскопии [3]. Несмотря на высокие качество и достоверность этого вида мониторинга, его реализация на реальных объектах затруднительна ввиду высокой стоимости и сложности доставки и использования специализированной аппаратуры. Третий подход базируется на использовании методов разрушающего контроля, которые предполагают проведение лабораторных испытаний ключевых фрагментов конструкций [4]. Подобные испытания проводятся только в исключительных случаях, например, связанных с остановкой эксплуатации сооружения.
Развитие в последнее время беспилотных летательных аппаратов (БПЛА) открыло новые возможности по проведению мониторинга инженерных сооружений, основанные на периодических облетах этих сооружений, регистрации изображений интересующих кон-
структивных элементов и выявлении на этих изображениях дефектов разного вида с оценкой их параметров, включая степень опасности и динамику развития. Поскольку результатом каждого такого облета являются сотни тысяч новых изображений высокого разрешения, для их обработки необходима автоматизация. Настоящая статья посвящена разработке и апробации одного из вариантов методики такой обработки.
1. Основные принципы и этапы методики
Анализ практики проведения мониторинга состояния мостовых конструкций позволил сформулировать следующие ключевые задачи, которые необходимо решить для автоматизированной обработки изображений, полученных с разных облетов БПЛА (далее - разновременных изображений). Во-первых, необходимо принять решение о наличии того или иного дефекта на текущем кадре видеопоследовательности, т.е. решить задачу детектирования дефектов. При этом разумно использовать информацию о результатах обработки предшествующих кадров видеопоследовательности. Во-вторых, поскольку сопоставление изображений выделенных дефектов с их изображениями, сделанными в ходе предыдущих осмотров объекта, затруднено наличием их взаимных геометрических искажений из-за разных ракурсов и положений камер при съемке, нужно оценить параметры искажений для решения задачи совмещения изображений. В-третьих, по совмещенным изображениям выявить динамику развития дефекта.
Кроме этого, актуальной является и задача обнаружения любых изменений, произошедших с конструкцией за время, прошедшее с предыдущей съемки.
Для решения указанных задач предлагается методика, основанная на комбинировании методов сегментации изображений, их совмещении, детектировании и обнаружении объекта интереса, в том числе в условиях априорной неопределенности относительно его параметров.
В качестве основы алгоритмов сегментации и детектирования целесообразно использовать искусственные нейросетевые структуры, показывающие в последнее время впечатляющие результаты для задач распознавания и выделения объектов инфраструктуры [5 - 7]. Они универсальны с точки зрения настройки к изменяющимся внешним условиям и объектам мониторинга. Недостатком этих алгоритмов являются высокие требования к качеству и объему обучающей выборки. К сожалению, на сегодняшний день в открытом доступе отсутствует достаточное количество размеченных изображений дефектов конструктивных элементов. Это, вероятно, связано в том числе и с тем, что основной функцией эксплуатирующих инженерные сооружения организаций является не фоторегистрация дефектов с разных ракурсов в динамике их развития, а устранение этих дефектов. Кроме того, сегментация изображений дефектов соответствую-
щими нейросетевыми процедурами предполагает наличие обучающих выборок с пиксельной разметкой изображений. Такая разметка сама по себе является достаточно дорогой и затратной по времени.
Для преодоления указанных недостатков предлагается использовать два подхода. Первый основан на применении технологии Transfer Learning, предполагающей первичное обучение нейронной сети на базовом наборе изображений, которые в определённом смысле близки к обрабатываемым. Так, например, для базового обучения детектора трещин в металлических конструктивных элементах возможно использовать имеющийся в открытом доступе обучающий набор изображений трещин в бетоне [8]. Обученная таким образом сеть в дальнейшем дообучается на ограниченном наборе имеющихся изображений реальных дефектов. Второй подход предполагает комбинирование двух искусственных нейронных сетей, первая из которых выполняет функции первичного детектирования области возможного нахождения дефекта. Здесь обучение можно проводить на большом наборе изображений со «слабой» разметкой, представляющей собой прямоугольник, обрамляющий дефект. Вторая нейронная сеть решает задачу попик-сельного выделения дефекта в области изображения, выделенной первой сетью. Ее обучение уже оказывается возможным провести на относительно небольшом наборе изображений, размеченных на пиксельном уровне. Здесь стоит также отметить, что привлекательной выглядит идея, направленная на повышение качества работы нейросетевых процедур за счет предварительного совмещения текущего (обрабатываемого) кадра с предшествующими. Если на предшествующих кадрах было подтверждено наличие дефекта, то по оценкам параметров совмещения кадров видеопоследовательности можно спрогнозировать расположение этого дефекта на текущем кадре. Тогда в этой прогнозной области целесообразно повысить вероятность ложной тревоги нейросетевого детектора, соответственно увеличив и вероятность правильного обнаружения.
Проведенные исследования [9, 10] показали, что в условиях априорной неопределенности при совмещении изображений конструктивных элементов искусственных сооружений эффективны алгоритмы на основе математического аппарата безыдентификационной стохастической адаптации [11]. Они устойчивы к шумам и искажениям различной природы, обеспечивают субпиксельную точность совмещения и небольшие вычислительные затраты, позволяющие их реализацию в режимах, близких к реальному времени. В то же время алгоритмы этого класса не лишены и недостатков, основным из которых является относительно небольшой рабочий диапазон параметров совмещения. Однако в рассматриваемой задаче этот недостаток не является существенным, поскольку каждому кадру видеопоследовательности возможно
поставить в соответствие координаты места съемки и угловые параметры регистрирующего устройства, что, в свою очередь, дает возможность получения достаточных для стохастических алгоритмов начальных приближений оценок параметров.
Ниже рассмотрен пример реализации и апробации методики для задачи обнаружения и оценивания динамики трещин в металлических конструкциях мостовых переходов.
2. Реализация методики на примере обнаружения дефектов в металлических конструкциях
Исходные изображения для поиска дефектов (трещин в металлоконструкциях) формировались в результате периодических облетов исследуемых железнодорожных мостов по заданному маршруту. При этом использовался БПЛА Р1уаЫИ1у ЕИоб 2 (цветные изображения 4к, 50 кадров в секунду, гиростабилиза-ция, автоматическая фокусировка). Пример разновременных изображений приведен на рис. 1. Результаты обнаружения дефектов при текущем облете сравнивались с результатами предыдущих в соответствии с описанной выше методикой. Рассмотрим подробнее конкретную реализацию этапов методики.
Рис. 1. Пример разновременных изображений 2.1. Детектирование дефектов на изображениях
Использование нейронных сетей в задачах сегментации не требует точной настройки применительно к конкретной ситуации, свойственной классическим подходам [12]. При этом для подачи на вход нейронной сети изображение все же необходимо предварительно подготовить. Одним из приемов такой подготовки является приведение изображения к заданным размерам, что, как правило, ведет к потере части информации. Другим приемом является разбиение исходного изображения на подходящие по размеру области и их подача на вход нейросети. Результаты сегментации собираются в маску с размерами исходного изображения [13]. Однако при ограниченной выборке обучения нейронной сети сегментации разбиение изображений приводит к росту числа «ложных предсказаний». Получение же большой обучающей выборки с пиксельной разметкой, как отмечалось, довольно трудоемкая задача. Решить проблему с «ложными предсказаниями» позволяет предварительное детектирование областей внимания на изображениях при помощи другой нейросети, обученной на наборе изображений с более простой раз-
меткой [14]. В работе для сегментации дефектов использована комбинация детектора на базе архитектуры Yolo - для локализации области дефекта и сети U-Net - для выделения в локализованной области поверхностных трещин в металлических конструкционных элементах железнодорожного моста.
В качестве базовой части (backbone) архитектуры Yolov3 [15 - 17] применена нейронная сеть Darknet-53, предварительно обученная на наборе изображений объектов реального мира ImageNet [18] и трещин в железобетонных изделиях (по датасету Surface Crack Detection Dataset [8]). Затем в рамках технологии переноса обучения детектор Yolov3 дообучался детектированию дефектов элементов конструкции железнодорожного моста на сформированной для решаемой задачи обучающей выборке из 1162 изображений. Разметка изображений обучающей выборки выполнялась с использованием профессионального программного средства CVAT [19] в распространенном формате Pascal VOC. При этом обучение и дообучение Yolov3 проводилось традиционным для этой архитектуры способом на протяжении 100 эпох.
При решении задачи сегментации поверхностных трещин на изображениях металлических элементов моста хорошо себя зарекомендовали сверточные нейронные сети U-Net [20, 21], имеющие схожую архитектуру с сетями Yolov3, состоящую из кодирующей части, выделяющей из исходного изображения характерные признаки дефекта, и декодирующей части, выполняющей семантический анализ выделенных признаков и объединяющей результаты в выходную маску с размерами исходного изображения [21 -23]. Для сегментации дефектов использована нейронная сеть TernausNet, представляющая собой модификацию U-Net, в которой в качестве кодирующей части применена нейронная сеть VGG11. Эта сеть дообучалась классификации на обучающей выборке из 40 тысяч изображений дефектов на поверхности бетона [24]. Декодирующая часть сети обучалась сегментации поверхностной области трещин на сформированном наборе изображений трещин на поверхности конструкционных элементов железнодорожного моста. Набор состоял из 278 цветных изображений разного разрешения (примеры приведены на рис. 2а) и их черно-белых масок, отделяющих поверхностные трещины от фона (рис. 26).
Из специализированного набора изображений трещин десятая часть в равных долях была рандоми-зированно выделена под валидацию и тестирование. На наборе оставшихся изображений проводилось обучение нейронных сетей сегментации на протяжении 100 эпох. При этом обучению подвергались только дешифрующие части нейронных сетей. Для подачи на их вход изображения из обучающего набора разбивались на фрагменты с размерами 256 х 256 пикселей. Для нейтрализации проблем, связанных с дисбалансом между числом пикселей фона и дефектов, применялась
техника увеличения вероятности использования на очередном шаге обучения изображений, содержащих дефект. При обучении использовался стандартный алгоритм оптимизации Adam с шагом 10 -4, а в качестве функции потерь - бинарная кроссэнтропия. Для снижения эффекта переобучения нейросети применялись как классические процедуры аугментации (поворот, горизонтальные и вертикальные отражения), так и оригинальные алгоритмы, основанные на использовании глубоких гауссовых моделей [25].
Рис. 2. Примеры изображений трещин стальных конструкций и их бинарных масок
На рис. 3 приведен пример функции потерь (X) для вариантов обучения Тегпаш№1 без дообучения (рис. 3а) и с предварительно обученным классификации трещин в бетоне шифровальщиком (рис. Зб). Кривая 1 отражает изменение функции потерь по эпохам на обучающей выборке, а кривая 2 - на вали-дационной выборке (не участвующей в обучении). Видно, что предварительное дообучение шифровальщика сближает графики изменения функции потерь по обучающей и валидационной выборкам, что проявляется в устранении эффекта переобучения.
Рис. 3. Функции потерь сети TernausNet. (а) без дообучения, (б) с дообучением шифровальщика
Для проверки результатов обучения был подготовлен тестовый набор из 37 размеченных на пиксельном уровне контрольных изображений трещин на поверхности элементов стальных конструкций железнодорожного моста. В первом эксперименте изображения из тестового набора пошагово разбивались на квадратные области размерами 256 х 256 пикселей. Полученные области обрабатывались при помощи предварительно обученных сегментации нейронных сетей. Результаты обработки сопоставлялись с экспертной разметкой с вычислением показателя качества сегментации DICE. Анализ показал, что простое
разбиение исходного изображения приводит к росту числа «ложных срабатываний» и снижает качество сегментации. В ходе второго эксперимента с помощью детектора трещин на основе нейронной сети уо1оуз на тестовых изображениях выделялись прямоугольные области с дефектами, которые приводились к размерам 256 х 256 пикселей и подавались на вход нейронной сети для сегментации. В данном случае трещина попадала в выделенную область целиком. Результаты предсказаний, как и в первом эксперименте, сопоставлялись с разметкой, сделанной вручную экспертом. Число обучаемых параметров в обоих случаях составляло 13706913. Полученные данные сведены в табл. 1.
Табл. 1. Результаты обучения нейронной сети
Нейросеть TenausNet Аугментация Дообучение
Нет Есть
Тайлинг исходного изображения Нет 0,67 0,71
Есть 0,69 0,73
Локализация дефектов Yolov3 Нет 0,73 0,77
Есть 0,78 0,82
Анализ данных показывает, что использование предварительной локализации областей дефектов для дальнейшей сегментации трещин в выделенных областях с помощью нейросети TernausNet позволило повысить качество сегментации в среднем на 5 %. Схожего выигрыша позволяет добиться и дообучение кодирующей части TernausNet на большом наборе изображений «слабой» разметки. Сочетание этих приемов дает возможность получить приемлемое качество сегментации дефектов при реализации системы автоматического мониторинга объектов инфраструктуры.
Еще одним приемом повышения качества первичного обнаружения дефекта на текущем кадре видеопоследовательности является использование информации с предшествующего кадра. Если на предшествующем кадре обнаружен дефект и найдены параметры его геометрических деформаций а по отношению к текущему кадру, то координаты (хТлв, утлв ) , (хТн, уПн ) левой верхней (лв) и правой нижней (пн) вершин прямоугольной области потенциального расположения дефекта (обрамляющего прямоугольника) на текущем кадре легко найти:
(, утпн) = F(х, у,а), (хтпн, утпн) = F(хЩ, уЩ,а), (1)
где F (х, у, а) - заданная модель возможных межкадровых геометрических деформаций; индексы «Т» и «П» соответствуют координатам на текущем и предыдущем кадрах.
Затем для изображения обрамляющего прямоугольника проводится обработка нейродетектором Yolo с уменьшенными пороговыми коэффициентами при отсеивании выявленных объектов интереса самой нейросетью и алгоритмом Non-Maximum
Suppression [26, 27]). Уменьшение коэффициентов эквивалентно увеличению значения заданной ложной тревоги, а адаптацию коэффициентов возможно проводить автоматически отдельной стохастической процедурой [28]. В табл. 2 представлены результаты работы сетей Yolov3 и U-Net в случае использования такого подхода, полученные многократной обработкой кадров реальных видеопоследовательностей облета мостовых сооружений, отсутствующих в обучающих выборках. Там же для сравнения даны результаты простого стро-бирования, когда координаты области возможного расположения дефекта на текущем кадре предполагались совпадающими с областью на предыдущем кадре. В таблице использованы следующие обозначения: N -число используемых опорных кадров, L - процент ложных срабатываний, O - процент обнаружений.
Табл. 2. Результаты использования информации с предшествующего кадра
Использование информации с предшествующего кадра N L O DICE
Перенос координат обрамляющего прямоугольника с предыдущего кадра 0 1 78 0,82
1 3 88 0,84
2 4 92 0,85
5 4 94 0,86
Стохастическии поиск смещения границ обрамляющего прямоугольника 0 1 78 0,82
1 2 89 0.84
2 2 94 0,86
5 3 96 0,88
Анализ полученных данных показывает ожидаемый прирост эффективности при незначительном увеличении вероятности ложного срабатывания детектора. Стоит также отметить, что увеличение ложного срабатывания в большинстве случаев успешно купируется последующим применением алгоритма сегментации.
Таким образом, на этапе обнаружения дефектов в элементах стальных конструкций использована нейронная сеть Уо1оуЗ, обученная на наборе изображений со «слабой» разметкой. Предварительное детектирование за счет сокращения числа «ложных предсказаний» позволило получить приемлемое качество сегментации объектов интереса нейросе-тью Тегпаш№1. При этом уменьшение числа пропусков дефектов на отдельных кадрах видеопоследовательности достигнуто применением рассмотренных выше алгоритмов поиска координат области детектирования. Однако сопоставление изображений выделенных дефектов с их изображениями, сделанными в ходе предыдущих осмотров объекта, затруднено наличием взаимных геометрических искажений, вызванных изменением внешних условий, ракурса и положения камеры и при съемке. Компенсировать влияние этих искажений на оценивание динамики изменений дефектов позволяют процедуры совмещения разновременных изображений.
2.2. Совмещение разновременных изображений
Для совмещения двух разновременных и разнора-курсных изображений, одно из которых (полученное при первичном обследовании диагностируемой конструкции) условно назовем опорным Zo, а полученное при вторичном обследовании - деформированным Z0, использована безыдентификационная стохастическая адаптация [11]. Она предполагает задание некоторой модели деформаций с вектором параметров а, а также целевой функции Q качества совмещения, экстремум которой в пространстве параметров находится процедурой итерационно. Целевые функции в зависимости от условий решаемой задачи могут быть весьма разнообразны [29]. В частности, если изображения получены в схожих условиях по погоде и освещенности, то можно использовать средний квадрат разности яркостей изображений. В решаемой задаче при обследованиях диагностируемой конструкции условия могут существенно различаться, поэтому целевой функцией выбран коэффициент корреляции [30].
Безыдентификационную процедуру оценивания параметров деформаций можно записать в виде [31]:
а, = а- Л, Vq (ан, Z0, Zs), (2)
где аt - вектор оценок параметров деформаций, сформированный после t-й итерации; Л, - матрица, определяющая шаг изменения оценок на итерациях; Vq(-), - стохастический градиент функции качества совмещения изображений Q (аt-b Z0, Zs), Z0 - пере-
дискретирированное по текущим оценкам aпара-метров опорное изображение Z0.
Опираясь на анализ, проведенный ранее в [32 -34], был применен частный случай (2) - релейная стохастическая процедура:
а, = а,-1 - Л, sing Vq (а,_ь Z,), (3)
где а0 - некоторое начальное приближение вектора оцениваемых параметров; Л, - положительно определенная диагональная матрица; sign (•) - знаковая функция; t = 1, T - номер итерации.
Процедура (3) удовлетворяет требованиям простоты, быстрой сходимости оценок и работоспособности в условиях априорной неопределенности. Последнее качество для решаемой задачи особенно важно, поскольку разновременные изображения содержат нелинейные яркостные изображения априорно неизвестного вида. Применение знаковой функции способствует повышению устойчивость оценок параметров к импульсным яркостным помехам.
Однако реализация процедуры (2) в условиях оперативной обработки информации затруднена из-за требования больших вычислительных затрат. Сократить вычислительные затраты позволяет усечение стохастического градиента
Vд, =Уд ((И,-1, Ъ, , Ъ0)
на некоторую часть Zt изображений Ъ, и Ъ0 - локальную выборку. Эта выборка формировалась следующим образом. На изображении Ъ0 случайным образом выбирается заданное число ц пикселей е Ъ0, где - вектор координат к-го отсчета,
к = 1, ц . Пиксели с изображения Ъ, берутся с теми же координатами. При этом их яркость определяется по изображению с использованием билинейной интерполяции.
Оценка целевой функции находится как:
1
д,=цх
Цз^П, ст^к ]ст[г0к ]
(4)
где ст[2°к ] и ст[20к ] - среднеквадратические отклонения, найденные соответственно по пикселям Г, и
у Зк
20к локальной выборки Zt.
Соответственно, градиент целевой функции:
0&°
д ^0« Зк
Зк. еп, ии
(5)
Релейная процедура (2) обеспечивает субпиксельную точность совмещения изображений при приемлемых вычислительных затратах. При реализации процедуры могут быть использованы также различные модели взаимных геометрических деформаций
изображений, включая проективную. При этом анализ показал, что в решаемой задаче достаточно применения модели подобия [35], включающей параметры сдвига, коэффициента масштаба и угла поворота. Кроме того, эта модель по сравнению с проективной требует существенно меньше вычислительных ресурсов для преобразования.
Для увеличения рабочего диапазона оцениваемых параметров применялась предобработка изображений, включающая гауссову фильтрацию, эквализацию яркостей и компенсацию неравномерности освещённости [36]. Критерием выполнения процедуры совмещения служило превышение в скользящем окне в течение заданного числа итераций порога по коэффициенту корреляции совмещаемых изображений.
Пример совмещения фрагментов изображений приведен на рис. 4, где рис. 4а и рис. 46 соответствуют опорному и деформированному изображениям, полученным в предыдущем и текущем облетах БПЛА, рис. 4в - результат совмещения (в полупрозрачном режиме).
При этом для совмещения были использованы параметры геометрических деформаций, полученные стохастической процедурой (2): сдвиг по горизонтали - 154,3 пикселя, сдвиг по вертикали - 107,2 пикселя, коэффициент масштаба 1,016, угол поворота - 1,024о. Из рис. 4в видно, что трещина на опорном изображении совместилась с трещиной на новом изображении.
Рис. 4. Пример совмещения изображений
2.3. Выявление динамики изменения дефектов
Рассмотренное выше стохастическое оценивание разновременных изображений, содержащих дефект, позволяет найти параметры их взаимных геометрических деформаций, вызванные изменением ракурса и положения камер, и совместить исследуемое (деформированное по отношению к опорному) изображение дефекта с опорным, полученным в ходе предыдущего осмотра. Однако наличие других мешающих искажений, таких как изменение освещения, тени, появление посторонних объектов и других, часто не позволяет выявить динамику изменений дефекта путем простого нахождения разности изображений. Поэтому для выявления изменений дефектов была использована сверточная нейронная сеть [37, 38] с двухэтапной обработкой. На первом этапе из опорного и текущего изображений извлекаются значимые признаки дефекта, на втором - с использованием этих признаков анализируются изменения. Заметим при этом, что сбор реальных обучающих данных для нейросети
объективно затруднен, поскольку развитие дефекта -продолжительный по времени процесс и, как правило, после обнаружения оперативно завершается его локализацией обслуживающими службами. Поэтому была задействована технология переноса обучения сегментации [17]. Предложена адаптированная под выявление изменений архитектура сверточной нейросети Тегпаш№1 [20, 22, 39, 40], представленная на рис. 5. Здесь на вход вместо одного подаются сразу два изображения: опорное и исследуемое, передис-кретизированное в ходе адаптивного стохастического совмещения. Сеть Тегпаи$№1, как и другие нейросети семейства Ц№1, состоит из нисходящей и восходящей частей и поддерживает технологию переноса обучения. В качестве нисходящей части (шифровальщика) для извлечения значимых признаков из изображений используются сверточные слои (серые кружочки на рис. 5), хорошо зарекомендовавшие себя при сегментации трещин нейросетью Увв16 [21]. Стрелками обозначены операции понижающей дискретизации, которые удваивают число каналов на
каждом уровне. Изначально Увв16 уже обучена классификации на большом наборе изображений и приспособлена для извлечения значимых признаков. Однако шифровальщик дополнительно обучался на датасете [8] изображений трещин в бетоне. Как видно из рис. 5, результаты извлечения признаков дефектов на каждом уровне обобщаются (заштрихованные кружочки) с процедурой конкатенации и подаются на следующий уровень. На каждом уровне результаты объединения выделенных признаков дефекта пробрасываются (пунктирная стрелка) на соответствующий слой дешифровальщика для увеличения вероятности обнаружения изменений.
Рис. 5. Архитектура нейросети
Выявление по извлеченным значимым признакам изменений изображений дефектов выполняется восходящей частью нейросети Тегпаш№1 (дешифро-вальщиком, белые кружочки) традиционным для этой архитектуры способом. При этом для улучшения результата проводится обучение дешифровальщика на специализированном наборе из пар изображений с изменением дефекта. Для увеличения мощности множества обучающей выборки на основе доступного набора изображений с использованием процедур аугментации [41, 42] синтезировались пары изображений и масок, моделирующие динамику развития дефекта. Изображения в паре отличаются тем, что на одном из них трещина увеличилась.
Подготовка обучающих изображений поясняется рис. 6 и состоит в следующем. Пусть Z (рис. 6а) и М (рис. 6б) - исходное изображение и бинарная маска разметки трещины на этом изображении, в которой 1 соответствует пикселю, попавшему на трещину, 0 - не попавшему. В обучающей паре Z - это новое изображение с увеличенной трещиной (измененным дефектом).
Для моделирования опорного изображения Z* (до увеличения трещины) часть трещины на маске М закрывается прямоугольником со случайными размерами, формируя измененную маску разметки Ми (рис. 5в). Разность М - Ми образует маску изменения дефекта (рис. 5г). Затем маска М разделяется на области М; размером 256*256 элементов (рис. 5д), которым на изображении Z соответствуют области Zi■ с теми же координатами. Если на границах изображения в область попадает меньше элементов, она дополняется нулями. Отметим также, что границы об-
ластей в общем случае не совпадают с границами маски изменений.
С использованием масок М и М - Ми для каждой области Zi определяется наличие в ней дефекта. При этом возможны три ситуации: область Z0 оказалась без дефекта (на рис. 6д - соответствует черному цвету), с дефектом - Zf (серым цветом) и с измененным дефектом - Zfu (заштрихована). В результате формируется матрица изменений, каждый элемент которой соответствует одной из областей: без дефекта, с дефектом и измененным дефектом и, соответственно, может принимать три значения (в дальнейшем матрица изменений используется при обучении нейросети).
Рис. 6. Пояснение формирования пары обучающих изображений
Затем пиксели в области с измененным дефектом Zfu, соответствующие дефекту, заменяются на пиксели из области Z0з без дефекта (фоном), близкие по яр-костным характеристикам, в соответствии с правилом:
Z0з = эд£ ^тип (СКО {ь°, Zfu))
(6)
где СКО (0, Zfu) - средний квадрат разности яркостей областей Zfu и Z0.
Наложение фона из области Z0з на дефект в Zfu выполняется как:
Z* = Zr х(1 - М,) + Zfu X М, , (7)
где I - матрица, состоящая из всех единиц; М; - область из маски изменений, соответствующая Zfu; * -операция поэлементного умножения матриц. Пример результирующего изображения приведен на рис. 6е.
Таким образом, каждая синтезированная пара обучающих изображений содержит цветные изображения дефекта до изменения (опорное) и после изменения («исследуемое»).
Обученная нейронная сеть была протестирована на различных реальных и имитированных изображениях дефектов с использованием сопоставления с экспертной разметкой, которое показало, что средняя величина погрешности составила не более 8 - 9 %.
Пример выявления изменения дефекта на паре совмещенных разновременных изображений (рис. 4) приведен на рис. 7, где рис. 7а - опорное изображение, рис. 7б - исследуемое изображение, рис. 7в -трещина, обнаруженная в опорном изображении, рис. 7г - выявленная динамика изменения трещины.
Рис. 7. Выявление динамики изменения дефекта Заключение
Предложенная неинвазивная методика автоматизированного обнаружения и оценивания динамики дефектов инженерных сооружений, основанная на обработке изображений, получаемых при периодических облетах инженерного сооружения БПЛА, позволяет существенно сократить затраты на мониторинг их состояния при увеличении вероятности обнаружения дефектов.
Апробация методики на примере задачи обнаружения и оценивания динамики трещин в металлических конструкциях мостовых переходов показала ее работоспособность и высокую эффективность.
В качестве направлений дальнейшего развития работы можно выделить следующие:
- разработка процедур фильтрации временной последовательности изображений, направленной на уменьшение ложных обнаружений дефектов, возникающих из-за наличия на конструктивных элементах посторонних вытянутых объектов (следов коррозии, остатков надписей, игры теней и т.п.), вероятность которых оценивается ориентировочно в 5 - 7 %;
- исследование применения для совмещения разновременных изображений нейронных сетей, что станет возможным по мере накопления достаточной для их обучения базы изображений области трещин на конструкционных элементах и позволит повысить быстродействие методики на этапе совмещения изображений;
- анализ эффективности использования при постобработке результатов мониторинга векторизованных разновременных изображений, содержащих дефект.
Благодарности
Исследование выполнено за счет гранта Российского научного фонда № 23-21-00249.
References
[1] Guidelines for monitoring the condition of in-service bridge structures [In Russian]. Industry road methodological document GRM 218.4.002-2008. Moscow: "Feder-al'noye Dorozhnoye Agentstvo" Publisher; 2008.
[2] Guidelines for inspection and reinforcement of in-service welded spans [In Russian]. Ministry of Railways. Moscow: "NII Mostov LIIZHTa" Publisher; 1990.
[3] Arushonok YuYu. Determination of parameters of building structures operation under load in the process of their testing [In Russian]. Metallicheskiye Konstruktsii 2019; 25(2): 53-64.
[4] Gorokhov EV Evaluation of technical condition and technical diagnostics of metal structures of industrial buildings and structures [In Russian]. Stroitel' Donbassa 2019; 2(7): 15-25.
[5] Kanaeva IA, Ivanova YuA, Spitsyn VG. Deep convolu-tional generative adversarial network-based synthesis of datasets for road pavement distress segmentation. Computer Optics 2021; 45(6): 907-916. DOI: 10.18287/2412-6179-CO-844.
[6] Su H, Wang X, Han T, Wang Z, Zhao Z, Zhang P. Research on a U-Net bridge crack identification and feature-calculation methods based on a CBAM attention mechanism. Buildings 2022; 12(10): 1561. DOI: 10.3390/buildings12101561
[7] Pu R, Ren G, Li H, Jiang W, Zhang J, Qin H. Autonomous concrete crack semantic segmentation using deep fully convolutional encoder-decoder network in concrete structures inspection. Buildings 2022; 12(11): 2019. DOI: 10.3390/buildings12112019.
[8] Ozgenel ÇF. Concrete crack images for classification. Mendeley Data. V2. 2019. Source: <https://data.mendeley.cOm/datasets/5y9wdsg2zt/2>. DOI: 10.17632/5y9wdsg2zt.2.
[9] Magdeev R, Safina G, Tashlinskii A. Analysis of the influence of background areas on the registration efficiency of multiple images bridge structures. Int Conf on Information Technology and Nanotechnology (ITNT-2023) 2023: 1-5. DOI: 10.1109/ITNT57377.2023.10138954.
[10] Suetin MN, Tashlinskii AG, Magdeev RG. Joint usage of neural networks and stochastic referencing of images while estimating defects in bridge structures. Int Conf on Information Technology and Nanotechnology (ITNT-2022) 2022: 1-5. DOI: 10.1109/ITNT55410.2022.9848624.
[11] Tsypkin YaZ, Information identity theory [In Russian], Moscow: "Fizmatlit" Publisher, 1995. ISBN: 5-02-015071-1.
[12] Andriyanov NA, Dementiev VE, Tashlinskiy AG. Detection of objects in the images: from likelihood relationships towards scalable and efficient neural networks. Computer Optics 2022; 46(1): 139-159. DOI: 10.18287/2412-6179-CO-922.
[13] Huang B, Reichman D, Collins LM, Bradbury K, Malof JM. Tiling and stitching segmentation output for remoute sensing: basic challenges and recomendations. arXiv Preprint. 2024. Source: <https://arxiv.org/abs/1805.12219>. DOI: 10.48550/arXiv.1805.12219.
[14] Dementev VE, Suetin MN, Gaponova MA. Using Machine Learning Techniques to Detect Defects in Images of Metal Structures. Pattern Recognition and Image Analysis 2021; 31(3): 506-512. DOI: 10.1134/51054661821030068.
[15] Redmon J, Divvala S, Girshick R, Farhadi A. You only look once: Unified, real-time object detection. Proc IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2016; 1: 779-788. DOI: 10.1109/CVPR.2016.91.
[16] Redmon J, Farhadi A. YOLOv3: An incremental improvement. arXiv Preprint. 2024. Source: <https://arxiv. org/abs/1804.02767>. DOI : 10.48550/arXiv.1804.02767.
[17] Kalinina MO, Nikolaev PL. Book spine recognition with the use of deep neural networks. Computer Optics 2020; 44(6): 968-977. DOI: 10.18287/2412-6179-CO-731.
[18] Deng J, Dong W, Socher R, Li L-J, Li K, Fei-Fei L. ImageNet: a large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009), Miami, FL, USA, 2009; 1: 248-255. DOI: 10.1109/CVPR.2009.5206848.
[19] Computer Vision Annotation Tool (CVAT). Source: (https://github.com/ opencv/cvat).
[20] Ronneberger O, Fischer F, Brox T. U-Net: Convolutional networks for biomedical image segmentation. 18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI 2015), Munich, Germany, October 5-9, 2015; 9351: 234-241. DOI: 10.1007/978-3-319-24574-4_28
[21] Iglovicov V, Shvets A. TernausNet: U-Net with VGG11 encoder pre-trained on ImageNet for image segmentation. Source: (https://arxiv.org/abs/1801.05746). DOI: 10.48550/arXiv.1801.05746
[22] Long J, Shelhamer E, Darrel T. Fully Convolutional Networks for Semantic Segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015; 1: 3431-3440. DOI: 10.1109/CVPR.2015.7298965.
[23] Chen L-C, Papandreou G, Schroff F, Adam H. Rethinking Atrous Convolution for Semantic Image Segmentation.
Source: (https://arxiv.org/abs/1706.05587). DOI: 10.48550/arXiv.1706.05587
[24] Chen L-C, Zhu Y, Papandreou G, Schroff F. Encoderdecoder with atrous separable convolution for semantic image segmentation. In Book: Ferrari V, Hebert M, Sminchisescu C, Weiss Y, eds. Computer vision - ECCV 2018. Cham: Nature Switzerland AG; 2018: 833-851. DOI: 10.1007/978-3-030-01234-2_49.
[25] Dementyiev VE, Andriyanov NA, Vasilyiev KK. Use of images augmentation and implementation of doubly stochastic models for improving accuracy of recognition algorithms based on convolutional neural networks. Systems on Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO) 2020: 1-4. DOI: 10.1109/SYNCHR0INF049631.2020.9166000.
[26] Girshick R. Fast R-CNN. IEEE Int Conf on Computer Vision (ICCV) 2015: 1440-1448. DOI: 10.1109/ICCV.2015.169.
[27] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell 2017; 39(6): 11371149. DOI: 10.1109/TPAMI.2016.2577031.
[28] Dementev VE, Tashlinsky AG, Suetin MN, Gaponova MA. Improving the quality of video processing based on the use of an artificial YOLO neural network. VIII Int Conf on Information Technology and Nanotechnology (ITNT-2022) 2022: 1-4. DOI: 10.1109/ITNT55410.2022.9848613.
[29] Voronov SV, Tashlinskii AG. Efficiency analysis of information theoretic measures in image registration. Pattern Recogn Image Anal 2016; 26(3): 502-505. DOI: 10.1134/S1054661816030226.
[30] Minkina GL, Samoilov MYu, Tashlinskii AG. Choice of the objective function for pseudogradient measurement of image parameters. Pattern Recogn Image Anal 2007; 17(1): 136-139. DOI:10.1134/S1054661807010166
[31] Tashlinskii AG. Optimization of goal function pseudogradient in the problem of interframe geometrical deformations estimation. In Book: Yin P-Y, ed. Pattern recognition techniques, technology and applications. London, UK: "InTech" Publisher; 2008: 249-280. DOI: 10.5772/6244.
[32] Tashlinskii AG, Tikhonov VO. Methodology for analyzing the error of pseudogradient measurement of parameters of
multidimensional processes [In Russian]._Izvestiya
VUZov: Radioelektronika 2001, 44(9): 75-80.
[33] Tashlinskii AG, Safina GL, Voronov SV. Pseudogradient optimization of objective function in estimation of geometric interframe image deformations. Pattern Recogn Image Anal 2012; 22(2): 386-392. DOI: 10.1134/S1054661812020174.
[34] Magdeev RG, Tashlinskii AG. A comparative analysis of the efficiency of the stochastic gradient approach to the identification of objects in binary images. Pattern Recogn Image Anal 2014; 24(4): 535-541. DOI: 10.1134/S1054661814040130.
[35] Gonzalez RC, Woods E. Digital image processing. 4th ed. New York: Pearson; 2017. ISBN: 978-1-292-22304-9.
[36] Magdeev R, Tashlinskii A, Safina G. Efficiency of stochastic gradient identification of similar shape objects in binary and grayscale images. CEUR Workshop Proc 2020; 2665: 25-28.
[37] You Y, Cao J, Zhou W. A survey of change detection methods based on remote sensing images for multi-source and multi-objective scenarios. Remote Sens 2020; 12(15): 2460. DOI: 10.3390/rs12152460.
[38] Jiang H, Peng M, Zhong Y, Xie H, Hao Z, Lin J, Ma X, Hu X. A survey on deep learning-based change detection from high-resolution remote sensing images. Remote Sens 2022; 14(7): 1552. DOI: 10.3390/rs14071552.
[39] Zhou Z, Siddiquee MR, Tajbakhsh N, Liang J. UNet++: A nested U-Net architecture for medical image segmentation. 4th Int Workshop, DLMIA 2018, and 8th Int Workshop, ML-CDS 2018, Held in Conjunction with MICCAI 2018, Granada, Spain, 2018: 3-11. DOI: 10.1007/978-3-030-00889-5 1
[40] Peng D, Zhang Y, Guan H. End-to-end change detection for high resolution satellite images using improved UNet++. Remote Sens 2019; 11(11): 1382. DOI: 10.3390/rs11111382.
[41] Zhong Z, Zheng L, Kang G, Li S, Yang Y. Random erasing data augmentation. Proc AAAI Conf on Artificial Intelligence 2020; 34(07): 13001-13008. DOI: 10.1609/aaai.v34i07.7000.
[42] Jamshidi M, El-Badry M, Nourian N. Improving concrete crack segmentation networks through CutMix data synthesis and temporal data fusion. Sensors 2023; 23(1): 504. DOI: 10.3390/s23010504.
Сведения об авторах
Суетин Марат Николаевич, 1981 года рождения, начальник научно-исследовательской лаборатории ФНПЦ АО «НПО «Марс». Сфера научных интересов: компьютерное зрение, глубокое обучение, распознавание образов. E-mail: [email protected]
Дементьев Виталий Евгеньевич, 1982 года рождения, заведующий кафедрой радиотехники, телекоммуникаций и защиты информации Ульяновского государственного технического университета. В 2007 году защитил диссертацию на соискание ученой степени кандидата технических наук, в 2020 году - диссертацию на соискание ученой степени доктора технических наук. Сфера научных интересов: статистический анализ изображений, распознавание образов. E-mail: [email protected]
Ташлинский Александр Григорьевич, 1954 года рождения, директор научно-исследовательского центра обработки цифровых сигналов и изображений «Сигнал» Ульяновского государственного технического университета. В 1984 году защитил диссертацию на соискание степени кандидата технических наук, в 1999 году -диссертацию на соискание степени доктора технических наук. Сфера научных интересов: адаптивные стохастические процедуры оценивания параметров изображений и сигналов, статистический анализ изображений и сигналов, распознавание образов. E-mail: [email protected]
Магдеев Радик Гильфанович, 1987 года рождения, старший преподаватель кафедры радиотехники, телекоммуникаций и защиты информации Ульяновского государственного технического университета. Сфера научных интересов: адаптивные стохастические процедуры оценивания параметров деформаций изображений, распознавание образов. E-mail: [email protected]
ГРНТИ: 28.23.15
Поступила в редакцию 11 октября 2023 г. Окончательный вариант - 17 января 2024 г.
Methodology for detecting and assessing the dynamics of defects in engineering structures by processing images from an unmanned aerial vehicle
M.N. Suetin 12, V.E. Dementiev2, A.G. Tashlinskii2, R.G. Magdeev2 1FRPC JSC 'RPA 'Mars', 432027, Ulyanovsk, Russia, Solnechnaya 20;
2 Ulyanovsk State Technical University, 432027, Ulyanovsk, Russia, Severnyy Venets 32
Abstract
We propose a non-invasive technique for automated detection and assessment of the dynamics of defects in engineering structures based on processing images received from unmanned aerial vehicles during periodic surveillance flights over an engineering structure. The technique includes stages of detecting defects, collating the defect images acquired during the latest and previous surveillance flights, and identifying the dynamics of defect development. An example of the implementation and testing of the methodology for detecting and assessing the dynamics of cracks in metal structures of bridge crossings is given. The technique allows you to significantly reduce the cost of monitoring the condition of defects in engineering structures while increasing the probability of detecting defects.
Keywords: monitoring, bridge, metal structure, defect, technique, processing, neural network, detection, stochastic adaptation, image, deformation, combination.
Citation: Suetin MN, Dementiev VE, Tashlinskii AG, Magdeev RG. Methodology for detecting and assessing the dynamics of defects in engineering structures by processing images from an unmanned aerial vehicle. Computer Optics 2024; 48(5): 762-771. DOI: 10.18287/2412-6179-CO-1438.
Acknowledgements: This work was financially supported by the Russian Science Foundation under grants Nos. 22-21-00513 and 23-21-00249.
Authors' information
Marat Nikolaevich Suetin, (b. 1981). In 2003 he graduated from Ulyanovsk State Pedagogical University, majoring in Technology and Entrepreneurship. Currently working as head of a research laboratory FRPC JSC 'RPA 'Mars'. Research interests: computer vision, deep learning, pattern recognition. E-mail: [email protected] ORCID: https://orcid.org/0000-0001-8340-6644.
Vitaly Evgenievich Dementiev, (b. 1982). In 2007, he defended his dissertation for the scientific degree of Candidate of Technical Sciences, and in 2020, he defended his dissertation for the scientific degree of Doctor of Technical Sciences. Head of Radio Engineering, Telecommunications and Information Security department at Ulyanovsk State Technical University. Research interests: statistical image analysis, pattern recognition. E-mail: [email protected] ORCID: https://orcid.org/0000-0002-4880-0432.
Aleksander Grigorievich Tashlinskii, (b. 1954). In 1984 he defended his dissertation for the degree of Candidate of Technical Sciences, in 1999 - his dissertation for the degree of Doctor of Technical Sciences. Director of the Research Center for Digital Signal and Image Processing "Signal" of the Ulyanovsk State Technical University. Currently working as a senior lecturer of Radio Engineering, Telecommunications and Information Security department at Ulyanovsk State Technical University. Currently working as a professor of Radio Engineering, Telecommunications and Information Security department at Ulyanovsk State Technical University. Research interests: adaptive stochastic procedures for estimating parameters of images and signals, statistical analysis of images and signals, pattern recognition. E-mail: [email protected] ORCID: https://orcid.org/0000-0003-4732-0418.
Radik Gilfanovich Magdeyev, (b. 1987) graduated from Ulyanovsk State Technical University in 2011, with a Master of Engineering and Technology in Telecommunications. Currently working as a senior lecturer of Radio Engineering, Telecommunications and Information Security department at Ulyanovsk State Technical University. Works as the head of the telecommunications group at Telecom.ru LLC. Research interests: image processing, adaptive stochastic procedures for estimating image deformation parameters, pattern recognition. E-mail: [email protected] ORCID: https://orcid.org/000-0001-8267-1649.
Code of State Categories Scientific and Technical Information (in Russian - GRNTI)): 28.23.15 Received October 11, 2023. The final version - January 17, 2024.