профессиональная подготовка в таможенной сфере
customs professional training
УДК 004.89
DOI 10.54048/20727240_2022_02_123
применение машинного обучения для автоматического анализа снимков инспекционно-досмотровых комплексов
п. Н. Башлы1, в. ф. Вербов1
1 Ростовский филиал Российской таможенной академии, Ростов-на-Дону, Российская Федерация
Аннотация. «Стратегией развития таможенной службы Российской Федерации до 2030 года» предусмотрена разработка и реализация модели интеллектуального пункта пропуска через государственную границу. Ожидаемыми результатами внедрения новой модели являются сокращение времени контрольных мероприятий в пунктах пропуска и создание условий для безостановочного движения транспорта при перемещении товаров при одновременном обеспечении предусмотренных контрольных функций в автоматическом режиме. Одна из наиболее сложных задач, решаемых при создании интеллектуального пункт пропуска, - задача автоматического рентгеноскопического контроля с использованием инспекционно-досмотровых комплексов (ИДК) нового (портального) типа, позволяющих получать рентгеновские снимки в потоковом режиме. С учетом современного уровня развития науки и техники в области систем компьютерного зрения методы машинного обучения наиболее эффективны при решении задач автоматического анализа снимков ИДК и создания соответствующего сервиса, позволяющего повысить скорость и объективность таможенного контроля. Показано, что наиболее перспективным направлением исследований в области создания систем автоматического распознавания снимков ИДК является исследование и применение нейронных сетей, реализующих алгоритмы глубокого обучения. Обосновано, что среди известных архитектур нейронных сетей с глубоким обучением наиболее качественные результаты в обработке изображений показывают сверточ-ные нейронные сети.
Ключевые слова: интеллектуальный пункт пропуска, таможенный контроль, инспекционно-до-смотровый комплекс, рентгеновское изображение, искусственный интеллект, машинное обучение, база данных, автоматический анализ, сверточная нейронная сеть.
application of machine learning for automatic image analysis inspection complexes
p. N. Bashly1, V. F. Verbov1
1 Rostov branch of the Russian Customs Academy, Rostov-on-Don, Russian Federation
© Башлы П. Н., Вербов В. Ф., 2022
Abstract. Strategy for the development of the customs service until 2030 provides for the development and implementation of a model of an intelligent checkpoint across the state border. The expected results of the introduction of the new model are the reduction of the time of control measures at checkpoints and the creation of conditions for non-stop traffic when moving goods while simultaneously providing the provided control functions in automatic mode. One of the most difficult tasks to be solved when creating an intelligent checkpoint is the task of automatic X-ray inspection using inspection and inspection complexes (IDCs) of a new (portal) type that allow receiving X-rays in streaming mode. Taking into account the current level of development of science and technology in the field of computer vision systems, the most effective methods of solving the problem of automatic analysis of IDC images and creating an appropriate service that allows increasing the speed and objectivity of customs control are machine learning methods. The article shows that the most promising area of research in the field of creating automatic image recognition systems for IDCs is the study and application of neural networks implementing deep learning algorithms. It is also proved that among the well-known architectures of neural networks with deep learning, convolutional neural networks show the highest quality results in image processing.
Keywords: intelligent (smart) checkpoint, customs control, cargo vision inspection system, X-ray image, artificial intelligence, machine learning, data base, automated analysis, convolutional neural networks.
ВВЕДЕНИЕ
В соответствии со «Стратегией развития таможенной службы Российской Федерации до 2030 года» (Стратегия) планируемые к внедрению «интеллектуальные» пункты пропуска должны обеспечить существенную минимизацию времени на проведение различных контрольных мероприятий.
В связи с этим концептуально «интеллектуальный» пункт пропуска должен предусматривать осуществление большинства контрольных процедур в автоматическом режиме, что обеспечит в идеале практически безостановочное перемещение безрисковых товаров через таможенную границу. Для этого необходимо создание единой цифровой платформы, объединяющей базы данных всех контролирующих органов, а также набор соответствующих технических средств таможенного контроля, в частности, инспекционно-досмотровых комплексов (ИДК).
В Стратегии также отмечено, что работа единой информационной системы должна быть основана на перспективных технологических решениях и информационных технологиях, обеспечивающих автоматический анализ получаемых этими комплексами рентгеновских изображений (РИ) объектов контроля, путем использования элементов «искусственного интеллекта» и базы данных эталонных РИ [1].
Однако следует отметить, что само по себе оснащение пунктов пропуска современными средствами технического контроля и фиксации объектов без соответствующих систем принятия решений на основе анализа данных системами с искусственным интеллектом не позволит в полной мере реализовать модель «интеллектуального» пункта пропуска [2, 3]. Поэтому при его создании необходимо иметь системы, сочетающие различные субтехнологии сквозной цифровой технологии, например: «Компьютерное зрение», «Нейротехнологии и искусственный интеллект», «Рекомендательные системы и интеллектуальные системы поддержки принятия решений» и др. [4].
Рассмотрим основные направления решения задачи по автоматической обработке РИ с использованием перспективных информационных технологий, включающих элементы искусственного интеллекта.
В самом широком смысле искусственным интеллектом называют способность совокупности технологий решать интеллектуальные задачи, которые решает человек. Однако достигнутый уровень технологий пока не позволяет создать такой искусственный интеллект, который способен разрешить различные сложные интеллектуальные задачи.
Современный этап развития технологий искусственного интеллекта связан с исходными данными, которые не только накоплены в больших объемах, но и благодаря современным информационным технологиям систематизированы в базы данных, так называемые дата-сеты, т. е. наборы размеченных данных, пригодных для применения в алгоритмах машинного обучения.
возможностИ метода машинного обучения
Машинное обучение - это подраздел искусственного интеллекта, объединяющий математический аппарат и соответствующие метрики, позволяющие синтезировать «интеллектуальный» алгоритм анализа данных, обученный на примере решений множества сходных задач.
Алгоритмы машинного обучения и соответствующие метрики, используемые для создания интеллектуальных алгоритмов обработки данных, - это одна из составляющих для создания систем с искусственным интеллектом. Другой важной составляющей такой системы являются, как отмечалось выше, большие базы данных. Однако данные, существующие в исходном виде, мало пригодны для реализации алгоритмов машинного обучения. В алгоритмах машинного обучения необходимо использовать размеченные данные, т. е. данные с выделенными признаками объектов, отражающими их особенности.
Применительно к товарам, подлежащим таможенному контролю, могут быть выделены такие признаки, как товарная группа, вес, габариты, химический состав и др. Известно, что разметка данных и выбор признаков для последующего применения машинного обучения занимают значительную часть времени создания интеллектуальной системы.
С учетом этого, в зависимости от объема данных, их качества и наличия характерных признаков объектов, все алгоритмы машинного обучения делят на четыре подкласса: классическое машинное обучение, машинное обучение с подкреплением, ансамблевое машинное обучение, а также нейронные сети с глубоким обучением.
Проведенный анализ возможностей машинного обучения показал, что наиболее перспективным направлением исследований в этой области является исследование возможностей нейронных сетей, реализующих алгоритмы глубокого обучения [5].
Среди известных архитектур нейронных сетей с глубоким обучением, в том числе рекурентных нейронных сетей (ИКЫ) и генеративно-состязательных
нейронных сетей (GAN), лучшие результаты в обработке изображений показывают сверточные нейронные сети (CNN) [6, 7].
Основная особенность сверточных нейронных сетей состоит в выделении из исходного изображения малых частей, содержащих характерные элементарные признаки объектов (контуры, дуги, грани).
На следующих уровнях обработки (слоях нейронных сетей) из этих элементарных признаков выделяются (распознаются) более сложные повторяемые фрагменты текстур (треугольник, квадрат, окружность и более сложные геометрические фигуры), которые при дальнейшей обработке могут сложиться в более сложные текстуры (лицо человека, деталь транспорта и др.), и в конечном итоге по совокупности таких признаков может быть распознан сам объект - человек, автомобиль, животное и др.
Применение сверточных нейронных сетей с таким принципом работы позволяет распознавать объекты на неразмеченных изображениях, т. е. сверточная нейронная сеть сама выделяет характерные признаки объекта и в дальнейшем распознает его.
Один сверточный слой состоит из нескольких сверток, и сверточные слои можно ставить друг за другом, по аналогии с полносвязными слоями. Первый свер-точный слой применяется непосредственно к самому изображению, второй слой -к выходу первого сверточного слоя и т. д. Выход сверточного слоя формально тоже является изображением, но на глубоких слоях нейронной сети это «изображение» уже не будет интерпретироваться человеком. Между сверточными слоями, как и между полносвязными, вставляют слои нелинейности, а в конце свер-точной архитектуры обычно вставляют один или несколько полносвязных слоев (рис.).
сверточных слоев и одного полносвязного слоя
Как и в других видах нейронных сетей, в сверточных нейросетях при увеличении номера сверточного слоя повышается уровень абстракции. Первые слои распознают простые переливы яркости и отдельные цвета, слои чуть глубже распознают простые геометрические формы, еще более глубокие слои распознают части изображений, например глаза, губы и нос при анализе лиц, а самые глубокие слои отвечают за распознавание целых объектов [7].
Так, для работы с изображениями чаще всего используются сверточные нейронные сети с самыми важными задачами анализа изображений: классификация, детекция и сегментация.
Результатом классификации является определение класса (объекта) на изображении. С точки зрения РИ ИДК результатом классификации может быть бинарная классификация: есть подозрительные области или их нет на данном изображении. Если подозрительные с точки зрения таможенного контроля области на изображении не обнаружены, то транспортное средство может беспрепятственно перемещаться через «интеллектуальный» пункт пропуска. В противном случае транспортное средство останавливается для дальнейших процедур таможенного контроля.
Задача детекции более сложная, поскольку помимо обнаружения заданного класса (объекта) еще выделяется и область изображения, где этот класс размещен. В результате детекции на РИ могут быть выделены группы товаров, при этом интеллектуальная система в дальнейшем может сравнить перечень детектированных товаров с перечнем товаров, заявленных в декларации, и принять решение о последующих действиях.
Наиболее сложной задачей автоматического анализа изображений является задача сегментации, поскольку сегментация - это попиксельная классификация, т. е. нейронная сеть определяет принадлежность каждого пикселя изображения конкретному классу (объекту). Результаты сегментации объектов на РИ могут быть использованы для определения массогабаритных размеров товаров, перемещаемых через таможенную границу, однако очевидно, что данные этой оценки будут иметь примерный характер и не могут служить данными для принятия значимых решений, а могут использоваться только в качестве вспомогательных.
Так, с точки зрения полезности и перспектив внедрения алгоритмов машинного обучения при автоматической обработке РИ наиболее интересными можно считать две задачи анализа изображений: детекцию и сегментацию. При этом в целом с учетом современного уровня развития алгоритмов машинного обучения применительно к таможенному контролю и автоматизации анализа РИ следует рассматривать возможность решения с использованием алгоритмов машинного обучения следующих основных задач:
- анализ РИ и бинарная классификация товарной партии: рисковая/безрисковая;
- анализ РИ и детекция на нем объектов с выделением обнаруженных элементов для дальнейшего оперативного анализа (сравнения с заявленными товарами) оператором ИДК и принятия по нему решения.
Рассмотрение отдельных классов задач машинного обучения для автоматического анализа РИ обусловлено возможными различными подходами к обучению нейронной сети.
В первом случае задача обучения классификатора может быть решена с использованием обучающей выборки в виде дата-сета изображений, которые предварительно разделены на рисковые и безрисковые.
В результате применения алгоритма машинного обучения нейронная сеть должна на новых изображениях, не входящих в обучающую выборку, определять класс изображения с товарной партией: рисковая / безрисковая.
Оценка качества алгоритма машинного обучения в задаче классификации осуществляется с использованием соответствующих метрик. Рассмотрим возможные метрики для задачи бинарной классификации.
Применяемые при бинарной классификации метрики основаны на использовании следующих исходов: истинно положительные (ТР), истинно отрицательные (Т^), ложноположительные ^Р) и ложноотрицательные а матрица ошибок бинарной классификации будет иметь следующий вид (табл.).
Таблица
Матрица ошибок бинарной классификации метрик
Ответ алгоритма при классификации РИ Истинное значение класса РИ
Есть риск Нет риска
Есть риск Истинно положительный True Positive (TP) Ложноположительный False Positive (FP)
Нет риска Ложноотрицательный False Negative (FN) Истинно отрицательный True Negative (TN)
Ошибки бинарной классификации бывают двух видов: «ложноположитель-ные» (ошибка первого рода), когда товарная партия безрисковая, а алгоритм машинного обучения по изображению определяет ее как рисковую, и «ложноотри-цательные» (ошибка второго рода), когда товарная партия рисковая, а алгоритм машинного обучения определяет ее как без риска.
Наиболее простой метрикой в задаче бинарной классификации является метрика, определяющая долю точных ответов алгоритма машинного обучения [8, 9]:
TP + TN
Accuracy =-.
а TP + TN + FP + FN
Данная метрика показывает количество правильно проставленных истинно положительных и истинно отрицательных меток от общего количества исходов применения алгоритмов для анализа РИ.
Метрика применима в тех задачах, где классы равнозначны, что на практике бывает крайне редко. Например, в задаче автоматизации анализа РИ с точки зрения соблюдения таможенного законодательства более важно определение всех товарных партий класса «Есть риск». Ложноположительные ошибки более приемлемы, нежели ложноотрицательные, поскольку после применения мер по минимизации рисков товарная партия, отобранная в результате ложноположительной ошибки, будет точно отнесена к истинному классу, а в случае пропуска рисковой товарной партии (ложноотрицательный исход) фактически будет нарушено законодательство. Также данная метрика не применима в тех случаях, когда объектов одного класса в данных значительно больше, чем объектов другого класса.
Следовательно, метрика Accuracy не показывает, в какую сторону алгоритм машинного обучения ошибается чаще, однако на практике, как мы отметили,
ошибки первого и второго рода могут иметь разное значение с точки зрения таможенного контроля и соблюдения законодательства.
Для оценки ошибок первого и второго рода используют метрики «Точность» (Precision) и «Полнота» (Recall).
Метрика «Точность», например, показывает, какая доля объектов, выделенных классификатором как положительные, действительно являются положительными. Метрика «Полнота» показывает, какая часть положительных ответов была выделена классификатором. Метрики определяются по формулам:
TP
Precision = Recall =
TP + FP ' TP
TP + FN'
При этом метрика Precision показывает, какая часть предсказаний класса «Есть риск» была верна. Аналогично метрика Recall показывает, какая доля фактического события «Есть риск» была правильно предсказана.
С учетом того, что ложноотрицательные ошибки более значимы при таможенном контроле, при обучении алгоритма машинного обучения следует добиваться максимизации метрики Recall. При этом, как правило, метрика Precision будет ухудшаться, что приведет к увеличению применения мер по минимизации рисков, в том числе остановке транспортных средств для таможенного досмотра. Очевидно, что при такой настройке алгоритма машинного обучения возрастет доля неэффективных случаев применения мер по минимизации рисков, поэтому на практике отслеживать обе метрики одновременно будет неудобно.
В этом случае существует подход, позволяющий скомбинировать две метрики в одной. Для этого используют F-меру - среднее гармоническое метрик Precision и Recall:
_ Presicion х Recall F = 2 х-—-- .
Presicion + Recall
Такой способ усреднения был выбран потому, что F-мера принимает высокие значения, когда обе метрики принимают высокие значения. Иными словами, если хотя бы одна из двух метрик близка к 0, то F-мера тоже будет близка к 0. Это свойство не выполняется, например, для среднего арифметического из точности и полноты.
проблемные аспекты реализации машинного обучения
Выбор метрики для оценки качества обучения алгоритма машинного обучения является нетривиальной задачей и непосредственно зависит от характера решаемой прикладной задачи.
Другой подход к обучению нейронной сети для решения задачи детекции объектов потребует предварительной разметки объектов на РИ, и нейронная сеть должна быть обучена обнаруживать конечное число объектов.
Данная задача более сложная, поскольку потребует значительных ресурсов для разметки изображений операторами, особенно с учетом необходимости большого количества РИ в обучающем дата-сете.
В целом, как отмечается в источнике [10], автоматический анализ рентгеновских изображений товаров и транспортных средств - все еще относительно новое направление исследований, однако интерес к решению этой задачи возрастает.
Основным сдерживающим фактором в развитии алгоритмов машинного обучения для автоматического распознавания РИ является отсутствие открытых наборов данных - дата-сетов, пригодных для настройки алгоритмов. Имеющиеся наборы данных, как правило, относятся к отдельным ведомствам и получены с использованием одних и тех же устройств, что не обеспечивает необходимого многообразия исходных данных для решения этой задачи.
В исследовании [10] обозначены некоторые проблемы развития и применения алгоритмов машинного обучения при автоматическом анализе РИ ИДК.
Во-первых, необходимо создание открытых наборов данных - изображений, которые бы позволили привлечь более широкий круг специалистов и исследователей для решения такой специфической задачи, как автоматический анализ рентгеновских изображений алгоритмами машинного обучения.
Во-вторых, применительно к РИ необходимы исследования по адекватности методов подавления шумов на них в целях их предварительной обработки и последующей разметки. Для прямых рентгеновских изображений такие алгоритмы известны, однако в силу специфики теневых РИ применение этих методов может привести к искажению информации на них.
В-третьих, необходимы исследования, позволяющие сделать вывод о влиянии большей информативности изображений, полученных двумя источниками рентгеновских излучений, на качество алгоритма машинного обучения, а также насколько информация о свойствах материала может быть использована в алгоритмах машинного обучения.
Некоторые исследования в этой области, проводимые в Ростовском филиале Российской таможенной академии, в целом подтверждают наличие указанных выше проблем. При проведении экспериментов по использованию искусственных нейронных сетей, реализованных на языке программирования Python и обученных на объектах из базы Imagenet (http://www.image-net.org/), решалась задача классификации прямых и теневых РИ, полученных в среде имитационного моделирования изображений «СимуРен-С», содержащих запрещенные объекты (в частности, оружие).
По результатам этих экспериментов были сделаны следующие выводы:
- существующие обученные на прямых РИ нейронные сети непригодны для использования в целях автоматизации распознавания теневых рентгеновских изображений ИДК;
- наиболее пригодными для классификации одиночных (изолированных) объектов на РИ являются четыре нейронные сети (Xception, ResNet, Inception, VGG);
- известными нейронными сетям потенциально возможно распознавание оружия на РИ (в частности, пистолета), однако при этом уровень доверия к принятому решению не превышает 20-30%.
заключение
В рамках проведенного исследования возможного построения систем автоматического анализа рентгеновских изображений выявлен ряд проблемных вопросов, которые существенно затрудняют их внедрение, в том числе:
- отсутствие базы размеченных рентгеновских изображений;
- сложность (по сравнению с традиционными системами) алгоритма автоматической разметки с учетом того, что на рентгеновском изображении перекрытие одного объекта другим создает комплексное теневое изображение, на котором контуры составляющих объектов могут деформироваться из-за влияния других объектов: задача семантической сегментации при этом становится особенно сложной;
- необходимость наличия значительных вычислительных мощностей для решения задач автоматизации распознавания РИ с использованием аппарата нейронных сетей и машинного обучения;
- отсутствие существенного опыта в мировой практике по решению задачи автоматического анализа РИ алгоритмами машинного обучения;
- высокая вероятность ложноположительных результатов: предмет, по форме похожий на запрещенный (например, игрушечный пластиковый нож или автомат), скорее всего, будет распознан как его запрещенный к провозу аналог.
Одним из перспективных направлений исследований и экспериментов в области создания алгоритмов машинного обучения для автоматического анализа РИ ИДК в настоящее время является применение технологии «трансферного обучения» (Transfer learning), общая идея которого заключается в использовании предварительно обученной нейронной сети для решения новой целевой задачи, при том что нейронная сеть была обучена для решения другой задачи.
Возможность такого подхода в глубоком машинном обучении обусловлена архитектурой сверточной нейронной сети, в которой первые сверточные слои отвечают за выделение простых признаков и только последние слои настроены на выделение определенных классов объектов.
При реализации технологии Transfer learning часть параметров обученной нейронной сети фиксируется, а часть параметров выходных слоев и классификатор дообучаются на целевом наборе данных.
Таким образом, современные методы машинного обучения позволяют создавать системы автоматического распознавания рентгеновских изображений различной степени сложности в целях таможенного контроля. Однако при этом необходимы дальнейшие исследования, которые позволят адаптировать существующие методы машинного обучения для анализа теневых снимков, полученных с применением ИДК.
ИСПОЛЬЗОВАННЫЕ ИСТОЧНИКИ
1. Распоряжение Правительства РФ от 23.05.2020 № 1388-р «Стратегия развития таможенной службы Российской Федерации до 2030 года».
2. Башлы П. Н. О реализации модели интеллектуального пункта пропуска // Особенности государственного регулирования внешнеэкономической деятельности в современных условиях: материалы VII Всероссийской научно-практической конференции. Ростов н/Д, 2020. С. 55-61.
3. Башлы П. Н., Адамова О. В. Автоматизация и управление технологическими процессами перспективного пункта пропуска [Электронный ресурс] // Инженерный вестник Дона. 2021. № 56. URL: http://www.ivdon.ru/uploads/article/pdf/IVD_52_5_bashlu_adamo-
va.pdf_13743cf0a2.pdf.
4. Дорожная карта развития «сквозной» цифровой технологии «Нейротехнологии и искусственный интеллект» [Электронный ресурс]. URL: https://digital.gov.ru/uploaded/files/ 07102019ii.pdf.
5. Башлы П. Н., Вербов В. Ф., Шевцов А. В. Анализ рентгеновских изображений, полученных с применением инспекционно-досмотровых комплексов. СПб.: Изд. центр «Интермедия», 2022. 144 с.
6. Dumoulin V., Visin F. A Guide to Convolution Arithmetic for Deep Learning [Electronic resource]. URL: https://arxiv.org/pdf/1603.07285.pdf.
7. Введение в архитектуры нейронных сетей [Электронный ресурс]. URL: https://habr.com/ ru/company/oleg-bunin/blog/340184.
8. Метрики в задачах машинного обучения [Электронный ресурс]. URL: https://habr.com/ru/ company/ods/blog/328372.
9. Соколов Е. Семинары по выбору моделей [Электронный ресурс]. URL: http://www.ma-chinelearning.ru/wiki/images/1/1c/Sem06_metrics.pdf.
10. Rogers Thomas W., Jaccard Nicolas, Morton Edward J., Griffin Lewis D. Automated X-ray Image Analysis for Cargo Security: Critical Review and Future Promise [Electronic resource]. URL: https://arxiv.org/pdf/1608.01017.pdf.
Информация об авторах
Башлы Петр Николаевич - доктор технических наук, доцент, проректор-директор, Ростовский филиал Российской таможенной академии, Российская Федерация, 344002, Ростов-на-Дону, проспект Буденовский, 20, e-mail: [email protected], тел.: 8 (863) 262-00-01; Вербов Владимир Федорович - кандидат технических наук, профессор, декан факультета повышения квалификации, Ростовский филиал Российской таможенной академии, Российская Федерация, 344002, Ростов-на-Дону, проспект Буденовский, 20, e-mail: [email protected], тел.: 8 (863) 262-50-78.
Конфликт интересов
Авторы заявляют об отсутствии конфликта интересов. Для цитирования
Башлы П. Н., Вербов В. Ф. Применение машинного обучения для автоматического анализа снимков инспекционно-досмотровых комплексов // Вестник Российской таможенной академии. 2022. № 2. С. 123-132.