Научная статья на тему 'Подход к анализу изображений для систем технического зрения'

Подход к анализу изображений для систем технического зрения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
187
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕТЕКЦИЯ ОБЪЕКТОВ / СЕМАНТИЧЕСКАЯ МОДЕЛЬ / НЕЙРОННЫЕ СЕТИ / ОБРАБОТКА ИЗОБРАЖЕНИЙ / ОБРАБОТКА ЯЗЫКА / R-CNN / WORDNET / СИТУАЦИОННЫЙ МОНИТОРИНГ / ВИДЕОНАБЛЮДЕНИЕ / OBJECT DETECTION / SEMANTIC MODEL / NEURAL NETWORKS / IMAGE PROCESSING / NATURAL LANGUAGE PROCESSING / SITUATIONAL MONITORING / VIDEO SURVEILLANCE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Искра Н. А.

В данной работе предлагается подход к семантическому анализу изображений, который можно использовать в системах технического зрения. Целью работы является разработка метода автоматического построения семантической модели, формализующей пространственные связи между объектами на изображении, а также ее исследование. Отличительной особенностью данной модели является определение значимых объектов, благодаря чему алгоритм построения анализирует на порядок меньше отношений между объектами, что позволяет существенно сократить время обработки изображения и объем используемых ресурсов. Уделено внимание выбору нейросетевого алгоритма детекции объектов на изображении как предварительного этапа построения модели. Проведены эксперименты на тестовых наборах их базы Visual Genome, разработанной исследователями из Стэнфордского университета для оценки алгоритмов детекции объектов, аннотирования регионов и других актуальных задач анализа изображений. При оценке работы модели оценивалась точность определения пространственных отношений. Также были проведены эксперименты по интерпретации полученной модели, а именно аннотированию, т. е. получению текстового описания содержания изображения. Результаты экспериментов сравнивались с аналогичными результатами нейросетевой генерации аннотаций изображений, полученными на той же базе другими исследователями, а также автором данной работы ранее. Показано улучшение качества аннотирования изображений до 60 % (в соответствии с метрикой METEOR) по сравнению с нейросетевыми методами. Кроме того, использование данной модели позволяет частично очистить и нормализовать данные для обучения, в том числе нейросетевых архитектур, широко применяющихся в анализе изображений. Рассматриваются перспективы использования данной методики в ситуационном мониторинге. В качестве недостатков данного подхода можно отметить некоторые упрощения при построении модели, которые будут учтены в дальнейшем развитии модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPROACH TO IMAGE ANALYSIS FOR COMPUTER VISION SYSTEMS

This paper suggests an approach to the semantic image analysis for application in computer vision systems. The aim of the work is to develop a method for automatically construction of a semantic model, that formalizes the spatial relationships between objects in the image and research thereof. A distinctive feature of this model is the detection of salient objects, due to which the construction algorithm analyzes significantly less relations between objects, which can greatly reduce the image processing time and the amount of resources spent for processing. Attention is paid to the selection of a neural network algorithm for object detection in an image, as a preliminary stage of model construction. Experiments were conducted on test datasets provided by Visual Genome database, developed by researchers from Stanford University to evaluate object detection algorithms, image captioning models, and other relevant image analysis tasks. When assessing the performance of the model, the accuracy of spatial relations recognition was evaluated. Further, the experiments on resulting model interpretation were conducted, namely image annotation, i.e. generating a textual description of the image content. The experimental results were compared with similar results obtained by means of the algorithm based on neural networks algorithm on the same dataset by other researchers, as well as by the author of this paper earlier. Up to 60 % improvement in image captioning quality (according to the METEOR metric) compared with neural network methods has been shown. In addition, the use of this model allows partial cleansing and normalization of data for training neural network architectures, which are widely used in image analysis among others. The prospects of using this technique in situational monitoring are considered. The disadvantages of this approach are some simplifications in the construction of the model, which will be taken into account in the further development of the model.

Текст научной работы на тему «Подход к анализу изображений для систем технического зрения»

Щ

http://dx.doi.org/10.35596/1729-7648-2020-18-2-62-70

Оригинальная статья Original paper

УДК 004.85

ПОДХОД К АНАЛИЗУ ИЗОБРАЖЕНИИ ДЛЯ СИСТЕМ ТЕХНИЧЕСКОГО ЗРЕНИЯ

ИСКРА НА.

Белорусский государственный университет информатики и радиоэлектроники (г. Минск, Республика Беларусь)

Поступила в редакцию 31 января 2020

© Белорусский государственный университет информатики и радиоэлектроники, 2020

Аннотация. В данной работе предлагается подход к семантическому анализу изображений, который можно использовать в системах технического зрения. Целью работы является разработка метода автоматического построения семантической модели, формализующей пространственные связи между объектами на изображении, а также ее исследование. Отличительной особенностью данной модели является определение значимых объектов, благодаря чему алгоритм построения анализирует на порядок меньше отношений между объектами, что позволяет существенно сократить время обработки изображения и объем используемых ресурсов. Уделено внимание выбору нейросетевого алгоритма детекции объектов на изображении как предварительного этапа построения модели. Проведены эксперименты на тестовых наборах их базы Visual Genome, разработанной исследователями из Стэнфордского университета для оценки алгоритмов детекции объектов, аннотирования регионов и других актуальных задач анализа изображений. При оценке работы модели оценивалась точность определения пространственных отношений. Также были проведены эксперименты по интерпретации полученной модели, а именно аннотированию, т. е. получению текстового описания содержания изображения. Результаты экспериментов сравнивались с аналогичными результатами нейросетевой генерации аннотаций изображений, полученными на той же базе другими исследователями, а также автором данной работы ранее. Показано улучшение качества аннотирования изображений до 60 % (в соответствии с метрикой METEOR) по сравнению с нейросетевыми методами. Кроме того, использование данной модели позволяет частично очистить и нормализовать данные для обучения, в том числе нейросетевых архитектур, широко применяющихся в анализе изображений. Рассматриваются перспективы использования данной методики в ситуационном мониторинге. В качестве недостатков данного подхода можно отметить некоторые упрощения при построении модели, которые будут учтены в дальнейшем развитии модели.

Ключевые слова: детекция объектов, семантическая модель, нейронные сети, обработка изображений, обработка языка, R-CNN, WordNet, ситуационный мониторинг, видеонаблюдение.

Конфликт интересов. Автор заявляет об отсутствии конфликта интересов.

Для цитирования. Искра Н.А. Подход к анализу изображений для систем технического зрения. Доклады БГУИР. 2020; 18(2): 62-70.

APPROACH TO IMAGE ANALYSIS FOR COMPUTER VISION SYSTEMS

NATALIA A. ISKRA

Belarusian State University of Informatics and Radioelectronics (Minsk, Republic of Belarus)

Submitted 31 January 2020

© Belarusian State University of Informatics and Radioelectronics, 2020

Abstract. This paper suggests an approach to the semantic image analysis for application in computer vision systems. The aim of the work is to develop a method for automatically construction of a semantic model, that formalizes the spatial relationships between objects in the image and research thereof. A distinctive feature of this model is the detection of salient objects, due to which the construction algorithm analyzes significantly less relations between objects, which can greatly reduce the image processing time and the amount of resources spent for processing. Attention is paid to the selection of a neural network algorithm for object detection in an image, as a preliminary stage of model construction. Experiments were conducted on test datasets provided by Visual Genome database, developed by researchers from Stanford University to evaluate object detection algorithms, image captioning models, and other relevant image analysis tasks. When assessing the performance of the model, the accuracy of spatial relations recognition was evaluated. Further, the experiments on resulting model interpretation were conducted, namely image annotation, i.e. generating a textual description of the image content. The experimental results were compared with similar results obtained by means of the algorithm based on neural networks algorithm on the same dataset by other researchers, as well as by the author of this paper earlier. Up to 60 % improvement in image captioning quality (according to the METEOR metric) compared with neural network methods has been shown. In addition, the use of this model allows partial cleansing and normalization of data for training neural network architectures, which are widely used in image analysis among others. The prospects of using this technique in situational monitoring are considered. The disadvantages of this approach are some simplifications in the construction of the model, which will be taken into account in the further development of the model.

Keywords: object detection, semantic model, neural networks, image processing, natural language processing, R-CNN, WordNet, situational monitoring, video surveillance.

Conflict of interests. The author declares no conflict of interests.

For citation. Iskra N.A. Approach to image analysis for computer vision systems. Doklady BGUIR. 2020; 18 (2): 62-70.

Введение

Задача анализа изображений в системах технического зрения стоит сегодня достаточно остро. Автоматическая интерпретация изображения при мониторинге - задача нетривиальная. Например, для системы видеонаблюдения было бы актуальным не просто записывать и сохранять видео, но и анализировать происходящее, а также сигнализировать о любых подозрительных ситуациях - нарушениях, происшествиях, действиях, требующих реагирования.

Рассматриваемый в данной работе подход к анализу изображений системой технического зрения проходит по следующему сценарию:

Шаг 1. Выделение отдельных объектов на изображении. Это могут быть только значимые в контексте данной системы объекты (например, участники движения, дорожная разметка и знаки в системах наблюдения за трафиком), области, очерчивающие объекты, или более точное выделение объекта попиксельно.

Шаг 2. Построение семантической модели. На данном этапе формализуются связи между объектами и/или атрибуты отдельных объектов.

Шаг 3. Интерпретация модели. По построенной модели может быть получено текстовое описание происходящего (аннотация изображения, например, для ведения журнала наблюдения) или определены конкретные ситуации на изображении, представляющие интерес (например, случаи нарушения правил дорожного движения, дорожно-транспортные происшествия и т. п.) Во втором случае интерпретация модели будет состоять в выделении только тех связей и атрибутов, которые могут сигнализировать об аномальной ситуации.

Наиболее важной частью в реализации анализа ситуации является построение интерпретируемой модели изображения. В данной статье основное внимание будет уделено методике построения этой модели, а также выбору алгоритма детекции объектов на изображении как предварительного этапа построения модели.

Теоретический анализ

А. Детекция объектов на изображении

Первым этапом анализа является обработка исходного изображения и автоматическое распознавание объектов на нем. При этом решается одна из следующих подзадач [1]:

- семантическая сегментация изображения (англ. Semantic Segmentation) - для каждого пикселя во входном изображении определить его категорию или класс;

- классификация и локализация (англ. Classification and Localization) - определить класс одиночного объекта на изображении и его точное месторасположение;

- детекция объектов (англ. Object Detection) - определить класс и прямоугольную область, ограничивающую каждый из объектов на изображении;

- сегментация образов (англ. Instance Segmentation) - на изображении с множеством объектов определить контуры (все видимые пиксели) и класс каждого из объектов.

Для построения семантической модели изображения наиболее интересны решения двух последних подзадач.

Среди современных алгоритмов детекции объектов актуальны методы, в том числе основанные на использовании глубоких нейронных сетей:

- метод скользящего окна (англ. Sliding Window) [2];

- метод предложения регионов (англ. Region Proposals) [3];

- метод детекции за один проход (англ. Single Shot Detection) [4].

Каждый из подходов имеет свои достоинства и недостатки, важные с точки зрения применения их в системах, требующих анализа изображения1.

Для построения модели, описанной в данной статье, наиболее подходят методы, основанные на классе нейросетевых моделей с предложением регионов, так называемые R-CNN, и их развитие:

- R-CNN [3] - представляет собой модель последовательной обработки изображения: генерацию набора предложений регионов, применение предобученной свёрточной нейронной сети с завершающим слоем опорных векторов и линейную регрессию для более точного определения регионов;

- Fast R-CNN [5] - модель, в которой для ускорения работы предыдущей последовательности обработки добавляется подборка регионов и объединение всех нейросетевых моделей в одну;

- Faster R-CNN [6] - для еще большего ускорения в модели используется селективный поиск регионов;

- Mask R-CNN [7] - в отличие от предыдущих моделей, данная использует бинарную маску для определения не просто прямоугольного региона - кандидата в объекты, а конкретных пикселей, принадлежащих объекту, что, по сути, и является решением задачи сегментации образов, описанной выше.

1 Хурсов П.С., Искра Н.А. Алгоритмы детекции объектов для анализа изображений. Информационные технологии и системы: материалы международной научной конференции. Минск, 2019:128-129.

Б. Модель изображения

За основу модели изображения принимается так называемый сцен -граф (англ. Scene Graph) [8]. Сцен-граф - это структура данных, описывающая содержание сцены, которая, в свою очередь, может быть задана изображением или его текстовым описанием. В сцен -графе закодированы экземпляры объектов, их атрибуты и отношения между объектами.

Формально, сцен-граф определяется следующим образом: пусть С - множество классов объектов, A - множество типов их атрибутов, R - множество типов отношений. Сцен-граф задается как G = (O, E), где O = {oi, ..., on} - множество объектов - вершины графа, E с O х R х O - множество ребер графа. Каждый объект представлен как Oi = {c,, Ai}, где с, е C - класс объекта, а A, с A - его атрибуты.

Сцен-граф может быть привязан к изображению. Пусть B - множество прямоугольных областей, каждая из которых ограничивает определенный объект на изображении (назовем их области объектов, англ. Bounding Boxes), тогда привязка сцен-графа G = (O, E) к изображению, это функция у: O ^ B, или jo.

Для экспериментальной части используется набор данных Visual Genome1, который представляет собой набор из размеченных 108 077 изображений, для которых путем привлечения большого количества людей, вручную были определены 5,4 млн описаний регионов в виде текста и сцен-графов.

Пример привязки сцен-графа к регионам на изображении из Visual Genome приведен на рис. 1.

Рис. 1. Пример изображения из Visual Genome c привязкой [9]

Fig. 1. An example of an image from Visual Genome with grounding [9]

Текстовые привязки сцен-графов (каждый объект, атрибут и отношение) в Visual Genome соответствуют синсетам из WordNet [10]. WordNet - сетевое представление слов, структурированное по смысловым отношениям между ними. В WordNet каждое слово представлено множеством своих синонимичных значений, которое называется синсетом (англ. synset). Каждый синсет представлен тройкой <word>.<pos>.<number>, где word - слово, pos - часть речи (n - существительное, v - глагол, a - прилагательное, r - наречие), number - индекс значения. Например, понятие «человек» в WordNet представлено тремя значениями person.n.01, person.n.02 и person.n.03. Текстовая привязка объекта «person» из Visual Genome соответствует синсету person.n.01. В WordNet между синсетами установлены связи синонимии, антонимии, «часть - целое» (мероним -холоним), «общее - частное» (гипероним - гипоним).

Методика построения модели изображения

Для построения модели изображения в виде сцен-графа нужно сначала определить объекты на изображении, а затем для каждой пары объектов принять решение, могут ли они иметь связи и какие именно [11]. Подбор связей может быть значительно упрощен за счет

1 Visual Genome. URL: https://visualgenome.org.

использования внешних баз знаний (общих или узкоспециализированных для конкретной предметной области)1. В обоих случаях для изображения, на котором найдено n объектов, необходимо рассмотреть (n2 - n) отношений. В данной работе предлагается упростить решение за счет определения так называемых «значимых» (англ. salient) объектов [12] и в дальнейшем рассматривать (n - 1) отношений. Такой подход соответствует сценарию наблюдения за определенными объектами в системах мониторинга.

Частотный анализ данных Visual Genome показывает, что самые частые отношения между объектами на изображениях - это пространственные отношения: отношение «на» («on») встречается 642 150 раз, «в» («in») - 218 166, «сзади» («behind») - 39 833. Кроме того, благодаря иерархической структуре привязок WordNet, пространственные отношения могут быть описаны более подробно: например, «car in a parking lot» («машина на стоянке») или «car is parked in a parking lot» («машина припаркована на стоянке»). Действительно, при взгляде на изображение человек прежде всего отмечает, как объекты расположены друг относительно друга в пространстве. При автоматической обработке также возможно определить смысловые пространственные отношения между объектами2.

На рис. 2 показана методика автоматического построения модели для пространственных отношений.

На рис. 2, a визуализирована система всех возможных пространственных отношений: область значимого объекта (субъекта) закрашена, остальные области - варианты расположения объекта интереса (объекта), для которого при помощи дерева принятия решений на рис. 2, b будет определяться вид пространственного отношения вида «субъект - отношение - объект».

Следует отметить, что для наименований видов отношений в данной модели используются предлоги, которые не представлены в WordNet, т. е. на данном этапе привязка к WordNet невозможна, однако на следующем шаге (для интерпретации) будут применяться синсеты, содержащие данные предлоги и их смыслы (be .v.01, along .r.01 и др.).

В дереве прямоугольниками показаны блоки, соответствующие определенному виду отношения, при этом выделены более общие отношения, требующие уточнения (как гиперонимы из WordNet). При построении дерева для ускорения процесса принятия окончательного решения правила (на рисунке показаны ромбами) формулировались в соответствии со статистическими данными анализа Visual Genome таким образом, что более частый случай будет находиться в дереве левее. Так, в исходном наборе данных отношение «рядом» (near) встречается чаще других пространственных отношений (26 316 раз), «сверху» (above) - существенно чаще, чем «снизу» (below) - 13 767 раз и 3 349 раз соответственно и т. д.

сверху above

сзади behind

справа внутри слева

right inside left

спереди in front

снизу below

да ^rt а одно й-\ нет

1 уровне i

нет верхне

1 * цтючеьу " 1 ï ^ -ijacm. ' 1

РЯДОМ NEAR ВНУТРИ INSIDE СВЕРХУ ABOVE СНИЗУ BELOW

да ^t À еньша *\нет да А левой г\нет

ï ^ -^астъ. 1 ^ sijacm. " 1

СЗАДИ СПЕРЕДИ СПРАВА СЛЕВА

BEHIND IN FRONT RIGHT LEFT

a b

Рис. 2. Методика автоматического построения модели для пространственных отношений Fig. 2. The technique of automatic model construction for spatial relations

1 Iskra N., Iskra V., Lukashevich M. Neural network based image understanding with ontological approach. Open Semantic Technologies for Intelligent Systems (OSTIS-2019): материалы международной научно-технической конференции. Минск, 2019: 113-122.

2 Искра Н.А., Межень А.Л., Шункевич Д.В. Онтология предметной области пространственных сущностей для системы семантического анализа изображений. Информационные технологии и системы: материалы международной научной конференции. Минск, 2019: 112-113.

Реализация метода, применяемая для постановки экспериментов, описанных далее, сначала производит детекцию объектов методом на основе Faster R-CNN, определяя классы объектов и их области. За значимый принимается объект с наибольшей площадью области.

На реальных естественных изображениях границы областей объектов, как правило, пересекаются. Если пересечение областей значимого объекта и объекта интереса менее 50 % площади области объекта интереса, выбираются соответствующие правилу решения отношения из множества {«сверху», «снизу», «слева», «справа»} (т. е. считается, что пересечения нет). При пересечении более 50 % выбор отношения осуществляется на основании сравнения пиксельных масок объектов, полученных при применении Mask R-CNN к областям объектов: если в зоне пересечения больше пикселей значимого объекта, выбирается отношение «сзади», и отношение «спереди» - в противоположном случае.

Экспериментальная часть

А. Экспериментальная оценка построения модели

Для экспериментальной оценки методики построения модели изображения из базы Visual Genome были выбраны два набора изображений.

Первый набор представляет собой выборку из изображений, в которой на каждое из рассматриваемых отношений приходится по 50 регионов с привязкой (т. е. 50 регионов с отношением «above», 50 регионов - c «below» и т. д. - всего 350 регионов). Примеры таких изображений приведены на рис. 3.

a - crowd behind car b - car below trees

Рис. 3. Примеры регионов из экспериментальной выборки с соответствующими аннотациями регионов Fig. 3. Examples of regions from the experimental sample with corresponding captions

Второй набор выбирался автоматически по результатам детекции объектов и определению отношений между объектами в соответствии с методикой. Его размер также 350 регионов (по 50 регионов на каждое отношение).

Размер экспериментальных выборок относительно небольшой, поскольку верификацию результатов определения отношений планировалось проводить вручную для того, чтобы оценить не только точность построения модели, но и «натуральность» (англ. gameability) полученных результатов, т. е. исключить ситуации, когда высокий показатель метрики оценки качества (правильный результат) может соответствовать выражению, которое человек посчитает «ненатуральным» (например, «the sky is blue in color» вместо «the sky is blue»)1.

В первом эксперименте автоматически определяются отношения в выбранных регионах и для обоих наборов результаты сравниваются с эталонными (приведенными в базе) и оцененными экспертами (см. табл. 1).

Б. Экспериментальная оценка интерпретации модели

Для экспериментальной оценки интерпретации построенной модели для первого набора регионов изображений генерируются текстовые описания путем замены отношений

1 Shunkevich D., Iskra N. Ontological approach to image captioning evaluation. Pattern Recognition and Information Processing: Proceedings of the 14th international conference. Minsk: Bestprint, 2019: 219-223.

соответствующими наиболее часто встречающимся синонимами из WordNet (например, «car below tree» превращается в «car parked under tree»), и полученные аннотации сравниваются с эталонными при помощи метрики METEOR [13], которую в данном контексте можно рассматривать как оценку качества аннотирования. В табл. 3 приводятся значения METEOR, полученные при применении комбинированного нейросетевого [14] и чисто сверточного нейросетевого [15] подходов.

Результаты и их обсуждение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В табл. 1 приводятся результаты оценки построения модели. Результаты детекции объектов в эксперименте принимаются за верные, если совпадает метка класса, различия в выделении областей принимаются за несущественные в данном контексте.

Таблица 1. Оценка результатов построения модели Table 1. The evaluation of model construction results

Наименование параметра Набор 1 Набор 2

кол-во % кол-во %

Размер набора (отношений/объектов) 350/700 100 350/700 100

Детекция объектов (при помощи RCNN) 687 98,1 694 99,1

Отношения (совпадение с представленными в базе) 335 95,7 344 98,2

Отношения (совпадение при визуальном анализе) 340 97,1 346 98,8

Ошибки в детекции (в первом наборе их 13, во втором - 6) «отбраковывают» регионы, в которые входят данные объекты. Соответственно, для первого набора, если считать, что при определении отношений в эксперименте участвуют уже не 350, а 343 региона, точность определения отношений будет не 95, а 99 %. Более высокий процент правильности определения отношений при визуальной оценке объясняется тем, что в Visual Genome некоторые исходные данные содержат неточности.

В табл. 2 приведены результаты совпадения отдельных видов отношений с представленными в базе для набора 1 , и видно, что в исходном наборе присутствует 5 неточностей, т. е., например, в базе записано отношение «below», а эксперт видит, что объекты находятся рядом (отношение «near»). Таким образом, можно использовать методику автоматического определения пространственных отношений и для частичной очистки данных. Так, перезапустив процесс построения модели для набора 1 , удалось «исправить» 4 из 5 неточностей, определенных путем визуального анализа.

Таблица 2. Анализ точности определения отношений по видам Table 2. The analysis of relations estimation precision by types

Пространственное отношение Визуальная оценка (из 50) Предлагаемая методика (из 50)

BEHIND 49 44

IN FRONT 48 45

RIGHT 50 50

LEFT 50 50

INSIDE 50 50

ABOVE 49 48

BELOW 49 48

В табл. 3 приведены результаты оценки качества аннотирования регионов для первого «исправленного» набора.

Таблица 3. Оценка качества аннотирования регионов Table 3. The evaluation of region captioning quality

Модель кодера METEOR

CNN + RNN [14] 0,305

TCN [15] 0,290

Семантическая модель 0,515

Как видно в таблице, использование семантической модели для кодирования информации из изображения существенно превосходит нейросетевые модели при построении осмысленных фраз, описывающих регионы. По метрике METEOR, учитывающей не только структуру аннотации, но и ее семантические вариации, предлагаемая методика показывает результаты более чем на 60 % лучше, чем нейросетевые подходы.

Заключение

Таким образом, предлагаемая в данной работе методика построения модели изображения, отличительной особенностью которой является определение значимых объектов, анализирует на порядок меньше отношений между объектами, что позволяет существенно сократить время обработки изображения на тестовых наборах из базы Visual Genome и улучшить качество аннотирования.

Необходимо отметить, что данный подход содержит упрощения: за значимый объект принимается самый большой, рассматриваются только отношения между двумя объектами (т. е. только фрагменты сцен-графа), не принимаются во внимание атрибуты объектов. В дальнейшем планируется использовать более сложные подходы к определению значимого объекта (в том числе на основе конкретной предметной области), полное построение и анализ сцен-графа.

При проведении ситуационного мониторинга для более точной интерпретации модели нужно выбирать изображения со специальными ситуациями, использовать базы изображений и экспертные знания из конкретных предметных областей (мониторинг траффика, мониторинг техногенных объектов и т. д.).

Список литературы / References

1. Liu L., Ouyang W., Wang X., Fieguth P., Chen J., Liu X., Pietikäinen M. Deep learning for generic object detection: A survey. International journal of computer vision. 2019. DOI: 10.1007/s11263-019-01247-4.

2. Müller J., Fregin A., Dietmayer K. Disparity sliding window: object proposals from disparity images. IEEE/RSJ International conference on intelligent robots and systems. New York: IEEE, 2018: 5777-5784. ISBN 978-1-5386-8094-0.

3. Girshick R., Donahue J., Darrell T., Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587. DOI: 10.1109/CVPR.2014.81.

4. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C.Y., Berg A.C. Ssd: Single shot multibox detector. European conference on computer vision. Springer, Cham, 2016: 21-37. DOI: 10.1007/978-3-319-46448-0_2.

5. Girshick R. Fast r-cnn. Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448. DOI: 10.1109/ICCV.2015.169.

6. Ren S., He K., Girshick R., Sun J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems. 2015: 91-99. DOI: 10.5555/2969239.2969250.

7. He K., Gkioxari G., Dollar P., Girshick R. Mask r-cnn. Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969. DOI: 10.1109/ICCV.2017.322.

8. Xu D., Zhu Y., Choy C.B., Fei-Fei L. Scene graph generation by iterative message passing. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5410-5419. DOI: 10.1109/CVPR.2017.330.

9. Krishna R., Zhu Y., Groth O., Johnson J., Hata K., Kravitz J., Chen S., Kalantidis Y., Li L.J., Shamma D.A., Bernstein M.S. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International journal of computer vision. 2017;123(1):32-73. DOI: 10.1007/s11263-016-0981-7.

10. Miller G.A. WordNet: An electronic lexical database. First edition. Cambridge: MIT Press; 1998. ISBN 9780262061971.

11. Yang J., Lu J., Lee S., Batra D., Parikh D. Graph r-cnn for scene graph generation. Proceedings of the european conference on computer vision. 2018: 690-706. DOI: 10.1007/978-3-030-01246-5_41.

12. Borji A., Cheng M.M., Hou Q., Jiang H., Li J. Salient object detection: A survey. Computational visual media. 2019;5(2):117-150. DOI: 10.1007/s41095-019-0149-9.

13. Banerjee S., Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Michigan: Association for computational linguistics. 2005: 65-72. Anthology ID: W05-0909.

14. Johnson J., Karpathy A., Fei-Fei L. Densecap: Fully convolutional localization networks for dense captioning. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4565- 4574. DOI: 10.1109/CVPR.2016.494.

15. Iskra N., Iskra V. Temporal Convolutional and Recurrent Networks for Image Captioning. Communications in Computer and Information Science. 2019; 1055. Springer, Cham. DOI: https://doi.org/10.1007/978-3-030-35430-5 21.

Сведения об авторе

Искра Н.А., магистр технических наук, старший преподаватель кафедры электронных вычислительных машин Белорусского государственного университета информатики и радиоэлектроники.

Information about the author

Iskra N.A., M. Sci, senior lecturer at electronic computing machines Department of Belarusian State University of Informatics and Radioelectronics.

Адрес для корреспонденции

220013, Республика Беларусь,

г. Минск, ул. П. Бровки, д. 6,

Белорусский государственный университет

информатики и радиоэлектроники

тел. +375-29-586-93-52;

e-mail: niskra@bsuir.by

Искра Наталья Александровна

Address for correspondence

220013, Republic of Belarus, Minsk, P. Brovka str., 6, Belarussian State University of Informatics and Radioelectronics tel. +375-29-586-93-52; e-mail: niskra@bsuir.by Iskra Natalia Alexandrovna

i Надоели баннеры? Вы всегда можете отключить рекламу.