Обзор подходов к анализу пространственных изображений высокого разрешения для применения в геофизике

Краснов Ф. В.; Буторин А. В.; Ситников А. Н.

Cloud of Science. 2019. T. 6. № 1 http:/ / cloudofscience.ru

Обзор подходов к анализу пространственных изображений высокого разрешения для применения в геофизике

Ф. В. Краснов, А. В. Буторин, А. Н. Ситников

ООО «Газпромнефть Научно-технический центр» 190000, Санкт-Петербург, ул. Почтамтская, 3-5

e-mail: Krasnov. FV@gazpromneft-ntc. ru

Аннотация. Ведущие специалисты по всему миру ежедневно анализируют геофизические снимки и по мере развития технологий компьютерного зрения следует предпринимать попытки извлекать больше информации из этого процесса. Авторы данного исследования проанализировали наиболее значимые исследования в области компьютерного зрения, чтобы понять, как сложились современные методы компьютерного зрения и какие из них применимы к задачам анализа пространственных изображений высокого разрешения в геофизике. В настоящее время количество изображений драматически выросло в связи с появлением таких источников изображений, как беспилотники. Также доступнее стали изображения, полученные со спутников, сейсморазведки и гидроакустики. Кажется, что полученных изображений стало достаточно для использования алгоритмов машинного обучения для их обработки. Но это нужно проверить. В последние пять лет методы компьютерного зрения развивались с высокой скоростью и далеко продвинулись в использовании глубоких нейронных сетей (DNN). Но было бы опрометчиво использовать в работе только новейшие сети глубокого обучения без понимания того, как и почему они появились. Поэтому авторами рассмотрены подходы компьютерного зрения и определены наиболее адекватные методы для обработки именно пространственных изображений. В заключение авторами сформулирован ряд проблем для решения которых будут продолжены исследования, которые авторы начали в статьях [1, 42-44]. Ключевые слова: компьютерное зрение, глубокие нейронные сети, сверхточные нейронные сети, классификация изображений, RGB-смешивание, гиперспектральные изображения.

1. Классификация изображений

Под классификацией изображений понимается отнесение изображения к определенным заранее категориям (классам). Классификация изображений разделяется по типу классификационной проблемы на бинарную и мультиклассовую. В случае бинарной классификации решается задача отнесения изображения к одному классу и ответом может быть только «да» (1) или «нет» (0). При мультиклассовой классифи-

кации ответом является наличие или отсутствие на изображении каждого из выбранных заранее классов. Примером бинарной классификации является ответ на вопрос: «На изображении есть канал или нет?» (рис. 1).

Рисунок 1. Пример каналов на сейсмическом изображении, полученном в результате обработки волнового поля (rgb-смешивания)

Примером мультиклассовой классификации изображения может быть ответ на вопрос: «Какие этапы процесса меандрирования русла из заданного справочника представлены на изображении?» (рис. 1).

Для создания процесса автоматической классификации изображений необходимо выделить из изображения признаки (features).

Рисунок 2. Схема процесса классификации изображений

На схеме (рис. 2) изображен процесс классификации изображений и место машинного обучения в этом процессе. Для обучения необходимо производить ручную разметку изображений. Обученные функции выделения признаков и классифика-

ции в дальнейшем должны работать с новыми изображениями. Отметим, что в отличии от компьютерных алгоритмов люди способны распознавать образы на изображениях с плохим качеством. Это служит источником одной из проблем глубоких нейронных сетей, описанной далее.

2. Точная классификация

Из задачи классификации можно выделить подзадачу точной классификации (finegrained classification). Точная классификация уделяет значительно большее внимания деталям. Разделяют внутриклассовую и межклассовую точную классификацию. Точная классификация предназначена для очень похожих объектов [2].

Для задач точной классификации используют несколько классификаторов объединенных в ансамбль с последующим коллегиальным принятием решения. Как, например, в работе [5] предложена модель (рис. 3), выделяющая форму клюва птиц и форму лап для дальнейшего сопряжения при отнесении к определенному подклассу.

CNN stream А

bilinear vector

convolutional + pooling layers

Рисунок 3. Использование двух классификаторов для задачи точной классификации [5]

Таким образом, выделенные признаки различных масштабов комбинируются в единую матрицу признаков для классификации. В приведенном примере показано, что методы выделения признаков могут быть достаточно точно настроены на определенные части объекта на изображении. Это позволяет разбить сложную задачу точной классификации на две более простые подзадачи мультиклассовой классификации.

3. Определение атрибутов объектов

Атрибутами объекта на изображении называют описательные аспекты объекта. По отношению к человеческим лицам на изображениях атрибутами являются возраст, пол, раса, эмоции и др.

Задача выделения атрибутов объекта предваряется задачей нахождения этого объекта на изображении и выделения границ объекта (рис. 4).

Рисунок 4. Исходное изображение (слева) и выделенный для атрибутирования объект (справа)

Для найденного объекта задача мультиклассификации наличия у объекта атрибутов из заданного справочника может быть решена как глобальная, так и как задача точной классификации частей объекта (локально).

Как отмечается в исследовании [6], для глобального подхода к решению задачи атрибутирования переобучение является характерной проблемой. Поэтому при глобальном подходе интенсивно используют регуляризацию, сложные функции потерь и аугментацию изображений.

С другой стороны, при локальном подходе обычно используют отдельный механизм для выделения объектов и набор классификаторов для обученных на объектах именно этого типа [7].

Глобальный и локальный подходы к атрибутированию объектов на изображениях различаются по способу выделения признаков (feature extraction).

4. Определение ключевых точек объекта

Рассмотрим более подробно задачу выявления ключевых точек объекта на примере человеческих лиц. Постановка данной задачи сделана в работе [8] в виде задачи регрессии. С помощью локального подхода были выделены отдельные части лица (нос, рот глаза), а затем произведена регрессия для нахождения ключевых точек этих частей лица (X,Y).

С другой стороны, глобальный подход к нахождению ключевых точек объекта также имеет право на существование. В этом случае на основе выделенных признаков сразу решается задача регрессии для нахождения координат ключевых точек (рис. 5).

Рисунок 5. Пример ключевых точек для лица [9]

В работе [9] сделан анализ различных моделей для выделения ключевых точек на лице. Среди этих моделей по точности и производительности выделяются методы SIFT [10], использующие статистику физического строения лица, и модели на основе HOG дескрипторов [11]. Механизмы SIFT и HOG применяются как детекторы для признаков, на основании которых строится классификация.

5. Детекторы объектов, основанные на принципе «скользящего окна» (Sliding window detectors)

Задачу обнаружения объектов на изображении можно разделить на две подзадачи: обнаружение объектов определенной формы и размера (человек, корова, велосипед и т. п.) и обнаружение областей текстур неопределенного размера и формы (трава, облака, дорога и т. п.).

В обоих случаях выходом детектора объектов будет определенная заранее структура данных, содержащая координаты рамки объекта на изображении, класс объекта и, возможно, вероятность принадлежности к этому классу при «слабой» классификации.

В исследовании [12], в частности, обсуждаются критерии обнаружения объекта. Полученная при обнаружении детектором рамка объекта может отличаться от истинной рамки объекта. Метрика IoU (Intersection over Union) предназначена для количественной оценки точности детектора и вычисляется как отношение площади пересечения рамок к площади объединения двух рамок. Чем ближе метрика IoU к единице, чем точнее обнаружен объект.

Согласно работе [13] точность автоматизированного предсказания положения пешехода пока не превосходит возможности человеческой оценки даже при использовании таких современных архитектур, как R-CNN [14].

Для обучения детекторов объектов используют размеченные вручную наборы изображений — ImageNet [15], Caltech-USA [16] и KITTI [17].

Основным принципом для детекторов со скользящим окном является выбор размера окна, перебор всех положений окна на изображении и бинарная классификация объекта для каждого положения окна. После этого делается заключение о положении объекта на исходном изображении. Сразу видно несколько проблем в таком подходе — это то, что объект может быть разного размера, с разным отношением ширины и высоты, объекты могут пересекаться и разные по размеру рамки могут содержать один и тот же объект. Современные архитектуры детекторов объектов на изображениях ищут пути решения перечисленных проблем. Например, можно для постоянного размера окна создавать набор разномасштабных вариантов изображения.

6. Детекторы объектов на основе гистограмм направленных градиентов

Гистограммы направленных градиентов (HOG) были предложены в работе [11]. Суть алгоритма HOG состоит в том, что изображение разбивается на сетку и в каждой ячейке вычисляется направление градиента цвета. В общем виде алгоритм детектора на основе HOG представлен на рис. 6.

Рисунок 6. Общий вид алгоритма детектора на основе HOG

Задача обучения детектора объектов является ассиметричной: объектов на изображении значительно меньше, чем «не объектов». Такая разбалансировка не приемлема для задач классификации в машинном обучении. Кроме того, «не объект» достаточно сложный класс, поэтому необходимо иметь в выборке достаточно

много различных экземпляров «не объектов», чтобы уверенно отличать их от объекта.

Для устранения разбалансировки применяют методику аугментирования изображений. Каждое изображение объекта немного деформируется: поворачивается на небольшой угол, отражается в себе по горизонтали и масштабируется. Таким образом, количество позитивных образцов в выборке существенно увеличивается.

Для «не объектов» в выборке важно провести деление на «точно не объекты» и «не объекты с частями объектов». Оба типа важны для обучения и их обычно создают в рамках отдельной процедуры.

Отметим результативный подход к выделению признаков на основе Признаков Хаара, продемонстрированный в работе [18]. А также детектор объектов Виола-Джонс, предложенный в статьях [19, 20] и использующий каскадную архитектуру классификаторов.

Каскадная архитектура классификаторов для детекторов объектов в изображениях получила развитие в работе [21].

7. Детекторы объектов на основе нейронных сетей

До появления детектора Виола-Джонс лучшим детектором считался детектор на основе нейронных сетей, предложенный в работе [22]. В работе [23] сверточная нейронная сеть использована в качестве одного из классификаторов в каскаде. А в исследовании [24] каскад из трех классификаторов и регрессоров уже полностью построен на предобученных сверточных нейронных сетях. На каждом этапе каскада производится и классификация объекта, и регрессия для определения рамки. Каскад на основе трех разных по сложности сверточных нейронных сетей изучен в работе [24].

Дальнейшее развитие детекторы объектов получили в специальных нейронных сетях. В работе [25] предложена архитектура нейронной сети, состоящей из двух каскадов для предложения рамок объектов и классификации (R-CNN). Обучение R-CNN состоит из трех этапов (рис. 7).

К недостаткам архитектуры R-CNN можно отнести избыточные вычисления признаков для каждой предложенной рамки, необходимость приведения всех изображений к единому масштабу. Попытка устранить эти недостатки сделана в архитектуре Fast R-CNN [26]. С этой целью предложен механизм spatial pyramid pooling (SPP). Суть SPP состоит в том, чтобы вычислять признаки объектов в рамках с помощью одной сверточной нейронной сети для всего изображения (рис. 8).

Рисунок 7. Этапы обучения Я-СЫК 1. Обучение сверточной нейронной сети для классификации на наборе данных ImageNet. 2. Обучение свертосной нейронной сети для выявления объектов на собственной выборке. 3. Генерация рамок и классификация.

Рисунок 8. Выделение признаков объекта с помощью единой сверточной нейронной сети [26]

Дальнейшее усовершенствование R-CNN предложено в работах [11, 27] и заключается в том, чтобы использовать Softmax активацию вместо линейного SVM классификатора и объединить сеть для выявления признаков и сеть для выявления рамок. Проблемы, возникшие при таком подходе, отмечены в работе [28] и заключаются в сложностях при работе с объектами в сильно различающихся масштабах на одном изображении. Для этого приходится тренировать Faster R-CNN для различных масштабов изображений.

Таким образом, архитектура Faster R-CNN сочетает в себе скорость и точность [29] за счет множественных пересекающихся гипотез для рамок, признаков,

вычисляемых, независимо для каждой рамки на основе единои сверточнои нейронной сети и однократной оценке рамок.

Дальнейшие способы по ускорению обработки изображений разработаны авторами [30] в архитектуре R-FCN и заключаются в том, чтобы заметить полно связанные слои (Dense) на сверточные слои (Conv2D) с размерностью 1*1. Такая замена позволяет не приводить приведение изображений к масштабу выборки, используемой для обучения сверточной нейронной сети для классификации (224*224 для ImageNet).

В настоящее время самыми быстрыми являются архитектуры детекторов объектов с «одним проходом» (Single Shot Detectors, SSD). Одним из ярких примеров SSD является детектор YOLO (You Only Look Once) [31], разработанный в копма-нии Google (рис. 9).

Рисунок 9. Схема работы YOLO детектора [31]

В работе [32] представлена новая архитектура SSD, которая показала более высокую производительность, чем YOLO.

8. Проблемы компьютерного зрения

В глубоком машинном обучении на данный момент многие констатируют следующую проблему: нейронные сети стали слишком категоричны в своих решениях. Другими словами, когда на разделительной линии дороги лежит белый сверток, то автомобиль с распознаванием образов на основании обученной нейронной сети не выразит сомнений и не передаст управление водителю для принятия решения. Математический смысл самоуверенности нейронных сетей основывается на том, что сеть выдает одно число, а не распределение вероятности. Поэтому, в частности, компания Google приобрела компанию DeepMind за 660 млн долл. США, и они

сейчас занимаются вероятностным подходом для нейронных сетей с глубоким обучением на основе Байесовской статистики.

Вторая проблема в глубоком машинном обучении происходит из того, что глубокие нейронные сети достаточно сложно обучать. Поэтому наиболее перспективными считаются исследования в области GAN (Generative Adversarial Networks). Суть GAN в том, что одну сеть обучает другая. Обучение сетей стало достаточно сложной задачей и человек с этим плохо справляется. Вот две наиболее важные научные работы в этом направлении [3, 4].

Эйфория, возникшая при ренессансе нейронных сетей, когда они улучшали точность классификации изображений на десятки процентов, уткнулась в следующее:

- Нейронные сети переобучаются так же, как и все алгоритмы машинного обучения. Поначалу просто нейронные сети недообучали и радовались результатам.

- Пугает то, что никак нельзя отличить переобучение сети в процессе обучения на тестовой выборке. Эксперимент авторов, который это подтвердил, состоит в том, чтобы обучить сеть на наборе данных со случайно перепутанными метками. То есть для фото с кошкой метка может быть «Мышка», а для другого фото с кошкой метка может быть «светофор». Сеть обучается на таком наборе до 100%-й точности.

- В другом эксперименте авторы нашли, что если немного испортить пикселы в картинке с «кошкой», то для человека эта картинка остается кошкой, но нейронная сеть (нормально обученная и проверенная на тестовой выборке) начинает классифицировать эту картинку по-другому (например, как «медведя» или «диван»).

- Данных для обучения нейронных сетей катастрофически не хватает. Большинство сетей обучены на грани допустимого. На ранних этапах казалось, что 100 000 картинок достаточно для обучения сети с 1000 коэффициентами. Но сейчас количество коэффициентов сетей выросло до миллионов и для этого нужно гораздо больше картинок в обучающей выборке. Иначе алгоритмы обучения не будут корректно работать. Поэтому, в частности, ищут другие архитектуры (GAN, Encoder-Decoder) для обучения «без учителя».

9. Заключение и дискуссия о постановке задач компьютерного зрения в нефтегазовой отрасли

С развитием технологии анализа пространственной информации снимки дистанционного зондирования стали жизненно важным источником данных для многих об-

ластей геофизики. Недавние исследования с помощью космических и аэрофотоснимков с целью обнаружения повреждений от землетрясений на пространственных объектах [33] являются тому подтверждением. Проблемы обнаружения повреждений, такие как обнаружение трещин [34] и структурных повреждений [35], были исследованы с использованием каскадов из глубоких нейронных сетей. В задачах интерпретации сейсмического волнового поля существуют подобные постановки задач: поиск трещиноватых коллекторов, определение формы трещин, определение результатов проведения гидроразрыва пласта.

Второй подход к анализу пространственных изображений основан на текстурах. В работе [36] было проведено исследование сегментации изображений для поиска текстур морского дна, таких как песчаная рябь, твердый песок и камень. Сонорные изображения морского дна имеют ту же природу, что и сейсмические изображения волнового поля в нефтегазовой отрасли. Аналогичный акцент на получение фациальных свойств и их изучение с помощью маркировки сейсмического объема был сделан в работах [37, 38] (рис. 10).

Третьей методикой для построения классификации пространственных изображений в геофизике является атрибутирование с помощью спектрального разложения. Получаемые гиперспектральные изображения являются предметом классификации с независимым компонентным дискриминантным анализом (ICA) [39], Байесовским подходом [40] и генеративной состязательной сетью (GAN) [41].

Работы авторов данного обзора по спектральной декомпозиции в сей-смике [42-44] являются хорошим научным заделом для будущих исследований в

Рисунок 10. Фрагмент разметки атрибутов сейсмического поля и результата предсказания [38]

данном направлении, но уже с помощью проанализированных в этом обзоре методов, основанных на компьютерном зрении.

Литература

[1] Краснов Ф.В., Буторин А.В., Ситников А.Н. Автоматизированное обнаружение геологических объектов в изображениях сейсмического поля с применением нейронных сетей глубокого обучения // Бизнес-информатика. 2018. № 2(44). С. 7-16.

[2] Cheng D. et al. Person re-identification by multi-channel parts-based cnn with improved triplet loss function // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P. 1335-1344.

[3] Radford A., Metz L., Chintala S. Unsupervised representation learning with deep convolu-tional generative adversarial networks //arXiv preprint arXiv:1511.06434. 2015.

[4] Goodfellow I. et al. Generative adversarial nets // Advances in neural information processing systems. 2014. P. 2672-2680.

[5] Lin T. Y., RoyChowdhury A., Maji S. Bilinear cnn models for fine-grained visual recognition // Proceedings of the IEEE International Conference on Computer Vision. 2015. P. 1449-1457.

[6] Levi G., Hassner T. Age and gender classification using convolutional neural networks // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2015. P. 34-42.

[7] Liu Z. et al. Deep learning face attributes in the wild // Proceedings of the IEEE International Conference on Computer Vision. 2015. P. 3730-3738.

[8] Belhumeur P. N., Hespanha J. P., Kriegman D. J. Recognition Using Class Specific Linear Projection. 1997.

[9] Wang N. et al. Facial feature point detection: A comprehensive survey // Neurocomputing. 2018. Vol. 275. P. 50-65.

[10]Xiong X., De la Torre F. Supervised descent method and its applications to face alignment // Proceedings of the IEEE conference on computer vision and pattern recognition. 2013. P. 532-539.

[11] Dalal N., Triggs B. Histograms of oriented gradients for human detection // IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. CVPR 2005. — IEEE, 2005. Vol. 1. P. 886-893.

[12] Mathias M. et al. Face detection without bells and whistles // European conference on computer vision. — Springer, Cham, 2014. P. 720-735.

[13] Zhang S. et al. How far are we from solving pedestrian detection? // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2016. P. 1259-1267.

[14] Girshick R. Fast r-cnn // Proceedings of the IEEE international conference on computer vision. — 2015. P. 1440-1448.

[15] Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. 2012. Vol. 25. P. 1097-1105.

[16] Dollar P. et al. Pedestrian detection: An evaluation of the state of the art // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2012. Vol. 34. No. 4. P. 743-761.

[17] Geiger A., Lenz P., Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite // 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — IEEE, 2012. P. 3354-3361.

[18] Lienhart R., Maydt J. An extended set of haar-like features for rapid object detection // Proceedings. 2002 International Conference on Image Processing. 2002. — IEEE, 2002. Vol. 1. P. I-I.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[19] Viola P., Jones M. J., Snow D. Detecting pedestrians using patterns of motion and appearance: Mitsubishi Electric Research Lab Technical Report. — Mitsubishi, 2003.

[20] Viola P., Jones M. Rapid object detection using a boosted cascade of simple features // Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. CVPR 2001. — IEEE, 2001. Vol. 1. P. I-I.

[21] Viola P., Jones M. Rapid object detection using a boosted cascade of simple features // Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. CVPR 2001. — IEEE, 2001. Vol. 1. P. I-I.

[22] Rowley H. A., Baluja S., Kanade T. Neural network-based face detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. Vol. 20. No. 1. P. 23-38.

[23] Hosang J. et al. Taking a deeper look at pedestrians // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2015. P. 4073-4082.

[24] Li H. et al. A convolutional neural network cascade for face detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. — 2015. P. 53255334.

[25] Girshick R. et al. Rich feature hierarchies for accurate object detection and semantic segmentation // Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. — P. 580-587.

[26] He K. et al. Spatial pyramid pooling in deep convolutional networks for visual recognition // European conference on computer vision. — Springer, Cham, 2014. P. 346-361.

[27] Ren S. et al. Faster R-CNN: towards real-time object detection with region proposal networks // IEEE Transactions on Pattern Analysis & Machine Intelligence. 2017. Vol. 39. No. 6. P. 1137-1149.

[28] Cai Z. et al. A unified multi-scale deep convolutional neural network for fast object detection // European Conference on Computer Vision. — Springer, Cham, 2016. P. 354370.

[29] Huang J. et al. Speed/accuracy trade-offs for modern convolutional object detectors // IEEE CVPR. 2017. Vol. 4.

[30] Dai J. et al. R-fcn: Object detection via region-based fully convolutional networks // Advances in Neural Information Processing Systems. — 2016. P. 379-387.

[31] Redmon J. et al. You only look once: Unified, real-time object detection // Proceedings of the IEEE conference on computer vision and pattern recognition. — IEEE, 2016. P. 779788.

[32] Liu W. et al. SSD: Single shot multibox detector // European conference on computer vision. — Springer, Cham, 2016. P. 21-37.

[33] Li S. et al. Unsupervised detection of earthquake-triggered roof-holes from UAV images using joint color and shape features // IEEE Geoscience and Remote Sensing Letters. 2015. Vol. 12. No. 9. P. 1823-1827.

[34] Cha Y. J., Choi W., Buyukozturk O. Deep learning-based crack damage detection using convolutional neural networks // Computer-Aided Civil and Infrastructure Engineering. 2017. Vol. 32. No. 5. P. 361-378.

[35] Cha Y. J. et al. Autonomous structural visual inspection using region-based deep learning for detecting multiple damage types // Computer-Aided Civil and Infrastructure Engineering. 2018. Vol. 33. No. 9. P. 731-747.

[36] Zare A. et al. Possibilistic fuzzy local information C-Means for sonar image segmentation // 2017 IEEE Symposium Series on Computational Intelligence (SSCI). — IEEE, 2017. P. 1-8.

[37] Long Z. et al. A comparative study of texture attributes for characterizing subsurface structures in seismic volumes // Interpretation. 2018. Vol. 6. No. 4. P. 1-70.

[38] WaldelandA. U., SolbergA. Salt classification using deep learning // 79th EAGE Conference and Exhibition 2017. — 2017.

[39] Villa A. et al. Hyperspectral image classification with independent component discriminant analysis // IEEE Transactions on Geoscience and Remote Sensing. 2011. Vol. 49. No. 12. P. 4865-4876.

[40] Haut J. M. et al. Active learning with convolutional neural networks for hyperspectral image classification using a new bayesian approach // IEEE Transactions on Geoscience and Remote Sensing. 2018. Vol. 56. No. 99. P. 6440-6461.

[41] Zhu L. et al. Generative Adversarial Networks for Hyperspectral Image Classification //

IEEE Transactions on Geoscience and Remote Sensing. 2018. Vol. 56. No. 9. P. 50465063.

[42] Butorin A. V., Krasnov F. V. Approaches to the Analysis of Spectral Decomposition for the Purpose of Detailed Geological Interpretation // SPE Russian Petroleum Technology Conference and Exhibition. — Society of Petroleum Engineers, 2016.

[43] Буторин А. В., Краснов Ф. В. Сравнительный анализ методов спектральной инверсии на примере модельных трасс // Геофизика. 2016. № 4. С. 42-47.

[44] Буторин А. В., Краснов Ф. В. Возможности использования результатов спектральной инверсии при интерпретации сейсмических данных // Геофизика. 2017. № 4. С. 2-7.

Авторы:

Федор Владимирович Краснов — кандидат технических наук, эксперт Блока научного инжиниринга, ООО «Газпромнефть НТЦ»

Александр Владимирович Буторин — кандидат геолого-минералогических наук, эксперт Блока научного инжиниринга, ООО «Газпромнефть НТЦ»

Александр Николаевич Ситников — лидер Функции Геология и Разработка, ЗГД по научному инжинирингу, ООО «Газпромнефть НТЦ»

Review of approaches to the analysis of high-resolution spatial images for Geophysics

F. V. Krasnov, A. V. Butorin, A. N. Sitnikov LLC Gazpromneft STC

Pochtamtskaya ul. d. 3-5, St Petersburg 190000, Russia e-mail: [email protected]

Abstract. Leading experts around the world analyze geophysical images on a daily basis, and as computer vision technologies evolve, attempts should be made to extract more information from this process. The authors of this study analyzed the most important research in the field of computer vision to understand how the modern methods of computer vision developed and which of them may be applied to the problems of analysis of high-resolution spatial images in Geophysics. Currently, the number of images has dramatically increased due to the emergence of such image sources as drones. Images from satellites, seismic surveys and hydro acoustics have also become more accessible. It seems that the resulting pictures were enough to use machine-learning algorithms to process them. Nevertheless, it needs to be checked. In the last five years, computer vision techniques have evolved at a high rate and have advanced far in the use of deep neural networks (DNN). However, it would be reckless to use only the latest deep learning networks without understanding how and why they appeared. Therefore, the authors consider the approaches of computer vision and determine the most appropriate methods for processing spatial images. In conclusion, the authors formulated some problems to solve in the next stages of the research [1, 42-44].

Keywords: Computer vision, Deep Neural Networks, DNN, Convolutional neural networks, CNN, Image Classification, RGB-mixing, Hyper-spectral images.

References

[1] Krasnov F. V., Butorin A. V., Sitnikov A. N. (2018) Biznes-informatika, 2(44):7-16. [In Rus]

[2] Cheng D. et al. (2016) Person re-identification by multi-channel parts-based cnn with improved triplet loss function. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. P. 1335-1344.

[3] Radford A., Metz L., Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv:1511.06434. 2015.

[4] Goodfellow I. et al. (2014) Generative adversarial nets. Advances in neural information processing systems. P. 2672-2680.

[5] Lin T. Y., RoyChowdhury A., Maji S. (2015) Bilinear cnn models for fine-grained visual recognition. Proceedings of the IEEE International Conference on Computer Vision. P. 1449-1457.

[6] Levi G., Hassner T. (2015) Age and gender classification using convolutional neural networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. P. 34-42.

[7] Liu Z. et al. (2015) Deep learning face attributes in the wild. Proceedings of the IEEE International Conference on Computer Vision. P. 3730-3738.

[8] Belhumeur P. N., Hespanha J. P., Kriegman D. J. (1997) Recognition Using Class Specific Linear Projection.

[9] Wang N. et al. (2018) Neurocomputing, 275:50-65.

[10] XiongX., De la Torre F. (2013) Supervised descent method and its applications to face alignment. Proceedings of the IEEE conference on computer vision and pattern recognition. P. 532-539.

[11] Dalal N., Triggs B. (2005) Histograms of oriented gradients for human detection. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. CVPR 2005. Vol. 1. P. 886-893.

[12] Mathias M. et al. (2014) Face detection without bells and whistles. European conference on computer vision. Springer, Cham. P. 720-735.

[13] Zhang S. et al. (2016) How far are we from solving pedestrian detection? Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. P. 1259-1267.

[14] Girshick R. (2015) Fast r-cnn. Proceedings of the IEEE international conference on computer vision. P. 1440-1448.

[15] Krizhevsky A., Sutskever I., Hinton G. E. (2012) Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. P. 1097-1105.

[16] Dollar P. et al. (2012) IEEE Transactions on Pattern Analysis and Machine Intelligence, 34:743-761.

[17] Geiger A., Lenz P., Urtasun R (2012) Are we ready for autonomous driving? The KITTI vision benchmark suite. Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. P. 33543361.

[18] Lienhart R., Maydt J. (2002) An extended set of haar-like features for rapid object detection. Proceedings. 2002 International Conference on Image Processing. 2002. P. I-I.

[19] Viola P., Jones M. J., Snow D. (2003) Detecting pedestrians using patterns of motion and appearance //null. IEEE. P. 734.

[20] Viola P., Jones M. (2001) Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. CVPR 2001.

[21] Viola P., Jones M. (2001) Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. CVPR 2001.

[22] Rowley H. A., Baluja S., Kanade T. (1998) IEEE Trans. on Pattern Analysis and Machine Intelligence, 20(1):23-38.

[23] Hosang J. et al. (2015) Taking a deeper look at pedestrians. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. P. 4073-4082.

[24] Li H. et al. (2015) A convolutional neural network cascade for face detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. P. 5325-5334.

[25] Girshick R. et al. (2014) Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition. P. 580-587.

[26] He K. et al. (2014) Spatial pyramid pooling in deep convolutional networks for visual recognition. European conference on computer vision. Springer, Cham. P. 346-361.

[27] Ren S. et al. (2017) IEEE Transactions on Pattern Analysis & Machine Intelligence, 39(6): 1137-1149.

[28] Cai Z. et al. (2016) A unified multi-scale deep convolutional neural network for fast object detection. European Conference on Computer Vision. Springer, Cham. P. 354-370.

[29] Huang J. et al. (2017) Speed/accuracy trade-offs for modern convolutional object detectors. IEEE CVPR. Vol. 4.

[30] Dai J. et al. (2016) R-fcn: Object detection via region-based fully convolutional networks. Advances in neural information processing systems. P. 379-387.

[31] Redmon J. et al. (2016) You only look once: Unified, real-time object detection. Proceedings of the IEEE conference on computer vision and pattern recognition. P. 779-788.

[32] Liu W. et al. (2016) SSD: Single shot multibox detector. European conference on computer vision. Springer, Cham. P. 21-37.

[33] Li S. et al. (2015) IEEE Geoscience and Remote Sensing Letters, 12(9):1823-1827.

[34] Cha Y. J. et al. (2017) Computer-Aided Civil and Infrastructure Engineering. 32(5):361-378.

[35] Cha Y. J. et al. (2018) Computer-Aided Civil and Infrastructure Engineering, 33(9):731-747.

[36] Zare A. et al. (2017) Possibilistic fuzzy local information C-Means for sonar image segmentation. 2017 IEEE Symposium Series on Computational Intelligence (SSCI). P. 1-8.

[37] Long Z. et al. (2018) Interpretation. 6(4):1-70.

[38] WaldelandA. U., Solberg A. (2017) Salt classification using deep learning. 79th EAGE Conference and Exhibition 2017.

[39] Villa A. et al. (2011) IEEE Trans. on Geoscience and Remote Sensing, 49(12):4865-4876.

[40] Haut J. M. et al. (2018) IEEE Trans. on Geoscience and Remote Sensing, 56(99):6440-6461.

[41] Zhu L. et al. (2018) IEEE Trans. on Geoscience and Remote Sensing, 56(9):5046-5063.

[42] Butorin A. V., Krasnov F. V. (2016) Approaches to the Analysis of Spectral Decomposition for the Purpose of Detailed Geological Interpretation. SPE Russian Petroleum Technology Conference and Exhibition. Society of Petroleum Engineers.

[43] Butorin A. V., Krasnov F. V. (2016) Geophysika. 4:42-47. [In Rus]

[44] Butorin A. V., Krasnov F. V. (2017) Geophysika. 4:2-7. [In Rus]

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Краснов Ф. В., Буторин А. В., Ситников А. Н.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Краснов Ф. В., Буторин А. В., Ситников А. Н.

Текст научной работы на тему «Обзор подходов к анализу пространственных изображений высокого разрешения для применения в геофизике»