Использование четырехмерных сверточных нейронных сетей для автоматизации построения моделей местности

Колесников Алексей Александрович; Кикин Павел Михайлович

АПВПМ-2019

ИСПОЛЬЗОВАНИЕ ЧЕТЫРЕХМЕРНЫХ ОБЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЗАЦИИ ПОСТРОЕНИЯ МОДЕЛЕЙ МЕСТНОСТИ

А. А. Колесников1, П, М, Кикин2

1 Сибирский государственный университет геосистем и технологий, 630108, Новосибирск 2 Санкт-Петербургский Политехнический Университет Петра Великого, 195251, Санкт-Петербург

УДК 528.854

DOI: 10.24411/9999-016А-2019-10039

Описаны способы, особенности и проблемы использования многомерных сверточных нейронных сетей для семантической сегментации облаков точек, полученных как по результатам съемки в помещениях, так и на открытой местности. Приводятся предлагаемые классификации типов нейронных сетей для трехмерной семантической сегментации и моделей, распределенных по принципу ориентации на обработку определенного типа пространственных данных. Сформирован сводный список эталонных тестов для оценки результатов семантической сегментации облаков точек съемки помещений, городской застройки, отдельных строений, частей механизмов и бытовых инструментов.

Ключевые слова: облако точек, семантическая сегментация, сверточная нейронная сеть.

Введение

На сегодняшний день появляется все больше детальной трехмерной информации, поставщиками которой являются беспилотные летательные аппараты и лазерные сканеры. Но эти данные представляют собой неструктурированные статические картины, даже если речь идет о видеопотоке, который разделяется на отдельные изображения. Тем не менее сочетание трехмерной и семантической информации являются фундаментальными для обработки пространственных данных всех типов, использования робототехнических комплексов и автономных транспортных средств. Сегодня, после обработки и загрузки облака точек в какую либо ГНС и CAD программу, разделение массива точек на отдельные группы по их отнесению к реальному физическому объекту (далее семантическая сегментация) как правило выполняется вручную, либо автоматизации подлежит выделение только строго определенных классов объектов (как правило объектов растительности). Чтобы назначить правильную метку для каждой точки в трехмерной сцене, алгоритмы семантической классификации должны понимать геометрию сцены.

Поскольку существующий уровень развития глубоких нейронных сетей позволяет с высокой точностью (зачастую превышающей аналогичные показатели среднестатистического человека) производить семантическую сегментацию фотографий и спутниковых снимков, то логичным было использовать данную технологию и для обработки облаков точек. Поэтому в данной работе приведены существующие способы семантической сегментации облаков точек преимущественно средствами нейронных сетей, рассмотрены перспективные подходы и архитектуры сетей, а также тестовые наборы данных, представляющие собой облака точек ориентированные на различные задачи. Размещение лазерных сканеров на беспилотных летательных аппаратах и автомобилях позволяет получать динамические облака точек, что еще более усложняет задачу сегментации и приводит к разработке методики использования четырехмерных нейронных сетей. Далее под четырехмерными (4D) нейронными сетями подразумеваются сети ориентированные на обработку данных, где каждый объект описывается четырьмя или более параметрами, например, облака точек с указанием цвета, видео с данными камеры глубины, множественные съемки лазерным сканером одного и того же объекта с разных точек и т.д.

ISBN 978-5-901548-42-4

1 Многомерные нейронные сети для семантической сегментации облаков точек

Существует много технических проблем при использовании пространственно-временных данных для задач сегментации высокого уровня. Во-первых, трехмерные данные требуют гетерогенного представления и обработки или затрудняют интеграцию в более крупные системы (как правило геоинформационные). Во-вторых, производительность трехмерных сверточных нейронных сетей хуже или на одном уровне с двумерными сверточными нейронными сетями. В-третьих, существует ограниченное количество библиотек с открытым исходным кодом для быстрой обработки крупномасштабных ЗБ-данных. Пространственно-временное восприятие (4D) принципиально требует обработки в качестве основы трехмерных сцен, поскольку срез 4D информации в единый момент времени представляет собой трехмерное сканирование.

Поэтому в первую очередь рассмотрим трехмерную семантическую сегментацию облаков точек, преимущественно с использованием нейронных сетей. В настоящее время существуют различные работы описывающие принципы трехмерной сегментации: плотная трехмерная свертка [1], варианты pointnet [2,3], непрерывные свертки [4,5], свертки поверхностей [6,7], и свертка octree [8]. По результатам анализа авторами работы все существующие решения были разделены на три класса: трехмерные сверточные нейронные сети, нейронные сети не использующие свертки и традиционные алгоритмические методы машинного обучения.

Трехмерные сверточные нейронные сети в свою очередь разделяются на три категории, зависящие от способа представления исходных данных. Первая категория трехмерных сверточных нейронных сетей использует прямоугольную сетку и плотное представление [1,9], где пустое пространство представляется либо как 0, либо как функция расстояния со знаком. Это простое представление интуитивно понятно и поддерживается всеми основными свободно распространяемыми библиотеками работы с нейронными сетями. Однако, поскольку большая часть пространства в ЗО-сканировапии пуста, что приводит к высокому потреблению памяти и медленным вычислениям. Чтобы решить эту проблему OctNet [8] предложили использовать структуру Octree для представления трехмерного пространства и свертки на нем. Вторая категория - это разреженные трехмерные сверточные нейронные сети [10,11]. Для больших размеров используются два метода квантования: прямоугольная сетка и пермутоэдральная решетка. Разработчики Splat-Net использовали пермутоэдральную решетку и прямоугольную сетку для построения трехмерной сверточной нейронной сети для ЗБ-классификации и семантической сегментации [10, 12]. Третью категорию представляют 3D-псевдонепрерывные сверточно-нейронные сети [4,5]. В отличие от предыдущих вариантов, они определяют свертки, используя непрерывные ядра в непрерывном пространстве. Однако поиск соседей в непрерывном пространстве вычислительно затратен, поскольку требует поиска по дереву KD, а не хеш-таблицы, и подвержен неравномерному распределению облаков точек.

Нейронные сети не использующие свертки. В последнее время наблюдается огромный рост нейронных сетей без 3D сверток для 3D сегментации. Поскольку ЗБ-скапы состоят из тонких наблюдаемых поверхностей, было предложено использовать 2Б-свертки на поверхности для семантической сегментации [6,7]. Другое направление - это методы на основе PointNet [2,3]. Варианты PointNet используют набор входных координат в качестве объектов для многослойного персептрона. Однако этот подход обрабатывает ограниченное количество точек, и, таким образом, скользящее окно для обрезания секции из входных данных использовалось для больших пространств, делая размер рецептивного поля довольно ограниченным. Разработчики PointCNN пытались разрешить такие недостатки с помощью повторяющейся сети поверх множества точечных сетей, а также предложили вариант непрерывной трехмерной свертки для нижних уровней PointNet и получили значительное повышение производительности [5].

Традиционные алгоритмические методы машинного обучения представлены методиками использования метаточечных графов и деревьев решений. Разработчики Superpoint Graphs [13] предлагают представлять большие облака точек в виде набора взаимосвязанных простых форм, объединенных метаточками, которые аналогичны суперпиксельным методам при сегментации фотографий. Эта структура представлена в виде аннотированного ориентированного графа, названного метаточечным графом. Его узлы представляют собой примитивы, а дуги описывают их семантические связи со смежными дугами. Представление в виде метаточечного графа имеет несколько преимуществ: вместо классификации отдельных точек или воксе-лей рассматриваются целые части объекта как единое целое, которые легче идентифицировать, становится возможно подробно описать отношения между соседними объектами, что имеет решающее значение для контекстной классификация (автомобили, как правило, находятся над дорогами, потолки окружены стенами и т. д.), размер графа определяется числом простых структур в облаке, а не общим количеством точек, которое обычно на несколько порядков больше. Другим методом, показывающим хорошие результаты яв-

ляется ансамблирование с использованием вероятностей класса алгоритмов деревьев решений и марковских случайных полей. В данном решении деревья решений являются классификатором, а для для обеспечения пространственной когерентности в классификации между точками используются марковские случайные поля [14].

Четырехмерная семантическая сегментация облаков точек во многом опирается на описанные методы и алгоритмы трехмерной сегментации. В одном из первых алгоритмов предложена модель динамического деформируемого "воздушного шара" для анализа 4D кардиограмм [15]. Позже также были использованы многомерные марковские случайные поля для решения задачи сегментации кардиограмм [16]. В качестве основы многомерных нейронных сетей часто используется разреженный тензор. В традиционной речи, тексте или данных изображения элементы извлекаются плотно. Таким образом, наиболее распространенными представлениями этих данных являются векторы, матрицы и тензоры. Однако для трехмерного сканирования или даже для многомерных пространств такие плотные представления неэффективны из-за разреженности. Вместо этого можно сохранить только заполненную часть пространства как его координаты и связанные с ними особенности. Это представление является N-мерным расширением разреженной матрицы, поэтому оно известно как разреженный тензор. Данное представление данных имеет ряд преимуществ: во-первых, он допускает однородное представление данных в традиционных библиотеках нейросетей, поскольку большинство из них поддерживают разреженные тензоры, во-вторых, разреженная свертка очень похожа на стандартную свертку, которая доказала свою эффективность как в 2Б-сегментации, так и в ЗБ-реконструкции и семантической сегментации , в-третьих, разреженная свертка эффективна и обладает высокой скоростью [9,17,18]. Она вычисляет выходные данные только для предварительно определенных координат и сохраняет их в компактном разреженном тензоре. Это экономит как память, так и вычисления, особенно для трехмерного сканирования или многомерных данных, где большая часть пространства пуста. Как раз разряженный тензор используется в одной из последних архитектур, названной Spatio-Temporal CNN авторы которой объединили 3D-UNet с 1D-AutoEncoder для временных данных и применили модель для автоматического кодирования изображений МРТ головного мозга [19]. Один из самых комплексных вариантов предлагается авторами Minkowski Engine, где рассматриваются многомерные сверточные нейронные сети для четырехмерных пространственно-временных данных, трехмерного видео (видеоряд, дополненный данными с камеры глубины) и семимерного пространства дополненного данными о времени и цветности. По сравнению с другими подходами, которые комбинируют временные данные с рекуррентной нейронной сетью или поверхностной моделью (CRF), предложенная архитектура используют однородное представление и свертки последовательно во всех сетях. Вместо использования RNN используется свертка для временной оси, поскольку доказано, что она более эффективна при моделировании последовательности. Для этого используется технология разреженных тензоров и предложенная обобщенная (генерализованная) разреженная свертка, которая охватывает все дискретные свертки [11]. Для реализации обобщенной (генерализованной) разреженной свертки используется Open Source библиотеку автоматического дифференцирования для разреженных тензоров, которая реализует ряд функций для многомерных сверточных нейронных сетей. Чтобы преодолеть трудности в многомерном четырехмерном пространстве, предлагается использовать гибридное ядро, частный случай обобщенной разреженной свертки и трехсторонне-стационарное условное случайное поле, которое обеспечивает пространственно-временную согласованность в семимерном пространственно-временно-цветностном поле. Экспериментально обосновано, что сверточные нейронные сети с только обобщенными разреженными свертками могут превзойти 2D или 20-30-гибридные методы с большим отрывом. Также на ЗО-видео 4D пространственно-временные сверточные нейронные сети устойчивы к шуму, превосходят трехмерные сверточные нейронные сети и работают быстрее, чем трехмерные аналоги в некоторых случаях. Кроме того, обобщенные разреженные сверточные сети 4D более устойчивы к шуму, а в некоторых случаях более эффективны, чем трехмерные аналоги [20]. Однако даже при эффективном представлении простое масштабирование трехмерной свертки в многомерные пространства приводит к значительным затратам вычислительных ресурсов и потреблению памяти из-за "проклятия размерности". Для 2В-преобразования с размером ядра 5 требуется Б2 = 25 весов, который экспоненциально увеличивается до 53 = 125 в трехмерном кубе и 625 в 4D тессеракте . Это экспоненциальное увеличение, однако, не обязательно приводит к повышению производительности и значительно замедляет работу сети.

Наконец, предсказания многомерных пространственно-временных обобщенных разреженных сверточных сетей не обязательно являются последовательными во всем пространстве и времени. Для обеспечения согласованности предлагаются условные случайные поля большой размерности, определенные в 7-мерном трехстороннем пространстве (пространство-время-цвет) со стационарной функцией согласованности по парам. Для решения этой проблемы используются преобразования условного случайного поля в дифференцируе-

мые рекуррентные слои, которые могут быть реализованы в виде обобщенного разреженного сверточные сети 7D, и непрерывно обучаемых 4D и 7D сетей [20].

Кроме описанной классификации по используемым методам авторами данной работы также предлагается классификация конкретных программных решений, распределенных по ориентированию на обработку определенного типа данных:

• облака точек внутренних помещений (indoor): PointNet, SnapNet, Multiscale SphericalNeighborhoods, PointWeb, SEGCloud;

Superpoint Graphs, 3D-FCNN-TI, SPLATNet;

PointNet, PointNet++, OctNet, Graph-CNN, SGPN, KPConv, PointSIFT, SPLATNet.

2 Эталонные тесты семантической сегментации

Для оценки новых методов и алгоритмов сегментации существует ряд наборов тестовых данных (бенчмар-ков) для трехмерной и четырехмерных сегментации и классификации. При этом это могут быть как наборы специализированных данных, например, данных содержащих облака точек внутренних помещений, открытых пространств, результатов МРТ [1,21-24].

Далее приводится сводный список наиболее популярных оценочных наборов данных, сгруппированных

по тематике облаков точек:

•

ShapeNet;

Заключение

Авторами работы в качестве апробации была выполена семантическая сегментация нескольких небольших участков (от 2-х до 5-и тысяч квадартных метров) малоэтажной застройки. В результате были сформлиро-

ваны следующие выводы: •

но на реальных облаках точек показывают точность ниже на 15-35 процентов (модели и архитектуры, ориентированные на сегментацию определенного типа, например, KITTY Vision показали точность ниже на 5-10 процентов);

•

мени уходит на обработку исходных данных;

чительно увеличить скорость обработки трехмерных данных, но сильно затруднена сложностями при сборке определенного набора программных библиотек.

Список литературы

fl] Dai A., Chang А.Х., Savva М., Halber M.,Funkhouser Т., and Niener M.. Scannet: Richly-annotated 3d reconstructions of indoor scenes. InProc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017

[2] Qi C.R., Su H., Mo K., and Guibas L.J.. Pointnet: Deep learning on point sets for 3d classifi-cation and segmentation.arXiv preprint arXiv: 1612.00593,2016

[3] Qi C.R., Yi L., Su H., and Guibas L.J.. Pointnet++: Deep hierarchical feature learning onpoint sets in a metric space. In Advances in Neural Information Processing Systems, 2017

[4] Hermosilla P., Ritschel Т., Vazquez P.P., Vinacua A., and Ropinski T. Monte carlo convolution for learning on non-uniformly sampled point clouds.ACM Transactions on Graphics (Proceedings of SIGGRAPH Asia 2018), 2018

[51 Li Y., Bu R., Sun M., Chen B. Pointcnn. arXiv preprint arXiv:1801.07791, 2018

[6] Pan H., Liu S., Liu Y., Tong X.. Convolutional neural networks on 3d surfaces using parallel frames.arXiv preprint arXiv: 1808.04952, 2018

[7] Tatarchenko M., Park J., Koltun V., Zhou Q.. Tangent convolutions for dense predictionin 3D.CVPR, 2018

[8] Riegler G., Ulusoy A.O., Geiger A.. Oct-net: Learning deep 3d representations at high resolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017

[9] Tchapmi L.P., Choy C.B., Armeni I., Gwak J.Y., Savarese S. Segcloud: Semantic segmentationof 3d point clouds.International Conference on 3D Vision(3DV), 2017

[10] Su H., Jampani V., Sun D., Maji S., Kalogerakis V., Yang M., Kautz J. Splat-net: Sparse lattice networks for point cloud processing.arXiv preprint arXiv: 1802.08275, 2018

[11] Graham B. Sparse 3d convolutional neural networks.British Machine Vision Conference, 2015

[12] Adams A., Baek J., Davis M.A.Fast high-dimensional filtering using the permutohedral lattice. InComputer Graphics Forum, volume 29, Wiley Online Library, 2010, pp. 753-762

[13] Landrieu L., Simonovsky M.. Large-scale pointcloud semantic segmentation with superpoint graphs.arXivpreprint arXiv:1711.09869, 2017

[14] Gall Y.L., Thomas H., Goulette F., Deschaud J., Marcotegui B. Semantic Classification of 3D Point Clouds with Multiscale Spherical Neighborhoods. 2018 International Conference on 3D Vision (3DV), Sep 2018, Verone, Italy. 10.1109/3DV.2018.00052

[15] Mclnerney Т., Terzopoulos D. A dynamic finite element surface model for segmentation and tracking in multidimensional medical images with application to cardiac 4d image analysis. Computerized Medical Imaging and Graphics, 19(1), 1995, pp.69-83

[16] Lorenzo-Valds M., Sanchez-Ortiz G.I., Gelkington A., Mohiaddin R.H., Rueckert D.. Segmentation of 4D cardiac mr images using a probabilistic atlas and the em algorithm.Medical Image Analysis, 8(3), 2004, pp.255-265

[17] Choy C.B., Xu D., Gwak J., Chen K., Savarese S. 3D-r2n2: A unified approach forsingle and multi-view 3D object reconstruction. InProceed-ings of the European Conference on Computer Vision (ECCV),2016

[18] Zeng A.,Song S., Niener M., Fisher M.,Xiao J., Funkhouser T. 3dmatch: Learning the matching of local 3D geometry in range scans. InCVPR, 2017.

[19] Zhao Y., Li X., Zhang W., Zhao S., Makkie M., Zhang M., Li Q., Liu T. Modeling 4d fMRI data via spatiotemporal convolutional neural networks (st-cnn).arXiv preprint arXiv: 1805.12564, 2018

[20] Choy C., Gwak J., Savarese S. 4D Spatio-Temporal ConvNet: Minkowski Convolutional Neural Network, in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

[21] Armeni I., Sener О., Zamir A.R., Jiang Н., Brilakis I., Fischer M., Savarese S.. 3d semantic parsing of large-scale indoor spaces. InProceedings of thelEEE International Conference on Computer Vision and Pattern Recognition, 2016

[22] Riemenschneider H., Bdis-Szomor A., Weissenberg J., Gool L. Learning where to classify inmulti-view semantic segmentation. InEuropean Conference on Computer Vision. Springer, 2014

[23] Ros G., Sellart L., Materzynska J., Vazquez D., Lopez A.M. The synthia dataset: Alarge collection of synthetic images for semantic segmentation of urban scenes. InThe IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2016

[24] Menze B.H., Jakab A., Bauer S., Kalpathy-Cramer J., Farahani K., Kirby J.,Burren Y., Porz N., Slotboom J., Wiestet R., "The multimodal brain tumorimage segmentation benchmark (BRATS),'IEEE Transactions on Medical Imag-ing, vol. 34, no. 10, 2015, pp. 1993-2024

Колесников Алексей Александрович — к .т.н., доцент кафедры картографии и геоинформатики Сибирского

государственного университета геосистем и технологий;

e-mail: alexeykw@yandex.ru;

Кикин Павел Михайлович — к .т.н., инженер научно-образовательного центра "Газпромнефть-Политех "Санкт-Петербургского Политехнического Университета Петра Великого;

e-mail: it-technologies@yandex.ru.

Дата поступления — 31 мая 2019 г.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Колесников Алексей Александрович, Кикин Павел Михайлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Колесников Алексей Александрович, Кикин Павел Михайлович

Текст научной работы на тему «Использование четырехмерных сверточных нейронных сетей для автоматизации построения моделей местности»