Научная статья на тему 'ТРЕХМЕРНАЯ РЕКОНСТРУКЦИИ ОБЪЕКТА ПО ОДНОМУ ИЗОБРАЖЕНИЮ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ'

ТРЕХМЕРНАЯ РЕКОНСТРУКЦИИ ОБЪЕКТА ПО ОДНОМУ ИЗОБРАЖЕНИЮ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
226
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТРЕХМЕРНАЯ РЕКОНСТРУКЦИЯ / КОМПЬЮТЕРНОЕ СТЕРЕОЗРЕНИЕ / КАРТА ГЛУБИНЫ / ПРОГРАММИРОВАНИЕ / НЕЙРОСЕТЕВОЕ МОДЕЛИРОВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гадасин Д.В., Шведов А.В., Кузин И.А.

Автоматическое создание трехмерных прототипов и цифровых копий объемных объектов реального мира является революционной инновацией, активно применяющейся сегодня во многих сферах человеческой деятельности, например, для идентификации личности в смартфонах и приложениях электронной коммерции, а также в системах визуализации и проектирования. Эта тенденция усилилась сейчас, когда аддитивные технологии стали доступны широкому кругу пользователей, а крупномасштабные хранилища трехмерных объектов обретают все большую популярность и распространение. Одной из задач, решаемых человеком ежедневно на бессознательном уровне, является распознавание образов: визуальных, звуковых обонятельных, осязательных и других. Благодаря распознаванию образов можно производить идентификацию людей по внешним признакам и отличать их друг от друга, идентифицировать звуки, классифицировать различные объекты по схожим свойствам, а также достаточно четко определять субъективные характеристики наблюдаемых объектов, такие как цвет, форму, объем и глубину. Проблема распознавания образов объектов окружающего мира и понимания их масштаба и объема по двумерным проекциям является одной из самых актуальных и прорабатываемых проблем, решаемых методами компьютерного зрения. Однако, данный класс задач достаточно тяжело поддается формализации что делает их решение трудоемким в разработке и реализации В статье описывается разработка программного комплекса, производящего реконструкцию объемных сцен по их проекциям с применением нейросетевых методов машинного обучения: рассматриваются основы трёхмерной реконструкции, предлагается модель общей архитектуры ПАК, приводится архитектура разработанной нейронной сети, результаты обучения и тестовых экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гадасин Д.В., Шведов А.В., Кузин И.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THREE-DIMENSIONAL RECONSTRUCTION OF AN OBJECT FROM A SINGLE IMAGE USING DEEP CONVOLUTIONAL NEURAL NETWORKS

The automatic creation of three-dimensional prototypes and digital copies of three-dimensional objects of the real world is a revolutionary innovation that is actively used today in many areas of human activity, for example, for identification in smartphones and e-commerce applications, as well as in visualization and design systems. This trend has intensified now that additive technologies have become available to a wide range of users, and large-scale storage of three-dimensional objects are becoming increasingly popular and widespread. One of the tasks that a person solves every day on an unconscious level is the cognition of images: visual, sound intelligible, tactile and others. Thanks to image recognition, it is possible to identify people by external signs and distinguish them from each other, identify sounds, classify different objects by similar properties, and also accurately determine the subjective characteristics of the observed objects, such as color, shape, volume and depth. The problem of recognizing images of objects of the surrounding world and understanding their scale and volume by two-dimensional projections is one of the most urgent and studied problems solved by computer vision methods. However, this class of tasks is quite difficult to formalize, which makes their solution time-consuming to develop and implement. The article describes the development of a software package that re-constructs three-dimensional scenes according to their projections using neural network machine learning methods: the basics of three-dimensional reconstruction are considered, a model of the general architecture of the PAK is proposed, the architecture is introduced the developed neural network, the results of training and test experiments.

Текст научной работы на тему «ТРЕХМЕРНАЯ РЕКОНСТРУКЦИИ ОБЪЕКТА ПО ОДНОМУ ИЗОБРАЖЕНИЮ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ»

ТРЕХМЕРНАЯ РЕКОНСТРУКЦИИ ОБЪЕКТА ПО ОДНОМУ ИЗОБРАЖЕНИЮ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Гадасин Денис Вадимович,

Московский технический университет связи и ннформатики, Москва, Россия, dengadiplom@mail.ru

Шведов Андрей Вячеславович,

Московский технический университет связи и ннформатики, Москва, Россия, a.v.shvedov@mtuci.ru

Кузин Иван Александрович,

Московский технический университет связи и ннформатики, Москва, Россия, IvanKuzin-forwork@yandex.ru

DOI: 10.36724/2072-8735-2022-16-7-29-35

Manuscript received 06 June 2022; Accepted 28 June 2022

Ключевые слова: трехмерная реконструкция, компьютерное стереозрение, карта глубины, программирование, нейросетевое моделирование

Автоматическое создание трехмерных прототипов и цифровых копий объемных объектов реального мира является революционной инновацией, активно применяющейся сегодня во многих сферах человеческой деятельности, например, для идентификации личности в смартфонах и приложениях электронной коммерции, а также в системах визуализации и проектирования. Эта тенденция усилилась сейчас, когда аддитивные технологии стали доступны широкому кругу пользователей, а крупномасштабные хранилища трехмерных объектов обретают все большую популярность и распространение. Одной из задач, решаемых человеком ежедневно на бессознательном уровне, является распознавание образов: визуальных, звуковых обонятельных, осязательных и других. Благодаря распознаванию образов можно производить идентификацию людей по внешним признакам и отличать их друг от друга, идентифицировать звуки, классифицировать различные объекты по схожим свойствам, а также достаточно четко определять субъективные характеристики наблюдаемых объектов, такие как цвет, форму, объем и глубину. Проблема распознавания образов объектов окружающего мира и понимания их масштаба и объема по двумерным проекциям является одной из самых актуальных и прорабатываемых проблем, решаемых методами компьютерного зрения. Однако, данный класс задач достаточно тяжело поддается формализации что делает их решение трудоемким в разработке и реализации В статье описывается разработка программного комплекса, производящего реконструкцию объемных сцен по их проекциям с применением ней-росетевых методов машинного обучения: рассматриваются основы трёхмерной реконструкции, предлагается модель общей архитектуры ПАК, приводится архитектура разработанной нейронной сети, результаты обучения и тестовых экспериментов.

Для цитирования:

Гадасин Д.В., Шведов А.В., Кузин И.А. Трехмерная реконструкции объекта по одному изображению с использованием глубоких свёрточных нейронных сетей // T-Comm: Телекоммуникации и транспорт. 2022. Том 16. №7. С. 29-35.

For citation:

Gadasin D.V., Shvedov A.V., Kuzin I.A. Three-dimensional reconstruction of an object from a single image using deep convolutional neural networks. T-Comm, vol. 16, no.7, pp. 29-35. (in Russian)

Введение

В России, как и во всем мире, благодаря росту и развитию информационных технологий с каждым годом возрастает потребность в эффективных методах обработки информации с целью применения их для автоматизации и ускорения выполнения все более сложных задач. И хотя автоматизация посредством ЭВМ систем для распознавания и классификации обонятельных и осязательных образов еще не может быть реализована в полной мере из-за технологических ограничений, реализация систем распознавания, классификации, дополнения и реконструкции визуальной информации является одним из передовых направлений разработки [1]. На сегодняшний день проблема трехмерной реконструкции представляется одной самых актуальных и сложных проблем, частично решаемой методами компьютерного зрении. При реализации на ЭВМ систем, позволяющих производить реконструкцию субъективных характеристик объектов, представленных на изображении, основной сложностью является проблема сведения данной задачи к конкретным алгоритмам, которые бы выполняли поставленную задачу настолько же эффективно как человеческий мозг. Это обусловлено тем, что реальные объекты, как правило, имеют высокую степень детализации, сложную форму и неоднородную текстуру.

Примерами могут являться такие объекты, как человеческое лицо, ландшафт местности или архитектурные сооружения. При решении задачи реконструкции объемной сцены основным этапом является получение информации о глубине расположения в пространстве всех видимых объектов на ней. Для этого используются специальные программно-аппаратные комплексы, которые классифицируются на основании метода, применяемого для определения глубины.

Такие системы активно создаются и внедряются по всему миру. За годы исследований было разработано множество подходов и методов решения данной задачи. В работах [1,2] рассматривались алгоритмы реконструкции по стереоизображению и соответствующей ему карте глубины. Данный подход позволяет получить аппроксимированный силуэт объекта в виде облака точек, но очень чувствителен к уровню освещения и однородности фона. Эти ограничения вытекают из ряда технических допущений, одними из которых является необходимость регистрации объекта с большого количества точек зрения; а также проекции должны быть зарегистрированы при относительно небольшой величине базы системы стереозрения.

В работе [3] применялся подход к анализу глубины сцены по одному изображению и восстановление аппроксимированной геометрии сцены с использованием случайных полей Маркова (МЕР). Результаты реконструкции так же сильно зависят от качества карты глубины.

В статье [4] описывается способ распознавания объекта на двумерных проекциях с помощью нейронной сети применяя обучение без учителя, классифицирующей изображение к той или иной категории. В данной работе рассматривался только процесс классификации объектов на изображении и сопоставление их с подходящей трехмерной формой из набора.

Важное продвижение в деле реконструкции объемных сцен было сделано в работах [5, 6], в которых для проведе-

ния преобразования двумерных проекций сцены в связные воксельные сети, использовалось машинное обучение.

Вдохновленные недавним прогрессом в трехмерной реконструкции по одному изображению с использованием глубоких свёрточных нейронных сетей [6,7,8], мы предлагаем немного другой подход к решению данной задачи. Вместо того, чтобы пытаться соотнести подходящую трехмерную форму с объектом наблюдения или производить адаптацию облака точек, полученного из информации о глубине объекта, к известным заранее объемным фигурам, мы применяем глубокую свёрточную нейронную сеть (CNN), для определения (прогнозирования) трехмерной формы объектов на изображении по информации о их глубине при этом используя способность CNN обучаться на промежуточных данных, чтобы восстанавливать аппроксимированные объемные формы исходных объектов.

Данная работа является логическим продолжением более ранних работ [9,10,11], в ходе которых был определен подход к восстановлению объемных объектов, а также модель хранения входных данных для нейронной сети, рассчитана и спроектирована стереоскопическая система для фиксации изображений реконструируемой сцены, а также разработана программная система обработки изображений с последующим формированием входных наборов данных. В статье описана архитектура разрабатываемого ПАК, а также структура нейронной сети, производящей классификацию и восстановление объемных объектов по их проекциям на основании информации о глубине.

В ходе анализа поставленной задачи были определены следующие требования к разрабатываемой системе:

- Обеспечить возможность распознавания и классификации объектов на изображении по соответствующей карте глубины.

- Обеспечить возможность обучения нейронной сети на промежуточных данных (изображениях, на которых частично отсутствует геометрия объекта) и обеспечить генерацию соответствующей объемной воксельной модели. При добавлении новой информации об исходном объекте генерируемая объемная репродукция должна быть скорректирована в соответствии с новыми данными.

- Обеспечить функцию заполнения разрывов и пропусков во входных воксельных сетях.

Для полноценной реализации системы в соответствии с поставленными требованиями необходимо разработать следующие функциональные компоненты:

- Систему пополнения данных, отвечающую за прием, хранение и обработку изображений с последующим формированием наборов данных.

- Модель нейронной сети для распознавания и классификации объектов и дополнения воксельной сети.

Далее в данной работе мы подробно остановимся на описании архитектуры разрабатываемой системы, описании её ключевых особенностей и тестировании.

Общая архитектура системы

При проектировании системы была выбрана концепция использования распределенных информационно-вычислительных ресурсов т. к. системы организованные подобным образом обеспечивают высокую эффективность

обработки данных, повышенную надёжность и доступность [12-19]. Система состоит из трех функциональных блоков: Клиента, Сервера и Базы данных, а также стереоскопической системы захвата изображений (рисунок 1.).

Пользовательское устройство включает в себя клиент, который состоит из модуля обработки, обеспечивающего первичную подготовку данных, получаемых со стереоскопической системы фиксации, и модуля формирования карты глубины, которая вместе с изображениями передается на сервер в виде контейнера и служит входными данными для работы нейронной сети.

Ядром системы является нейронная сеть, располагающаяся на сервере и производящая классификацию объекта по входным данным и дополнение воксельной сети ликвидируя пропуски и разрывы геометрии. Наша сеть получает несколько изображений экземпляра объекта с разных точек наблюдения и производит реконструкцию объекта в виде трехмерной воксельной сети.

Так же на сервере располагается модуль системы обучения и дообучения нейронной сети. Сеть обучается путем сопоставления изображений объектов и их воксельных сетей с лежащими в их основе трехмерными формами из большого набора синтетических данных, сформированных в ранних работах.

Далее каждый из описанных модулей будет рассмотрен подробно.

вход нейронной сети. Название регистрируемой сцены вводится пользователем при запуске.

Выбранный формат хранения полученных массивов позволяет записывать их в отдельные файлы и эффективно сжимать с помощью алгоритма BloscLZ что обеспечивает удобство их хранения и передачи [17], а также допускает быструю распаковку в Python и преобразование в другие форматы при необходимости.

Описание модели нейронной сети

Задача разрабатываемой модели нейронной сети заключается в реконструкции и частичном «предсказании» полной геометрии объектов на изображении по карте глубины, а также корректировку генерируемой модели при появлении дополнительной, пусть и потенциально противоречивой, информации из проекций, т. е. иметь возможность производить реконструкцию как по одной, так и по нескольким раз-норакурсным проекциям. Это чрезвычайно сложная задача, которая была разделена на два этапа: 1) этап распознавания регистрируемого объекта и дополнения воксельной сети, полученной из карты глубины исходной сцены; 2) этап обновление реконструируемой геометрии по мере поступления дополнительной информации об объекте. Схематичное представление функций каждого из этапов представлено на рисунках 2 и 3.

Рис. 1. Архитектура разрабатываемого ПАК

Модуль обработки входных данных

Для эффективного сбора данных для обработки нейросе-тью было разработано специальное ПО и система стереозре-ния, которые позволяют получать, обрабатывать и записывать проекции сцены. Модуль осуществляет предобработку изображений, производит стереосопоставление согласно алгоритму SBGM. Кроме того, в функции данного модуля входит проведение калибровки камер системы стереозрения. Реализация данного модуля производилась с использованием языка программирования Python и Qt Framework.

Для формирования первичной воксельной сети по данным о глубине сцены реализован специальный подмодуль с использованием библиотеки Open3D. В результате работы данного компонента из полученных данных генерируется специальная структура данных [9], которая передается на

Рис. 2. Модель работы проектируемой системы на первом этапе функционирования

Рис. 3. Модель работы проектируемой системы на втором этапе функционирования

Для реализации функций трехмерной реконструкции была спроектирована архитектура модели 3D CNN (таблица 1). В качестве инструмента для реализации нейронной сети используется библиотека KERAS предназначенная для создания и оценки моделей глубокого обучения. В качестве оптимизатора используется алгоритм Adam со скоростью обучения равной 0.001.

Таблица 1

Архитектура полиосверточной трехмерной нейронной сети для заполнения разрывов в воксельной сети

Формирование набора данных и обучение

При подготовке обучающего набора был сформирован синтетический набор данных, представляющий собой трехмерные полигональные модели и их проекции, визуализированные на однотонном сером фоне, с точки наблюдения, выбранной случайным образом. Данная мера необходима для формирования входных данных таких как проекции и воксельные сети, а также выходных данных и корректной реализации методики обучения. Для обучения сети было собрано 150 полигональных моделей объемных объектов -от простых геометрических фигур до сложных многообъектных сцен, а затем были сформированы разноракурсные проекции каждой из сцен (от 5 до 10 ракурсов для каждой из сцен), рассчитаны их карты глубины, по которым организованы воксельные сети. Часть полученного набора данных представлена на рисунке 4.

Рис. 4. Фрагмент содержимого обучающего набора

Указанный набор данных был разделен на 100 обучающих сцен и 50 тестовых сцен. Такое разделение данных гарантирует, не повторяемость объектов в наборах для обучения и в тестовых наборах. Так как сцены обучающего набора имеют различное количество фиксированных ракурсов, при обучении использовались данные переменной длины. В частности, входная длина для каждого обучающего примера была постоянной в пределах одного пакета, но менялась случайным образом для разных пакетов. Это позволило обучить сеть выполнять реконструкцию сцены как по одному изображению, так и по нескольким.

Обучение проводилось на протяжении 100 эпох. Во время обучения мы вычисляли потери только в конце входной последовательности, чтобы сэкономить как вычислительную мощность, так и память.

На рисунке 5 показано как изменялась функция ошибки и точность модели в ходе обучения. Из рисунка видно, что сеть после 80 эпохи вышла на плато, это может означать как точку максимальной обученности модели, так и переобучение. Эффективность работы полученной модели можно оценить в ходе эксперимента.

а 20 jg ьо -ас н»

Рис. 5. Фрагмент содержимого обучающего набора

Проведение эксперимента

В рамках данной работы был проведен эксперимент, который был разделен на две части. В первой части эксперимента производилась проверка и тестирование программного модуля обработки изображений, полученных от системы фиксации сцены. Во второй части эксперимента оценивалась точность дополнения и коррекции нейросетью входной воксельной сети, полученной из карты глубины.

В ходе тестирования модуля предварительной обработки, использовалась сцена, представляющая собой интерьер квартиры с установленным в центре стулом. Карта глубины для данной сцены имела слишком сильную зашумленность поэтому к ней был применен фильтр (рис. 6).

Рис. 6. Точность построения карты глубины для первого эксперимента

При проведении данного эксперимента было обнаружено, что система работает корректно, однако большое влияние на точность определения глубины даёт не только освещение, но и свойства материала самого объекта наблюдения.

Тип слоя Размер ядра Количество входных каналов Смещение Шаг Функция активации

Input 7x7x7 1 same 1 ReLU

Conv3d 1 5x5x5 1 same 1 ReLU

Conv3d 1 3x3x3 1 same 1 ReLU

Conv3d 1 3x3x3 1 same 1 ReLU

Conv3d 1 3x3x3 1 same 1 ReLU

Output lxlxl 1 same 1 sigmoid

Для обеспечения наилучшего качества получаемых данных о глубине материал и вид объекта должны максимально соответствовать закону Ламберта, т. е. яркость поверхности объекта, рассеивающей свет, должна быть одинакова во всех направлениях. Используемый объект наблюдения не вполне соответствует данному требованию. Это сделано специально для приближения условий эксперимента к реальным. При повторении эксперимента с отделением объекта реконструкции от фона, путем замены фона на однородную текстуру, качество формируемой карты глубины значительно повысилось (рис. 7).

По итогам работы алгоритма и подбора коэффициента фильтрации была получена приблизительная геометрия исходного объекта, пригодная для использования при дальнейшей реконструкции (рис. 9). Как видно из правой части рисунка, удалось извлечь достаточно много информации о глубине объекта, однако часть полезной информации была потеряна при фильтрации.

Рис. 7. Точность построения карты глубины для второго эксперимента

Данная особенность в совокупности с чувствительностью к уровню освещения, точности изготовления камер и к неоднородности фона за объектом наблюдения представляют большую проблему при реконструкции полной геометрии объекта по одной или нескольким проекциям т. к. предполагают, что объекты точно отделены от фона или что камеры откалиброваны, что не всегда возможно во многих возможных областях применения системы.

В результате преобразования карты глубины в облако точек была получены очертания объекта наблюдения (рис. 8). Как видно из рисунка, данное облако точек имеет сильную зашумленность, области в которых присутствуют разрывы глубины и пропуски геометрии. Входные данные подобного качества не пригодны для преобразования в связные вок-сельные сети и к дальнейшей реконструкции поэтому необходимо произвести их дополнительную обработку для исключения шума, представляющего собой воксели значительно удаленные от общей геометрии объекта.

Рис. 9. Вексельная сеть после фильтрации с различным коэффициентом

Для оценки корректности и эффективности работы модуля дополнения геометрии и формирования результирующей связной воксельной сети подадим полученные данные на вход CNN. Результат представлен на рисунке 10.

Рис. 8. Карта глубины: до фильтрации (слева) и после частичной фильтрации шумов и преобразования в вексельную сеть (справа)

Рис. 10. Воксельная сеть после заполнения пропусков и разрывов

Качество восстановления геометрии исходного объекта значительно повысилось, однако на поверхности объекта все ещё присутствуют разрывы и пропуски. Это обусловлено недостаточностью информации о глубине, полученной с одного ракурса. Для улучшения качества реконструкции требуется дополнительная информация, которая может быть получена из дополнительных снимков объекта.

Заключение

Анализ существующих алгоритмов реконструкции объемных фигур по изображению показал, что несмотря на существующее многообразие подходов и методов решения данной задачи наиболее эффективными и прогрессивными являются системы, основанные на использовании методов машинного обучения. В данной работе исследована возможность применения нового метода реконструкции объемной сцены по её проекциям, основанного на совместном использовании карт глубины и сопоставления проекций с лежащи-

ми в их основе трехмерными формами, полученными из промежуточных данных. Применение нейронных сетей, для реализации данного подхода может существенно ускорить процесс распознавания и реконструкции формы.

В статье показаны полученные перспективные результаты, которые будут улучшаться в дальнейших работах.

Литература

1. Scharstein D., Szeliski R. A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms II International Journal ofComputer Vision. April 2002.

2. Zbontar J., LeCun Y. Computing the stereo matching cost with a convolutional neural network II Conference on Computer Vision and Pattern Recognition. 2015. Vol. 324(1).

3. Saxena A., Sun M., Ng A.Y. Make3d: Learning 3d scene structure from a single still image. IEEE Trans. Pattern Anal. Mach. Intell. 31(5) (May 2009).

4. Наинга П.Т., Ко Ко П.С., Чжо Т., Пъо Т.З. Методика системы распознавания образов с помощью самоорганизующихся карт Кохонена нейронных сетей на основе Matlab II Интернет-журнал «НАУКОВЕДЕНИЕ» №5.2013.

5. Hoiem D., Efros A.A., Hebert M. Automatic photo pop-up. ACM transactions on graphics (TOG). №24(3). 2005.

6. Kar A., Tulsiani S., Carreira J., Malik J. Category-specific object reconstruction from a single image II Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on, IEEE. 2015.

7. Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multi-scale deep network II Advances in Neural InformationProcessing Systems 27. 2014.

8. Liu F., Shen C., Lin G. Deep convolutional neural fields for depth estimation from a single image II Proc. IEEE Conf. Computer Vision and Pattern Recognition. 2015.

9. Gadasin D.V., Shvedov A.V., Kuzin I.A. A Model for Representing the Color and Depth Metric Characteristics of Objects in an Image II 2021 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO, 2021, pp. 1-5, doi: 10.1109/SYNCHROINF051390.2021.9488349.

10. Gadasin D.V., Shvedov A.V., Kuzin I.A. Reconstruction of a Three-Dimensional Scene from its Projections in Computer Vision Systems II2021 Intelligent Technologies and Electronic Devices in Vehicle and Road Transport Complex (TIRVED), 2021, pp. 1-8, doi: 10.1109/TIRVED53476.2021.9639161.

11. Gadasin D.V., Shvedov A.V., Litvin Y.S. Paradigm of Inheritance in Large-Scale Systems II 2019 Systems of Signals Generating and Processing in the Field of on Board Communications, 2019, pp. 1-5, doi: 10.1109/SOSG.2019.8706804.

12. Шведов A.B., Назаров М.Д. Зависимость показателей эффективности функционирования корпоративных сетей связи от показателей качества обслуживания (QoS) II Технологии информационного общества: Сборник трудов XIV Международной отраслевой научно-технической конференции, Москва, 18-19 марта 2020 года. М.: Издательский дом Медиа Паблишер, 2020. С. 302-304. EDN DXPJBJ.

13. Докучаев В.А., Шведов А.В. Классификация показателей надежности корпоративных цифровых платформ II Актуальные проблемы и перспективы развития экономики : труды XIX Всероссийской с международным участием научнопрактической конференции, Симферополь-Гурзуф, 15-17 октября 2020 г. Симферополь: ИП Зуева Т В., 2020. С. 28-29. EDNNFEHDJ.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Шведов, А.В., Назаров МД. Анализ основных методов и показателей качества обслуживания, применяемых в корпоративных сетях связи II Телекоммуникационные и вычислительные системы 2020 : Труды международной научно-технической конференции, Москва, 14-17 декабря 2020 года. Московский технический университет связи и информатики. М.: Горячая линия-Телеком, 2020. С. 239-247. EDNFWYZWD.

15. Алыев Ш.З., Гадасин ДД, Шведов А.В. Анализ показателей устойчивости в корпоративных сетях и возможные пути её повышения II Перспективные технологии в средствах передачи информации : материалы 14-ой международной научно-технической конференции, Владимир, 06-07 октября 2021 г. Владимир: Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых, 2021. С. 415-418. EDN QPGQOA.

16. Шведов А.В., Гадасин Д.В., Клыгина О.Г. Организация взаимодействия туманных вычислений и сегментной маршрутизации для предоставления сервисов ЮТ в smart grid II Системы синхронизации, формирования и обработки сигналов. 2022. Т. 13. № 3. С. 40-49. EDN TRRYZN.

17. Gadasin D.V., Shvedov A.V., Klygina O.G. and Shulginov I.V. Routing Management System Formation for Machine-to-Machine Interaction in a Decentralized Environment II2021 Wave Electronics and its Application in Information and Telecommunication Systems (WE-CONF),2021,pp. 1-7, doi: 10.1109/WECONF51603.2021.9470710.

18. Shvedov A.V. and Nazarov M.J. Methods for Improving the Efficiency of Information and Communication Networks II 2020 International Conference on Engineering Management of Communication and Technology (EMCTECH), 2020, pp. 1-5, doi: 10.1109/EMCTECH49634.2020.9261563.

19. Maklachkova V.V., Shvedov A.V. and Alyev S. Analysis of Resilience Indicators in Corporate Networks and Possible Ways to Improve It II 2022 Systems of Signals Generating and Processing in the Field of on Board Communications, 2022, pp. 1-5, doi: 10.1109/IEEECONF53456.2022.9744353.

THREE-DIMENSIONAL RECONSTRUCTION OF AN OBJECT FROM A SINGLE IMAGE USING DEEP CONVOLUTIONAL NEURAL NETWORKS

Denis V. Gadasin, Moscow Technical University of Communications and Informatics (MTUCI), Moscow, Russia, dengadiplom@mail.ru Andrey V. Shvedov, Moscow Technical University of Communications and Informatics (MTUCI), Moscow, Russia, a.v.shvedov@mtuci.ru Ivan A. Kuzin, Moscow Technical University of Communications and Informatics (MTUCI), Moscow, Russia,

IvanKuzin-forwork@yandex.ru

Abstract

The automatic creation of three-dimensional prototypes and digital copies of three-dimensional objects of the real world is a revolutionary innovation that is actively used today in many areas of human activity, for example, for identification in smartphones and e-commerce applications, as well as in visualization and design systems. This trend has intensified now that additive technologies have become available to a wide range of users, and large-scale storage of three-dimensional objects are becoming increasingly popular and widespread. One of the tasks that a person solves every day on an unconscious level is the cognition of images: visual, sound intelligible, tactile and others. Thanks to image recognition, it is possible to identify people by external signs and distinguish them from each other, identify sounds, classify different objects by similar properties, and also accurately determine the subjective characteristics of the observed objects, such as color, shape, volume and depth. The problem of recognizing images of objects of the surrounding world and understanding their scale and volume by two-dimensional projections is one of the most urgent and studied problems solved by computer vision methods. However, this class of tasks is quite difficult to formalize, which makes their solution time-consuming to develop and implement. The article describes the development of a software package that re-constructs three-dimensional scenes according to their projections using neural network machine learning methods: the basics of three-dimensional reconstruction are considered, a model of the general architecture of the PAK is proposed, the architecture is introduced the developed neural network, the results of training and test experiments.

Keywords: three-dimensional reconstruction, computer stereovision, depth map, programming, neural network modeling. References

1. D. Scharstein, R. Szeliski (2022). A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms. International Journal of Computer Vision. April 2002.

2. J. Zbontar, Y. LeCun (2015). Computing the stereo matching cost with a convolutional neural network. Conference on Computer Vision and Pattern Recognition. Vol. 324(1).

3. A. Saxena, M. Sun, A.Y. Ng (2009). Make3d: Learning 3d scene structure from a single still image. IEEE Trans. Pattern Anal. Mach. Intell. 31(5) (May 2009).

4. P.T. Nainga, P.S. Ko Ko, T. Zhuo, T.Z. Pyo (2013), "Methodology of the pattern recognition system using self-organizing Kohonen maps of neural networks based on Matlab", Internet journal "NAUKOVEDENIE" No. 5.

5. D. Hoiem, A.A. Efros, M. Hebert. Automatic photo pop-up. ACM transactions on graphics (TOG) 24(3).

6. A. Kar, S. Tulsiani, J. Carreira, J. Malik (2015). Category-specific object reconstruction from a single image. In: Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on.

7. D. Eigen, C. Puhrsch, R. Fergus (2014). Depth map prediction from a single image using a multi-scale deep network. In: Advances in Neural Information Processing Systems 27.

8. F.Liu, C. Shen, G. Lin (2015). Deep convolutional neural fields for depth estimation from a single image. In: Proc. IEEE Conf. Computer Vision and Pattern Recognition.

9. D. V. Gadasin, A. V. Shvedov and I. A. Kuzin (2021), "A Model for Representing the Color and Depth Metric Characteristics of Objects in an Image," 2021 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO, pp. 1-5, doi: 10.1 109/SYNCHROIN-FO51390.2021.9488349.

10. D. V. Gadasin, A. V. Shvedov and I. A. Kuzin (2021), "Reconstruction of a Three-Dimensional Scene from its Projections in Computer Vision Systems,"

2021 Intelligent Technologies and Electronic Devices in Vehicle and Road Transport Complex (TIRVED), pp. 1-8, doi: 10.1109/TIRVED53476.2021.9639161.

11. D. V. Gadasin, A. V. Shvedov and Y. S. Litvin (2019), "Paradigm of Inheritance in Large-Scale Systems," 2019 Systems of Signals Generating and Processing in the Field of on Board Communications, pp. 1-5, doi: 10.1109/SOSG.2019.8706804.

12. A. V. Shvedov, M. D. Nazarov (2020). Dependence of performance indicators of corporate communication networks on quality of service (QoS) indicators. Information Society technologies: Proceedings of the XIV International Industry Scientific and Technical Conference, Moscow, March 18-19, 2020. Moscow: Media Publisher Publishing House LLC, pp. 302-304.

13. V. A. Dokuchaev, A.V. Shvedov (2020). Classification of reliability indicators of corporate digital platforms. Actual problems and prospects of economic development: Proceedings of the XIX All-Russian Scientific and Practical Conference with international participation, Simferopol-Gurzuf, October 15-17, 2020. Simferopol: IP Zueva T. V., pp. 28-29.

14. A .V. Shvedov, M. D. Nazarov (2020). Analysis of the main methods and service quality indicators used in corporate communication networks. Telecommunication and computing systems 2020 : Proceedings of the International Scientific and Technical Conference, Moscow, December 14-17, 2020. Moscow Technical University of Communications and Informatics. Moscow: Scientific and Technical Publishing House "Hotline-Telecom", pp. 239-247.

15. Sh. Z. Alyev, D. D. Gadasin, A.V. Shvedov (2021). Analysis of sustainability indicators in corporate networks and possible ways to improve it. Promising technologies in the media of information transmission : materials of the 14th International Scientific and Technical Conference, Vladimir, 06-07 October 2021. Vladimir: Vladimir State University named after Alexander Grigorievich and Nikolai Grigorievich Stoletov, pp. 415-418.

16.A.V. Shvedov, D. V. Gadasin, O. G. Klygina (2022). Organization of interaction of foggy numbers and segment routing for the provision of IOT services in smart grid. Synchronization systems, signal generation and processing. Vol. 13. No. 3, pp. 40-49.

17. D. V. Gadasin, A. V. Shvedov, O. G. Klygina and I. V. Shulginov (2021), "Routing Management System Formation for Machine-to-Machine Interaction in a Decentralized Environment," 2021 Wave Electronics and its Application in Information and Telecommunication Systems (WECONF), pp. 1-7, doi: 10.1109/WECONF51603.2021.9470710.

18. A. V. Shvedov and M. J. Nazarov (2020), "Methods for Improving the Efficiency of Information and Communication Networks," 2020 International Conference on Engineering Management of Communication and Technology (EMCTECH), pp. 1-5, doi: 10.1109/EMCTECH49634.2020.9261563.

19. V. V. Maklachkova, A. V. Shvedov and S. Alyev (2022), "Analysis of Resilience Indicators in Corporate Networks and Possible Ways to Improve It,"

2022 Systems of Signals Generating and Processing in the Field of on Board Communications, pp. 1-5, doi: 10.1109/IEEECONF53456.2022.9744353.

i Надоели баннеры? Вы всегда можете отключить рекламу.