Научная статья на тему 'Многослойное решение проблемы полупрозрачных границ при построении стереоскопических изображений'

Многослойное решение проблемы полупрозрачных границ при построении стереоскопических изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
270
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
карта глубины / матирование / построение ракурсов / depth map / matting / view generation

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ерофеев Михаил Викторович, Ватолин Дмитрий Сергеевич

Задача построения стереоскопических ракурсов на основе исходного моноскопического изображения и карты глубины крайне актуальна благодаря широкому применению техник преобразования моноскопических видеопоследовательностей в стереоскопический формат при производстве современных фильмов. Существенной проблемой, возникающей при ее решении, является обработка пикселов, в которых смешаны цвета нескольких объектов, расположенных на разном удалении от зрителя. Существующие подходы к ее решению либо не способны обработать существенное изменение цвета фона за объектом на новом ракурсе, либо выполняют сегментацию изображения на два слоя, что, к сожалению, не всегда возможно сделать корректно. Предлагаемый в статье метод построения новых ракурсов лишен вышеупомянутых недостатков благодаря использованию многослойного представления карты глубины. Как показывает сравнение с существующими аналогами, предложенный метод позволяет получить результаты более высокого визуального качества.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Multilayer solution to semitransparent edge processing problem in stereoscopic imagery generation

Due to wide usage of 2D to 3D conversion in movie production industry, the problem of stereoscopic view synthesis has extremely high importance. One of stereoscopic view synthesis main challenges is processing of semitransparent edges near depth map discontinuities. The existing approaches either can deal only with simple cases when background behind the object does not change significantly or try to segment input image in two layers (that is impossible in some cases). The proposed method does not have the above mentioned limits and outperforms competitors in the comparison of synthesized views’ visual quality.

Текст научной работы на тему «Многослойное решение проблемы полупрозрачных границ при построении стереоскопических изображений»

Многослойное решение проблемы полупрозрачных границ при построении стереоскопических

М.В. Ерофеев, Д.С. Ватолин

изображений

Аннотация—Задача построения стереоскопических ракурсов на основе исходного моноскопического изображения и карты глубины крайне актуальна благодаря широкому применению техник преобразования моноскопических видеопоследовательностей в стереоскопический формат при производстве современных фильмов. Существенной проблемой, возникающей при ее решении, является обработка пикселов, в которых смешаны цвета нескольких объектов, расположенных на разном удалении от зрителя. Существующие подходы к ее решению либо не способны обработать существенное изменение цвета фона за объектом на новом ракурсе, либо выполняют сегментацию изображения на два слоя, что, к сожалению, не всегда возможно сделать корректно. Предлагаемый в статье метод построения новых ракурсов лишен вышеупомянутых недостатков благодаря использованию многослойного представления карты глубины. Как показывает сравнение с существующими аналогами, предложенный метод позволяет получить результаты более высокого визуального качества.

Ключевые слова—карта глубины, матирование, построение ракурсов

I. Введение

Задача преобразования моноскопических видеопоследовательностей в стереоскопический формат не теряет своей актуальности и по сей день, несмотря на ставшие более доступными и технически совершенными стереоскопические камеры. В частности, в 2015 году из 38 стереоскопических фильмов, вышедших в мировой прокат, 24 были получены путем конвертации из моноскопического формата [1]. Данное явление может быть объяснено технической сложностью съемки некоторых сцен с использованием стереокамеры и сложностью исправления дефектов материала, снятого в стереоскопическом формате [2].

Рассмотрим задачу преобразования моноскопической видеопоследовательности в стереоскопический формат, а также проблемы, возникающие на пути ее решения, более детально. Задача сводится к построению с использованием данного изображения двух новых изображений, снятых виртуальными камерами, расположенными левее и правее камеры, снявшей данное изображение. Преобладающий на сегодняшний день подход к ее решению состоит из следующих этапов:

Статья получена 7 июня 2016.

Ерофеев Михаил Викторович, МГУ им. М.В. Ломоносова, (email: merofeev@graphics.cs.msu.ru).

Ватолин Дмитрий Сергеевич, МГУ им. М.В. Ломоносова, (email: dmitriy@graphics.cs.msu.ru).

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта 15-01-08632 а.

(а) Пример областей открытия (б) Пример некорректно

обработанной полупрозрачной границы

Рис. 1. Примеры двух основных проблем, возникающих при построении новых ракурсов: (а) заполнение областей (обозначены шахматной клеткой), которые были скрыты на исходном ракурсе, но стали видны на новом; (б) обработка полупрозрачных границ, некорректное выполнение которой может привести к излишне резким или размытым краям на новом ракурсе.

1) Построение карты глубины каждого кадра видеопоследовательности, то есть карты, определяющей удаленность каждого пиксела от зрителя (пример такой карты изображен на рисунке 2б). Данная задача может быть решена множеством путей: рисованием карт глубины вручную (обеспечивает наилучшее качество результата), рисованием карт глубины вручную для ключевых кадров и автоматической интерполяцией промежуточных кадров [3], [4], полностью автоматическими методами [5], [6] (к сожалению, данные методы позволяют получить удовлетворительный результат лишь для некоторых типов сцен).

2) Заполнение областей открытия — областей, которые были скрыты объектом переднего плана на исходном изображении, но будут видимы на построенных стереоскопических ракурсах (см. рисунок 1а). Существует множество инструментов и алгоритмов, позволяющих решить эту задачу [7], [8], [9], также часто используется метод простой экстраполяции, состоящий в повторении пиксела на краю области открытия [10].

3) Построение стереоскопических ракурсов — сдвиг пикселов согласно значениям, сопоставленным им на карте глубины, и объединение нового ракурса с результатами предыдущего шага. Такой сдвиг может быть тривиально выполнен для большей части пикселов, однако часть пикселов исходного изображения, расположенных вблизи границ объектов, является смесью цвета двух и более объектов, находящихся на разном удалении от зрителя, что делает невозможным сопоставление таким пикселам единственного сдвига. Игнорирование данной

Исходное изображение (б) Карта глубины (в) Области, подлежащие обработке

Рис. 2. Пример входных данных предлагаемого алгоритма: (а) исходного изображения и (б) карты глубины. На первом шаге своей работы алгоритм на основании карты глубины строит маску (в) областей вблизи границ карты глубины (для удобства восприятия маска наложена красным цветом поверх карты глубины).

проблемы приводит к возникновению артефактов результирующего стереоскопического изображения (см. рисунок 1б).

Данная работа посвящена решению упомянутой выше в пункте 3 проблемы обработки пикселов вблизи границ. Проблема усугубляется наличием часто возникающих на практике ошибок карты глубины вблизи границ объектов (например, граница на карте глубины может быть смещена относительно границы на изображении). Особую актуальность она приобретает для фрагментов изображения, содержащих большое количество пикселов, являющихся смесью цветов нескольких объектов (например, фрагменты, изображающие волосы, шерсть, размытие движения).

Так как рассмотрение вопроса построения карт глубины выходит за рамки данной статьи, в дальнейшем будем считать, что исходным изображениям уже сопоставлена карта глубины. Также для упрощения записи формул введем дополнительно понятие карты диспарантности — карты, обратно пропорциональной карте глубины и прямо пропорциональной величине сдвига, который требуется выполнить для построения новых ракурсов.

Суть предлагаемого метода решения упомянутой выше проблемы состоит в разделении исходного изображения на несколько слоев (количество которых ограничено лишь особенностями программной реализации), применении сдвига независимо к каждому слою и объединении слоев в изображение нового ракурса.

В разделе II будут рассмотрены существующие подходы к решению данной задачи, а в разделе III дано подробное описание предлагаемого алгоритма. Наконец, в разделе IV будут представлены изображения, полученные с помощью различных методов решения рассматриваемой задачи, включая предложенный.

II. Обзор области

Большинство существующих работ, посвященных построению стереоскопических ракурсов, решают задачу, отличную от рассматриваемой в данной статье: задачу построения новых ракурсов для данного многоракурсного изображения. В таких работах задача построения ракурса на основе одного изображения и его карты глубины (рассматриваемая в данной работе) возникает как подзадача.

Один из первых методов построения новых ракурсов, учитывающий прозрачность пикселов, описан в [11]. Входными данными алгоритма является набор видеопоследовательностей, снятых несколькими камерами, расположенными на дугообразной раме. Результатом работы

алгоритма являются видеопоследовательности, снятые виртуальными камерами с ракурсов, отличных от исходных. После построения карт диспарантности исходных ракурсов алгоритм применяет метод матирования изображений Bayesian Matting [12] в окрестности шириной 4 пиксела вблизи границ карт диспарантности. Таким образом, изображение в этих областях разделяется на два слоя — передний план и фон. Как будет показано в разделе IV такое разделение не может быть выполнено корректно, когда истинное число слоев больше двух (например, в одной точке происходит наложение трех объектов).

Аналогичным образом проблема обработки полупрозрачных краев решается в [13]: авторы выполняют бинарную сегментацию изображения на передний план и фон вблизи границ карты глубины, а затем применяют Guided Filter [14] для построения карты прозрачности.

В [15] авторы предлагают решение задачи построения новых ракурсов на основе карты глубины и исходного изображения. Для обработки полупрозрачных границ выполняется разделение изображения на передний план и фон с использованием простейшего алгоритма матирования, использующего изображение фона в качестве исходных данных. При этом для метода является существенным, чтобы изображение фона имело пиксельную точность (что, как правило, невозможно на практике). Авторы демонстрируют пример работы своего алгоритма лишь на двух синтетических примерах.

Интересной альтернативой применению матирования при построении новых ракурсов является так называемый метод переноса размытия [16]. Метод состоит из двух шагов: перенос пикселов на новый ракурс без учета их прозрачности; размытие нового ракурса вблизи границ карты глубины. Метод не порождает артефактов вблизи пересечений трех и более объектов, так как не выполняет сегментацию на два слоя. Однако, как отмечают его авторы, способен справиться только с относительно простыми случаями, когда фон под объектом на новом ракурсе меняется несущественно.

Многослойное представление карты глубины, схожее с представлением, использованным в данной статье, применяется в [17]. Однако многослойная карта глубины в [17] не содержит информации о прозрачности пикселов, а способ ее построения описан лишь для изображений, снятых с помощью высокоточной лабораторной установки.

Как можно заметить из проведенного обзора, существующие подходы к решению поставленной задачи либо не способны справиться с существенным изменением фона под объектом [16], либо содержат предположение

Рис. 3. Пример многослойной карты прозрачности для одной строки изображения, где верхняя часть рисунка — это изображение, на котором красным выделена строка, а нижняя часть рисунка — слои карты прозрачности для данной строки изображения. Каждая строка нижнего рисунка соответствует одному слою карты прозрачности (нижняя строка — самому ближнему к зрителю слою). Белые точки — непрозрачные пикселы; черные — невидимые. На карте легко угадываются голова с полупрозрачными пикселами на волосах, стебли растений слева и справа, темный фон на заднем плане.

о возможности разделить исходное изображение на два слоя [11], [13], [14], что не всегда верно для изображений, встречающихся на практике. Как будет показано далее, предложенный алгоритм лишен данных недостатков.

III. Предложенный метод

Входными данными предлагаемого подхода являются исходное изображение I, карта диспарантности В (элементы которой — целые числа от 0 до 255), и три параметра ад е М, р € [0; 1], г € М, определяющие ширину области, к которой будет применен алгоритм, силу 3D-эффекта, положение плоскости экрана относительно объектов сцены соответственно. Выходными данными являются изображения левого и правого ракурса.

Основные шаги алгоритма:

1) Построение маски областей, подлежащих обработке. Очевидно, что в нетривиальной обработке нуждаются лишь пикселы вблизи границ карты глуби-ны/диспарантности, так как рассматриваемая в данной статье проблема возникает лишь для пикселов, являющихся смесью цветов объектов, расположенных на разном расстоянии от зрителя.

2) Построение п-слойной карты прозрачности, где п — число различных значений, встречающихся на карте диспарантности (п < 256 в авторской реализации), таким образом, что слой г отвечает прозрачности пикселов, диспарантность которых равна г.

3) Вычисление цвета каждого пиксела каждого слоя. Так как обрабатываемые пикселы могут являться смесью цветов нескольких объектов, требуется восстановить исходные цвета объектов.

4) Независимый сдвиг каждого слоя согласно значению диспарантности, отвечающего ему.

5) Построение изображения ракурса путем объединения слоев и заполнения областей открытия.

Шаги 4-5 выполняются дважды для формирования изображений левого и правого ракурса. Рассмотрим каждый шаг более детально.

A. Построение маски областей, подлежащих обработке

Для получения маски областей, которые будут подвергнуты дальнейшей обработке, применяется алгоритм, описанный в работе [18]. К карте диспарантности D w раз (параметр алгоритма) применим операцию морфологического расширения с квадратным ядром размера 3 х 3, результат обозначим Dmax. Аналогично построим Dmin с помощью морфологического сужения. Отметим на маске областей, подлежащих обработке, пикселы, для которых Dmax — Dmm > 10. Данный алгоритм позволяет выделить области шириной 2w вблизи границ на карте диспарантности. Пример работы алгоритма приведен на рисунке 2в. Отдельно отметим, что дальнейшие шаги рассматриваемого метода не накладывают ограничений на маску областей, подлежащих обработке, в связи с этим данная маска может быть построена множеством различных способов или отредактирована пользователем вручную. Например, пользователь может отметить на карте область, изображающую прядь волос, которая не была отмечена автоматически.

B. Построение многослойной карты прозрачности

Целью данного и следующего шага является преобразование исходного изображения к многослойному представлению таким образом, чтобы каждый слой соответствовал одному единственному сдвигу согласно карте диспарантности. Именно данное требование позволяет разрешить проблему сдвига пикселов, представляющих смесь цветов объектов с различной диспарантностью. Такие пикселы будут разделены на несколько слоев, и сдвиг будет применен независимо к каждому слою. Формально искомое представление может быть записано следующим образом:

n

I = J2 oiF*, (1)

i=i

где аг — карта прозрачности слоя i, Fг — изображение слоя i, n — максимальное значение на карте диспарантности (255 в авторской реализации). В такой постановке задача схожа с задачей матирования изображений (разделение изображения на передний план, фон и карту прозрачности) с использованием тернарной маски (маски, на которой отмечены области, однозначно являющиеся передним планом, области, однозначно являющиеся фоном, и области, для которых нужно решить задачу матирования).

Для вычисления искомых карт прозрачности обобщим метод матирования изображений Learning Based Matting [19] на случай произвольного числа слоев. Предварительно отметим особенности данного метода, важные для дальнейшего изложения. Для данного изображения и тернарной маски метод вычисляет карту прозрачности

(а) Многослойная карта (б) Маска неизвестных пикселов (в) Многослойная карта (г) Порядок обхода пикселов при

прозрачности прозрачности и маска заполнении областей открытия

неизвестных пикселов после сдвига

Рис. 4. Выполнение двух заключительных шагов предлагаемого алгоритма на примере одной строки многослойной карты прозрачности (а), изображающей область вблизи границы двух объектов, расположенных на разном удалении от зрителя. Алгоритм выполняет построение маски (изображена синим цветом) неопределенных пикселов (б), затем к каждому слою применяется сдвиг (в). В ходе построения итогового изображения ракурса заполнение областей открытия выполняется путем обхода неопределенных пикселов согласно шаблону (г) (изображен красным).

переднего плана а, решая систему линейных алгебраических уравнений (СЛАУ)

Ha = b,

(2)

где H — эрмитова матрица, зависящая только от исходного изображения, а b — вектор, зависящий только от тернарной маски.

Предлагаемое обобщение базового алгоритма состоит в выполнении следующих шагов для каждого i от 0 до n:

1) Построить тернарную маску, где как передний план отмечены пикселы, для которых D = i, как область, подлежащая обработке, отмечена область, построенная на предыдущем шаге, остальные пикселы отмечены как фон.

2) Вычислить карту прозрачности а г, применив алгоритм Learning Based Matting к исходному изображению и тернарной маске, построенной на прошлом шаге.

Для вычисления итоговых карт прозрачности нормируем прозрачность в каждом пикселе:

(3)

, a j

жая задача для случая двух слоев (передний план и фон) рассматривалась в классической работе, посвященной матированию изображений [20]. Обобщая описанный в работе подход на случай произвольного числа слоев, введем следующую функцию стоимости:

C (I,a,F ) =

+

pen

Ip-

Е

i=i

ai Fi p p

i=ipen

+EE

i=ipen

+EE ap

i=ipen

Sap SFi p

Sx Sx

Sap SF i P

Sy Sy

+

+

+

(4)

SFi

Sz

ЕП

3 = 0

Рисунок 3 содержит пример вычисленных карт прозрачности для одной строки исходного изображения, часть пикселов которой принадлежит трем объектам, расположенным на разном удалении от зрителя.

Описанное выше обобщение может быть получено путем замены тернарной маски и карты прозрачности их многослойными представлениями в описании базового алгоритма.

Для снижения вычислительных затрат предлагаемого подхода заметим, что на каждой его итерации изменяется только тернарная маска, но не исходное изображение, то есть происходит решение п СЛАУ с одинаковой левой частью Н. Вычислим разложение Холецкого матрицы Н = ЬЬТ, и тем самым существенно упростим решение системы на каждой итерации.

С. Вычисление изображений слоев

Зная карту прозрачности каждого слоя аг, найдем изображение каждого слоя Fг (см. уравнение (1)). Похо-

где П — множество всех пикселов изображения; ^, -¡У, ^ — разностные производные вдоль осей х, у, х (ось 2 пронизывает слои изображения). Первое слагаемое функции стоимости требует равенства композиции всех слоев исходному изображению (см. уравнение (1)). Второе и третье слагаемое штрафуют резкое изменение цвета слоя. Слагаемые 1-3 являются прямым обобщением аналогичной функции стоимости, описанной в работе [20]. Четвертое слагаемое (не имеет аналога в исходном методе) штрафует отличие цвета соседних слоев с ненулевой прозрачностью. В проведенных экспериментах добавление этого слагаемого существенно повышало численную устойчивость метода.

Вычисление F выполняется путем минимизации функции стоимости:

F = arg min C (I, a, F ).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

F

(5)

Эта оптимизационная задача сводится к решению СЛАУ Однако для типичной карты диспарантности разрешения 1920 х 1080 такая СЛАУ будет иметь десятки миллионов неизвестных, и ее решение займет десятки минут на современном ПК. Так как цвет невидимых пикселов (а = 0) не представляет никакого практического интереса, исключим из системы все невидимые пикселы, вокруг которых в радиусе т нет ни одного пиксела с а = 0.

2

2

2

2

a

(а) Многослойная карта (б) Многослойная карта

прозрачности до сдвига прозрачности после сдвига

Рис. 5. Иллюстрация механизма возникновения трещин: (а) строка многослойной карты прозрачности, полученной на основе карты диспарантности, содержащей изменение значения диспарантности всего на одну градацию; после выполнения сдвига (б) в ходе построения левого ракурса на карте прозрачности образуется трещина в виде одного полупрозрачного пиксела.

Такое упрощение, согласно проведенным экспериментам, позволяет сократить число неизвестных примерно в десять раз.

D. Сдвиг слоев

Прошлые два шага позволили разделить изображение на множество слоев таким образом, что объекты одного слоя находятся на равном удалении от зрителя. Теперь для создания стереоскопических ракурсов к каждому слою требуется применить сдвиг, пропорциональный его диспарантности. Однако текущее многослойное представление (см. уравнение (1)) никак не учитывает порядок наложения, что вызовет сложно разрешимые проблемы при сдвиге и последующем объединении слоев. Поэтому перейдем к представлению, моделирующему последовательное наложение слоев в порядке их удаления от зрителя:

10 = à0 F 0,ß0 = à0

Ii = (1 - ß0)alFi + I1-1, ßl = (1 - ß0)&1 + ß I = In.

i-1

(6)

Заметим, что такое представление в точности соответствует тому, как происходит объединение слоев изображения в популярных графических редакторах (например, в Adobe Photoshop). Несложно проверить, что переход от представления (1) к представлению (6) может быть выполнен по формуле:

(7)

1 -£ — а

Приведенная выше формула не определена для пикселов, находящихся под пикселами, суммарная прозрачность которых равна единице, то есть для пикселов, полностью скрытых от зрителя. Дополнительно построим многослойную маску и, на которой единицами будут выделены такие неопределенные пикселы (пример построения такой маски изображен на рисунке 4а-б). Дополнительно к маске и применяется расширение на 2 пиксела вдоль оси х только на те пикселы, прозрачность которых меньше 0.1. Такой шаг позволяет исключить из новых ракурсов плохо определенные пикселы, цвет которых мог быть вычислен неправильно. Построенная маска и будет полезна при выполнении последнего шага формирования стереоскопических ракурсов.

Получив такое представление, применим к каждому слою сдвиг:

• рг — г — для формирования многослойного представления левого ракурса

• —рг — г — для формирования многослойного представления правого ракурса

В приведенных выше формулах г обозначает номер слоя, а р и г — параметры алгоритма, задаваемые пользователем, определяющие силу стереоэффекта и положение плоскости экрана. Сдвиг на нецелое число пикселов выполняется с помощью линейной интерполяции. Аналогичный сдвиг применим и к маске и. Пример многослойного представления ракурса изображен на рисунке 4в.

E. Построение изображений ракурсов

Заключительным шагом предлагаемого алгоритма является объединение многослойных представлений ракурсов в изображения этих ракурсов. Важно отметить, что, помимо тривиального слияния слоев согласно уравнению (6), требуется решить следующие задачи:

• Устранение трещин. Под трещинами будем понимать незаполненные области изображения ракурса шириной менее одного пиксела, возникающие из-за дискретного представления карты глубины (см. рисунок 5).

• Заполнение областей открытия — заполнение областей, которые были скрыты объектами переднего плана на исходном изображении, но стали видны на изображении ракурса.

Для решения этих задач будем опираться на маску неопределенных пикселов и, построение которой было описано в предыдущем разделе. Для устранения трещин будем анализировать степень неопределенности левого и правого соседа текущего пиксела. Для заполнения областей открытия будем использовать цвет и прозрачность ближайшего определенного соседа слева (или справа при построении правого ракурса).

В каждом пикселе р последовательно обойдем каждый слой г, начиная с ближайшего к зрителю, выполняя следующие действия:

1) Если ир больше нуля (то есть пиксел принадлежит неизвестной области хотя бы частично), сравним степень неопределенности соседа слева ир и соседа справа иг с ир. Выберем из этой тройки пиксел с наименьшей неопределенностью и будем использовать значение его прозрачности и неопределенности в дальнейших расчетах.

2) Если ир > 0 и ир < 0.98, обновим прозрачность этого пиксела ар := ар/(1 — ир) и установим неопределенность пиксела равной нулю.

3) Если даже после выполнения шагов 1-2 неопределенность пиксела больше нуля, начнем последовательно рассматривать пикселы слева (справа для правого ракурса) от пиксела р до тех пор, пока не достигнем полностью определенного пиксела. Заменим цвет и прозрачность текущего пиксела на цвет и прозрачность найденного пиксела. Пример обхода изображения при выполнении данного шага приведен на рисунке 4г.

4) Выполним наложение согласно формуле (6).

IV. Результаты

Предложенный алгоритм был сравнен с двумя существующими подходами к решению задачи построения стереоскопических ракурсов:

0

0

а

а

Метод переноса размытия

Предложенный метод

Двухслойное матирование

Метод переноса размытия

Предложенный метод

Рис. 6. Примеры результатов работы предложенного метода и двух альтернативных подходов. При рассмотрении рисунков особое внимание следует обратить на (сверху вниз): левый край ножки бокала, контур волос, контур лица справа, границы каната. Можно заметить, что метод переноса размытия вызывает «прилипание» фрагментов фона к объекту или растяжение крайних пикселов объекта. В свою очередь, метод двухслойного матирования создает искажения в областях наложения трех и более объектов, расположенных на разном расстоянии от зрителя. Предложенный метод лишен упомянутых недостатков.

1) Метод переноса размытых границ (в сравнении была использована реализация, аналогичная алгоритму, описанному в [16])

2) Метод воссоздания размытых границ путем двухслойного матирования (в сравнении была использована реализация, аналогичная алгоритму, описанному в [13])

Результаты, полученные с использованием данных методов, изображены на рисунке 6. Заметим, что метод переноса размытых границ зачастую приводит к «прилипанию» фона к краю объекта. В свою очередь использование метода воссоздания размытия путем двухслойного матирования создает искажения вблизи областей близкого пролегания или пересечения границ трех и более объектов с различной глубиной, так как сегментация на два слоя не может быть корректно выполнена в таких областях. На изображениях, полученных с помощью предложенных методов, упомянутые выше недостатки отсутствуют, более того, алгоритм корректно обрабатывает области, изображающие густые волосы, сохраняя отдельные пряди.

V Заключение

В статье был рассмотрен алгоритм построения стереоскопических изображений с использованием исходного изображения и его карты глубины. Ключевой особенностью алгоритма является корректная обработка пикселов, являющихся смесью цвета нескольких объектов, расположенных на различном расстоянии от зрителя. В отличие от методов разделения изображения на два слоя (передний план и фон), которое в ряде случаев не может быть выполнено корректно, предложенный метод способен разделить изображение на произвольное количество слоев. Преимущества предложенного подхода перед аналогами были проиллюстрированы в разделе IV.

Отметим два наиболее перспективных направления дальнейшей работы по улучшению метода: замена простейшего алгоритма заполнения областей открытия, выполняющего дублирование крайнего пиксела, на алгоритм, аналогичный [7]; оптимизация алгоритма с целью уменьшения его вычислительной сложности и объема требуемой памяти.

Список литературы

[1] Real 3D or Fake 3D. — http://realorfake3d.com/. — Дата обращения: 2016-05-23.

[2] Ватолин Д. С., Боков А. А., Федоров А. А. Тенденции изменения технического качества стереокино - 5 лет после «Аватара» // Мир техники кино. — 2015. — Т. 37, № 3. — С. 17-28.

[3] Lie W. N., Chen C. Y., Chen W. C. 2d to 3d video conversion with key-frame depth propagation and trilateral filtering // Electronics Letters. — 2011. — March. — Vol. 47, no. 5. — P. 319-321.

[4] Tolstaya Ekaterina, Pohl Petr, Rychagov Michael. Depth propagation for semi-automatic 2d to 3d conversion // IS&T/SPIE Electronic Imaging / International Society for Optics and Photonics. — 2015. — P. 939303-939303.

[5] Akimov Dmitry, Vatolin Dmitry, Smirnov Maxim. Single-image depth map estimation using blur information // Proceedings of the 21st International Conference on Computer Graphics and Vision Graph-iCon'2011. — GraphiCon. — Moscow, Russia, 2011. — P. 12-15.

[6] Eigen David, Puhrsch Christian, Fergus Rob. Depth map prediction from a single image using a multi-scale deep network // Advances in neural information processing systems. — 2014. — P. 2366-2374.

[7] Зачесов А. А., Ерофеев М. В., Ватолин Д. С. Использование карт глубины при восстановлении фона в видеопоследовательностях // Новые информационные технологии в автоматизированных системах: материалы научно-практического семинара. — М.: МИЭМ НИУ ВШЭ, 2015.

[8] Video inpainting of complex scenes / Alasdair Newson, Andrés Almansa, Matthieu Fradet et al. // SIAM Journal on Imaging Sciences. — 2014. — Vol. 7, no. 4. — P. 1993-2019.

[9] Furnace. — https://www.thefoundry.co.uk/products/plugins/ furnace/. — Дата обращения: 2016-05-23.

[10] Ahn Yangkeun, Hong Jiman. Application of dibr algorithm in realtime image // Proceedings of the 2012 ACM Research in Applied Computation Symposium / ACM. — 2012. — P. 169-171.

[11] High-quality video view interpolation using a layered representation / C Lawrence Zitnick, Sing Bing Kang, Matthew Uyttendaele et al. // ACM Transactions on Graphics (TOG) / ACM. — Vol. 23. — 2004. — P. 600-608.

[12] A bayesian approach to digital matting / Yung-Yu Chuang, Brian Cur-less, David H. Salesin, Richard Szeliski // Computer Vision Pattern Recognition (CVPR). — Vol. 2. — 2001. — P. II-264-II-271.

[13] Kodera Naoki, Fukushima Norishige, Ishibashi Yutaka. Filter based alpha matting for depth image based rendering // Visual Communications and Image Processing (VCIP), 2013 / IEEE. — 2013. — P. 1-6.

[14] He Kaiming, Sun Jian, Tang Xiaoou. Guided image filtering // Computer Vision-ECCV 2010. — Springer, 2010. — P. 1-14.

[15] Lie Wen-Nung, Yeh Chun-Cheng, Lin Guo-Shiang. Improving dibr technique to resolve foreground color/depth edge misalignment // Multimedia & Expo Workshops (ICMEW), 2015 IEEE International Conference on / IEEE. — 2015. — P. 1-5.

[16] Comparison between blur transfer and blur re-generation in depth image based rendering / Norishige Fukushima, Naoki Kodera, Yu-taka Ishibashi, Masahiro Tanimoto // 3DTV-Conference: The True Vision-Capture, Transmission and Display of3D Video (3DTV-CON), 2014 / IEEE. — 2014. — P. 1-4.

[17] Layered depth images / Jonathan Shade, Steven Gortler, Li-wei He, Richard Szeliski // Proceedings of the 25th annual conference on Computer graphics and interactive techniques / ACM. — 1998. — P. 231-242.

[18] Kodera Naoki, Fukushima Norishige, Ishibashi Yutaka. Filter based alpha matting for depth image based rendering // Visual Communications and Image Processing (VCIP), 2013 / IEEE. — 2013. — P. 1-6.

[19] Zheng Yuanjie, Kambhamettu C. Learning based digital matting // International Conference on Computer Vision (ICCV). — 2009. — P. 889-896.

[20] Levin Anat, Lischinski Dani, Weiss Yair. A closed-form solution to natural image matting // IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). — 2008. — Vol. 30, no. 2. — P. 228-242.

Multilayer solution to semitransparent edge processing problem in stereoscopic imagery

generation

Mikhail Erofeev, Dmitriy Vatolin

Abstract—Due to wide usage of 2D to 3D conversion in movie production industry, the problem of stereoscopic view synthesis has extremely high importance. One of stereoscopic view synthesis main challenges is processing of semitransparent edges near depth map discontinuities. The existing approaches either can deal only with simple cases when background behind the object does not change significantly or try to segment input image in two layers (that is impossible in some cases). The proposed method does not have the above mentioned limits and outperforms competitors in the comparison of synthesized views' visual quality.

Keywords—depth map, matting, view generation

i Надоели баннеры? Вы всегда можете отключить рекламу.