УДК 004.923,004.932.2
Д. С. Ватолин1, С. В. Лаврушкин2
ИССЛЕДОВАНИЕ И ПРЕДСКАЗАНИЕ ЗАМЕТНОСТИ ПЕРЕПУТАННЫХ РАКУРСОВ В СТЕРЕОВИДЕО*
Работа посвящена исследованию и предсказанию степени визуального дискомфорта, вызываемого просмотром сцен стереофильма с перепутанными ракурсами. Сцена с перепутанным порядком ракурсов — сцена, в которой на месте левого ракурса находится правый и наоборот. С помощью метода поиска перепутанных ракурсов было проанализировано 105 фильмов в формате 3D, и на базе найденных в ходе анализа сцен было проведено экспериментальное исследование визуального дискомфорта при просмотре сцен с перепутанными ракурсами. По результатам эксперимента была построена выборка с эталонной разметкой. На полученной выборке были обучены различные алгоритмы регрессионного анализа, выбран лучший метод для задачи предсказания визуального дискомфорта при просмотре сцен с перепутанными ракурсами.
Ключевые слова: стереовидео, перепутанные ракурсы, заметность перепутанных ракурсов, регрессионный анализ.
1. Введение. Каждый год выпускается большое число фильмов в 3D. Только за 2013-2014 гг. в прокат вышли более 100 стереофильмов со средним бюджетом 130 млн долл. Несмотря на это, интерес зрителей к фильмам в 3D переживает спад. Довольно часто после просмотра стереофильмов у некоторых людей возникают головные боли, усталость, дискомфорт, из-за чего у них пропадает желание просмотра новых фильмов в 3D. Это связано с целым рядом проблем стереокинемато-графа, среди которых немаловажную роль играет качество производимого контента. Существуют различные артефакты стереовидео, способные вызвать дискомфорт у зрителей при просмотре. Перепутанный порядок ракурсов — один из таких артефактов, причем дискомфорт, вызываемый просмотром сцен с перепутанными ракурсами, достаточно велик, а исправление проблемы (если она вовремя замечена) весьма простое. Несмотря на это, данная проблема была выявлена в 23 из 105 проверенных нами фильмов.
При правильном порядке ракурсов точки объектов, находящихся перед плоскостью экрана, в левом ракурсе изображены правее соответствующих точек в правом ракурсе, а точки объектов, находящихся за плоскостью экрана, — наоборот. Сдвиг между соответствующими точками называется диспаратностью. Таким образом, объекты, находящиеся перед плоскостью экрана, имеют отрицательную диспаратность, а объекты, находящиеся за плоскостью экрана, — положительную диспаратность. Именно диспаратность в значительной мере определяет воспринимаемое человеком расстояние до объекта, или глубину. Если ракурсы поменять местами, то положительная диспаратность станет отрицательной, т. е. ближние точки пространства перейдут в дальние и наоборот.
Данный тип артефакта достаточно тяжело распознать простому зрителю. При просмотре сцены с перепутанными ракурсами наблюдается изображение, невозможное в реальности. Из-за инвертирования диспаратности рельеф "выворачивается наизнанку" — выпуклые объекты кажутся вогнутыми, и наоборот. Просмотр сцены с перепутанными ракурсами неподготовленным зрителем негативно влияет на самочувствие, вызывает определенный дискомфорт, вплоть до головных болей. Поэтому появление данного артефакта в фильме крайне нежелательно.
В [1] был предложен алгоритм поиска сцен, предположительно содержащих перепутанные ракурсы. Однако авторы не изучили зависимость степени визуального дискомфорта от характеристик сцены с перепутанными ракурсами. Тем не менее, как показал проведенный в рамках данной работы эксперимент, степень визуального дискомфорта может сильно различаться в зависимости от особенностей сцены. Целью статьи является усовершенствование этого алгоритма за счет
1 Факультет ВМК МГУ, ст. науч. сотр., к.ф.-м.н., e-mail: dmitriyQgraphics.cs.msu.ru
2 Факультет ВМК МГУ, студ., e-mail: slavrushkinQgraphics.cs.msu.ru
* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 15-01-08632-а.
добавления автоматической оценки дискомфорта, вызываемого просмотром сцен с перепутанными ракурсами. Работа посвящена созданию базы сцен с перепутанными ракурсами, содержащей эталонную разметку степени вызываемого ими дискомфорта при просмотре, и построению автоматического метода предсказания степени визуального дискомфорта.
2. Обзор предметной области. В области стереоскопического зрения большое число работ посвящено изучению дискомфорта, вызываемого просмотром •!Г) фильмов. Одним из определяющих факторов вызываемого дискомфорта является чрезмерная диспаратность. Чрезмерная дис-паратность приводит к конфликту аккомодации и конвергенции, который увеличивает нагрузку на зрительную систему человека. Поэтому существенная часть методов по измерению дискомфорта от просмотра стереофильмов основана на статистических характеристиках диспаратности [2-4]: среднем значении, дисперсии, максимальном значении и общем диапазоне.
В работе [2] для оценки визуального дискомфорта кадра вычисляется среднее значение диспаратности и ее дисперсия по всему изображению. В [3] анализируется среднее значение диспаратности и диапазон карты диспаратности по всему кадру. Диапазон карты диспаратности вычисляется как разница между 95 и 5 процентилями гистограммы значений диспаратности. В [4] измеряются максимальное значение диспаратности и диапазон карты диспаратности. Максимальная диспаратность вычисляется как сумма 8% наибольших значений диспаратности (8 — эвристический параметр алгоритма). При этом авторы работы [4] используют взвешенную карту диспаратности, учитывающую текстурированность изображения: значения карты диспаратности умножаются на значения модуля градиента изображения, вычисляемого с помощью оператора Собеля.
В [5] наряду со стандартными характеристиками диспаратности рассматриваются две дополнительные: относительная диспаратность (среднее значение разности диспаратностей находящихся рядом объектов) и толщина объектов (отношение средней ширины объекта к среднему значению абсолютной величины диспаратности объекта). Для вычисления данных признаков сперва проводится сегментация изображения по диспаратности. Затем для каждого объекта в разбиении вычисляются данные признаки и выбирается максимум для первого признака и минимум для второго. В [5] было экспериментально установлено, что комбинированное применение представленных признаков и признаков, используемых в работах [2-4], значительно увеличивает точность предсказаний дискомфорта, которые основаны на статистических характеристиках диспаратности. В эксперименте использовался тестовый набор, состоящий из 120 стереоскопических изображений. Тестовый набор был показан 20 респондентам, которые оценивали дискомфорт каждого изображения по шкале от 1 до 5, где 1 означало, что просмотр изображения вызывает сильный дискомфорт, а 5 — просмотр изображения не вызывает никакого дискомфорта. Для предсказания дискомфорта авторы использовали дерево принятия решений [6].
В работе [7] предлагается учитывать визуальную модель внимания человека для оценки дискомфорта при просмотре стереовидео. Для этого используется карта салиентности [8], и статистические характеристики диспаратности вычисляются с ее учетом. В [7] проводится эксперимент по оценке дискомфорта, аналогичный эксперименту из [5]. Для предсказания дискомфорта используется метод опорных векторов [9].
Помимо чрезмерной диспаратности, серьезный дискомфорт при просмотре стереофильмов могут вызвать различные артефакты стереовидео. К таким артефактам относятся: расхождение между ракурсами по цвету, геометрические искажения (сдвиг, поворот, различие масштаба объектов в ракурсах и т.п.), расхождение во времени, расхождение по резкости, а также перепутанные ракурсы в сцене [1, 10-13]. Даже если распределение диспаратности в кадре соответствует определенным нормам, наличие данных артефактов может вызывать значительный дискомфорт при просмотре, вплоть до головных болей. Авторам не известна ни одна работа, посвященная исследованию и предсказанию степени дискомфорта, вызываемого просмотром сцен с перепутанными ракурсами.
3. Исследование степени дискомфорта, вызываемого просмотром сцен с перепутанными ракурсами. С помощью метода поиска перепутанных ракурсов, описанного в работе [1], было проанализировано 105 различных стереофильмов, в 23 из которых было обнаружено 65 сцен с перепутанными ракурсами общей длительностью 189 секунд. Для исследования степени визуального дискомфорта, вызываемого просмотром стереовидео с перепутанными ракурсами (далее — заметность перепутанных ракурсов), был проведен следующий эксперимент.
Испытуемым предлагалось просмотреть видеопоследовательность, включавшую в себя сцены с перепутанными ракурсами, и для каждой такой сцены оценить значение заметности артефакта от 1 до 5, где 1 означало, что артефакт не заметен и просмотр сцены не вызывает дискомфорта, а 5 означало, что просмотр сцены вызывает сильный дискомфорт. Последовательность была составлена из 56 сцен, обнаруженных при анализе 105 фильмов (часть сцен была исключена из выборки в силу большого сходства). Кроме того, последовательность включала в себя сцены, предшествующие и следующие за сценой с перепутанными ракурсами, чтобы испытуемые видели сцены с правильным порядком ракурсов наряду со сценами с неправильным порядком ракурсов, как в реальных фильмах. Каждая сцена с перепутанными ракурсами и соседние сцены показывались по три раза, после чего респондентам отводилось время для отдыха и указания заметности артефакта в анкете.
Для контроля объективности ответов испытуемых в последовательность были добавлены сцены без перепутанных ракурсов, а также последовательность показывалась как в прямом, так и в обратном порядке, так как значение заметности перепутанных ракурсов, проставленное в анкету испытуемым, могло зависеть от заметности предыдущей просмотренной сцены. Всего в эксперименте приняли участие 59 человек. Ответы 10 человек, сильно отличавшиеся от среднего других ответов, а также имевшие большие значения на контрольных сценах, были исключены из рассмотрения. Результаты эксперимента приведены на рис. 1.
Из этих данных следует, что встречаются как сцены, в которых перепутанные ракурсы совсем незаметны, неотличимые от сцен без перепутанных ракурсов, так и сцены, вызывающие серьезный дискомфорт при просмотре. В большинстве случаев перепутанность ракурсов была менее заметна в темных сценах, либо в сценах с малым диапазоном значений диспаратности, либо в коротких сценах. При этом в ходе эксперимента удалось установить, что просмотр сцен с перепутанными ракурсами может серьезно ухудшить самочувствие зрителя. Так, после просмотра экспериментальной видеопоследовательности большое число испытуемых жаловалось на усталость, сонливость, а некоторые даже отмечали присутствие головной боли.
Рис. 1. Субъективная оценка заметности перепутанных ракурсов в сценах (звездочкой отмечены контрольные сцены)
4. Предсказание заметности перепутанных ракурсов. Так как количественная оценка визуального дискомфорта, вызываемого просмотром новых сцен с перепутанными ракурсами, посредством проведения аналогичных субъективных исследований требует значительных человеческих ресурсов, был предложен автоматический метод, использующий методы машинного обучения, а именно регрессионного анализа [14]. В нашем случае требуется научиться предсказывать значение заметности перепутанных ракурсов в сцене. Таким образом, в качестве критериальной (предсказываемой) переменной выступает заметность перепутанных ракурсов — вещественное чи-
ело, изменяющееся от 1 до 5. В качестве предикторов (признаков) были использованы следующие характеристики сцены:
1) дисперсия значений диспаратности;
2) средняя яркость;
3) средняя интенсивность движения;
4) длительность сцены;
5) вектор признаков, вычисляемый методом поиска перепутанных ракурсов, предложенным в работе [1]. Данный вектор включает в себя пять признаков — результатов работы компонентов метода поиска перепутанных ракурсов, анализирующих: перспективу; "выпадающие" объекты (объекты с меньшей глубиной, окруженные объектами с большей глубиной); распределение диспаратности; области открытия (области, видимые в одном ракурсе и невидимые в другом) в стереопаре; области открытия/закрытия по движению.
Для вычисления карт диспаратности и карт векторов движения при расчете признаков 1 и 3 используется алгоритм блочного сопоставления кадров [15]. Данный алгоритм для каждого блока в одном изображении находит соответствующий ему блок в другом изображении с четвертьпик-сельной точностью. Найденные смещения блоков используются в качестве значений диспаратности при сопоставлении ракурсов, векторов движения при оценке движения и формируют соответствующие карты.
В результате проведенного эксперимента была сформирована выборка, состоящая из 56 примеров (6 контрольных сцен, использованных в эксперименте, не учитывались), каждый из которых включает в себя 10 признаков и значение заметности перепутанных ракурсов. Таким образом, требуется выбрать метод регрессии, который наиболее точно предсказывал бы заметность перепутанных ракурсов в новых сценах при обучении на данных 56 примерах. Для оценки качества и сравнения различных регрессионных моделей используется кросс-валидация по отдельным объектам. В качестве ошибки рассматривается среднеквадратическая ошибка.
4.1. Линейная регрессия. Простейший метод параметрической регрессии — линейная регрессия [2, 16]. Были опробованы стандартная линейная регрессия (по исходным 10 признакам), линейная регрессия с произведением предикторов, где в качестве дополнительных признаков были использованы произведения исходных признаков (по 55 признакам), и регрессия с квадратичной функцией, где в качестве дополнительных признаков были использованы квадраты исходных признаков (по 20 признакам). Оценка работы соответствующих алгоритмов на задаче предсказания заметности представлена в табл. 1.
Таблица 1
Оценка точности предсказаний заметности методами линейной регрессии
Алгоритм Ошибка на тренировочной выборке Кросс-вал идационная ошибка
Линейная регрессия 0.3407 0.5691
Линейная регрессия с произведением предикторов 0 5572.3430
Линейная регрессия с квадратичной функцией 0.2764 4.4392
Из табл. 1 видно, что при использовании более сложных моделей в линейной регрессии возникает сильное переобучение. В случае использования линейной регрессии с произведением предикторов, число фактических переменных приблизилось к числу примеров в выборке, поэтому на тренировочной выборке исходные данные приближаются идеально, а на кросс-валидации при предсказании возникают огромные выбросы за диапазон критериальной переменной.
Для компенсации переобучения были опробованы Ь\-регуляризация [17] и Ь2-регуляриза-ция [18]. Коэффициенты регуляризации были подобраны путем минимизации кросс-валидационной ошибки. Оценка работы соответствующих алгоритмов на задаче предсказания заметности представлена в табл. 2.
Таблица 2
Оценка точности предсказаний заметности перепутанных ракурсов методами линейной регрессии с использованием регуляризации
Алгоритм Ошибка на тренировочной выборке Кросс-валидационная ошибка Параметр регуляризации
Ьг-регуляризация для линейной функции 0.3880 0.5219 0.7300074
Ьх-регуляризация для линейной функции 0.3534 0.5083 0.04803
Ьг-регуляризация для квадратичной функции 0.3460 0.5290 0.8792964
Ьх-регуляризация для квадратичной функции 0.4170 0.5676 0.1609762
Таким образом, использование регуляризации помогло в борьбе с переобучением и уменьшило кросс-валидационную ошибку. При этом переобучение возникало даже при использовании линейной регрессии на исходных 10 признаках.
4.2. Регрессия по /,-ближайшим соседям. Простейший метод непараметрической регрессии — регрессия по ^-ближайшим соседям [2] — применительно к рассматриваемой задаче показал результат хуже простой линейной регрессии. Лучший результат при использовании регрессии по ^-ближайшим соседям был получен с параметром к = 14. Ошибка на тренировочной выборке при этом составила 0.5010, а кросс-валидационная ошибка — 0.5805. С увеличением размерности пространства признаков точность регрессии по ^-ближайшим соседям, как правило, падает. В рассматриваемой задаче для предсказания заметности перепутанных ракурсов количество признаков равно 10, так что, предположительно, имеет место проблема большой размерности пространства элементов выборки.
4.3. Деревья принятия решений. Для предсказания заметности перепутанных ракурсов в сценах были применены также и различные регрессионные алгоритмы, использующие деревья принятия решений [2, 19]. Первоначально была проведена попытка обучить единственное регрессионное дерево. Для построения регрессионного дерева был использован "жадный" алгоритм рекурсивного бинарного разбиения [2]. Разбиение узла дерева производилось в том случае, если данный узел содержал 10 или больше примеров из выборки. Построенное дерево обладало 27 вершинами. Ошибка на тренировочной выборке была равна 0.0897, а кросс-валидационная ошибка — 0.8411. Была получена переобученная модель.
Для борьбы с переобучением была проведена обрезка обученного регрессионного дерева — выбрано поддерево, дающее наименьшую кросс-валидационную ошибку. Результирующее регрессионное дерево имело всего 3 листовые вершины. Ошибка на тренировочной выборке была равна 0.3190, а кросс-валидационная ошибка — 0.6694.
Таким образом, на задаче предсказания заметности перепутанных ракурсов точность работы метода, основанного на использовании регрессионного дерева, оказалась хуже, чем точность работы регрессии по ^-ближайшим соседям. Однако регрессионные деревья показывают хорошие результаты при их использовании в комитетных методах регрессионного анализа, в которых обучается набор моделей, используемых для решения одной и той же задачи. Одним из алгоритмов, реализующих такие методы, является алгоритм "Случайный Лес" [20]. Пусть р — число случайных признаков, по которым проводится разбиение в деревьях, а п — количество признаков. Алгоритм был применен со следующими значениями р: р = п (в этом случае алгоритм сводится к бэггин-гу [21]), р = п/2 и р = угп. Соответствующий график представлен на рис. 2. При р = у/п и числе деревьев, равном 38, был получен следующий результат: ошибка на тренировочной выборке была равна 0.1975, а кросс-валидационная ошибка — 0.4429.
Для предсказания заметности перепутанных ракурсов также был применен еще один комитет-ный метод регрессионного анализа — градиентный бустинг на регрессионных деревьях [2]. Данный
Число деревьев
Рис. 2. Оценка точности предсказаний заметности перепутанных ракурсов методом "Случайный Лее;11
метод был применен с параметром регуляризации, равным 0.1; максимальным числом разбиений в дереве в:. 1, 2, 3; и с числом деревьев в модели, меняющимся от 1 до 100. График зависимости кросс-валидационной ошибки от числа деревьев в модели продемонстрирован на рис. 3. Наилучший результат был достигнут при числе деревьев, равном 48, и числе разбиений в дереве, равном 1. Ошибка на тренировочной выборке была равна 0.1752, а кросс-валидационная ошибка 0.4311.
0.725
0.375,
10 20 30 40 50 60
Число деревьев
70
80
90
100
Рис. 3. Оценка точности предсказаний заметности перепутанных ракурсов методом градиентного бустинга
регрессионных деревьев
5. Заключение. С помощью метода поиска перепутанных ракурсов из работы [1] был проведен анализ 105 стереофильмов на наличие сцен с перепутанными ракурсами. На найденных сценах проведено экспериментальное исследование заметности перепутанных ракурсов, сформирована выборка для обучения методов регрессионного анализа. Был использован ряд регрессионных алгоритмов для предсказания заметности перепутанных ракурсов в сценах. Наилучшие результаты были получены при использовании бустинга на регрессионных деревьях. При этом среднее откло-
нение от истинных значений заметности при кросс-валидации было равно 0.5088, тогда как среднеквадратичное отклонение было равно 0.4311. Таким образом, данные предсказания позволяют количественно оценить степень визуального дискомфорта, вызываемого просмотром сцен с перепутанными ракурсами, и отличать сцены, в которых артефакт не заметен, от сцен, вызывающих умеренный и сильный дискомфорт при просмотре.
СПИСОК ЛИТЕРАТУРЫ
1. Людвиченко В. А., Лаврушкин С.В., Янушковский В. А., Ватолин Д.С. Обнаружение временного сдвига между ракурсами и перепутанного порядка ракурсов в стереофильмах //VI Международная научно-технической конференция "Запись и воспроизведение объёмных изображений в кинематографе и других отраслях". М.: ООО "ИПП КУНА", 2014.
2. Choi J., Kim D., Ham В., Choi S., Sohn K. Visual fatigue evaluation and enhancement for 2D-plus-depth video // IEEE International Conference on Image Processing (ICIP). IEEE, 2010. P. 2981-2984.
3. Lambooij M., Ijsselsteijn W. A., Heynderickx I. Visual discomfort of 3D TV: Assessment methods and modeling // Displays. 2011. 32. N 4. P. 209-218.
4. Kim D., Sohn K. Visual fatigue prediction for stereoscopic image // IEEE Transactions on Circuits and Systems for Video Technology. 2011. 21. N 2. P. 231-236.
5. Sohn H., Jung Y. J., Lee S.I., RoY. M. Predicting visual discomfort using object size and disparity information in stereoscopic images // IEEE Transactions on Broadcasting. 2013. 59. N 1. P. 28-37.
6. Quinlan J. R. Learning with continuous classes // 5th Australian Joint Conference on Artificial Intelligence. Vol. 92. Singapore: World Scientific, 1992. P. 343-348.
7. Jung Y. J., Sohn H., Lee S.I., Park H.W., Ro Y. M. Predicting visual discomfort of stereoscopic images using human attention model // IEEE Transactions on Circuits and Systems for Video Technology. 2013. 23. N 12. P. 2077-2082.
8. Yang C., Zhang L., Lu H., Ruan X., Yang M. H. Saliency detection via graph-based manifold ranking // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2013. P. 31663173.
9. Chang С. C., Lin C.J. LIBSVM: A Library for Support Vector Machines. 2001. URL: http://www.csie.ntu.edu.tw/~cjlin/libsvm
10. Ватолин Д.С., Воронов А. А., Нападовский В.В., Борисов А.В. Исследование артефактов в стереокино и примеры анализа кинокартин // Запись и воспроизведение объемных изображений в кинематографе и других областях: IV Международная научно-техническая конференция. М.: Изд-во МКБК, 2013. С. 190-203.
11. Voronov A., Vatolin D., Sumin D., Napadovsky V., Borisov A. Methodology for stereoscopic motion-picture quality assessment // Stereoscopic Displays and Applications XXIV. Proc. SPIE. Vol. 8648. Bellingham: SPIE, 2013. P. 864810-1-864810-14.
12. Woods A. J., Docherty Т., Koch R. Image distortions in stereoscopic video systems//IS&T/SPIE's Symposium on Electronic Imaging: Science and Technology. International Society for Optics and Photonics. Proc. SPIE. Bellingham: SPIE, 1993. P. 36-48.
13. Kooi F. L., Toet A. Visual comfort of binocular and 3D displays // Displays. 2004. 25. N 2. P. 99-108.
14. HastieT., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. N.Y.: Springer Science+Business Media, LLC, 2013.
15. Simonyan K., GrishinS., Vatolin D., Popov D. Fast video super-resolution via classification// IEEE International Conference on Image Processing (ICIP). IEEE, 2008. P. 349-352.
16. Kutner M. H. Applied linear statistical models. Vol. 4. Chicago: Irwin, 1996.
17. Tibshirani R. Regression shrinkage and selection via the lasso // J. R. Statist. Soc. Ser. B. 1996. 58. N 1. P. 267-288.
18. Hoerl A.E., Kennard R. W. Ridge regression: biased estimation for nonorthogonal problems // Tech-nometrics. 1970. 12. N 1. P. 55-67.
19. Breiman L., Friedman J., OlshenR., Stone C. Classification and Regression Trees. Boca Raton, FL: CRC Press, 1984.
20. Breiman L. Random forests // Machine Learning. 2001. 45. P. 5-32.
21. Breiman L. Bagging predictors // Machine Learning. 1996. 26. P. 123-140.
Поступила в редакцию 11.02.16
STUDY AND PREDICTION OF CHANNEL MISMATCH PERCEPTIBILITY IN STEREO VIDEO
Vatolin D.S., Lavrushkin S. V.
This paper is devoted to study and prediction of visual discomfort degree, which is caused by viewing stereoscopic scenes with a channel mismatch. Scene with a channel mismatch is a scene, in which the left and right views are swapped. An analysis for presence of scenes with channel mismatch in 105 3D movies was implemented using channel mismatch detection method and an experimental study of channel mismatch perceptibility was performed with detected scenes. A channel mismatch perceptibility data set was built upon experimental results. Various regression algorithms were trained on the obtained data set and the best method for channel mismatch perceptibility prediction was chosen.
Keywords: stereo video, channel mismatch, channel mismatch perceptibility, regression analysis.