Тональная компрессия изображений широкого динамического диапазона, _использующая бинокулярное зрение человека
Тональная компрессия изображений широкого динамического диапазона, использующая бинокулярное зрение человека
Новоторцев JI.B.
Институт прикладной математики им. М.В. Келдыша РАН [email protected]
Игнатенко A.B.
Факультет вычислительной математики и кибернетики МГУ им. Ломоносова
Ignatenko @ graphics, es. msu. ru
Аннотация. В связи с большой популярностью стереофильмов сейчас активно развиваются различные стерео технологии, в частности, стереоэкраны. Как следствие, цена на них падает, а доступность возрастает. Вместе с ростом доступности стереоэкранов растёт востребованность алгоритмов, связанных со стерео технологиями. Одним из примеров таких алгоритмов является тональная компрессия, использующая стереопары для отображения изображений узкого диапазона. Данная статья посвящена разработке и исследованию такого алгоритма.
Ключевые слова: тональная компрессия, изображения широкого динамического диапазона, стерео, бинокулярное зрение.
1 Введение
Изображения широкого диапазона (ИТ!УД) - общее название для изображений, диапазон яркости которых превышает 256 значений (8 бит) на канал цвета. Здесь и далее под термином «диапазон» мы будем подразумевать динамический диапазон.
Широко используемые цифровые технологии исторически основаны на 8-битных целочисленных форматах представления и обработки данных, что даёт весьма узкий диапазон. Для сравнения, распространённые стандарты JPEG и MPEG позволяют представить диапазон 1000:1. Однако реальные сцены часто имеют диапазон яркости в 1000000:1 и выше. Использование ИТТТД позволяет работать с полным диапазоном яркости сцены, устраняя исторические ограничения [Reinhard et al., 2005].
Технологии обработки изображений высокого динамического диапазона имеют множество практических применений: получение изображений и видео натуральных высококонтрастных сцен, создание узкого диапазона на основе ИТТТД, а также достижение различных художественных эффектов.
Из множества алгоритмов обработки ИТТТД стоит выделить алгоритмы тональной компрессии. Тональная компрессия - метод отображения набора цветов широкого диапазона в набор цветов узкого диапазона с целью приблизить внешний вид исходной ИТТТД- Этот метод используется в обработке изображений и в компьютерной графике. Цели тональной компрессии в разных приложениях могут быть разными. Иногда достаточно просто сгенерировать изображение, которое эстетически удовлетворяло бы того, кто его смотрит. В других случаях важным является воспроизвести как можно больше деталей исходного изображения. В задачах реалистичной визуализации основной целью является получить изображение (узкого диапазона), которое бы воспринималось человеком, как реальная сцена[Яе1пЬагс! еХ а!., 2005].
Естественно, достигнуть абсолютной достоверности на изображениях, имеющих очень высокий разброс яркости, невозможно. Всегда будет теряться некоторое количество информации из-за узкого диапазона яркости дисплеев. Использование дисплеев, передающих изображения широкого динамического диапазона, является труднореализуемой идеей, так как они слишком дорогие и мало распространены. Значит, остаётся сыграть на особенностях человеческого зрения, чтобы уменьшить потерю деталей.
На данный момент существует множество алгоритмов тональной компрессии. Их можно разделить на две большие группы: глобальные и локальные. Глобальные алгоритмы основываются на принципе глобального контраста: к каждому пикселю применяется одно и то же отображение из широкого диапазона в узкий диапазон. Это отображение построено на основе характеристик всего изображения. Такие алгоритмы работают очень быстро, но при очень широких диапазонах порядка 105 и выше они дают недостаточно хороший результат: теряется часть деталей из-за сильного сжатия диапазона. Локальные алгоритмы тональной компрессии используют принцип локального контраста. Для построения отображения помимо глобальных характеристик изображения используют характеристики окрестности точки, для которой строится отображение. Как следствие, такие алгоритмы дают лучший результат, но работают достаточно долго, так как необходимо заново строить отображение для каждой точки изображения.
Для улучшения результата можно использовать другую особенность человеческого зрения - бинокулярное зрение. Бинокулярное зрение -способность одновременно чётко видеть изображение предмета обоими глазами. То есть это зрение двумя глазами с подсознательным соединением в зрительном анализаторе (коре головного мозга) изображений, полученных каждым глазом, в единый образ.
Бинокулярное зрение даёт следующие преимущества: 9) Дублирование функции зрения
Тональная компрессия изображений широкого динамического диапазона, _использующая бинокулярное зрение человека
10) Большее поле зрения
11) Стереоскопическое зрение
12) Возможность видеть больше деталей, чем каждым глазом по отдельности.
Четвёртая особенность позволяет использовать бинокулярное зрение для расширения количества видимых деталей, передавая немного отличающиеся изображения на разные глаза. При этом динамический диапазон самих изображений не увеличивается. Взяв эту идею за основу и, используя уже существующие алгоритмы тональной компрессии, можно разработать новый алгоритм, который будет давать более хорошие результаты.
2 Обзор алгоритма
2.1 Входные и выходные данные
Входными данными алгоритма служит изображение широкого динамического диапазона и параметры монитора: плотность пикселей (РР1), ориентировочное расстояние до наблюдателя.
Выходными данными алгоритма является готовая стереопара из изображений узкого диапазона. Алгоритм должен отработать за достаточно малое количество времени (не более нескольких секунд), иначе его применение для обработки видео не будет целесообразным.
2.2 Основная идея алгоритма
Основная идея рассматриваемого алгоритма заключается в использовании бинокулярного зрения человека для расширения диапазона, воспринимаемого этим человеком. В описываемом методе будет генерироваться не одно, а два изображения, которые потом будут подаваться как стереопара. То есть одно из них будет подаваться на левый глаз, другое - на правый глаз. В результате, за счёт бинокулярного зрения будет формироваться единое представление, являющееся объединением представленных образов.
Мозг человека объединяет изображения, поданные на разные глаза. Поэтому логично пытаться генерировать изображения, достаточно сильно отличающиеся по чёткости различных деталей. Одно - тёмное, содержащее детали в светлых участках исходного изображения, но теряющее детали в тёмных. Другое изображение, наоборот, содержащее детали тёмных участков, но теряющее их в светлых. Однако на различие изображений накладывается ограничение. Дело в том, что слишком отличающиеся изображения могут вызывать дискомфорт у наблюдателя и даже вообще не складываться в стабильный образ.
Получается, необходимо построить такую пару изображений, чтобы они складывались в стабильный образ, не вызывающий дискомфорта у наблюдателя, но при этом как можно сильнее отличались.
Каждое из двух изображений строится при помощи одного из существующих алгоритмов (для определённости будем называть этот алгоритм «базовым») и, по сути, определяется некоторым набором входных параметров этого алгоритма (здесь и далее мы полагаем, что для построения обоих изображений используется один и тот же алгоритм тональной компрессии). Исходя из этого набора параметров, невозможно предугадать, вызовут ли изображения дискомфорт при их просмотре как стереопары или нет.
Для решения этого вопроса используется следующий метод: берётся последовательность наборов базового алгоритма, такая, что при увеличении разницы номеров наборов увеличиваются также и минимальная, средняя и максимальная яркость разницы изображений. Выбирается начальный номер последовательности и для набора параметров, соответствующему выбранному номеру, генерируется левое (для опредёленности) изображение. После этого, выбирается следующий набор параметров и для него генерируется правое изображение. Пара полученных изображений проверяется метрикой комфорта, которая определяет, можно ли использовать изображения как стереопару. Если результат положительный (пара изображений годится), то данная итерация повторяется для следующего набора параметров. Так повторяется до тех пор, пока метрика не даст отрицательный ответ. В таком случае в качестве правого изображения берётся изображение, полученное на предыдущей итерации. Данный алгоритм схематически отображён на рисунке 1.
ТК
2
ишд
1 э ТК
Рис. 1. Общая схема работы алгоритма
Примечания. ИШД - изображение широкого диапазона; ТК - базовый алгоритм тональной компрессии; ЛИ - левое изображение стереопары; ПИ - правое изображение стереопары; МК - метрика комфорта для пары изображений.
Поскольку в качестве метода построения изображения узкого диапазона используется один из существующих методов, то центральной проблемой рассматриваемого алгоритма является задание метрики комфорта двух изображений, представленных как стереопара. Эта метрика
Тональная компрессия изображений широкого динамического диапазона,
_использующая бинокулярное зрение человека
должна отбраковывать все пары изображений, которые могут вызвать дискомфорт у наблюдателя. С другой стороны, не должна быть излишне строгой, поскольку нам необходимо добиться максимально возможной разницы между изображениями. Данная метрика подробно рассматривается в разделе 3.
2.3 Оценка результатов
Для алгоритмов, основывающихся на человеческом восприятии, невозможно привести объективную оценку результатов. Поэтому в алгоритмах, таких, как рассматриваемый, используют субъективный метод оценки результатов. Респондентам будут представлены результаты, полученные рассматриваемым методом. Они должны будут оценить их по интересующим критериям. Эти критерии и процесс опроса будут описаны в разделе 4. На основе полученных оценок и делается вывод о полученных результатах.
3 Метрика комфорта
3.1 Зона слияния
Для того чтобы понять, могут ли точки на правом и левом изображении быть объединены в одну, необходимо рассматривать не только сами точки, но и некоторую окрестность этих точек. Дело в том, что точка и эта окрестность создают единое восприятие, то есть, смотря на одну точку, мы воспринимаем её вместе с её окружением. Эта окрестность называется зоной слияния. Зона слияния определяется постоянным телесным углом вокруг направления зрения.
Рассмотрим случай с монитором. Допустим, оба глаза сфокусировались на пикселе р=(1у), расстояние до монитора от глаза равно д., а плотность пикселей в мониторе составляет у пикселей на дюйм (РР1). Тогда из общих геометрических соображений получается следующее:
ту = у * й ^
Здесь в - угол, образующий зону слияния. Обычно этот угол составляет от 60 до 70 минут, гу - радиус зоны слияния. Для облегчения вычислений будем считать, что зона слияния является квадратом гу х
Поскольку наблюдатель может сфокусироваться на любом пикселе изображения, то и проверять необходимо зоны слияния всех пикселей. Далее все рассуждения будут приводиться для зоны слияния заданного пикселя.
Новые информационные технологии в автоматизированных системах 2014 3.2 Условия слияния изображений.
Для того, чтобы стереопара не вызывала дискомфорта при просмотре, необходимо, чтобы были выполнены следующие условия [Asher, 1953; Yang et al., 2012].
13) Слияние контуров. Все контуры одного изображения должны иметь соответствующие им контуры на втором изображении стереопары [Chen & Wang, 2004; Lin & Jane, 2009].
14) Контраст контуров. Помимо того, что должны совпадать сами контуры, также должно совпадать и направление перепада контраста. Если на одном изображение будет переход от белого к чёрному, а на другом - будет, наоборот, переход от чёрного к белому в этом же месте, то контуры совпадут, но изображения всё равно не объединятся в единое представление.
15) Контраст регионов. Каждая из областей слияния пикселей не должна отличаться слишком сильно по яркости и цветности от области слияния соответствующего пикселя на другом изображении.
Стоит обратить внимание, что в рассматриваемом случае первые два условия всегда выполняются, так как оба изображения для стереопары мы генерируем на основе одного и того же изображения. Контуры могут стать лишь менее заметными на одном из изображений, а направление перепада яркости измениться не может, иначе это означало бы существенное изменение внешнего вида изображения, что противоречит основной цели тональной компрессии. А вот третий параметр - контраст регионов - стоит рассмотреть подробнее. Именно он является основой метрики комфорта.
Согласно [Carter & Huertas, 2010] данное свойство определяется тем, что для каждой обрасти слияния должно выполняться следующее неравенство:
VF АУ ДЕе(1(р),ВД) < DCD (2)
Где F
— зона слияния, ту — радиус зоны слияния, а разница между левым и правым изображением в точке p. DCD - константа, равная 12.
В случае если критична скорость работы алгоритма, то можно использовать правило, что разница между значениями пикселей на двух изображениях должна быть ограничена заданным пороговым значением для каждого пикселя:
Vp => АЕс(L(р),R (р)) < DCD ^
Несложно заметить, что из этого неравенства следует неравенство (2), но накладывает гораздо более строгие ограничения на различие изображений, что может привести к уменьшению количества деталей, воспринимаемых на результирующую стереопару.
Тональная компрессия изображений широкого динамического диапазона, _использующая бинокулярное зрение человека
4 Результаты
В данном разделе приводится пример результата работы рассматриваемого алгоритма и оценка этого результата на основе опроса. Данный алгоритм был выбран потому, что он работает очень быстро и даёт вполне приемлемые результаты. На рисунке 2 приведена стереопара, полученная рассматриваемым алгоритмом с использованием в качестве базового алгоритма алгоритм тональной компрессии Дрейго [Drago, 2003].
Для оценки полученных результатов, пятнадцати респондентам предлагалось оценить изображение по комфортности при просмотре по пятибалльной системе, согласно таблице 1.
Рис. 2. Пример стереопары, полученной рассматриваемым алгоритмом
Также, респондентам предлагалось оценить изображение на наличие свойств, приведённых в таблице 2. Некоторые свойства подразумевают сравнения с левым, правым изображением стереопары и наилучшим изображением. Наилучшее изображение - это изображение, полученное с помощью базового алгоритма и выбранное большинством респондентов в качестве лучшего среди изображений, сгенерированных этим алгоритмом. При этом использовались критерии оценки, приведённые в таблице 2.
В таблице 3 приведена средняя оценка среди респондентов по этим двум опросам для результата, приведенного на рисунке 1, а также средние оценки по всей выборке изображений, полученных нашим алгоритмом.
Из данных в таблице 3 можно сделать вывод, что данный метод позволяет увеличить глубину цвета воспринимаемого изображения и в большинстве случаев увеличить контрастность. Увеличения количества деталей удалось добиться примерно в половине случаев. В большинстве случаев это связано с тем, что в этих случаях базовый алгоритм сам генерировал очень детализированное изображение. Стоит также отметить, что у респондентов все полученные стереопары при помощи рассматриваемого метода не вызывали сильного дискомфорта. Основные претензии были к изображениям, содержащим блики.
Таблица 1. Критерии проставления оценки комфорта
Критерий проставления оценки Оценка
При внимательном просмотре на изображении не были обнаружены артефакты или области, вызывающие дискомфорт 5
Были обнаружены незначительные артефакты или области, вызывающие дискомфорт при просмотре, но они не бросаются в глаза 4
Были обнаружены незначительные и бросающиеся в глаза артефакты или области, вызывающие дискомфорт 3
Были обнаружены значительные артефакты или области, вызывающие дискомфорт при просмотре 2
Большая часть изображения вызывает дискомфорт при просмотре. Смотреть невозможно 1
Таблица 2. Критерии проставления оценки при сравнении
Критерий проставления оценки Оценка
Данное свойство было замечено сразу 3
Данное свойство было замечено только после тщательного просмотра изображения 2
Данное свойство не было замечено 1
Таблица 3. Оценки результатов
Критерий Оценка для стереопары на рисунке 1 Средняя оценка по всей выборке результатов
Комфорт изображения 5,00 4,94
Увеличение количества различимых деталей по сравнению с... Правым 1,43 1,49
Левым 3 1,71
Лучшим 1,41 1,49
Увеличение чёткости/контрастности по сравнению с... Правым 3 2,06
Левым 3 2,45
Лучшим 3 2,15
Увеличение глубины цвета по сравнению с... Правым 3 3
Левым 3 3
Лучшим 3 3
Тональная компрессия изображений широкого динамического диапазона, _использующая бинокулярное зрение человека
5 Список литературы
[Asher, 1953] Asher Н. Suppression theory of binocular vision // British Journal of Ophthalmology, 1953, pp. 37^9.
[Carter & Huertas, 2010] Carter R., Huertas R. Ultra-large color difference and small subtense // Color Research & Application, 2010, Vol. 35, pp 4—17.
[Chen & Wang, 2004] Chen H., Wang S. The use of visible color difference in the quantitative evaluation of color image segmentation // ICASSP, 2004, Vol. 3, pp 593-596.
[Drago, 2003] Drago F., Myszkowski K., Annen Т., Chiba N. Adaptive logarithmic mapping for displaying high contrast scenes // EUROGRAPHICS, 2003, Vol. 22, pp. 1-9.
[Lin & Jane, 2009] Lin M., Jane S. Analysis of color difference in digital proofing based on color management system // Journal of Communication and Computer, 2009, Vol. 6, pp. 32-36.
[Reinhard et al., 2005] Reinhard E., Ward G., Pattanaik S., Debevec P. Hight dynamic range imaging, С A: Morgan Kaufmann Publisher, 2005.
[Yang et al., 2012] Yang X., Zhang L., Wong T.-T., Heng P.-A. Binocular tone mapping // ACM Transactions on Graphics (TOG), 2012, Vol. 31, No. 4, pp.93:1-93:10.