Субъективная оценка алгоритмов тональной компрессии HDR-изображений для образцов ювелирной промышленности с помощью системы GMLePublish
М.А. Матросов, A.B. Игнатенко Лаборатория Компьютерной Графики и Мультимедиа, Факультет Вычислительной Математики и Кибернетики, Московский Государственный Университет им. М.В. Ломоносова {таtrosov, ignatenko}@graphies.es.msu.ru
Аннотация. В работе рассматриваются алгоритмы тональной компрессии изображений с широким динамическим диапазоном яркости (HDR-изображений). Такие изображения хранят в себе карту яркости сцены и не могут быть напрямую визуализированы на современных устройствах вывода. Методы тональной компрессии производят интеллектуальное сжатие динамического диапазона HDR-изображений и позволяют получать обычные изображения с низким динамическим диапазоном яркости (LDR-изображения). На данный момент не существует достаточно надёжных объективных метрик для оценки качества работы методов тональной компрессии. Поэтому широко используются субъективные метрики, основанные на результатах опросов некоторой выборки участников. В данной работе мы сравниваем результаты работы ряда алгоритмов тональной компрессии на основе субъективных оценок. Оценки были собраны с помощью системы GMLePublish, разработанной в Лаборатории Компьютерной Графики и Мультимедиа для этих целей.
Ключевые слова: тональная компрессия, HDR-изображения, субъективные метрики, экспертные оценки.
Введение
Современные устройства ввода (такие как цифровые камеры) могут записать лишь небольшой динамический диапазон яркости (dynamic range of luminance). Для потребительских цифровых камер он составляет порядка 2000:1. В то же время, динамический диапазон воспринимаемой человеческим глазом яркости составляет порядка 109:1. Если не принимать во внимание возможность аккомодации глаза, то динамический диапазон воспринимаемой в рамках одной сцены яркости составляет порядка 10000:1 (данные взяты из [1, стр. 191]). Таким образом, невозможно в рамках одной фотографии запечатлеть весь динамический диапазон, доступный человеческому глазу.
Для преодоления этой проблемы используется технология изображений с широким динамическим диапазоном яркости (HDR-изображения). Они позволяют сохранять полную карту яркости сцены. Существует несколько способов их
получения (см. [1, гл. 4]). Однако динамический диапазон современных дисплеев составляет порядка 1000:1, и они не могут напрямую отобразить HDR-изображения. Поэтому для визуализации HDR-изображения необходимо выполнить интеллектуальное сжатие его динамического диапазона с сохранением деталей и содержания. Этот процесс называется тональной компрессией (tone mapping, см. [2], [3]). Далее по тексту мы будем сокращать термин «метод тональной компрессии» до ТМО (tone mapping operator).
На данный момент существует очень мало объективных метрик для оценки качества ТМО. Например, в [4] вычисляются карты пикселей, в которых произошли определённые изменения контраста в результате тональной компрессии. Однако итоговая оценка приемлемости полученного LDR-изображения сильно зависит от содержания исходной сцены, и надёжно её может дать только человек. В связи с этим существует потребность в субъективных метриках. Несколько подходов для субъективного тестирования предложены в [5], [6] и [7].
В данной работе мы описываем результаты субъективного тестирования ряда ТМО, проведённого в Лаборатории Компьютерной Графики и Мультимедиа. В качестве участников тестирования выступали сотрудники лаборатории. В качестве примеров для тестирования выступали изображения с ювелирными изделиями. Обычно субъективные тестирования носят общий характер и в качестве примеров выбираются сцены из повседневной жизни: пейзажи, портреты, помещения, улицы, и т.п. Наше исследование показало, что результаты подобных тестирований не могут быть непосредственно применены к нашим данным. Кроме того, существует задача создания эффективного ТМО именно для ювелирных изделий. Например, для создания красивых рекламных изображений.
Сбор оценок осуществлялся с помощью системы GMLePublish [10]. Был выбран ряд ТМО, наиболее подходящих с точки зрения авторов исследования для выбранного класса примеров. Целью тестирования был выбор одного или нескольких ТМО, наиболее подходящих для поставленной задачи. В работе приводится подробное описание различных аспектов исследования и анализ полученных данных.
Примеры для оценки
В качестве примеров использовались фотографии образцов ювелирной промышленности, имеющиеся в распоряжении в лаборатории. Среди образцов присутствовали обработанные алмазы различных огранок и готовые ювелирные изделия. Далее по тексту для краткости вместо «огранённый алмаз» мы будем говорить «камень». Кроме того, в качестве ювелирных изделий выступали только кольца, поэтому далее по тексту вместо «ювелирное изделие» будем говорить «кольцо». Всего было выбрано 20 примеров - 14 камней различных оттенков и 6 золотых колец, инкрустированных маленькими камнями.
Для каждого примера было получено несколько фотографий с различными экспозициями - по 7 фотографий для камней и по 5 фотографий для колец. Шаг между экспозициями составлял 2EV. Съёмка велась с помощью цифровой камеры Canon EOS 5D Mark III. На рисунке ниже три из пяти экспозиций для одного из примеров с кольцом:
Алгоритмы тональной компрессии
В опросе были представлены результаты 8 существующих на данный момент ТМО:
• Best LDR - вручную выбранная экспозиция (без ТМО)
• Ashikhmin - [3]: "A tone mapping algorithm for high contrast images"
• ExpFusion - [8]: "Exposure fusion"
• ExpFusion (L=7) - [8]: "Exposure fusion", меньшее количество уровней в пирамиде
• Photographic - [2]: "Photographic tone reproduction for digital images"
• Canon (ArtStandard) - встроенный в камеру ТМО
• Canon (Natural) - встроенный в камеру ТМО
• WLS - [9]: "Edge-Preserving Decompositions for Multi-Scale Tone and Detail Manipulation"
Экспозиция для Best LDR выбиралась вручную оператором при съёмке данных для опроса. Этот "псевдо"-ТМО представляет собой одну из исходных фотографий без какой-либо обработки. Два пункта с именем ExpFusion представляют разные настройки одного и того же метода, который по факту не является ТМО. Этот метод получает итоговое изображение работая напрямую с исходными изображениями, без построения HDR-изображения.
Два пункта с именем Canon являются результатами, полученными с помощью проприетарного алгоритма, реализованного в цифровой камере Canon EOS 5D Mark III - разные установки задавались в настройках камеры. Ранее в научных работах не проводилось тестирование ТМО, встроенных в потребительские устройства, такие как цифровые камеры.
На рисунке выше приведены результаты работы шести ТМО для примера с кольцом - все, кроме Best LDR и ExpFusion (L=7).
Методология
Тестирование проводилось по методологии, описанной в [7], где она использовалась для предварительного ранжирования ряда ТМО. Наша цель была аналогичной - нужно было отбросить ТМО, дающие заведомо неприемлемые результаты на наших данных. В описании системы GMLePublish [10] эта методология упоминается как «опрос с одиночными оценками».
Участнику последовательно показывались изображения с результатами работы различных ТМО на различных примерах. Каждому изображению участник должен был присвоить одну из трёх оценок, основываясь на правдоподобности изображения:
• Unacceptable - Неудовлетворительно
• Acceptable - Удовлетворительно
• Favorable - Хорошо
На рисунке ниже пример страницы для оценки изображения:
Участники
В тестировании участвовало 7 сотрудников лаборатории. Все участники являются специалистами в области обработки изображений и ранее работали с изображениями алмазов и ювелирной продукции. Т.к. всего в тестирование было включено 20 примеров и 8 ТМО, каждому участнику нужно было оценить 160 изображений. Среднее время оценки одного изображения составило 5.4 секунды, т.е. среднее время на прохождение опроса не превысило 15 минут.
Перед прохождением зачётного опроса, участнику предлагалось пройти тренировочный опрос. В нём участвовали те же самые ТМО, но было меньшее число примеров - 6 вместо 20. Тренировочный опрос нужен был для того, чтобы участник мог оценить примерный вид результатов и откалибровать свою систему оценок.
Опрос проводился с помощью системы ОМЬеРиЬШИ. Перед прохождением опроса участник попадал на страницу с подробными инструкциями. Все участники
проходили опрос на своём рабочем месте, т.е. условия освещённости были для всех немного разными. Все мониторы были предварительно откалиброваны. Все участники имели нормальное или корректированное до нормального зрение. Все ответы участников были сохранены в системе и затем проанализированы вручную.
Результаты
Результаты опроса представляют собой трёхмерный массив оценок 8x20x7. Измерениями являются ТМО, примеры и участники. Значениями являются числа -1, 0 и 1, где -1 ставится в соответствие оценке Unacceptable, 0 - оценке Acceptable, +1 -оценке Favorable.
Полученный массив суммировался и усреднялся вдоль разных направлений, чтобы оценить результаты с разных точек зрения. На рисунке ниже средняя оценка вдоль примеров и участников для разных ТМО:
По оси абсцисс отложены различные ТМО. Они отсортированы по возрастанию средней оценки. Средние оценки всех ТМО отрицательные, поэтому график расположен ниже оси абсцисс. Из графика видно, что все ТМО можно условно разделить на три группы:
• Фавориты: Canon (ArtStandard), ExpFusion (оба)
• Средние: Photographic, Canon (Natural), Best LDR
• Отстающие: Ashikhmin, WLS
Следует заметить, что в существующих субъективных тестированиях ТМО Photographic и Ahikhmin получили высокие оценки и были в лидерах. Это объясняется спецификой наших данных.
На рисунках ниже средние оценки вдоль примеров для каждого участника в зависимости от ТМО. Усреднение только среди примеров с камнями:
Усреднение только среди примеров с кольцами:
На основании этих графиков можно сделать следующие выводы:
• Canon (ArtStandard) лучше работает для колец, чем для камней
• Самые консистентные оценки у ExpFusion (default) и Canon (Natural)
• Оценки разных настроек ExpFusion на камнях почти не отличаются, что согласуется с тем фактом, что их результаты на этих изображениях абсолютно одинаковы
• Ответы участников для камней более консистентны, чем для колец
Система соответствий оценок числам -1, 0 и +1 спорна, она была выбрана по аналогии с оригинальным исследованием из [7]. На рисунке ниже приведено общее количество различных оценок вдоль примеров и участников в зависимости от ТМО:
На графике видно, что большая часть оценок - Acceptable и Unacceptable. Меньшая консистентность оценок для Canon (ArtStandard) в сравнении с ExpFusion проявляется в большем количестве оценок Unacceptable и меньшем - Acceptable.
На рисунке ниже приведено количество различных оценок вдоль ТМО и примеров в зависимости от участников:
На графике видно, что количество выставленных участником оценок Acceptable и Unacceptable отличается не более, чем примерно в два раза, и что оценок Favorable всегда меньшинство.
Система сбора оценок запоминала также время, которое потребовалось участнику для оценки определённого изображения. На рисунке ниже среднее время выставления оценки вдоль сцен для участников в зависимости от ТМО:
Для составления графика значения больше 10 секунд были заменены на среднее время по данному участнику. На приведённом графике видно, что для оценки более правдоподобных результатов в среднем потребовалось меньше времени.
Заключение
Проведённое тестирование показало, что для изображений с обработанными алмазами и ювелирной продукцией фаворитами из существующих TMO являются Canon (ArtStandard) и ExpFusion. Однако ТМО от Canon обладает рядом минусов, в сравнении с ExpFusion:
• Проприетарная разработка - нет возможности анализа и изменения
• Нет возможности использовать на произвольных изображениях
• Ограниченное сжатие динамического диапазона, т.к. выполняется только три снимка
Для проведения исследования была использована система GMLePublish, которая показала хорошую применимость для поставленной задачи и высокую степень надёжности.
Проведённое исследование имело своей целью выделить перспективные ТМО и исключить заведомо плохие. Эта цель была достигнута. Для более точного сравнения новых ТМО в дальнейшем будут использоваться другие методологии, например, опрос с попарным сравнением результатов.
В настоящий момент ведётся работа по созданию автоматизированных объективных метрик, для анализа качества которых будет проводиться сравнение их значений с полученными субъективными оценками. На основе объективных метрик планируется создание новых алгоритмов тональной компрессии, наиболее подходящих для изображений с образцами ювелирной продукции.
Список литературы
[1] Erik Reinhard, Greg Ward, Sumanta Pattanaik, and Paul Debevec, High Dynamic Range Imaging: Acquisition, Display and Image-Based Lighting, Morgan Kaufmann Publishers, Dec. 2005.
[2] E. Reinhard, M. Stark, P. Shirley, and J. Ferwerda, "Photographic tone reproduction for digital images," ACM Transactions on Graphics (TOG), vol. 21, no. 3, pp. 267-276, 2002.
[3] M. Ashikhmin, "A tone mapping algorithm for high contrast images," in Proceedings of the 13th Eurographics workshop on Rendering. Eurographics Association, 2002, pp. 145-156.
[4] T.O. Aydin, R. Mantiuk, K. Myszkowski, and H.P. Seidel, "Dynamic range independent image quality assessment," in ACM Transactions on Graphics (TOG). ACM, 2008, vol. 27, p. 69.
[5] M. Cadik, M. Wimmer, L. Neumann, and A. Artusi, "Evaluation of hdr tone mapping methods using essential perceptual attributes," Computers & Graphics, vol. 32, no. 3, pp. 330-349, 2008.
[6] P. Ledda, A. Chalmers, T. Troscianko, and H. Seetzen, "Evaluation of tone mapping operators using a high dynamic range display," ACM Transactions on Graphics (TOG), vol. 24, no. 3, pp. 640-648, 2005.
[7] M. Kuhna, M. Nuutinen, and P. Oittinen, "Method for evaluating tone mapping operators for natural high dynamic range images," in IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2011, pp. 787600-787600.
[8] T. Mertens, J. Kautz, and F. Van Reeth, "Exposure fusion: A simple and practical alternative to high dynamic range photography," in Computer Graphics Forum. Wiley Online Library, 2009, vol. 28, pp. 161-171.
[9] Farbman, Zeev, Raanan Fattal, Dani Lischinski, and Richard Szeliski. "Edge-preserving decompositions for multi-scale tone and detail manipulation." In ACM Transactions on Graphics (TOG), vol. 27, no. 3, p. 67. ACM, 2008.
[10] М.А. Матросов, А.В. Игнатенко, «GMLePublish: web-система оценки алгоритмов тональной компрессии HDR-изображений», Сборник трудов научно-практического семинара «Новые информационные технологии в автоматизированных системах-16». М.: ИПМ, 2013 г. сс. 37-42