АНАЛИЗ МЕТОДОВ ПОДАВЛЕНИЯ АРТЕФАКТОВ ЗВОНА, ВОЗНИКАЮЩИХ НА ИЗОБРАЖЕНИЯХ В ПРОЦЕССЕ КОДИРОВАНИЯ С WAVELET-ПРЕОБРАЗОВАНИЕМ
Власюк Игорь Викторович,
Московского государственного университета связи и информатики, Москва, Россия, ru3dlp@yandex.ru
Любецкая Валерия Юрьевна,
Московского государственного университета связи и информатики, Москва, Россия, Шian_l4@live.ru
Ключевые слова: motion JPEG2000, wavelet-преобразование, звон, wavelet-кодек, билатеральный фильтр.
На сегодняшний момент в телепроизводстве широко продвигаются стандарты передачи профессионального видео по IP. Уже можно выделить такие стандарты как SMPTE 20226, ASPEN и NDI. Однако, перенос видео формата сверхвысокой четкости (UHD) требует значительной скорости потока до 1 2 Gbps, а коэффициент сжатия видео без потерь обычно составляет 3-4 раза и в итоге скорость передачи данных с компрессией получается слишком высокой для современных сетей. Для необходимого уровня компрессии в современных стандартах широко используются методы, основанные на процессе кодирования с wavelet-преобразованием. Одним из таких стандартов является Motion J PEG 2000. К сожалению, увеличение уровня компрессии видеопоследовательности, приводит к возникновению искажений, характерных для кодирования с wavelet-преобра-зованием: размытие границ объектов и появление артефактов типа "звона" вокруг них. Причина возникновения данных артефактов в усечении высокочастотных коэффициентов или некорректное восстановление изображения. Такие искажения можно наблюдать вокруг краев, потому что они содержат много высоких частот. В настоящий момент предложено несколько алгоритмов удаления звона, использующих особенности wavelet-пре-образования. Метод, предложенный учеными из Сингапура, предлагает алгоритм маскировки артефактов звона, используя узконаправленный фильтр границ. Данный алгоритм позволяет добиться улучшения качества изображения, но обладает высокой вычислительной сложностью. Анализируя результаты алгоритма с использованием модифицированного билатерального фильтра для подавления искажений типа "звон" можно сделать вывод, что данный алгоритм имеет смысл использовать лишь при высоких коэффициентах сжатия. Однако, это не имеет смысла в условиях студии, где сохранение высокого визуального качества видеосигнала является приоритетом. Также предложен адаптивный нелинейный метод фильтрации. В данном методе коэффициенты вокруг границ выборочно обрабатываются в пространственных областях и каждом уровне декомпозиции. Учитывается характер дисперсии сдвига децимированного wavelet преобразования. Используется несколько вариантов сдвига полученных изображений для оценки дисперсии шума в сжатом изображении. Следовательно, достигаются и перцепционное улучшение качества, и улучшение показателей PSNR.
Информация об авторах:
Власюк Игорь Викторович, к.т.н., доцент кафедры Телевидения и Звукового вещания имени С.И. Катаева Московского государственного университета связи и информатики (МТУСИ), Москва, Россия.
Любецкая Валерия Юрьевна, аспирантка кафедры Телевидения и Звукового вещания имени С.И. Катаева Московского государственного университета связи и информатики (МТУСИ), Москва, Россия.
Для цитирования:
Власюк И.В., Любецкая В.Ю. Анализ методов подавления артефактов звона, возникающих на изображениях в процессе кодирования с wavelet-преобразованием // T-Comm: Телекоммуникации и транспорт. 2017. Том 11. №4. С. 53-58.
For citation:
Vlasyuk I.V., Lyubetskaya V.Yu. (2017). Analysis of methods to suppress ripple artifacts appearing on wavelet-compressed images. T-Comm, vol. 11, no.4, pр. 53-58. (in Russian)
■
T-Comm Vol. 1 1. #4-201 7
Введение
Все больше и больше идет разговоров в телепроизводстве о передачи видеосигналов при помощи IP сетей. На сегодняшний момент существуют несколько стандартов данной передачи: SMPTE 2022-6 [1], AS PEN, предложенный компанией Evertz и NDI. Данные стандарты были разработаны для переноса форматов видео, удовлетворяющих современным тенденциям телепроизводетва: UHD/ЗОЛID/SD.
В условиях студий важным является сохранение высокого визуального качества видеосигнала на уровне компрессии без потерь. Последняя недопустима,, поскольку скорость передачи данных видео 4К UHD превышает 12 Gbps, коэффициент сжатия видео без потерь обычно составляет 3-4 раза и в итоге скорость передачи данных с компрессией получается слишком высокой для современных сетей.
Следовательно, в процессе передачи видео формата UHD через гигабитную сеть важную роль играет компрессия. В стандарте NDI данный функционал реализуется посредством высококачественного wave let-кодека. Он предусматривает независимое кодирование каждого кадра, как статического изображения. На сегодняшний момент примером данного подхода к сжатию видеопоследовательностей могут служить стандарты MJPEG и Motion JPEG2000. Последний применяет процедуру компрессии JPEG2000 [2,3] к каждому кадру видеопоследовательности в отдельности.
Внедрение Motion JPEG2000 обосновано двумя факторами: высокой степенью сжатия и наличием только опорных кадров в сжатом видеопотоке. Это позволяет сжимать видеопоследовательности высокого разрешения с сохранением требуемого визуального качества и отсутствием артефактов межкадрового сжатия. Также стоит отметить, что в отличие от Н.264 большинство wavelet-кодеков не требует затрат на лицензирование и характеризуется очень низкой временной задержкой сигнала, В итоге в последнее время подобные методы видеокомпрессии начинают внедряться в телепроиз-водегво.
Однако, очевидно, что для достижения необходимого уровня компрессии, необходимо сжимать каждый отдельный кадр видеопоследовательности сильнее, чем отдельное статическое изображение. А это неизбежно ведет к ухудшению качества видеопоследовательности в целом. Увеличение уровня компрессии видеопоследовательности, приводит к возникновению искажений, характерных для самого стандарта компрессии JPEG2000: размытие границ объектов и появление артефактов типа «звона» вокруг них.
Анализ проблемы
Причиной возникновения эффекта типа «звон» является квантование или усечение высокочастотных коэффициентов, с другой стороны, причиной «звона» может стать некорректное восстановление изображения. Колее того, «звон» проявляется как искажение вдоль резких ]раниц на изображении, и чаще всего это происходит нри использовании дискретного wavelet-преобрззования. «Звонящие» артефакты похожи на другой вид искажений - blur effect или размытие деталей изображения. Разница между этими видами искажений состоит в том, что они возникают на противоположных сторонах изображения: горизонтальной или вертикальной (рис. 1).
Рис, I, Различия между искажениями «звон» и размытие
Для достижения более высокой степени сжатия в частотной области отказываются от высоких частот, поскольку человеческий глаз обладает низкой чувствительностью к ним. В пространственной области сигнал представляется конечным числом базисных функций. Использование конечных серий аппроксимаций базисных функций для представления дискретной формы сигнала вызывает феномен Гиббса. То есть, отклонение в окрестности точки разрыва. С точки зрения изображения, такие отклонения проявляются как «звон» вокруг точки разрыва. Такие искажения можно наблюдать вокруг краев, потому что они содержат много высоких частот. На рисунке 2 показано изображение «Lenna», сжатое JPEG2000 с 10% качества. На этом изображении отчетливо видны искажения «звон» (ringing) около границ и размытие. На рисунке 3 показан увеличенный фрагмент изображен и я « Le n п а».
Рнс. 2. Искажения, возникающие при сильном сжатии изображения
JPEG2000
Рнс. 3. Увеличенный фрагмент изображения
г \
У
Т-Сотт Уо1.1 1. #4-201 7
Было установлено, что наибольшее подавление звона достигается при обработке билатеральным фильтром. С другой стороны, именно 'Этот тип фильтрации ВНОСИТ наибольшее размытие границ, что ухудшает зрительное восприятие изображения. С учётом полученных результатов было проведена модификация билатерального фильтра. Обрабатывалось не всё изображение (и даже не все окрестности границ), а только те фрагменты, в которых звон действительно проявлялся. На основе метрики звона составлялась соответствующая карта звона для изображения, и далее обрабатывались только те пиксели, которые принадлежат этой карте. Результат применения модифицированного билатерального фильтра приводил к снижению уровня звона в изображении в среднем на 5%. При этом размытие границ не усиливалось (рис. 5).
Однако, как слелует из приведенных графиков, данный метод подавления артефактов звона имеет смысл использовать лишь с большими коэффициентами сжатия К, что в теле производстве является недопустимым, так как требуется сохранить высокое визуальное качество видеопоследовательности на уровне компрессии без потерь.
К настоящему моменту, был также предложен адаптивный нелинейный метод фильтрации для подавления артефактов «звона». Коэффициента вокруг границ выборочно обрабатываются в пространственных областях и каждом уровне декомпозиции. Более того, учитывается характер дисперсии сдвига децимированного wavelet преобразования. Используется несколько вариантов сдвига полученных изображении для оценки дисперсии шума в сжатом изображении, Следовательно, достигаются и перцепционное улучшение качества, и улучшение показателей PSNR.
Саму задачу устранения «звона» сжатых изображений с wavelet-преобразованием можно описать следующим образом:
V-W + /7 (2)
где у- wave let-коэффициент сжатия, W- соответствующий исходный wavelet коэффициент и п— отрицательная потеря сжатия, которая выглядит здесь как шум.
Сложно точно смоделировать отрицательные потери сжатия, так как при различных скоростях передачи битов они принимают различные значения. Протестировано много естественных изображений е различными степенями сжатия, и можно сказать, что Гауссовская функция плотности вероятности приблизительно соответствует шуму.
Различные варианты априорных знаний могут быть объеденены в форму pn(w) [7]. В данной модели предполагается, чго существует неизвестная детерминированная, изменяющаяся в пространстве область дисперсии. Учитывая эту область, wavelet-коэффициенты моделируются таким образом, чтобы быть независимыми случайными гауссовыми переменными величинами. Предполагается, что область дисперсии изменяется равномерно. Следовательно,
<t,V2 к 1<У~
(3)
w = ■
а- + а:
—у
Общепринят фильтр Вей пера. Так как коэффициенты в поддиапазоне LL не равны нулю, оценка для W в поддиапазоне LL должна быть
2
~(У~ти.)
W=mLL +■
(5)
+ и:
Здесь, ти и а — это локальное среднее значение и дисперсия соответственно. Коэффициент апи характеризует
дисперсию отрицательных потерь сжатия в поддиапазоне IX.
Из-за отбрасывания wavelet-кoэффициeнтoв в случаях низкой скорости передачи битов, артефакты типа «звон» большей частью возникают около больших границ. Следовательно, только коэффициенты около границ в пространственных областях и каждом поддиапазоне должны быть использованы для оценки локальных средних значений и дисперсий. Таким образом, если г/|тах(^( ))-тт(У(-))| > д/(, значит, К(') вероятно, является граничной областью. Тогда должна быть выбрана соответствующая локальная маска
В выбранной локальной маске только пиксели, которые удовлетворяют выражению]г(/,_/)-_у(/-т,}—< 5?, где
уЦ, у) центральный пиксель и <т,п< исполь-
зуются для вычисления локального среднего значения и дисперсии. Здесь 5- и 5„ - пороговые значения и М — размер пространственной маски. Так как д. становится больше, восстановленное изображение будет более гладким. Поскольку среднее значение коэффициентов в поддиапазоне ¿¿г | почти вдвое больше, чем в ¿¿1 поддиапазоне, порог
(^должны также удваиваться вместе с увеличением
уровня декомпозиции. Для высокочастотных поддиапазонов
соответствующие пороги обозначаются как 3'- и ¿>». Они
должны принимать значение меньше, чем в поддиапазоне ЬЬ. Дисперсия оценивается следующей формулой:
<71 =
1
Clk)
(6)
л
Где = тах {0, л}, С (к) обозначает все коэффициенты, которые удовлетворяют ограничивающему условию.
Коэффициенты в высокочастотных поддиапазонах считаются мешающими гауссовыми шумовыми коэффициентами. Трудоемкая оценка £гл в формуле (4)
достигается использованием среднего абсолютного отклонения коэффициентов в поддиапазоне НН], который обозначается как У1Ш(').
мю {%»(■>}
Далее, оценка для w в высокочастотном поддиапазоне примет вид:
0,6745
Сложно точно оценить <т ■ Как известно, высокочастотные коэффициенты оказываются наиболее подавленными в случаях передачи битов с низкой скоростью. По они появляются, если взглянуть па \\ауе1е1-преобразование сдвинутой (смещенной) версии сжатого изображения [б].
В соответствии е этим свойством применяются различные смещенные версии изображения для оценки дисперсии аг:П . Более того, когда скорость передачи битов /? большая, то потери сжатия невелики. Итак, скорость передачи битов /? принимается обратно пропорциональной дисперсии шума. Таким образом, оценщик <т должен иметь вид:
a* R
(8)
Где У1к„ (■) определяет коэффициенты в поддиапазоне НН] смещенной версии, которая сдвигается (/\к) пикселями. Пусть — 2< у, к < 2. При этом не все смещенные версии, которые удовлетворяют условию, должны использоваться. если принимается во внимание эффективность вычисления. Таким образом, N является числом смещенных изображений std2{•) функция вычисления стандартного отклонения в МЛТЬЛВ, и а оператор (функция) регулирования. который находится в диапазоне (1.5, 4).
Следовательно, работа алгоритма включает в себя следующие этапы:
1. Производится декомпозиция полученного изображения и его смещенных версий в четырех поддиапазонах: IX (низкочастотный поддиапазон), НЬ, ЬН и НН (высокочастотные поддиапазоны). После этого, оценивается а„ и Сгп[д., используя выражения (7) и (8),
Далее задаются все пороговые параметры.
2. Полученное изображение, кодированное с \vavelcl-нреобразованием, считается исходным IX поддиапазоном и будет отфильтровано в соответствии с выражением (5).
3. Производится декомпозиция изображения в поддиапазонах IX, НЦ ЬН и ПП. Применяется локальный адаптивный фильтр Вей пера для поддиапазона IX и применяется выражение (4) к трем высокочастотным поддиапазонам.
4. Если необходимое условие уровня декомпозиции не встречается, то изображению присваивается поддиапазон IX и выполняется переход к шагу 3, в противном случае, переход к шагу 5. Необходимое условие уровня декомпозиции равно значению в сжатом изображении.
5. Объединяются все декомпозированные диапазоны в окончательном изображении без артефактов типа «звон», используя обратное \vavelet-преобразование.
Заключение
Вопрос удалений артефактов «звона» на изображениях, кодированных с wavelet-преобразованием, является одной из актуальных задач научно-технического сообщества. Уже сейчас существует множество алгоритмов подавления данных артефактов, отличающихся вычислительной сложностью и улучшению качества.
Предложенный адаптивный нелинейный метод фильтрации для подавления артефактов «звона» улучшает качество восприятия и показателей PSNR. Метод с использованием узконаправленного фильтра границ выделяет его высокая вычислительная сложность, в то время как применение модифицированного билатерального фильтра не дает никаких преимуществ на низких коэффициентах сжатия, что бесполезно в применении в телепроизводстве. Однако, все три рассмотренных метода позволяют добиться высокого качества изображения, применяя различные методики для подавления артефактов звона.
Литература
1. SD1 over IP - URL: https://tecK.ebu.cli/docs/techreview/ trev_2012-Q4_SDI-over-IP Laabs.pdf (Дата обращения 10.10.2016).
2. Tinku Acharya, Pins-Sing Tsai, JPEG2000 standard for image compression: concepts, algorithms and VLSI architectures. Published by John Wiley & Sons, Inc., Hobokcn, New Jersey, 2004, pp. 2%,
3. Власюк MB.. Романова Е.И.. Сидорова A.M. Кодирование областей повышенного качества в стандарте сжатия изображений JPEG 2000 // T-Comm: Телекоммуникации и Транспорт. 2010. No 9. С.53-55.
4. Ye S., Sun О.. Chang Е. Edge Directed Filter based Error Concealment for Wavelet-based Images // Proc. IEEE Int. Conf. on Image Processing (ICIP'04), Vol. 2, pp. 809-812, 2004.
5. Зараменский Д.А., Аминова E.A.. Корнилов А.С. Модифицированный билатеральный фильтр для подавления звона в сжатых изображениях // Докл. 12-й междунар. конф. «Цифровая обработка сигналов и применение» (DSPA-2010), Москва, 2010, Т. 2. С. 307-310.
6. Nosratinia A. Postprocessing of JPEG-2000 Images to Remove Compression Artifacts. IEEE Signal Processing Letters. №10, 2003, pp.296-299.
7. Levent 5.. Ivan ti'.S, A Bivariate Shrinkage Function for Wavelet-based denoising. Conference on Acoustics, Speech, and Signal Processing (ICASSP '02), 2002, pp. 1261-1264.
T-Comm Vol. 1 1. #4-201 7
ELECTRONICS. RADIO ENGINEERING
ANALYSIS OF METHODS TO SUPPRESS RIPPLE ARTIFACTS APPEARING ON WAVELET-COMPRESSED IMAGES
Igor V. Vlasyuk, Moscow Technical University of Communications and Informatics, Moscow, Russia, ru3dlp@yandex.ru Valeria Yu. Lyubetskaya, Moscow Technical University of Сommunications and Informatics, Moscow, Russia, lilian_14@live.ru
Abstract
At the moment in TV transmission standards widely promoted professional video over IP. It is already possible to allocate standards such as SMPTE 2022-6, ASPEN and NDI. However, the transfer of ultra-high-definition video format (UHD) requires a large flow rate of up to 12 Gbps, and video compression ratio without loss typically 3-4 times and as a result the data rate with compression is too high for today's networks.
For the required level of compression in the current standards are widely used methods based on the process of coding with wavelet-transform. One such standard is Motion JPEG2000. Unfortunately, increasing the level of video compression leads to a distortion which has a coding with wavelet-transform: blurring the outlines of objects and artifacts of the "ringing" around them.
The cause of these artifacts due to the high-frequency coefficients or incorrect image restoration. Such distortions may be observed around the edges, because they contain a lot of high frequency. At the moment there are several algorithms for removing ringing, especially using features of wavelet-transform. So the method proposed by scientists from Singapore, offered an error concealment algorithm for wavelet-based images using a new edge directed filter. This algorithm allows achieving better image quality, but has high computational complexity. At the same time, analyzing the results of the algorithm using the modified bilateral filter to suppress ripple artifacts, we can conclude that this algorithm makes sense to use with a high compression ratio. However, it does not make sense in a studio, where maintaining high visual quality of the video is a priority. Adaptive nonlinear filtering method has also been proposed. In this method, the coefficients around the borders selectively processed in the spatial domain and each level of decomposition. Moreover, it takes into account the nature of the dispersion shift of decimated wavelet transform. The method uses several versions shift of resulting images to estimate the noise variance in the compressed image. As a result there are improvement of perceptual quality and improvement in PSNR.
Keywords: motion JPEG2000, wavelet-transform, ringing, wavelet-codec, bilateral filter.
References
1. SDI over IP. URL: https://tech.ebu.ch/docs/techreview/trev_2012-Q4_SDI-over-IP_Laabs.pdf (Accessed 10.10.2016).
2. Tinku Acharya, Ping-Sing Tsai. JPEG2000 standard for image compression: concepts, algorithms and VLSl architectures. Published by John Wiley & Sons, Inc., Hoboken, New Jersey, 2004. pp. 296.
3. Vlasyuk I.V., Romanova E.P., Sidorova A.I. (2010). Encode high-quality areas in the JPEG 2000 image compression standard. T-Comm, no 9, pp. 53-55.
4. Ye S., Sun Q., Chang E. (2004). Edge Directed Filter based Error Concealment for Wavelet-based Images. Proc. IEEE Int. Conf. on Image Processing (ICIP'04), vol. 2, pp. 809-812.
5. Zaramenskiy D.A., Aminova E.A., Kornilov A.S. (2010). The modified bilateral filter to suppress the ringing in compressed images. Conference "Digital Signal Processing and Application" (DSPA-2010), Moscow, vol. 2. pp. 307-310. (in Russian)
6. Nosratinia A. (2003). Postprocessing of JPEG-2000 Images to Remove Compression Artifacts. IEEE Signal Processing Letters, no. 10, pp. 296-299.
7. Levent S., Ivan W.S. (2002). A Bivariate Shrinkage Function for Wavelet-based denoising. Conference on Acoustics, Speech, and Signal Processing (ICASSP '02), pp. 1261-1264.
Information about authors:
Igor V. Vlasyuk, associate professor of the chair of Television and Sound Broadcasting behalf Kataeva, Moscow Technical University of Communications and Informatics, Ph. D., Moscow, Russia.
Valeria Yu. Lyubetskaya, post-graduate student of the chair of Television and Sound Broadcasting behalf Kataeva, Moscow Technical University of communications and Informatics, Moscow, Russia.