Обоснование выбора метрики для оценки качества передачи потокового видео
аспирант Н. А. Гаврилова Петербургский государственный университет путей сообщения Императора Александра I
Санкт-Петербург, Россия wuuzee.nd@gmail.com
Аннотация. Описываются характеристики стандарта H.264/AVC в части возможности появления ошибок во время передачи видео по сети. В работе проведено имитационное моделирование передачи видео через беспроводную сеть с целью исследования влияния случайной битовой ошибки в канале. Для оценивая качества передаваемого видео исследуется возможность применения метрик PSNR (отношение сигнала к шуму), SSIM (структурная схожесть) и VMAF (мультиметодная оценка на основе слияния известных метрик) и их субъективное сравнение. Показано, что метрика VMAF хорошо коррелирует с воспринимаемым качеством и ее целесообразно использовать в задачах оценки потокового видео.
Ключевые слова: передача видео, ошибки H.264, метрики качества видео, эталонные метрики оценки видео.
Введение
При передаче видео по каналам связи важно гарантировать пользователю необходимый уровень воспринимаемого качества, что обеспечивается выбором сети и параметрами кодирования. Благодаря повышенной компрессии стандарт видео кодирования H.264/AVC (англ. Advanced Video Coding — расширенное кодирование видео) позволяет транслировать видео в низкоскоростных сетях без заметного ухудшения качества, что позволяет использовать этот стандарт для видеоприложений в беспроводных сетях. Но при резком уменьшении ширины канала передаваемой информации могут возникать ошибки, которые влияют на полученные данные. В подобной ситуации необходимо уметь оценивать качество передаваемого потокового видео с целью обнаружения таких битовых ошибок в канале.
Потоковое видео (англ. Streaming Video) — это технология буферизации и сжатия данных, позволяющая вести трансляцию мультимедийного контента (видео) через Интернет в режиме реального времени. Иными словами, потоковое видео подразумевает преобразование видео- и аудиоконтента в сжатый цифровой формат с его последующим распространением через компьютерные сети. Сжатые данные могут быть доставлены с использованием компьютерных сетей в силу их небольших размеров. Видео и аудио может быть постоянно потоковым, либо доставляться по требованию.
Виды ошибок
Возникающие при передаче по беспроводным сетям битовые ошибки могут по-разному влиять на качество декодированного видео. Их можно разделить по локализации ошибки в потоке [1]:
1. Битовая ошибка в различных частях битового потока.
Поскольку механизм сжатия использует удаление избыточностей в видеопоследовательности, относительно низкий уровень битовых ошибок может существенно повлиять на качество декодированного видео. Количество битовых ошибок выше допустимого может значительно ухудшить качество.
2. Битовая ошибка в заголовке видеопоследовательности.
Заголовок видеопоследовательности включает в себя важную информацию, такую как разрешение кадра, число кадров, и таблицу квантизации. Если ошибка исказила один из этих параметров, последовательность нельзя корректно декодировать. При небольшом количестве ошибочных битов вероятность искажения заголовка невелика, поскольку его размеры относительно всего потока небольшие.
3. Битовая ошибка в заголовке изображения.
При ошибке в заголовке декодер может не распознать начало кадра. В худшем случае кадр будет потерян. В остальных случаях, при временном предсказывании, могут возникнуть серьезные ухудшения качества.
4. Битовая ошибка в группе кадров (GOP).
Ошибка в GOP или его заголовке не является существенной для правильного декодирования видеопоследовательности.
5. Битовая ошибка в коэффициентах DCT (дискретного косинусного преобразования).
Если искажается часть коэффициентов DCT, это может привести к «неправильному декодированию» кодов переменной длины VLC (англ. Variable-Length Coding).
Поскольку кодеки обрабатывают информацию поблочно, то минимальной единицей искажения видеопотока при воздействии одиночной ошибки является блок (4^4 или 16x16 в зависимости от кодирования). Следующей областью распространения ошибки является макроблок и слайс. Таким образом, одиночная ошибка при передаче может вызвать распространение ошибки не только в актуальном макроблоке, но и в слайсе и далее в кадре.
Существуют три возможных источника распространения ошибки [2]:
1. Пространственное предсказывание.
Восстановленный при декодировании макроблок, у которого соседние макроблоки искажены, также будет искажен.
2. Временное предсказывание.
Если происходит искажение кадра, то следующие кадры, использующие искаженный кадр как исходный, также будут искажены.
3. Энтропийное кодирование.
Поскольку используются коды VLC, ошибка в ключевом кадре может влиять на следующие кадры, если его границы определены неправильно. Таким образом, нарушается синхронизация следующих кадров, что влечет за собой неспособность декодера различить ключевые кадры [3].
Использование VLC приводит к рассинхронизации декодированной информации, приводя к тому, что часть информации до следующего кадра становится недекоди-руемой. В некоторых случаях даже после восстановления синхронизации декодированный сигнал не может быть корректно использован, поскольку потеряна дополнительная информация о способе ее использования, например тип кадра или вектора движения.
На практике можно наблюдать искажения, возникающие в результате воздействия ошибок при передаче и последующем декодировании: блочность изображения (англ. tiling); нечеткость, размазанность (англ. blurring); ошибки цветопередачи (англ. color errors); ошибочные блоки (англ. error block); дрожание (англ. jerkiness); эффект «комаров» (англ. mosquito noise); шум квантования (англ. quantization noise); размытость (англ. smearing) [4].
Оценка качества видео
При сравнении исходного и искаженного видеопотоков возможно вычислить влияние битовой ошибки на конечное качество видео. Традиционно качество видео оценивается с помощью субъективных и объективных показателей. Субъективная оценка качества всегда опирается на впечатление зрителя и определяется путем экспертной оценки и подсчетом среднего балла MOS (англ. Mean Opinion Score). Объективное качество можно оценить различными метриками [5].
В современной литературе описано достаточно большое число объективных метрик, которые можно разделить на три следующих класса [6]:
Эталонные (Full Reference, FR) предполагают наличие исходного видеопотока, который рассматривается как опорный, или эталонный, при сравнении, так как он не зашумлен и имеет идеальное качество.
Неэталонные (No Reference, NR) предполагают, что в процессе получения оценки качества видеопотока опорный или эталонный поток отсутствует. Такие метрики являются самыми сложными в реализации и зачастую ориентированы на конкретный вид искажения.
Псевдоэталонные (Reduced Reference, RR) предполагают, что некоторая часть информации об эталонном видеопотоке присутствует вместе с зашумленным, причем количество этой информации значительно меньше объема информации, требуемого для эталонного видеопотока.
Рассмотрим три эталонные метрики — PSNR (Peak Signal-to-Noise Ratio), SSIM (Structural Similarity Index Measuring), Netflix VMAF (Video Multimethod Assessment Fusion).
PSNR
Пиковое отношение сигнала к шуму наиболее часто используется для измерения уровня искажений при сжатии изображений. Так, для оригинального изображения х и искаженного изображения у PSNR рассчитывается как
PSNR = 101од10-,
а10 MSE '
(1)
где L — динамический диапазон допустимых интенсивно-стей пикселей изображения;
MSE = )2.
(2)
SSIM
Индекс структурного сходства является одним из методов измерения схожести между двумя изображениями. SSIM-индекс — это метод полного сопоставления, другими словами, он проводит измерение качества на основе исходного изображения. Так, для оригинального изображения х и искаженного изображения у SSIM рассчитывается как [7]
SSIM(x, у) =
(3)
где ц.(х) — среднее значение изображения х; ц(у) — среднее значение изображения у; а(х) и g (у) — среднеквадратичное отклонение для изображения х и для изображения у соответственно; а(х, у) — ковариация;
С± и С2 — поправочные коэффициенты.
VMAF
VMAF — новая метрика, разработанная компанией Netflix [8]. Она предсказывает субъективное качество видео на основе эталонной и искаженной последовательности видео. В VMAF применяются различные метрики и комбинируются между собой с помощью метода опорных векторов. Показатели качества, которые использует VMAF:
1. VIF (Visual Information Fidelity) — индекс визуальной достоверности информации [9]. Построение этого индекса основано на моделировании источника эталонного изображения, искаженного изображения и визуальных искажениях человека. VIF показывает потерю точности информации.
2. DLM (Detail Loss Metric) — метрика потери детализации [10]. Измеряет потерю деталей, которые отвлекают внимание пользователей.
3. MCPD (Mean Co-Located Pixel Difference) — средняя временная разность пикселей
4. AN-SNR (Anti-Noise Signal-to-Noise Ratio) — антишумовое соотношение сигнала к шуму.
Имитация битовых ошибок потокового видео
Беспроводные каналы связи характеризуются случайно распределенными и независимыми ошибками. В связи с этим при имитации беспроводного канала часто применяют модель «аддитивного белого гауссовского шума», или AWGN (англ. Adaptive White Gaussian Noise), при которой определенный бит в последовательности искажается с заданной вероятностью. Используемое значение вероятности описывают показателем количества ошибочных битов BER (Bit Error Rate). Различные значения BER по-разному влияют на качество потокового видео.
Для исследования влияния битовой ошибки на качество видео проведено имитационное моделирование передачи видео через беспроводную сеть со случайными битовыми ошибками в канале.
Кодирование/декодирование исходной видеопоследовательности и моделирование беспроводной сети со случайными битовыми ошибками в канале производились с помощью программы VCDemo [11].
Для имитации передачи были применены следующие параметры:
• Протокол: GPRS.
• Пропускная способность канала: 1 000 кбит/сек.
• Случайная битовая ошибка с P = 0.05.
В результате моделирования получено видео с ошибками. На рисунке 2 видна область с ошибками отображения.
Рис.1. Кадр из эталонного видео
Далее для оценки качества искаженного видео были выбраны объективные метрики PSNR, SSIM, VMAF. В ходе эксперимента, были получены следующие результаты оценки качества искаженного видео (рис. 3).
Полученные результаты оценки видео показывают, что существующие метрики SSIM и УМАР достаточно хоро-
Рис. 2. Кадр из смоделированного видео
шо оценивают качество кадра. Что касается Р8№Я, то он плохо коррелирует с воспринимаемым качеством. Также стоит отметить, что, субъективно, VMAF показал лучший результат, так как в отличии от PSNR и SSIM его оценочные результаты лучше коррелируют с субъективной оценкой.
"I 7 *
I
fi U^ v
-PN5R -S5IM Netflix VMAF
N M И
Рис. 3. Диаграмма полученных значений метрик PSNR, SSIM и VMAF
Эмпирические значения индекса УМАР от приемлемого качества к плохому представлены в таблице 1.
Таблица 1
Соответствие показателей качества УМАР
VMAF Качество по шкале ITU Ухудшение изображения
91-100 5 — прекрасное незаметно
71-90 4 — хорошее заметно, но не раздражает
51-70 3 — удовлетворительное слегка раздражает
41-50 2 — плохое раздражает
0-40 1 — очень плохое сильно раздражает
Заключение
При передаче видео по сети из-за ненадежных каналов связи часто возникают ошибки, которые сильно влияют на получаемый результат. Важно правильно и достоверно оценивать такие ошибки, чтобы в дальнейшем использовать выбранные методы для оптимизации работы кодеков, сбора статистики, а также анализа воспринимаемой информации. Полученные в результате опыта данные показывают, что метрика VMAF хорошо коррелирует с воспринимаемым качеством и ее можно использовать в дальнейших задачах оценки качества потокового видео.
Литература
1. Romer M. MPEG-4 Video Quality Analysis // Video Communications Project, 2004.
2. Rodriguez E. R. Robust Error Detection Methods for H.264/AVC Videos / E. R. Rodriguez; Universitat Politecnica
de Catalunya; EPSC Technical University of Vienna; Institute of Communications and Radio-Frequency Engineering. — Vienna, 2008. — 65 p.
3. Kolkeri V. S. Error Concealment Techniques in H.264/AVC for Video Transmission Over Wireless Network / V. S. Kolkeri; University of Texas at Arlington. — 2009.
4. Иванов Ю. А. Оценка качества потокового видеостандарта H.264/AVC при передаче в нестабильных каналах связи широкополосных сетей беспроводного доступа 4G // Вестник Чувашского университета. 2010. № 3. C. 268-278.
5. Сидоров Д. В. Оценка качества изображений с использованием вейвлетов / Д. В. Сидоров, А. Н. Осокин, Н. Г. Марков // Известия Томского политехнического университета. Инжиниринг георесурсов. 2009. Т. 315, № 5. С. 104-107.
6. Wang Z. Modern Image Quality Assessment: Synthesis Lectures on Image, Video, and Multimedia Processing / Z. Wang, A. C. Bovik. — USA: Morgan & Claypool, 2006. — 156 p. DOI: 10.2200/S00010ED1V01Y200508IVM003.
7. Image quality assessment: From error visibility to structural similarity / Z. Wang, A. C. Bovik, H. R. Sheikh, E. P. Si-
moncelli // IEEE Transactions on Image Processing. 2004. Vol. 13, Is. 4. Pp. 600-612. DOI: 10.1109/TIP.2003.819861.
8. Toward A Practical Perceptual Video Quality Metric / Z. Li, A. Aaron, I. Katsavounidis, et al. — 06.06.2016 // The Netflix TechBlog. URL: http://netflixtechblog.com/toward-a-practical-perceptual-video-quality-metric-653f208b9652 (дата обращения 18.08.2020).
9. Sheikh H. R. Image Information and Visual Quality. / H. R. Sheikh, A. C. Bovik // IEEE Transactions on Image Processing. 2006. Vol. 15, Is. 2. Pp. 430-444.
DOI: 10.1109/TIP.2005.859378.
10. Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments / S. Li, F. Zhang, K. N. Ngan, L. Ma // IEEE Transactions on Multimedia. 2011. Vol. 13, Is. 5. Pp. 935-949.
DOI: 10.1109/TMM.2011.2152382.
11. VcDemo // Delft University of Technology. URL: http://homepage.tudelft.nl/c7c8y/VcDemo.html (дата обращения 18.08.2020).
The Rationale of Choosing a Quality Assessment
Metric of Streaming Video
PhD student N. A. Gavrilova Emperor Alexander I Petersburg State Transport University Saint Petersburg, Russia wuuzee.nd@gmail.com
Abstract. Describes the characteristics of the H. 264/AVC standard in terms of the possibility of errors during video transmission over the network. In this paper, a simulation of video transmission over a wireless network performed in order to study the effect of a random bit error in the channel. To assess the quality of transmitted video, we investigate the possibility of using the PSNR (signal-to-noise ratio), SSIM (structural similarity), and VMAF (video multi method estimation based on fusion known metrics) metrics and their subjective comparison. It shown that the VMAF metric correlates well with the perceived quality and it is appropriate to use it in problems of evaluating streaming video.
Keywords: video transmission, H.264 errors, video quality metrics, full-reference video metrics.
References
1. Romer M. MPEG-4 Video Quality Analysis // Video Communications Project, 2004.
2. Rodriguez E. R. Robust Error Detection Methods for H.264/AVC Videos. Universitat Politecnica de Catalunya, EPSC Technical University of Vienna, Institute of Communications and Radio-Frequency Engineering, Vienna, 2008, 65 p.
3. Kolkeri V. S. Error Concealment Techniques in H.264/AVC for Video Transmission Over Wireless Network. University of Texas at Arlington, 2009.
4. Ivanov Yu. A. Quality Estimation of H.264/AVC Video Stream in Case of Transmission Through Unstable Data Channels of Broadband Wireless Networks 4G [Otsenka kachestva potokovogo videostandarta H.264/AVC pri peredache v nestabil'nykh kanalakh svyazi shirokopolosnykh setey besprovodnogo dostupa 4G], Bulletin of the Chuvash University [Vestnik Chuvashskogo universiteta], 2010, No. 3, Pp. 268-278.
5. Sidorov D. V., Osokin A. N., Markov N. G. Image Quality Estimation Using Wavelets [Otsenka kachestva izo-brazheniy s ispol'zovaniem veyvletov], Bulletin of the Tomsk Polytechnic University. Geo Assets Engineering [Izvestiya Tomskogo politekhnicheskogo universiteta. Inzhiniring georesursov], 2009. Vol. 315, No. 5, Pp. 104-107.
6. Wang Z., Bovik A. C. Modern Image Quality Assessment: Synthesis Lectures on Image, Video, and Multimedia Processing. USA, Morgan & Claypool, 2006, 156 p.
DOI: 10.2200/S00010ED1V01Y200508IVM003.
7. Wang Z., Bovik A. C., Sheikh H. R., Simoncelli E. P. Image quality assessment: From error visibility to structural similarity, IEEE Transactions on Image Processing, 2004, Vol. 13, Is. 4, Pp. 600-612. DOI: 10.1109/TIP.2003.819861.
8. Li Z., Aaron A., Katsavounidis I., et al. Toward A Practical Perceptual Video Quality Metric, The Netflix TechBlog Published online at June 06, 2016.
Available at: http://netflixtechblog.com/toward-a-practical-perceptual-video-quality-metric-653f208b9652 (accessed 18 Aug 2020).
9. Sheikh H. R., Bovik A. C. Image Information and Visual Quality, IEEE Transactions on Image Processing, 2006, Vol. 15, Is. 2, Pp. 430-444. DOI: 10.1109/TIP.2005.859378.
10. Li S., Zhang F., Ngan K. N., Ma L. Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments, IEEE Transactions on Multimedia, 2011, Vol. 13, Is. 5, Pp. 935-949. DOI: 10.1109/TMM.2011.2152382.
11. VcDemo // Delft University of Technology. Available at: http://homepage.tudelft.nl/c7c8y/VcDemo.html (accessed 18 Aug 2020).