УДК 681.3.07
Методика оценки качества декодирования видео стандарта H.264/AVC/SVC в беспроводных сетях
Ю.А. Иванов, аспирант Чувашского государственного университета (ЧГУ), г. Чебоксары, e-mail: [email protected]
С.А. Лукьянцев, аспирант Российского государственного университета туризма и сервиса (РГУТиС), г. Москва, e-mail: [email protected]
Рассмотрена методика оценки качества передачи видео в беспроводных сетях; приведено понятие трасс видеопоследовательностей для оценки качества видео при передаче по сетям; предложены схемы одноуровневого, временного и пространственного масштабируемого кодирования; представлены показатели искажения и качества.
Estimation procedure of video transmission quality in wireless networks is shown; video track notion for quality rating of video sequences transmitted over some kinds of networks is given; flat- , time- and spatial scalable coding schemes are shown; quality and distortion indexes are shown.
Ключевые слова: беспроводной канал, стандарт H.264, видеокачество, видеотрассы, MSE, PSNR.
Key words: wireless channel, standard H.264, video quality, video trace, MSE, PSNR.
Введение
При передаче видео по каналам связи важно обеспечить пользователю необходимый уровень воспринимаемого качества, что обеспечивается выбором сети и параметров сжатия. Благодаря повышенной компрессии, новейший стандарт видеокодирования H.264/AVC позволяет транслировать видео в низкоскоростных сетях без заметного ухудшения качества, что позволяет использовать этот стандарт для видеоприложений в беспроводных сетях.
В работе предложена методика оценки качества видео и мультимедийных приложений при передаче по беспроводным сетям в условиях воздействия шумов и помех в канале связи.
Форматы кодирования
Основной целью исследований эффективности передачи видеопотоков в сетях беспроводного доступа является оптимизация декодирования по критерию «скорость кодирования - искажение» R-D (от англ. Rate-Distortion). Данный критерий характеризует эффективность цифровой передачи видео и качество декодирования на приеме. Для правильного декодирования видеосигнала, прошедшего через ненадежную среду передачи данных, применяются различные методы исправления ошибок, которые по-разному влияют на качество полученного изображения. Существуют различные методики, позволяющие количественно и качественно оценить характеристики закодированного видео [1 - 10].
Как правило, закодированное видео может быть представлено в нескольких формах:
• фактический закодированный поток двоичных сигналов, обычно большого размера, защищенный авторским правом и требующий экспертизы при кодировании/декодировании, что затрудняет его распространение среди пользователей;
• видеотрассы, содержащие в битовом потоке информацию о закодированном видео (но не фактическую закодированную информацию), которые свободно распространяются среди пользователей;
• в виде моделей видеотрафика, основанных на видеотрассах с определенными статистическими свойствами, ограничивающими пользователя в выборе видеожанра (например, спорт, новости).
Видеотрассы дают возможность исследовать сети без применения дорогостоящей аппаратуры и программного обеспечения, поскольку легко могут быть получены результаты. В то же время они намного меньше по объему, чем закодированное видео, и легко могут быть использованы при моделировании.
На практике принято использовать формат УЦУ, в котором видеопоследовательности оцениваются по яркости (У), цвету (и) и насыщенности (V). При имитации (в тестах) используется только яркость У, поскольку визуальное восприятие человека наиболее чувствительно к этому компоненту.
Беспроводные сети искажают структуру передаваемой видеопоследовательности путем добавления ошибок в высокоскоростной видеопоток. Форматы MPEG-4 и его часть H.264 менее ресурсоемки, поэтому подходят для передачи видео в реальном времени, в том числе и по низкоскоростным сетям.
Стандарт MPEG-4 позволяет достичь высоких степеней сжатия за счет использования пространственной и временной избыточности в видеокадрах. Таким образом, обработке подлежат только те элементы изображения, которые изменились по сравнению с аналогичными элементами предыдущего кадра. Традиционно кодер MPEG-4 генерирует три типа кадров: I, P и B. Кадры I являются независимыми кадрами, тогда как P-кадры зависят от предыдущих I- или P-кадров. В дополнение к I- и P-кадрам также используются B-кадры двунаправленного предсказывания, зависящие от предшествующих и последующих I-или P-кадров. Каждая повторяющаяся последовательность этих кадров называется «группой кадров» GoP (от англ. Group of Pictures). Таким образом, используется временная корреляция последующих видеокадров. В результате применения оценки параметров движения и методики компенсации появляется межкадровая зависимость. В большинстве случаев при потере определенного кадра в процессе декодирования теряется несколько видеокадров, что также необходимо учитывать при использовании трасс.
По сравнению с MPEG-4 стандарт
H.264/AVC/SVC обеспечивает более качественное сжатие за счет применения более сложных схем статистического кодирования потока, большей точности представления векторов движения в кадре. Для масштабирования опорных фреймов применяется достаточно сложная многоточечная интерполяция. В сложных для кодирования сценах с быстрым движением обеспечиваются более плавные цветовые переходы, а сжатие похожих цветов осуществляется с меньшим битрейтом. Меньшее количество артефактов достигается благодаря расширенной функции фильтра блочности. В общей сложности сжатие данных происходит в 2 - 3 раза эффективнее, чем с помощью предшествующих форматов MPEG.
Стандарт H.264/AVC разработан для одноуровневого (не масштабируемого) кодирования. Кроме того, H.264/AVC не использует иерархичность B-кадров, сохраняя, по существу, структуру кадров, как в MPEG-4 Part 2. Следовательно, видеотрассы для H.264/AVC имеют ту же самую структуру и могут использоваться подобно трассам MPEG-4 Part 2 (или H.262).
Стандарт H.264/SVC первоначально разрабатывался для масштабируемого видеокодирования, но может также использоваться для одноуровневого кодирования видео. Важным преимуществом, используемым в H.264/SVC, является иерархичность В-кадров.
На рис. 1. представлена последовательность закодированных видеокадров по принципу 1РРР... с межкадровой зависимостью [11].
Если видеокадр не декодирован, поскольку не был получен вовремя или потому что был поврежден во время передачи, то основным и общепринятым подходом для декодера является отображение последнего успешно принятого и декодированного кадра, пока не будет правильно принят и декодирован новый кадр. В примере, показанном на рис. 1, принято предположение, что 5-й кадр Р-типа (перечеркнут на рис.) не может быть декодирован. Впоследствии 6- и 7-й кадры не могут быть декодированы, поскольку они зависят от 5-го кадра в декодере. Таким образом, в этом примере ошибка в 5-м кадре распространяется и на следующие кадры. То есть декодер восстанавливает 4-й кадр вместо 5-, 6-, и 7-го кадров. Ошибка распространения от недоступного кадра в декодере (например, из-за ошибки или задержки передачи) передается к последующим кадрам, пока декодер не получит новый 1-кадр. Это может быть достигнуто при фиксированной структуре и ограничении длины группы кадров GoP так, чтобы в установленных интервалах был закодирован 1-кадр, или при обратной связи декодера с кодером для обозначения I- кадра.
При кодировании временным масштабированием В-кадры базового уровня составляют уровень расширения. Для примера можно рассмотреть схему временного масштабирования со структурой ОоР 1ВВРВВРВВ. В этой структуре уровень расширения состоит из всех В-кадров. Поскольку другие кадры не зависят от В-кадров, уровень расширения в декодере может добавляться или удаляться. В примере, показанном на рис. 2, базовый
Рис. 2. Временное масштабируемое видео с межкадровой зависимостью с ошибкой при передаче
уровень состоит из I- и P-кадров, обеспечивая одну треть оригинальной частоты кадров в декодере, а успешный прием базового уровня и уровня расширения обеспечивает оригинальную частоту кадров. B-кадры уровня расширения закодированы относительно предшествующих и следующих I- и P-кадров базового уровня.
Как показано на рис. 2, потеря кадра базового уровня приводит к потере зависимых кадров на уровне расширения [12]. Одновременно потеря кадра в базовом уровне распространяется на следующие кадры базового уровня до нового I-кадра. В декодере происходит потеря 7-го кадра P-типа. Поскольку предыдущие два B-кадра уровня расширения на позициях 5 и 6 полагаются на P кадр в позиции 7, они не смогут быть декодированы. В свою очередь, декодер восстанавливает изображение 4-го кадра вместо 5-го, 6-го и 7-го кадров. Таким образом, следующие кадры базового уровня не могут быть декодированы, пока декодер не получит успешно новый I-кадр. До этого момента следующие кадры уровня расширения не смогут быть декодированы.
Пространственное масштабируемое кодирование видео обеспечивает низкую разрешающую способность закодированного видео базового уровня. При увеличении уровней расширения, доступных декодеру, разрешающая способность декодированного видео увеличивается. К примеру, можно предположить, что базовый уровень обеспечивает разрешающую способность QCIF, а один уровень расширения дополнительно к основному уровню обеспечивает разрешение CIF закодированного видео. Кадры уровня расширения могут быть закодированы только относительно соответствующих кадров базового
уровня, используемых для оценки качества видео, или относительно соответствующего кадра базового уровня и предыдущего кадра уровня расширения, с использованием оценки движения и методики компенсации. Для дополнительных уровней расширения применяется аналогичный механизм. На рис. 3 представлена схема пространственного масштабируемого кодирования с межкадровой зависимостью Р-кадров.
Рис. 3. Пространственное масштабируемое видео с межкадровой зависимостью при различных ошибках при передаче
На рис. 3 можно заметить, что декодером успешно получены первые четыре кадра обоих уровней, 5-й кадр получен только базовым уровнем, вследствие чего декодер не отображает версию кадра расширенного уровня. Оставшиеся два кадра (6- и 7-й) являются недоступными, и декодер восстанавливает изображение 5-го кадра для обоих кадров. Таким образом, декодер отобразил бы высококачественную версию видео кадров 1- 4-го кадров размером CIF, низкокачественную версию 5-го кадра, и восстановил бы изображение 5-го кадра вместо 6- и 7-го кадров.
Влияние вероятности потери пакета на качество декодирования видео
Рассмотрим статистические параметры, характеризующие качество декодируемых видеопоследовательностей, которые могут быть оценены по результатам измерений. В частности, возможно вычисление отношения между числом потерянных пакетов p и полученных кадров f При подсчете числа кадров f можно предположить, что если качество кадра (например PSNR) будет ниже определенного порогового значения, то кадр считается «потерянным» [13]. В результате число полученных кадров f можно выразить как f (1 - ф), где ф - число «потерянных» кадров; f - число кадров в исходном битовом потоке в кадрах в секунду (например 30 кадр/с).
Число потерянных кадров ф является суммой условных вероятностей:
р = Х Р(£ ), (1)
г
где г - тип кадра (I, Р и В); Е - событие, которое характеризует «потерю» кадра при снижении качества ниже определенного порога; £ - событие, характеризующее передачу кадра г-го типа; Р£) -априорная вероятность, которая может определяться для каждого типа кадров непосредственно из битового потока данных.
Можно оценить условную вероятность Р(Е \ fi ) для каждого типа кадров £ . Если предположить, что при потере одного пакета теряется и кадр (или эффект потери одного пакета заметен на следующих кадрах), то кадр считается пустым или «бесполезным». В этом случае условная вероятность Р(Е \ I) является случайной переменной Бернулли, прямо пропорциональной числу успешно доставленных видеокадров. Аналогично можно
определить условную вероятность Р(Е \ I) для
каждого 1-кадра. Условная вероятность Р(Е \ I) является вероятностью того, что кадр 1-го типа не будет успешно декодирован в приемнике и оценивается по формуле.
Р(Е \ I) = 1 - (1 - Р)\ (2)
где $ - среднее число пакетов в 1-кадре.
Условные вероятности для Р- и В-кадров немного сложнее и требуют понимания межкадро-вой зависимости.
Каждый Р-кадр зависит от предшествующих I- или Р-кадров, и каждый В-кадр зависит от двух окружающих (соседних) кадров (ближайшие два I- или Р-кадра). Таким образом, успешное декодирование Р-кадров зависит от всех предшествующих I- или Р-кадров, а успешное декодирование В-кадров зависит от успешного декодирования всех окружающих кадров, что подразумевает успешное декодирование предшествующих и следующих I- или Р-кадров. Эти зависимости выражаются в следующем виде:
Эти выражения можно упростить, переписав
1
NP
P(F\P) =NtL(1 "(I)■ (3)
'P k=1
NP
1
P(F \ B) < — £(1 - (1 - p)Sl+(k+1)Sp+Sb ). (4) N p
P k=1
Здесь SP - среднее число пакетов в P-кадре; NP - число P-кадров в GOP; SB - число пакетов в B-кадре.
их в виде
P(F \ P) = 1
P(F \ B) <1
Np (1 - (1-p)SP)
(1 - (1-p)SpNp ) (5)
(1 - p)
S,+SP+S„
Np (1 - (1-p)SP )
(1 - (1- p)SpNp ).
(6)
Используя уравнения (1), (2), (5), и (6), можно получить выражение для ф, а затем, имея значения NP, S:, SP, SB и f , можно оценить и число полученных кадров f=f0(1 - ф).
Оценка вероятности битовой ошибки
Источником искажений и ошибок между кодером и декодером при передаче видео является беспроводной канал. Наиболее распространенной моделью канала является «аддитивный белый Гауссовский шум» или AWGN (от англ. Adaptive White Gaussian Noise). Принятый в канале AWGN сигнал может быть представлен как r(t) = s(t) + n(t), где s(t) - переданный сигнал; n(t) - шумовой сигнал, имеющий среднее значение 0 и спектральную плотность мощности шума N0/2, Вт/Гц [14].
Так, при использовании в системах радиодоступа QAM-модуляции вероятность битовой ошибки n-го подканала может быть выражена следующим образом [15]:
2 (JM. -1]
у[м~п log2M
2 (уМ -1)
-erfc
P. 3\H„
2 ( m. - 1)ct
erfc
E, 3en\H,
Id
N0 2 (M. -1) ’
(7)
где Mn - число поднесущих; Hn - функция преобразования n-го субканала (коэффициент передачи субканала); ES/N0 - отношение сигнал/шум передаваемого (OFDM) символа; sn = Р,/Рт - доля мощности для n-го субканала.
В реальных модемах число поднесущих Mn = М ограничено и постоянно (например, М = 2, 4, 16, 64) [16].
Как правило, модель AWGN не вполне соответствует реальным условиям передачи в беспроводных каналах, поскольку передаваемый сигнал подвержен «замираниям». Замирания представляют собой флуктуации мгновенных значений напряженности сигнала в месте расположения приемника из-за многолучевости трасс распространения при прохождении сигнала от передатчика.
,
2
2
Основными факторами, влияющими на сигнал, распространяющийся в беспроводной среде, являются отражение, дифракция и рассеивание. Также в модели беспроводного канала должны учитываться следующие факторы [17]:
• задержка при многолучевом распространении;
• характеристики затухания;
• потери при передаче;
• доплеровское распространение;
• помехи с o-канала (интерференция).
При имитации беспроводного канала должны рассматриваться все перечисленные факторы, поскольку они являются естественными процессами, происходящими в канале.
В результате величину искажения видеокадра и качество видеопоследовательности при прохождении через беспроводной канал можно оценить, например, путем сравнения декодированного сигнала с исходным при использовании субъективных тестов или объективных показателей путем имитационного моделирования.
Методы оценки качества воспроизведения видео
Известно множество методов, используемых для вычисления объективного качества изображения или видео, которые не всегда совпадают с чувственной оценкой зрителей. В связи с этим были введены субъективные показатели качества видео, позволяющие классифицировать восприятие человека.
Измерение качества воспринимаемого видео производится с использованием методов субъективных шкал. Условием для таких измерений является наличие смысла, т.е. то, что существует связь между физическими характеристиками «воздействия», в данном случае видеопоследовательности, представляемой субъекту при тесте, и величиной и природой ощущения, вызванного воздействием. Итоговый выбор одного из этих методов для определенного приложения зависит от нескольких факторов, таких как содержания, цели и где в процессе выполнения теста он выполняется [18]. Наиболее популярными являются следующие методы [19], [20]:
1) двойная шкала деградации DSIS (от англ. Double Stimulus Impairment Scale);
2) шкала непрерывной оценки качества DSCQS (от англ. Double Stimulus Continuous Quality Scale);
3) оценка видео с использованием сравнительной шкалы SCACJ (от англ. Stimulus Comparison Adjectival Categorical Judgement);
4) субъективный метод оценки качества видео SAMVIQ (от англ. Subjective Assessment Method for Video Quality evaluation);
5) непрерывная оценка качества MSUCQE (от англ. MSU Continuous Quality Evaluation).
Традиционно субъективное качество видео определяется путем экспертной оценки и подсчетом среднего балла MOS (от англ. Mean Opinion Score) от 1 до 5 (шкала ITU), где 1 - наихудшее, а 5 - наилучшее полученное качество видео [21]. Этот подход, однако, требует определенных экспертных навыков и поэтому не используется в автоматизированных системах.
Для проведения субъективного тестирования, как правило, необходимо следующее [22]:
• выбрать видеопоследовательности для тестирования (обычно используется видео около 8 - 10 с, чтобы предотвратить рассеивание внимания экспертов и сократить общее время экспериментов);
• выбрать настройки сравниваемых систем обработки видео;
• выбрать метод тестирования;
• пригласить достаточное число экспертов (рекомендуется не менее 15);
• получить окончательные оценки, основываясь на мнении экспертов.
Качество видео может контролироваться во время передачи. В зависимости от объективных показателей происходит настройка параметров и, при возможности, ретрансляция данных. Преимуществом этого подхода является возможность автоматизации процесса тестирования, что позволяет измерять качество обработки видеосистемы при большом количестве различных настроек или измерять качество в реальном времени. Также в результате измерений получаются точные и воспроизводимые данные. Недостаток этого подхода в том, что автоматические метрики могут неверно отражать субъективно воспринимаемое качество. Это может привести, например, к неверному выводу о превосходстве одного кодека над другим [23].
Методы объективной оценки качества цифрового видео подразделяются на три категории. В методах первой категории оценка качества происходит при сравнении декодированной видеопоследовательности с исходной. Объективность этих методов заключается в том, что непосредственного человеческого вмешательства не происходит; вычисление искажения производится автоматически. Вторая категория включает в себя методы, которые сравнивают характеристики оригинальной и декодированной видеопоследовательности. Методы третьей категории оценивают только декодированное видео и его качество. Группа экспертов по
видеокачеству VQEG (от англ. Video Quality Experts Group) называет их полным, уменьшенным и независимым методами [24]. Оценка качества видео, основанная на данных видеотрасс, может быть охарактеризована как полный метод.
Традиционные показатели искажения сигнала для определения качества системы используют абсолютную разность между оригинальным и обработанным сигналом. Объективное качество видео обычно измеряется среднеквадратической ошибкой MSE (от англ. Mean Square Error) и пиковым отношением сигнала к шуму PSNR (от англ. Power Signal-To-Noise Ratio), который вычисляется из MSE и является логарифмическим показателем инверсии этой меры. MSE и его производный показатель PSNR являются традиционными метриками, позволяющими сравнивать любые два изображения. Показатель RMSE называется искажением и PSNR - качеством. По сравнению с другими объективными показателями PSNR легко вычисляется и наиболее понятен большинству пользователей. Однако оба показателя не соответствуют субъективному качеству восстановленного изображения и должным образом не отражают малые отличия ухудшения интенсивности.
Показатель структурной схожести SSIM (от англ. Structural Similarity Image Measure) наиболее близок к человеческому восприятию полученной видеопоследовательности. При его применении используется визуально воспринимаемое структурное искажение, тогда как большинство других предложенных методов основываются на чувствительности к ошибкам. Показатель SSIM определяет схожесть трех компонент изображения: яркость, контраст и структурное сходство.
Данные показатели исследуются постоянно для определения качества видео, сравнивая исходное и закодированное видео кадр за кадром, определяя искажение или качество индивидуально для каждого видеокадра. Качество видеопотока может быть определено по индивидуальным значениям качества видеокадра при использовании элементарной статистики. Обычно считается, что качество видеопотока максимально, если качество каждого отдельного кадра максимально. Переменное качество кадров ухудшает общее качество видео [25].
В табл. 1 представлено соответствие субъективной (MOS) и объективной (PSNR) оценки [26].
Знание особенностей человеческого зрения позволяет строить объективные метрики оценки качества видео, наиболее близко коррелирующие с субъективными оценками.
Таблица 1. Соответствие между PSNR и MOS
PSNR (дБ) MOS (%) Качество
>37 31 -37 25 -31 20 -25 < 20 81 -100 61 -80 41 -60 21 -40 0 -20 Прекрасное Хорошее Удовлетворительное Низкое Плохое
Метрики и показатели оценки качества изображений
К метрикам можно предъявить несколько требований [39]:
Релевантность метрики. Субъективно «лучшим» видеофрагментам должно соответствовать «лучшее» значение метрики. Эту характеристику можно измерить количественно, например, с помощью коэффициента корреляции Пирсона. Монотонность метрики. В идеальном случае разность между двумя объективными оценками видеофрагментов должна иметь тот же знак, что и разность между двумя субъективными оценками этого материала. Оценивается ранговым коэффициентом корреляции Спирмана.
Согласованность метрики. «Отклонение» значений от предсказанных на основе субъективных метрик значений не должно быть большим. Вычисляется следующим образом. Вначале выполняется ряд субъективных оценок видеофрагмента. Результаты статистически обрабатываются, и находится М8Е оценок. Затем вычисляются значения объективных метрик, и находится их количество, которые отстоят от субъективных оценок на расстоянии более чем удвоенное значение М8Е.
Получили распространение шесть классов объективных метрик качества изображений [27]:
1) пиксельные;
2) корреляционные;
3) контурные;
4) спектральные;
5) контекстные;
6) учитывающие особенности человеческого зрения.
Пиксельные метрики. К пиксельным метрикам относятся, во-первых, различные вариации метрики Минковского, например, пиковое отношение сигнал/шум, которое вводится как логарифм отношения максимально возможной энергии сигнала к квадрату среднеквадратической ошибки (М8Е). К этой метрике справедливо предъявляются претензии относительно ее несоответствия трем вышеприведенным требованиям. Несмотря на это, она широко используется. Однако в ее примене-
нии имеется один нюанс: сначала необходимо вычислить М8Е по отдельным областям (цветовым каналам, различным кадрам видео и т. д.), а уже затем брать логарифм от среднего значения М8Е.
Во-вторых, другая возможная пиксельная метрика - максимальная разность между пикселями. Здесь рекомендуется вычислять несколько значений максимальной разности и находить их среднеквадратическое значение.
Рассмотренные выше метрики позволяют сравнивать изображения только целиком. Может оказаться полезным проводить сравнение изображений, представленных при разных масштабах. Известно, что система человеческого зрения вначале оценивает низкочастотную копию изображения, затем уже вникает в детали. Таким образом, разнице между изображениями, взятыми с грубым разрешением, можно придать большие веса, а разнице высокочастотных деталей - малые веса. Подобная метрика находит применение в системах машинного зрения.
Корреляционные метрики. Эти метрики взаимосвязаны с мерами расстояния: если два изображения идентичны, коэффициент корреляции будет равен 1, если квадрат ошибки равен энергии изображения (например, значения пикселов другого изображения равны нулю), то корреляционная мера будет равна нулю. Корреляцию можно вычислять как между пикселями изображений, так и между образованными ими векторами (например, корреляция углов между векторами).
Контурные метрики. Во многих работах показано, что контуры являются наиболее информативной частью изображения. Именно контуры выделяет в первую очередь система человеческого зрения, анализ контуров используется в машинном зрении. Значит, качество контуров говорит о качестве изображения. Примеры деградации контуров включают в себя разрыв линий, размытие линий, смещение линий, ложные контуры и т. д. Для того чтобы выполнить сравнение изображений на основе контуров, необходимо каким-то образом выделить контуры на исходном изображении, затем тем же методом выделить контуры на восстановленном изображении и сравнить их (например, вычислить корреляцию).
Метрики в спектральной области. После вычисления преобразования Фурье изображения имеется возможность сравнивать амплитуду и фазу получившегося спектра. Известны предложения по построению на этой основе метрик оценки качества изображений.
Контекстные метрики. В контекстных метриках используется наличие корреляционных связей между соседними пикселями изображения и их ослабление в искаженном изображении. Для получения метрики необходимо уметь вычислять многомерную функцию распределения вероятности значений пикселов из некоторой окрестности и научиться уметь определять изменение этой функции. Другим подходом к локальной оценке искажения изображения является вычисление и сравнение для исходного и искаженного изображений локальных гистограмм. Сравнение может быть выполнено путем применения, например, рангового корреляционного критерия Спирмана. Метрики, учитывающие свойства человеческого зрения. Одной из возможностей построения метрик данного класса является предварительная фильтрация изображений полосовыми фильтрами, имитирующими их восприятие человеком. Другой возможностью построения метрик, учитывающих свойства зрения, является выполнение вейвлет-преобразования исходного и искаженного изображений, в результате чего изображения будут представлены на нескольких масштабах. Далее для каждой субполосы вейвлет-области надо выбрать масштабный вес, на который будет умножаться та или иная метрика, вычисленная локально для этой области. В зависимости от задачи эти веса могут варьироваться. Например, если важен учет высокочастотных составляющих (четкость линий и т. д.), то веса для высокочастотных областей могут быть увеличены. Метрика может вычисляться как для всей субполосы, так и локально, для ее блоков с последующим усреднением тем или иным образом.
В традиционных видеотрассах потеря и последующее восстановление изображения последнего успешно декодированного видеокадра не используется, поскольку они не содержат эту информацию. Качество видео на приемной стороне может быть вычислено элементарной статистикой.
Качество видео измеряется среднеквадратической ошибкой М8Е и пиковым отношением сигнала к шуму Р8КЯ между исходными I (х, у ) и закодированными и впоследствии декодированным I (х, у) видеокадрами. Чем больше различие между
I(х, у)и I (х, у), тем ниже значение PSNR, выражаемое в децибелах, согласно визуальной логарифмической чувствительности глаза человека. PSNR обычно вычисляется для яркости, поскольку глаз человека наиболее чувствителен к этому компоненту.
Рассмотрим видеопоследовательность, состоящую из N кадров с разрешением Dx х Dy пикселов (например, для QCIF x = 144 у = 176 и для CIF x = 288 у = 352). Пусть I(n, x, у), n = 0,..., N - 1, x = 1,..., Dx; у = 1,..., Dy обозначает яркость (компонента Y) пикселя с координатами (x, у) в видеокадре n. При этом будут справедливы формулы
1
.2
MSE nZZl1 (n’x у)-~(n’x у)]2’(8)
Dx D
D.Dy x-1 у-1
PSNRn - 10log
255 MSE n
(9)
Mx + Му + C1
2axa„ + C2
c(xZ) - _2 * "2 , C
+ CT„ + C
s(x, у) -
2"xv + C3
+ C37
где Mx -ttZx; -
N1-1 1 N
1 N
N -
i’~x 1Z (xi - Mx)2 ;
1 i-1
Величины MSE и PSNR являются справочными показателями видеокачества. Они оба необходимы, чтобы определить видеокачество исходных видеокадров в дополнение к декодированным видеокадрам. В то же время эти показатели учитывают оценку видеокачества без фактического потока двоичных сигналов [28, 29]. Однако вычисление искажения при оценке движения, основанное на показателе ошибочности пикселя, не в полной мере соответствует визуальному восприятию человека. Доказано, что показатель SSIM может обеспечить лучшее отражение значения искажения изображения, чем в настоящее время используемые PSNR или MSE [30, 31]. Также недостатки PSNR и MSE представлены в [32, 33, 34, 35].
Показатель SSIM является новой объективной метрикой, измеряющей качество между искаженным и исходным изображением, путем вычисления ухудшения структурной информации [33]. SSIM определяется как результат трех локальных составляющих: сравнения яркости (функция средних значений), сравнения контраста (функция вариаций) и сравнения структуры (функция коэффициента корреляции и вариации):
SSIM(x y) = [/(x,y)]“ [c(x,y)f [s(x, y)]r.
Здесь a = в = у = 1;
2« « + C1 /(x, y) = ^v 1
CTxv = ТГ“г2 (x “ «x )(yt - My ).
N -1 i=1
В последних трех выражениях x и y - два локальных размера окна одинакового пространственного местоположения в двух изображениях; xi - i-й пиксель в x(i = 1, •••, N); px - среднее значе-
2
ние x; °'x - вариация x; G - ковариация x и y ;
C1 = (0,01L)2, C2=(0,03L)2, C3=C2/2 - константы, введенные для того, чтобы каждая составляющая не равнялась нулю; L - диапазон значений пикселя (для 8-битового пикселя L=255).
Среднее значение SSIM (MSSIM) полного качества всего изображения определяется как среднее число SSIM всех локальных окон:
1 M
MSSIM( x, y) = — Z SSIM(xJ, у,),
где x, - j-е локальное окно (8 х 8) изображения; М -число локальных окон в изображении.
Для описанных типов видео декодер может или декодировать индивидуальный видеокадр, или нет. Качество видеопотока обычно максимально, если качество индивидуальных кадров максимально, и будет меняться, если качество кадров видеопотока будет минимальным. Изменение качества при потере определенных кадров вычисляется как стандартная девиация полученного видео. Для успешно декодированных и отображенных видеокадров качество видео может быть определено уравнением (9).
В табл.2 представлены показатели трафика и качества видеопоследовательности с фиксированным масштабом квантизации q [36].
Необходимо отметить, что коэффициент вариации размеров кадра CoVX широко используется как показатель изменения размера кадра, т. е. изменчивость битрейта закодированного видео.
Коэффициент CoV как функция от шкалы квантизации (или аналогично PSNR, видео качества) дает отношение изменчивость-искажение (VD). Напротив, отношение пикового к среднему размеру кадра (PtM) обычно используется для выражения изменчивости трафика.
Также необходимо отметить, что если каждый видеокадр передается через период т (например, 33 мс при 30 кадров/с), то необходимая скорость Rm кадра Xm будет Rm = Xm/T. Размер Yn GOP n равен сумме размеров всех кадров N в GoP.
Таблица 2. Показатели трафика и качества видеопоследовательности
Показатель Определение
1 2
Показатели размера кадра
N Число кадров в видеопоследовательности
хп Размер закодированного видеокадра п, бит, п=1,..., N
X = (1/N ) £ X„ n = 1 Средний размер закодированного видеокадра
N SX = (1/(N - 1))£ (Xn - X)2 n = 1 Вариация размера кадра ($*■ является стандартной девиацией), бит
CoVX = SX / X Коэффициент вариации размера кадра
Xmax = maX n=1,....,N Xn Максимальный размер кадра
PtMX = Xmax / X Отношение пикового размера кадра к среднему
_ (k ) 1 '£-' X X lXn+t - X ) pX (k )= N -k £ SX Коэффициент автокорреляции с задержкой к, к = 0,..., N - 1
Показатели битрейта
T Период кадра, с
R = X / T Средний битрейт, бит/с
Rmax = Xmax/ T Пиковый битрейт, бит/с
Показатели размера GOP
G Число кадров в GOP
( m+1)G-1 y, = £ x„ n=mG Размер GOP m, m=0,..., N/G - 1, бит
N / G r = ( N / G ) £ rm m=1 Средний размер GOP, бит
PtM r = rmax/ ï Отношение пикового к среднему размеру GOP
CoFr = Sr /ï Коэффициент изменения размера GOP
Показатели качества кадра
1 Dx Dy - 2 MSEn = nn ££[7(n’x’y) 7(n’x’y)] DxDy x=1 y = 1 Среднеквадратическая ошибка п-го видеокадра
PSNRn = 10 • log10 255 • n 10 MSEn Пиковое отношение сигнал/шум п-го видеокадра, дБ
SSIMn/. = 0,8SSIMn,KOCIb + 0. 1SSIMH/a0H4eHH0crb + 0.1SSIMn/BeT Показатель структурной схожести /-го локального окна п-го видеокадра
1 M mssim n = M £ SSIM j Среднее значение SSIM полного качества п-го видеокадра
Показатели качества видеопоследовательности
1 N -1 MSE = —£ MSE iv n = 0 Среднее М8Е для общего числа кадров
255 PSNR = 10 log 10 10 MSE Среднее значение качества, дБ
' 1 N-1 PSNR = —£ PSNR Nn N n = 0 Альтернативное среднее качество, дБ
Продолжение табл. 2
________ ï N M
SSIM =------------У У SSIM
n=0 j=1
Полное качество видеопоследовательности
S =
MSE
N -1
У (mSE n - MSE)!
n=0
Вариация качества
VS
2
MSE
Стандартная девиация MSE
S
PSNR
1 N-1 ( _'
-------У I PSNR n - PSNR
N - 1 П=о І n
Альтернативная стандартная девиация качества
CoV =
MSE
Коэффициент изменения качества
CoV =
SP
PSNR
Альтернативный коэффициент изменения качества
PSNR111“ = max PSNR - min PSNR
0 < n < N-1 n 0 < n < N-1
Диапазон изменения качества, дБ
Ny-1 (mSE n - MSE )(mSE n+1 - MSË7
Zj О 2
Ръ
(k ) =
1
N - k
S M
Коэффициент автокорреляции с задержкой k, k = 0,.., N — 1
Показатели качества группы кадров (a = G)
MSE m) = MSE m) - У MSE
(a )
1 (m+1)a-1
Среднее MSE для общего числа кадров
PSNR m) = 10log
255
MSE
(a )
Среднее значение качества, дБ
S2(a ) = ° MSE
ï N / a-1 /
h у (
a 1 n=0
N / a -
MSE n)- MSE )
Вариация качества
s (a) = [S
SMSE VS1
2(a ) MSE
Стандартная девиация MSE
S
,(a ) =
PSNR
N / a -
ï N / a-1
1— У
a - 1 n=0
PSNR na) - PSNR
Альтернативная стандартная девиация качества
S (a )
CoV (a ) = MSE
MSE
Коэффициент изменения качества
s '(a )
C0V ' (a ) = PSNR
PSNR'
Альтернативный коэффициент изменения качества
PSNR’
x (a ) =
= max PSNR (na )- min PSNR
(a )
0 < n < N / a-1
Диапазон изменения качества, дБ
(mSE (na ) - MSE )(MSE na+k - MSE )
p(a) = r MSE
1
N / a - k
У
S(a ) MSE
Коэффициент автокорреляции с задержкой k, k = 0, a, 2a,..., N/a - 1
Показатели корреляции между размером кадра и качеством
S
1 N-1 / Й-T У (
— 1 n = 0
MSE )
Ковариация между размером кадра и качеством кадра MSE
SX
Рх
Коэффициент корреляции «размер - качество» MSE
N
1 N-1 (
-, У(х
n = 0
Ковариация между размером кадра и качеством кадра PSNR
1
2
2
n=0
n
n=ma
10
2
2
n
0 < n < N / a-1
n=0
S
Окончание табл. 2
1 2
е _ _ XPSNR Я xpsnr _ ее' ехе PSNR Коэффициент корреляции «размер - качество» РБЖ
еЦв _ ^т1—1 zXi”1 - x'msen'Xmse1;> - mse) N / a - 1 „_o Ковариация между объединенными кадрами и объединенным качеством (МБЕ)
е (a' Ja) XMSE PXMSE- е(a) е(a) ЄХ ^MSE Коэффициент корреляции между объединенными кадрами и объединенным качеством (М8Е)
1 N / a-1 v/ ' \ е™ _ N/arT ^ X '- X) PSNR'(a'-PSNR 1 Ковариация между объединенными кадрами и объединенным качеством (PSNR)
е(a) Ja) XPSNR Z^XPSNR е(a) oi(a) еХ е PSNR Коэффициент корреляции между объединенными кадрами и объединенным качеством ^МЯ)
Методика оценки качества
Использование описанных метрик и показателей оценки качества воспроизведения видео на практике затруднено в силу отсутствия априорной информации о многих сопутствующих факторах. Вследствие этого оценка влияния условий передачи на качество воспроизведения изображений при декодировании возможна лишь при проведении имитационного моделирования.
В частности, для оценки качества декодирования при передаче видео в беспроводных сетях предлагается использовать следующую методику:
1) исходная видеопоследовательность кодируется кодеком;
2) видео-поток преобразуется в транспортный поток (модулируется);
3) транспортный поток подвергается искажению (передается через беспроводную сеть);
4) искаженный поток декодируется в приемнике;
5) производится оценка декодированного видеопотока.
Структурная схема алгоритма оценки видео при передаче по беспроводной сети, реализующая изложенную методику, представлена на рис.4.
При имитации могут быть использованы общедоступные трассы одноуровневого и двухуровневого кодированного видео с использованием временной и пространственной масштабируемости [37].
Как правило, используется четыре различные структуры GoP, а именно, IBPBPBPBPBPBPBPB (16 кадров, один B-кадр между I/P-кадрами), обозначаемый как G16-B1; IBBBPBBBPBBBPBBB (16 кадров, три B-кадра между I/P-кадрами), обозначаемый как G16-B3; IBBBBBBBPBBBBBBB (16 кадров, семь B-кадров между I/P-кадрами), обозначаемый как G16-B7; IBBBBBBBBBBBBBBB (15 B-кадров на один I-кадр), обозначаемый как G16-B15.
Имитатор беспроводной сети может быть выполнен в программной среде Matlab Simulink, например, в случае WiMAX с обязательной реализацией всех элементов OFDM физического уровня, определенными в стандарте IEEE 802.16-2004.
Может быть использована адаптивная модуляция, позволяющая избежать временных вариаций в многолучевом затухающем канале, что позволит мгновенно приспособиться к вариациям отношения сигнал/шум в канале и, таким образом, максимизировать пропускную способность системы. Влияние помех на полученное качество видеопотока может быть легко исследовано путем изменения параметров канала (SNR).
Исходный MPEG-4 / Н.264 Кодер
сигнал кодер канала
Результат
Сравнение
сигналов
Беспроводной канал (искажение сигнала)
MPEG-4/Н.264 Декодер
декодер канала
Рис. 4. Структурная схема алгоритма оценки
Сравнение полученного декодированного (искаженного) и оригинального потоков может быть осуществлено, например, при помощи программы MSU Video Quality Measurement Tool [38]. С этой целью в программе предусмотрено использование метрик PSNR, SSIM и специально разработанных метрик для замера резкости и степени блочности. Основной метрикой для объективной оценки качества декодированных последовательностей является метрика PSNR, применяемая к Y-компоненте, как наиболее значимой для восприятия человеком [38].
Предложена методика оценки качества воспроизведения видео в стандарте H.264/AVC/SVC при передаче в беспроводных сетях. Представлены аналитические показатели и параметры оценки искажения и качества воспроизведения сжатого видео.
ЛИТЕРАТУРА
1. Dai M. and Loguinov D. Analysis and modeling of MPEG-4 and H.264 multi-layer video traffic, in Proceedings of IEEE INFOCOM, Miami, FL, Mar. 2005.
2. Feng W.-C. Buffering Techniques for Delivery of Compressed Video in Video-on-Demand Systems. Kluwer Academic Publisher, 1997.
3. Koutsakis P. and Paterakis M.Call-admission-control and traffic-policing mechanisms for the transmission of videoconference traffic from MPEG-4 and H.263 video coders in wireless ATM networks IEEE Transactions on Vehicular Technology, vol. 53, No. 5, pp. 15251530, Sept. 2004.
4. Krunz M. and Tripathi S., Exploiting the temporal structure of MPEG video for the reduction of bandwidth requirements, in Proc. of IEEE Infocom, vol. 1, No. 1, Kobe, Japan, Apr. 1997, pp. 67-74.
5. Krunz M., Sass R., and Hughes H., Statistical characteristics and multiplexing of MPEG streams, in Proceedings of IEEE INFOCOM, Boston, MA, Apr. 1995, pp. 455-462.
6. Liebeherr J. and Wrege D., Traffic characterization algorithms for VBR video in multimedia networks, Multimedia Systems, vol. 6, No. 4, pp. 271-283, July 1998.
7. Roberts J. W., Internet traffic, QoS, and pricing, Proceedings of the IEEE, vol. 92, No. 9, pp. 1389 - 1399, Sept. 2004.
8. Rose O., Statistical properties of MPEG video traffic and their impact on traffic modelling in ATM systems, University of Wuerzburg, Institute of Computer Science, Tech. Rep. 101, Feb. 1995.
9. Sarkar U., Ramakrishnan S., and Sarkar D., Study of longduration MPEG-trace segmentation methods for developing frame-size-based traffic models, Computer Networks, vol. 44, No. 2, pp. 177-188, Feb. 2004.
10. Seeling P., Reisslein M., and Kulapala B., Network performance evaluation with frame size and quality traces of singlelayer and two-layer video: A tutorial, IEEE Communications Surveys and Tutorials, vol. 6, No. 3, pp. 58-78, Third Quarter 2004.
11. Seeling P., Reisslein M., and Fitzek F., Offset distortion traces for trace-based evaluation of video quality after network transport, in Proc. of IEEE Int. Conference on Computer Communications and Networks (ICCCN), San Diego, CA, Oct. 2005, pp. 375-380.
12. Layered video coding offset distortion traces for trace-based evaluation of video quality after network transport, in Proc. of IEEE Consumer Communications and Networking Conference CCNC, Las Vegas, NV, Jan. 2006, pp. 292-296.
13. Feamster N. and Balakrishnan H., Packet Loss Recovery for Streaming Video, 12th International Packet Video Workshop, Apr. 2002. Sect. C (3), July-September 2008, pp. 9-16.
14. Telatar I. Capacity of multi-antenna gaussian channels vol. 10, No. 6, pp. 585-595, Nov. 1999.
15. Dardari D., Martini M. G., Mazzotti M., and Chiani M., Layered Video Transmission on Adaptive OFDM Wireless Systems EURASIP Journal on Applied Signal Processing 2004 №10, pp. 1557-1567.
16. IEEE802.11, part 11, Wireless LAN Medium Access Control (MAC) and Physical Layer (PHY) Specifications: High Speed Physical Layer in the 5GHz Band, P802.11a/D7.0, July 1999.
17. Channel Models for Fixed Wireless Applications IEEE 802.16 Broadband Wireless Access Working Group IEEE 802.16.3c-01/29r4.
18. Артюшенко В. М., Шелухин О. И., Афонин М. Ю. Цифровое сжатие видеоинформации и звука: Учебное пособие / Под ред. В.М. Артюшенко. - М.: «Дашков и Ко», 2003.
19. ITU-R BT.500-11 Methodology for the subjective assessment of the quality of television pictures.
20. www.compression.ru
21. ITU-T Recommendation P.800.1, Mean opinion score (MOS) terminology, Mar. 2003.
22. http://www.ixbt.com/divideo/estimate1.shtml
23. http://www.ixbt.com/divideo/codex-psnr.shtml
24. Rohaly M.Video Quality Experts Group: Current Results and Future Directions, In: SPIE Visual Communications and Image Processing, Perth, Australia, June 21-23, 2000, Vol. 4067, p.742-753.
25. Lakshman T., Ortega A., and Reibman A., VBR video: Tradeoffs and potentials, Proceedings of the IEEE, vol. 86, No. 5, pp. 952-973, May 1998.
26. Klaue J., Rathke B. and Wolish A., EvalVid - A Framework for Video Transmission and Quality Evaluation, In Proc. of the 13th International Conference on Modelling Techniques and Tools for Computer Performance Evaluation, pp. 255-272, Urbana, Illinois, USA, September 2003.
27. Avcibas I. Image Quality Statistics and their use in steganalysis and compression. PhD The-sis.Bogazichi Un-iv, 2001, p. 113.
28. Шелухин О.И., Иванов Ю.А., Арсеньев А.В. Анализ алгоритмов обработки интерактивной видеоконференцсвязи в системах беспроводного доступа // Электротехнические и информационные комплексы и системы, 2009, т.5, №2, С.17-26.
29. Иванов Ю.А. Некоторые проблемы сжатия и передачи видео в реальном времени в беспроводных сетях // Электротехнические и информационные комплексы и системы, 2009, т.5, №1, С.62-64.
30. Mai Z.-Y. et al. A novel motion estimation method based on structural similarity for H.264 inter prediction, IEEE ICASSP 2006, pp. 913-916, May 2006.
31. Yang C.-L., Wang H.-X., and Po L.-M. A novel fast motion estimation algorithm based on SSIM for H.264 video coding, Pacific-Rim Conference on Multimedia, pp. 168-176, Dec. 2007.
32. Wu H. R. and Rao K. R. Digital Video Image Quality and Perceptual Coding. Boca Raton, FL: CRC Press, 2006.
33. Wang Z. et al. Image quality assessment: From error visibility to structural similarity, IEEE Trans. Image Processing, vol. 13, pp. 600-612, Apr. 2004.
34. Wang Z., Lu L., and ABovik.C. Video quality assessment based on structural distortion measurement, Signal Processing: Image Communication, vol. 19, pp. 121-132, Feb. 2004.
35. Wang Z. The SSIM Index for Image Quality Assessment, SSIM index Matlab code. [Online]., http://www.ece.uwaterloo.ca/~z70wang/research/ssim/
36. Reisslein M., Lassetter J., Ratman S., Lotfallah O., Fit-zekF., Panchanathan S., Traffic and quality characterization of scalable encoded video: a large-scale trace-based study - part 1: overview and definitions, Tech. Rep., Arizona State University, Tempe, Ariz, USA, December 2003.
37. http://trace.eas.asu.edu
38. Куликов Д.Л., Ватолин Д.С. Оценка качества работы видеодекодеров стандарта MPEG-2 при работе в ненадежной среде передачи данных // Тр. конф. Graphicon-2006, C. 367 - 370.
39. Winkler S. Digital Video Quality. Vision models and metrics. Wiley, 2005. 192 p.
Поступила 25.07.2009 г.
ВНИМАНИЕ!
Издательство «Физматлит» предлагает вашему вниманию книгу «Самоподобие и фракталы. Телекоммуникационные приложения»
Авторы: О.И. Шелухин, А.В. Осин, С.М. Смольский Под редакцией О.И. Шелухина
Рассмотрены самоподобные (фрактальные и мультифрактальные) модели телекоммуникационного трафика на основе предположения, что он обладает фрактальными или мультифрактальными свойствами (т.е. является самоподобным). Представлены теоретические аспекты наиболее известных моделей трафика, проявляющих самоподобные свойства, и приведен всесторонний анализ эффективности различных моделей для описания самоподобного трафика. Показаны способы использования самоподобных процессов для создания новых и оптимизации существующих телекоммуникационных систем. Приведены теоретические подходы и описание алгоритмов (на уровне структурных схем или вычислительных процедур) для моделирования самоподобных процессов.
Для аспирантов, преподавателей и исследователей, интересующихся сетями передачи данных и динамикой информационных процессов.
Заказать и приобрести книгу можно по адресу:
117997, Москва, ул. Профсоюзная, 90.
Издательская фирма «Физико-математическая литература» МАИК
«Наука/Интерпериодика»
E-mail: [email protected]; [email protected]; http://www.fml.ru