Методы сжатия спектра телевизионных сигналов изображения

Титов А.М.

Ключевые слова: видеокодирование, временная избыточность видеопоследовательностей, побочная компенсация движения, пространственная избыточность изображения, дискретное косинусное преобразование, квантование

Постоянный рост количества передаваемой и хранимой видеоинформации делает увеличение эффективности алгоритмов кодирования телевизионных сигналов актуальной задачей. Главный критерий эффективности метода сжатия — достижение лучшего компромисса между качеством и размером видеопотока. В современных стандартах видеокодирования внедрены усовершенствованные методы сжатия визуальной информации, которые основаны на устранении избыточности телевизионного сигнала. В избыточности телевизионного сигнала можно выделить статистическую, структурную и психофизиологическую составляющие. Статистическая избыточность вызвана наличием корреляционных связей между значениями сигнала в соседних элементах изображения. Структурная избыточность связана с наличием в обычном телевизионном сигнале гасящих импульсов, во время которых информация об изображении не передаётся. Психофизическая избыточность телевизионного сигнала определяется той информацией, которая не воспринимается человеком и, следовательно, могла бы не передаваться. Психофизическую избыточность можно разделить на пространственную (внутрикадровую) и временную (межкадровую). Увеличение степени сокращения внутрикадровой избыточности разрушает видеоинформационную структуру за счёт подавления малоинтенсивных составляющих пространственного спектра или приводит к появлению выбросов при передаче границ. Увеличение же степени подавления межкадровой избыточности искажает пространственно временную структуру подвижных деталей ТВ изображений. Сопоставлены внутрикадровые и межкадровые методы сжатия видеоданных, используемые в современных стандартах кодировании видео, оценены их основные достоинства и недостатки. На основе этого анализа намечены дальнейшие пути их совершенствования.

Титов А.М.,

Аспирант кафедры телевидения им. С.И.Катаева, Sm7733@mail.iu

Виды избыточности видеоданных

В избыточности телевизионного сигнала можно выделить структурную, статистическую и психофизиологическую составляющие.

Структурная избыточность связана с наличием в обычном телевизионном сигнале гасящих импульсов, во время которых информация об изображении не передаётся. Данный вид избыточности может быть уменьшен путём передачи во время гасящих импульсов какой-либо полезной информации, например, данных, однако, большого выигрыша это не даёт.

Статистическая избыточность вызвана наличием корреляционных связей между значениями сигнала в соседних элементах одной строки, в соседних строках и в соседних кадрах. Сокращение статистической избыточности достигается путём устранения указанных корреляционных связей. Одним из наиболее известных методов сокращения статистической избыточности является кодирование с предсказанием или дифференциальная импульсно-кодовая модуляция (ДИКМ), основанная на передаче приращений значения сигнала.

Психофизическая избыточность телевизионного сигнала определяется той информацией в нём, которая не воспринимается человеком и, следовательно, могла бы и не передаваться. Психофизиологическая избыточность сокращается за счёт удаления из передаваемого сигнала информации, отсутствие которой существенно не влияет на восприятие изображения человеком. Психофизическую избыточность можно разделить на пространственную (внутрикадровую) и временную (межкадровую).

Внутрикадровые методы сжатия

В телевизионном сигнале изображения присутствует пространственная избыточность и, следовательно, важной операцией при внутрикадровом кодировании является выполнение анализа пространственных частот изображения, что позволяет передавать только фактически присутствующие частотные составляющие. В современных стандартах видеоксдирования устранение пространственной избыточности происходит, в основном, на уровне блока. При этом для устранения пространственной избыточности изображения применяются методы внутрикадрового кодирования с преобразованием.

Если рассматривать модель зрительной системы человека в виде пространственного ФНЧ, то кодирование на основе дискретного косинусного преобразования можно считать хорошо согласованными с характеристиками зрительной системы. Этот алгоритм является самым изученным и самым распространенным из всех существующих. Он хорошо оптимизирован и для него разработаны алгоритмы быстрых преобразований.

Идея методов внутрикадрового кодирования изображений с преобразованием состоит в том, чтобы преобразовать отсчёты исходного изображения в соответствующие отсчёты пространственного спектра, информационная значимость которых снижается с ростом значений по координатным осям. Перед преобразованием изображение делится на блоки размером тхп. Каждому блоку пикселей изображения ставится в соответствие блок коэффициентов пространственной частоты.

Коэффициент — это число, выражающее степень присутствия конкретной пространственной частоты, имеющейся в изображении. Верхний левый коэффициент представляет среднюю яркость блока и является арифметическим средним значений всех элементов изображения, то есть постоянной составляющей. Коэффициенты, идущие далее слева направо, представляют повышающиеся горизонтальные пространственные частоты. Коэффициенты, идущие вниз, представляют повышающиеся вертикальные пространственные частоты.

Математически дискретное косинусное преобразование для блока размером МхЫ можно представить следующим образом: ЛГ-1М-1

‘Х'-у

Шу-

где

С,С. I (,),

1=0 ;=о

2N

(2)

(3)

— сэмплы изображения, — коэффициенты преобразования. Выражение обратного дискретного косинусного преобразования имеет вид:

ЛГ-іМ-і

У.Т.СхСуУху

СОБ

(2/ 4- 1 )утт (2і + 1)хтг

2 М

-СОБ

2Ы

(4)

Х& = д-.у^о

Само по себе ДКП не уменьшает количество видеоинформации, а лишь даёт представление о частотной структуре изображения. Кроме того, полученные коэффициенты ДКП требуют большего количества бит для описания каждого пикселя изображения. Например, если изображение описывается 8 битами на пиксель, то после ДКП для описания того же изображения понадобится уже 12 бит. В связи с этим необходимо уменьшать количество бит, необходимых для передачи коэффициентов ДКП, другими словами необходимо уменьшить количество возможных уровней коэффициентов, т.е. осуществить операцию переквантования.

Переквантование, или просто квантование, состоит из двух частей. На первом этапе производится взвешивание блока коэффициентов ДКП матрицей квантования. Каждый коэффициент ДКП делится на соответствующий ему взвешивающий коэффициент. Характеристики нелинейного анизотропного фильтра, возникающего в результате деления на матрицу квантования, согласованы с особенностями зрительной системы человека.

На втором этапе выполняется сам процесс переквантования, т.е. уменьшение количества разрешённых уровней сигнала. Это может быть выполнено, например, при помощи округления результатов, полученных после деления на матрицу квантования.

Наиболее точно (с огрублением до 8-битного представления) передаются низкие частоты, а для повышения точности передачи посто-

янной составляющей (среднего значения всех 64 пикселей блока) применяется специальный рекурсивный алгоритм, основанный на статистическом предположении о близости средних значений смежных блоков. Наивысшие пространственные частоты обычно квантуются в 10 раз грубее, чем самые низкочастотные составляющие.

Операция квантования воздействует на качество изображения и скорость потока. При этом эта операция выполняется в каждом макроблоке отдельно, с разными параметрами. Это даёт возможность контролировать качество изображения, или, что более важно, скорость потока, в зависимости от содержания макроблоков.

Так как чувствительность зрения с увеличением пространственных частот уменьшается, то в результате квантования происходит снижение интенсивности частотных составляющих деталей с увеличением значения их частот. В результате, очень часто многие высокочастотные составляющие обнуляются. В связи с этим, наиболее эффективный метод считывания значений коэффициентов — зигзагообразное сканирование из верхнего левого в правый нижний угол, при котором сначала прочитываются все ненулевые, а затем все нулевые коэффициенты (рис. 1). Для кодирования последних применяется метод кодирования длин серий, при котором каждой непрерывной последовательности одинаковых символов (в данном случае нулей) приписываются отдельные кодовые слова.

При декодировании (обратном ДКП) грубо квантованных спектральных коэффициентов получается изображение, пораженное специфическими помехами. Исчезают изолированные мелкие детали, появляются паразитные узоры как на границах блоков (рис. 2), так и внутри блоков (шахматная структура). В особо сложных случаях возникает разная яркость и разноцветность соседних блоков — "мозаичность" изображения (рис. 3). Заметность искажений также зависит от яркости данного участка изображения, степени его однородности, длительности сюжета.

Статистическая вероятность появления различных значений коэффициентов неодинакова: некоторые появляются очень часто, другие редко. Эта особенность может бьгть использована для дальнейшего сокращения числа бит, если более часто встречающимся значениям присвоить более короткие последовательности символов, а

Рис. 2. Блочность

Рис. 3. "Мозаичность" изображения

более редким — более длинные. Эту задачу решают коды с переменной длинной, например, код Хаффмана.

В зависимости от сюжета изображения и скорости движения объектов доля устраняемой избыточности изменяется, и среднее число бит, приходящееся на один отсчёт, может варьироваться в широких пределах. В таких же пределах будет изменяться и скорость цифрового потока на выходе кодирующего устройства. В то же время, большинство каналов рассчитаны на передачу сигналов с постоянными скоростями. В таких случаях, выручает буферная память. Буфер накапливает избыточные биты в критические для кодирующего устройства моменты (смена сюжета, быстрое движение) и отдаёт их в канал в периоды относительного спокойствия, когда канал оказывается недогруженным текущими данными. Предусмотрен и механизм обратной связи на случай переполнения или наоборот, опустошения буфера: изменяя адаптивно коэффициенты матрицы квантования, буфер может в определённых пределах управлять количеством поступающих бит и скоростью потока, разумеется, ценой соответствующего увеличения или уменьшения шага квантования и связанных с ним шумов квантования.

Наиболее распространённый метод менять скорость потока на входе накопительного буфера — это изменять шкалу квантования. Наиболее грубая шкала приведёт к более низкой скорости передачи и более низкому качеству изображения. Более точная шкала создаст лучшее качество, но с большей средней скоростью потока. Из-за того, что содержание изображения меняется непредсказуемо, для поддержания скорости постоянной приходится постоянно менять шкалу квантования. Однако следует заметить, что для этих целей также можно использовать предварительную фильтрацию изображения и изменение матрицы квантования.

МЕЖКАДРОВЫЕ МЕТОДЫ СЖАТИЯ

Временная избыточность изображения проявляется при относительно малом отличии двух последовательных кадров телевизионного изображения. Как правило, изображение представляет собой неподвижный задний план и относительно медленно перемещающиеся на переднем плане объекты. В современных стандартах видеосжатия для устранения временной избыточности используется компенсация движения. Изображение в текущем кадре разбивают на блоки и для каждого такого блока ищут его наиболее вероятное положение в соседних кадрах, сопоставляя его со всеми блоками такого же размера в заданной области поиска. Поиск ведётся по критерию минимальной абсолютной ошибки. Такой процесс называется сопряжением блоков (рис. 4).

Размеры области поиска определяют максимальную скорость перемещения объекта в кадре, которая может быть скомпенсирована. Например, для объекта, пересекающего экран за 0,5 сек., область поиска должна составлять не менее 60х60 пикселей.

Найденный в опорном кадре подходящий блок совмещают с анализируемым блоком в текущем кадре и передают по каналу разность между отсчётами. Благодаря компенсации движения эта разность имеет минимальное значение. Кроме того, вычисляют величину и направление перемещения — так называемый вектор движения, и также передают его в декодер, который на основе полученных данных легко восстанавливает параметры текущего блока. Описанный алгоритм компенсирует только движение переноса и малоэффективен при поворотах, изменении масштаба и других более сложных движениях, но, тем не менее, даёт хорошие практические результаты.

Если движение измерено достаточно точно, то для каждого макроблока элементов изображения можно передавать лишь относительно малые межкадровые различия плюс двумерный вектор движения. Следует подчеркнуть, что в данном случае ошибки в измерении вектора движения не приводят к каким-либо заметным искажениям изображения, а лишь снижают эффективность сжатия, т.е. приводят к возрастанию передаваемого потока.

Процедуры оценки и компенсации движения относятся к числу наиболее вычислительно сложных. Некачественная или упрощенная оценка, а, следовательно, и неполная компенсация движения, могут приводить к возрастанию объёма сжатых данных в среднем на 15-20%.

Декодер не способен восстановить все видеокадры длинной последовательности только на основе информации о межкадровых разностях. Время от времени, необходимо посылать к декодеру сжатый (с устранением пространственной избыточности), но не предсказанный (без устранения временной избыточности), видеокадр, или хотя бы макроблок. Такой кадр или макроблок обозначают латинской буквой I (Intra). Это позволяет избегать накопления ошибок предсказания (Безруков В.Н. А.С. СССР 748903, заявлено 14.12.76 г., опубл. 15.07.80 г.).

Некоторые кадры хорошо предсказываются по прошлой информации. Это кадры типа P (Predicted). Для предсказания видеокадра типа P используется ближайший предшествующий кадр (типа I или P). В пределах кадра типа Р могут передаваться макроблоки, предсказанные с компенсацией движения, предсказанные без компенсации движения, вообще не предсказанные (типа I), и даже "пропущенные". Макроблоки подтипа "пропущенный" имеет смысл передавать, например, когда межкадровые разницы не превышают уровня шумов (на ровных участках статического изображения). Это устраняет эффект фиксации шумовых составляющих. Кадры, расположенные между кадрами типа I и P могут бьгть предсказаны как из прошлого, так и из будущего. Это улучшает качество предсказания, в частности, при открывании объектов, ранее перекрытых другими объектами. Таковы кадры типа B (Bidirectionally predicted). Кадры ти-

па B не используются в качестве исходного материала для построения (предсказания) других кадров. В пределах кадра типа B могут передаваться макроблоки с предсказанием вперёд, с предсказанием назад и с двусторонней интерполяцией.

Несколько видеокадров типа I, P и B можно объединять в группу, называемую GOP (Group Of Pictures). Размер и структура группы не определяются стандартом, однако, на практике, многие приложения основаны исключительно на фиксированное™ структуры GOR Например, для достижения заданного субъективного качества изображения структура I, I, I, I... требует скорости битового потока в 2,5-3 раза большей, чем структура I, B, B, P..

Для успешной временной интерполяции необходимо, чтобы к моменту вычисления текущего кадра (типа B или P) все кадры, вносящие в него свой вклад, уже присутствовали в памяти декодера. Задача кодера — подавать информацию таким образом, чтобы это условие всегда выполнялось. Поэтому показанная на рис. 5 последовательность из восьми кадров "I1 B2 B3 P4 B5 B6 B7 P8" долж-

на поступить на вход декодера в следующем порядке: I1 P4 B2 B3 P8 B5 B6 B7.

Для восстановления исходного порядка следования видеокадров декодер должен перегруппировать их в пределах группы, используя соответствующие дополнительные сигналы — временные метки.

В пределах кадров типа P и B отдельные макроблоки могут иметь другой тип, в частности — тип I.

ЛИТЕРАТУРА

1. Гонсалес Р., Вудс Р. "Цифровая обработка изображений". — М.: Техносфера, 2006.

2. Ричардсон Ян. "Видеокодирование. Н.264 и MPEG-4 — стандарты нового поколения". — М.: Техносфера, 2005.

3. ITU-T and ISO/IEC JTC 1, "Advanced video coding for generic audiovisual services", ITU-T Rec. H.264 and ISO/IEC 14496-10 AVC, 2003.

4. Gary J. Sullivan, Thomas Wiegand. Video compression — from concepts to the H.264/AVC standard // Proc. Of the IEEE, 2004. — Vol.93.

METHODS OF COMPRESSION OF THE SPECTRUM OF TELEVISION SIGNAL IMAGE Titov A.M.

Abstract: Permanent increase in the number of transmitted and stored video data does enhancement of the efficiency of television signals coding algorithms an actual task. The main framework of the efficiency of the compression method is achieving the best compromise between quality and size of the video stream. Improved methods of visual information compression based on the elimination of redundant television signal are implemented in modern video coding standards.

Statistical, structural and psycho-physiological redundancy can be identified in a television signal. Statistical redundancy is caused by the presence of correlations between the values of the signal in the adjacent pixel. Structural redundancy is associated with the presence of normal television signal blanking interval, during which the image information is not passed. Psychophysical redundancy television signal is determined by the information that is not perceived by humans and therefore could not transfer Psychophysical redundancies can be divided into spatial (inside frame) and temporal (inter-frame). Increasing the degree of reduction of intra-video information redundancy destroys the video information structure due to the suppression of low-intensity components of the spatial spectrum. An increase in the degree of suppression of the inter-frame redundancy distorts the space time structure of the moving parts of TV images.

The report compares intra and inter-frame video compression techniques used in modern video coding standards, evaluates their main advantages and disadvantages. Based on this analysis identified further ways of its improve.

Методы сжатия спектра телевизионных сигналов изображения Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Титов А. М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Титов А. М.

Текст научной работы на тему «Методы сжатия спектра телевизионных сигналов изображения»