Научная статья на тему 'Адаптивный алгоритм кодирования видеоинформации на основе трехмерного дискретного косинусного преобразования'

Адаптивный алгоритм кодирования видеоинформации на основе трехмерного дискретного косинусного преобразования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
257
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЖАТИЕ ВИДЕО / ТРЕХМЕРНОЕ ДИСКРЕТНОЕ КОСИНУСНОЕ ПРЕОБРАЗОВАНИЕ / ВИДЕОСЕГМЕНТ / АДАПТАЦИЯ РАЗМЕРОВ / АНАЛИЗ ДВИЖЕНИЯ / VIDEO SEGMENT / MOVEMENT ANALYSIS / VIDEO COMPRESSION / THREE-DIMENSIONAL DISCRETE COSINE TRANSFORM / SIZE ADAPTATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зубакин Игорь Александрович, Фахми Шакиб Субхиевич

Разработан адаптивный алгоритм кодирования и декодирования видеоданных, основанный на трехмерном дискретном косинусном преобразовании. Алгоритм динамически определяет оптимальные размеры видеосегмента на основе анализа движения. Эффективность предложенного алгоритма показана на примере видеоданных трех типов с малой, средней и большой скоростями движения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зубакин Игорь Александрович, Фахми Шакиб Субхиевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Adaptive algorithm of coding and decoding of the video information on the basis of three-demensional discrete cosine transform

The adaptive algorithm of coding and decoding of the video data, based on three-dimensional discrete cosine transform is designed. The algorithm dynamically defines the optimum size of a video cube on the basis of the movement analysis. Efficiency of the offered algorithm is shown on an example of the video date three types: with low, average and high movement speed.

Текст научной работы на тему «Адаптивный алгоритм кодирования видеоинформации на основе трехмерного дискретного косинусного преобразования»

Телевидение и обработка изображений

УДК 621.397.13.037.372

И. А. Зубакин, Ш. С. Фахми

Санкт-Петербургский государственный электротехнический

университет "ЛЭТИ"

п

Адаптивный алгоритм кодирования видеоинформации на основе трехмерного дискретного косинусного преобразования

Разработан адаптивный алгоритм кодирования и декодирования видеоданных, основанный на трехмерном дискретном косинусном преобразовании. Алгоритм динамически определяет оптимальные размеры видеосегмента на основе анализа движения. Эффективность предложенного алгоритма показана на примере видеоданных трех типов с малой, средней и большой скоростями движения.

Сжатие видео, трехмерное дискретное косинусное преобразование, видеосегмент, адаптация размеров, анализ движения

Синтез оптимального метода кодирования должен опираться на знание статистики источника. На практике, обычно, статистические свойства кодируемых сигналов известны приблизительно, вследствие чего множество методов кодирования нацелены в первую очередь на преодоление априорной неопределенности в статистических свойствах сигнала и его нестационарности. Настоящая статья посвящена адаптации кодирования к статистикам нестационарных изображений и является развитием концепции адаптации к смене сюжета [1].

Статистическая радиотехника использует два подхода к преодолению априорной неопределенности: создание методов, устойчивых к отклонению статистики сигнала от принятой модели (обычно говорят об асимптотически устойчивых методах, т. е. эффективных при весьма длительном времени наблюдения стационарного сигнала), и создание адаптивных методов.

Применяемые на практике методы сжатия изображений, базирующиеся на принципе устойчивости, обычно разрабатываются в два этапа: сначала синтезируется алгоритм для конкретного типа изображений, а затем в него вводятся дополнения, призванные расширить допустимый диапазон априорной неопределенности статистик сигнала. Методы, базирующиеся на принципе адаптации, изменяют свои параметры и/или структуру в зависимости от этих статистик. Так, известен метод кодирования, обеспечивающий минимум ошибки при заданной скорости передачи (т. е. 8-энтропии) в условиях неизвестных статистических свойств источника сообщений [2]. При этом кодирование источника (сжатие информации) выполняется параллельно различными методами в нескольких кодерах (например, со спектральным разложением по различным базисам), а в канал связи передаются сигнал с выхода кодера, обеспечивающего адаптивно наилучшее приближение к 8-энт-ропии, и номер кодера. Этот пример иллюстрирует общее правило: минимизация скорости передачи при заданном критерии качества требует увеличения сложности кодеров и декодеров с ростом априорной неопределенности.

© Зубакин И. А., Фахми Ш. С., 2010

49

С учетом вычислительной сложности алгоритмов обработки видеоданных и большого количества обрабатываемых пикселей ограничение на время обработки кадра является весьма жестким требованием к модулю цифровой обработки в целом и к процессору как его главной составной части при работе в режиме реального времени (без систематического запаздывания). Следовательно, важную роль при этом играет выбор рациональной структуры модуля цифровой обработки с адаптацией к динамическим сюжетам на всех этапах кодирования и декодирования.

В последние годы предпринимались многочисленные попытки применения трехмерного дискретного косинусного преобразования (3D-,3Kn) (учитывая изменение яркости по двум поперечным пространственным координатам и в совокупности кадров) с целью достижения высокой степени сжатия видеоданных для передачи по каналам связи с ограниченной полосой пропускания [3]-[6]. Существующие методы кодирования, основанные на стандарте MPEG, затруднительны для передачи видеоданных на низких скоростях, поскольку предусматривают сложные алгоритмы анализа и компенсации движений. В основе алгоритма 3D-,3Kn лежит допущение о наличии корреляционных связей не только в пространственной, но и во временной областях. В связи с этим целесообразно предположить выигрыш от применения 3D-,3Kn к видеосегменту, оптимальный размер которого во времени (количество включенных в видеосегмент кадров) определяется на основе предварительного анализа движения.

Выполнение традиционного 3D-,3Kn с фиксированными размерами видеокуба 8 х 8 х 8 неэффективно при кодировании видеоданных с большой скоростью движения [3], [4]. Чтобы решить эту проблему, было предложено много вариантов реализации ДКП с переменным числом совместно кодируемых кадров, учитывающих динамику сюжета (см., например, [5]).

Поскольку реальные видеоданные характеризуются нестационарностью по пространственным координатам и по времени, адаптивный алгоритм сжатия должен предусматривать определение оптимальных размеров видеосегмента. В связи с этим актуальной является разработка адаптивного алгоритма 3D-,^n, включающего процедуру анализа движения. Указанный алгоритм должен динамически выполнять предварительный анализ движения и определять оптимальные размеры видеосегмента. Естественно предположить, что для видеосегментов с большой скоростью движения алгоритм обеспечит наилучшее качество при относительно малой степени сжатия, в то время как для видеосегментов с более медленным движением достигается большее сжатие с некоторой потерей качества.

Поскольку анализ движения производится по сигналу яркости, разработанный алгоритм рассчитан на обработку именно этого сигнала. Обработка цветностных составляющих производится в видеосегментах, размеры которых определяются результатами анализа сигнала яркости.

Описание алгоритма. При проектировании кодера на основе алгоритма 3D-,^n были учтены следующие основные идеи:

• устранение временной избыточности видеоданных;

• устранение пространственной избыточности видеоданных подавлением мелких деталей сцены, несущественных для визуального восприятия их человеком.

Структурная схема кодера на основе 3D-,^n показана на рисунке. Кодер включает следующие основные блоки: блок управления и анализа движения; блок 3D-,^n; блок квантования и адаптивного сканирования и блок энтропийного кодирования для передачи видеоданных по каналу связи. 50

Работа кодера. Кодирование включает три этапа.

Этап 1. Предварительный анализ последовательности кадров, в результате которого формируются три группы кадров:

• группы без движения (ГБД), или статические;

• группы с малой скоростью движения (ГМСД), или квазистатические;

• группы с большой скоростью движения (ГБСД), или динамические.

При анализе движения очередной кадр записывается в буфер базового кадра (первого кадра формируемой группы). Все последующие кадры сравниваются с базовым путем вычитания для определения остаточных кадров (разности между текущим и базовым кадрами). Степень временной декорреляции (в () определяется по формуле

1

N-1M-1

et =

II Y - Y]\,

NM ^ i-L 1 l] i=0 ]=0

где N и М - размеры кадра; Yij и Y¡j - яркости пикселей текущего и базового кадров со-

ответственно.

В зависимости от значения et выбирается число кадров в группе (nt) :

• если 0 < в t < вдоп1 (вдоп1 - порог отнесения кадра к статическим), то nt увеличивается на

единицу и данная итерация повторяется до тех пор, пока отсутствует движение. В результате формируются ГБД, к которым применяется ,3Kn-2D над базовым кадром. Пространственные размеры видеосегмента в этом случае устанавливаются равными 16 х 16 пикселей;

• если вдоп1 < в t < вдоп2 (вдоп2 - порог отнесения кадра к квазистатическим), то nt увеличивается на единицу и данная итерация повторяется до тех пор, пока имеется медленное движение. В результате формируются ГМСД, к которым применяется 3D-,3Kn. Размеры видеосегмента при этом составляют 8 х 8 х nt;

• если вt > вдоп2, то nt = 4 и является постоянным. В результате формируются ГБСД, к которым также применяется 3D-,3Kn. Видеосегмент имеет размеры 4 х 4 х 4 пикселя.

Результаты модельного эксперимента над различными видеоданными, кодированными с яркостным разрешением 8 бит/пиксель, показали, что целесообразно установить

п°р°ги вДоп1 = 4 и вдоп2 = 24 .

Как и для алгоритма MPEG, особой ситуацией является смена сюжета, вызывающая кратковременное нарушение корреляции. Эта ситуация отслеживается по величине Bt: если она превышает половину динамического диапазона, то принимается решение о смене

Известия вузов России. Радиоэлектроника. 2010. Вып. 1======================================

сюжета, и новый кадр становится опорным. Если смена произошла при формировании ГБСД, то оставшиеся кадры группы кодируются как I-кадры MPEG.

Этап 2. Адаптивное квантование и сканирование.

Для адаптивного квантования и z-сканирования полученный трехмерный набор пространственно-временных частотных коэффициентов подразделяется на слайсы, соответствующие одному значению временной частоты. В каждом слайсе квантование и z-скани-рование проводятся независимо от других слайсов.

Пространственно-частотные коэффициенты слайса, полученные в результате 3D-,3Kn, квантуются делением на коэффициент квантования QCj = 1 + (1 + i + j)R, где i и j - координаты отсчета внутри слайса; R - параметр квантования, задаваемый пользователем.

Этап 3. Энтропийное кодирование.

Квантованные коэффициенты 3D-,3Kn считываются и кодируются методом Хаффмана.

Результаты моделирования. В таблице приведены данные, полученные в результате моделирования обработки видеоданных с различными скоростями движения адаптивным алгоритмом 3D-,3Kn.

Тип движения R Коэффициент сжатия Скорость передачи, бит/пиксель дБ

2 46 0.174 37.19

4 88 0.091 34.62

ГМСД 6 120 0.067 32.78

11 190 0.042 30.15

22 408 0.020 27.45

6 54 0.148 0.011

ГБСД 12 96 0.049 0.013

23 164 0.120 0.016

ГБСД (8x8x8) 6 44 0.182 0.010

12 76 0.105 0.012

23 121 0.067 0.015

Коэффициент сжатия определялся как отношение размера исходного (несжатого) видеофайла (в битах) к размеру сжатого видеофайла (в битах).

Отношение "сигнал/шум" рассчитывалось по формуле [7] ¥ = 10^ (2552/д), где

tNT ^ (Yl хУ1 хУ1 )

- ошибка кодирования, причем Т - количество кадров в видеопотоке; 7и у и Ув у - яркости пикселей с координатами х, у, I в исходном и в восстановленном после квантования кадрах соответственно.

Из сравнения результатов, полученных при использовании безадапционного алгоритма с размером видеосегмента 8 х 8 х 8 пикселей (ГБСД (8 х 8 х 8) ), с результатами применения адаптивного алгоритма следует наличие выигрыша разработанного алгоритма при близком качестве восстановления видеоданных. Кроме того, использование 3D-ДКП при кодировании видеоданных позволяет на несколько порядков сократить сложность кодера источника по сравнению с кодером MPEG-4 [8]. Это обусловлено, во-первых, тем, что ДКП является асимптотически оптимальным (при больших размерах фрагментов)

======================================Известия вузов России. Радиоэлектроника. 2010. Вып. 1

преобразованием стационарного сигнала с экспоненциальной автокорреляционной функцией, хорошо аппроксимирующей реальные изображения [9]. Во-вторых, эти два вида кодеров оптимальны для различных характеристик изменения сюжета во времени: MPEG-4 ориентирован на слежение за объектами, а 3D-,3Kn выделяет любые изменения в сюжете.

Для оптимальной с точки зрения использования вычислительных ресурсов реализации алгоритма необходимо использовать размеры видесегмента, равные целой положительной степени числа 2, что позволяет использовать быстрые алгоритмы 3D-^n. Ограничения на сложность реализации типичны, в частности для видеосистем на кристалле (ВСнК).

С точки зрения оптимизации использования вычислительных ресурсов рассмотренный алгоритм обладает несомненным преимуществом, заключающимся в принципиальной возможности распараллеливания вычислений. Такой подход особенно перспективен при использовании в ВСнК программируемых логических интегральных схем, допускающих программирование и оперативное изменение аппаратной структуры на системном уровне (FastChip, Cadence, MatLab и др.) [10].

В заключение отметим, что использование в рассмотренном алгоритме кодирования адаптивного размера видеосегмента позволяет повысить эффективность кодирования нестационарных сигналов изображений по сравнению с детерминированными алгоритмами.

Разработанный алгоритм характеризуется следующими показателями:

• для видеоданных с малой скоростью движения коэффициент сжатия лежит в диапазоне от 300 до 400, что соответствует скорости передачи, равной 0.02 бит/пиксель, при примерно одинаковым с кодером MPEG-4 относительно хорошем качестве восстановления видеоданных;

• для видеоданных с большой скоростью движения коэффициент сжатия лежит в диапазоне от 80 до 150 (алгоритм динамически приспосабливается к скорости движения, сохраняя высокое качество и относительно высокий коэффициент сжатия);

• алгоритм не уступает по качеству MPEG-4 и методу кодирования на основе 3D-,^n без адаптации, но обеспечивает вычислительную сложность, на несколько порядков меньшую по сравнению с кодером MPEG-4.

Достигнутые характеристики делают разработанный алгоритм эффективным при передаче цифрового видеопотока по каналам связи с существенно ограниченной и нестационарной пропускной способностью (каналы групповой передачи данных, видео по требованию Интернет и др).

Список литературы

1. Быков Р. Е., Шиманский Е. Ю. Сокращение временной избыточности цифровых сигналов в системах вещательного телевидения // Изв. вузов России. Радиоэлектроника. 2002. Вып 1. С. 62-67.

2. Pat. WIPO IPC7 H04N 7/30. Method of selecting among N "spatial video codes" the optimum codec for a same input signal / Reichel J., Ziliani F. Publ. 01.07.2004.

3. Westwater R., Furht B. Real-time video compression. Norwell, MA: Kluwer Academic Publishers, 1997. 165 p.

4. Westwater R., Furht B. The XYZ algorithm for real-time compression of full-motion video // Real-time imaging J. 1996. Vol. 2. P. 19-34.

5. Chan Y.-L., Siu W.-C. Variable temporal-length 3-D discrete cosine transform coding // IEEE Trans. on image proc. 1997. Vol. IT-6, № 5. P. 758-763.

6. Abousleman G. P., Marcellin M. W., Hunt B. R. Compression of hyperspectral imagery using the 3-D DCT and hybrid DPCM/DCT // IEEE Trans. of geoscience and remote sensing. 1995. Vol. GRS-33, № 1. P. 26-34.

7. Ричардсон Я. Видеокодирование. H.264 и MPEG-4 - стандарты нового поколения. М.: Техносфера, 2005. 368 с.

Известия вузов России. Радиоэлектроника. 2010. Вып. 1======================================

8. Умбиталиев А. А. Перспективы развития цифрового телерадиовещания: комплексное решение внедрения цифрового телевидения в регионах // Вопр. радиоэлектроники. Сер. "Техника телевидения". 2008. Вып. 2. С. 3-8.

9. Ахмед Н., Рао К. Р. Ортогональные преобразования при обработке цифровых сигналов. М.: Связь, 1980. 248 с.

10. Грушвицкий Р. И., Мурсаев А. Х., Угрюмов Е. П. Проектирование систем на микросхемах программируемой логики. СПб.: БХВ-Петербург, 2002. 606 с.

I. A. Zubakin, Sh. S. Fahmi

Saint-Petersburg state electrotechnical university "LETI"

Adaptive algorithm of coding and decoding of the video information on the basis of three-demensional discrete cosine transform

The adaptive algorithm of coding and decoding of the video data, based on three-dimensional discrete cosine transform is designed. The algorithm dynamically defines the optimum size of a video cube on the basis of the movement analysis. Efficiency of the offered algorithm is shown on an example of the video date three types: with low, average and high movement speed.

Video compression, three-dimensional discrete cosine transform, size adaptation, video segment; movement analysis Статья поступила в редакцию 27 ноября 2009 г.

УДК 681.327.8

М. Д. Скубилин

Технологический институт Южного федерального университета

в г. Таганроге

| Способ камуфляжа графической информации

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Описан способ защиты графической информации от несанкционированного доступа в каналах электронной коммуникации, для чего файл разбивается на ряд варьируемых по объему блоков, в каждом блоке на стороне отправителя осуществляют по ключу смещение пикселей, контролируемое ключом, а на стороне санкционированного получателя смещение производится в обратном направлении.

Разрушение/восстановление изображения, ключи, пиксели, смещение пикселей по ключу

Известные алгоритмы кодирования и декодирования графической информации, передаваемой по открытым каналам связи, недостаточно надежно обеспечивают ее конфиденциальность на временном промежутке, в течение которого эта информация сохраняет свою ценность.

Известно [1], что процесс восстановления изображения из безопорной голограммы (БГ) можно интерпретировать как ассоциативный, при этом главные аспекты безопорного искажения и реконструкции оптического сигнала следующие [2]:

• в физическом смысле БГ является когерентной фотографией, поэтому получение информации о фазе исходного сигнала из непосредственного анализа безопорной голограммы невозможно;

54

© Скубилин М. Д., 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.