КОМПРЕССИЯ ИЗОБРАЖЕНИЙ С ПОМОЩЬЮ ДИСКРЕТНЫХ ОРТОГОНАЛЬНЫХ ПРЕОБРАЗОВАНИЙ, ОПРЕДЕЛЕННЫХ НА РАЗВЕРТКАХ ДВУМЕРНЫХ ОБЛАСТЕЙ
В.А. Федосеев
Самарский государственный аэрокосмический университет имени академика С.П. Королева
Аннотация
В статье производится сравнительный анализ эффективности использования двумерных дискретных ортогональных преобразований (ДОП) для сжатия изображений; приводятся несколько разверток двумерных областей, обеспечивающих низкую коррелированность трансформант при применении на них одномерных ДОП; а также исследуется возможность использования одномерных ДОП, определенных на таких развертках, в качестве альтернативы двумерным.
Введение
В настоящее время в целях компрессии цветных и полутоновых изображений широко применяется метод кодирования с преобразованием. Он заключается в том, что отсчеты изображения подвергаются некоторому преобразованию с целью формирования обобщенных координат, которые затем кодируются для сокращения избыточности данных. Восстановление изображения происходит в обратном порядке: сначала декодируются обобщенные координаты, а затем осуществляется обратное преобразование.
Преобразование, производимое на первом этапе, должно выдавать обобщенные координаты, как можно менее коррелированные по сравнению с отсчетами изображения. Это приводит к тому, что основной объем информации сосредотачивается в сравнительно небольшом числе обобщенных координат. Помимо этого, к преобразованию предъявляются требования обратимости и низкой вычислительной сложности.
Этим требованиям полностью удовлетворяют дискретные ортогональные преобразования (ДОП), применяющиеся, как правило, не ко всему изображению, а к блокам небольшого размера (8 х 8, 16 х16). Так как изображения представляют собой двумерный сигнал, то для них обычно используют двумерные ДОП. Однако по сравнению с двумерными, одномерные ДОП обладают меньшей вычислительной сложностью, поэтому их применение к разверткам двумерных областей, учитывающим двумерную корреляцию сигнала, может быть более эффективным.
Целью настоящей работы является нахождение таких разверток, а также сравнительный анализ кор-релированности обобщенных координат, полученных при использовании различных разверток и различных ортогональных преобразований.
Преобразования двумерных областей
В этом разделе исследуются некоторые известные ортогональные преобразования с целью выбора наиболее эффективного из них с точки зрения компрессии двумерного сигнала. Это, во-первых, даст нам некую точку отсчета, на которую можно ориентироваться при исследовании преобразований на
развертках, и, во-вторых, позволяет выбрать эффективный базис, который можно использовать в одномерном варианте.
Для оценки эффективности преобразований строится график зависимости энергии обобщенных координат, участвующих в обратном преобразовании, от их числа. Чем быстрее эта величина будет возрастать к энергии полного изображения, тем лучше будет эффект сжатия.
В качестве тестового используется изображение «Lena» размером 256 х 256 точек (рис. 1), а преобразование осуществляется блоками 8 х 8 .
Рис. 1. Тестовое изображение «Lena»
Графики возрастания энергии для некоторых двумерных преобразований (косинусного DCT2D, Уолша WHT2D и Хартли DHT2D) приведены на рис. 2. Наилучший эффект сжатия достигается при использовании дискретного косинусного преобразования. Этот факт известен давно, и многие алгоритмы сжатия, в частности JPEG, используют ДКП.
Непредставленное на графике преобразование Фурье неудобно из-за его комплекснозначности. Преобразование Уолша обладает хорошей скоростью, но менее эффективно для компрессии сигнала.
В дальнейшем эффективность компрессии на основе разверток двумерных областей будет исследоваться в сравнении с ДКП.
2 4,2
*-ч
* 4,0
&
3.6
3.4
3.2
3.0 2,8
2.6
2.4
2.2
2.0 1,8 1,6
1.4 1,2 1,0
ИГ«-*-1
ГГ»А гі
V* Г і
Р &
• J $ н?
¥
Ф ТЗ
(8) М
■■■■&■■ ОСТ2Б -0НТ20 -а— \VHT2D Полная энергия - і і і і
\
О
4
8 12 16 20 24
28
32 36 40 44
48
52 56 60
Число компонент
Рис. 2. Сравнение эффективности двумерных ДОП: косинусного (00120), Хартли (0ИТ20) и Уолша (ЖИТ20)
Развертки двумерных областей Развертки, использованные в работе, должны учитывать двумерную корреляцию сигнала. Для оценки выполнения этого требования включим в рассмотрение простейшую построчную развертку (рис. 3), которая учитывает только горизонтальную корреляцию.
Рис. 3. Построчная развертка
Основное внимание уделяется развертке Гиль-берта-Пеано, подробно описанной в [3]. Она обладает рядом преимуществ по сравнению с построчной разверткой, в частности, сохраняет статистические
связи отсчетов изображения. Кроме того, существует эффективный рекурсивный алгоритм ее построения, в соответствии с которым развертка формируется на п уровнях, где 2” х 2” - размер двумерной таблицы. Причем развертка на п уровнях является первым блоком (из четырех) развертки на (п+1) уровнях.
В настоящей работе используется модифицированная развертка Гильберта-Пеано, в которой замыкается старший уровень развертки. Для области размером 8 х 8 она представлена на рис. 4.
Рис. 4. Модифицированная развертка Гильберта-Пеано
Также в работе исследуется еще один вариант нестандартной развертки (рис. 5), которая сканирует отсчеты блоками длины 3. Таким образом, рядом оказываются как минимум три подряд идущих отсчета, а частая смена направления должна отражать двумерную корреляцию сигнала в развертке.
Рис. 5. Развертка 3
В дальнейшем на графиках эти три развертки обозначены соответственно “РаШ_81”, “РаШ_НР” и “РаШ_3”.
Преобразования на развертках
Эффективность компрессии с помощью преобразований, определенных на описанных выше развертках, графически иллюстрирует рис. 6. Использовавшиеся преобразования - обычное косинусное
(БСТ), Хартли (БНТ), а также две модификации косинусного - так называемые БСТ-П и БСТ-1У [4].
Как и на предыдущем графике, приведена энергия полного изображения (получаемая при использовании всех обобщенных координат), а также кривая двумерного косинусного преобразования - для сравнения.
Анализируя данные на рис. 6, мы можем сказать, что преобразования БСТ-П и БСТ-1У не дают желаемого эффекта сжатия, в отличие от традиционного косинусного и Хартли.
При восстановлении изображения по небольшому числу компонент (до 20-ти) попеременно лидируют по качеству БСТ и БНТ на развертке Гильбер-та-Пеано. При восстановлении по большему числу компонент лучший эффект дает БСТ на стандартной развертке, однако на практике редко оставляют так много компонент. Третья тестировавшаяся развертка также не оправдала ожиданий.
Однако, как видно на графике, все одномерные преобразования на развертках значительно уступают БСТ двумерной области. Это говорит либо о том, что рассматриваемые развертки не удовлетворяют поставленным критериям, либо о близости двумерного косинусного базиса к оптимальному. Для проверки второй гипотезы строится оптимальный базис тестового изображения и применяется преобразование Ка-рунена-Лоэва. Результаты для наглядности представлены отдельным графиком (рис. 7).
Этот график наглядно подтверждает тезис о том, что преобразование Карунена-Лоэва (КЬТ) двумерного сигнала хорошо аппроксимируется дискретным косинусным преобразованием. Близкий результат дали исследования, проведенные на других тестовых изображениях.
8 12 16 20 24 28 32 36 40 44 48 52 56 60
Число компонент
Рис. 6. Сравнение эффективности одномерных ДОП на различных развертках
Число компонент
Рис. 7. Двумерное ДКП (DCT2D), оптимальное преобразование Карунена-Лоэва (КЬТ) и косинусное преобразование
на развертке Гильберта-Пеано (0СТ+Ра1к_ИР)
Заключение Развертка Гильберта-Пеано среди других тестировавшихся наиболее эффективна для сжатия изображений. Однако эффективность одномерных ДОП на развертках двумерных областей существенно уступает эффективности двумерного косинусного преобразования. Поэтому их применение возможно лишь в случае жестких требований скорости работы алгоритма.
В свою очередь двумерное косинусное преобразование является хорошей аппроксимацией оптимального преобразования, и его применение рекомендуется во всех случаях, когда главным критерием является качество сжатия изображения.
Благодарности Работа выполнена при поддержке Министерства образования и науки Российской Федерации по
программе «Развитие научного потенциала высшей школы» (проект №15306), правительства Самарской области и Американского фонда гражданских исследований и развития (CRDF Project SA-014-02) в рамках российско-американской программы «Фундаментальные исследования и высшее образование» (BRHE).
Литература
1. Методы компьютерной обработки изображений // Под ред. В.А. Сойфера. М.: Физматлит, 2001.
2. Сэломон Д. Сжатие данных, изображений и звука // М.: Техносфера, 2004.
3. Сергеев В.В. Обработка изображений с использованием развертки Гильберта-Пеано // Новосибирск: Наука, 1984.
4. Wang L. Error accumulation in hybrid DPCM/DCT video coding // Signal Processing: Image Communication, 1995. Vol. 7. Issue 1. P. 93-104.