УДК 004.932.2:519.652
В.В. МОРОЗ, канд. техн. наук, доц., ОНУ, Одеса
НАБЛИЖЕННЯ ЗОБРАЖЕНЬ: МЕТОДИ АПРОКСИМАЦІЇ ТА
СТИСК
Розглянуті лінійні та нелінійні, адаптивні, геометричні методи гладких апроксимацій зображень для їх компактного представлення з метою покращення характеристик для подальшої обробки, збереження та передачі. Це дає змогу підвищити ефективність методів видалення шуму, сегментації, знаходження границь, розпізнавання образів. Порівняльний аналіз методів апроксимації для задачі стиску зображень проведений на основі кількісної і якісної візуальної оцінки. Приведені висновки стосовно динамічної адаптації методів наближення до структури зображення. Бібліогр.: 22 назви.
Ключові слова: методи апроксимації, стиск, структура зображень.
Постановка проблеми та аналіз літератури. Теорія, моделі та методи аналізу, обробки і розуміння зображень є основою для побудови систем комп'ютеризованої медичної діагностики, систем військового застосування для виявлення живої сили і транспортних засобів противника, систем наведення ракет, систем управління автономними транспортними засобами, у тому числі підводними, наземними транспортними засобами (невеликі роботи на колесах, автомобілі або вантажівки), пілотними та безпілотними літальними апаратами в режимі реального часу [1, 2].
Ефективність роботи таких систем великою мірою залежить від ефективності підсистем збереження та передачі інформації, тобто від компактного представлення зображень. Це означає, що зображення має описуватися якомога меншим числом базисних функцій. Такі базиси існують лише для глобально гладкого зображення, а більшість реальних двомірних сигналів не є такими. Для побудови гладких апроксимацій зображень розроблено багато різних ефективних методів на основі методів наближення двомірних даних [3, 4, 5]. Але більшість з них є не адаптивними, має високу надмірність в структурі зображення та сильну анізотропію у виборі напрямів. Побудова гладких апроксимацій зображень разом з можливістю ефективної просторової та часової передискретизації дозволяє значно зменшити об’єм даних при кодуванні статичних та динамічних зображень, підвищити ефективність методів видалення шуму, сегментації, знаходження границь, розпізнавання образів.
В зв’язку з цим, аналіз і модифікація існуючих та розробка нових моделей і методів цифрової обробки зображень на основі гладких
© В.В. Мороз, 2013
апроксимацій є актуальною задачею.
Метою роботи є порівняльний аналіз методів наближення зображень стосовно щільності інформації та якості і ступеня стиску.
Апроксимація зображень. Розглянемо зображення як функцію f є Rn , де N = n1 х n2 , а щ і п2 - розміри зображення. Апроксимація зображень в базисі ортогональних функцій вимагає урахування таких критеріїв:
- мінімізація кількості апроксимуючих складових;
- мінімізація похибки апроксимації.
За умови існування ортонормального базису {gn} в просторі сигналів і сигналу f = f, gn) gn , визначимо найкращу апроксимацію
п
f як її проекцію на підпростір меншого розміру M:
~м = Х( f, g^gn , де: Im =п 0 ^ п <M} - у випадку лінійної
пєІм
апроксимації, Ім = {(п,m): |(f, gn )| яе/ Щf’gm^m<eI } - у випадку
нелінійної апроксимації. Похибка апроксимації визначається за допомогою обчислення середньо-квадратичного відхилення (СКВ):
єм = \\f - ~м\ |2 = ZK f ’ gn) г , але на практиці для зображень, розміри
Шм
яких варіюються, застосовується логарифмічна шкала СКВ, яка відображає відношення сигналу f до шуму єм:
SNR = -20log10^—.., або PSNR = -20log10.. maxf... Інша метрика
If - 1м\ If - .їм ||
ґрунтується на коефіцієнті структурної подібності [6] і відповідає сприйняттю подібності зображень в інтервалі від 0 до 1:
ssm(х,y) = +сі)(2;+с2) ,
(vx + v-y + С1)( стх +Сту + c2)
2 2
де: vх, vy - середнє значення х та у відповідно; стх, стy - дисперсія х та у відповідно; ст^ - коваріація х і у ; c1 = (k1L)2 і c2 = (k2L)2 -
стабілізуючі коефіцієнти; L - динамічний діапазон значень пікселів; k = 0.01, k = 0.03 за умовчуванням.
Фур’є апроксимації. Визначимо ортонормований базис Фур’є як
1 —(к,т)
фт (к) =-= вЫ , (1)
л/Ы
де: 0 < к1, к2 <Ы0 - просторові індекси; 0 < тІ5 т2 <Ы0 - частотні
індекси; Ы0 =у[м - нормуючий множник.
Перетворення Фур’є обчислюється як проекція функції зображення на базис Фур’є
/(т) = (/,Ф4 . (2)
Лінійна Фур’є апроксимація не залежить від функції зображення і досягається за рахунок збереження лише певного діапазону частотного спектру в області перетворення. Низькочастотні складові, які відповідають старшим гармонікам спектру розкладання, як правило, несуть більше інформації про інтегральні перепади яскравості, а високочастотні складові спектру відображають надмірну інформацію.
На практиці Фур’є апроксимація реалізується шляхом збереження фіксованої множини частотних індексів Ім і наступним зворотнім Фур’є перетворенням
/м = £(/, Фт) Фт , (3)
тєІм
де Ім = |т = (т1, т2): - 5 < т1, т2 < 5| - квадрат розміром 5, 5 = 4М.
По суті це низькочастотна фільтрація в області перетворення. Але погана
просторово-частотна локалізація перетворення Фур’є вносить при такому наближенні зображень сильні високочастотні коливання, що буде показано нижче.
Для урахування структури зображення необхідно застосовувати нелінійні (адаптивні) апроксимації. Нелінійна Фур’є апроксимація визначається аналогічно (3), але множина частотних індексів залежить
від значення порогу Т : Ім = {т :|(/, фт)| > Т}.
Вейвлетні апроксимації. Вейвлетні апроксимації [7, 8] ґрунтуються на сепарабельних ортонормальних або одномірних біортогональних вейвлетах, які мають властивість до концентрації енергії в області низьких частот. Сепарабельність вейвлетних перетворень накладає певні обмеження на інформацію про напрями. Тому, маючи хорошу
просторову локалізацію і чутливість до зміни масштабу, вони не чутливі до змін орієнтації.
Базисні вейвлетні функції уаЬ є і2 (Я) є дійсними двох
параметричними функціями, які коливаються навколо осі абсцис, мають одиничну норму, добре локалізовані як в просторовій, так і в частотній області, мають компактний носій і нульове середнє. Вони можуть розглядатися як масштабовані (стиснуті/розтягнуті) з коефіцієнтом а і зсунуті на Ь версії функції-прототипу, або материнського вейвлету Уо(х):
Материнський вейвлет у0 (х) може бути вибраним досить довільно, але його образ Фур’є у0 (ю) повинен задовольняти умові допустимості
що є умовою існування оберненого вейвлетного перетворення, а на практиці вимагає [9]
Шляхом зсувів/переносів вейвлета покривається вся дійсна вісь Я (-да, + да). Якщо такі зсуви к є 2, а масштабні перетворення
виконуються з коефіцієнтом (1/2™), то породжувані базисні функції (у тк } будуть визначатися як
де V - аналог частоти.
Лінійна вейвлетна апроксимація досягається шляхом обчислення усіх скалярних добутків функції зображення з базисними вейвлетними функціями і збереженням низькочастотних складових на відповідному рівні перетворення. Найбільш популярним алгоритмом вейвлетного перетворення є пірамідальний алгоритм С. Малла [9].
Практична реалізація лінійної вейвлетної апроксимації досягається збереженням М = 2то вевлетних коефіцієнтів нижче заданого рівня
(4)
2
(5)
(6)
т
У тк (У) = 22 У0(2™ У-к) -
(7)
масштабування т0 : 1М = {п = (т1, т2, т3): т > т0 }, що відповідає
встановленню в нуль коефіцієнтів вище максимального рівня
масштабування. Нульовому рівню масштабування відповідає оригінальне зображення.
Нелінійні вейвлетні апроксимації визначаються як проекції функції зображення / на М векторів, індекси яких знаходяться в /м :
fм = ї , У тк) У тк , (8)
(т,к)єІм
що забезпечує урахування структури зображення шляхом попадання в М векторів, які мають максимальні амплітуди скалярних
добутків ї, у. Мінімізація числа базисних векторів М та мінімізація
похибки апроксимації досягається шляхом вибору базису, який
забезпечує якомога більше число нехтовно малих вейвлетних коефіцієнтів. Практично побудова такого базису еквівалентна зануленню коефіцієнтів, які по абсолютному значенню менші заданого порогу.
Геометричні апроксимації. Геометричні апроксимації дають можливість відчувати зміни орієнтації. Вони розділяються на неадаптивні та адаптивні. Перші застосовують фрейми типу брушлетів [10], ріджелетів [11], кевелетів [12], контурлетів [13] та шиерлетів [14]. Інші, більш ефективні адаптивні методи, вимагають апріорі наявність словників, розробка яких є нетривіальною задачею.
Словник складається з векторів довжини N, які називають атомами. Скінчений словник з К атомів можна представити у вигляді матриці Б розміру N х К. При розрідженому поданні вектор х може бути представлений у вигляді лінійної комбінації декількох атомів зі словника. Тоді апроксимація ха записується у вигляді ха = Бм, де » - вектор коефіцієнтів, більшість із яких є нульовими. Навчання за словником є задачею знаходження такого словника, для якого апроксимація більшості векторів навчальної вибірки, наскільки це можливо, досягає заданого критерію розрідженості на коефіцієнти. Тобто, допускається лише певна кількість ненульових коефіцієнтів для кожного наближення.
До адаптивних методів відносяться веджлети [15], бімлети [16], плейтлети [17], серфлети [18] та нові бендлети [19], груплети [20], тетролети [21] і смузлети [22]. Останні дослідження показали, що адаптивні словникові методи можуть застосовуватися навіть в режимі реального часу, але відкритим питанням залишається наявність словників.
Також перспективними є кусково-лінійні та поліноміальні апроксимації вищих порядків і багаторівнева тріангуляція. Ці напрямки досліджень дозволяють уникнути обмежень, які вимагають розглянуті вище методи.
Ортогональний базис власних функцій. Для компактного подання зображення необхідно виділити в ньому лише інформативні елементи і виключити надмірну інформацію. Це вимагає побудови такого опису зображення, в якому елементи опису слабко залежні. Одним з найбільш перспективних методів побудови такого опису є ортогональний базис, який забезпечує концентрацію інформації про зображення в мінімальному числі коефіцієнтів розкладання. Такий формальний метод побудови базису, який є адекватним відповідній задачі обробки зображення, ґрунтується на перетворенні Карунена-Лоєва (ПКЛ).
ПКЛ, в рамках імовірнісної моделі зображення, визначається на основі обчислення коваріації між двома вибірками випадкових змінних X, і Xу як змішаного моменту другого порядку:
а,, = М[(Хг - т,)(Ху - ту )], (9)
де т і т ■ - середні значення вибірок Хі та X ■ відповідно. Якщо виходити з того, що всі випадкові змінні мають нульове середнє, то для вектора X автоковаріаційна матриця визначається як КХ = М[ХХТ ]. Вона є симетричною та позитивно визначеною. Припустимо, що результуючий вектор перетворення У = ТХ, де Т - унітарна матриця N х N, яка задовольняє умові ТТТ = ТТТ = I. Тоді автоковаріаційна матриця У буде визначатися як
К = М[УУТ ] = М[ТХХТТТ ] = ТМ[ХХТ ]ТТ = ТКХТТ . (10)
Для отримання декорелюючого перетворення двох випадкових величин необхідною умовою є рівність нулю їхньої коваріації. Нехай V, - власні вектори (з одиничною нормою) матриці Кх , а Хг- - відповідні їм власні значення такі, що
КхV, = V,, (11)
причому Хі упорядковані наступним чином ^>^2>...>Хд,>0. Всі власні значення невід’ємні в силу того, що КХ - позитивно визначена. Більше того, так як Кх є симетричною, то існує кінцева множина
власних векторів. Ці вектори є рядками матриці перетворення Карунена-Лоєва:
Т = к ^ ••• VN ]Т .
Тоді КУ = ТКхТт = ТТт Л = Л, де Л - діагональна матриця з елементами
Х„ = X, = М[У,2].
Якщо залишити лише к з N перетворених векторів, то У1, У2, ., Ук будуть мінімізувати середньоквадратичну похибку між X
та його апроксимацією Х . Для стаціонарних, в широкому сенсі, випадкових полів зображень оптимальна апроксимація ПКЛ в неперервному випадку асимптотично наближається до перетворення Фур’є, а в дискретному - до косинусного перетворення. Але ПКЛ може бути застосовано і для не обов’язково випадкових елементів зображень, а для тих, для яких існує поняття аналогу кореляційної функції яскравості. Головним недоліком ПКЛ є його обчислювальна складність порядку
4), де N - число відліків зображення.
Методи апроксимації та стиск зображень. Стиск є однією з задач обробки зображень. З позиції теорії інформації зображення, як будь-який сигнал, є випадковим процесом, а його кодування зводиться до побудови двійкових кодів, які можуть враховувати статистичні характеристики. При цьому не береться до уваги кореляція між пікселями зображення, яка є одним з показників надмірності інформації. На регулярних ділянках зображення щільність інформації на одиницю площини є значно меншою в порівнянні з нерегулярними. Тому для досягнення більш високих степенів стиску важливим є наближення зображень з динамічною адаптацією до їх внутрішньої структури.
Обчислювальні експерименти були проведені на трьох відомих тестових зображеннях з певними особливостями внутрішньої структури. При лінійній апроксимації шляхом збереження 5% коефіцієнтів спостерігається прийнятна візуальна якість, але присутні ледве помітні артефакти: втрачаються дрібні елементи текстури, значні втрати текстури і дрібних окремих деталей. При більш гладкій апроксимації візуальні артефакти зростають, а при збільшенні кількості спектральних коефіцієнтів значного відновлення втраченої інформації не спостерігається. Лише при збереженні кількості коефіцієнтів до 45% починається відновлення текстури і дрібних деталей. Нелінійна Фур’є апроксимація дає подібний результат навіть при 2.7, 5.3 і 3.8 процентах коефіцієнтів відповідно для цих же зображень. Найкращий результат дають нелінійні вейвлетні апроксимації.
При стисканні кодеком JPEG апроксимованих зображень зі збереженням однієї кількості коефіцієнтів отримуємо степінь стиску у два рази більший для лінійної апроксимації. Але при однаковій візуальній якості, яка досягається збереженням у чотири рази більшої кількості Фур’є коефіцієнтів при лінійній апроксимації проти нелінійної, для рівня якості 90 коефіцієнт стиску відрізняється лише на 2-3 кілобайти.
У випадку застосування ПКЛ зображення, які представлене лише 25% базисних векторів, майже не відрізняються від оригінальних: PSNR складає 49, 44 і 46 dB відповідно. При цьому дуже добре зберігається дрібна структура, але спостерігається ледь помітний шум на регулярних областях зображень.
Висновки. Проведені наближення тестових зображень з різною внутрішньою структурою методами лінійної та нелінійної Фур’є і вейвлетної апроксимації, на основі ПКЛ. Результати показали, що в задачах стиску зображень, де дозволяється незначна втрата візуальної інформації (елементи регулярної текстури, дрібні елементи) без втрати важливих деталей зображення, лінійна апроксимація дозволяє покращити степінь стиску не менше, ніш у два рази в порівнянні з нелінійною. При стисканні зображень без візуальних втрат інформації нелінійна апроксимація не тільки дозволяє покращити степінь стиску, але і зберегти високу візуальну якість. Вона може бути також застосована в якості попередньої обробки зображень для широкого діапазону систем різної спрямованості: локалізації, детектуванні, ідентифікації об’єктів при відеоспостереженні, при розпізнаванні об’єктів. Найкраще наближення з динамічною адаптацією до внутрішньої структури зображення дає апроксимація на основі ПКЛ. На відміну від адаптивних геометричних методів вона не потребує апріорної інформації (словників), але її обчислювальна складність поступається методам, в основі яких лежить Фур’є та вейвлетне перетворення. Тому з практичної точки зору найбільш прийнятною є нелінійна вейвлетна апроксимація, яка хоч і незначно поступається геометричній стосовно зміни орієнтації, але є адаптивною і ґрунтується на перетворенні, яке має швидкі алгоритми реалізації.
Проте поєднання нелінійної вейвлетної апроксимації з корекцією границь для підвищення стійкості до зміни орієнтації дозволило отримати результати, які є по якості близькими до ПКЛ, а по обчислювальній складності не перевершують швидке ДВП. Корекція границь реалізується шляхом обчислення локальної енергії зображення. Локальна енергія обчислюється на основі введення комплексного
аналітичного сигналу, дійсну частину якого складає зображення, а уявну
- його перетворення Гільберта. Аналітичний сигнал дозволяє однозначно визначити просторові параметри - миттєву амплітуду і миттєву частоту, а перетворення Гільберта дозволяє отримати подання зображення з більшою просторово-частотною енергетичною концентрацією в порівнянні з вейвлетним.
Список літератури: 1. Szeliski R. Computer Vision: Algorithms and Applications / R. Szeliski. -Springer, 2010. - 812 р. 2. Dahlhaus R. Mathematical Methods in Time Series Analysis and Digital Image Processing / R. Dahlhaus, J. Kurths, P. Maass, J. Timmer (Ed.). - Springer, 2008. -294 p. 3. Gu X. Geometry images / X. Gu, S. Gortler, H. Hoppe. - ACM SIGGRAPH Conference Proceedings, 23-25 July 2002 San Antonio, Texas USA. - San Antonio, 2002. - P. 355-361.
4. Demaret L. Image Compression by Linear Splines over Adaptive Triangulations / L. Demaret, N. Dyn, and A. Iske // Signal Processing. - July 2006. - Vol. 86, Issue 7. - P. 1604-1616.
5. Donoho D. Ideal spatial adaptation via wavelet shrinkage / D. Donoho, I. Johnstone
// Biometrika. - 1994. - Vol. 81. - P. 425-455. 6. Wang Z. The SSIM Index for Image Quality Assessment [Electronic resource] / Z. Wang, A.C.Bovik, H.R. Sheikh, E.P. Simoncelli - Режим доступу: \www/ URL: https://ece.uwaterloo.ca/~z70wang/research/ssim/ - 20.01.2012.
7. Mallat S. Multiresolution approximations and wavelet orthonormal bases of L2 / SMallat // Trans. Am. Math. Soc. - 1989. - Vol. 315. - P. 69-87. 8. Добеши И. Десять лекций по вейвлетам / И. Добеши. - Ижевск: РХД, 2001. - 464 с. 9. Candes E. Curvelets: A surprisingly effective non-adaptive representation for objects with edges / E. Candes, D.L. Donoho, A. Cohen,
C. Rabut, L.L. Schumaker // Curves and Surface Fitting. - 1999. - P. 105-120. 10. Meyer F.G. Brushlets: A tool for directional image analysis and image compression / F.G. Meyer, R.R. Coifman // Appl. Comput. Harmon. Anal. - 1997. - Vol. 4. - № 2. - P. 147-187. 11. Candes E. Ridgelets: Theory and applications: Ph.D. Thesis, Dept. Statistics, Stanford Univ / E. Candes. - Stanford, CA, 1998. - P. 194. 12. Candes E. Curvelets: A surprisingly effective non-adaptive representation for objects with edges / E. Candes, D.L. Donoho, A. Cohen, C. Rabut, L.L. Schumaker // Curves and Surface Fitting. - 1999. - P. 105-120._13. Do M.N. Contourlets /M.N. Do, M. Vetterli, J. Stoeckler, G. Welland // Beyond Wavelets. - 2003. - P. 83-105. 14. Labate D. Sparse multidimensional representation using shearlets / D. Labate, W. Lim, G. Kutyniok, G. Weiss // Proc. SPIE. - 2005. - Vol. 5914. - P. 254-262. 15. Donoho D.L. Wedgelets: Nearly-minimax estimation of edges / D.L. Donoho // Ann. Statist. - 1999. - Vol. 27.
- P. 859-897. 16. Donoho D.L. Beamlet pyramids: A new form of multiresolution analysis, suited
for extracting lines, curves and objects from very noisy image data / D.L. Donoho and X. Huo. // Proc. SPIE. - 2000. - Vol. 4119. - P. 434-444. 17. Willet R.M. Platelets: A multiscale approach for recovering edges and surfaces in photon limited medical imaging / R.M. Willet, R.D. Nowak // IEEE Trans. Med. Image. - 2003. - Vol. 22. - № 3. - P. 332-350. 18. Surflets: A sparse representation for multidimensional functions containing smooth discontinuities: IEEE
International Symposium on Information Theory - Proceedings / V. Chandrasekaran, M.B. Wakin,
D. Baron, R. Baraniuk. - 2004, Chicago, IL. - 1 p. 19. Pennec E. Sparse geometric image representations with bandelets / E. Pennec and S. Mallat // IEEE Trans. Image Process. - 2005. -Vol. 14. - №. 4. - P. 423-438. 20. Mallat S. Geometrical grouplets / S. Mallat // Appl. Comput. Harmon. Anal. - 2009. - Vol. 26. - № 2. - P. 161-180. 21. Krommwe J. Image approximations by adaptive tetrolet transform: 8th International conference on Sampling Theory and Applications Proceedings / J. Krommwe. - Marseille, France, 2009. - 4 p. 22. Lisowska A. Smoothlets -Multiscale Functions for Adaptive Representation of Images / A. Lisowska // IEEE Transactions on Image Processing. - 2011. - Vol. 20. - № 7. - P. 1777-1787.
Надійшла до редакції 03.07.2013 Після доробки 11.12.2013
Статтю представив д-р техн. наук, проф. ОНУ Малахов Є.В.
УДК 004.932.2:519.652
Приближение изображений: методы аппроксимации и сжатие / Мороз В.В.
// Вестник НТУ "ХПИ". Серия: Информатика и моделирование. - Харьков: НТУ "ХПИ". -2013. - № 19 (992). - С. 87 - 96.
Рассмотрены линейные, нелинейные, адаптивные и геометрические методы гладких аппроксимаций изображений для их компактного представления с целью улучшения характеристик для последующей обработки, хранения и передачи. Это дает возможность повысить эффективность методов удаления шума, сегментации, нахождения границ объектов, распознавания образов. Сравнительный анализ методов аппроксимации для задачи сжатия изображений проведен на основе количественной и качественной визуальной оценок. Приведены выводы относительно динамической адаптации методов приближения к структуре изображения. Библиогр.: 22 назв.
Ключевые слова: методы аппроксимации, сжатие, структура изображений.
UDC 004.932.2:519.652
Image representation: methods of approximation and compression / Moroz V.V.
// Herald of the National Technical University "KhPI". Subject issue: Information Science and Modeling. - Kharkov: NTU "KhPI". - 2013. - № 19 (992). - P. 87 - 96.
The linear and non-linear, adaptive and geometric methods have been considered for smooth approximations for compact image representation to improve performance of subsequent processing, storage and transmission. This allows you to increase the effectiveness of methods for removing noise, segmentation, detection of the edges and pattern recognition. Comparative analysis of approximation methods for image compression tasks is performed on the basis of quantitative and qualitative visual assessment. The conclusion regards the methods of dynamic adaptation to the structure of images. Refs.: 22.
Keywords: methods of approximation, compression, structure of images.