УДК 681.3
ПРЕДОБРАБОТКА ИЗОБРАЖЕНИЙ ОДНОМЕРНЫМИ ТОЧЕЧНЫМИ ОТОБРАЖЕНИЯМИ
В.Б. Немировский, А.К. Стоянов
Томский политехнический университет E-mail: [email protected]; [email protected]
Рассматривается возможность применения одномерных точечных отображений для предобработки изображений перед их сжатием без потерь. Показано, что отображения значений яркости решают задачу уменьшения избыточности информации в изображении. Даётся методика расчёта параметров отображения. Приводятся результаты экспериментальной проверки предложенного способа предобработки изображений.
Ключевые слова:
Избыточность, изображение, пиксель, квантование яркостей, кластеризация, точечные отображения, неподвижные точки, энтропия.
Key words:
Redundancy, image, pixel, brightness quantization, clustering, point map, critical point, entropy.
Введение
Круг задач, связанных с использованием изображений, в настоящее время весьма широк. Это инициирует исследования, направленные на решение проблем, связанных с использованием компьютеров для обработки цифровых изображений.
Цифровые изображения представляют собой массивы данных, хранение которых требует значительных объёмов памяти компьютеров, а передача по каналам связи - большой пропускной способности. Для уменьшения объёмов используемых данных используются различные методы их сжатия. Чаще всего применяют алгоритмы сжатия с потерями, в которых часть информации безвозвратно теряется. При этом качество субъективного восприятия сжатого изображения может и не ухудшиться [1, 2].
Эффективность применения алгоритмов сжатия с потерями при обработке изображений высока. Однако во многих приложениях сжатие без потерь является единственно допустимым способом сокращения объема данных. Одним из таких приложений является обработка спутниковых изображений. Еще одним направлением является цифровая рентгенология, в которой потеря информации может ухудшить точность диагностики.
В этих случаях для изображений используют алгоритмы сжатия без потерь («энтропийные» методы - кодирование Хаффмана, арифметическое кодирование и др.), не вносящие ошибок преобразования. Существующие алгоритмы обычно состоят из двух достаточно независимых этапов. Первый -разработка альтернативного представления изображения, в котором уменьшена межэлементная избыточность, и второй - кодирование полученных данных для устранения кодовой избыточности [2].
Очевидно, что эффективность любого алгоритма сжатия без потерь во многом определяется наличием избыточной энтропии (информации) в изображении после реализации его первого этапа. Это наличие обусловлено не только упомянутой межэлементной избыточностью, но и присутствующей в любом изображении психофизической
(визуальной) избыточностью. Психофизическая избыточность обусловлена особенностями восприятия изображений человеческим зрением. Чувствительность глаза по отношению к визуальной информации различна в разных условиях [3], и при обычном визуальном восприятии часть информации оказывается менее важной, чем другая. Такую информацию называют визуально избыточной. Она может быть удалена предварительной обработкой без заметного ухудшения визуального качества изображения [4].
Для цифровых изображений важнейшей операцией, определяющей визуальную избыточность, является квантование изображения по яркости. Квантование заменяет множество непрерывных входных значений яркости последовательностью N дискретных значений (уровней), каждое из которых присваивается группе близких к нему значений яркости. Обычно шаг квантования (разница между соседними уровнями) постоянен. Квантование с таким шагом называется равномерным. Чем больше шаг, тем меньше энтропия получаемого изображения, но выбор неоптимального шага приводит к появлению ложных контуров (или других похожих эффектов), что требует применения эвристических методов их компенсации. Одним из таких методов является равномерное модифицированное квантование яркости, основанное на особенностях зрительной системы человека [2]. Уменьшения энтропии можно также добиться, используя неравномерное квантование, которое учитывает статистические свойства самого изображения, но такой вид квантования приводит к усложнению квантователя [2].
Таким образом, увеличение эффективности энтропийных методов сжатия без потерь требует либо изменения устройства квантования, что весьма проблематично, либо дополнительного (после оцифровки) преобразования распределения яркостей изображения. Результатом этого преобразования должно стать уменьшению энтропии исходного изображения. Именно такую задачу решают методы кластеризации несистематизированных дан-
ных, разбивая данные по группам с близкими значениями, что позволяет упорядочить данные и, следовательно, уменьшить их энтропию.
Среди многочисленных методов кластеризации наше внимание привлёк метод, основанный на применении рекуррентной нейронной сети. В основе работы такой сети лежит одномерное точечное отображение значения входного сигнала нейрона на его активационной функции Дх). Для получения результата в нём требуются лишь исходные значения данных без каких-либо дополнительных сведений о количестве и размерах кластеров [5], что является несомненным преимуществом перед многими другими методами.
В данной работе исследуется возможность использования одномерного точечного отображения в предобработке изображения для уменьшения визуально избыточной информации в нём.
Теоретические предпосылки метода
В [5] показано, что одномерное точечное отображение при определённых требованиях к точности вычисления отображаемого значения обладает антиэнтропийными свойствами. Применительно к понятиям нейронных сетей это означает, что нейрон способен объединять значения входных сигналов в группы (кластеры) по степени близости их параметров. Число таких групп меньше исходного количества значений, что и приводит к уменьшению неопределённости в исходном распределении.
Основным в этом свойстве является то, что оно обусловлено всего лишь отображением значения входного сигнала на активационной функции нейрона. Иными словами, это свойство присуще собственно отображению, и, следовательно, одномерное отображение значений произвольной числовой последовательности на функции Дх) также уменьшает неопределённость в их распределении.
Рассмотрим, каким образом это свойство отображения может быть использовано для уменьшения избыточности изображения.
Для простоты будем считать, что изображение полутоновое в серой шкале. Будем рассматривать изображение как двумерную матрицу значений яркостей пикселей.
Пусть значение яркости х пикселя изображения отображается на функции Дх), имеющей, как и в случае нейронной сети, вид сигмоиды с коэффициентом наклона а, смещением в и коэффициентом увеличения /л:
/ (х) = ----------------------------г- . (1)
1 + ехр(-а х + в)
Это отображение может быть записано соотношением вида хш=Дхк), где к=1,2,3... - номер итерации отображения значения яркости х. После нескольких итераций отображаемое значение достигает неподвижной устойчивой точки, величина которой х* определяется из нелинейного уравнения х*=Дх*). В численных расчётах величина х* определяется с некоторой заданной точностью е.
В [5] показано, что процесс отображения разбивает диапазон отображаемых исходных значений на ряд интервалов, каждый из которых содержит значения, сходящиеся с заданной точностью е к устойчивой неподвижной точке х* за одно и то же число итераций. Это число итераций служит характеристикой, общей для всех значений, попавших в соответствующий интервал.
Пусть мы последовательно отображаем значения яркостей пикселей изображения на функции Дх), заканчивая всякий раз процесс тогда, когда он с точностью е достигнет устойчивой точки. Значения, принадлежащие одному интервалу, сходятся к устойчивой точке за одно и то же число итераций и, следовательно, их можно отнести к одному кластеру яркостей. Это позволяет заменить такие значения их средним, взятым по всей совокупности яркости пикселей, попавших в кластер. Заметим, что речь идёт не о пространственном усреднении яркостей близко расположенных пикселей. Пиксели со значениями яркостей, оказавшихся в одном кластере, пространственно могут быть значительно разнесены.
Таким образом, исходное изображение в результате отображения может быть преобразовано к виду с меньшим количеством градаций яркостей, что, очевидно, приводит к уменьшению его энтропии.
Расчёт параметров отображения
Определим те значения параметров а, в и л для сигмоидыДх) из (1), которые обеспечивают успешную кластеризацию, и, следовательно, уменьшение избыточности изображения.
Параметры а, в и л сигмоиды определяются из следующих соображений. Для кластеризации нужно, чтобы все исходные значения яркостей при отображении сходились к одной устойчивой точке. Отображение на сигмоиде Дх), в зависимости от параметров, может иметь либо одну неподвижную устойчивую точку, либо две неподвижных устойчивых точки, между которыми располагается третья неподвижная, но неустойчивая точка. Потребуем, чтобы интервал между значениями х2* неустойчивой и х1* устойчивой точек отображения на функцию Д(х) включал в себя весь диапазон яркостей изображения, т. е. подчинялся соотношениям ^-х™-^ и х2*=хтах+52, где |^|<<1 и |52|<<1 - малые произвольные числа, расширяющие диапазон значений яркости. В этом случае, все значения яркости в результате отображения сойдутся к одной точке, что позволит сгруппировать близкие значения в кластеры.
Значения устойчивых и неустойчивой точек лежат на пересечении графиков сигмоиды (1) и биссектрисы прямого угла [6]. Следовательно, параметры функции можно получить, решая систему уравнений
х* = /(х*,а,в,л), г = 1,2. (2)
Полученная система уравнений содержит три неизвестных параметра функции Дх), и может быть
решена лишь в случае, если один из них будет задан заранее. В данной работе таким свободно меняемым параметром взята величина коэффициента увеличения /л. Изменение /л управляло решением системы уравнений, а найденные значения а и в меняли форму функции, оставляя неизменными положения неустойчивой и устойчивой точек отображения. В предположении известности л решение системы (2) имеет вид:
X, = у2 Х Хш!п + у1.
(4)
а =-
1 -1П(Л- Х1) Х2
в = 1п
л
(Л- Х2 ) Х1
\
-1
(3)
+ а- х,
Вопрос о выборе нужной величины коэффициента /л. обсуждался в [5]. Там указано, что успешная кластеризация достигается при значении д>, которое находится в окрестности шах|АН/Ал|, где энтропия Нподсчитывается для данного /л по формуле Шеннона
м
Н = -Х Р 10§2 Р.
,=1
где р^И/И; N — количество значений яркости, сходящихся к устойчивой точке за одно и то же число итераций; И- общее количество всех значений яркости в изображении; М— число градаций яркости.
Поскольку в определении л используется только исходное распределение яркостей, то, по существу, изображение «управляет» квантованием яркостей. Таким образом, можно говорить о «естественном» квантовании (кластеризации) яркостей изображения.
Экспериментальные результаты
Приведённые выше рассуждения легли в основу экспериментальной проверки возможности использования одномерного точечного отображения для предварительной обработки изображения. Исследования проводились на полутоновых изображениях (серая шкала). Для исследования была создана программа, обладающая следующими функциональными возможностями:
• формирование нормированных яркостей изображения;
• вычисление значений коэффициентов а и в;
• вычисление энтропии упорядочивания изображения;
• определение границ кластеров и их средней яркости;
• создание и сохранение в файл матрицы яркостей кластеризованного изображения;
• считывание изображения из файла и его отображение на экране.
Яркости XI ¡-го пикселя изображения приводились к диапазону [71,71+72] использованием линейной нормировки (числа у1 и у2 лежат в единичном интервале):
Здесь ~ — приведённое значение яркости пикселя. Значения у1 и % выбирались из соображений, связанных с психофизическими особенностями зрительного восприятия. В процессе отображения возможно использование двух интервалов численных значений. Рассмотрим, для определённости, отображение на сигмоиде (1). Пусть х1* и х3* — неподвижные устойчивые точки сигмоиды, а х2* — неподвижная неустойчивая точка, расположенная между ними. Неустойчивая точка делит весь диапазон отображаемых значений на два интервала. Все значения ~;, попавшие в интервал (х1*,х2*), в процессе отображения стремятся к значению х1*, все значения х! из интервала (х2*,х3*) стремятся к х3*. С формальной точки зрения оба интервала эквивалентны. В любом из интервалов, по мере приближения к устойчивой точке, имеем |~к+1—~!^0, где к — номер итерации.
Величина |~к+1—~к задаёт диапазон значений, попадающих в один кластер яркостей, то есть размер кластера. Очевидно, чем меньше размеры кластеров, тем большее их число будет получено в отображаемом интервале значений. Для значений яркостей, прилегающих к неустойчивой точке, наоборот, размер кластера при каждой итерации отображения будет увеличиваться. Следовательно, число кластеров, приходящихся на некоторую произвольно выбранную длину интервала значений, зависит от местоположения этого интервала. Область яркостей, близко прилегающих к устойчивой точке, будет разбита на большее число кластеров, чем область значений, прилегающих к неустойчивой точке. Эти рассуждения наглядно иллюстрируются диаграммой Ламерея [6], показывающей ход одномерного точечного отображения (рис. 1).
Л» Ж---*.
я ж
X
Ху А X} в х3
Рис. 1. Области притяжения к устойчивым точкам отображения
Проведённый анализ позволяет сформулировать требования к местоположению диапазона приведённых значений яркостей пикселей изображения [71,71+72]. Согласно закону Вебера—Фехнера, величина психофизического ощущения является
логарифмической функцией сигнала, вызывающего это ощущение [3]. Эта логарифмическая зависимость показывает, что по мере увеличения интенсивности сигнала для достижения равных сенсорных эффектов требуются все более и более значительные увеличения интенсивности сигнала. Применительно к зрительному восприятию изображения это означает, что минимально различимый глазом перепад яркостей вызывается значениями яркостей, существенно различающимися в светлой и тёмной областях изображения. При одинаковом различении оттенков изображения, в его светлой области можно допускать существование более крупных кластеров, чем в тёмной. И хотя средние значения кластеров будут в светлой области различаться сильнее, чем в тёмной, визуально это не повлияет на восприятие изображения. Следовательно, приведённые значения яркостей изображения должны попадать в тот диапазон, где большие яркости прилегают к неустойчивой точке отображения, а малые - к устойчивой точке, т. е. у1=хшк^х1‘ и 72=-~тах^х2* (рис. 1). С учетом этих рассуждений были выбраны границы диапазона ^=0,025 и 72=0,225, к которым и приводились значения яркостей пикселей изображения, расположенных в исходной полутоновой серой шкале в интервале от 0 до 255.
Затем в изображении отыскивались минимальное и максимальное значения яркостей пикселей, которые использовались для определения параметров а и р. Значения а и в определялись для заданного /л в соответствии с (3). Значение /л последовательно задавалось в диапазоне хш+к<л<1 с шагом А=(1-:~шах)/100. Для каждого /л подсчитывалась энтропия Н распределения яркостей изображения. Таким образом, получалась последовательность значений энтропии, зависящая от л, в которой затем определялся шах|АН/Ал|. Значение ¡л0, соответствующее найденному максимуму, использовалось
в дальнейшем для определения границ кластеров в яркостях пикселей изображения.
Далее яркости пикселей изображения группировались в соответствии с определёнными границами кластеров, после чего близкие яркости, попавшие в один кластер, заменялись средним значением всех яркостей по этому кластеру. Таким образом, уменьшалось количество градаций яркости по сравнению с их числом в исходном изображении. Преобразованная шкала градаций использовалась для формирования матрицы пикселей нового изображения и её сохранения в файл. Исходные изображения имели до 256 градаций яркости, а после кластеризации их число уменьшалось для разных изображений от 37 до 16.
Для оценки эффективности выполненной предобработки матрицы яркостей, соответствующие исходному и преобразованному изображениям, сжимались одним и тем же алгоритмом ЁЬЕ [1], в его простой реализации, по которой информация о фрагментах строк с одинаковой яркостью сохранялась в двух числах: яркости пикселя и количества пикселей с такой яркостью. В результате для всех кластеризованных изображений в эксперименте получены сжатые файлы, объемы которых в 1,3...2,9раза меньше, чем у соответствующих файлов необработанных изображений. Энтропия при кластеризации, как и ожидалось, также уменьшалась в 1,2.. .1,9 раза по сравнению с исходными её значениями.
На рис. 2 приведены результаты обработки одного из использованных в эксперименте изображений. Визуальная оценка качества позволяет утверждать, что предобработка (рис. 2, б) изображения не ухудшает его субъективного восприятия даже при наличии незначительных отличий от оригинала (рис. 2, а).
Для изображения на рис. 2 исходный файл имел объём 873 кбайт, после отображения -644 кбайт, т. е. коэффициент сжатия составил 1,35.
Как упоминалось ранее, осуществляемую предобработку можно рассматривать как разновидность «естественного» неравномерного квантования яркости изображения по уровням. В связи с этим возникает вопрос о сравнительной эффективности, в данном случае, равномерного и неравномерного квантований. Критерием эффективности может служить объем сохраняемых файлов для разных видов квантования при одном и том же количестве градаций в изображении и сопоставимом качестве визуального восприятия. На рис. 3 представлены сравниваемые изображения.
В обоих случаях число градаций яркости равно 37. Визуально изображения слабо различаются (в данном случае, изображение с неравномерным квантованием точнее соответствует оригиналу). Объемы сохранённых файлов составляют, соответственно, 495 и 819 кбайт при объёме исходного изображения 1,35 Мбайт. Легко подсчитать, что неравномерное квантование даёт выигрыш в сжатии до 40 %.
Выводы
1. Одномерное отображение значений яркостей пикселей позволяет выделить в исходном изображении кластеры близких яркостей, что даёт возможность уменьшить количество уровней квантования яркости изображения и его энтропию. В эксперименте наблюдалось уменьшение, по сравнению с исходными значениями, числа уровней квантования с 256 до 16, а энтропии - в 1,2...1,9 раза.
2. Неравномерное квантование яркости по сравнению с традиционным равномерным позволяет уменьшить объём файлов. Разница в объёмах при разных видах квантования достигает 40 %.
3. Уменьшение психофизической избыточности изображения в эксперименте за счёт отображения позволило сократить размеры файлов, хранящих изображение, в 1,3..2,9 раза.
Работа выполнена при проведении НИР в рамках реализации ФЦП «Научные и научно педагогические кадры инновационной России» 2009-2013 гг. Госконтракт № П2396.
СПИСОК ЛИТЕРАТУРЫ
1. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. - М.: ДИАЛОГ-МИФИ, 2002. - 384 с.
2. Гонсалес Р., Вудс Р. Цифровая обработка изображений. - М.: Техносфера, 2005. - 1072 с.
3. Субъективное сенсорное восприятие. Абсолютный порог ощущения. 2011. иЯк http://meduniver.com/Medical/Physiolo-gyZ286.html (дата обращения: 24.02.2011).
4. Волошина Н.В. Препроцессинг цифровых изображений с целью увеличения их коэффициента сжатия энтропийными ко-
дерами. 2011. иЯк http://www.autex.spb.ru/download/dsp/dspa/ dspa2003Aom2_44.pdf (дата обращения: 24.02.2011).
5. Стоянов А.К. Применение рекуррентной нейронной сети для решения задачи кластеризации // Известия Томского политехнического университета. - 2009. - Т. 315. - № 5. - С. 144-149.
6. Малинецкий ГГ. Математические основы синергетики. - М.: Изд-во ЛКИ, 2007. - 312 с.
Поступила 03.03.2011 г.