УДК 004.92
Вычислительная математика
DOI: 10.14529/cmse160201
ЗАДАЧА АГРЕГИРОВАНИЯ ПРИ ВЫДЕЛЕНИИ ГРАНИЦ ОБЪЕКТОВ НА ИЗОБРАЖЕНИИ
А.В. Мартьянова, В.Г. Лабунец
В данной статье детально рассматриваются градиентные методы выделения границ на цифровых изображениях для поиска объектов: Робертса, Превитта, Собеля и Щарра. Для их усовершенствования применяются агрегационные операторы. В результате выполнения работы были разработаны алгоритмы дифференцирования изображений, алгоритмы выбора агрегационных операторов для поиска границ объектов, алгоритмы статистической оценки продифференцированных изображений. Результаты проведенных экспериментов позволили установить достоинства и недостатки применения градиентных методов в обработке цифровых изображений.
Ключевые слова: дифференцирование, выделение границ, агрегирование, агрегационные операторы, средние, статистическая оценка.
ОБРАЗЕЦ ЦИТИРОВАНИЯ
Мартьянова А.В., Лабунец В.Г. Задача агрегирования при выделении границ объектов на изображении // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2016. Т. 5, № 2. С. 5-14. DOI: 10.14529/cmse160201.
Введение
Важнейшей целью цифровой обработки изображений является распознавание присутствующих на них объектов [1, 2]. Возможность различения заложена в высокой информативности изображения, но зачастую обрабатываемые картинки содержат много избыточных и малоинформативных сведений, занимающих большие объемы памяти, и требующих выполнения большого количества вычислений при попытке использовать их для распознавания. Поэтому широко применяются методы сокращения избыточности, опирающиеся на специфические особенности зрительного восприятия изображений. Считается, что субъективное восприятие наблюдаемой сцены происходит через ее представление в виде отдельных однородных областей и выделение контурных линий. Контурные, или граничные, линии разделяют на изображении участки с различными свойствами. Препарат, образующийся в результате выделения контурных линий, может самостоятельно эффективно использоваться для распознавания, поскольку содержащаяся в нем информация с точки зрения зрительного восприятия вполне достаточна для решения многих задач такого типа.
В данной статье раздел 1 посвящен стандартному алгоритму дифференцирования изображения. Далее, в разделе 2, речь идет об агрегационных операторах, которые позволяют усовершенствовать этот алгоритм. В разделе 3 к тестовому изображению были применены операторы дифференцирования Робертса, Собеля, Превитта и Щарра с использованием агрегационных операторов. Для оценки полученных результатов была введена статистическая оценка, описанная в разделе 4. Полученные результаты были оценены визуальным и статистическим способами в выводах, приведенных в разделе 5. О дальнейших исследованиях говорится в заключении.
1. Градиентные методы выделения границ
Рассматриваемые градиентные методы основаны на выделении краевых точек, поэтому они малочувствительны к шумам и контрастности изображения. Они основываются на свойстве сигнала яркости — разрывности. Эффективным способом поиска разрывов является обработка изображения с помощью скользящей маски — это пространственная фильтрация [1].
В ходе данной фильтрации маска фильтра перемещается от пикселя к пикселю. В каждой точке (х, у) отклик фильтра вычисляется с использованием предварительно заданных связей. В случае линейной пространственной фильтрации маской размера 3x3 отклик И линейной фильтрации в точке (х, у) изображения составит:
Д = ш(-1, -1)/(х - 1,у - 1) + ш(-1,0)/(х - 1,у) + ■■• +
ш(0,0)/(х,у) + ■■• + ш(1,0)/(х + 1) + ш(1Д)/(х + 1,у + 1). (1)
Для обнаружения перепадов яркости используются дискретные аналоги производных первого и второго порядков.
Первая и вторая производная одномерной функции /(х) определяются так, как представлено в формулах (2) и (3).
^/(х+^-Дх), 0 = /(х + 1)+/(х-1)-2/(х).
Градиент изображения /(х, у) в точке (х, у) — это вектор:
?/ =
"ЗТ
Зх
.су. З£ -Зу-
(2)
(3)
(4)
Рассмотренные ниже маски применяются для получения составляющих градиента Gx и Gy
7'
/=
(5)
Для решения вопроса инвариантности в отношении поворота используются диагональные составляющие градиента Gxy и Gyx, предназначенные для обнаружения разрывов в диагональных направлениях.
В качестве масок для определения составляющих градиента используются анизотропные фильтры, т.е. фильтры, определяющие контур только в определенных направлениях: были выбраны операторы дифференцирования Робертса (6), Превитта (7), Со-беля (8) и Щарра (9).
-1 0 1
= 1 0 1 у# II
-1 0 1
-1 0 -1 0 1
0 -1
0 1
-1 0 1 -1 -2
= 2 0 2 у# II 0 0
-1 0 1 1 2
-1 -1 0 -2 -1 0
=[
1
0 -1] 1 0 ]
= Г° 1] &-1 0]
у*
0
01 11 -1 0 1
1 1 0
1 0 -1
0 -1 -1
2 1 0
1 0 1
0 -1 -2
(6)
(7)
(8)
-
-3 0 3 -10 0 10 -3 0 3 \
-
-3 -10 -3 000 3 10 3 ]
-10 -3 -3 0 03
0 3 10
10 3 0 3 0 3 0 -3 -10.
После определения четырех составляющих градиента Gx, Gy, GXy и GyX возникает проблема его определения. Кроме того, стоит отметить, что обрабатываемые изображения содержат 3, как у цветного RGB-изображения, и более каналов, как у гиперспектральных изображений, т.е. получается минимум 12 составляющих градиента: GxR, GxG, Gxв, GyR, GyG, GyB, GxyR, GxyG, Gxyв, GyxR, GyxG, Gyxв. Возникает вопрос: применять формулу (5) или же найти другой способ определения градиента?
2. Агрегационные операторы
Определение 1. Объединение частей математических выражений, в данном случае составляющих градиента, в результате которого вся конструкция выступает в качестве единого аргумента. т.е. градиента, называется агрегацией.
В настоящее время развиваются различные методы агрегирования данных: от поиска средних арифметических до комбинирования огромных объемов информации.
Математически проблема агрегации состоит в соединении -рядов объектов, принадлежащих одному набору, в отдельные объекты этого же набора. Информационными методами объединения данных являются агрегационные операторы.
Определение 2. Агрегационный оператор — это функция, которая назначает действительное число у -ряду (х1;х$, ...,Х1) действительных чисел [5]:
у - 2ззгез(х1; х$,..., хм). (10)
Несколько авторов предложили ряд фундаментальных условий, определяющих аг-регационные операторы, многие из которых несовместимы, но существуют условия, которые являются действующими для всех предложенных определений агрегационного оператора и называются базовыми, все остальные свойства дополняют эти фундаментальные свойства
Таким образом, агрегационный оператор должен удовлетворять следующим условиям:
а) условию идентичности 2ддгед(х) — х;
б) граничным условиям 2ддгед(0Д .,0) — 0 и 2ддгед(255,255, .,255) — 255;
в) условию монотонности 2ззгез(х1;
х2< ' х8
) < 233453(У1,У2, ...,уп), если
(х1,х$,...,хп) < (У1,У2,...,Уп).
Самыми распространенными агрегационными операторами являются средние. Поэтому в данной работе были рассмотрены такие, как взвешенное среднее, степенное среднее, максимум и медиана.
Самый простой и самый распространенный способ агрегации состоит в том, чтобы использовать простое среднее арифметическое. Математически оно описывается так:
2334вз(х1,х$, ...,х„) — Меап(х1,х$, ...,х„) — ^Е?^. (11)
Этот оператор интересен тем, что он определяет объединенное значение, которое меньше самого большого аргумента и больше наименьшего. В результате получается
агрегат — «среднее значение». Среднее значение используется часто, т.к. оно удовлетворяет условию монотонности, непрерывности и граничным условиям.
Существует также классическое уточнение — взвешенное среднее, которое позволяет придавать веса аргументам. Математически этот агрегационный оператор может быть записан:
— Е8=1^х(. (12)
Степенные средние — частный случай квазисредних арифметических, которые было изучено подробно Колмогоровым [7] и Ацелем в [4, 6]. Математически этот агрегацион-ный оператор может быть записан:
2334в3Р(х1,х2, ...,х„) — Меапр(х1,х2, ...,х„) — "^У?^. (13)
Минимум и максимум — основные агрегационные операторы. Минимум дает наименьшее значение набора, в то время как максимум дает самое большое. Они не дают «среднего значения», но, в контексте принятия решения по поиску границ оператор минимум определяет минимальный перепад яркости, в это время максимум определяет наибольший. В связи с этим в качестве исследуемого выбран только оператор максимум, выделяющий наибольшие перепады. Как агрегационные операторы, минимум и максимум удовлетворяют базовым условиям (условию идентичности и монотонности, а также граничным условиям). Математически агрегационный оператор максимум описывается следующим образом:
233гез+н(х1;х2,...,х8) — Меап+Н(х1;х2, ...,х8) — тах(х1;х2, ...,х8). (14)
Другой оператор, который преследует идею «среднего значения», — это медиана. Ее значение определяется срединным элементом из упорядоченного ряда уровней яркости от 0 до 255. Математически этот агрегационный оператор может быть записан:
233ге3мей(х1,х2, ...,хп) — МеМ(х1,х2, ...,х„). (15)
3. Выделение границ с применением агрегационных операторов
Для тестового изображения (рис. 1) были применены операторы дифференцирования (Робертса, Превитта, Собеля и Щарра), при этом градиент был определен как стандартным образом, так и с помощью описанных выше агрегационных операторов.
ч
3
Рис. 1. Тестовое изображение
В результате были получены изображения, представленные в табл. 1.
4. Статистический анализ продифференцированных изображений
В задаче обработки изображений последние зачастую интерпретируются как случайные процессы двух переменных, т.е. как случайные поля [3]. Следствием этого является возможность применения статистических методов обработки информации для оценки качества изображений.
Для каждого из полученных изображений были определены математическое ожидание, дисперсия и избыточность (относительная энтропия).
Математическое ожидание или начальный момент изображения размером X О/ элементов представляет собой средний уровень яркости и рассчитывается следующим образом:
м^Е^И,. (1б)
Дисперсия изображения — это мера отклонения от средней яркости, мера ее рассеяния, которая вычисляется следующим образом:
^^Е^Е^-М2, (17)
с )
а = — центральный момент или среднеквадратическое отклонение (СКО).
Важность расчета относительной (перекрестной) энтропии или избыточности обусловлена тем, что ее минимизация используется для оценки вероятностей редких событий, т.е. контуров на изображении. Для ее расчета используется уровень энтропии:
/ = -1>Р>^2Р>, (18)
где р> = [{X = х>} — вероятность, с которой случайная величина X принимает значение х>.
Энтропия при нормальном законе распределения:
/0 = ^аи^1), (19)
где и — максимальное и минимальное значения яркости изображения.
Относительная энтропия показывает степень близости закона распределения к равномерному:
С = 1-7//0- (20)
В результате расчетов по формулам (16) - (20) были получены значения, представленные в табл. 2.
Таблица 1
Результаты дифференцирования
Способ определения градиента
Оператор дифференцирования
Робертса
Превитта
Собеля
ЩЩарра
«Стандартный алгоритм», по двум составляющим
По (12)
составляющим с помощью агрегационного оператора Mean
; < -Я 1 Уг
По (12)
составляющим с помощью агрегационного оператора Meanp(p=3)
По (12)
составляющим с помощью агрегационного оператора max
По (12)
составляющим с помощью агрегационного оператора MeM
Выводы
Применение агрегационных операторов в задаче выделения границ позволяет в полной мере оценить работу градиентных методов. Применение максимума при поиске градиента позволяет маске Робертса выделить максимальное количество границ, а агрегат медиана позволяет высокоядерной маске Щарра выделить наименьшее их количество. Операторы степенного среднего и взвешенного среднего применительно к маскам Пре-витта и Собеля позволяют наилучшим образом определить границы лица. Явно выражены глаза, нос и рот, чего нельзя сказать о двух предыдущих.
В итоге можно заключить, что оператор Робертса при визуальной оценке выделяет сравнительно небольшое количество границ, что обуславливается отсутствием четко выраженного центрального элемента маски. Применение агрегационных операторов не позволило данному оператору выделить визуально достаточное число границ. При статистической оценке данный оператор имеет очень низкий уровень средней яркости и невысокое СКО, таким образом, изображение кажется затененным, практически черным, на котором видно небольшое количество границ, а наличие высокой избыточности говорит о низкой вероятности редких событий, т.е. контуров. Операторы Превитта и Собеля визуально практически не отличаются, выделяют достаточное количество границ, прослеживается замкнутый контур. Для них целесообразно применение агрегата максимум. По статистическим оценкам видно, что при среднем уровне математического ожидания и СКО выделяется достаточно большое количество границ, а низкая избыточность, в особенности у оператора Собеля, говорит о большом количестве контурных линий. Оператор Щарра ввиду сравнительно больших коэффициентов ядра выделяет излишнее количество границ, которые сливаются между собой. Высокая избыточность здесь говорит об излишнем количестве выделенных границ. В тоже время оператор Щарра может быть использован в качестве эффективного метода выделения границ с применением агрегационного оператора медиана, который снижает толщину границ, не теряя последних. По статистическим характеристикам можно судить, что при высоком математическом ожидании и СКО изображение содержит очень большое количество границ, изображение кажется засвеченным.
Таким образом, высокий уровень избыточности продифференцированного изображения говорит либо о недостаточном, либо об избыточном количестве границ. Уровни же математического ожидания и СКО для оптимального выделения границ тестового изображения должны быть средними: 40-80 для математического ожидания и 45-80 для дисперсии.
Агрегационные операторы могут применяться при решении довольно широкого спектра задач, т.к. они позволяют уменьшить количество информации и при этом улучшить ее качество. В вопросе поиска градиента при обработке цветных и гиперспектральных изображений их применение целесообразно ввиду их эффективности и алгоритмической простоты, что было подтверждено как визуально, так и статистически.
Таблица 2
Статистические результаты
Способ определения градиента Оператор дифференцирования
Робертса Превитта Собеля ЩЩарра
«Стандартный алгоритм», по двум составляющим М = 17 а = 37,2 D = 0,40 М = 50 а = 62,8 D = 0,17 М = 64 а = 72,8 D = 0,15 М = 148 а = 88,0 D = 0,26
По 12 составляющим с помощью агрегационного оператора взвешенное среднее М = 12 а = 34,8 D = 0,74 М = 32 а = 48,5 D = 0,23 М = 45 а = 58,9 D = 0,18 М = 122 а = 90,1 D = 0,20
По 12 составляющим с помощью агрегационного оператора степенное среднее (степень 3) М = 14 а = 35,5 D = 0,71 М = 41 а = 55,4 D = 0,20 М = 55 а = 66,6 D = 0,15 М = 141 а = 89,3 D = 0,25
По 12 составляющим с помощью агрегационного оператора максимум М = 21 а = 38,3 D = 0,33 М = 62 а = 69,6 D = 0,14 М = 79 а = 79,1 D = 0,13 М = 171 а = 82,0 D = 0,33
По 12 составляющим с помощью агрегационного оператора медиана М = 9 а = 34,4 D =0,93 М = 23 а = 44,0 D = 0,50 М = 31 а = 51,8 D = 0,32 М = 87 а = 89,8 D =0,17
Заключение
В данной статье были исследованы агрегационные операторы применительно к задаче дифференцирования цветных и гиперспектральных изображений. Поиск градиента для таких изображений затруднителен ввиду большого числа составляющих. Для каждого из операторов дифференцирования были применены 4 метода агрегации. В итоге были получены результаты визуально и статистически эффективнее нежели с помощью стандартных алгоритмов.
В дальнейшем планируется рассмотреть другие агрегационные операторы (степенное среднее, средние по Колмогорову и Лемеру и т.д.) для дифференцирования цветных и гиперспектральных изображений.
Литература
1. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. 1072 с.
2. Грузман И.С., Киричук В.С. Цифровая обработка изображений в информационных системах. Новосибирск: НГТУ, 2002. 352 с.
3. Яншин В.В., Калинин Г.А. Обработка изображений на языке Си для IBM PC: Алгоритмы и программы. М.: Мир, 1994. 240 с.
4. Aczel J. Lectures on Functional Equations and Applications. Academic Press, 1966. 510 p.
5. Detyniecki M. Mathematical Aggregation Operators and their Application to Video Querying. Universite Curie, 2000. 188 p.
6. Grabisch M., Nguyen H.T., Walker E.A. Fundamentals of Uncertainty Calculi with Applications to Fuzzy Inference. Springer, 1995. 350 p.
7. Kolmogorov A. Sur la notion de moyenne, Atti delle Reale Accademia Nazionale dei Lincei Mem // Cl. Sci. Mat. Natur. Sez. 12. 1930. P. 323-343.
Мартьянова Анна Викторовна, ассистент (аспирант), кафедра теоретических основ радиотехники, Уральский федеральный университет (Екатеринбург, Российская Федерация); инженер-конструктор, АО «Научно-производственное объединение автоматики имени академика Н.А. Семихатова» (Екатеринбург, Российская Федерация), kurzinaav@gmail.com.
Лабунец Валерий Григорьевич, профессор, кафедра теоретических основ радиотехники, Уральский федеральный университет (Екатеринбург, Российская Федерация), vlabunets05@yahoo.com.
Поступила в редакцию 25 ноября 2015 г.
Bulletin of the South Ural State University Series "Computational Mathematics and Software Engineering"
2016, vol. 5, no. 2, pp. 5-14
DOI: 10.14529/cmse160201
PROBLEM OF AGGREGATION FOR EDGE DETECTION OF OBJECTS ON IMAGE
A.V. Martyanova, Ural Federal University, Scientific and Production Association of Automatics Named After Academician N.A. Semikhatov, Yekaterinburg, Russian Federation
V. G. Labunets, Ural Federal University, Yekaterinburg, Russian Federation
In the article, we consider in detail Roberts, Prewitt, Sobel, Sharr methods of digital images edge detection for objects. To improve them used aggregation operators. In the project there developed the algorithms of images difference, the selection algorithms aggregation operators to find the boundaries of objects, the algorithms for statistical evaluation at a differentiated image. The modeling experiment results allow to determine the advantages and disadvantages of the gradient methods in digital image processing.
Keywords: differentiation, edge detection, aggregation, aggregation operators, averages, statistical estimation.
FOR CITATION
Martyanova A.V., Labunets V.G. Problem of Aggregation for Edge Detection of Objects on Image. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2016. vol. 5, no. 2. pp. 5-14. (in Russian) DOI: 10.14529/cmse160201.
References
1. Gonsales R., Vuds R. Tsifrovaya obrabotka izobrazheniy [Digital Image Processing]. Moscow, Tekhnosfera, 2005. 1072 p. (in Russian)
2. Gruzman I.S., Kirishuk V.S., et al. Tsifrovaya obrabotka izobrazheniy v informatsionnykh sistemakh [Digital Image Processing in Information Systems]. Novosibirsk, NGTU, 2002. 352 p. (in Russian)
3. Yanshin V.V., Kalinin V.V. Obrabotka izobrazheniy na yazyke Si dlya IBM PC: Algorit-my i programmy [Image Processing in C Language for the IBM PC: Algorithms and Programs]. Moscow, Mir, 1994. 240 p. (in Russian)
4. Aczel J. Lectures on Functional Equations and Applications. Academic Press, 1966. 510 p.
5. Detyniecki M. Mathematical Aggregation Operators and Their Application to Video Querying. Universite Curie, 2000. 188 p.
6. Grabisch, M., Nguyen, H.T., Walker E.A. Fundamentals of Uncertainty Calculi with Applications to Fuzzy Inference. Kluwer Academics Publishers, 1995. pp. 96-109.
7. Kolmogorov A. Sur la notion de moyenne, Atti delle Reale Accademia Nazionale dei Lincei Mem. Cl. Sci. Mat. Natur. Sez. 12. 1930. pp. 323-343.
Received November 25, 2015.