УДК 528.852
СРАВНЕНИЕ КАРТ ПО КАППЕ КОЭНА
Валерия Сергеевна Сидорова
Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, научный сотрудник лаборатории обработки изображений, тел. (383)330-73-32, e-mail: svs@ooi.sscc.ru
Рассматривается возможность сравнения карт по каппе Коэна. Сравниваются карты, полученные иерархическим гистограммным алгоритмом данных ДЗЗ с заданием предельной отделимости кластеров и карты, полученные лесоводами с помощью наземной таксации.
Ключевые слова: дистанционное зондирование, кластеризация, многомерная гистограмма, кластерная разделимость, каппа Коэна.
COMPARISON OF MAPS ON COHEN'S KAPPA
Valeria S. Sidorova
Institute of Computational Mathematics and Mathematical Geophysics SB RAS, 630090, Russia, Novosibirsk, 6 Akademik Lavrentiev Prospect, scientific researcher, laboratory of Image Processing, tel. (383)330-73-32, e-mail: svs@ooi.sscc.ru
The possibility of comparing maps by Cohen's kappa. Compared maps obtained Histogram hierarchical algorithm of remote sensing data with the task of limiting the separability of the clusters with maps, received via terrestrial taxation by foresters.
Key words: remote sensing, image processing, clustering, multidimensional histogram, cluster separability, Cohen's kappa.
Каппа Коэна - мера согласованности между двумя категориальными переменными X и Y [1].
Bi B2 Bs
Ai nii ni2 nis mi
A2 И21 И22 n2s Ш2
As nsi ns2 nss ms
ni И2 ns n
s s s
Справедливы равенства ^ ntJ = ny. ^ ntJ = m. ^ mi = n.
7=1 j=1 7=1
Наблюдаемая согласованность между X и Y:
1 5
Р = - X пи,
пм
ожидаемая вероятность случайной согласованности:
1 ^
Ре = ~ X пт '
Каппа Коэна задается как
П 7=1
P - P
к = P Pe
1 - Pe
Если оценщики полностью согласованны, тогда к = 1.
При к > 0.75 согласованность считается высокой, при 0.4 < к < 0.75 хорошей, иначе плохой.
Каппа Коэна может быть использована для оценки согласованности между двумя оценщиками, классифицирующими n объектов по s категориям. Применим каппу для сравнения двух карт, построенных разными методами.
Сравним цифровую карту, построенную разработанным иерархическим делимым гистограммным кластерным алгоритмом с заданием отделимости кластеров d для данных ДЗЗ и карту наземной таксации того же участка земной поверхности. На каждом этапе иерархии использовался гистограммный алгоритм Нарендры [2], который разделяет пространство признаков по унимодальным кластерам. Этот быстрый непараметрический алгоритм позволяет полностью автоматизировать процесс кластеризации с целью распознавания данных. Он не требует a priory задания числа кластеров и их формы. Однако, как и большинство кластерных алгоритмов, он не определяет разделимость кластеров, хотя качество кластеризации оценивается именно по разделимости кластеров. Достоинством этого алгоритма является также то, что в оперативной памяти хранятся лишь присутствующие вектора в виде определенным образом упорядоченного списка различных векторов и их гистограмма, что обеспечивает линейную зависимость алгоритма от количества этих различных векторов. Детальность кластеризации в алгоритме Нарендры определялась предварительным отсечением младших битов в каждом байте, соответствующем спектральному направлению. Предложенный иерархический алгоритм [3] предлагает автоматизировать процесс выбора детальности, учитывая разделимость кластеров, причем для разных областей данных будет получена свой порог наибольшей детальности, обеспечивающей заданную отделимость кластеров d. Для оценки отделимости используется ранее предложенная автором мера [4]. Мера
отделимости для отдельного унимодального кластера mJ (n) (1), и мера качества распределения в целом m(n) по K(n) кластерам (2):
Б->{ п)
ту (п)
Б\п)* И(п)
Е V (п),
(1)
¿=1
(2)
где и - число уровней квантования пространства признаков; Л/(п) - значение гистограммы в /-й точке границы кластера у; Б7'(п) - число точек границы кластера; И] (п) - максимальное значение гистограммы.
Всегда т\п) < 1 и т (п) < 1. Ценность этих мер в том, что они позволяют сравнивать статистически распределения с тесно расположенными унимодальными кластерам, когда на их границах много общих векторов. Эти меры удовлетворяют условиям мер разделимости. Кроме того, эти меры легко вычисляются, так как сравнивают скалярные значения гистограммы в центре и на границах кластеров. Границы кластеров легко находятся, используя списки соседей векторов, построенных как составная часть алгоритма Нарендры. Устройство иерархического алгоритма таково: начиная с малого число уровней квантования и и постепенно его увеличивая на единицу, определяется распределение с наилучшим разделением полученных кластеров [3]. Когда этот процесс прекратится по числу этапов иерархии или, исходя из физических соображений, то осуществляется автоматический анализ и возврат к тем детальностям, на которых кластеры были разделены по порогу d. Таким образом осуществляется дифференцированный подход к различным областям данных, имеющих различную природу и различную разделимость кластеров. Исследованиями установлено, что для данных ДЗЗ с увеличением детальности существует предельная детальность, выше которой разделимость кластеров становится хуже. Таким образом, задавая предельную отделимость кластеров d, избегаем получения лишней дробности и получаем существенно меньше кластеров, чем прямым алгоритмом. Если используются статистические текстурные признаки, то алгоритм кластеризации модифицируется, так как возникает проблема появления «узких» кластеров на границах текстур, а также вопрос определения размера блока для формирования статистического признака текстуры [5]. Внутри кластеров может быть может быть осуществлен переход в собственное пространство для сокращения размерности [6].
Затем строится кластерная карта, которая является по сути картой глобальной сегментации данных. Сравним полученную кластерную карту и карту, предоставленную лесоводами с использованием наземной таксации по каппе Коэна.
На рис. 1, а представлено исходное эквализованное черно-белое изображение лесного ландшафта, полученное с самолета, масштаба 1 : 50 000. Эквали-зация оставила 30 уровней из 256. На рис. 1, б представлена карта, полученная с применением наземной таксации. Каждому выделу с номером на карте
(рис. 1, б) ^относится его описание по преобладающей породе. Здесь представлены кедровники и сосняки различных возрастных фаз, а также березняки II фазы развития, болота и немного (две 27 и 20) вырубок. Кедровники окрашены синими тонами, сосняки коричневыми и розовыми, березняки белыми, болота и вырубки черными. Сверху вниз протекает речка, сопровождаемая старицами (красные). Трудность при кластеризации состоит в том, что отдельные фазы развития кедровников и сосняков плохо различимы на исходном снимке.
Рис. 1. a) исходный снимок; б) карта, представленная лесоводами; в) компьютерная карта, построенная кластерным алгоритмом, 7 этапов иерархии; г) тем же алгоритмом с 14 этапами
Известно, что естественные леса характеризуются ярко выраженной текстурой. Вот в качестве признаков используются три признака системы SAR: средний тон, среднее отклонение, и признак, характеризующий зернистость текстуры [7]. Эти три признака используются в гистограммном иерархическом алгоритме, описанном выше. На рис. 1, в при зданной отделимости кластера d = 0.15 (всегда 0 < d < 1) представлена кластеризация 7 этапов иерархии. Получено восемь кластеров. На этом этапе иерархии кластеры, относящиеся к соснякам и кедровникам, полностью разделились. Также выделись березники и болота. Каппа Коэна, характеризующая степень соответствия классификаций равна 0,91, что считается очень хорошим показателем согласованности. (Заметим, что выдел может содержать некоторый процент деревьев, отличных от основного насаждения). На рис. 1, г полученная карта для 14 этапов иерархии. Здесь кластеры разделились по возрастам сообществ. Каппа Коэна равна 0,83.
Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 16-07-00066) и Программы Ь33П фундаментальных исследований Президиума РАН (проект № 0315-20150012).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Грауэр Л. В., Архипова О. А. // Непараметрические критерии независимости. - 2014. -Санкт-Петербург - CS СеПег, 1/30. https://compscicenter.ru/media/slides/.../2014_03_28_ math_stat_2014_spring_1.pdf
2. Narendra P. M., Goldberg M. A non-parametric clustering scheme for LANDSAT // Pattern Recognition. - 1977. - 9. - P. 207-215.
3. Sidorova V. S. Detecting Clusters of Specified Separability for Multispectral Data on Various Hierarchical Levels // Pattern Recognition and Image Analysis. - 2014. - Vol. 24, No. 1. -P.151-155.
4. Сидорова В. С. Оценка качества классификации многоспектральных изображений гистограммным методом // Автометрия. - 2007. - Т. 43, № 1. - С. 37-43.
5. Hierarchical Clusterization by Predetermined Cluster Separability // Pattern Recognition and Image Analysis. - 2015. - Vol. 25, No. 3. - P. 541-546.
6. Сидорова В. С. Иерархический гистограммный кластерный алгоритм с выбором размерности пространства спектральных признаков для данных дистанционного зондирования Земли. Сокращение размерности данных кластерным алгоритмом // Перспективные направления развития современной науки. Евразийское Научное Объединение. - 2016. - Т. 1, № 3 (15). - С. 58-61.
7. Sidorova V. S. Unsupervised Classification of Forest's Image by Texture Model Features. // Pattern Recognition and Image Analysis. - 2009. - Vol. 19, No. 4. - Р. 698-703.
© В. С. Сидорова, 2017