Научная статья на тему 'Выделение леса на космических снимках с помощью методов машинного обучения'

Выделение леса на космических снимках с помощью методов машинного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
615
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА КОСМИЧЕСКИХ СНИМКОВ / ТЕКСТУРНЫЕ ПРИЗНАКИ / КЛАССИФИКАЦИЯ / МАШИННОЕ ОБУЧЕНИЕ / SATELLITE IMAGE PROCESSING / TEXTURAL FEATURES / CLASSIFICATION / MACHINE LEARNING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Михайлов Евгений Владиславович, Сай Сергей Владимирович

При обработке космических снимков для выделения зон с растительностью широко используется NDVI-признак, который строится на основе спектральной информации от красного и инфракрасного каналов. Однако, NDVI не позволяет однозначно отделить лес от поля и для этого следует использовать информацию о текстуре: на областях леса присутствует много мелких теней. В работе используются простые статистические текстурные признаки. Вместо ручного подбора пороговых значений для классификации областей предложены методы машинного обучения: наивный байесовский классификатор, метод k ближайших соседей, метод опорных векторов. Приводятся результаты сравнительного анализа этих методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Михайлов Евгений Владиславович, Сай Сергей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Machine learning for forest segmentation in satellite images

A method to segment forest regions in satellite images is proposed. Satellite image analysis usually includes computation of NDVI to segment vegetation areas based on spectral information from red and infrared channels. To segment forest and grass regions we use texture information, as forest areas usually include a lot of small shadows. In the article only simple texture features are considered, such as standard deviation and skewness. Instead of manual selection of thresholds for each feature, we use machine learning to classify regions.

Текст научной работы на тему «Выделение леса на космических снимках с помощью методов машинного обучения»

УДК 004.932

Е.В. Михайлов, С.В. Сай

Выделение леса на космических снимках с помощью методов машинного обучения

При обработке космических снимков для выделения зон с растительностью широко используется NDVI-признак, который строится на основе спектральной информации от красного и инфракрасного каналов. Однако, NDVI не позволяет однозначно отделить лес от поля и для этого следует использовать информацию о текстуре: на областях леса присутствует много мелких теней. В работе используются простые статистические текстурные признаки. Вместо ручного подбора пороговых значений для классификации областей предложены методы машинного обучения: наивный байесовский классификатор, метод к ближайших соседей, метод опорных векторов. Приводятся результаты сравнительного анализа этих методов.

Ключевые слова: обработка космических снимков, текстурные признаки, классификация, машинное обучение. doi: 10.21293/1818-0442-2017-20-1-89-92

В задаче таксации деревьев с помощью космических снимков часто используется построение карты N0^ на основе красного и инфракрасного каналов. Полученное изображение позволяет выделить зоны растительности и оценить массу растительности. Однако N0^ не позволяет точно отделить лес от поля, так как распределения значений N0^ для леса и поля немного пересекаются. С другой стороны, визуально определить лес довольно легко и на панхроматических изображениях по наличию множества мелких теней от отдельных деревьев. Тогда для более точного выделения леса требуется анализ некоторой окрестности с выделением текстурной информации вместо попиксельной обработки спектральных данных в случае N0^. Основные способы выявления текстурных признаков приведены в [1, 2], кроме того, есть работы, в которых уже использовались текстурные признаки для анализа космиче -ских снимков [3, 4]. Для анализа большого количе -ства признаков подбор пороговых значений вручную непрактичен и вместо этого используются методы машинного обучения.

Исходные данные и постановка задачи

В качестве исходных данных использовался участок снимка Хабаровска, полученный со спутника WorldView-2. На рис. 1 представлено панхроматическое изображение. Также было взято мульти-спектральное изображение (красный, зелёный, синий, инфракрасный). Разрешение панхроматического изображения - 0,5*0,5 м, а мультиспектрального -2x2 м [5].

По исходным данным требуется построить карту местности, где каждый участок изображения стоит отнести к одному из четырёх классов: земля, поле, лес, город. Примеры участков изображения для каждого из классов приведены на рис. 2, где каждый участок охватывает область 86*86 м2.

Земля соответствует участкам снимка, на которых представлена неприкрытая растениями почва либо грунт. На цветном изображении такие области имеют бежевый цвет, показатель N0^ составляет 0-0,2. Как правило, поверхность ровная и тени отсутствуют.

Поле соответствует участкам снимка, на которых представлена почва, покрытая густой травой. На цветном изображении такие области имеют зеленый цвет, а показатель NDVI указывает на наличие небольшого количества растений 0,3-0,6. Поверхность поля ровная, без теней.

а б в г

Рис. 2. Земля - а; поле - б; лес - в; город - г

Лес соответствует участкам снимка, на которых представлены скопления деревьев, в данном случае широколиственных деревьев. Кроны деревьев сомкнуты, и определить отдельные деревья невозможно. На цветном изображении такие области имеют зелёный цвет. На панхроматическом изображении видно множество мелких теней от отдельных деревьев, поскольку поверхность леса неровная и есть перепады высот. Показатель N0^ указывает на наличие густой растительности 0,5-0,8.

Город соответствует участкам снимка, на кото -рых представлены различные здания, дороги, автомобиль и т.д. Цвет и яркость таких участков сильно варьируются. Показатель N0^ сообщает об отсутствии растительности < 0,2.

Для решения задачи выделения леса в данной работе предлагается алгоритм из следующих шагов.

1. Обработать исходный снимок до получения данных об отражающей способности без учёта атмосферных эффектов (Top of Atmosphere Reflectance) в соответствии с методом из [6].

2. Построить карту признаков на основе данных о ToAR. В работе используются спектральные и текстурные признаки.

3. Произвести классификацию каждой точки карты признаков с помощью одного из методов машинного обучения. В данной работе рассматриваются три метода: наивный байесовский классификатор, метод к ближайших соседей и метод опорных векторов.

Описание используемых признаков

Для улучшения эффективности классификации помимо традиционных спектральных признаков также используются текстурные. Поскольку NDVI не позволяет всегда точно отделить поле от леса, в работе дополнительно используются текстурные признаки. Их использование основано на соображении о внешнем виде участков классов поле и лес: поле на панхроматическом изображении выглядит ровным, без резких перепадов высот, а лес выглядит неровным, в скоплениях деревьев на панхроматическом изображении видно много мелких теней. Тогда яркость участков с лесом на панхроматическом изображении будет варьироваться, а участков с полем -наоборот, будет примерно одинаковой.

Каждая точка карты признаков соответствует квадратной области 4*4 м. или 8*8 пикселей панхроматического изображения и 2*2 пикселей муль-тиспектрального изображения. Для спектральных признаков берутся их усреднённые значения, полученные из мультиспектрального снимка. Каждый текстурный признак строится по панхроматическому изображению по формулам ниже и содержит информацию об изменении яркости в данной области.

Список используемых признаков.

1. Значение в красном спектре (спектральный).

2. Значение в зеленом спектре (спектральный).

3. Значение в синем спектре (спектральный).

4. Значение в ближнем инфракрасном спектре (спектральный).

5. NDVI (спектральный, на основе красного и ближнего инфракрасного).

6. Среднеквадратичное отклонение яркости (текстурный):

ст=-

1

1

N N

ХХ(I (x, у) -Ц)2

x=1у=1

1 NN Ц=—2 Ц1 (x У)

N x=1у=1

(1)

(2)

где 1(х, у) - яркость отдельной точки; (х, у) - координаты внутри окрестности; N = 8.

7. Коэффициент асимметрии яркости (текстурный):

1 NN з

— ХКI (х, у) -Ц)3

N

Y1 =-

x=1 у=1

(3)

8. Коэффициент эксцесса яркости (текстур-

ный):

■1 N N

ХХ(I (X, У)-Ц)4

лг2

N

Y2 =

x=1 у=1

— 3 .

(4)

9. Пространственная частота (текстурный): SF = 4HF2 + VF2 ,

HF =

1

N-1 N

N* - N x=1 у=1

Х Х (I(x+1,У) -1(x,у))2

VF =

V

N* - N x=1 у=1

N N-1

ХХ (I (x, у +1) -1 (x,у))2

(5)

(6)

(7)

Признак МЭУ1 позволяет достаточно надёжно отделить зоны растительности (лес и поле) от земли и города. Однако при точном разделении леса и поля возникает трудность: распределение значений МЭУ1 для поля и леса пересекаются.

Если в области есть изменения яркости, например, из-за наличия теней, то это будет отражено в значении текстурных признаков. Соответственно текстурные признаки служат индикатором локальных неровностей поверхности и их можно использовать для отделения леса от поля: лес содержит мелкие тени деревьев и выглядит неровно (содержит темные и светлые пятна), а в поле нет резких перепадов высот, и оно выглядит ровно (вся область примерно одной яркости).

Использование машинного обучения

Поскольку используется не один, а девять признаков, к тому же определяются один из четырех классов, то подбор пороговых значений для решаемой задачи непрактичен и вместо этого используются методы машинного обучения.

В работе были использованы три метода классификации на основе машинного обучения с учителем: наивный байесовский классификатор [8, 9], метод к ближайших соседей [10], метод опорных векторов [11]. Реализации алгоритмов взяты из библиотеки БсШНеат [7].

Для обучения были вручную выбраны наиболее характерные области для каждого класса и переданы на вход алгоритму обучения. В табл. 1 приведены объёмы обучающей выборки, для сравнения вся карта признаков содержит 5-105 точек, или 8,0 км2.

Объём обучающей выборки

Таблица 1

Класс Точек на карте признаков, тыс. Площадь, км2

Земля 4,2 0,07

Поле 7,3 0,12

Лес 13,9 0,22

Город 15,0 0,24

ст

Результаты классификации

В табл. 2 приведены результаты классификации исходного изображения (см. рис. 1) площадью 8,0 км2, что соответствует 952*526 точкам карты признаков.

ст

На рис. 3, 4 представлены результаты работы алгоритмов для выделенных участков изображения (206*206 м).

Таблица 2

Площадь классов по результатам работы алгоритма

Площадь, км2

Класс Наивный Метод к Метод

байесовский ближайших опорных

классификатор соседей векторов

Земля 0,99 0,13 0,25

Поле 1,18 1,36 1,12

Лес 3,00 2,87 2,19

Город 2,84 3,66 4,45

в г

□ - земля, □ - поле, □ - лес, □ - город Рис. 3. Исходное изображение - а. Наивный байесовский классификатор - б. Метод к ближайших соседей - в. Метод опорных векторов - г

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в г

□ - земля, □ - поле, □ - лес, □ - город

Рис. 4. Исходное изображение - а. Наивный байесовский классификатор - б. Метод к ближайших соседей - в. Метод опорных векторов - г

Результаты сравнительного анализа методов классификации приводят к следующим выводам.

Наивный байесовский классификатор достаточно хорошо справляется с задачей, поскольку основные классы имеют достаточно простое распределение признаков, плотно лежат в пространстве выбранных признаков. Более того, метод корректно определил наличие деревьев и земли в районах, которые при обучении были обозначены как город.

На изображении с результатами классификации местами присутствуют шумы в виде мелких областей размером в одну-две точки, которые неправильно классифицированы, однако их количество некритично, и этот шум можно удалить. Как правило, появление шума связано с резкими переходами, и для таких точек выбирается класс город.

Для метода к ближайших соседей характерно появление шума в виде мелких областей другого класса посреди крупной области. Проблема в большом количестве исходных данных, недостаточно строгом определении классов для обучающей выборки. Например, класс город оказывается достаточно широким и включает в себя значения, схожие со значениями из классов лес, поле и земля. В результате для некоторых точек в пространстве задачи оказывается достаточное количество соседей, чтобы отнести её к неправильному классу.

Потенциально метод к ближайших соседей мог бы помочь в случае широких классов со сложными распределениями по признакам, в том числе со сложными зависимостями между признаками, однако этого не происходит. Во-первых, нужно более чёткое разделение по классам. Во-вторых, следует сбалансировать количество исходных данных. В-третьих, для большого объёма обучающей выборки может помочь увеличение параметра к.

Метод опорных векторов проводит чёткие границы между классами, поэтому в результатах его классификации отсутствует мелкий шум, однако границы проведены не так хорошо, как с помощью наивного байесовского классификатора. Например, на рис. 3 он неверно классифицирует участки полей как город (верхняя часть изображения), а на рис. 4 лес неверно классифицирован как город. Скорее всего проблема в плохом разделении классов в обучающей выборке, из-за чего области города получились слишком большими. Кроме того, метод опорных векторов требователен к вычислительным ресурсам и плохо масштабируется с размером обучающей выборки.

Заключение

Наивный байесовский классификатор по сравнению с другими методами показал лучшие результаты и справился с задачей отделения леса от низкорослой растительности, при этом хватило достаточно простого набора статистических признаков. Основной положительный момент в использовании методов машинного обучения: не требуется вручную выбирать пороговые значения и отделять различные классы друг от друга.

В дальнейшем исследовании следует разработать методы оценки полезности признаков, подобрать сравнительную информацию [12] для проверки качества работы алгоритмов классификации и расширить набор используемых признаков для учёта пространственной информации: фильтры Габора, статистические признаки второго порядка и др. То -гда можно будет приступить к решению более сложных задач в выделении леса на космических снимках, например, оценки плотности деревьев, их высоты и др.

Литература

1. Materka A. Texture аиа1у818 меШо<18 - a review / A. Materka, M. Strzelecki // Technical University of Lodz, Institute of Electronics, COST B11 report. - Brussels, 1998.

2. Selvarajah S. Analysis and comparison of texture features for content based image retrieval / S. Selvarajah, S. Ko-dituwakku // International Journal of Latest Trends in Computing. - London: Exceling Tech, 2011. - Vol. 2, No. 1. -PP. 108-113.

3. Ruiz L. Texture feature extraction for classification of remote sensing data using wavelet decomposition: a comparative study / L. Ruiz, A. Fdez-Sarria, J. Recio // Proceedings XXth ISPRS Congress. - 2004.

4. Wieland M. Performance evaluation of machine learning algorithms for urban pattern recognition from multi-spectral satellite images / M. Wieland, M. Pittore // Remote Sensing. - 2014. - Vol. 6. - PP. 2912-2939.

5. WorldView-2 satellite sensor (0.46m), сайт: SATELLITE IMAGING CORPORATION [Электронный ресурс]. -Режим доступа: http://www.satimagingcorp.com/satellite-sen-sors/worldview-2/, свободный (дата обращения: 22.09.15).

6. Updike T. Radiometric use of WorldView-2 imagery / T. Updike, C. Comp // Technical note. - Colorado: Digital Globe, 2010.

7. Scikit-learn: machine learning in Python, сайт -SCIKIT-LEARN DOCUMENTATION [Электронный ресурс]. - Режим доступа: http://scikit-learn.org/, свободный (дата обращения: 08.06.16).

8. Zhang H. The optimality of Naive Bayes // Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference, Miami Beach. - Florida, USA: AAAI Press, 2004. - PP. 562-567.

9. Metsis V. Spam filtering with Naive Bayes - Which Naive Bayes? / V. Metsis, I. Androutsopoulos, G. Paliouras // 3rd Conf. on Email and Anti-Spam (CEAS), Mountain View, California USA. - 2006. - http://www2.aueb.gr/users/ion/ docs/ceas2006_paper.pdf.

10. Wu X. Top 10 algorithms in data mining. / X. Wu, V. Kumar, J. Quinlan // Knowl. Inf. Syst. - 2007. - Vol. 14. -PP. 1-37.

11. Vapnik V. Bounds on error expectation for support vector machines / V. Vapnik, O. Chapelle // Neural Computation. - 2000. - Vol. 12, No. 9. - PP. 2013-2036.

12. Астафуров В.Г. Программная система для автоматической классификации текстур перистой облачности на основе нейро-нечеткой сети / В.Г. Астафуров, Т.В. Евсют-кин // Доклады Томского гос. ун-та систем управления и радиоэлектроники. - 2015. - № 2 (36). - С. 125-129.

Михайлов Евгений Владиславович

Преподаватель каф. вычислительной техники (ВТ) Тихоокеанского гос. ун-та (ТОГУ) Тел.: +7-909-842-10-02 Эл. почта: mevpnu@gmail.com

Сай Сергей Владимирович

Д-р техн. наук, зав. каф. ВТ ТОГУ

Тел.: +7-924-216-10-43

Эл. почта: sai1111@rambler.ru

Mikhailov E.V., Sai S.V.

Machine learning for forest segmentation in satellite images

A method to segment forest regions in satellite images is proposed. Satellite image analysis usually includes computation of NDVI to segment vegetation areas based on spectral information from red and infrared channels. To segment forest and grass regions we use texture information, as forest areas usually include a lot of small shadows. In the article only simple texture features are considered, such as standard deviation and skewness. Instead of manual selection of thresholds for each feature, we use machine learning to classify regions. Keywords: satellite image processing, textural features, classification, machine learning.

i Надоели баннеры? Вы всегда можете отключить рекламу.