УДК 004.9
Д.И. Добротворский, Е.А. Куликова, И.А. Пестунов Ю.Н. Синявский Институт вычислительных технологий СО РАН, Новосибирск
ВЕБ-СЕРВИСЫ ДЛЯ НЕПАРАМЕТРИЧЕСКОЙ КЛАССИФИКАЦИИ СПУТНИКОВЫХ ДАННЫХ
Описана методика публикации алгоритмов обработки пространственных данных в виде веб-сервисов, удовлетворяющих стандарту WPS (web processing service). Реализован набор алгоритмов обучаемой и автоматической классификации многоспектральных изображений.
D.I. Dobrotvorskiy, E.A. Kulikova, I.A. Pestunov, Yu.N. Sinyavskiy Institute of Computational Technologies SB RAS 6 acad. Lavrentieva ave., Novosibirsk, 630090, Russian Federation
WEB-SERVICES FOR NONPARAMETRIC CLASSIFICATION OF SATELLITE DATA
Method of publishing spatial data processing algorithms as WPS (Web Processing Service) is described. Set of supervised and unsupervised classification algorithms for multispectral images is implemented.
Введение
Важнейшей составляющей информационного обеспечения современного общества, необходимой для безопасного существования и устойчивого экономического развития любого государства, являются данные дистанционного зондирования (ДДЗ). При исследовании труднодоступных территорий Западной и Восточной Сибири дистанционное зондирование Земли имеет особое значение, потому что ДДЗ - практически единственный источник независимой, объективной и актуальной информации.
В последние годы в области создания и развития средств и технологий дистанционного зондирования Земли наблюдается стремительный прогресс. Пространственное разрешение снимков повысилось до десятков сантиметров, спектральное разрешение - до сотен каналов. Кроме того, с каждым годом растет число запускаемых спутников высокого и сверхвысокого разрешения. Как следствие, лавинообразно растут получаемые объемы данных.
В то же время накоплен достаточно большой объем эмпирической информации об изучаемых объектах и явлениях, размещенной в тематических базах данных, содержащих электронные карты, временные ряды, экспертные знания (представленные в виде логико-вероятностых высказываний) и др.
С другой стороны, сложность современных пакетов обработки пространственных данных, их существенная стоимость и необходимость постоянного обновления значительно затрудняют их широкое использование рядовым потребителем.
В настоящее время решение практических задач, связанных с обработкой пространственных данных, производится с помощью традиционных, но, зачастую, устаревших, методов обработки, включенных в состав автономных программных пакетов. Предоставление алгоритмов обработки в виде веб-сервисов позволит пользователям получить доступ к распределенному хранилищу наиболее современных алгоритмов. Такая схема позволит значительно упростить внедрение передовых технологий.
В последние годы активно развивается протокол предоставления сервисов обработки пространственных данных WPS (Web Processing Service)[1], спецификация которого разработана консорциумом OGC. На данный момент существуют программные системы с открытым исходным кодом, предоставляющие инструментарий для реализации WPS-процессов. Использование WPS-процессов конечным пользователем возможно при помощи ГИС-пакетов, в которых реализована поддержка данного протокола. На данный момент к ним относятся открытые ГИС uDig, OpenJUMP и др.; планируется внедрение поддержки WPS в такие пакеты как ArcGIS и QGIS.
Описание системы
Спецификация WPS[1] описывает стандартный интерфейс для публикации процессов обработки геопространственных данных, а также правила поиска и доступа к ним со стороны клиента. Процессом может
являться алгоритм или численная модель, использующая пространственно
скоординированные данные. Под публикацией понимается предоставление стандартизованной информации,
необходимой для доступа к процессу, и метаданных на естественном языке, позволяющих осуществлять поиск и использование процесса.
Архитектура реализованной системы представлена на рисунке. Реализация выполнена на платформе Java 1.6, что позволило обеспечить платформенную независимость. Ядром системы является WPS-сервер, который создан в рамках проекта deegree[2] и представляет собой веб-приложение, работающее под управлением контейнера сервлетов Apache Tomcat. Он осуществляет интерпретацию входных и выходных данных согласно спецификации протокола WPS и выполняет функции контейнера для неограниченного числа WPS-процессов.
Для обработки данных с помощью WPS-процесса пользователь вводит в клиентском приложении адрес WPS-сервера, после чего ему предоставляется список доступных процессов и их описания (метаданные на естественном
Пользователи
Интернет
Архитектура системы
языке). Выбрав необходимый алгоритм, пользователь указывает значения входных параметров в соответствии со спецификацией протокола WPS. Например, для алгоритмов классификации входными параметрами являются классифицируемое растровое изображение, обучающая выборка (для обучаемых и полуобучаемых алгоритмов), а также набор числовых параметров, специфичных для конкретного алгоритма. Значениями параметров могут быть как данные, находящиеся на компьютере пользователя, так и результаты выполнения запросов к удаленным WPS/WMS/WFS/WCS-серверам [1,3-5]. В этом случае запрос обрабатывается распределенно, без необходимости сохранения промежуточных результатов.
На данный момент в виде WPS-процессов опубликованы четыре эффективных непараметрических алгоритма, созданные в ИВТ СО РАН в рамках различных проектов и грантов. Они позволяют решать широкий круг задач, связанных с распознаванием образов и анализом многоспектральных спутниковых данных. Набор включает алгоритмы кластеризации MeanSC и CCA, а также иерархический классификатор для обработки данных дистанционного зондирования и алгоритм классификации с полуобучением.
Алгоритм кластеризации MeanSC[6]. Алгоритмы кластеризации, реализованные в известных пакетах программ обработки данных дистанционного зондирования (ДДЗ), требуют от пользователя задания ряда параметров, предопределяющих как количество кластеров, так и их форму, размер. На практике пользователи, как правило, не имеют априорной информации, необходимой для выбора этих параметров. Кроме этого, простые математические модели, лежащие в основе этих алгоритмов, не позволяют выделять классы сложной формы, наиболее адекватно отражают реальные данные. Указанные недостатки часто приводят к неудовлетворительным результатам кластеризации.
Выходом из этой ситуации является непараметрический подход. При этом подходе предполагается, что выборочное пространство данных есть множество реализаций случайной величины, плотность распределения которой неизвестна. Локальные моды этой плотности соответствуют центрам классов, а ее «овраги» определяют границы разделения кластеров.
Реализованный алгоритм разработан с учетом особенностей ДДЗ (большой объем данных, ограниченность диапазонов спектральных яркостей и т.п.). В соответствии с ним в пространстве признаков формируется сеточная структура, затем, с помощью процедуры «среднего сдвига», порождается естественное разбиение выборки на кластеры.
Алгоритм кластеризации CCA [7,8]. Основным недостатком непараметрических алгоритмов является высокая вычислительная сложность. Одним из наиболее эффективных способов повышения быстродействия, активно развиваемым в последние годы, является переход от кластеризации отдельных объектов к обработке элементов сеточной структуры (так называемый сеточный подход). Такие алгоритмы позволяют выделять классы сложной формы, однако они не всегда обеспечивают
требуемое качество результатов при выделении классов, характеризующихся многомодовой плотностью распределения.
Реализованный алгоритм разработан в рамках комбинации плотностного и сеточного подходов и позволяет выделять многомодовые классы сложной формы. Варьирование значения специального параметра позволяет получать результаты различной степени подробности. Быстродействие алгоритма позволяет проводить обработку данных в диалоговом режиме.
Непараметрический иерархический классификатор[9]. Традиционный подход к построению непараметрических правил классификации, основанных на оценках Розенблатта - Парзена, заключается в подстановке в байесовское решающее правило вместо неизвестных вероятностных характеристик классов соответствующих им оценок, полученных по обучающим выборкам. Вычисление таких оценок является трудоемкой операцией. Для повышения ее производительности применяется переход к пространству признаков меньшей размерности. Существуют эффективные (в смысле вероятности ошибки классификации) методы извлечения информативных признаков, обеспечивающие хорошие результаты в двухклассовом случае, но с ростом числа классов информативность выделяемых признаков существенно снижается.
Реализованный алгоритм обеспечивает хорошие результаты как в двухклассовом, так и в многоклассовом случае за счет того, что решение общей задачи сводится к решению нескольких задач с меньшим числом классов благодаря введению иерархии классов. Для каждой подзадачи определяется соответствующий набор информативных признаков.
Алгоритм классификации с полуобучением[10]. В задачах обучаемой классификации аэрокосмических изображений процесс получения обучающей выборки (помеченных данных), необходимой для построения решающего правила, зачастую связан со значительными материальными и временными затратами. Поэтому на практике обучающая выборка, как правило, имеется лишь для интересующих пользователя классов и при этом является непредставительной.
В то же время при классификации изображений всегда доступен большой объем непомеченных данных. В этих условиях для расширения обучающей выборки можно использовать методы классификации с полуобучением. Они позволяют использовать информацию о плотности распределения, содержащуюся в непомеченных данных.
Реализованный алгоритм позволяет получить представительную обучающую выборку из исходной обучающей выборки на основе анализа непомеченных данных. В результате получается выборка, достаточная для применения алгоритма классификации с обучением (в данном случае использован классификатор Розенблатта - Парзена с нормальным ядром).
Заключение
В работе описана методика публикации методов обработки пространственных данных в виде веб-сервисов. Она позволяет обеспечить широкому кругу потенциальных пользователей доступ к хранилищу
современных наукоемких алгоритмов и вычислительным ресурсам, необходимым для оперативной обработки больших объемов информации.
На основе программных продуктов с открытым исходным кодом создан проект, в рамках которого реализованы четыре эффективных
непараметрических алгоритма, разработанные в ИВТ СО РАН и позволяющие решать широкий круг задач, связанных с распознаванием образов и анализом многоспектральных спутниковых данных. Данный проект может являться платформой для внедрения алгоритмов обработки пространственных данных.
В дальнейшем планируется расширение набора поддерживаемых форматов входных и выходных данных для повышения совместимости с популярными ГИС, а также улучшение реализованных и интеграция новых алгоритмов обработки.
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант №09-07-12087-офи_м) и мэрии г. Новосибирска (грант №09-09).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Web Processing Service Specification (2010) [Electronic resource] - Англ. - Режим доступа: http://www.opengeospatial.org/standards/wps
2. Проект deegree [Electronic resource] - Англ. - Режим доступа: http://www.deegree.org
3. Web Map Service Specification (2010) [Electronic resource] - Англ. - Режим доступа: http://www.opengeospatial.org/standards/wms
4. Web Feature Service Specification (2010) [Electronic resource] - Англ. - Режим доступа: http://www.opengeospatial.org/standards/wfs
5. Web Coverage Service Specification (2010) [Electronic resource] - Англ. - Режим доступа: http://www.opengeospatial.org/standards/wcs
6. Пестунов, И. А., Синявский, Ю. Н. Непараметрический алгоритм кластеризации данных дистанционного зондирования на основе grid-подхода [Текст]/ И.А. Пестунов, Ю.Н.Синявский// Автометрия. - 2006. - Т. 42, № 2. - С. 90-99.
7. Куликова, Е.А., Пестунов, И.А., Синявский, Ю.Н. Непараметрический алгоритм кластеризации для обработки больших массивов данных [Текст]/ Е.А. Куликова, И.А. Пестунов, Ю.Н. Синявский// XIV Всерос. конф. «Математические методы распознавания образов», г.Москва, 21-26 сентября 2009 года: Сборник трудов. / МАКС Пресс. - М., 2009. - С.149-152.
8. Пестунов, И.А., Куликова, Е.А., Бериков, В.Б., Махатков, И.Д. Сеточный алгоритм кластеризации с использованием ансамблевого подхода к принятию решений [Текст]/ И.А. Пестунов, Е.А. Куликова, В.Б. Бериков, И.Д. Махатков// Горный информационно-аналитический бюллетень. - Сер.: Отдельный вып. «Кузбасс 2». - 2009. -С. 52-64.
9. Пестунов, И.А., Добротворский, Д.И., Синявский, Ю.Н. Классификация больших массивов данных в условиях малой априорной информации [Текст]/ И.А. Пестунов, Д.И. Добротворский, Ю.Н. Синявский// Вычисл. технологии. - 2007. - Т. 12, спецвыпуск4.- С.50-58.
10. Куликова, Е.А., Пестунов, И.А. Классификация с полуобучением в задачах обработки многоспектральных изображений[Текст]/ Е.А. Куликова, И.А. Пестунов// Вычисл. технологии. - 2008.- Т.13. - Вестн. КазНУ им. Аль-Фараби. - Сер.: Математика, механика, информатика. - 2008. - №3(58). - Совместный вып. - 4.II. - С. 284-291.
© Д.И. Добротворский, Е.А. Куликова, И.А. Пестунов, Ю.Н. Синявский, 2010