Научная статья на тему 'Интернет технологии в обработке данных дистанционного зондирования Земли'

Интернет технологии в обработке данных дистанционного зондирования Земли Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
760
278
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Интернет технологии в обработке данных дистанционного зондирования Земли»

УДК 528.852

А.А. Бучнев, П.А. Калантаев, В.П. Пяткин СГГ А, Новосибирск

ИНТЕРНЕТ ТЕХНОЛОГИИ В ОБРАБОТКЕ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ

В настоящее время Интернет технологии широко используются в науке, образовании, телекоммуникациях и бизнесе. В данной работе представлены результаты по применению Интернет технологий в области обработки данных дистанционного зондирования Земли (ДЗЗ).

1. ИНТРАНЕТ АРХИТЕКТУРА КАК МОДЕЛЬ СИСТЕМЫ ОБРАБОТКИ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ

В нашей стране и за рубежом использование спутниковой информации для изучения природных ресурсов и процессов, а также контроля окружающей среды давно уже прошло стадию академических исследований и экспериментальных систем. Анализ прошлого этапа развития дистанционных методов изучения природных ресурсов показывает, что совершенно необходимо создание промышленных систем сбора, передачи и обработки данных ДЗЗ в интересах большого ряда отраслей и научных направлений. На новом этапе возникает несколько научно-технических и организационных проблем. Наименее изученной и проработанной нам представляется одна - создание распределенной сети центров тематической обработки данных ДЗЗ и решения прикладных задач [1]. В этой проблеме предметом опережающего и серьезного системного исследования должна стать структура технических и программных средств типового регионального центра обработки данных ДЗЗ, информационной системы, использующей самые современные сетевые информационные технологии. Анализ перспективных космических проектов дистанционного зондирования подтверждает актуальность решения этой проблемы. Так концепция построения системы EOS (Earth Observing System: Система наблюдения Земли) несколько отличается от привычной [2]. Согласно этой концепции EOS рассматривается как информационная система, в которой управление экспериментом на орбите, базы данных системы EOS и информация, получаемая другими системами, соединяются вместе с помощью информационной сети. Учитывая планетарный характер исследований в области дистанционного зондирования Земли, по-видимому, альтернативы информационной сети Интернет, обеспечивающей доступ к международным архивам данных и другим сетям, не существует [3].

В настоящее время основными субъектами, заинтересованными в геоинформации, являются регионы вместе со всей своей инфраструктурой, контролирующими и управляющими органами власти, предприятиями и организациями. Это изменение категории потребителя приводит к пониманию значения и стоимости геоинформации [4]. Задачу обеспечения глав администраций геоинформацией можно решить только путем создания

региональных сетевых геоинформационных систем (ГИС), которые должны располагать современными средствами приема дистанционной информации, обеспечивать автоматизированную интерпретацию данных ДЗЗ, моделирование процессов изменения окружающей среды, компьютерный синтез тематических карт, выход в глобальные вычислительные сети и комплексный анализ территории.

Региональная информационная система (РИС) для обработки данных ДЗЗ должна поддерживать множество типов данных ГИС и прикладных услуг и разрабатываться на основе стандартов открытых систем. По нашему мнению Интранет архитектура региональной системы обработки данных ДЗЗ может быть смоделирована в терминах программных интерфейсов, разработанных на объектно-ориентированных языках программирования высокого уровня, Web-интерфейсов СУБД и ГИС и типовых ГИС-приложений пользователей. Макет РИС для современного регионального центра приема и обработки спутниковых данных можно реализовать на базе технических средств, объединенных в локальную вычислительную сеть с выходом на мощный сервер, провайдер и сеть Интернет. В основу этого макета, на наш взгляд должна быть положена аппаратно-программная Интранет архитектура системы обработки данных ДЗЗ. Интранет - это прежде всего корпоративная, локальная или территориально распределенная сеть, закрытая от внешнего доступа Интернет [5]. Принципиально новая архитектура Интранет позволяет строить информационную технологию корпоративной сети на основе Web-технологий, что является привлекательным для региональных исследований в области дистанционного зондирования, так как дает возможность доступа к практически неограниченным сетевым Web-ресурсам (программного обеспечения, данных мониторинга окружающей среды, картографических данных и др.) исследовательских и природоведческих центров, коммерческих и государственных организаций. Ориентация проекта на Web-технологии определяется также тем, что проектирование интерфейса баз данных в этих технологиях производится на основе гипертекстовых документов, легко переносимых с одной платформы на другую. Все решения Интранет приложений для взаимодействия с базой данных (БД) РИС основаны на архитектуре клиент-сервер. Интранет значительно ускоряет процесс доступа и поиска заархивированной информации через Web-сервер РИС и полностью автоматизирует формирование соответствующих страниц на языке HTML (используемого в Web-технологии) как для организации поиска данных, так и для отражения его результатов в реальном времени. В Интранет архитектуре РИС предусмотрены механизмы, обеспечивающие доступ к базе данных (по запросу клиента) на стороне Web-сервера и работающие непосредственно на стороне клиента. Доступ к базе данных на стороне сервера реализуется за счет наличия двух более или менее стандартизованных средств: возможности включения форм в документ, составленный с использованием языка HTML, и возможности использования внешних по отношению к серверу Web программ, взаимодействие которых происходит через протокол CGI (Common Gateway Interface ). Мощные средства обеспечения доступа к базам данных РИС на стороне

Web-клиента обеспечивает объектно-ориентированный язык программирования Java [6].

Предложенная современная Интранет архитектура информационной системы, как модель системы для обработки данных ДЗЗ, была реализована в ИВМиМГ СО РАН в Лабораторной сети на основе системы Windows NT Workstation 4.0 и ее пакета обновления Service Pack_5. Пакет обновления содержит программный продукт Microsoft Personal Web Server 4.0, использованный для организации Web-узла (http://loi.sscc.ru) лабораторной сети и обеспечивающий доступ к СУБД, размещенной на этом же узле. Пакет обновления также обеспечивает более высокий уровень безопасности в системе Windows NT 4.0. FTP-узел лабораторной сети (ftp://loi.sscc.ru ) реализован на основе freeware-продукта WAR FTP DAEMON v166. Для организации атрибутивных данных на Web-узел установлена база данных Microsoft Access, для доступа к которой разработан специальный Web-интерфейс с использованием объектно-ориентированных языков HTML, ASP, JavaScript, Vbscript и языка запросов баз данных SQL.

2. ГЕОСЕМАНТИЧЕСКАЯ ОРГАНИЗАЦИЯ WEB ДАННЫХ ОКРУЖАЮЩЕЙ СРЕДЫ

В современных ГИС информация структурируется технологическими наборами данных, которые, в свою очередь, могут объединяться в наборы обмена. При этом наборы данных могут рассматриваться как объектно-ориентированная база данных, подчиняющаяся заданным семантическим правилам и записанная в соответствии с заданным синтаксисом. Семантика опирается на то, что любой картографический объект обладает, как пространственногеометрическими, так и функционально-описательными свойствами. Между объектами могут существовать связи различного типа, позволяющие смоделировать сколь угодно сложную сущность реального мира. С ростом WWW возникает необходимость новых способов организации информации. Новый стандарт Semantic Web [7] улучшает методы поиска, за счет использования упорядоченной семантики в ходе поиска, выявляющего новую структуру запросов геопространственного поиска, основанного на семантике пространственных и терминологических онтологий. Систематические наблюдения природных явлений (ПЯ) зачастую представлены разнотипными и несоизмеримыми данными, сопровождаемыми легендами-описаниями в терминах прикладного значения. Легенды-описания данных дают естественную семантическую основу организации БД. Семантика - раздел языкознания и логики, исследующий проблемы, связанные со смыслом, значением и интерпретацией лексических единиц. Соответственно этому классическому определению семантический каталог обеспечивает организацию БД на основе логики, смысла, значения и интерпретации лексических единиц природных явлений. Семантический каталог базы данных природных явлений - это система выдачи осмысленных ответов на поисковые запросы пользователей. В системе, на основе клиент-серверной Web-технологии, обеспечиваются три типа запросов к распределённой БД ПЯ: - навигационные, пространственные и

интеллектуальные. База данных ПЯ может быть закрытой, корпоративной, и распределена на Web-серверах как локальной, так и глобальной сети. Навигационный запрос формируется Web-клиентом в виде строки ключевых слов. В ответ на запрос сервер БД формирует Web-страницу со списком сетевых адресов размещения объектов БД. Пространственный запрос формируется Web-клиентом в виде строки с адресом и (или) координатами географического объекта. В ответ на запрос сервер БД формирует Web-страницу с изображением карты или аэрокосмического снимка географического объекта. Интеллектуальный запрос формируется Web-клиентом в виде строки параметров функции обработки данных БД. В ответ на запрос сервер БД формирует Web-страницу с результатами обработки данных ПЯ. На лабораторном сервере уже функционирует БД ПЯ (рис. 1.) первой очереди (http://loi.sscc.ru/DBRL), реализующая навигационные (например, данные по урагану Катрина) и пространственные запросы (например, Web-атлас Новосибирской области). Для описания семантики природных явлений применимы отечественные стандарты представления пространственных данных, основывающиеся на правилах описания и классификации метрики, семантики и отношений географических объектов. Семантика объекта (семантическая характеристика) - часть информации об объекте, описывающая свойства объекта. Цифровое описание объекта -формализованное представление в цифровом виде данных об объекте, включающее в себя метрику, семантику и отношения объекта в соответствии с классификатором. Перечень семантических характеристик задаётся классификатором объектов. Объекты классифицируются в соответствии с присущими им признаками. Система классификации и созданные в соответствии с ней классификаторы должны однозначно определять принадлежность всех подлежащих классификации объектов и их семантических характеристик к классификационным группировкам. Семантика объекта может содержать специальные характеристики, несущие информацию об отношениях объектов. Гибкая инфраструктура Интернет позволяет легко добавлять новые универсальные услуги, такие как Semantic Web [7], позволяющий описывать семантику ПЯ в соответствии с отечественным стандартом представления пространственных данных.

Для проекта Semantic Web разработан метаязык XML (Extensible Markup Language), предназначенный для создания программных приложений обмена данными в Web, а также для смысловой обработки семантики этих данных. Semantic Web - новое направление развития платформы XML, основу которого составляет стандарты Resource Definition Framework (RDF) и языка описания Web -онтологий (OWL Web Ontology Language). Язык OWL разработан для приложений содержательной обработки информации. В сравнении с XML, RDF, и RDF Schema (RDF-S), OWL обеспечивает более полную машинную обработку Web-контента. OWL предоставляет наряду с формальной семантикой дополнительный терминологический словарь. В RDF-спецификации объявляется некоторое множество ресурсов, для каждого из которых определяются пары "свойство-значение". Описание семантики свойств в RDF

называется RDF-схемой. По сути, RDF-схема позволяет определять онтологию предметной области - природных явлений. Под онтологией понимается "спецификация концептуализации предметной области". Такая спецификация представляет собой своего рода словарь понятий предметной области и совокупность явным образом выраженных предположений относительно смысла этих понятий. Развитые определения онтологий формализуются средствами языков логики первого порядка. Они допускают возможности логического вывода.

Рис. 1. Web-интерфейс базы данных природных явлений

В настоящее время актуальна разработка на основе Интернет стандарта Semantic Web новой модели геопространственных данных. Эта модель должна заменить геореляционную модель данных, применяемую в настоящее время. Недостаток геореляционной модели данных (интегрирующей ГИС и реляционную СУБД) - неприспособленность реляционных таблиц для

семантического анализа и полнотекстового поиска в распределённых атрибутивных БД ГИС. Эти задачи легко исполняются средствами объектноориентированных баз данных XML. Интеграция ГИС и баз данных XML желательна и возможна. Эффективные функции семантического анализа атрибутивных данных особенно актуальны для реализации пользовательских запросов агрегирования данных сети распределённых ГИС (например сети центров приёма и обработки ДДЗ в РФ). Условно, ибо термин не устоявшийся, новая модель может быть названа геосемантическая Web модель данных. Чтобы реализовать идею организации геоинформации средствами Semantic Web, требуется эффективная распределённая человеко-машинная система, способная не только визуализировать и представлять данные, но также вести смысловую обработку данных несоизмеримых типов. Автоматизация распознавания разнотипных данных требует новой инфраструктуры информационных определений и правил вывода. Стратегические перспективы развития платформы XML связаны с созданием семантического Web. Для достижения этой цели необходимо решить большой комплекс сложных научно-технических задач. Одна из этих задач, - моделирование тематических геоданных на основе Semantic Web, с целью информационного обеспечения для фундаментальных исследований в области наук о Земле. Web поддержка онтологий различных предметных областей геоданных позволяет осуществлять более эффективный поиск требуемой геоинформации в Web и является важным шагом к поддержке семантической интеграции геоинформационных ресурсов и других возможностей управления информационными и программными средствами распределённых ГИС и СУБД природных явлений.

3. РАСПРЕДЕЛЕННЫЕ И ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛЕНИЯ В ОБРАБОТКЕ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ

В последние годы характерными чертами дистанционного зондирования Земли (ДЗЗ) являются, с одной стороны, повышение пространственного разрешения космических снимков, а с другой, использование гиперспектральной съемки с большим числом спектральных диапазонов. В частности, на спутниках TERRA и AQUA установлена 36-канальная съемочная система MODIS с различным пространственным разрешением каналов. Обладая шириной обзора в 2500 км, система MODIS способна порождать черно-белые изображения для каждого канала объемом в десятки мегабайт. Синтезированные многоспектральные данные, получаемые при совмещении изображений из нескольких спектральных каналов, могут иметь объемы уже в сотни мегабайт. Становится типичным объем

о

данных из 10 многоспектральных векторов [8]. Поскольку анализ и обработка данных ДЗЗ подобного объема и сложной гиперспектральной структуры требуют использования всех ресурсов доступных аппаратно-программных средств, в ИВМиМГ СО РАН разрабатываются технологии решения этих задач на высокопроизводительных компьютерах, основанные на распределенной и параллельной обработке данных. Стандартная технология использует реализованную на суперкомпьютерах RM600 E30 и МВС-1000/М систему параллельного программирования MPI (Message Passing Interface). Ряд алгоритмов

разработанного в ИВМиМГ СО РАН совместно с НИЦ “Планета” Росгидромета РФ программного комплекса для обработки данных ДЗЗ требуют параллельных реализации из-за большого объёма вычислений [9]. При выделении линейных и кольцевых структур на случайном фоне вычисление статистик Манна-Уитни основано на анализе значений пикселов изображения вдоль нормалей к предполагаемому положению объекта. Такой анализ требует больших временных затрат при его выполнении на однопроцессорной ЭВМ. Так для нахождения всех линейных структур с длинами в интервале 20-35 пикселов на фрагменте изображении размером 1200x850 пикселов требуется 13,35 минут. В связи с этим разработаны параллельные реализации алгоритмов обнаружения линейных и кольцевых структур. Приведенные ниже временные затраты (в секундах) по решению той же задачи на установленной в суперкомпьютерном центре ИВМиМГ СО РАН восьмипроцессорной ЭВМ RM600 Е30 характеризуют производительность в зависимости от количества запускаемых логических процессов: один процесс - 162, два - 81,16, четыре - 40,86, восемь - 21,13 и 10 процессов - 28,43. Заметим, что при превышении количества запускаемых логических процессов общего числа физических процессоров в системе время решения начинает возрастать, что связано с накладными расходами операционной системы на отображение логических процессов на физические процессоры.

Требует распределенных и параллельных версий соответствующих алгоритмов из-за большого объёма вычислений и система контролируемой классификации для объектных классификаторов. Разработанная в ИВМиМГ СО РАН система классификации состоит из семи классификаторов (одного поэлементного классификатора и шести объектных), основанных на использовании байесовской стратегии максимального правдоподобия для нормально распределенных векторов признаков, и двух объектных классификаторов, основанных на минимуме расстояния. Под объектом мы понимаем блок смежных векторов квадратной или крестообразной формы. Поскольку физические размеры реально сканируемых пространственных объектов, как правило, больше разрешения съемочных систем, между векторами данных существуют взаимосвязи. Использование информации подобного рода дает возможность повысить точность классификации, если пытаться распознавать одновременно группу смежных векторов - объект в приведенном выше смысле. В частности, в систему классификации входят классификаторы OMARKC, OMARKS - объектные контролируемые классификаторы, основанные на стратегии максимального правдоподобия, для объектов в форме перекрестия и квадрата соответственно в предположении, что объект является случайным гауссовским марковским полем второго порядка. Анализ формул для вычисления решающих функций для классификатора OMARKC (форма объекта - перекрестие) и для классификатора OMARKS (форма объекта - квадрат) показывает, что определяющий вклад в нахождение значений решающих функций вносит вычисление квадратичной формы. Для каждого вектора ее необходимо вычислять 13т раз для перекрестия и 53т раз для квадрата, где т - количество классов. Для объекта размером 5x5 количество

вычислений квадратичной формы для каждого вектора составит 25т и 186т раз соответственно. В качестве примера в табл. 1 приведены временные характеристики (в секундах) классификации на компьютере ІВМ РС с процессором АМО АШІоп ХР 3200+ 10 векторов размерности N = 5.

Таблица 1

Количество классов "Перек рестие" "Квадрат"

3x3 5x5 3x3 5x5

5 80,7 147,4 311,6 1049,1

10 150,8 291 610,1 2120,4

Альтернативным вариантом, позволяющим существенно уменьшить временные затраты, является создание системы классификации, распределенной между персональным компьютером и многопроцессорной ЭВМ МВС-1000/М. На персональном компьютере выполняется обучение классификатора, которое, по сути, заключается в формировании на основе обучающих полей векторов средних и ковариационных матриц классов. Результаты обучения вместе с классифицируемым набором данных передаются по протоколу FTP на МВС-1000/М, где запускается параллельная версия соответствующей программы. Распараллеливание состоит в распределении набора данных между заданным количеством логических процессов, каждый из которых результаты своей работы записывает в отдельный файл. Эти файлы в свою очередь передаются на персональный компьютер, где выполняется их “склеивание” и дальнейшая интерпретация результатов выполненной классификации. Ниже приводится

табл. 2, отражающая временную динамику выполнения классификатором OMARKS классификации 10 векторов на МВС-1000/М в зависимости от числа процессоров. Размерность векторов N = 3, количество выделяемых классов m = 5, размер объекта - 9x9 пикселов.

Таблица 2

Количество процессоров

1 2 3 4

10200 5070 3242,5 2412,5

Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 05-07-90057).

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Природа Земли из космоса // А.П. Тищенко, В.В. Асмус, В.П. Пяткин и др. Л. : Гидрометеоиздат, 1984. - 151 с.

2. TERRA 2. Understanding The Terrestrial Environment. Remote Sensing Data Systems And Networks . - Ed. By M. Mather, Chichester ets. - John Wiley and Sons, 1995.

3. Крол Э. Все об INTERNET. - Киев, BHV, 1995. - 591 с.

4. Лебедев В.В. Геоинформационное обеспечение как определяющий фактор в развитии космических систем изучения Земли // Исследование Земли из космоса. - N 6. -1995.- С. 104 - 112.

5. Бучнев А.А., Калантаев П.А., Пяткин В.П. Интегрированная информационная система для обработки аэрокосмических изображений // Материалы международной конференции РОАИ-3-97,1-7 декабря 1997, Н. Новгород, РФ.

6. Гослинг Д., Арнольд К. Язык программирования Java.Спб: Питер, 1997.

7. Berners-Lee, T., Hendler, J., and Lassila, O. The Semantic Web: A new form of Web content that is meaningful tocomputers will unleash a revolution of new possibilities. The Scientific American 284, 2001. P. 34-43.

8. Асмус В.В. Программно-аппаратный комплекс обработки спутниковых данных и его применение для задач гидрометеорологии и мониторинга природной среды. Диссертация (научный доклад) на соискание ученой степени доктора физико-математических наук. На правах рукописи. Москва - 2002.

9. Асмус В. В., Бучнев А.А., Пяткин В.П. Программный комплекс для обработки данных дистанционного зондирования Земли // Труды XXXII Международной конференции “Информационные технологии в науке, образовании, телекоммуникации и бизнесе IT+SE’2005”, 20-30 мая 2005 г., Украина, Крым, Ялта-Гурзуф. - С. 229-232

© А.А. Бучнев, П.А. Калантаев, В.П. Пяткин, 2006

i Надоели баннеры? Вы всегда можете отключить рекламу.