Научная статья на тему 'Восстановление двумерных геополей методами геостатистики'

Восстановление двумерных геополей методами геостатистики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
173
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕОИНФОРМАТИКА / ГЕОПОЛЕ / ГЕОСТАТИСТИКА / ВОССТАНОВЛЕНИЕ ГЕОПОЛЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Копнов Максим Валерьевич, Марков Николай Григорьевич

Предложен многоэтапный способ восстановления двумерных геополей по точечным данным. Приведены результаты численных экспериментов, подтверждающие эффективность этого способа по сравнению с другими методами интерполяции при решении задач восстановления двумерных геополей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Восстановление двумерных геополей методами геостатистики»

ВОССТАНОВЛЕНИЕ ДВУМЕРНЫХ ГЕОПОЛЕЙ МЕТОДАМИ ГЕОСТАТИСТИКИ

М. В. Копнов, Н. Г. Марков

Институт кибернетики Национального исследовательского Томского политехнического университета, 634034, Томск, Россия

УДК 550.8:004.67

Предложен многоэтапный способ восстановления двумерных геополей по точечным данным. Приведены результаты численных экспериментов, подтверждающие эффективность этого способа по сравнению с другими методами интерполяции при решении задач восстановления двумерных геополей.

Ключевые слова: геоинформатика, геополе, геостатистика, восстановление геополя.

A multistage method for recovering 2D geofields by point data is proposed. Results of numerical experiments for comparing this method to other interpolation methods are given. These results prove increased efficiency of the method proposed when solving tasks of recovering 2D geofields.

Key words: geoinformatics, geofield, geostatistics, geofield recovering.

Введение. Существует большой класс пространственных объектов, получивших название “геополя”, которые наряду с элементарными пространственными объектами изучаются в геоинформатике. Главной особенностью геополей является пространственная непрерывность, выражающаяся в том, что две близко расположенные точки поверхности скорее будут иметь и близкие значения уровня (далее — значения) геополя [1]. Примерами указанных объектов являются распределение в пространстве температуры и давления, концентрация химических элементов в почве, рельеф местности и др. Такого рода объекты-поверхности называются геополями [2]. Наиболее часто модели пространственных объектов в виде геополей используются при обработке и интерпретации геолого-геофизических и промысловых данных, в задачах анализа рельефа местности, в экологическом моделировании и т. д.

Наиболее широко распространенной и практически важной задачей при анализе геополей является получение значений геополя в точках (областях), где его измерения не проводились. Данная работа посвящена решению такой задачи в случае двумерных геополей. Двумерное геополе представляет собой распределение его значений, зависящее от двух координат x и у. Предложен многоэтапный способ восстановления двумерных геополей по точечным данным, в основе которого лежат методы геостатистики. Приведены результаты исследования эффективности этого способа.

1. Методы решения задачи восстановления двумерных геополей по точечным данным. Восстановление геополя по известным точечным данным представляет собой задачу, в которой по исходной сети n точек, для каждой из которых заданы координаты s(xi,yi), i = 1, .. ., n в двумерном пространстве и значение геополя f, необходимо восстановить отсутствующее значение геополя F(x,y) в любой точке однозначной поверхности с координатами s(x,y) (рис. 1).

у л

9 9

9 9

Рис. 1. Восстановление значения геополя по нерегулярной сети точек

Решение таких задач осложняется следующими особенностями исходных пространственных данных:

— информация об исследуемом объекте (явлении) с определенной степенью достоверности известна лишь в некоторых областях;

— обычно эти области представляют собой точки опробования (точки на местности, в некоторой среде и т. д., где проводилось исследование, в результате которого в них определено значение геополя);

— как правило, точки опробования представляют собой нерегулярную сеть точек.

По сути, восстановление геополя — это попытка по частному восстановить общую картину явления. Ясно, что без дополнительных сведений о природе восстанавливаемого геополя такую задачу решить однозначно невозможно. Поскольку точного и единственного решения этой задачи не существует, следуя работе [3], будем называть ее некорректной. Таким образом, задача восстановления геополя может быть решена разными методами и с разной точностью.

Существует несколько подходов к анализу и восстановлению геополей: детерминистические методы, методы, основанные на статистической интерпретации данных и объединенные общим названием “геостатистика”, и методы искусственного интеллекта. Анализ показывает, что наиболее перспективными для решения задачи восстановления двумерных геополей являются геостатистические методы [1, 4].

Методы геостатистической интерполяции, основанные на статистическом анализе исходных данных, созданы для решения двух групп задач: 1) количественное представление пространственной структуры данных (вариография); 2) расчет неизвестного значения переменной в заданном месте (в частном случае в точке) [1, 4, 5].

Вариограмма характеризует степень различия данных в зависимости от расстояния между ними. С учетом пространственной непрерывности геополя два более удаленных друг от друга значения геополя будут менее коррелированы, чем два значения, находящиеся на малом расстоянии, т. е. чем ближе значения геополя (чем меньше разность между ними), тем больше значение вариограммы.

При проведении вариограммного анализа обычно рассчитываются следующие параметры [1, 5]: лаг (lag) — расстояния, которые выбираются для поиска пар точек при расчете моментов второго порядка (вариограммы); порог (sill) — параметр теоретической модели вариограммы, характеризующий значение вариограммы на большом расстоянии; радиус кор-

Рис. 2. Процесс кросс-валидации при восстановлении геополя

реляции (range) — параметр теоретической модели вариограммы, характеризующий расстояние, на котором достигается постоянное значение (порог) вариограммы; эффект самородка (nugget effect) — остаточный, пространственно не коррелированный шум (вариации ошибок измерения в совокупности с пространственными вариациями при расстояниях, значительно меньших шага h).

Конечной целью применения метода вариографии является построение аналитической функции, описывающей пространственную корреляционную структуру данных и пригодной для дальнейшего использования в геостатических моделях интерполяции (в частности, в методе кригинга). Иными словами, конечной целью вариографии является построение теоретической модели вариограммы.

Для восстановления значений геополя в геостатистике используется метод кригинга (от фамилии южноафриканского геолога Д. Криге). В этом геостатистическом методе интерполяции [5] используются статистические параметры, обычно получаемые на этапе вариографии, для более точного восстановления отсутствующих значений геополей. По сути, при восстановлении геополя методом кригинга используется подходящая модель интерполяции, выбранная экспертом на этапе построения теоретической модели вариограммы для исследуемой области.

Стандартной методикой тестирования результатов восстановления геополя является кросс-валидация (кросс-проверка, скользящий контроль) — процедура эмпирического оценивания обобщающей способности алгоритмов, обучаемых по прецедентам. При восстановлении геополя процедура кросс-валидации заключается в следующем. Из исходного набора данных исключается точка. С использованием оставшихся точек восстанавливается значение геополя в исключенной точке (рис. 2). Вычисляется среднеквадратичное отклонение расчетного значения геополя от исходного. Затем процедура повторяется для другой исключаемой точки и т. д. Общая оценка кросс-валидации определяется как средняя по всем исключенным точкам частота ошибок на контроле.

Проведенные численные эксперименты показывают, что кросс-валидация является процессом, требующим больших временных затрат (рис. 3). Из рис. 3 следует, что при количестве исходных точек более 800 время кросс-валидации (одной итерации расчета параметров) становится недопустимо большим. Эти усредненные данные были получены на основе 30 численных экспериментов. При доверительной вероятности 0,95 относительная ошибка вычисления времени кросс-валидации составляет 2,7 %.

Число точек

Рис. 3. Зависимость времени кросс-валидации от количества точек исходного набора данных

Процесс восстановления геополя методом кригинга реализуется следующим образом:

— методом вариографии определяются входные параметры для метода кригинга: ранг, порог, эффект самородка и теоретическая модель вариограммы;

— вычисляется значение (значения) геополя;

— с использованием кросс-валидации проверяются результаты восстановления;

— если точность полученных результатов не удовлетворяет, пользователь повторяет весь процесс восстановления геополя, начиная с этапа вариографии, для определения входных параметров для метода кригинга.

Основным недостатком такого подхода является то, что процесс определения входных параметров может продолжаться достаточно долго, так как зачастую пользователи не в полной мере представляют математическую основу геостатического метода и, следовательно, не могут корректно определить входные параметры для кригинга [5]. Также следует отметить рутинность и трудоемкость всего процесса: после каждой итерации восстановления геополя и оценки его результатов пользователю необходимо вручную задать входные параметры метода кригинга и вновь запустить процедуру восстановления геополя. Значительная часть временных затрат приходится на проведение кросс-валидации (см. рис. 3).

Учитывая результаты, полученные в работах [5, 6], можно утверждать, что одной из основных проблем, возникающих при восстановлении геополей по точечным данным методами геостатистики, является невысокая точность. Другой проблемой является значительная трудоемкость процесса восстановления. Для решения этих проблем предлагается использовать многоэтапный способ восстановления геополя по точечным данным, позволяющий повысить точность восстановления и снизить трудоемкость процесса восстановления с помощью выполнения фильтрации и обработки исходных данных, а также за счет автоматизированного подбора входных параметров для метода кригинга, основанного на предварительном варио-граммном анализе исходных данных.

2. Многоэтапный способ восстановления геополей. Укрупненная схема многоэтапного способа представлена на рис. 4. Особенностью многоэтапного способа являются обя-

Рис. 4. Обобщенная схема многоэтапного способа восстановления геополей: серые прямоугольники — наиболее важные промежуточные данные, белые — какие-либо действия над этими данными

зательные этапы фильтрации и обработки исходных данных и их вариограммного анализа. Рассмотрим каждый этап предложенного способа более подробно.

Этап 1. Загрузка исходных данных, подлежащих анализу. Данный этап предполагает преобразование исходных данных о геополе на нерегулярной сети точек, представленных в различных форматах, к единому формату. В таком формате каждый элемент исходного набора данных представляется в виде пары (б, f). Атрибут Б — координаты точки (хг,уг) в двумерном пространстве. Атрибут f — значение геополя в этой точке.

Этап 2. Фильтрация и обработка исходных данных. Из набора данных, сформированных на этапе 1, удаляются точки, атрибут f которых не соответствует заданным условиям. Производится фильтрация исходных данных в пространстве координат, при этом из набора данных удаляются точки, положение которых не соответствует заданным условиям (точки, лежащие вне исследуемой области). Обрабатываются точки, совпадающие в пространстве координат, находятся точки, расстояние между которыми меньше заданной величины. При этом группа близко расположенных точек заменяется одной точкой, а значение атрибута f в ней устанавливается по заданному правилу.

Этап 3. Вариограммный анализ. С использованием набора данных, сформированного на этапе 2, строится экспериментальная вариограмма и подбирается ее теоретическая модель. Далее производится автоматизированный подбор параметров теоретической модели вариограммы в соответствии с алгоритмом, схема которого приведена на рис. 5. Для некоторых исходных наборов данных минимальные значения ошибки восстановления гео-

Диапазон входных параметров теоретической модели вариограммы, требуемая точность

£

Поиск

параметров

метода

Кросс-

валидация

Нет

Достигнута Да заданная

Параметры модели теоретической вариограммы

Рис. 5. Схема алгоритма автоматизированного подбора параметров теоретической модели вариограммы

поля возможны при нескольких различных наборах параметров теоретической модели вариограмм. В этом случае результатом выполнения автоматизированного процесса подбора параметров является набор комбинаций значений ранга, порога и эффекта самородка, из которого пользователь самостоятельно выбирает необходимую ему комбинацию параметров. Автоматизация процесса подбора параметров позволяет значительно снизить трудоемкость вариограммного анализа [7].

Этап 4- Восстановление геополя. Параметры теоретической модели вариограммы, полученные на этапе 3, являются входными данными при восстановлении геополя. Набор исходных данных, сформированный как результат этапа 2, подвергается соответствующей обработке методом кригинга с учетом параметров теоретической модели вариограммы.

3. Исследование эффективности многоэтапного способа. Цель исследования заключалась в сравнении точности восстановления геополей по точечным данным предложенным многоэтапным способом восстановления геополей, методом простого кригинга [1, 5] и известным детерминистическим методом обратных взвешенных расстояний ГОШ [6]. Численные эксперименты проводились с использованием трех моделей геополя: сферической (рис. 6,а), эллипсоидальной (рис. 6,6) и модели Розенброка (рис. 6,в), описанных в [7]. Значения геополя рассчитывались как с использованием аналитических описаний этих моделей

б

Рис. 6. Примеры двумерных геополей, построенных с помощью сферической модели (а), эллипсоидальной модели (б) и модели Розенброка (в)

£ 50

а 45 ^ 40

5

а 35

0

30

1 25

л

5 20 В 15

§ 10

н

О 5 0

а

Ч

\

ч

ч

10 20 30 40 50

Число исходных точек

3

ЕС

-

и

■-

5

о

0

1 Е-

о

90

*§ 70

Е

о

60

50

40

30

20

10

0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\

V

ч

10 20 30 40 50

Число исхдных точек

а

и

ю

я

я

л

Ц

1>

н

я

о

о

я

н

о

Число исходных точек

Рис. 7. Зависимость ошибки восстановления геополя от количества используемых точек: а — сферическая модель; б — эллипсоидальная модель; в — модель Розенброка

(исходные точечные данные), так и с помощью исследуемых способа и методов в узлах восстанавливаемой регулярной сети.

При проведении экспериментов использовался генератор случайных чисел, с помощью которого формировались различные наборы нерегулярных двумерных точечных сетей в интервале от -5,12 до 5,12 для каждой из координат х, у. Для каждой точки (х, у) вычислялось значение геополя f для сферической и эллипсоидальной моделей и модели Розенброка. По каждому из созданных исходных наборов данных восстанавливалось геополе — значения в узлах регулярной сети размером 50x50 ячеек. В каждом узле восстановленной регулярной сети рассчитывалась относительная ошибка для многоэтапного способа и методов кригинга и ГОШ.

На рис. 7 показана зависимость относительной ошибки <готн восстановления геополя, выполненного методами кригинга, обратных взвешенных расстояний ГОШ и многоэтапным способом, от количества исходных данных для различных моделей геополя.

Результаты получены для каждой модели геополя на основе 30 численных экспериментов, в которых варьировались исходные точечные данные. При доверительной вероятности

0,95 ошибка при оценке точности восстановления составляет 4,8 %. Из рис. 7 следует, что ошибки восстановления предложенным многоэтапным способом меньше ошибок других методов, т. е. предложенный многоэтапный способ позволяет получить более точный результат восстановления геополя. Кроме того, при уменьшении количества исходных точек ошибка восстановления аотн при использовании многоэтапного способа растет не настолько быстро, как при использовании других методов. Поэтому предложенный способ может быть эффективным даже в тех случаях, когда число точек, используемых при восстановлении геополя, невелико.

Заключение. В настоящее время существуют различные методы и алгоритмы восстановления двумерных геополей по точечным данным. Наибольшее распространение получили детерминистические методы пространственной интерполяции, однако в последние годы активно развиваются методы геостатистики. Следует отметить, что для этих методов характерны невысокая точность восстановления двумерных геополей и значительная трудоемкость процесса восстановления. Для решения этих проблем предложен многоэтапный способ восстановления геополей, отличающийся от известных геостатических методов и алгорит-

мов тем, что включает обязательные этапы предварительной обработки и вариограммного анализа исходных данных.

Результаты проведенных численных экспериментов показали, что ошибки восстановления геополя предложенным способом значительно меньше ошибок восстановления геополя геостатическим методом кригинга и наиболее распространенным детерминистическим методом обратных взвешенных расстояний IDW. Применение алгоритма автоматизированного подбора параметров для теоретической модели вариограммы позволяет снизить трудоемкость процесса восстановления геополей.

Список литературы

1. Каневский М. Ф., Демьянов В. В., Савельева Е. А. и др. Элементарное введение в геостатистику // Пробл. окружающей среды и природ. ресурсов. 1999. № 11. С. 3-14.

2. Мусин О. Р. Цифровые модели для ГИС // Информ. бюл. ГИС-Ассоциации. 1998. № 4. С. 26-28.

3. Морозов В. А. Методы решения некорректно поставленных задач: Алгоритмический аспект / Под ред. В. А. Морозова, А. И. Гребенникова. М.: Изд-во Моск. гос. ун-та, 1992. 320 с.

4. BURROUGH P. A. Principles of geographical information systems / P. A. Burrough, R. A. McDonnell. Oxford: Oxford Univ. Press, 1998. 334 p.

5. Каневский М. Ф., Демьянов В. В., Савельева Е. А., Чернов С. Ю. Основные понятия и элементы геостатистики // Пробл. окружающей среды и природ. ресурсов. 1999. № 11. С. 15-21.

6. Ковин Р. В. Геоинформационные технологии для анализа двумерных геополей / Р. В. Ковин, Н. Г. Марков. Томск: Изд-во Том. гос. ун-та, 2006. 166 с.

7. Ковин Р. В., Копнов М. В., Марков Н. Г. Особенности поиска значений параметров при автоматизированном построении прогнозных карт // Сб. тр. 16-й Междунар. науч.-практ. конф. студентов, аспирантов и молодых ученых “Современные техника и технологии”, Томск, 12-16 апр. 2010 г. Томск: Изд-во Том. политехн. ун-та, 2010. Т. 2. С. 342-343.

8. Finck S., Hanseny N., Rosz R., Augerx A. Real-parameter black-box optimization benchmarking 2009: Presentation of the noiseless functions. [Electron. resource]. http://coco.gforge.inria.fr/lib/ exe/ fetch.php?media=download3.6:bbobdocfunctions.pdf.

Копнов Максим Валерьевич — зав. лабораторией Института кибернетики ТПУ; тел. (3822) 70-16-09; e-mail: [email protected];

Марков Николай Григорьевич — д-р техн. наук, проф., зав. кафедрой Института кибернетики ТПУ; тел. (3822) 70-16-09; e-mail: [email protected]

Дата поступления — 24.02.11 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.