УДК 528.854.2
ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛЕНИЯ В ЗАДАЧЕ ПРОСТРАНСТВЕННОГО МОДЕЛИРОВАНИЯ ИЗМЕНЕНИЙ ЛАНДШАФТНОГО ПОКРОВА
А.В. Замятин, А.А. Афанасьев
Томский политехнический университет E-mail: [email protected], [email protected]
Обсуждается задача моделирования изменений ландшафтного покрова, основанная на использовании марковских цепей и аппарата клеточных автоматов, увеличенная производительность решения которой достигается применением различных вариантов параллельной обработки данных при моделировании. Приведены результаты численных экспериментов по оценке различных вариантов параллельной обработки, полученные сиспользованием дорогостоящего суперкомпьютерного кластера и кластера из недорогих ПЭВМ в локальной сети, включая оценку параллельного ускорения, параллельной эффективности и общей производительности кластеров.
Ключевые слова:
Моделирование изменений ландшафтного покрова, параллельные вычисления, марковская цепь, клеточный автомат. Key words:
Land cover changes modeling, parallel computing, Markov chain, cellular automata.
Введение
Один из наиболее перспективных и широко применяемых на практике подходов к моделированию, реализующих принципы построения систем с возможностями прогнозирования изменений ландшафтного покрова, основан на стохастических моделях, клеточных автоматах (КА) [1, 2] и аппарате марковских цепей и позволяет реализовать поведение сложных природно-территориальных комплексов и строить прогнозную тематическую карту Т'' на некоторый момент времени ' в будущем на базе разновременных тематических карт Тйи Тйна моменты времени '2 и 'ь матрицы вероятностей переходов Р= [р,] (стохастической матрицы) из типа (класса) со1 в тип ш, матрицы Мф=[тф] фактического числа переходов элементов на отрезке времени А'2е['2;^] и матрицы Мож=[т“] ожидаемого числа переходов элементов на отрезке А^е^;'], а также с помощью сравнительно простых правил функционирования КА за десятки и сотни итераций алгоритма моделирования, требующих существенных вычислительных затрат [3-5]. Тематическую карту, на основе которой осуществляются последовательно необходимые преобразования (например, карта Тянамомент времени /1), будем называть базовой тематической картой. Период времени, соответствующий А'2, называют наблюдаемым, а А/1 - прогнозным.
Правила функционирования КА могут быть сформированы различными способами [6]. В данном случае будем их задавать на вероятностной основе с использованием результирующей вероятности ррз, определяемой исходя из набора вероятностных компонентов р”ер, р, и рдоп. При допущении независимости событий, задаваемых рв0р, рпр и рдш, вероятность ррез может быть найдена как
РГ=РГХРГХРГП. (1)
Вероятностный компонент р”ер может быть определен как р'Цр=р1] или как р'в‘',=р]-и] на основе стохастической матрицы Р=[р,], где ц - число эле-
ментов типа ю] в окрестности заданного КА, а р , определяется как
па
Р«=1— > (2)
Хп-
где И, - число элементов, перешедших из состояния Ш в состояние (о, а М- число типов ландшафта.
Вероятностный компонент рдоп при наличии соответствующей априорной информации о буферных зонах, расстоянии до сетей инженерных коммуникаций и других аналогичных данных может быть сформирован с помощью вероятностных карт соответствия Ишк=рк,к=1,2,...,£т, 8т — общее количество карт соответствия, I =1,2...,Си, ]=1,2,...,Ли, а Р1шк — матрица размером [СяхЛя]}, построенных с использованием функций пространственного анализа. Если принять значимость (вес) каждого фактора влияния, с учетом которого построена каждая карта соответствия, идентичным для всех к, то вероятностьр~ш будет определяться как рд 0П=р1/Хр]Х...Хр|т.
Определение вероятностного компонента рп предлагается реализовать с использованием набора пространственных метрик. Один из возможных вариантов практического применения рпР в моделировании изменений ландшафтного покрова изложен в [7].
Практические особенности формирования матриц, определяющих основные тенденции изменения ландшафтного покрова, заключаются в следующем. Матрицу фактических переходов определим как Мф=[тф], где тф - число элементов, перешедших из поверхности типа о в тип со, на изображениях Т2 иТ'1 соответственно, ¡]=1,...,М, М — число типов поверхности на исследуемой территории. С помощью выражения (2) и значений матрицы Мф (и,-=Мф[г,/]) получим стохастическую матрицу Р =[р,]. Сумма элементов каждой строки матрицы Мф содержит информацию о количестве пиксе-
лей, принадлежащих соответствующим типам ландшафтного покрова на момент времени '2, а сумма элементов каждого столбца - ту же информацию на момент времени 'ь причем 'г<'х.
Для того чтобы из Мф получить матрицу ожидаемых переходов Мож, необходимо выполнить следующие действия:
1. Транспонировать Мф иполучить Мф.
2. Получить вектор 8=[^152.5М]т, причем
М М
*=х к)т=х т- ■
- =1 - =1
3. Получить М0ж=[т;ож]=[5;хр]], у=1,...,М.
Как отмечено выше, изложенный подход к построению прогнозных карт с использованием моделирования изменений ландшафтного покрова является многоитерационной вычислительно затратной процедурой. Тем более вычислительные затраты возрастут при увеличении объемов используемых исходных данных (например при возрастании геометрических размеров разновременных растровых карт Iй и I'1 или при увеличении числа М ландшафтных классов на исследуемой территории). Существенное снижение вычислительных затрат алгоритма моделирования может быть достигнуто путем применения высокопроизводительных параллельных вычислений [8-11].
Рассмотрим некоторые существующие возможности модификации алгоритма моделирования изменений ландшафтного покрова, позволяющие существенно увеличить производительность вычислений за счет параллельного варианта исполнения.
Организация параллельных вычислений при моделировании
При разработке параллельного варианта исполнения алгоритма моделирования целесообразно ориентироваться на следующие требования:
• сравнительная простота реализации параллельного варианта, не требующая значительных модификаций традиционного последовательного алгоритма;
• минимизация затрат на передачу данных между вычислительными узлами при распределенной обработке, увеличивающая общую производительность кластера [12];
• минимизация величины отклонений результатов параллельного алгоритма моделирования (в идеальном случае - их отсутствие) от результатов, которые были бы получены исходным алгоритмом при традиционном последовательном исполнении.
Реализация распределенного алгоритма предполагает наличие управляющего (головного) вычислительного узла (ВУ) (р0) и N ВУ для параллельной обработки данных (р1,1=1,2,...,^. Поэтому логику возможных вариантов параллельного алгоритма моделирования будут определять варианты распределения данных между головным и прочими ВУ.
В самом простом варианте алгоритм моделирования оперирует следующими данными:
• исходными изображениями (тематическими картами): Т'-2и Т'-', полученными на моменты времени ('-2) и ('-1) соответственно;
• матрицами тенденций изменений, рассчитываемыми на основе Т'-2иТ'-': вероятностей переходов - Р, фактических переходов - Мф и ожидаемых переходов - Мож, а также матрицей ранжирования - И;
• прочими параметрами моделирования, задаваемыми пользователем: порядком й анализируемой окрестности КА, критерием останова К51ор, а также величинами наблюдаемого А'2 и прогнозного А'; интервалов времени;
• промежуточными результатами моделирования (изображениями): Тад, полученными в результате преобразований на (к—1)-й итерации с использованием исходных изображений Т'-2и Т'-1, матриц Р, Мф, Мож и И, а также с учетом прочих параметров моделирования; на основе Тад строится результирующее изображение Т'' на момент времени '.
Возможны два принципиально различных варианта организации параллельных вычислений при моделировании изменений ландшафтного покрова.
Первый вариант предполагает расчет вероятностных компонентов типа (1) на каждом из ВУ без фрагментации (разделения) и уменьшения геометрического размера исходных данных. Результат расчета на каждом ВУ р1 интерпретируется как значение вероятности р,3 и применяется в многоитерационном моделировании при определении правил функционирования КА. Результаты обработки каждым из ВУ р1 объединяются на головном ВУ р0 тем или иным образом, в зависимости от того, в каком виде представлены результаты. Если результаты моделирования отдельными ВУ представлены в виде вероятностных карт для каждого из М типов ландшафта, результирующая карта может быть найдена путем произведения соответствующих вероятностей в каждой точке изображений. В этом случае тип ландшафта, для которого вероятность максимальна, является искомым результатом. Если результаты представлены в виде конечных тематических прогнозных карт, типы ландшафта в каждой точке результирующей прогнозной карты могут быть найдены, например, по мажоритарному правилу.
При такой организации параллельных вычислений моделирование изменений осуществляется независимо различными ВУ и достигается простота практической реализации. Однако при этом в процессе моделирования и обработки данных различными ВУ не учитывается взаимное влияние используемых вероятностных компонентов, что может негативно влиять на точность моделирования и адекватность представления информации о процессах и явлениях ландшафтного покрова на полученных прогнозных картах.
Другой вариант параллельной реализации алгоритма моделирования предполагает расчет вероятностей и моделирование таким образом, чтобы сохранить взаимное влияние вероятностных компонентов. В этом случае следует использовать весь доступный набор данных, которыми оперирует алгоритм моделирования, осуществляя на каждом ВУ моделирование для некоторого фрагмента исследуемой территории.
Поиск вариантов параллельной реализации алгоритма моделирования, удовлетворяющих сформулированному выше условию, показывает практическую сложность фрагментации указанных данных и разделения соответствующих параметров алгоритма по ВУ кластера таким образом, чтобы сохранить логику его традиционного последовательного исполнения. Это связано с тем, что использование геометрически уменьшенных фрагментов данных на каждом ВУ не всегда при моделировании (аналогичном тому, что исполняется традиционным последовательным вариантом алгоритма моделирования) позволяет отразить во фрагменте тенденции ландшафта, характерные для всей исследуемой области.
В связи с этим поиск способов адаптации рассматриваемого алгоритма моделирования для возможности параллельной обработки данных позволяет предложить варианты, характеризующиеся результатами моделирования, отличными в той или иной степени от результатов, которые были бы получены исходным алгоритмом при традиционном последовательном исполнении.
Рассмотрим два основных варианта возможной реализации параллельного алгоритма моделирования изменений ландшафтного покрова - с собственными и с разделяемыми матрицами тенденций изменения на ВУ кластера.
Вариант с собственными матрицами
тенденций изменений
Вариант с собственными матрицами тенденций изменения предполагает следующий обобщенный порядок работы:
Шаг 1. На головном узле осуществляется разделение исходных изображений Т'-2 и Т'-1 на фрагменты Т/-2, Т/-1, /=1,2,., N, где N - число ВУ.
Шаг 2. На каждомр1 осуществляется расчет собственных матриц Р;, Мфо, Мож(/) и Ищ, которые используются при моделировании и построении фрагментов Т/' результирующего изображения Т’' на момент времени '.
Шаг 3. На головном узле осуществляется компоновка фрагментов Т/' в единое результирующее изображение Т''.
Очевидно, что основным ограничением использования этого варианта параллельного алгоритма моделирования является потребность в обработке исходных изображений Т'-2 и Т'-1, которая позволит при фрагментации изображений сохранить на отдельных р1 ландшафтно-классовую структуру, характерную для исходных изображе-
ний. При моделировании на отдельных ВУ это способствует сохранению тенденций изменения ландшафтного покрова, характерных для не фрагментированных исходных разновременных изображений. Это, в свою очередь, позволит снизить потенциальную величину отклонений результатов параллельного алгоритма от результатов, которые были бы получены исходным алгоритмом при традиционном последовательном исполнении. В противном случае, матрицы тенденций изменения, используемые каждым р/, будут существенно отличаться от матриц, используемых традиционным последовательным алгоритмом, а, следовательно, обеспечивать соответствующие значительные отклонения в результатах моделирования.
Кроме того, независимая обработка данных различными ВУ может негативно влиять на общую производительность вычислений кластера. Действительно, объем вычислений каждым ВУ может существенно отличаться, а компоновка фрагментов Т/' в единое результирующее изображение Т'' будет выполнена только после завершения обработки данных каждым ВУ.
Вариант с разделяемыми матрицами
тенденций изменения
В общем случае этот вариант алгоритма может иметь разновидности в зависимости от вида разделяемых матриц (например, разделяемыми всеми ВУ могут быть матрицы Р и/или Мож). Вариант с разделяемой матрицей Р предполагает следующий обобщенный порядок работы:
Шаг 1. На головном узле р0 на основе исходных изображений Т'-2и Т'-1осуществляется расчет матриц Р, Мф, Мож и И; выполняется разделение базового изображения Т'-1на фрагменты Т/-1, формируются матрицы ранжирования ^еИ. Данные (Р,Т/-1Д-) передаются на соответствующие р.
Шаг 2. На каждом ВУ/ на основе полученных данных осуществляется расчет собственных матриц Мож(,), выполняется моделирование и построение фрагментов Т/' результирующего изображения Т’' на момент времени '.
Шаг 3. На головном узле осуществляется компоновка фрагментов Т[' в единое результирующее изображение Т''.
Изложенный вариант алгоритма позволяет ожидать менее значительную величину отклонений результатов параллельного алгоритма от результатов (по сравнению с вариантом алгоритма с собственными матрицами тенденций изменения), которые были бы получены исходным алгоритмом при традиционном последовательном исполнении. Главным образом это связано с тем, что в этом случае используемые каждым р/ матрицы тенденций изменения менее существенно отличаются от матриц, используемых традиционным последовательным алгоритмом.
В случае, если в качестве разделяемой матрицы выбрана Мож, ее элементы могут быть найдены как Mо¡ж={mож[l,r]=mож(¡)[l,r]/N, /,г=1,2,...,МД - число
доступных ВУ, М- число типов ландшафта}, обеспечивая сниженный объем ожидаемых преобразований при моделировании на каждом ВУ.
Для обеспечения еще более значительного соответствия параллельного варианта исполнения его последовательному традиционному аналогу рассмотрим еще одну разновидность алгоритма с разделяемыми матрицами тенденций изменения -с синхронизацией матриц тенденций изменения. Такая синхронизация может выполняться через некоторый определенный временной интервал (А'5уп), задаваемый либо временными параметрами моделирования, либо некоторой относительной долей выполненных преобразований (АЯ). Учитывая относительный характер величины АЯ, ее практическое использование при определении интервала синхронизации следует признать более предпочтительным.
Параллельный алгоритм моделирования с разделяемыми матрицами тенденций изменения и их синхронизацией предполагает следующий обобщенный порядок работы:
Шаг 1. На головном узле р0 на основе исходных изображений Т'-2иТ'-1осуществляется расчет матриц Р, Мф, Мож и К; выполняется разделение базового изображения Т'-1 на фрагменты Т/-1, формируются матрицы ранжирования К-еИ. Данные (Р,Мож, К, Т/1) передаются на соответствующие р.
Шаг 2. На каждом р1 на основе полученных данных осуществляется моделирование изменений ландшафтного покрова. Через заданные доли преобразования АЯ производим процедуру синхронизации:
• передаем матрицу Мохй с каждого р1 на р], }=1,2,...^ при /Ф]';
• приводим значения матрицы М^ в соответствие с выполненными на всех р/ преобразованиях - Можй={тож«[/,г]+тож№[/,г], /,г=1,2,.,М, ]'=1,2,...Дпри /ф]};
• определяем оставшийся объем преобразований -Мож^М^М-тож^/Д /,Г=1,2.,М, где М^ -матрица ожидаемых переходов Мож, рассчитанная на шаге 1}.
Шаг 3. На головном узле осуществляется компоновка фрагментов Т/' в единое результирующее изображение Т''.
В приведенном алгоритме матрица Мож без модификаций рассылается на все ВУ, а затем синхронизируется через заданные доли преобразования АЯ При задании АЯ необходимо учитывать то, что более частая синхронизация (малое АЯ) потребует более значительных временных и вычислительных ресурсов, а менее частая не позволит поддерживать значения матрицы Мож адекватно отражающими объем выполненных преобразований всеми ВУ. Очевидно, этот вариант параллельного алгоритма позволит более равномерно обеспечивать загрузку различных ВУ кластера за счет обеспечения актуального состояния значений матрицы Мож. Это позволит исключить ситуации, когда незначительное число из доступных ВУ кластера выполняет значи-
тельную долю вычислительной работы, а «незагруженные» ВУ простаивают в ожидании окончания этой обработки, что негативно влияет на общую производительность кластера. Пересылка целочисленных значений матрицы Мож размерности M по каналам связи вычислительного кластера не будет существенно влиять на задержки в обработке данных из-за незначительных объемов этих данных. Все эти особенности будут позитивно отражаться на общей производительности вычислительного процесса в независимости от особенностей исходных данных. Это позволяет выбрать данный вариант в качестве основного при проведении экспериментальных исследований.
Экспериментальные исследования
Для оценки предположений об уровне адекватности и точности распределенных версий алгоритма моделирования в сравнении с его традиционным последовательным аналогом распределенные версии алгоритма моделирования с разделяемыми и с собственными матрицами тенденций изменений реализованы на языке C++ с использованием компилятора g++ версии 3.4.4 и распространенного интерфейса параллельного программирования MPI(MPICH 2.0) [13-15].
Постановка задачи исследования. Определим ключевые параметры эффективности параллельных версий выбранного алгоритма моделирования:
• производительность кластеров различной конфигурации (недорогие пользовательские ПЭВМ, объединенные в локальной вычислительной сети невысокой пропускной способности; суперкомпьютер петафлопной производительности; различное число N доступных ВУ);
• ускорение SN (SN=t““/N“’, где Г“ - время работы последовательного алгоритма, t^ - время работы параллельного алгоритма на N ВУ при тех же входных данных) и эффективность En (En=Sn/N) параллельного моделирования на кластерах различной конфигурации [15];
• величины отклонений результатов параллельного алгоритма моделирования от результатов, которые получены исходным алгоритмом при традиционном последовательном исполнении. Используем для такой оценки каппа-индекс согласия (КИС) [16], рассчитываемый по матрице ошибок и широко применяемый для оценки точности классификации при сравнении эталонного и результирующего изображений. Основные характеристики конфигураций вычислительных кластеров, используемых при проведении численных экспериментов, приведены в табл. 1.
При проведении экспериментов использованы два различных набора тестовых разновременных изображений, позволяющих осуществлять многоитерационное моделирование и построение по различным исходным изображениям серии прогнозных разновременных изображений. Так, в качестве одного набора использованы данные, поставляе-
мые в качестве примерных данных с растровой геоинформационной системой Idrisi Kilimanjaro, -файлы Landuse71.rst (изображение T'2), Lan-duse85.rst (изображение T'1) и Landuse91.rst (изображение T).
Таблица 1. Характеристики вычислительных кластеров
Номер конфи- гурации Чис- ло ВУ Сеть Характеристики ВУ
Процессор ОП ОС
1 1 - Pentium IV 3 Ггц 4 Гбайт MS Windows7
2 2-11 FastEthernet, 100 Мбит/c Pentium IV 3 Ггц 4 Гбайт MS Windows7
3 1-24 Gigabit Ethernet, 1000 Мбит/c 2xIntel XEON Б1Б0 (2x2 ядра) 8 Гбайт Novell SLES 10
Эти данные (тематические растровые карты) имеют 9 ландшафтных классов и геометрические размеры - 565 столбцов и 452 строки, пространственное разрешение составляет 60 м. Другой набор разновременных данных представляет детальные (пространственное разрешение 25 м) тематические карты территории Португалии (изображение Т2) 2000 (изображение Т'1) и 2006 гг. (изображение Т), содержащие более 40 ландшафтных классов (Данные предоставлены Португальским географическим институтом в рамках реализации проекта анализа динамики территории Португалии при поддержке Португальского фонда научных исследований (PTDC/CS-GEO/101836/2008).) на 1990 г.). Для практического использования и проведения экспериментов по построению прогнозных карт при различных условиях данные подвергнуты предварительной обработке - с использованием экспертной генерализации количество ландшафтных типов сокращено до 16, а также путем уменьшения пространственного разрешения получен целый ряд разновременных наборов с различными геометрическими параметрами, но идентичной ландшафтно-классовой структурой. Основные характеристики используемого в экспериментальных исследованиях набора данных приведены в табл. 2.
Таблица 2. Характеристики тестовых разновременных данных
Номер набора (изображения Ta, Tn, T') Размеры, пикс. Число классов Объем, Кбайт
1 271x581 16 154
2 531x1162 16 603
3 791x1774 16 1348
4 1168x2322 16 2422
5 1341x2906 16 3806
6 1646x3488 16 5607
7 1910x4069 16 7590
8 565x452 9 259
Для оценки общей производительности обработки данных, условного параллельного ускорения и эффективности Ех на вычислительных кластерах различной конфигурации (табл. 1) использовались тестовые наборы данных 1-8 (табл. 2), иден-
тичные для последовательной версии алгоритма (табл. 1, конфиг. 1) и для параллельного алгоритма моделирования с синхронизацией матриц тенденций изменения, выбранного выше в качестве основного (табл. 1, конфиг. 2 и 3).
Процесс моделирования осуществлялся традиционно - на основе изображений Т2 и Т'1 или Т2 и Т выполнялся расчет тенденций изменения ландшафтного покрова и производилось построение серии из 15 прогнозных изображений Тв={Т',Тт,...,Т'+15}.
Для получения статистически достоверных результатов каждый эксперимент повторялся тридцатикратно, а в качестве оценки использовалось среднее значение, полученное по результатам каждого из экспериментов, а доверительная вероятность при этом была принята равной 95 %. По результатам экспериментов ошибка определения среднего значения оцениваемой величины (математического ожидания) не превышала 3.4 %.
Результаты экспериментов
На рис. 1 приведены некоторые результаты оценки общей производительности (в данном случае определяемой через время ¡, затраченное на выполнение обработки данных и формирование результата), параллельного ускорения и параллельной эффективности для варианта параллельного алгоритма моделирования с синхронизацией матриц тенденций изменения, с использованием набора данных № 5 (табл. 2). Приведенные результаты демонстрируют увеличение производительности обработки данных с ростом числа доступных ВУ в 1,5—4,0 раза.
Следует отметить, что для подмножества тестовых данных с широким диапазоном характеристик достаточным является использование ЛМ...6 ВУ. Это обусловлено тем, что дальнейший рост числа используемых ВУ не обеспечивает значительного увеличения производительности и параллельного ускорения из-за увеличивающегося влияния накладных расходов параллельной обработки данных. Поэтому, определив достаточное И, можно снизить влияние накладных расходов параллельной обработки и увеличить степень рационального использования оборудования кластера.
Важной характеристикой данных, также оказывающей влияние на производительность вычислений последовательного и параллельного вариантов исполнения алгоритма моделирования, является величина геометрического размера исходных разновременных изображений. Для оценки такого влияния проведены соответствующие эксперименты, фрагмент которых представлен на рис. 2 (наборы данных 1—8, табл. 2).
Приведенные на рис. 2 графики демонстрируют нелинейное (близкое к экспоненциальному) возрастающее увеличение затрат времени на производимые вычисления с увеличением геометрического размера исходных изображений. При этом наблюдается существенное возрастание преимущества параллельного варианта алгоритма (рис. 2, б).
18000 16000 14000 12000 0 10000 ~ 8000 6000 4000 2000 0
0 0 0
4 а 5 6 7 8 9 1
1/0 -
э 4 5 6 .V 6 7 Е 1
0,5
=1 ; е N 1
Рис. 1. Результаты оценки параллельных вариантов алгоритма моделирования: а) производительность; б) параллельное ускорение; в) параллельная эффективность
На рис. 3 приведен пример оценки адекватности параллельного варианта алгоритма моделирования его последовательному аналогу (набор данных № 5, табл. 2). Несмотря на то, что для данных с иными геометрическими и ландшафтно-классовыми характеристиками (рис. 3, а, использован набор данных № 3, табл. 2, при условии равенства наблюдаемого интервала прогнозному интервалу \t-t2r\t-t\) и различных конфигураций вычислительного кластера (отличных от приведенных в табл. 1) оценки эффективности параллельного исполнения могут несколько отличаться, но в целом эти оценки являются характерными и позволяют сделать некоторые обобщенные выводы и сформулировать практические рекомендации.
В частности, результаты экспериментов (рис. 3, а) показывают, что с увеличением числа задействованных в моделировании ВУ адекватность параллельного варианта алгоритма последовательному
предсказуемо снижается из-за увеличивающегося несоответствия ландшафтно-классовой структуры обрабатываемых фрагментов и исходного изображения, не позволяющего в полной мере отразить тенденции изменения ландшафтного покрова, присутствующие на исследуемой территории в целом. Причем чем большее число ВУ задействовано в вычислениях, тем большее число фрагментов (уменьшенного геометрического размера) с более высокой степенью несоответствия исследуемой территории будет использовано при моделировании. При этом следует отметить, что алгоритм моделирования с синхронизацией матриц тенденций изменения позволяет существенно минимизировать такое отклонение. В приведенном на рис. 3, а примере максимальное отклонение при N=8 составило около 8 %. При использовании числа N«4-6 ВУ, рекомендованного по результатам экспериментов как наиболее целесообразное с практической точки зрения, такое отклонение будет менее существенным.
Геометрический размер, Мпикс
Геометрический размер, Мпикс
б
Рис. 2. Показатели эффективности параллельной обработки для данных различного геометрического размера: а) производительность; б) параллельные ускорение и эффективность
С увеличением горизонта прогнозирования адекватность получаемых результатов снижается. В примере на рис. 3, б при различных горизонтах прогнозирования (&г1ШХ=1,2,...,10) степень несоответствия результатов, получаемых параллельной версией алгоритма и его последовательным аналогом, также не превысила 8 %.
Таким образом, потенциальную степень несоответствия результатов, получаемых параллельным алгоритмом и его последовательным аналогом для вычислительно сложной задачи пространственного ландшафтного прогнозирования, следует считать практически приемлемой.
Рис. 3.
Пример оценки адекватности параллельного алгоритма моделирования последовательному аналогу: а) при различном числе ВУ; б) при различном прогнозном интервале
анты параллельного алгоритма
Скорость исполнения алгоритма моделирования при использовании дорогостоящего суперком-пьютерного кластера выше, чем при использовании недорогого кластера ПЭВМ. Однако параллельное ускорение, полученное на кластере ПЭВМ, будет заметно выше, чем на суперкомпью-терном кластере (рис. 5, набор № 5, табл. 2). Это связанно с тем, что ВУ кластера ПЭВМ более «чувствителен» к уменьшению объема входных данных, чем ВУ суперкомпьютерного кластера.
0,91
0,90
0,90
и 0,89 К
М 0,89 0,88
0,88
0,87
1 2 3
Варианты параллельного алгоритма
б
Рис. 4. Параллельное ускорение (а) и адекватность (б) различных вариантов параллельных алгоритмов последовательному исполнению алгоритма моделирования
На рис. 4 приведен фрагмент результатов сравнительного анализа, полученных при параллельном исполнении алгоритма моделирования (набор № 8, табл. 2). Эти результаты демонстрируют очевидное преимущество варианта с разделяемыми матрицами тенденций изменения и их синхронизации.
Рис. 5. Параллельное ускорение при использовании кластеров различной конфигурации
Заключение
Для существенного повышения производительности моделирования изменений ландшафтного покрова предложены варианты организации параллельного исполнения алгоритма моделирования, доступные к использованию на дорогостоящих суперкомпьютерах и недорогих кластерах ПЭВМ, отличающиеся тем, что в одном случае расчет вероятностных компонентов осуществляется на каждом ВУ независимо (без фрагментации и уменьшения геометрического размера исходных данных), а в другом предполагается моделирование с сохранением взаимного влияния вероятностных компонентов.
Для случая с сохранением взаимного влияния вероятностных компонентов предложены варианты параллельного исполнения алгоритма моделирования изменений ландшафтного покрова с собственными и с разделяемыми матрицами тенденций изменений на вычислительных узлах кластера. В качестве основного предложен и обоснован выбор варианта алгоритма с разделяемыми и синхронизируемыми матрицами тенденций изменения, характеризующегося более высокой адекватностью традиционному последовательному алгоритму моделирования.
Для оценки предположений об уровне адекватности распределенных версий основного алгоритма моделирования его традиционному последовательному аналогу проведены многочисленные эксперименты на тестовых разновременных данных с использованием дорогостоящей и недорогой конфигураций вычислительного кластера с варьируемым числом вычислительных узлов.
Результаты экспериментов позволили оценить производительность, параллельное ускорение и параллельную эффективность предложенного алгоритма, сформулировать следующие рекомендации по практическому применению параллельного ал-
горитма моделирования изменений ландшафтного покрова:
1. Несмотря на выбор в качестве основного алгоритма моделирования с синхронизацией матриц тенденций изменения, на практике возможны случаи, при которых может быть использован вариант алгоритма с собственными матрицами тенденций изменений (например, в случае низкой пропускной способности доступных каналов связи).
2. При возможности выбора доступного количества ВУ кластера следует учитывать геометрические размеры исходных тематических карт, обеспечивая в полученных после разделения фрагментах максимально возможное соответствие ландшафтно-классовой структуры фрагментов и исходного изображения.
Также показано, что производительность обработки данных с помощью дорогостоящего вычислительного кластера в 3-3,5 раза выше, а с помощью кластера из недорогих типовых ПЭВМ в локальной сети в 4,0—4,2 раза выше, чем аналогичная обработка данных, выполненная последовательным аналогом, при использовании оптимального числа ВУ (4—6). Кроме того, показано, что адекватность алгоритма моделирования с синхронизацией матриц тенденций изменения последовательному аналогу будет различной для различных исходных данных и будет снижаться при увеличении используемых вычислительных узлов и горизонта прогнозирования.
Работа выполнена при поддержке РФФИ (грант № 11-07-00027а) и Госзадания (№ 8.8113.2013).
СПИСОК ЛИТЕРАТУРЫ
1. Clarke K.C., Gaydos J. Loose-coupling a cellular automaton model and GIS: long-term urban growth prediction for San Francisco and Washington/Baltimore // International Journal of Geographical information science. - 1998. - V. 12. - № 7. - P. 699-714.
2. Syphard A.D., Clarke K.C., Franklin J. Using a cellular automaton model to forecast the effects of urban growth on habitat pattern in southern California // Ecological Complexity. - 2005. - № 2. -P. 185-203.
3. Замятин А.В. Анализ динамики ландшафтного покрова на основе данных дистанционного зондирования Земли // Исследование Земли из космоса. - 2006. - № 6. - С. 50-64.
4. Замятин А.В. Подход к моделированию изменений земной поверхности с использованием клеточных автоматов // Известия Томского политехнического университета. - 2005. - Т. 308. -№ 6. - С. 164-169.
5. Наумов Л.А., Шалыто А.А. Клеточные автоматы. Реализация и эксперименты // Мир ПЭВМ. - 2003. - № 8. - C. 64-71.
6. Li X., Yeh A.G.O. Data mining of cellular automata’s transition rules // International Journal of Geographical Information Science. -2004. - № 18. - P. 723-744.
7. Cabral P., Zamyatin A. Advanced Spatial Metrics Analysis in Cellular Automata Land Cover Change Modeling // DYNA, Sede Medellin. - 2011. - V. 78. - № 170. - P. 42-50.
8. Plaza A.J., Chang C. High Performance Computing in Remote Sensing. - Chapman&Hall/CRC, 2008. - 496 p.
9. Kalluri S., JaJa J., Bader D.A., Zhang Z., Townshend J., Fallah-Adl H. High performance computing algorithms for land cover dynamics using remote sensing data // International Journal of Remote Sensing. - 2000. - V. 21. - № 6-7. - P. 1513-1536.
10. Ефимов С.С. Обзор методов распараллеливания алгоритмов решения некоторых задач вычислительной дискретной математики // Математические структуры и моделирование. -2007. - № 17. - C. 72-93.
11. Eltgroth P.G., Bolstad J.H. Coupled Ocean / Atmosphere Modeling on High-Performance Computing Systems // Eighth Society for Industrial & Applied Mathematics Conference on Parallel Processing for Scientific Computing Minneapolis. - Minneapolis, 1997. -P. 1-10.
12. Ермаков С.Г. Метод устранения необходимости переключения вычислительных узлов при организации параллельной обработки информации // Информационные технологии. - 2007. -№ 10. - C. 65-68.
13. Rokjin J.P., Daeok Y., et al. A general parallelization approach to improve computation efficiency in a global chemical transport model (GEOS-Chem) // Geochemical Journal. - 2010. - V. 44. -P. 323-329.
14. Sunderama V.S., Geist G.A. Heterogeneous parallel and distributed computing // Parallel Computing. - 1999. - № 25. - P. 1699-1721.
15. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. -СПб.: БХВ-Петербург, 2004. - 602 с.
16. Brennan R.L., Prediger D.J. Coefficient kappa: some uses, misuses, and alternatives // Educational and Psychological Measurement. -1981. - №41. - P. 687-699.
Поступила 21.11.2012 г.