Научная статья на тему 'SPECIES DISTRIBUTION, ABUNDANCE, AND SURVIVAL MODELING: NEW OPPORTUNITIES AND METHODS'

SPECIES DISTRIBUTION, ABUNDANCE, AND SURVIVAL MODELING: NEW OPPORTUNITIES AND METHODS Текст научной статьи по специальности «Математика»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «SPECIES DISTRIBUTION, ABUNDANCE, AND SURVIVAL MODELING: NEW OPPORTUNITIES AND METHODS»

Species distribution modeling МОДЕЛИРОВАНИЕ РАСПРОСТРАНЕНИЯ ВИДОВ Турлердщ таралуын модельдеу

SPECIES DISTRIBUTION, ABUNDANCE, AND SURVIVAL MODELING: NEW OPPORTUNITIES AND METHODS

Karyakin I.V., Knizhov K.I. (Russian Raptor Research and Conservation Network; Sibecocenter LLC, Novosibirsk, Russia)

Contact:

Igor Karyakin [email protected]

Kirill Knizhov [email protected]

Recommended citation: Karyakin I.V., Knizhov K.I. Species Distribution, Abundance, and Survival Modeling: New Opportunities and Methods. - Raptors Conservation. 2023. S2: 347-357. DOI: 10.19074/1814-8654-2023-2347-357 URL: http://rrrcn.ru/en/archives/35134

Many large raptor species are currently rare and most of them are endangered, and thus details of their distribution, abundance, and survival are the most important indicators for planning conservation and restoration measures and assessing the impacts of anthropogenic transformation of the environment and/or climate change on the populations of these species.

Abundance and spatial distribution of the birds under study are determined during field surveys. At the result, we obtain the distribution density in individuals, pairs, nests per unit area (for example, pairs/100 km2), or the distance between nearest or all neighbors (represented as mathematical values (1-5, on average 3.5±1.1 km) and/ or in graphical form (ranging from simple lines connecting observation points to De-launay triangulation and a network of polygons built from observation points). Further, to generate an estimate of abundance, one must understand the area over which these data can be extrapolated. This is often challenging for many researchers - incorrect assessment of the area of the species' habitat distorts estimated abundance and neutralizes censusing efforts. How can one correctly determine the area, over which it is possible to extrapolate censusing data? The answer to this question can be found by modeling in a GIS environment using geographic layers of environmental and spatial information, or, in current terminology, species distribution modeling (SDM).

When using SDM (also known as habitat or species range modeling), environmental data (climatic and spatial variables such as temperature, humidity, wind load, topog-

raphy, land cover, soils, etc. - predictor or independent variables) are calculated for geographically referenced points of a species' presence (dependent variable) and species distribution is predicted using computer algorithms and mathematical methods.

SDM is carried out in six stages: (1) idea conceptualization, (2) data preparation (presence and absence points or background points), (3) method selection (4) model fitting, (5) model evaluation and (6) habitat or area map construction.

1. Conceptualization. At this stage, we formulate the main goal of the study and decide on the modeling process design based on our knowledge of the species and the study. Data selection about the species and the environment is an important point at the initial stage. We decide whether to use only our data, or use other available data. Doing so will require some adjustments to the sample design. Next, we need to test the basic assumptions underlying the SDM, such as whether the species is in equilibrium with available environmental variables, whether the data is biased in any way (sampling bias, spatial autocorrelation, etc.), whether there are any environmental changes relative to the time of data collection, etc. Selection of adequate environmental and spatial variables, modeling algorithm, and model complexity should be based on study goals and the hypothesis regarding the relationship between the species under study and the environment in the area selected for study.

2. Data preparation. At this stage, we collect and process factual data about the species (both points of presence and points of

absence) and the environment. When preparing data, particular attention should be paid to any inconsistencies in spatial and temporal scaling of dependent and independent variables, i.e. cases where there is a large spatial or temporal difference between species and environmental data, or between environmental data (spatial and climate variables). Also, special attention should be paid to the quality of georeferencing of points of presence and the quality of species identification, which, as a rule, suffers greatly if data is collected by amateurs. In these cases, we need to make decisions about adjusting the data or discarding it. All SDM algorithms require species absence information. If such information is not available, it is replaced by background points or "pseudo-absence" data, which naturally has a negative impact on the quality of the simulation, especially on a large scale. Consideration should be given in advance to how species data will be separated for model training and model testing if the simulation uses all data collected and there are no plans for further testing of the model in the field.

3. Method selection. At this stage, we select one or several modeling methods to combine into ensemble models.

While simple factor or cluster analyses integrated into desktop GIS were used in early stages of modeling, today the selection of algorithms has expanded significantly:

Linear regression methods:

- Generalized linear model (GLM) (Nelder, Wedderburn, 1972),

- Generalized additive model (GAM) (Hastie, Tibshirani, 1990);

Machine learning methods:

- Maximum entropy method implemented in the MaxEnt program (Soberson, Peterson, 2005; Phillips et al., 2006; Phillips, Dudik, 2008),

- Random Forest (RF) is an ensemble learning method for classification and regression that works by constructing multiple decision trees during training (Brei-man, 2001),

- Boosted Regression Trees (BRT),

- Convolutional Neural Networks (CNN) (LeCun et al, 1989),

- Genetic algorithm for Rule Set Production (GARP) (Stockwell, 1999; Stockwell, Peters, 1999),

- Machine learning supporting vector networks (Support Vector Machines, SVM) (Cortes, Vapnik, 1995; Vapnik et al., 1997),

- XGBoost (eXtreme Gradient Boosting, XGB) (Chen, Guestrin, 2016).

MaxEnt and Random Forest are integrated into ArcGIS, supported in R, and available online for Google Earth Engine (GEE) users. In recent years, GEE has become increasingly popular as a resource for SDM (Crego et al., 2022).

4. Fitting the model. This stage is key in SDM. Having received preliminary modeling data, we evaluate the contribution of multicollinearity and decide how to deal with it, determine how many variables can be included in the model without retraining, evaluate spatial or temporal autocorrelation and decide how to deal with it, determine the settings of the model or several models and choose which one provides the result, best or average. At the same stage, we check the plausibility of the selected relationships between species' points of presence and environmental variables by comparing coefficients and visually inspecting the plotted curves on the graphs.

5. Model evaluation. At this stage, we evaluate the forecast performance of the final model using a set of validation or test data: AUC (ROC) (Fielding, Bell, 1997; Fawcett, 2006; Hosmer, Lemeshow, 2013), TSS (Liu et al., 2005; Allouche et al., 2006); R2 and Kappa (Brownlee, 2016; Zhang et al., 2021). Cross-validation (spatial blocks) is commonly used for this purpose (Roberts et al., 2017; Valavi et al., 2019; Crego et al., 2022). We also select thresholds to binarize predicted probabilities based on cross-validated predictions.

Cross-validation (spatial blocks) is commonly used for this purpose (Roberts et al., 2017; Valavi et al, 2019; Crego et al, 2022). We also select thresholds to binarize predicted probabilities based on cross-validated predictions.

6. Constructing a map of habitats or range. This is the final stage of SDM, during which we convert our predictive model into a raster and obtain a classified image with the percentage probability of the species occurring in the study area for each pixel. We calculate a probability threshold for the species' presence on pixels that we include in the final range map, and the size of the buffer built around these pixels to determine the area of habitat. The expediency of using a buffer depends on the scale of the resulting raster; the smaller the scale, the lower the relevance of the buffer. Buffer size is usually determined by the mean nearest neighbor distance (MND) and, depending

on the modeling's goals and objectives, is half, exactly, or twice the MND.

One must always critically evaluate the underlying assumptions in SDM and be aware of the potential limitations associated with a variety of factors: the ability to detect the species, uneven sampling, limitations in the selection of environmental variables, ignorance regarding certain aspects of the species' biology to identify patterns in its biotopic and territorial preferences, etc. SDM assumes that the species is in equilibrium with its environment, that we know and have carefully selected both the species' point of presence and environmental data, and that we have included all the major factors that determine the species' range limits. It should be understood that these aspects are not stable for several reasons. First, species, especially predators, respond dynamically to changes in the environment, so they will exhibit certain spatial and temporal dynamics and need to be properly taken into account in the modeling. Important factors that determine a species' response to changes in its habitat are its physiology, demography, ability to disperse, degree of tolerance to urbanization, degree of adaptation to changes in environmental factors, and interspecific interactions. All these factors engage seemingly constantly over time, including here and now, and ignoring them can significantly distort modeling results. Therefore, the ideal option for SDM is to check results in the field and adjust them.

Unfortunately, most ornithologists have difficulty using R and desktop GIS, a fact that prevents them from processing the results of their field research in accordance with modern standards. For better implementation of modeling in practice when working with rare species, we have created a software product that allows bird specialists with minimal knowledge of GIS and programming languages, but who have a certain understanding of SDM algorithms and abundance assessment, to solve problems related to modeling distribution and abundance and survival of rare species.

This software product is designed for processing various geodata containing observations of species; obtaining data from GEE rasters; classification of biotopes; population estimates, survival rates, etc.

The main interface of the product is a web interface that allows the user to select

the process of interest, enter the necessary data, and receive a link to an archive containing processing results37.

For geodata (points, polygons, etc.), it is possible to enter csv, shp, geojson files, as well as manual input using a map. To run algorithms in which it is necessary to add data from GEE rasters, a selection field is provided from the list of available earth remote sensing (ERS) products: NASADEM (NASA JPL, 2020), MOD13A1.061 Terra Vegetation Indices 16-Day Global 500m (Didan, 2021), Geomorpho90m (Amatulli et al, 2020), Global Habitat Heterogeneity (Tuanmu, Jetz, 2015), Global Wind Atlas (Badger et al, 2021), World Clim (Fick, Hijmans, 2017), ERA5-Land Monthly Aggregated - EC-MWF Climate Reanalysis (Muñoz Sabater, 2019), ESA WorldCover 10m v100 (Zanaga et al., 2021), Dynamic World V1 (Brown et al, 2022), unclassified satellite data such as surface reflectivity (SR) collection 2 Landsat 8 atmospheric-corrected (blue, red, green, near-infrared and shortwave infrared 1 bands with 30 m spatial resolution) and ALOS-2 PALSAR L-band dual-polarization (HH and HV) SAR data, and NDVI and EVI calculation data from Landsat 8 images using the GEE (normalizedDifference) function. To run algorithms using various third-party libraries, data is entered in csv files in the formats required by the corresponding libraries. At the current stage, the product includes the following modules:

1) Obtaining data from GEE rasters for given points (result presented in a table with data selected for points from rasters included in the GEE collection);

2) Obtaining a classified raster for a given area and a set of points of presence and absence of a view (training points) using the RF and MaxEnt classifiers based on GEE (both classifiers allow, for a given area of interest, a set of training points and selected remote sensing products from GEE, to obtain a classified one with using appropriate GEE raster methods of the area of interest. It is possible to cross-validate the selected models and evaluate their predictive effectiveness);

3) Three different methods to stimulate population size:

3.1) Generation of random points in a regular network - a heuristic algorithm that, based on data on the points of presence of the species and on the studied areas, generates random points, simulating

species' distribution in the general area of interest;

3.2) Distance - a method based on the Distance Sampling model (Thomas et al., 2010; Buckland et al, 2015; Miller et al., 2019), that accepts input of a file with the necessary variables for points and areas and displays detailed statistics as a result;

3.3) Simple site surveys using calculation of a weighted average indicator for species distribution density (Karyakin, 2004) with an calculation of asymmetric confidence interval (Ravkin, Chelintsev, 1990);

4) Estimation of nest survival based on the RMARK library (Laake, 2013). The survival calculation module includes processing of nest survival data using the nest

method of the RMARK library, which can account for various variables in remote sensing data and infers the importance of variables for nest survival.

The software product is hosted on the servers of organizations recognized as undesirable in Russia, access to which is blocked by Roskomnadzor. The authors are considering options, including creating a clone on a Russian internet resource.

This work is carried out with financial support from the Critical Ecosystem Partnership Fund (CEPF)38 within the framework of the project "Endangered Raptors Conservation on the Indo-Palaearctic Fly-way").

МОДЕЛИРОВАНИЕ РАСПРОСТРАНЕНИЯ, ЧИСЛЕННОСТИ И ВЫЖИВАЕМОСТИ ВИДОВ: НОВЫЕ ВОЗМОЖНОСТИ И МЕТОДЫ

Карякин И.В., Книжов К.И. (Российская сеть изучения и охраны пернатых хищников; ООО «Сибэкоцентр», Новосибирск, Россия)

Контакт:

Игорь Карякин [email protected]

Кирилл Книжов [email protected]

Рекомендуемая цитата: Карякин И.В., Книжов К.И. Моделирование распространения, численности и выживаемости видов: новые возможности и методы. - Пернатые хищники и их охрана. 2023. Спецвып. 2. С. 347-357. DOI: 10.19074/1814-8654-2023-2-347-357 URL: http://rrrcn.ru/ru/archives/35134

Многие виды крупных хищных птиц в настоящее время являются редкими, большая часть находится под угрозой исчезновения, поэтому детали их распространения, численности и выживаемости являются важнейшими показателями для планирования мероприятий по охране и восстановлению, для оценки воздействия на популяции этих видов антропогенного преобразования среды и/или изменений климата.

Численность и распределение в пространстве изучаемых птиц определяются в ходе полевых учётов. На выходе мы получаем плотность распределения в особях, парах, гнёздах на единицу площади (например, пар/100 км2) или дистанции между ближайшими или всеми соседями, которые можно представить как в виде математических значений (1-5, в среднем 3,5±1,1 км), так и в графическом виде (от простых линий, связывающих точки наблюдений, до три-

ангуляции Делоне и сети полигонов, построенной по точкам наблюдений). Далее, для получения оценки численности, необходимо понимать площадь, на которую возможно экстраполировать эти данные. И с этим у многих исследователей возникают проблемы - неправильная оценка площади мест обитания учитываемого вида приводит к искажению оценки численности и нивелирует учётные усилия. Как правильно определить площадь, на которую возможно экстраполировать учётные данные? Ответ на этот вопрос может дать моделирование в среде ГИС с использованием географических слоёв экологической и пространственной информации, в современной терминологии - моделирование распространения видов (Species distribution modelling, SDM).

В ходе процесса SDM, также известного как моделирование среды обитания или ареала вида, для географически

привязанных точек присутствия вида (зависимая переменная) определяются данные об окружающей среде - климатические и пространственные переменные, такие как температура, влажность, ветровая нагрузка, рельеф, растительный покров, почвы и т.п. (предикторы или независимые переменные), и посредством компьютерных алгоритмов и математических методов прогнозируется распределение вида в географическом пространстве и/или времени.

ББМ проводится в 6 этапов: (1) концептуализация идеи, (2) подготовка данных (точек присутствия и отсутствия или фоновых точек), (3) выбор метода, (4) подгонка модели, (5) оценка модели и (6) построение карты местообитаний или ареала.

1. Концептуализация. На этом этапе мы формулируем основную цель исследования и принимаем решение о схеме процесса моделирования на основе наших знаний о виде и исследовании. Важным моментом на начальном этапе является выбор данных о виде и об окружающей среде. Мы принимаем решение об использовании только наших данных, или привлечении каких-то других доступных данных. Это потребует внесения корректив в дизайн выборки. Далее, нам надо проверить основные предположения, лежащие в основе БОМ, например, находится ли вид в равновесии с доступными переменными окружающей среды, могут ли данные быть каким-либо образом смещены (неравномерность выборки, пространственная автокорреляция и т.п.), имеются ли изменения в окружающей среде относительно времени сбора данных и т.д. Выбор адекватных экологических и пространственных переменных, алгоритма моделирования и сложности модели должен основываться на цели исследования и гипотезе, касающейся взаимоотношения исследуемого вида и окружающей среды на выбранной для исследования территории.

2. Подготовка данных. На этом этапе мы собираем и обрабатываем фактические данные о виде (как точки присутствия, так и точки отсутствия) и окружающей среде. Особое внимание при подготовке данных следует уделить любым несоответствиям пространственного и временного масштабирования зависимых и независимых переменных, т.е. случаям, когда имеется большая пространственная или временная разница между данными о виде и окружающей

среде, либо между данными об окружающей среде (пространственными и климатическими переменными). Также особое внимание надо уделить качеству географической привязки точек присутствия и качеству видовой идентификации, что как правило, сильно страдает, если данные собираются любителями. В этих случаях нам необходимо принять решения о корректировке данных или их отбраковке. Все алгоритмы SDM требуют информации об отсутствии вида. Если таковой информации нет, она заменяется фоновыми точками или так называемыми данными о псевдоотсутствии, что естественно сказывается отрицательно на качестве моделирования, особенно в крупных масштабах. Заранее следует подумать на то, как данные о виде будут разделены для обучения и проверки модели, если в моделировании используется весь объём собранных данных и не планируется дальнейшая проверка модели на местности.

3. Выбор метода. На этом этапе мы выбираем метод моделирования или несколько методов, для объединения в ансамблевые модели.

Если на ранних этапах моделирования использовались простой факторный или кластерный анализы, интегрированные в настольные ГИС, то в настоящее время набор алгоритмов существенно расширился:

Методы, основанные на линейной регрессии:

- Обобщённая линейная модель (GLM) (Neider, Wedderburn, 1972),

- Обобщённая аддитивная модель (GAM) (Hastie, Tibshirani, 1990);

Методы машинного обучения:

- Метод максимальной энтропии, реализованный в программе MaxEnt (So-berson, Peterson, 2005; Phillips et al., 2006; Phillips, Dudik, 2008),

- Случайный лес (Random Forest, RF) - метод ансамблевого обучения для классификации и регрессии, который работает путём построения множества деревьев решений во время обучения (Breiman, 2001),

- Усиленные деревья регрессии (BRT),

- Свёрточные нейронные сети (CNN) (LeCun et al, 1989),

- Генетический алгоритм создания набора правил (GARP) (Stockwell, 1999; Stockwell, Peters, 1999),

- Машинное обучение, поддерживающее векторные сети (Support Vector

Machines, SVM) (Cortes, Vapnik, 1995; Vapnik ei al., 1997),

- XGBoost (eXtreme Gradient Boosting, XGB) (Chen, Guestrin, 2016).

MaxEnt и Random Forest интегрированы в ArcGIS, имеют поддержку в среде R и доступны онлайн для пользователей Google Earth Engine (GEE). В последние годы GEE приобретает всё большую популярность в качестве ресурса для SDM (Crego ei al, 2022).

4. Подгонка модели. Этот этап является ключевым в SDM. Получив данные предварительного моделирования, мы оцениваем вклад мультиколлинеарно-сти и решаем, как с ней бороться, определяем сколько переменных необходимо включить в модель без её переобучения, оцениваем пространственную или временную автокорреляцию и решаем, как с ней бороться, определяем настройки модели или нескольких моделей и выбираем какой результат использовать, лучший или средний. На этом же этапе мы проверяем правдоподобие подобранных взаимосвязей между точками присутствия вида и переменными окружающей среды путём сравнения коэффициентов и визуального осмотра построенных кривых на графиках.

5. Оценка модели. На данном этапе мы оцениваем эффективность прогноза итоговой модели с помощью набора проверочных или тестовых данных: AUC (ROC) (Fielding, Bell, 1997; Fawcett, 2006; Hosmer, Lemeshow, 2013), TSS (Liu ei al., 2005; Allouche ei al, 2006); R2 и Kappa (Brownlee, 2016; Zhang ei al, 2021). Обычно для этой цели используется перекрёстная проверка (пространственные блоки) (Roberts ei al., 2017; Valavi ei al., 2019; Crego ei al., 2022). Также мы выбираем пороговые значения для бинаризации прогнозируемых вероятностей на основе перекрёстно проверенных прогнозов.

6. Построение карты местообитаний или ареала. Это заключительный этап SDM, в ходе которого мы конвертируем в растр нашу прогнозную модель и получаем классифицированное изображение с вероятностью распространения вида на исследуемой территории в процентах для каждого пикселя. Мы определяем порог вероятности присутствия вида для пикселей, которые включаем в итоговую карту ареала, и размер буфера, строящегося вокруг этих пикселей для определения площади местообитаний. Целесообразность использования буфера

зависит от масштаба результирующего растра, чем меньше масштаб, тем ниже актуальность буфера. Размер буфера обычно определяется по средней дистанции между ближайшими соседями (ММБ) и, в зависимости от целей и задач моделирования, представляет собой половину, полную или удвоенную ММО.

Всегда следует критически оценивать основные предположения в ББМ и осознавать потенциальные ограничения, связанные с целым комплексом факторов: способность обнаруживать вид, неравномерность выборки, ограничения в выборе переменных окружающей среды, незнание определённых сторон биологии вида для выявления закономерностей в его биотопических и территориальных предпочтениях и пр. ББМ предполагает, что виды находятся в равновесии с окружающей средой, что мы знаем и тщательно отобрали как точки присутствия вида, так и данные об окружающей среде, и что мы включили все основные факторы, определяющие пределы ареала вида. При этом надо понимать, что эти аспекты нестабильны по нескольким причинам. Во-первых, виды, особенно хищники, динамически реагируют на изменения среды, поэтому они будут демонстрировать определённую пространственную и временную динамику, и необходимо её правильно учесть в моделировании. Важными факторами, определяющими реакцию вида на изменения среды обитания, являются его физиология, демография, способность к расселению, степень толерантности к урбанизации, степень адаптации к изменению экологических факторов и межвидовые взаимодействия. Все эти факторы действуют на вид постоянно во времени, в том числе здесь и сейчас, и их игнорирование может существенно исказить результаты моделирования. Поэтому идеальным вариантом БОМ является проверка результатов в поле и их корректировка.

К сожалению, большинство орнитологов испытывают сложности в работе с И и в настольных ГИС, что не позволяет им обрабатывать результаты своих полевых исследований в соответствии с современными требованиями. Для лучшего внедрения в практику моделирования в работе с редкими видами мы создали программный продукт, позволяющий специалистам по птицам с минимальными знаниями в ГИС и языках программирования, но имеющим определённое пред-

ставление об алгоритмах SDM и оценке численности, решать задачи, связанные с моделированием распространения, численности и выживаемости редких видов.

Программный продукт предназначен для обработки различных геоданных, содержащих наблюдения видов; получения данных с растров GEE; классификации биотопов; оценки популяции, выживаемости и т.д.

Основным интерфейсом продукта является веб-интерфейс37, который позволяет выбирать интересующий процесс, вводить необходимые данные и получать ссылку на архив с результатами обработки.

Для геоданных (точек, полигонов и т.д.) предусмотрена возможность ввода файлов csv, shp, geojson, а также ручного ввода с помощью карты. Для запуска алгоритмов, в которых необходимо добавлять данные из растров GEE, предоставлено поле выбора из списка доступных продуктов дистанционного зондирования земли (ДЗЗ): NASADEM (NASA JPL, 2020), MOD13A1.061 Terra Vegetation Indices 16-Day Global 500m (Didan, 2021), Geomorpho90m (Amatulli ei al., 2020), Global Habitat Heterogeneity (Tuanmu, Jetz, 2015), Global Wind Atlas (Badger ei al., 2021), World Clim (Fick, Hijmans, 2017), ERA5-Land Monthly Aggregated - ECMWF Climate Reanalysis (Muñoz Sabater, 2019), ESA WorldCover 10m v100 (Zanaga ei al., 2021), Dynamic World V1 (Brown ei al., 2022), неклассифицированные спутниковые данные, такие как коллекция 2 отражательной способности поверхности (SR) Landsat 8 с поправкой на атмосферу (синий, красный, зеленый, ближний инфракрасный и коротковолновый инфракрасный 1 диапазоны с пространственным разрешением 30 м) и наборы данных поляризации HH и HV ALOS с фазированной антенной решеткой L-диапазона с синтезированной апертурой (SAR), а также данные расчётов NDVI и EVI по изображениям Landsat 8 c использованием функции GEE (normalizedDifference). Для запуска алгоритмов, использующих различные сторонние библиотеки, вводятся данные в csv файлах, в форматах, требуемых соответствующими библиотеками.

На текущем этапе в продукт входят модули:

1) Получения данных из растров GEE по заданным точкам (результатом явля-

ется таблица с выбранными для точек данными из растров, входящих в коллекцию GEE);

2) Получения классифицированного растра по заданной области и набору точек присутствия и отсутствия вида (тренировочных точек) с помощью классификаторов RF и MaxEnt на базе GEE (оба классификатора позволяют по заданной области интереса, набору тренировочных точек и выбранным продуктам ДЗЗ из GEE получить классифицированный с помощью соответствующих методов GEE растр области интереса. Есть возможность провести кросс-валидацию выбранных моделей и оценку их прогностической эффективности);

3) Оценка численности популяции тремя различными методами:

3.1) генерация случайных точек в регулярной сети - эвристический алгоритм, который на основании данных о точках присутствия вида и об исследованных областях генерирует случайные точки, имитируя расселение вида по общей области интереса;

3.2) Distance - метод, основанный на модели Distance Sampling (Thomas et al, 2010; Buckland et al, 2015; Miller et al, 2019), который в качестве входных данных принимает файл с необходимыми переменными для точек и областей и в качестве результата выводит детальную статистику;

3.3) простые площадочные учёты с расчётом средневзвешенного показателя плотности распределения вида (Ка-рякин, 2004) с расчётом несимметричного доверительного интервала (Рав-кин, Челинцев, 1990);

4) Оценка выживаемости гнёзд на основе библиотеки RMARK (Laake, 2013). В модуль расчёта выживаемости входит обработка данных о выживаемости гнёзд с помощью метода nest библиотеки RMARK, который может учитывать различные переменные из ДДЗЗ и выводит важность переменных для выживаемости гнезда.

В связи с тем, что программный продукт размещён на серверах организаций, признанных нежелательными в России, доступ к которым заблокирован Роскомнад-зором, авторы рассматривают варианты создания клона на российском ресурсе.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Работа осуществляется при финансовой поддержке Фонда сотрудничества для сохранения экосистем, находящихся в критическом состоянии / The Critical

Ecosystem Partnership Fund (CEPF)38 в рамках проекта «Сохранение угрожаемых видов пернатых хищников на Индо-

Палеарктическом миграционном пути» ("Endangered Raptors Conservation on the Indo-Palearctic Migration Flyway").

^РЛЕРДЩ ТАРАЛУЫН, САНЫН Ж8НЕ Т1РШ1Л1ККЕ КАБ1ЛЕТТ1Л1ПН МОДЕЛЬДЕУ: ЖАНА МYМКIНДIКТЕР МЕН 8Д1СТЕР

Карякин И.В., Книжов К.И. (Жырткыш канатты кустарды зерттеу жене крргау жeнiндегi ресейлкжел'г, «Сибэкоцентр» ЖШ^, Новосибирск, Ресей)

Контакт:

Игорь Карякин [email protected]

Кирилл Книжов [email protected]

Усынылатын дэйексвз: Карякин И.В., Книжов К.И. Турлердш таралуын, санын жэне йрштлжке ^абглеттШгш модельдеу: жана мумкшдДктер мен эдiстер. - Пернатые хищники и их охрана. 2023. Спецвып. 2. С. 347-357. DOI: 10.19074/1814-8654-2023-2-347-357 URL: http://rrrcn.ru/ru/archlves/35134

^ жырткыш кустардын кептеген тур-лерi казiргi уакытта сирек кездеседi, олардын кепшiлiгi жойылып кету кау-тнде, сондыктан олардын таралуы, саны жэне ^ршШкке кабьлеттшп ту-ралы мэлiметтер сактау жэне калпына келтiру шараларын жоспарлаудын, осы тvрлердiн популяцияларына коршаган ортанын антропогендiк трансформа-циясы жэне/немесе климаттын езгеруi эсерiн багалаудын манызды керсетюш-терi болып табылады.

Зерттелетш кvстардын саны мен ке-тспкте таралуы далалык зерттеулер кезiнде аныкталады. Шыгару кезшде бiз жеке бастар, жуптар, уялар бiрлiгiне (мысалы, жуп/100 км2) ен жакын немесе барлык кершiлер арасындагы кашык-тыкты аламыз немесе математикалык мэндер ретшде усынылуы мvмкiн (1-5 орта есеппен 3,5±1,1 км), жэне графика-лык турде (бакылау нvктелерiн Делон триангуляциясына косатын карапайым сызыктардан жэне бакылау нуктелерь нен салынган кепбурыштар желiсiнен). Эрi карай, санын багалау vшiн бул де-ректердi экстраполяциялауга болатын ауданды тусшу кажет. Осыган байла-нысты кептеген зерттеушглерде мэселе туындайды - есептелетш тvрдiн мекен-деу орны ауданын дурыс багаламау санын багалаудын бурмалануына экеледi жэне санак жумыстарын ниверлирлейдi. Есеп мэлiметтерiн экстраполяциялауга болатын ауданды калай дурыс аныктау-га болады? Бул сурактын жауабын казiр-гi замангы терминологияда - Тvрлердiн

таралуын модельдеу (Species distribution modelling, SDM) экологиялык жэне ке-нiстiктiк акдараттын географиялык ка-баттарын пайдалана отырып, ГИС-те модельдеу аркылы беруге болады.

ТСршШк ету ортасын немесе турдш мекен ету орындарын модельдеу деп те аталатын SDM процесiнде корша-ган орта деректерi - температура, ыл-галдылык, жел жvктемесi, жер бедер^ всiмдiктер жамылгысы, топырак жэне т.б. сиякты климаттык жэне кешспкпк ауыспалылар - тvрдiн географиялык алтеме нvктелерi vшiн аныкталады (предикторлар немесе тэуелсiз ауыспалылар) жэне компьютерлж алгоритм-дер мен математикалык эдктер аркылы тvрдiн географиялык кенiстiкте жэне/ немесе уакытта таралуы болжанады.

SDM 6 кезенде жузеге асырылады: (1) идеяларды тужырымдамалау, (2) де-ректердi дайындау (бар болу жэне жок нvктелерi немесе фондык нуктелер), (3) эддсп тандау (4) модельдi сэйкестендiру, (5) модельдi багалау жэне (6) пршЫк ету ортасынын немесе таралу аймагынын картасын кvру.

1. Тужырымдамалау. Бул кезенде бiз зерттеудiн непзп максатын тужырым-даймыз жэне тур жэне зерттеу туралы бiлiмiмiзге суйене отырып, модельдеу процесiнiн vлгiсiн туралы шешiм ка-былдаймыз. Бастапкы кезендеп манызды сэт - тур мен коршаган орта туралы мэлiметтердi тандау. Бiз тек вз деректе-рiмiздi пайдалануды немесе баска кол-жетiмдi деректердi пайдалану туралы

шешiм кабылдаймыз. Бул улп дизайны-на кейбiр тvзетулердi кажет етедi. Эрi карай, бiз ББМ негiзiнде жаткан непзп болжамдарды мысалы, тvрдiн кол же-^мд коршаган орта ауыспалыларымен тепе-тенддкте болу-болмауы, деректер кандай да бiр жолмен бурмалануы мум-кiн бе ^ржтеметн ауыткуы, кенiстiктiк автокорреляция жэне т.б.) мэлiметтердi жинау уакытына катысты орта жэне т.б. тексеруiмiз керек. Адекватты эколо-гиялык жэне кетспкпк ауыспалылар-ды тандау, модельдеу алгоршм жэне модель кvрделiлiгi зерттеу максатына жэне зерттелетiн турлер мен зерттеу ушш тандалган аумактагы коршаган орта арасындагы карым-катынаска катысты гипотезага негiзделуi керек.

2. Мэлiметтердi дайындау. Бул кезен-де бiз тур (болу нуктелерш де, жок болу нуктелерш де) жэне коршаган орта тура-лы накты деректердi жинаймыз жэне ен-деймiз. Тэуеддi жэне тэуелаз ауБюталы-лардын кенiстiктiк жэне уакытша масш-табтауындагы кез келген сэйкесазджтер-ге деректердi дайындау кезщде ерекше назар аудару керек, ягни, турлер мен коршаган орта деректерi немесе коршаган орта деректерi (кенiстiктiк жэне кли-маттык айнымалылар) арасында улкен кенiстiктiк немесе уакыттык айырмашы-лык бар жагдайлар. Сондай-ак, бар болу нvктелерiнiн географиялык байланысу сапасына жэне тvрлердi сэйкестенддру сапасына ерекше назар аудару керек, эдетте, деректердi эуескойлар жинаган жагдайда улкен зардап шегедi. Мундай жагдайларда бiз деректердi тузету немесе оларды жою туралы шешiм кабылдауы-мыз керек. Барлык ББМ алгоритмдерi турлердш жоктыгы туралы акдаратты талап етедi. Мундай жагдайларда бiз де-ректердi тузету немесе оларды жою тура-лы шешiм кабылдауымыз керек. Барлык ББМ адгоритмдерi турлерд1н жоктыгы туралы акпаратты талап етедд. Егер мундай акпарат жок болса, ол фондык нук-телермен немесе псевдо-болмау деп ата-латын деректермен ауыстырылады, бул эрине модельдеу сапасына, эаресе кен аукымда терiс эсер етед^ Егер модельдеу жиналган деректердш толык келемш пайдаланса жэне vдгiнi еркте одан эрi сынау жоспарлары болмаса, модельдер-дi окыту жэне модельдi сынау ушш тур деректерiнiн калай белшетшш алдын ала карастыру керек.

3. Эдк тандау. Бул кезенде бiз модельдеу эдкш немесе ансамбльдiк мо-

дельдерге 6ipiKTipy vшiн бiрнеше эдк-тердi тандаймыз.

Егер модельдеудiн бастапкы кезен-дерiнде жумыс vстелiндегi ГИС-ке 6i-рiктiрiлген карапайым фактор немесе кластерлш талдаулар колданылса, ^3ip алгоритмдер жиынтыгы айтар-лыктай кенейдк

Сызык,тык, регрессияеа нeгiздeлгeн adicmep:

- Жалпылама сызыктык модель (GLM) (Neider, Wedderburn, 1972),

- Жалпыланган аддитивт модель (ГАМ) (Хасти, Тибширани, 1990);

Машиналык окыту adicmepi:

- MaxEnt (Soberson, Peterson, 2005; Phillips ei al, 2006; Phillips, Dudik, 2008),багдарламасында енпз^ген мак-сималды энтропия эдМ,

- Кездейсок орман (Random Forest) - окыту кезiнде бiрнеше шешiм агаш-тарын куру аркылы жумыс iстейтiн жiктеу мен регрессияга арналган ан-самбльдiк окыту эдiсi (Breiman, 2001),

- кvшейтiлген регрессия агаштары (BRT),

- ете дэл нейрондык желiлер (CNN) (LeCun ei al, 1989),

- Ережелер жинагын курудын гене-тикалык алгоритмi (GARP) (Stockwell, 1999; Stockwell, Peters, 1999),

- Векторлык желiлердi колдайтын машиналык окыту (Support Vector Machines, SVM) (Cortes, Vapnik, 1995; Vapnik ei al., 1997),

- XGBoost (eXtreme Gradient Boosting, XGB) (Chen, Guestrin, 2016).

MaxEnt жэне Random Forest ArcGIS жуйесше бiрiктiрiлген, R ортасында кол-дау кeрсетiледi жэне Google Earth Engine (GEE) пайдаланушылары ушш онлайн колже^мдь Сонгы жылдары GEE SDM ушш ресурс ретiнде кенiнен танымал бола бастауда (Crego ei al., 2022).

4. Модельдi сэйкестендiру. Бул кезен SDM ушш манызды болып табылады. Алдын ала модельдеу деректерiн ала отырып, 6i3 мультиколлинеарлык улес-т багалаймыз жэне онымен калай ку-ресуге болатынын шешемiз, оны кайта окытпай модельге канша ауыспалыны енгiзу керектiгiн аныктаймыз, кетс-тжтж немесе уакытша автокорреля-цияны багалаймыз жэне онымен калай куресуге болатынын шешемiз, vлгiнiн немесе бiрнеше модельдш параметр-лерiн тандап, кайсысы жаксы немесе орташа нэтиженi пайдаланатынын тандаймыз. Дэл осы кезенде бiз турлердш

болу нvктелерi мен коршаган ортанын ауыспалылары арасындагы тандалган катынастардын орындылыгын коэф-фициенттердi салыстыру жэне график-тердегi сызылган кисыктарды визуал-ды тексеру аркылы тексеремiз.

5. УлгШк баFалау. Бул кезенде 6i3 тексеру немесе сынак деректерiнiн жиын-тыгын пайдаланып сонгы vлгiнiн бол-жамдык тиiмдiлiгiн багалаймыз: AUC (ROC) (Fielding, Bell, 1997; Fawcett, 2006; Hosmer, Lemeshow, 2013), TSS (Liu et al., 2005; Allouche et al, 2006); R2 и Kappa (Brownlee, 2016; Zhang et al, 2021). Осы максат ушш эдетте киылыстырып тексеру (кенiстiктiк блоктар) колданыла-ды (Roberts et al, 2017; Valavi et al., 2019; Crego et al., 2022) Бiз сондай-ак киылыса тексерiлген болжамдар непзшде бол-жанган бинаризация vшiн шекп мэн-дердi тандаймыз.

6. ^рш^к ету ортасынын немесе та-ралу аймаFынын картасын K;vpy. Бул SDM-нш сонгы кезенi, онын барысында бiз болжамдык модельдi растрга турлен-дiремiз жэне эрбiр пиксель vшiн зерттеу аймагында кездесетiн тvрлердiн пайыз-дык ыктималдыгы бар жiктелген кескш-дi аламыз. Бiз сонгы диапазон картасына енгiзетiн пикселдер ушш турлердш болу ыктималдыгынын шег1н жэне тiршiлiк ету ортасынын ауданын аныктау vшiн осы пикселдердш айналасында салын-ган буфердш влшемiн аныктаймыз. Бiз сонгы диапазон картасына енпзетш пикселдер ушш турлердш болу ыктималдыгынын шепн жэне тiршiлiк ету ортасы-нын ауданын аныктау vшiн осы пикселдердш айналасында салынган буфердiн влшемш аныктаймыз. Буфердi колда-нудын орындылыгы алынган растрдын масштабына байланысты, масштаб не-гурлым кiшi болса, буфердш взектМп согурлым твмен болады. Буфер влшемi эдетте орташа ен жакын квршiлес ка-шыктыкпен (MND) аныкталады жэне модельдеу максаттары мен мшдеттерше байланысты MND-нiн жартысы, толык немесе екi еселенген мвлшерi болып та-былады. Эркашан SDM-дегi непзп бол-жамдарды сыни тургыдан багалау керек жэне эртvрлi факторлармен байланысты ыктимал шектеулердi бiлу керек: тvрдi аныктау мvмкiндiгi, бiркелкi емес iрiктеу, коршаган ортанын ауыспалыла-рын тандаудагы шектеулер, турдш био-логиясы онын биотопиялык жэне аумак-

тык калауларындагы зандылыктарды аныктау ушш зерттеудш кейбiр аспекть лерiн бiлмеу жэне т.б. SDM турдш коршаган ортамен тепе-тенджте екенiн, бiз турдш болу нуктесш де, коршаган орта деректерш де бiлемiз жэне мукият тан-дадык жэне тvрдiн таралу шегiн анык-тайтын барлык непзп факторларды енгiздiк деп болжайды. Бул аспекплер бiрнеше себептерге байланысты турак-ты емес екенiн тvсiну керек. Бiрiншiден, турлер, эсiресе жырткыштар, коршаган ортанын взгеруше динамикалык жауап беред^ сондыктан олар белгiлi бiр кетс-тiктiк жэне уакыттык динамикаларды кврсетедi жэне модельдеу кезiнде дурыс ескерiлуi керек. Тvрдiн тiршiлiк ету ортасынын взгеруше реакциясын анык-тайтын манызды факторларга онын физиологиясы, демографиясы, таралу кабiлетi, урбанизацияга твзiмдiлiк дэре-жесi, коршаган орта факторларынын взгеруiне бейiмделу дэрежесi жэне тур аралык взара эрекеттесу жатады. Осы факторлардын барлыгы уакыт вте келе, сонын iшiнде осы жерде жэне казiр эре-кет етедi жэне оларды елемеу модельдеу нэтижелерш айтарлыктай бурмалауы мvмкiн. Сондыктан, SDM ушш тамаша нуска врiстегi нэтижелердi тексеру жэне оларды реттеу болып табылады.

Экiнiшке орай, орнитологтардын квпшШп R жэне жумыс vстелi ГИС-т пайдалануда киындыктарга тап болады, бул олардын далалык зерттеулерь нш нэтижелерiн заманауи талаптарга сэйкес вндеуге кедергi жасайды. Сирек кездесетiн турлермен жумыс iстеу ке-зiнде модельдеуд тэжiрибеде жаксы-рак енгiзу ушш бiз ГИС жэне багдар-ламалау тiлдерiн аз бiлетiн, бiрак SDM алгоритмдерi жэне санын багалау, сирек турлердш таралуы мен квптМ мен тiршiлiгiн модельдеу туралы белгШ бiр тvсiнiгi бар кус мамандарына мэсе-лелердi шешуге мvмкiндiк беретш баг-дарламалык внiмдi жасадык.

Багдарламалык внiм тvрлердi бакы-лауды камтитын эртvрлi геодеректердi вндеуге арналган; GEE растрларынан мэлiметтер алуга; биотоптардын клас-сификациялауга; популяциясын, ^р-шiлiкке каб^етплМн т.б. багалауга.

Энiмнiн негiзгi интерфейсi веб-ин-терфейс37 болып табылады, ол кызык-тыратын процестi тандауга, кажетт деректердi енгiзуге жэне вндеу нэти-

желерiмен мурагатка с^теме алуга мvмкiндiк бередi.

Геодеректер ушш (нуктелер, по-лигондар жэне т.б.) csv, shp, geojson файлдарын енгiзуге, сонымен катар картаны пайдаланып колмен енгiзу-ге болады. GEE растрларынан дерек-тердi косуды кажет ететiн алгоритм-дердi iске косу ушш жердi кашык-тыктан зондтау (ЖКЗ) колжетiмдi внiмдерiнiн тiзiмiнен тандау врiсi бе-рiледi: NASADEM (NASA JPL, 2020), M0D13A1.061 Terra Vegetation Indices 16-Day Global 500m (Didan, 2021), Geomorpho90m (Amatulli et al., 2020), Global Habitat Heterogeneity (Tuanmu, Jetz, 2015), Global Wind Atlas (Badger et al., 2021), World Clim (Fick, Hijmans, 2017), ERA5-Land Monthly Aggregated

- ECMWF Climate Reanalysis (Muñoz Sabater, 2019), ESA WorldCover 10m v100 (Zanaga et al., 2021), Dynamic World V1 (Brown et al., 2022),

(SR) Landsat 8 жжтелмеген спутник-тж деректер, мысалы, (SR) Landsat 8 атмосфералык тузе^лген беттж 2 шагылысу жинагы (квк, кызыл, жа-сыл, жакын инфракызыл жэне кыска толкынды инфракызыл 1 жолагы 30 м кенiстiктiк руксат) жэне L-диапа-зонды синтетикалык апертура массивi (SAR) антенналары бар HH жэне HV ALOS поляризация деректер жинагы, сондай-ак GEE (normalizedDifference) функциясын пайдаланып Landsat 8 кескiндерiнен NDVI жэне EVI есептеу-лерi. Эртvрлi vшiншi тарап ютапха-наларынын квмепмен алгоритмдердi iске косу vшiн деректер csv файлда-рына сэйкес ютапханалар талап ететiн пiшiмдерде енгiзiледi.

Казiргi кезенде внiмге келесi мо-дульдер юредк

1) Берiлген нуктелер ушш GEE растрларынан мэлiметтер алу (нэтиже

- GEE жиынына енгiзiлген растрлар-дан нуктелер vшiн тандалган деректе-рi бар кесте);

2) GEE непзшдеп RF жэне MaxEnt жштеуштерш пайдалана отырып, бе-рiлген аумак vшiн жiктелген растрды жэне квршктш бар жэне жок нуктеле-ршш жиынын (жаттыгу нvктелерiн) алу (екеуi де белгiлi бiр кызыгушылык аймагы vшiн кызыгушылык аймагы-нын сэйкес GEE растрлык эдiстерiн

колдана отырып, классификациялан-ганын алу ушш оку нуктелершш жэне GEE-ден тандалган кашыктан зондтау eнiмдерiнiн жиынтыгы. Тандалган vлгiлердi кросс-валидациялауга жэне олардын болжамдык тиiмдiлiгiн бага-лауга болады);

3) Популяция санын vm тvрлi эдк-пен багалау:

3.1) удайы желiде кездейсок нук-телердi генерациялау - турдш болу нvктелерi жэне зерттелген аумактар бойынша деректер непзшде жалпы кызыгушылык аймагы бойынша турдш таралуын модельдейтiн кездейсок нvктелердi тvрлендiретiн эвристика-лык алгоритм;

3.2) Distance - эдга, Distance Sampling (Thomas ei al., 2010; Buckland ei al., 2015; Miller ei al., 2019) улгкше негiзделген нуктелер мен аймактар vшiн кажеттi ауыспалылары бар файлды кiрiс ре-тiнде кабылдайтын жэне нэтижесшде егжей-тегжейлi статистиканы шыга-ратын модельге негiзделген эдiс;

3.3) турдш таралу тыгыздыгынын орташа елшенген керсетюшш есеп-теумен (Карякин, 2004) асимметрия-лык сешмдШк интервалын есептеу-мен (Равкин, Челинцев, 1990) карапа-йым аудандык есептеулер;

4) RMARK (Laake, 2013) ютапханасы непзшде уялардын eмiршецдiгiн бага-лау. ^ршШкке кабiлеттiлiгiн есептеу модулi кашыктан зондтау деректерь нен эртvрлi айнымалы мэндердi есепке алатын жэне уянын аман калуы vшiн айнымалы мэндердш маныздылыгын шыгаратын RMARK кiтапханасынын nest эдкш пайдаланып уянын аман калу деректерш eндеудi камтиды.

Багдарламалык eнiм Ресейде калау-сыз деп танылган уйымдардын сер-верлерiнде орналастырылып, оган кь руге Роскомнадзор тыйым салгандык-тан, авторлар ресейлш ресурста клон жасау нускаларын карастыруда.

Бул жумыс The Critical Ecosystem Partnership Fund (CEPF)38 каржылык колдауымен «УндьПалеарктикалык кeшi-кон ушатын жолында жойылып бара жаткан кауырсынды жырткыш-тарды сактау» ("Endangered Raptors Conservation on the Indo-Palearctic Migration Flyway") жобасы аясында жу-зеге асырылады.

i Надоели баннеры? Вы всегда можете отключить рекламу.