OPEN DATA SOURCES FOR SPECIES DISTRIBUTION MODELLING: BIODIVERSITY INFORMATION SYSTEMS AND SPATIAL DATASETS OF ENVIRONMENTAL CONDITIONS VARIABLES
Shashkov M.P. (Karaganda Buketov University, Karaganda, Kazakhstan)
Contact: Recommended citation: Shashkov M.P. Open Data Sources for Species Distribution Modelling: Biodiversity In-
Maxim Shashkov formation Systems and Spatial Datasets of Environmental Conditions Variables. - Raptors Conservation. 2023.
[email protected] S2: 358-362. DOI: 10.19074/1814-8654-2023-2-358-362 URL: http://rrrcn.ru/en/archives/35137
BIOKLIM, the first algorithm for habitat modelling (Species Distribution Modelling (SDM)), was developed in the 1980s. This area of population and ecological research began to gain prominence with the wide availability of computers, development of the Internet, and development of open resources that provide access to data on species occurrences and environmental factors.
Most algorithms for SDM (with the exception of the first "bioclimatic envelope" methods) are based on regression analysis and machine learning. The most commonly used today is the MaxEnt maximum entropy method. All methods achieve the objective of revealing quantitative relationships between occurrences of the focal species and environmental variable values where the species occurs, with subsequent extrapolation of the ensuing patterns across the entire study area. The result is an assessment of habitat suitability (probability of occurrence) for the species within the study area.
Species distribution modelling methods are implemented both as standalone software products (MaxEnt) and as modules for GIS (and for QGIS, SDMToolbox for ArcGIS, etc.) and packages for the R environment (dismo, biomod2, ENMTools, etc.).
Any species distribution modelling method requires two types of input data: (1) occurrences of the focal species, represented as a set of points with geographic coordinates; and (2) environmental variables (predictors) that may be valuable for species distribution, in the format of continuous raster layers.
Considerable advances in the digitization of scientific collections around the globe and development of other sources for species distribution data have made it possible for researchers to significantly augment their own data to develop more accurate models. Such data are available through thematic repositories, the largest of which is the Global Biodiversity Information Facility - GBIF, which currently
provides over 2.5 billion occurrences, two-thirds of which relate to birds. Along with data derived from scientific collections, GBIF hosts data from multiple citizen science systems as well. The largest of these is eBird, with 1,277.5 million observations. The iNaturalist system has about 20 million bird observations. A much smaller fraction of data comes from biological collections (8.5 million) and automatic observation systems (camera traps and satellite trackers, 9.5 million). GBIF has accumulated 195,000 bird observations in Kazakhstan, in addition to the above-mentioned data, originating in the following observation systems: Raptors of the World, RU-BIRDS. RU, Hatikka.fi, and Observation.org.
The volume of available data on focal species occurrence can reach tens of thousands of records, but much less is required for modelling; for this reason, data filtering and quality control are important steps. When compiling an input dataset of occurrences, the researcher must consider the biological features of focal species. In birds, the circumstances in which a particular individual was encountered is important: on the nest, while hunting during nesting, overwintering, migrating, etc., as well as age group. It is also necessary to note which part of the range is used in the model: breeding, wintering ground, or year-round presence. The records of target species' occurrences should be more or less evenly distributed over the area of interest, should not raise questions regarding identification, and should have a geographical accuracy comparable to the resolution of the predictor layers used.
The environmental variables most in demand are bioclimatic data from the World-Clim resource. Those data reflect the distribution of precipitation and long-term average temperature. Information on soil conditions is provided by SoilGrid250. Layers for land surface classification by habitat type are also available: qualitative (Global Land
Cover 2000) and quantitative (Global 1-km Consensus Land Cover). Remote sensing imagery data from the Landsat and Sentinel satellite series are often used as predictors. Both particular image channels and layers with indexes calculated on that basis (e.g., NDVI - Normalized Difference Vegetation Index) can be included in the analysis. The SRTM (Shuttle Radar Topography Mission) digital surface model is also in wide use.
It is important to test the predictors for multicollinearity, as strongly correlated factors will introduce uncertainty in the resulting model. The test is performed over the set of values that spatially correspond to the species occurrences, rather than over the entire area of the layers. Among two correlated layers, the less environmentally dependent one is usually left, for which the working hypothesis is tested or allowing comparison of the results with other studies. It is recommended that correlation coefficient values > 0.7 be taken as critical. Predictor selection
should be based on focal species biology and ecology. For some species, topography may be important, not only elevation but also, for example, slope steepness. In species associated with wetlands, it is important to include layers related to the hydrological network. The influence of factors can be both direct and indirect. For example, a particular bird species nests in an area with a certain range of mean annual temperatures, but at the local level, it chooses habitats rich in food resources, which in turn may be associated with certain soil characteristics or vegetation types. Therefore, initial model builds typically use multiple layers of environmental variables to identify significant factors and the nature of their influence on the probability of encountering the target species. Usually, no more than ten predictors remain in the final model. There must be at least ten points of occurrence of the focal species for each predictor to build a good quality model.
ОТКРЫТЫЕ ИСТОЧНИКИ ДАННЫХ ДЛЯ МОДЕЛИРОВАНИЯ АРЕАЛОВ: ИНФОРМАЦИОННЫЕ СИСТЕМЫ О БИОРАЗНООБРАЗИИ И НАБОРЫ ПРОСТРАНСТВЕННЫХ ДАННЫХ УСЛОВИЙ СРЕДЫ
Шашков М.П. (Карагандинский университет имени академика Е.А. Букетова, Караганда, Казахстан)
Контакт: Рекомендуемая цитата: Шашков М.П. Открытые источники данных для моделирования ареалов:
Максим Шашков информационные системы о биоразнообразии и наборы пространственных данных условий среды.
[email protected] - Пернатые хищники и их охрана. 2023. Спецвып. 2. С. 358-362. DOI: 10.19074/1814-8654-2023-2-358362 URL: http://rrrcn.ru/ru/archives/35137
Первый алгоритм для моделирования ареалов (Species Distribution Modelling -SDM), BIOCLIM, появился в 1980х. Набирать популярность данное направление популяционных и экологических исследований начало с появлением доступной компьютерной техники, развитием сети Интернет, а также с разработкой открытых ресурсов, предоставляющих доступ к данным о распространении биологических видов и условиям среды.
Большинство алгоритмов построения моделей ареалов (за исключением первых методов «биоклиматической оболочки») основаны на регрессионном анализе и машинном обучении. Наиболее используемым на сегодня является
метод максимальной энтропии МахБ^. Все методы решают задачу установления количественных взаимоотношений между точками встреч целевого вида и значениями переменных среды в них с последующей экстраполяцией установленных закономерностей на всю территорию исследования. Результатом является оценка пригодности местообитаний (вероятности встречи) для целевого вида на исследуемой территории.
Методы моделирования ареалов реализованы как виде отдельных программных продуктов (МахЕП), так и виде модулей для ГИС ^ти! для ОСБ, SDMToolbox для АгсСК и др.) и пакетов для среды И (dismo, biomod2, БММТоок и пр.).
Работа любого метода моделирования ареалов основана на двух типах входных данных: (1) встречи целевого вида, представленные в виде набора точек с географическими координатами, и (2) условия среды, которые могут определять распространение изучаемого вида (предикторы), в формате непрерывных растровых слоёв.
Благодаря значительным успехам в области оцифровки мировых научных коллекций и других источников данных о распространении видов у исследователей появилась возможность существенно дополнить собственные сборы для получения более точных моделей. Такие данные доступны через тематические репозитории, крупнейшим из которых является Глобальная Информационная Система о биоразнообразии GBIF, объединяющая на сегодняшний день более 2,5 млрд. находок, две трети из которых относятся к птицам. Помимо научных коллекций в GBIF широко представлены данные из систем Citizen Science. Крупнейшей из них является eBird, включающая 1277,5 млн. наблюдений. Система iNaturalist насчитывает около 20 млн. наблюдений птиц. Гораздо меньший объём данных происходит из биологических коллекций - 8,5 млн. и систем автоматического наблюдения (фотоловушек и спутниковых трекеров) - 9,5 млн. Для Казахстана в GBIF можно найти 195 тыс. находок птиц, кроме вышеупомянутых, происходящие также из систем: Raptors of the World, RU-BIRDS.RU, Hatikka.fi и Observation.org.
Объём доступных данных о встречах целевого вида может исчисляться десятками тысяч записей, но для построения модели используется гораздо меньше, поэтому важным этапом является отбор данных и контроль их качества. При формировании входного набора данных о встречах целевых видов исследователю необходимо учитывать биологические особенности объектов. Для птиц важно, при каких обстоятельствах была встречена данная особь: на гнезде, во время охоты на гнездовом участке, зимовке, пролёте и т.д, а также к какому возрастному состоянию она относится. Необходимо также учитывать, какая часть ареала будет включена в модель: гнездования, зимовки или круглогодичного присутствия. Точки встреч целевого вида должны быть более-менее равно-
мерно распределены по территории интереса, не вызывать сомнения в корректности определения вида и иметь точность географической привязки, сопоставимую с разрешением используемых слоёв предикторов.
Наиболее востребованные переменные среды - это биоклиматические данные ресурса WorldClim, описывающие распределение осадков и средней многолетней температуры. Сведения о почвенных условиях предоставляет ресурс SoilGrid250. Также доступны слои, классифицирующие земную поверхность по типам местообитаний: качественные (Global Land Cover 2000) и количественные (Global 1-km Consensus Land Cover). Кроме того, в качестве предикторов часто используются данные спутниковой съёмки, полученные со спутников серий Landsat и Sentinel. В анализ можно включать как отдельные каналы изображений, так и слои с характеристиками, вычисленными на их основе (например, NDVI - нормализованный относительный вегетационный индекс). Также широко используется цифровая модель поверхности SRTM (Shuttle Radar Topography Mission).
Слои предикторов важно проверять на мультиколлинеарность, так как сильно взаимосвязанные факторы будут вносить неопределенность в результат моделирования. Проверка идёт не по всей площади слоёв, а только по набору значений, пространственно соответствующих находкам вида. Из двух связанных слоёв обычно оставляют менее зависимый, либо в отношении которого проверяется рабочая гипотеза, либо позволяющий сравнить результаты с данными других исследований. Рекомендуется принимать значения коэффициента корреляции > 0,7 как критическое. Выбор предикторов должен быть обусловлен особенностями биологии и экологии целевого вида. Для каких-то видов может быть важен рельеф, причём не только высоты над уровнем моря, но и, например, крутизна склонов. Для видов, связанных с водно-болотными угодьями, важно использовать гидросеть. Воздействие факторов может быть как прямым, так и опосредованным. Например, конкретный вид птиц гнездится на территории с определённым диапазоном среднегодовых температур, но
на локальном уровне выбирает местообитания, богатые пригодными для него пищевыми ресурсами, которые в свою очередь могут быть связаны с определёнными почвенными характеристиками или типом растительности. Поэтому при тестовых построениях моделей, как правило, используют много слоев с характеристиками
среды с целью выявления значимых факторов и характера их влияния на вероятность встречи целевого вида. В конечной модели остаётся обычно не более десяти предикторов. Для построения качественной модели необходимо, чтобы на каждый предиктор было не менее десяти точек встреч целевого вида.
ТАРАЛУ АЙМАКТАРДЫ (АРЕАЛДАРДЫ) МОДЕЛЬДЕУ YШIН АШЫК ДЕРЕКТЕР К0З1: БИОАЛУАНТYРЛIЛIК ТУРАЛЫ АКПАРАТТЫК ЖYЙЕЛЕР Ж8НЕ КОРШАГАН ОРТА ЖАГДАЙЛАРЫНЫН КЕН1СТ1КТ1 ДЕРЕКТЕР ЖИНАГЫ
Шашков М.П. (Е.А. Букетов ат. Караганды мемлекеттк университет'!, Караганды, Казахстан)
КонтаКт: ¥сынылатын дэйексвз: Шашков М.П. Таралу айма^тарды (ареалдарды) модельдеу ушш ашьщ деректер
Максим. Шашк0в кезк биоалуангурлШк туралы а^паратты^ жуйелер жэне ^оршаган орта жагдайларынын кешстакт! де-
[email protected] ректер жинагы. - Пернатые хищники и их охрана. 2023. Спецвып. 2. С. 358-362. DOI: 10.19074/1814-86542023-2-358-362 URL: http://rrrcn.ru/ru/archives/35137
Турлердш таралуын модельдеу (Species Distribution Modelling - SDM) бiрiншi BIOCLIM алгоритмi 1980 жыл-дары пайда болды. Популяция мен экологиялык зерттеулердш бул сала-сы колжетiмдi компьютерлш техноло-гиялардын пайда болуымен, интернет-тiн дамуымен, сондай-ак биологиялык турлердш таралуы мен коршаган орта жагдайлары туралы деректерге кол жеткiзудi камтамасыз ететiн ашык ре-сурстардын дамуымен танымал бола бастады.
Тiршiлiк ету ортасынын модельде-рiн куруга арналган алгоритмдердiн квпшiлiгi (бiрiншi «биоклиматтык ка-бык» эдiстерiн коспаганда) регрессия-лык талдауга жэне машиналык окы-туга негiзделген. Бvгiнгi танда ен квп колданылатын эдiс MaxEnt максимал-ды энтропия эдiсi болып табылады. Барлык эдiстер максатты тvрлердiн кездесу нvктелерi мен олардагы кор-шаган орта айнымалыларынын мэн-дерi арасындагы сандык байланыс-тарды орнату мэселесiн шешед^ содан кейiн белгiленген зандылыктарды 6v-кiл зерттеу аймагына экстраполяция-лайды. Нэтиже - зерттелетш аумак-тагы максатты тур vшiн тiршiлiк ету
ортасынын жарамдылыгын (кездесу ыктималдыгын) багалау.
Тiршiлiк ету ортасын модельдеу эдiстерi жеке багдарламалык втм-дер (MaxEnt) туршде де, ГИС модуль-дерi (QGIS vшiн smd, ArcGIS ушш SDMToolbox жэне т.б.) жэне R ортасы-на арналган пакеттер (dismo, biomod2, ENMTools т.б.) туршде де жузеге асы-рылады.
Кез келген таралу айматын модельдеу эдiсiнiн жумысы юрк деректердiн екi
тvрiне негiзделедi: (1) географиялык координаттары бар нуктелер жиынты-гы ретшде усынылган максатты тур-лердiн пайда болуы жэне (2) зерттелетш турдш таралуын аныктай алатын кор-шаган орта жагдайлары. (болжамдау-шылар), vздiксiз растрлык кабаттар форматында.
Дуние жvзiндегi гылыми жинактар-ды жэне турлердш таралу деректерiнiн баска квздерш цифрландырудаты елеу-лi жетiстiктермен зерттеуш1лер дэлiрек vлгiлердi шыгару ушгн вз коллекцияла-рын айтарлыктай тольщтырута мумкш-дiк алды. Мундай деректер такырыптык репозиторийлер аркылы кол жетiмдi, олардын ен vлкенi GBIF жаьандык биоа-луантvрлiлiк акдараттык жvйесi болып
табылады, ол казiргi уакытта 2,5 мил-лиардтан астам жазбаны камтиды, онын уштен екiсi кустарга катысты.
GBIF-тегi гылыми жинактардан баска Citizen Science мэлiметтер жvйелерiнен мол деректер бар. Олардын ен vлкенi - eBird, ол 1277,5 миллион бакылауды камтиды. iNaturalist жvйесi 20 миллион-га жуык кvстарды бакылауды камтиды. Деректердш анагурлым аз квлемi био-логиялык жинактардан - 8,5 миллион жэне автоматты бакылау жvйелерiнен (фототузактар мен спутниктiк трекер-лер) - 9,5 миллионнан келедi. Кдзакстан ушш Raptors of the World, RU-BIRDS. RU, Hatikka.fi жэне Observation.org. жу-йелерiнен орын алган GBIF-те жогары-да айтылгандардан баска, 195 мын кус табылганын табуга болады.
Максатты тvрлердiн кездесуi тура-лы колда бар деректердiн квлемi онда-ган мын жазбаларды курауы мvмкiн, бiрак модельдi куру vшiн элдекайда аз пайдаланылады, сондыктан манызды кадам деректердi тандау жэне сапаны бакылау болып табылады. Максатты турлердш кездесуi туралы кiрiс деректер жинагын куру кезiнде зерттеу-шi нысандардын биологиялык сипат-тамаларын ескеруi керек. К^устар vшiн бул турдш кандай жагдайда кездеспр-генi манызды: уяда, уя салатын жер-де ан аулау кезшде, кыстауда, коныс аударуда жэне т.б., сондай-ак онын кай жаста екендiгi. Сондай-ак модель-ге таралу аймагынын кандай бвлМ кiретiнiн ескеру кажет: уя салу, кыс-тау немесе жыл бойы болу. Максатты тvрлердiн кездесу нvктелерi кызыгу-шылык танытатын аумактын барлык аумагында азды-квптi бiркелкi тара-тылуы керек, тvрдi сэйкестендiрудiн дурыстыгына кумэн тудырмауы ке-рек жэне пайдаланылатын болжамды кабаттардын руксатымен салыстыры-латын геосiлтеме дэлдт болуы керек.
Ен талап е^летш ауыспалы корша-ган орта - жауын-шашыннын тара-луын жэне орташа узак мерзiмдi тем-ператураны сипаттайтын WorldClim ресурсынын биоклиматтык деректерi. Топырак жагдайы туралы акдаратты SoilGrid250 усынады. Сонымен бiр-ге, жер бетш тiршiлiк ету ортасынын тvрiне карай жжтейтш кабаттар да бар: сапалык (Global Land Cover 2000) жэне сандык (Global 1-km Consensus Land Cover). Сонымен катар, Landsat жэне Sentinel сериялы жерсерiктерiнен
алынган спутниктж тvсiрiлiм деректе-рi жиi болжау ретшде пайдаланыла-ды. Талдау жеке кескш арналарын да, олардын непзшде есептелген сипат-тамалары бар кабаттарды да камтуы мvмкiн (мысалы, NDVI - еамдж жа-мылгысынын нормаланган салыстыр-малы индексi). SRTM (Shuttle Radar Topography Mission) сандык бетпк моде-лi де кеншен колданылады.
Болжамдык денгейлердi мультикол-линеарлык vшiн тексеру манызды, ейткенi езара жогары байланысты фак-торлар модельдеу нэтижеане белггаз-дiк экеледi. Тексеру кабаттардын бvкiл аймагында емес, тек кетспкте тvрдегi табылгандарга сэйкес келетш мэндер жиынтыгында жvргiзiледi. Крсылган ею кабаттын эдетте жумыс гипотезасы тексер^етш немесе нэтижелердi баска зерттеулердiн деректерiмен салысты-рута мvмкiндiк беретiн тэуелдМп азы-рак калады. Корреляция коэффициен-тiнiн мэндерiн критикалык ретiнде > 0,7 кабылдау усынылады.
Болжамдарды тандау максатты тvрдiн биологиясы мен экологиясы-нын ерекшелiктерiмен аныкталуы керек. Кейбiр турлер vшiн рельеф те-нiз денгейiнен биiктiкте гана емес, сонымен катар, мысалы, беткейлердш тiктiгi де манызды болуы мумкш. Су-лы-батпакты жерлермен байланысты турлер ушш гидроторды пайдалану манызды.
Сулы-батпакты жерлермен байла-нысты турлер vшiн гидроторды пайдалану манызды. Факторлардын эсерi тшелей жэне жанама болуы мvмкiн. Мысалы, кустардын белгiлi бiр тvрi орташа жылдык температуранын белгШ бiр диапазоны бар аймакта уя салады, бiрак жергiлiктi денгей-де колайлы коректiк ресурстарга бай мекендеу ортасын тандайды, бул ез кезегшде белгiлi бiр топырак сипат-тамаларымен немесе есiмдiк тvрiмен байланысты болуы мумкш. Сондык-тан модельдердi сынау кезiнде, эдетте, манызды факторларды жэне олардын максатты турмен кездесу ыктималды-гына эсер ету сипатын аныктау vшiн коршаган ортанын сипаттамалары бар кептеген кабаттар колданылады. Эдетте сонгы vлгiде оннан артык предиктор калмайды. Сапалы модельдi куру ушш эрбiр предиктор vшiн максатты турдш кемiнде он кездесу нук-тесi болуы керек.