УДК 574:002.56
ИДЕНТИФИКАЦИЯ ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИХ МОДЕЛЕЙ СВОЙСТВ ЭКОЛОГИЧЕСКИХ СИСТЕМ И ИХ ИНФОРМАЦИОННАЯ ОЦЕНКА
Ирина Викторовна Михеева
Институт почвоведения и агрохимии СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 8/2, доктор биологических наук, ведущий научный сотрудник, тел. (383)363-90-13, e-mail: [email protected]
Алексей Александрович Оплеухин
Институт почвоведения и агрохимии СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 8/2, кандидат биологических наук, младший научный сотрудник, тел. (383)363-90-13, e-mail: [email protected]
При мониторинге состояния природных объектов и экологических систем под влиянием климатических изменений и антропогенных воздействий необходимо проведение анализа и сравнения в различные моменты времени вариабельности континуальных в пространстве свойств объектов, что особенно важно для оценки состояния почв. Предыдущие исследования показали, что структура вариабельности свойств почв под влиянием природных и антропогенных процессов перестраивается, что приводит к изменению функций их вероятностных распределений. Анализ вариабельности свойства природного объекта может быть осуществлен путем идентификации его вероятностно-статистической модели, характеризующейся определенным типом и параметрами математической функции вероятностного распределения, или вероятностно-статистическим распределением (ВСР). ВСР является наиболее точным и полным статистическим эталоном изучаемого свойства объекта. Для скалярной целостной оценки вариабельности и ее изменений нами было предложено использовать информационные характеристики, вычисляемые на основе ВСР. Для информационной характеристики меры неопределенности значений свойств объекта используется информационная энтропия, а для оценки различий - информационная дивергенция. На примере почв показана возможность использования свободного программного обеспечения для статистического анализа атрибутивных данных геосистем. В статье рассмотрены этапы статистического анализа и программные особенности идентификации ВСР, а также расчетов их информационных характеристик при использовании свободного программного обеспечения. Приведен список наиболее часто определяемых вероятностных распределений почвенных свойств и их представление в программной среде R. Рассмотрены примеры расчетов на фактических данных мониторинга почв юга Западной Сибири.
Ключевые слова: мониторинг, свойства почв, базы данных, вероятностно-статистические модели, статистический эталон, информационные характеристики, свободное программное обеспечение.
Введение
Для развития прорывного мышления в геопространственной деятельности, в том числе в области сельского хозяйства и экологии, необходим переход от информационной функциональности на более высокий уровень аналитической функциональности [1]. Как отмечают авторы, такой прорыв возможен на базе научно-технического прогресса в сфере аппаратно-программных систем, обес-
печивающих сбор данных из разнородных источников, автоматизации процессов обработки и распознавания информации, а также формирования баз данных с распределенным доступом к ней. Для более успешного применения новых технических аппаратно-программных средств, по нашему мнению, необходимо развитие математического информационного «языка» фундаментальных наук о геосистемах. С одной стороны, это важно для развития самих фундаментальных научных дисциплин, с другой - позволяет практически реализовать аналитическую функциональность геопространственной информации, поскольку она базируется на закономерностях, полученных в научных исследованиях.
В почвоведении за последние десятилетия сформировалось направление «педометрика», целью которого является развитие математических, в том числе статистических методов анализа, оценки свойств почв и почвенного покрова, моделирования, в том числе пространственного, почвенных свойств и процессов [2].
Формирование баз атрибутивных данных о свойствах геопространственных экологических систем является очень важным этапом для совершенствования геопространственной деятельности. Для анализа этих данных с целью управления экологическими системами необходима организация преемственности наследия данных (legacy data). Наследие данных является основой для строгой аналитической математической оценки изменений состояния экологических систем, в том числе почв, что позволяет выявить тенденции развития современных процессов в почвенном покрове. Процессы современной эволюции экологических систем происходят под влиянием антропогенной деятельности и естественных климатических и природных изменений, при этом характеристики систем изменяются не только в пространстве, но и во времени.
Почвы являются центральным звеном всех наземных экосистем, поэтому информация о почвенном покрове и состоянии почв является важной составляющей для управления сельским хозяйством и эколого-природохозяйственной деятельностью. В связи с этим на значительных площадях сельскохозяйственной зоны Российской Федерации и стран бывшего СССР в разные годы проводились крупномасштабные территориальные исследования почв [3]. К сожалению, далеко не все полученные в этих исследованиях атрибутивные данные о почвенном покрове были введены в компьютерные базы данных, хотя они являются национальным наследием данных и имеют большое значение как точка отсчета для оценки произошедших за последние два-три десятилетия изменений почв и моделирования современных процессов.
Почвы являются континуальными объектами, и свойства любой почвенной разновидности на определенной территории сильно варьируют. Более того вариабельность даже на выровненной территории присуща почве как объекту [4]. При этом данные вариации отображают не только стохастические колебания, но и вполне закономерные, связанные, например, с рельефом, характером подстилающей породы или естественной неоднородностью, присущей структуре почвы. Поэтому данные о почвенной вариабельности должны быть отображены
в базах почвенных данных. При этом анализировать необходимо не только текущее состояние почвенных объектов, но и изменения во времени, вызванные происходящими процессами современной эволюции. Для решения этих задач мы развиваем новые вероятностно-статистические и информационные представления, модели и закономерности почв [5].
Работа со статистической выборкой связана, как правило, с редукцией информации и характеристикой выборки при помощи среднего значения (или медианы) с учетом отклонений от него. В этом случае полученное среднее значение представляет совокупную характеристику выборки, а дисперсия (либо другой иной сходный по смыслу показатель) представляет меру отклонений значений выборки. Во многих случаях такой подход обоснован. Однако существуют задачи, в которых столь сильная редукция данных выборки нежелательна или недопустима, поскольку приводит к искажению статистических характеристик.
В задачах мониторинга при сравнении сходных выборок по прошествии времени степень изменчивости может служить более тонкой общей мерой произошедших изменений. Из этих предпосылок возникает задача анализа и сравнения вариаций значений выборки. Одним из способов анализа вариации является анализ вероятностного распределения, то есть фактически построение вероятностной модели распределения значений выборки. Использование полученной непрерывной модели позволяет компактно сохранять данные о вариабельности почвенного свойства для дальнейшего использования в математических моделях состояния почв и их изменений [6, 7]. Для скалярной оценки меры неопределенности значений распределения используется информационная энтропия, а для сравнения распределений - информационная дивергенция [8, 9].
Отмечая важность применения новых аппаратных и программных комплексов, необходимо заметить, что в настоящее время существует два направления использования и развития программных средств для геоинформационных аналитических исследований. Во-первых, использование, как правило, коммерческих и дорогостоящих программных систем, обладающих значительной универсальностью и развитым интерфейсом. Во-вторых, использование и развитие свободного программного обеспечения (free share), о чем говорит опыт зарубежных коллег, показывающий, что как в процессе обучения, так и в исследовательской деятельности широко развиваются использование и разработка некоммерческих программных средств, например в свободно распространяемой мощной статистической среде R [10]. Научные математические подходы для решения определенных задач, развиваемые отдельными исследовательскими группами, заложенные в свободном программном обеспечении, учитывают актуальные современные тенденции математических методов исследований. Поэтому такой подход оказывается более лабильным и новаторским. Он может успешно применяться как в образовательной, так и в исследовательской и производственной деятельности.
Построение модели вероятностного распределения
Построение модели вероятностного распределения на практике происходит путем идентификации наиболее близких известных вероятностных распределений. Идентификация распределения состоит из ряда этапов:
1) выбираются несколько статистических распределений, наиболее подходящих для исследуемых данных;
2) по данным выборки производится оценка параметров выбранных распределений;
3) для каждого распределения проверяется по выбранным критериям гипотеза о согласии выборочного и теоретического распределения;
4) исходя из совокупности показателей критериев, выбирается теоретическое статистическое распределение, наиболее близко аппроксимирующее выборочное.
Для осуществления описанных выше операций исходные данные необходимо предварительно сгруппировать. Это предполагает ранжирование данных с последующим разбиением интервала варьирования выборки на непересекающиеся подынтервалы с подсчетом количества измерений, попавших в каждый из подынтервалов. Существует несколько способов разбиения, например, разбиение на интервалы равной длины либо равной вероятности, а также асимптотически оптимальное группирование. От выбора способа группирования наблюдений зависит размер потерь информации, неизбежный при группировании. Постановка задачи асимптотически оптимального группирования вытекает непосредственно из асимптотических свойств оценок и критериев. Ее решение, минимизирующее потери в количестве информации Фишера, повышает качество статистических выводов как при оценивании, так и при проверке гипотез. По этой причине асимптотически оптимальное группирование зачастую является наиболее удачным способом группирования [11].
Асимптотическая дисперсионная матрица оценки максимального правдоподобия (ОМП) по группированным наблюдениям определяется соотношением
- информационная матрица Фишера по группированным данным. Элементы информационной матрицы зависят от граничных точек интервалов, так как
Группирование
Б (0) N ~ХЫ^(0),
(1)
где
(2)
P(0) = ] f (л, 0)dx . (3)
xi-l
В случае, когда функция плотности распределения определяется скалярным параметром или осуществляется оценивание только одного параметра при известных остальных, целью задачи асимптотически оптимального группирования является минимизация асимптотической дисперсии ОМП по группированным данным. Эта задача сводится к максимизации информационного количества Фишера о параметре по группированной выборке, т. е. к решению задачи
ffslnpeyf
max ^ -—— P(0). (4)
XQ <Х1 <...<Xk-1 <xki=1
a0
При оценивании вектора параметров используется информационная матрица. В этом случае в качестве критериев оптимальности могут быть выбраны различные функционалы от асимптотической дисперсионной матрицы, однако обычно минимизируют обобщенную асимптотическую дисперсию max det Мг (0).
X) < x1 <...< Xk-1 < Xk
Оценка параметров распределений
После проведения группирования возможно приступить к оценке параметров выбранных распределений. Поскольку в научной литературе приняты разные обозначения параметров функций распределений, то для удобства в нашей работе используются стандартизованные - 0о, 01, 02, 03. Параметр 0О - характеристика смещения (это аналог среднего значения для нормального распределения), 01 - рассеяния (это аналог дисперсии), 02, 03 - это параметры формы. Параметры формы есть не у всех распределений, но, например, у распределения Вейбулла - один параметр формы, у распределения Джонсона - два. В таблице приведены формулы функций вероятностных распределений почвенных свойств, которые были определены в результате наших исследований на основе фактических данных, а также их представление в Я.
Определяющими факторами при выборе метода оценивания являются структура представления наблюдаемых данных и качество оценок. Качество оценок определяется такими свойствами, как состоятельность и асимптотическая эффективность. При учете введенной К. Р. Рао эффективности второго порядка метод максимального правдоподобия предпочтителен. Кроме того, метод является наиболее универсальным по отношению к форме представления выборочных данных (структуре выборки), по которым оцениваются параметры. Метод, в отличие от других, позволяет находить оценки максимального правдоподобия (ОМП) параметров по негруппированным, частично группированным и группированным данным [11].
Вероятностные распределения для моделирования свойств почв
ю
Название Формула* Область определения Представление в Я**
1. Равномерное ёишГ(х,шт,шах)
2. Экспоненциальное I(х) = 0 б 01 01 х е[0о'да) (1/Ь)* ехр(1)А((-1/Ь)*(х-а))
3. Полунормальное х( х-%)2 •/Хх)202 х е (о, да) (1/Ь)*8яг1(2/р1)*ехр(1)л(-1*(((х-а)л2/(2*Ьл2))))
4. Релея х2 I (х)=02 б202 х е [о,да) (х/ЬА2)* ехр(1)А(-1*((хЛ2/(2*ЬА2))))
5. Максвелла (*-0о)2 I(*) = ~г3^г(* - 0о)б 02 9{ч/ ж х е (0о, да) (4/((ЬА3)*8дг1(р1)))*(х-а)*ехр(1)л(-1*(((х-а)А2)/(ЬЛ2)))
6. Парето I (х) = 929002 х-02-1 х е[0о, да) ёраге1о(х,а,с) *УОЛМ с*аАс*хА(-1*с-1)
7. Эрланга „ ) (х-Эо)02-1 ( х-001 I (х) = —0—0-ехр--0 002 Г(02) 01 ) х е ^ да) (((х-а)А(с-1 ))/((ЬАс)*§ашша(с))) *ехр(1)А(-1*((х-а)/Ь))
8. Лапласа 1х-0о| /(х) = V 1 х е (-да, да) ё1ар1асе(х,а,Ь) *УОЛМ ** ех1хаВ181х (1/(2*Ь))*ехр(-1*аЬ8(х-а)/Ь)
9. Нормальное ( х-0о)2 /<х) = б ' х е (-да, да) ёиогш(х,а,Ь)
Со §
0
1
3
^
о о.
о §
о*
о §
а г; те
ю ю
Название Формула* Область определения Представление в Я**
10. Логарифмически нормальное (1п х-6о)2 /(х) - 1 е 202 х е (0, да) ё1погш(х,а,Ь)
11. Коши / (х) --^-- ^ л(е2 + (х-0о)2) х е (-да, да) ёсаисЬу(х,а,Ь)
12. Логистическое /(х) -- 1 + ехр 1 Г (х -0о)1 V е1 х е (-да, да) ё1о§1в(х,а,Ь)
13. Вейбулла /(х) -^ехр е1 Г Г (х-ео/ е1 Ч02 1 ' ) х е (ео,да) ((с*((х-а)л(с-1)))/Ьлс)*ехр(1)л(-1*(((х-а)/Ь)лс))
14. Минимального значения / (х) -7ТехР е1 Г(х-е0) Г(х-е0) -0— ехр -— V е1 V е1 )) х е (-да, да) (1/Ь)*ехр(1)л((х-а)/Ь-ехр(1)л((х-а)/Ь))
15. Максимального значения / (х) - "1ехР е1 Г (х-60) ---— ехр V е1 ' (х-е0)1 V е1 ) 1 ) х е (-да, да) (1/Ь)*ехр(1)л(((-1*(х-а))/Ь)-ехр(1)л(-1*((х-а)/Ь)))
16. Накагами / (х) - 2 Ч 1 Ч) е2 (х -е0)2е2 -1 ех Г 02(Х -е0)21 х е (ео,да) (2/§ашша(с))*((с/(Ьл2))лс)*((х-а)л(2*с-1))*ехр(1)л(-1*((с*((х-а)л2))/(Ьл2)))
Г(02) ^ е2 V е1 )
17. Гамма /(х)- *г(02) ехР Г (х-е0)] V е1 ) х е (ео,да) (((х-а)л(с-1))/((Ьлс)*§ашша(с)))*ехр(1)л(-1*((х-а)/Ь))
18. Бета 1-го рода / (х) 1 Г х-е0 е2 -1 г 1 - V а Л6 х-е0 1 з -1 х е[ео, 6о + е ] (1/(Ь*Ье1а(с,ё)))*(((х-а)/Ь)л(с-1))*(1-((х-а)/Ь))л(ё-1)
01В(02, е3) V е1 , е1 )
Ьо
Гй О
3
а
г; «
£
I о ■
О)
Оо
ю
Название Формула* Область определения Представление в Я**
19. Бета 2-го рода Ят) 01 (01(х-бо))02"1 В(02,0з) (1 + 01(х-0о))02-03 x е[0о'да) (Ь/Ье1а(с,ё))*(((Ь*(х-а))Лс-1)/((1+Ь*(х-а))Ле-ё))
20. Бета 3-го рода I ( X ) _ 002 Г(02 +0з) Г x V 01 402 -1 ] Гх X-0о Т3 V 01 ] -1 X е(^ 0о +01) (((§лс)*§ашша(с+ё))/(Ь*§ашша(ё)*§ашша(с)))*(( (((х-а)/Ь)л(ё-1))*((1-((х-а)/Ь))л(с-1)))/((1+(в- 1)*((х-а)/Ь))л(с+ё)))
0!Г(02)Г(0з) 1 + (04 - 1) ^-А] 01 ] 02 +03
21. БЬ-Джонсона I ( X) х ехр _ 0301 X е[0о, 01 +0о ] ё1окп80п8Б(х,с,ё,а,Ь) ((ё*Ь)/(8дП(2*р1)*(х-а)*(Ь-х+а)))*ехр(-о.5*(с+ё*1о§((х-а)/(Ь-х+а),Ьаве=ехр(1)))л2)
72 г " 1 2 V п (X -0о)(( Г 02 + 031п V 0 - X + 0о) ' л v x -0о I V(01 - x + 0о)), \2 4 ] ]
22. Б1-Джонсона I ( X) _ 03 е хр 1 2 V 02 + 031п v Г x-0о 2 Л x е[0о'да) (ё*ехр(1)л((-1*(с+ё*1о§((х-а)/Ь,Ьа8е=ехр(1)))л2)/2))/((х-а)*8яП(2*р1))
— 1— е (х -0о) V 01
23. Би-Джонсона I ( X) х ехр 72 Г " 1 2 V 03 п\1(х-0о: ( 02 + 031п V х >2+02 V X-0о + 1 01 1 Г x -0о V 01 л2 4 +1 ] 42 ^ X е (-да, да) ё1оЬп80п8и(х,с,ё,а,Ь) * ЕХ1Б1Б1 (ё*ехр(1)л((-1*(с+ё*1о§((х-а)/Ь+8дП(((х- а)/Ь)л2+1),Ьа8е=ехр(1)))л2)/2))/(8яг1(2*р1)*8яг1((х -а)л2+Ьл2))
(о; §
0
1
3
о о.
о §
о*
о §
а г; те
Название
Формула*
Область определения
Представление в Я*
24. Двустороннее экспоненциальное
/( ) е2е /(х) - —
а 1Ле2 х-0 1 2
2е1г
/ л 1
Че2 )
х е (-да, да)
(с*ехр(1)л(-1*((аЬв(х-а)/Ь)лс)))/(2*Ь*§ашша(1/с))
25. Н-распре-деление
/(х) - ■
-е |Ле2е3-1
V е1 У 2е1г(ез)
-ехр
е2л
|х-6о' ^2
V е1 у
х е (-да, да)
(с*(((аЬв(х-а))/Ь)л(с*ё-1)))/(2*Ь*§ашша(ё))*ехр(-1*(((аЬБ(х-а))/Ь)лс))
Ьо
Гй О
3
а
г; «
4 ■
£
■
О)
Оо
ю 4
26. Г-распре-деление
/(х) -
е
е1Г(е2 )
х -е.
Ч0302 -1
V е1 )
ехр
х -е.
\6з
V е1 )
х е (6о, да)
(ё/(Ь*§ашша(с))) *(((аЬв(х-а))/Ь)л(ё*с-1))*ехр(-1*(((аЬБ(х-а))/Ь)лё))
ехр
Г а л
-Оз ^
27. Ь-распре-деление
/ (х) -
V
е
1 )
е3в(е2, е3)
( - х-е0 Ле2 +°з
1 + е 01
V
х е (-да, да)
(ехр(-1*ё*((х-а)/Ь)))/(ё*Ье1а(с,ё)*((1+ехр(-1*((х-
а)/Ь)))л(с+ё)))
Примечания:
* 0о - параметр сдвига функции; 91 - параметр масштаба функции; 02 - параметр формы функции; 93 - 2-й параметр формы функции.
** а - параметр сдвига функции; Ь - параметр масштаба функции; с - параметр формы функции; ё - 2-й параметр формы функции.
е
2
Оценка максимального правдоподобия неизвестного параметра по группированным наблюдениям - это такое значение параметра, при котором функция правдоподобия
Д0) = УПРп (0), (5)
I-1
X
где у - некоторая константа и р(0) = | /(х, 0)dx - вероятность попадания на-
Х-1
блюдения в 1-й интервал значений, достигает максимума на множестве возможных значений параметра. Здесь предполагается, что для всех 0 еО р (0) > 0,1 = 1, к. Для вычисления оценки максимального правдоподобия дифференцируют функцию правдоподобия по 0 и, приравнивая производные нулю, получают систему уравнений правдоподобия
а 1п р (0)
IП—= 0, I = 1, т, (6)
(/) а0/
т
где т - размерность вектора параметров 0 = (01, 02,..., 0т) .
ОМП неизвестного параметра по частично группированным наблюдениям называется такое значение параметра, при котором функция правдоподобия
Ц0Щрп(0)П П/(х,,0), (7)
(1) (2) ]=1
система уравнений правдоподобия
а 1п р(0) _ I а 1п /(ху, 0)
I Ч-^Г2- + 1 I а0 = 0, / = 1, т, (8)
(1) а0/ (2) ]=1 а0/
где /х,0) - функция плотности случайной величины. Это означает, что суммирование и умножение осуществляются по интервалам с группированными и не-группированными данными соответственно.
Проверка гипотез
После определения параметров выбранных распределений для каждого распределения проверяется по выбранным критериям гипотеза о согласии выборочного и теоретического распределения.
При проверке гипотез желательно пользоваться наиболее мощными критериями, а лучше равномерно наиболее мощными критериями - являющимися
наиболее мощными на всем множестве альтернативных гипотез. Однако в критериях согласия альтернативная гипотеза обычно не выделяется, кроме того, совсем не очевидно, какой критерий согласия окажется наиболее мощным для конкретной ситуации.
Большинство исследователей при решении задачи выбора распределения, наиболее хорошо описывающего их результаты, обычно пользуются одним из критериев согласия, опираясь на заданный уровень значимости (обычно 0,01, 0,05, 0,1), принимая гипотезу о согласии, если значение соответствующей статистики не превышает критического значения. При этом не учитывается, что различные критерии используют различные меры близости распределений, и принятие гипотезы о согласии по одному критерию совсем не означает, что распределения окажутся близкими в соответствии с другими критериями.
Так, критерии Колмогорова и Смирнова измеряют расстояние между теоретическим (гипотетическим) и эмпирическим интегральными законами рас-
2 2
пределения в равномерной метрике, в критериях ю и О это расстояние измеряется в квадратичной метрике. В критерии % Пирсона в квадратичной метрике измеряется расстояние между теоретическим и эмпирическим дифференциальными законами распределения. Близкая мера используется в критерии отношения правдоподобия.
Опыт показывает [11, 12], что в обязательном порядке необходимо использование ряда критериев, основанных на различных мерах близости. Это позволяет принимать решение по их совокупности.
Статистики Колмогорова и Смирнова определяются выражениями
)2
18 N ' "' 9 N
_ (бжу + 1У . „ _ (6Щ + ^ (9)
^ _ ТТГТг ; ^т _ , (9)
где
Эу _шахф:+,Щ); _ тах [-{--F(x-)}; Бу _ тах ^(х.)-; (10)
у у у 1<-<) 1</<N1 N )
N - объем выборки; х1, х2, ..., ху - упорядоченные по возрастанию выборочные знамения; ^(х) - функция распределения, согласие с которой проверяется.
22
Статистики ю и О Мизеса имеют соответственно вид
& _ N0)1 _ — + У (^(х;.) - ^^Г (11)
0 N 12N Й! V 1) 2N ) V 7
и
N
Sn _ _ - N
- ^(х-)+('- УН - Н (12)
Если проверку гипотез о согласии осуществлять по ряду критериев, то из-за различия используемых мер, выводы по различным критериям при близких альтернативах довольно часто указывают на предпочтительность различных законов. Поэтому задача идентификации закона распределения, наиболее хорошо описывающего наблюдаемую выборку, формулируется как многокритериальная задача принятия решения по простому компромиссному критерию (все критерии измеряются в единой шкале) вида
m
тах 1®,.р > %}, (13)
jеR .=1
т
где ю. - весовой коэффициент .-го критерия; I ю. = 1; Я - множество законов
.=1
распределений, согласие с которыми проверяется; - значение статистики .-го критерия при проверке гипотезы о согласии с ^м распределением.
Программное обеспечение для идентификации вероятностных распределений
Для идентификации вероятностных распределений значений почвенных свойств и расчета информационных характеристик, таких как информационная энтропия и дивергенция, нами было использовано свободное программное обеспечение - ППП ISW (http://www.ami.nstu.ru/~headrd/) и Я (https://www.r-project.org/). Программа ISW (Статистический анализ интервальных наблюдений одномерных непрерывных случайных величин) служит цели идентификации наиболее близкого вероятностного распределения, соответствующего имеющимся дискретным данным.
Для ввода данных в ППП ISW необходимо ввести исследуемые данные в файл формата .Ш. Первая строка в файле соответствует названию выборки. Числа во второй строке определяют: первое - тип выборки (0 - негруппирован-ная; 1 - частично группированная; 3 - группированная); второе - число интервалов (для группированной и частично группированной выборок) и/или число индивидуальных наблюдений (для негруппированной и частично группированной выборок). Если выборка группированная и частично группированная, со следующей строки записываются количество наблюдений, попавших в интервалы группирования. В последующей строке вносятся граничные точки интервалов х.: . = 1,(к -1), где к - количество интервалов группирования (в перечень граничных точек должны входить только значения, разделяющие интервалы: левая х0 и правая хк границы области определения случайной величины во входном файле не задаются). Далее, в заключительной строке указывается негруппированная часть выборки (индивидуальные значения измерений). Деся-
тичный разделитель - точка, в случае негруппированной выборки осуществляется запись отсортированных по возрастанию значений.
Для частично группированной выборки файл будет выглядеть следующим образом [11]:
частично группированная выборка: эксперимент 3
1 5 50
751 2247 3998 2254 744 0.209 0.4470 0.5530 0.791 0.01 0.01 0.01 0.01 0.04 0.17 0.18 0.22 0.22 0.25 0.25 0.29 0.42 0.46 0.47 0.56 0.59 0.67 0.68 0.70 0.72 0.76 0.78 0.83 0.85 0.87 0.93 0.99 0.01 0.01 0.02 0.03 0.05 0.33 0.34 0.37 0.47 0.50 0.52 0.54 0.59 0.71 0.90 0.10 0.35 0.46 0.50 0.73 0.07 0.03
После введения данных следует сохранить изменения и изменить формат файла с .1x1 на .ёа1, после этого возможна загрузка данных выборки в ППП К"" Запустив ППП К", следует перейти к анализу распределения: Действия ^ Статический анализ (рис. 1), откроется окно «Оценивание параметров и проверка согласия» (рис. 2).
Рис. 1. Окно меню выбора действий программы
Рис. 2. Окно меню выбора статистических критериев согласия
Для открытия файла необходимо нажать кнопку «Открыть выборку» в правом верхнем углу окна (раздел: Выборка) (1) и указать созданный ранее файл для открытия. После успешной загрузки файла следует выбрать список законов распределения с которыми будет проверяться согласие выборки, для этого следует нажать кнопку «Открыть список распределений» (2) в блоке «Закон распределения». Для наших целей вполне подошел стандартный список. Затем в этом же блоке следует поставить галочку напротив слова «Идентификация» (3), после чего в открывшемся окне «Список распределений» (рис. 3) можно выбрать распределения с которыми будет проверяться согласие.
Рис. 3. Окно меню установки набора вероятностных распределений
На начальном этапе анализа можно оставить все распределения и затем исключать те распределения, на которых происходит остановка анализа или ошибка. Для наших данных наиболее часто проблемы при расчетах встречались с распределениями: Накагами; Гамма; Бета 1-го, 2-го и 3-го родов; БЬ-Джонсона; Б1-Джонсона. В разделе «Критерии согласия» галочками можно выбрать критерии оценки соответствия выборки закону распределения (4). Затем следует убрать галочку «Строить графики» (5) в блоке «Результаты», после чего можно запустить анализ кнопкой «Оценить и проверить» (6). В основном окне программы будут выведены результаты анализа, в которых приведен список проверок каждого из выбранных распределений по указанным критериям согласия. Приведены название и параметры распределения, для которого проводилась проверка, статистики выбранных критериев, средний уровень значимости, и данное на его основе заключение о принятии гипотезы согласия, ниже приведены значения уровня значимости для каждого критерия. После списка всех выбранных распределений приведено распределение, имеющее наивысший уровень значимости, и место сохранения файла результатов. Следует отметить, что в файле не сохраняется средний уровень значимости и заключение о принятии гипотезы. Если вам необходимы эти данные, то можно сохранить информацию из окна программы вручную (выделить нужный фрагмент и скопировать в буфер обмена С1г1+1пбг1, с последующей вставкой в любом текстовом редакторе).
В большинстве случаев после анализа можно использовать определенное программой наилучшее распределение, в случае если оно достигает требуемого уровня согласия. Однако следует иметь в виду, что для некоторых распределений (например, группы распределений Джонсона, двойного экспоненциального и ряда других) критерий Смирнова не рассчитывается и принимается за ноль, что снижает средний уровень значимости для данного распределения, так же для некоторых выборок при расчете значимости у некоторых распределений критерий Смирнова может принимать значение р = 1, в том числе при значениях других критериев р = 0, что некорректно завышает уровень согласия или ошибочно не отвергает гипотезу, это делает целесообразным исключение данного критерия из анализа некоторых выборок.
После идентификации наиболее соответствующего выборке распределения, мы можем использовать его для расчета информационных характеристик и построения графиков.
Программное обеспечение для расчетов информационных характеристик
После нахождения наиболее соответствующего исходным дискретным данным непрерывного вероятностного распределения в среде Я производится расчет информационных характеристик (информационной энтропии и дивергенции) для полученных распределений, а так же их визуализация.
В дальнейшем используется среда R. Для работы с распределениями полезны дополнительные пакеты функций «VGAM», «ExtDist» и «extraDistr». Для их установки в R следует указать CRAN mirror: Packages ^ Set CRAN mirror.. в открывшемся списке указать ближайшее местоположение (рис. 4). Затем можно установить пакеты: Packages ^ Install packge(s)..., в открывшемся списке указав VGAM, а затем аналогично ExtDist и extraDistr. Или командой
install.packages("VGAM","ExtDist","extraDistr","SuppDists", dependencies=TRUE, type="source"))
install.packages("extraDistr",dependencies=TRUE, type="source")
Или же распаковкой архивов с пакетами в директорию:
C:/Users/User/Documents/R/win-library/3.1,
которую так же можно определить (если она отлична), введя команду library().
Архивы можно найти по адресу: https://cran.r-project.org/web/packages/ available_packages_by_name.html.
Данная команда также поможет определить успешность установки пакетов. Впрочем, условие установки пакетов является необязательным, так как отсутствующие функции можно вводить иным способом. Для удобства были указаны оба варианта (см. приведенную выше таблицу).
Рис. 4. Окно меню установки пакетов системы R
Мы опустим основные моменты работы в Я оставив лишь некоторые пояснения, необходимые для осуществления анализа, более подробно с командами
и принципами работы R можно познакомится в официальном справочном руководстве или пособиях [13, 14].
Все команды записываются в окне скрипта, открываемого File ^ New script (Ctrl+N) и выполняемого Edit ^ Run all для всего скрипта в окне, или Edit ^Run line or selection (Ctrl+ R) для выделенных фрагментов или активной строки. Также возможно построчное введение команд в R Console.
Для начала работы необходимо загрузить дополнительные пакеты, если они используются, командой:
library("VGAM","ExtDist","extraDistr","SuppDists")
После чего можно использовать команды для работы с функциями распределения. При этом команды имеют вид: функция (x, сдвиг, масштаб), где функция - команда вызова соответствующей функции; х - независимая переменная; сдвиг - параметр сдвига функции; масштаб - параметр масштаба функции.
Например:
dnorm(x,20.38,3.50)
для функции нормального распределения с параметрами сдвига 2 0.38 и масштаба 3.50.
Часть функций отсутствующих в базовой версии R и указанных дополнительных пакетах, либо отличающихся от функций, использованных в пакете ISW были записаны программным кодом R. Команды для используемых нами функций были представлены в таблице.
Для расчета информационной энтропии была использована формула [15]:
5 = — f (x )ln f (x) dx
Расчет информационной энтропии возможно осуществить в «R», используя команды:
integrand=function(x){FUNCT*log(FUNCT,base=exp(1))}
integrate(integrand, lower=,upper=),
где funct - функция распределения, lower=, upper= - верхний и нижний пределы интегрирования, которые берутся примерно совпадающими с минимальным и максимальными значениями в исследуемой выборке в случае, когда область определения исследуемой функции шире этих пределов. Если интервал варьирования значений выборки шире области определения функции, за пределы интегрирования берется пересечение интервала варьирования выборки и области определения функции.
Например:
дга^=^пс^оп(х)^погт(х,20.3863,3.5029)*1од^погт(х,20.3863,3.50 2 9),ЬаБе=ехр(1))}
integrate(integrand, 1ower=5,upper=36)
- информационная энтропия для функции нормального распределения с параметром сдвига 2 0.3863 и параметром масштаба 3.5029, пределы интегрирования с 5 до 3 6.
Для расчета информационной дивергенции использована формула
а = \ (Ж 1(х) - Ж2(х))1п
А Ж 1( х)Л Ж 2( х)
ах,
где Ж1(х) и Ж2(х) - сравниваемые функции вероятностных распределений [16]. Расчет дивергенции можно осуществить в Я, используя команды
integrand=function(x){(FUNCT1-FUNCT2)*1og((FUNCT1/ FUNCT2),base=exp(1))}
integrate(integrand, 1ower=,upper=),
где FUNCT1 - первая сравниваемая функция распределения, FUNCT2 - вторая сравниваемая функция распределения, lower=, upper= - верхний и нижний пределы интегрирования, которые брались примерно совпадающими с минимальным и максимальными значениями в исследуемой выборке. Например:
integrand=function(x){(d1ogis(x,15.4186,2.997)-d1ap1ace(x,12.7959,3.7839))*1og((d1ogis(x,15.4186,2.997)/d1ap1ace (x,12.7959,3.7839)),base=exp(1))}
integrate(integrand, 1ower=0,upper=50)
- дивергенция между логистическим распределением со смещением 15.4186 и масштабом 2.997 и распределением Лапласа со смещением 12.7 959 и масштабом 3.7839 в интервале значений от 0 до 50.
Таким образом, код программы для расчета энтропии логистического распределения с параметрами 15.4186 и 2.997 и распределения Лапласа с параметрами 12.7959 и 3.7839, а так же дивергенции между ними, будет выглядеть в Я как:
#энтропия_1ogis(15.4186,2.997) inte-
grand=function(x){d1ogis(x,15.4186,2.997)*1og(d1ogis(x,15.4186,2.9 97),base=exp(1))}
integrate(integrand, lower=0,upper=50)
#энтропия_1ар1асе(12.7959,3.7839)
inte-
grand=function(x){d1ap1ace(x,12.7959,3.7839)*1og(d1ap1ace(x,12.795 9,3.7839),base=exp(1))}
integrate(integrand, 1ower=0,upper=50)
#дивергенция_1ogis(15.418 6,2.997)&1ap1ace(12.7959,3.7839) integrand=function(x){(d1ogis(x,15.418 6,2.997)-d1ap1ace(x,12.7959,3.7839))*1og((d1ogis(x,15.4186,2.997)/d1ap1ace( x,12.7959,3.7839)),base=exp(1))}
integrate(integrand, 1ower=0,upper=50)
В среде R также возможно визуализировать полученные распределения (рис. 5). Например:
1ibrary(VGAM)
y=dcauchy(x,0.1264,0.0866)
p1ot(x,y,type='1',co1='b1ack',x1ab="Содержаение гумуса, %",y1ab="Плотность вероятности",x1im=range(0,5), y1im=range(0,3.5)) b1=0.4171 a1=1.2153
curve((1/b1)*exp(1)A((-1*(x-a1))/b1-exp(1)A(-1*((x-a1))/b1)),co1="b1ue",add=T) b=0.3161 a=0.6291
curve((1/b)*exp(1)A((-1*(x-a))/b-exp(1)A(-1*((x-a))/b)),co1="vio1et",add=T)
curve(d1ogis(x,2.38,0.31),co1="red",add=T) 1egend("topright",
c(expression('0-20'),expression('20-30'),expression('30-50'),expression('50-100')),
co1=c('red','b1ue',"vio1et",'b1ack'),1ty=1) tit1e(main=expression("Содержаение гумуса, %")),
где p1ot - функция построения двухмерных графиков;
type - символьный аргумент, определяющий тип построения графика: "p" - точки, "1" - линии, "b" - линии и точки, "c" - строятся только линии из "b", "o" - точки и линии пересекаются, "h" - гистограммо-подобные вертикальные линии, "s" - ступенчатая линия, "n" - нечего не строится; co1 - аргумент задающий цвет;
x1ab, y1ab - символьные аргументы, задающие названия осей; x1im, y1im - векторы, задающие пределы осей;
1ty - аргумент, определяющий стиль линии: 1 - сплошная; 2 - штриховая; 3 - пунктирная; 4 - штрих-пунктир; 5 - длинный штрих; 6 - двойной штрих; 0 - отсутствует линия;
curve - функция построения кривой; 1egend - создание легенды; tit1e - создание заголовка.
Содержаение гумуса, %
о о
X
0-20 20-30 30-50 50-100
о о
X
о
о с; 1=
о о
0
2
3
4
5
Содержаение гумуса, %
Рис. 5. Вероятностно-статистические распределения содержания гумуса
Почвы, как и большинство пространственно распространенных объектов, обладают континуальностью свойств, при этом их количественная выраженность характеризуется значительной вариабельностью, имеющей как стохастическую, так и закономерную природу. Под влиянием антропогенной деятельности и происходящих климатических и природных изменений, характеристики почв изменяются не только в пространстве, но и во времени. При этом происходит изменение вероятностной структуры выраженности свойств, которая находит отражение в изменении вероятностно-статистических распределений. Для строгой аналитической оценки таких изменений в статье предлагаются новые математические и программные подходы, позволяющие изучать вероятностно-статистические и информационные закономерности состояния и изменений изучаемых объектов.
1. Геопространственный дискурс опережающего и прорывного мышления / А. П. Кар-пик, Д. В. Лисицкий, К. С. Байков, А. Г. Осипов, В. Н. Савиных // Вестник СГУГиТ. - 2017. -Т. 22, № 4. - С. 53-67.
2. Pedometrics, Progress in Soil Science / eds. A.B. McBratney, B. Minasny, Uta Stockmann. Springer International Publishing AG, part of Springer Nature, 2018. - 720 p. DOI 10.1007/978-3-319-63439-5_1.
3. Общесоюзная инструкция по почвенным обследованиям и составлению крупномасштабных карт землепользования. - М. : Колос, 1973.
4. Козловский Ф. И. Теория и методы изучения почвенного покрова. - М. : ГЕОС, 2003. - 536 с.
Заключение
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
5. Михеева И. В. Вероятностно-статистическая и информационная оценка современных процессов в природных объектах на основе данных почвенного мониторинга // Вестник СГУГиТ. - 2017. - Том 22, № 4. - С. 220-237.
6. Михеева И. В. Вероятностно-статистические модели свойств почвы (на примере каштановых почв Кулундинской степи). - Новосибирск : Наука, Сибирское предприятие РАН, 2001. - 200 с.
7. Михеева И. В. Мониторинг и вероятностно-статистическая оценка устойчивости и изменчивости природных объектов при современных процессах (на примере каштановых почв Кулундинской степи). - Новосибирск : Изд-во СО РАН, 2005. - 103 с.
8. Михеева И. В. Статистическая энтропия как критерий оценки эволюции и динамики почвенного покрова // Сибирский экологический журнал. - 2004. - № 3. - С. 445-454.
9. Mikheeva I. V. Divergence of Probability Distribution of the Soil Properties as a Quantitative Characteristic of the Soil Cover Transformation // Contemporary Problems of Ecology. -
2009. - 2(6). - P. 667-670.
10. Malone B. P., Minasny B., McBratney A. B. Using R for Digital Soil Mapping, Progress in Soil Science. - Switzerland : Springer International Publishing, 2017. - 262 p. DOI 10.1007/978-3-319-44327-0_4.
11. Лемешко Б. Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. - Новосибирск : НГТУ, 1995. - 125 с.
12. Лемешко Б. Ю. Статистический анализ группированных, частично группированных и негруппированных наблюдений одномерных непрерывных случайных величин: авто-реф. дис. ... д-ра техн. наук. - Новосибирск : НГТУ, 1997. - 46 с.
13. Зарядов И. С. Введение в статистический пакет R: типы переменных, структуры данных, чтение и запись информации, графика. - М. : Российский ун-т дружбы народов,
2010. - 207 с.
14. Зарядов И. С. Статистический пакет R: теория вероятностей и математическая статистика. - М. : Российского ун-т дружбы народов, 2010. - 141 с.
15. Колмогоров А. Н. Теория информации и теория алгоритмов. - М. : Наука, 1987. -
304 с.
16. Губарев В. В. Вероятностные модели : справочник в 2-х частях. - Новосибирск : НЭТИ, 1992.
Получено 05.07.2018
© И. В. Михеева, А. А. Оплеухин, 2018
IDENTIFICATION OF PROBABILISTIC AND STATISTICAL MODELS OF PROPERTIES OF ECOLOGICAL SYSTEMS AND THEIR INFORMATION ASSESSMENT
Irina V. Mikheeva
Institute of Soil Science and Agrochemistry of the Siberian Branch of the Russian Academy of Science, 8/2, Prospect Akademik Lavrentiev St., Novosibirsk, 630090, Russia, D. Sc., Leading Researcher, phone: (383)363-90-13, e-mail: [email protected]
Alexey A. Opleukhin
Institute of Soil Science and Agrochemistry of the Siberian Branch of the Russian Academy of Science, 8/2, Prospect Akademik Lavrentiev St., Novosibirsk, 630090, Russia, Ph. D., Junior Researcher, phone: (383)363-90-13, e-mail: [email protected]
In case of condition monitoring of natural objects and ecological systems under the influence of climatic changes and anthropogenic influences it is necessary to carry out the analysis and comparison in different time points of variability of continual object properties in space, which is especially important for soil assessment. The previous researches showed that the structure of variability of soils properties under the influence of natural and anthropogenic processes is rebuilt that leads to change of functions of their probable distributions. The analysis of property variability of a natural object can be realized by identification of its probable and statistical model which is characterized by a certain type and parameters of mathematical function of probable distribution, or the probable-statistical distribution (PSD). PSD is the most exact and complete statistical standard of object property under study. For scalar integral assessment of variability and its changes we offered to use the information characteristics calculated on the basis of PSD. For the information characteristic of a measure of uncertainty of values of object properties we used information entropy, and for assessment of distinctions - information divergence. The article shows the possibility of free software use for statistical analysis of attributive data of these geosystems on the example of soils. It also considers stages of statistical analysis and program features of PSD identification and also calculations of their information characteristics when using the free software. The article provides the list of the most often defined probable distributions of soil properties and their representation in the software environment of "R". Examples of calculations on the basis of soils monitoring actual data in the South of Western Siberia are reviewed.
Key words: monitoring, properties of soils, databases, probable and statistical models, statistical standard, information characteristics, free software.
REFERENCES
1. Karpik, A. P., Lisickij, D. V., Bajkov, K. S., Osipov, A. G., & Savinyh, V. N. (2017). Geospacial discourse of forward-looking and breaking-through way of thinking. Vestnik SGUGiT. [VestnikSSUGT], 22(4), 53-67 [in Russian].
2. Pedometrics, Progress in Soil Science. (2018). A. B. McBratney, B. Minasny, & Uta Stockmann (Eds.). Springer International Publishing AG, part of Springer Nature, 720 p. doi: 10.1007/978-3-319-63439-5_1.
3. Obshchesoyuznaya instrukciya po pochvennym obsledovaniyam i sostavleniyu krupno-masshtabnyh kart zemlepol'zovaniya [All-Union guidelines for soil survey and compilation of large-scale maps of land tenure]. (1973). Moscow: Kolos Publ. [in Russian].
4. Kozlovskij, F. I. (2003). Teoriya i metody izucheniya pochvennogo pokrova [Theory and methods of soil cover]. Moscow: GEOS Publ., 536 p. [in Russian].
5. Mikheeva, I. V. (2017). Probabilistic-statistical and information assessment of contemporary processes in natural objects on the basis of data of soil monitoring. Vestnik SGUGiT [Vestnik SSUGT], 22(4), 220-237 [in Russian].
6. Mikheeva, I. V. (2001). Probability and statistical models of soils (at example of chestnut soils of Kulunda steppe). Novosibirsk: Nauka Publ., Siberian enterprise of RAS, 200 p. [in Russian].
7. Mikheeva, I. V. (2005). Monitoring and probabilistic and statistical evaluation of stability and variability of natural objects under contemporary processes (at example of chestnut soils of Kulunda steppe). Novosibirsk: SB RAS Publ., 103 p. [in Russian].
8. Mikheeva, I. V. (2004). Statistical entropy as a criterion for estimation evolution and dynamics of topsoil. Sibirskij jekologicheskij zhurnal [Contemporary Problems of Ecology], 3, 445454 [in Russian].
9. Mikheeva, I. V. (2009). Divergence of probability distribution of the soil properties as a quantitative characteristic of the soil cover transformation. Sibirskij jekologicheskij zhurnal [Contemporary Problems of Ecology], 2(6), 667-670.
Вестник CrvruT, TOM 23, № 4, 2018
10. Malone, B. P., Minasny, B., & McBratney, A. B. (2017). Using R for Digital Soil Mapping, Progress in Soil Science. Springer International Publishing Switzerland. doi: 10.1007/978-3-319-44327-0_4.
11. Lemeshko, B. Ju. (1995). Statisticheskiy analiz odnomernykh nablyudeniy sluchaynykh velichin [Statistical analysis of one-dimensional observations of random variables]. Novosibirsk: NSTU Publ., 125 p. [in Russian].
12. Lemeshko B. Yu. (1997). Statistical analysis of grouped, partially grouped and non-grouped observations of one-dimensional continuous random variables. Extended abstract of Doctor's thesis. Novosibirsk: NSTU Publ., 46 p. [in Russian].
13. Zaryadov, I. S. (2010). Vvedenie v statisticheskij paket R: tipy peremennyh, struktury dannyh, chtenie i zapis' informacii, grafika. Moscow: RUDN University Publ., 207 p. [in Russian].
14. Zaryadov, I. S. (2010). Statisticheskij paket R: teoriya veroyatnostej i matematicheskaya statistika [Statistical package R: probability theory and mathematical statistics]. Moscow: RUDN University Publ., 141 p. [in Russian].
15. Kolmogorov A. N. (1987). Teoriya informacii i teoriya algoritmov [Information Theory and Theory of Algorithms]. Moscow: Nauka Publ., 304 p. [in Russian].
16. Gubarev, V. V. (1992). Veroyatnostnye modeli [Probabilistic models]. Novosibirsk: Novosibirsk Electrotechnical Institute Publ. [in Russian].
Received 05.07.2018
© I. V. Mikheeva, A. A. Opleukhin, 2018