Научная статья на тему 'Выявление и оценка статистической зависимости геохимических характеристик среды обитания и состояния здоровья населения (на примере Приморского края)'

Выявление и оценка статистической зависимости геохимических характеристик среды обитания и состояния здоровья населения (на примере Приморского края) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
40
7
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бураго Т.В.

В статье рассмотрена задача выявления и оценки статистических зависимостей между экологическими характеристиками состояния биотической и абиотической составляющих биогеоценоза. Предложен алгоритм, решающий данную задачу. В качестве иллюстрации приведены результаты применения процедуры к реальным данным по Приморскому краю.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бураго Т.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Выявление и оценка статистической зависимости геохимических характеристик среды обитания и состояния здоровья населения (на примере Приморского края)»

Т.В.Бураго,

старший преподаватель кафедры информационных технологий ДВГАЭУ

ВЫЯВЛЕНИЕ И ОЦЕНКА СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ ГЕОХИМИЧЕСКИХ ХАРАКТЕРИСТИК СРЕДЫ ОБИТАНИЯ И СОСТОЯНИЯ ЗДОРОВЬЯ НАСЕЛЕНИЯ (НА ПРИМЕРЕ ПРИМОРСКОГО КРАЯ)

В статье рассмотрена задача выявления и оценки статистических зависимостей между экологическими характеристиками состояния биотической и абиотической составляющих биогеоценоза. Предложен алгоритм, решающий данную задачу. В качестве иллюстрации приведены результаты применения процедуры к реальным данным по Приморскому краю.

Характеристики экосистем многообразны и по своему содержанию, и по форме выражения. С некоторой долей условности можно выделить две больших группы экологических параметров, характеризующих состояние биогеоценоза: индикаторы состояния биотической составляющей и показатели физико-химического состояния окружающей среды. Состояние биоты, очевидно, является определяющим при характеристике биогеоценоза в целом. Оно непосредственно характеризуется биологическими факторами: функциональными и структурными показателями состояния организмов и популяций. Абиотическая компонента определяется набором физических параметров (температура, влажность, уровень радиации и т.п.) и данными о химическом составе среды.

Вопрос о существовании статистических зависимостей между экологическими характеристиками этих двух групп, их выявление и оценка при кажущейся очевидности представляет довольно сложную математическую задачу.

Практическим стандартом количественной оценки степени зависимости в работах прикладного характера фактически является коэффициент корреляции. Следует, однако, заметить, что, во-первых, некоррелированность случайных величин, как известно, не вполне тождественна их независимости, и во-вторых, коэффициент корреляции является специфической оценкой, ориентированной на количественное выражение зависимостей линейного вида. При отсутствии предположений о виде гипотетической взаимосвязи целесообразной является прямая постановка задачи проверки гипотезы о независимости методами математической статистики.

Общая характеристика решаемой задачи и описание данных

Одним из наиболее широко используемых статистических методов, предназначенных для проверки наличия или отсутствия зависимости между парой совместно наблюдаемых случайных величин, является крите-

рий хи-квадрат Пирсона, изначально ориентированный на дискретные данные. Для случайных величин непрерывного типа применение этого критерия предполагает предварительную дискретизацию, которая обычно заключается в следующем.

Сначала диапазоны значений каждой из случайных величин разбиваются на некоторое число интервалов. В системе декартовых координат, в которой оси соответствуют значениям наблюдаемых величин, эти разбиения очевидным образом порождают систему прямоугольных ячеек на плоскости. Затем производится подсчет числа выборочных значений наблюдаемых величин, попадающих в каждую из этих ячеек. Полученные частоты и представляют собой результат дискретизации.

В ситуации, когда проверяется гипотеза о независимости двух случайных векторов, процедура дискретизации проводится аналогично и приводит к разбиению на множество многомерных интервалов (параллелепипедов). Помимо обычных трудностей (выбор числа и длин интервалов разбиения) данная процедура содержит дополнительные проблемы, связанные с тем, что даже в случае невысокой размерности пространства число ячеек оказывается большим. В условиях ограниченности объема выборки это приводит к необоснованной «распыленности» данных - почти все частоты оказываются нулевыми, либо равными единице.

Для преодоления проблем, связанных с выбором разбиения, в данной работе используются многомерные группировки, основанные на методах кластерного анализа. В этом случае дискретизация производится на основе разбиения, опирающегося на реальную кластерную структуру, предположительно присутствующую в данных. При этом кластерный анализ осуществляется независимо для каждого из множеств значений случайных векторов, между которыми проверяется наличие статистической зависимости

Проблема выбора числа ячеек сводится, таким образом, к задаче определения, помимо самих кластеров, их числа, адекватно отражающего особенности анализируемых данных. Результаты процедуры кластеризации, последовательно примененной к векторам, составленным из характеристик разлитаой природы, могут быть использованы как исходные данные для проверю! гипотезы о независимости между этими наборами данных.

В рамках настоящей статьи предлагаемый подход иллюстрируется на примере сопоставления химического состава почв и данных о состоянии здоровья населения. Объектом исследования является территория Приморского края.

Исходная информация состоит из двух самостоятельных массивов данных. Первый характеризует исследуемый регион с точки зрения химического состава почв, второй - содержит статистику заболеваемости населения.

В качестве исходной информации первого типа использовались данные по химическому составу почв юга Приморья. Эта информация собрана в период с 1991 по 1993 год на территории юга Приморского края порядка 100 тысяч кв. км. (южнее широты 45°20'). Работы проводились многопрофильной инновационной фирмой «Экоцентр» (г. Владивосток). Данные представляют собой значения концентраций в почве экологически значимых химических элементов: 8п, РЬ, ¿п, Си, Ag, ве, ва, V, Сг, №, Мп, И, Со, Мо, Аб, В1, БЬ, Ва, Ве, 8г, 1л, N1), Р, Ъх, У, В, Бс. Для последующего выявления зависимости состояния почв и показателей состояния здоровья населения производилась предварительная обработка

этих данных: концентрации химических элементов усреднялись в границах административных районов с использованием статистических весов, пропорциональных плотности населения. С этой целью была собрана информация о географическом положении и численности населения 559 населенных пунктов Приморского края.

Вторая группа данных представлена статистикой заболеваемости. Данные собраны по районам и городам Приморского края и дают количество заболеваний основных типов болезней в пересчете на 100000 человек. Статистика подсчитана на основании учета числа обращений населения в поликлиники края. В составе общего числа обращений отдельно выделены первичные обращения в каждом из учтенных видов заболеваний. Приняты во внимание следующие группы болезней: органов дыхания, кожи и подкожной клетчатки, системы кровообращения, мочеполовых органов, нервной системы и органов чувств, органов пищеварения, новообразования, а также общая заболеваемость. Для целей настоящей работы использовались данные за 1991-1994 годы по детской возрастной группе (до 14 лет включительно).

Описание и обоснование методики исследования

Фундаментом предлагаемой вычислительной процедуры в целом является алгоритм кластеризации. Хотя существует много различных подходов к решению задачи кластеризации в отсутствие обучающей выборки и информации о числе кластеров (в работе [3] проводится сравнительное исследование 30 таких алгоритмов), тем не менее кластеризация с одновременным оцениванием числа кластеров относится к числу трудных практических задач кластерного анализа. Развиваемый в данной работе подход базируется на методике, вытекающей из приложения теоретике-информационного критерия Акаике к задачам классификации.

Собственно критерий Акаике [1] основан на несмещенной выборочной оценке количества информации, представленной в модельной плотности вероятности наблюдаемой случайной величины, о ее истинном распределении. Предположим, что распределение наблюдаемой величины, характеризуемое плотностью /(х | 0*), моделируется с помощью функции /(х|9), где X - значение наблюдаемого случайного вектора, 0 - вектор параметров, действительное значение 0* которого неизвестно. Количество информации, содержащейся в /(х | 0), определяется информационной мерой Кульбака-Лейблера:

Х(0* ,0) = Мх [1п /(х | в,) - 1п /(х 10)], (1)

где Мх[-] - оператор математического ожидания по распределению X. Количество информации (1) обладает следующими свойствами:

1(0*,0)>О, (2)

1(0М0) = ОО /(х 10) = /(х 10*) > (п.в.). (3)

С информационной точки зрения оптимальной следует признать модель, соответствующую такому 0, при котором 1(0* ,0) принимает наибольшее значение. Правая часть в (1) содержит два слагаемых, первое из которых не зависит от выбора 0. Следовательно, максимизация функции 1(0* ,0) эквивалентна минимизации функции

Н(0) = Мх [in /(х 19)] = J/(x|0,)In/(x|0)dx. (4)

Прямое использование функции Н(9) для оценки искомых параметров модели невозможно. Однако возможно построение несмещенной выборочной оценки для Н(0). С точностью до постоянного множителя такой оценкой является информационный критерий Акаике (AIC):

AIC = -21n(4e])+2w, (5)

где 1/(6) - функция правдоподобия,

дв) = Х1п(/(хг.|е», (6)

/=1

л

где 0 - оценка максимального правдоподобия, т - число независимых параметров, оцениваемых по данной выборке (ТП — dim(6)) [1,4].

Использование критерия (5) требует предположении о виде функции /(х | 9). Наиболее естественной представляется часто применяемая гипотеза о нормальности наблюдаемых величин. В этом случае вектор неизвестных параметров включает в себя векторы средних и ковариационные матрицы для всех кластеров. В результате число оцениваемых параметров может оказаться неоправданно большим. Идентифицировать такую переусложненную модель по выборке относительного небольшого размера весьма затруднительно. В монографии [4] предлагается эмпирически установленный порог на сложность модели в зависимости от числа

наблюдений: число параметров модели не должно превышать 2*Jñ или,

в крайнем случае, п! 2.

Таким образом, число кластеров в условиях ограниченной выборки должно быть соразмерным в указанном смысле с объемом выборки. Суммарное число районов и городов Приморского края, вовлекаемых в статистическое исследование в рамках настоящей работы и представленных соответствующей статистикой, равно 33, что весьма невелико. Следовательно, в данной ситуации допустимы лишь предельно упрощенные модельные функции. По этой причине для целей дальнейшего исследования предположим следующее.

1. Принадлежность каждого из наблюдаемых объектов к соответствующему кластеру не является случайной и определяется значением

векторного параметра = col(^j,..., ).

2. Внутрикластерные распределения наблюдаемых величин являются гауссовскими.

3. Искомые кластеры различаются значениями внутрикластерных

средних , = К* , где К* - число кластеров, но имеют совпадающие ковариационные матрицы.

4. Ковариационные матрицы S* j = 1..К* являются скалярными, т.е. S*! = ... = S= о * Е, где Е - единичная матрица соответствующей размерности.

В указанных условиях для использования критерия (5) необходимо предварительно вычислить оценки для числа кластеров К, векторов внутрикластерных средних далее в совокупности обозна-

2

чаемых Ц, внутрикластернои дисперсии О и вектором \ = со/^,...,Тогда логарифмическая функция правдоподобия 2

1п(£[0]) = /(щ<Т принимает следующий вид:

.2 * г^ч па 1__/<->__2

77/У 1 п

2 2<т 7=1

(7)

где ¿5? = сНт^ ) = ... = (Нт(ц£ ) = сНт(х).

Из (7) несложно получить следующие соотношения, которым удовлетворяют оценки максимального правдоподобия неизвестных параметров:

па ;-=1

I \ £1

(8)

(9)

/

■Ц/

, 7 = 1 ...л, / = (Ш)

В определении ■ минимум по ] может определяться неоднозначно (в случаях, когда Xj оказывается на границе между кластерами)

в этом случае вектор Х^ может быть отнесен к любому из кластеров, на

границе которых он находится (например, к кластеру с метшим номером).

Соотношения (8-10) представляют собой систему уравнений относительно искомых оценок. Они не дают замкнутого определения оценок

х * л

параметров: векторы средних ]1^ выражены через ^, в свою очередь,

л

зависит от Ц. Для решения данной системы необходимо использование итерационных алгоритмов, в частности, может быть использован алгоритм автоматической классификации, известный как правило ближайшего среднего (или метод К средних).

Входной информацией для этого алгоритма является набор векторов признаков, подлежащих классификации, а также число кластеров (К), на которые необходимо произвести разбиение данного набора. Алгоритм состоит из следующих шагов.

1. Выбрать тем или иным образом начальную классификацию и определить средние векторы («центры тяжести») в каждом кластере.

2. Переклассифицировать каждый вектор, отнеся его в ближайший кластер (расстояние до кластера определяется как расстояние до соответствующего среднего вектора).

3. Если состав какого-либо кластера изменился, пересчитать средние векторы и вернуться к шагу 2.

Алгоритм ближайшего среднего известен как один из наиболее простых и надежных методов автоматической классификации. Результатом его применения являются оценки параметров, удовлетворяющие соотношениям (8-10). Определенным недостатком данного метода является возможная неединственность решения, что, впрочем, является скорее свойством решаемой задачи, нежели несовершенством алгоритма.

Оценки (8-10) получены в предположении, что величина К фиксирована. После подстановки (8-10) в (5-6) критерий Акаике становится функцией от числа кластеров:

А1С(£) = 1 + М/

1 + 1(^(2;г) + 1<^

1 к

-У У Х-Х,

+ 2к-а (11)

Оценку для числа кластеров теперь естественно определить как решение одномерной экстремальной задачи:

¿ = а^тт[А1С(Х)]. (12)

К.

Сама гю себе задача (12) не представляет каких-либо трудностей. Поведение функции (11) определяется тем, насколько быстро уменьшается слагаемое, оценивающее средний внутриютастерный разброс, и вместе с тем увеличивается «штраф» за сложность модели. Очевидно, существует единственный минимум А1С(К), и, в предположении, что значения минимизируемой функции эффективно вычисляются, задача (12) может быть легко решена одним из обширного множества численных методов одномерной минимизации. Таким образом оцениваются все параметры, определяющие кластерную структуру данных.

Описанный выше метод многомерной группировки следует применить к выборкам обоих векторных признаков, которые исследуются на предмет наличия статистической зависимости. Результаты кластеризаций - разноска выборочных значений по кластерам - сводятся в таблицу сопряженности стандартного вида. Применение критерия Пирсона (хи-квадрат) завершает процедуру.

Результаты кластеризации данных и выявление корреляционных связей

Данные по химическому составу почв и показатели детской заболеваемости были подвергнуты обработке по предложенной методике. Были испробованы различные сочетания химических элементов и показателей заболеваемости. Результаты представлены ниже в графическом и табличном виде.

В качестве примера на рис. 1 представлены некоторые из карт, отображающие результаты классификации для отдельных типов заболеваний и химических элементов. Различным кластерам на этих картах соответствуют различные оттенки серого цвета. В пределах одной карты районы, отнесенные в разные кластеры, закрашены таким образом, что кла-

стерам с более высокими значениями изображаемого признака соответствует более интенсивная закраска. При этом на разных картах кластеры, имеющие одинаковые цвета, не обязательно соответствуют одному и тому же уровню интенсивности.

Рис. 1. Картографическое представление результатов кластеризации Примечание: А-г - статистика детской заболеваемости: а - крови и системы кровообращения, б - органов пищеварения, в - нервной системы, г - органов дыхания; Д-з - средневзвешенная концентрация: д - РЬ, е - 8г, ж - Сг, з - Со.

Таблица 1

Достигаемые уровни значимости.

Заболевания

Элемент Число кластеров органов дыхания кожи и подкожной клетчатки крови и системы кровообращения мочеполовых органов нервной системы и органов чувств органов пищеварения новообразования общая заболе- ! ваемость

5 10 5 5 4 6 4 11

н 5 0.79 0.89 0.66 0.34 0.41 0.34 0.80 0.89

Аб 10 0.89 0.57 0.95 0.59 0.96 0.97 0.82 0.99

В 8 0.31 91 0.03 0.43 0.86 0.07 0.36 0.40

Ва 7 0.31 0.43 0.51 0.03 0.59 0.02 0.90 0.35

Ве 8 0.54 0.18 0.67 0.09 0.02 0.43 0.90 0.71

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В1 3 0Л9 0.53 0.70 0.46 0.14 0.59 0.77 0.43

Со 5 0.53 0.75 0.03 0.31 0.08 0.02 0.90 0.16

Сг 11 0.06 0.38 0.17 0.37 7*10"3 0.05 0.67 0.07

Си 9 0.46 0.76 0.25 0.17 0.35 6*10'3 0.22 0.27

вг 8 0.67 0.22 0.23 0.80 0.13 0.61 0.70 0.54

ве 5 0.62 0.24 0.78 0.63 0.60 0.16 0.64 0.57

и 7 0.46 0.55 0.62 0.35 0.47 0.01 0.97 0.25

Мп 10 0.55 0.80 0.38 0.73 0.25 0.36 0.36 0.71

Мо 7 0.41 0.39 0.83 0.79 0,21 0.85 0.49 0.44

№ 9 0.47 0.57 0.02 0.25 0.28 0.59 0.59 0.33

N1 8 0.42 0.84 0.59 0.10 0.16 0.07 0.27 0.13

Р 5 0.23 0.51 0.28 0.57 0.40 0.73 0.40 0.07

РЬ 8 0.08 0.64 4 -10"4 0.02 0.50 8*10"4 0.48 0.10

БЬ 2 0.16 0.25 0.66 0.08 0.13 0.36 0.35 0.14

8с 7 0.20 0.01 0.79 0.78 0.38 0.47 0.98 0.73

8п 6 0.61 0.87 0.54 0.97 033 0.81 0.76 0.47

5г 8 0.08 0.87 7*10'5 0.26 0.12 6*10"3 0.30 0.05

Т1 6 0.53 0.67 0.57 0.66 0.92 0.78 0.78 0.61

V 5 0.37 0.23 0.61 0.32 0.46 0.54 0.84 0.68

\У 4 0.29 0.75 0.97 0,68 0.45 0.83 0.52 0.75

У 1 0.16 0.05 0.12 0.61 0.13 0.32 0.51 0.11

гп 6 0.63 0.51 0.75 0.15 0.32 0.29 0.08 0.67

Ъх 4 0.10 0.05 0.33 0.82 0.86 0.09 0.87 0.17

Представлены следующие виды заболеваний: системы кровообращения, нервной системы, дыхательных органов и органов пищеварения. Эти виды заболеваний показали более сильную степень связи с концентрациями тех или иных химических элементов. Кроме того, на рис.1 даны также результаты кластеризации геохимических данных: представлены карты средневзвешенных концентраций РЬ, 8г, Сг, Со.

Вторым этапом вычислительной процедуры является применение критерия хи-квадрат Пирсона для проверки гипотезы о независимости разнесения территорий по кластерам. Таблица 1 содержит результаты этого этапа. В ней приведены значения реально достигаемых уровней значимости для различных попарных сочетаний заболеваний и химических элементов.

Таблица 2 содержит сводную информацию о наиболее тесно статистически связанных парах "заболевание - химический элемент". Приводимые в ней элементы достигают наименьших значений уровня значимости при проверке гипотезы о независимости.

Таблица 2

Наиболее значимые статистически зависимы признаки

Заболевания Характерные элементы

1. Органов дыхания I. [нет] II. [нет] Ш. Сг, РЪ, 8г, Ъх

2. Кожи и подкожной клетчатки I. [нет] И. 8г, Ъх, У III. [нет]

3. Крови и системы кровообращения I. Бг, РЬ II. №>, В, Со III. [нет]

4. Мочеполовой системы I. [нет] II. РЬ, Ва III. 8Ь, Ве

5. Нервной системы I. Сг И. Ве III. Со

6. Органов пищеварения I. РЬ. Си, Бг И. И, Со, Ва III. СУг, №, В

7. Новообразования I. [нет] II. [нет] III. Zn

8. Общая заболеваемость I. [нет] II. Бг III. Сг, Р, РЬ

Элементы разнесены по группам согласно видам заболеваний. Внутри каждой группы выделены три уровня по степени согласия между данными и проверяемой гипотезой:

уровень I - явное противоречие с гипотезой (уровень значимости меньше 0,01);

уровень II - независимость является "практически невозможной" -гипотеза отклоняется (уровень значимости от 0.01 до 0.05);

уровень Ш - с высокой долей сомнения гипотеза может быть принята, тем не менее соответствующие связи также заслуживают быть отмеченными (уровень значимости больше 0.05, но не превышает 0.1)

Разумеется, общая картина статистических связей сложна и вряд ли может быть объяснена простым просмотром попарных сочетаний рассматриваемых факторов. Тем не менее, проведенные вычисления позволяют сделать следующие выводы:

1. Более тесная зависимость с содержанием отдельных химических элементов в почве усматривается для следующих видов детской заболеваемости: заболеваний крови и системы кровообращения, органов пищеварения, нервной системы.

2. Особенно сильную статистическую связь с отдельными видами детской заболеваемости демонстрируют SR, РЬ, Си, Сг. Обращает на себя внимание то, что Sr и РЬ почти всегда появляются в таблице 2 совместно.

3. Оценивая суммарно результаты анализа статистики заболеваемости, следует признать, что среди химических элементов, охваченных данным исследованием, по степени статистической связи с детской заболеваемостью в целом явно выделяются Pb, Sr, Со, Сг. Можно также выделить Ва, Zr, В, Be и Си.

Настоящее исследование было бы невозможно без статистики заболеваемости и данных по химическому составу почв, любезно предоставленных соответственно Институтом медицинской климатологии и восстановительного лечения и многопрофильной инновационной фирмой "Экоцентр". Автор также выражает благодарность профессору А.И. Абакумову за полезные обсуждения и консультации.

Литература

1. Akaike Н.А. A new look at the statistical model identification. IEEE Trans., AC-19. 1974. P. 716-723.

2. Carman C.S., M.B. Merickel. Supervising ISODATA with an information theoretic stopping rule. Pattern Recognition, 23, №1/2. 1990. P. 185-197.

3. Milligan G.W., MC. Cooper. An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50, №2. 1985. P. 159-179,

4. Sakamoto У., M. Ishiguro, g, Katigava. Akaike information criterion statistics. - Tokyo: KTK Scientific Publishers. 1986. 290 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.