БИОЛОГИЯ
Вестн. Ом. ун-та. 2014. № 2. С. 125-129. УДК 519.248
М.С. Атепалихин, Б.Ю. Кассал, С.В. Белим
ИСПОЛЬЗОВАНИЕ АССОЦИАТИВНЫХ ПРАВИЛ
ДЛЯ ВЫЯВЛЕНИЯ ВЗАИМОСВЯЗИ
МЕСТ ОБИТАНИЯ БИОЛОГИЧЕСКИХ ВИДОВ
Приведена методика использования алгоритмов формирования ассоциативных правил для анализа экологических данных по распределению биологических видов. На основе ассоциативных правил выявляются биоценозы. Приведены примеры выявления правил с одной предпосылкой и одним следствием, а также более сложные правила. Предложенная методика апробирована на примере данных о распространении видов рыб на различных участках Средне-Иртышского подрайона в пределах Омской области. Выявляются и обосновываются с экологической точки зрения несколько правил совместного обитания видов либо взаимоисключение видов на одной территории.
Ключевые слова: Data mining, ассоциативные правила, биоценоз.
Введение
В настоящее время основным подходом к выявлению биоценозов на основе статистических данных является расчет парных корреляций присутствия различных видов. Существует ряд коэффициентов, хорошо зарекомендовавших себя в большом количестве исследований. Однако их главным недостатком является обнаружение взаимосвязи только двух видов, тогда как из математической статистики хорошо известно, что для случайных величин моменты второго порядка только в исключительных случаях определяют моменты более высокого порядка. В связи с этим актуальной является задача поиска соотношений, выявляющих биоценоз в целом, а не на основе парных корреляций.
Основные методы численного исследования биоценозов основаны на выявлении статистических парных корреляций численности видов, в том числе [1-3]. В данной области практически не используются методы биоинформатики и искусственного интеллекта. В данной статье предлагается использование метода ассоциативных правил для выявления взаимосвязей между биологическими видами, обитающими на одной территории. Ранее данный метод в задачах биоинформатики применялся для анализа последовательностей в геномах [4-6].
Метод ассоциативных правил является одним из подходов для построения систем искусственного интеллекта и получил широкое распространение в выявлении закономерностей [7]. Следует учитывать, что метод ассоциативных правил позволяет выявлять зависимости между величинами, которые более вероятны, чем простое угадывание, но не дает никаких объяснений наличию таких зависимостей. Более того, возможно проявление ошибочных закономерностей вследствие статистических погрешностей, которые не имеют отношения к действительности. Таким образом, данный подход следует рассматривать как метод поддержки принятия решения, но не принятие решения в явном виде.
Описание методики
Будем считать, что задано конечное множество биологических видов V. Пусть имеются данные о присутствии биологических видов на различных территориях, которые заданы в виде таблицы, строками являются виды, столбцами - территориальные единицы, а в ячейках отражено присутствие (+) либо отсутствие (-) представителей данного вида на данной территориальной единице. Для использования метода поиска ассоциа-
© М.С. Атепалихин, Б.Ю. Кассал, С.В. Белим, 2014
тивных правил необходимо выделить транзакции. В данном случае в качестве транзакций могут быть использованы столбцы таблицы. Обозначим транзакции через T1, T2, ..., TN. Далее рассматриваем всевозможные подмножества множества V (т. е. наборы видов) с целью выяснения, какие из них образуют наиболее вероятные биоценозы. Следует отметить, что если общее количество видов в множестве V равно m, то таких наборов видов будет 2m. Для каждого такого набора, который будем обозначать F, рассчитываем величину, называемую поддержкой (support):
Supp(F) = D(F) / N, где D(F) - количество транзакций, содержащих набор F, N - общее количество транзакций. Поддержка показывает, насколько данное ассоциативное правило является обоснованным, т. е. насколько часто оно встречается в записях. Сама по себе эта характеристика не может рассматриваться как критерий для доверия или недоверия ассоциативному правилу. Поддержка всего лишь показывает на распространенность явлений, описываемых ассоциативным правилом. Безусловно, начинать изучение необходимо с ассоциативных правил с высокой поддержкой, так как они позволяют выявить наиболее распространенные явления. Но следует помнить, что ассоциативные правила с низкой поддержкой также могут принести много интересной информации и помочь выявить неочевидные закономерности.
После того как рассчитана поддержка для всех наборов видов, может быть выбрана одна из двух стратегий:
1. Упорядочиваем наборы по убыванию поддержки и рассматриваем список сверху вниз. Такой подход наиболее оправдан и позволяет получать максимальное количество информации. Однако он требует априорных знаний о том, что в статистических данных малое количество ошибок. Даже низкий процент случайных погрешностей оказывает заметное влияние на формирование ассоциативных правил с низкой поддержкой.
2. Оставляем только наборы, поддержка которых не меньше некоторой минимальной величины Supp_min. Такой подход значительно сокращает дальнейшие вычисления, однако требует решения не очевидной задачи о выборе Supp_min. Однако такой подход необходим, если сбор данных допускает наличие статистических ошибок. Выбор Supp_min позволяет исключить влияние случайных погрешностей на конечный результат.
На следующем шаге необходимо сформировать ассоциативные правила вида:
если {vi,v2,...,vi-i,vi+i,...,vk}, то vt для всех видов от vi до vk. В дальнейшем для краткости будем использовать запись {vi,v2,..,vi-i,vt+i,...,vk} => vt.
Для каждого из ассоциативных правил необходимо рассчитать величину, называемую достоверностью:
conf(F,Vi) = D(F) / D(vt), (i=1,...,k), где D(F) - количество транзакций, содержащих набор F, D(vi) - количество транзакций, содержащих вид vu Достоверность лежит в интервале от 0 до 1. Достоверность показывает, с какой вероятностью присутствие биологического вида vi вытекает из присутствия остальных биологических видов, входящих в набор F. Чем она больше, тем больше вероятность, что вид попал в набор не случайно. Однако следует помнить, что возможны случайные совпадения даже для ассоциативных правил с высокой поддержкой. Некоторые ассоциативные правила могут быть следствием не природных закономерностей, а методики сбора и обработки информации.
Для ассоциативных правил существует еще ряд различных характеристик, однако мы пока ограничимся этими двумя, так как смысл остальных не так очевиден в применении к задачам поиска биоценозов.
Отдельный интерес представляют отрицательные ассоциативные связи, показывающие несовместимость биологических видов на одной территории. Отрицательная ассоциативная связь записывается в виде: если {vi,v2,...,vi-i,vi+i,...,vk}, то vi ({vi,v2,...,vi-i,vi+i,...,vk} => not v).
Трактовать отрицательную ассоциативную связь надо как вероятность отсутствия на данной территории вида vi в случае присутствия видов из набора {vi,v2,...,vn,vi+i,...,vk}. Для отрицательной ассоциативной связи также необходим расчет поддержки и достоверности.
Пример использования ассоциативных правил к биологическим статистическим данным
Рассмотрим предложенную методику применительно к распределению некоторых видов рыб на различных участках Средне-Иртышского подрайона в пределах Омской области в начале XXI в. (табл. 1). Данные взяты из работ [8; 9].
Как видим, в этом случае имеется шесть транзакций. В качестве примера рассмотрим сначала два набора видов:
F1 = {v3,v4,v5,v8}, F2 = {v8,v14,v15}.
Рассчитаем поддержку для каждого из
них:
Supp(F1) = 3/6 = 1/2, Supp(F2) = 5/6.
Следовательно, первый набор имеет достаточно низкую поддержку. Системы с поддержкой ниже 1/2 вряд ли имеет смысл рассматривать. Тогда как у второго набора достаточно высокая поддержка, и эти виды, скорее всего, взаимосвязаны. Сформулируем возможные ассоциативные правила сначала для набора F2.
Таблица 1
Распределение некоторых видов рыб на различных участках Средне-Иртышского ихтиологического подрайона в пределах Омской области, начало XXI в.
Примечание. Т1 - р. Иртыш в среднем течении, Т2 - северный участок, Т3 - Ишим-Ошовский участок, Т4 - центральный бессточный участок, Т5 - омский участок, Т6 - южный бессточный участок, * - виды-вселенцы.
А1 = «если {у8,у14}, то и15», А2 = «если {и8,и15}, то и14»>, А3 = «если {и14,и15}, то и8»>.
Рассчитаем достоверность каждого из правил:
еоп/(А1) = П(Щ/0(и8) = 5/5 = 1, еоп/(А2) = 0(Щ/0(и14) = 5/5 = 1,
еоп/(А3) = Ю(Р2)/0(и15) = 5/6 = 0.833.
Отсюда можно сделать три утверждения, требующих анализа с точки зрения экологии:
1. Если на данном участке р. Иртыш присутствуют линь и налим обыкновенный, то практически наверняка присутствует окунь обыкновенный.
2. Если на данном участке р. Иртыш присутствуют линь и окунь обыкновенный, то практически наверняка присутствует налим обыкновенный».
3. Если на данном участке р. Иртыш присутствуют налим обыкновенный и окунь обыкновенный, то с достоверностью 83 % присутствует линь.
Если теперь рассмотреть набор К1, то для него можно сформулировать четыре ассоциативных правила:
В1 = «если {и3,и4,и5}, то и8»>, В2 = «если {и3,и4,и8}, то и5»>, В3 = «если {и3,и5,и8}, то и4»>, В4 = «если {и4,и5,и8}, то и3»>.
Рассчитаем достоверность каждого из правил:
еоп/(В1) = 0(Е1)/0(и8) = 3/5 = 0.6, еоп/(В2) = 0(К1)/0(и5) = 3/4 = 0.75, еоп/(В3) = 0(К1)/0(и4) = 3/4 = 0.75, еоп/(В4) = 0(К1)/0(и3) = 3/4 = 0.75.
Достоверность у первого правила явно отличается и заметно ниже, чем у других. Отсюда можно сделать вывод о том, что вид и8 не является необходимой частью биоценоза, и попробовать исключить его. Тогда получаем набор К3 = {у3,у4,у5}. Его поддержка:
Бирр(К3) = 4/6 = 2/3, что заметно выше, чем у К1. Сформулируем ассоциативные правила:
С1 = «если {и3,и4}, то и5»>, С2 = «если {у3,у5}, то и4»>, С3 = «если {и4,и5}, то и3»>.
Рассчитаем достоверность каждого из правил:
еоп/(С1) = П(К3)/П(и5) = 4/4 = 1, еоп/(С2) = 0(К3)/0(и4) = 4/4 = 1, еоп/(С3) = Е^(Е3)/Е^(у3) = 4/4 = 1.
Как видим, мы получили максимально возможную достоверность для всех трех ассоциативных правил. Теперь можем сформулировать утверждения, требующие экологического анализа:
1. Если на данном участке р. Иртыш присутствуют щука обыкновенная и плотва обыкновенная сибирская, то практически наверняка присутствует елец обыкновенный сибирский.
2. Если на данном участке р. Иртыш присутствуют елец обыкновенный сибирский и плотва обыкновенная сибирская, то практически наверняка присутствует щука обыкновенная.
3. Если на данном участке р. Иртыш присутствуют щука обыкновенная и елец обыкновенный сибирский, то практически наверняка присутствует плотва обыкновенная сибирская.
Полный анализ таблицы приводит к очень большому количеству ассоциативных правил, которые представляют интерес с точки зрения биологических исследований, но выходят за рамки задач, поставленных в данной статье. В качестве иллюстрации ограничимся рассмотрением парных взаимосвязей с другими видами только одного из видов, имеющих широкое распространение - гольяна озерного (РИохгпив рвгепигиз, и6).
Все возможные парные ассоциативные правила, в которых гольян озерный выступает в качестве предпосылки или следствия ассоциативного правила, представлены в табл. 2.
Вид T1 T2 T3 T4 T5 T6
Осетр сибирский - Acipenser baeri (vi) +
Стерлядь - Acipenser ruthenus (v2) +
Щука обыкновенная - Esox lucius (v3) + + + - + -
Елец обыкновенный сибирский -Leuciscus leuciscus baicalensis (v4) + + + - + -
Гольян обыкновенный - Phoxinus phoxinus (v5) + + + - + -
Гольян озерный - Phoxinus percnurus (v6) - + + + + +
Верховка обыкновенная* - Leucaspius delineatus (v7) + + + - + -
Линь - Tinca tinca (v8) - + - - - -
Пескарь обыкновенный сибирский -Gobio gobio (v9) + + + - + -
Лещ* - Abramis brama (v10) + + + - + -
Сазан, карп* - Cyprinus carpio (vil) + + + - + +
Карась золотой - Carassius carassius (v12) - + + + + +
Карась серебряный* - Carassius auratus gibelo (амурская форма) (v13) + + + + + +
Налим обыкновенный сибирский -Lota lota (v14) + + - - + -
Окунь обыкновенный - Perca fluviatillis (v15) + + + - + -
Ерш обыкновенный - Acerina cernua (v16) + + + - + -
Судак обыкновенный* - Stizostedon lucoperca (v17) + - + - + -
Ротан-головешка* - Perccottus glehnii (v18) + - - - + -
Таблица 2
Ассоциативыне правила для биологического вида гольян озерный (РЬохтив регопигиЗ), Средне-Иртышский ихтиологический подрайон в пределах Омской области, начало XXI в.
№ Ассоциативное правило Supp conf
1 {v6} => {v1} 0 0
2 {v6} => {v2} 0 0
3 {v6} => {v3} 1/2 0.75
4 {v6} => {v4} 1/2 0.75
5 {v6} => {v5} 1/2 0.75
6 {v6} => {v7} 1/2 0.75
7 {v6} => {v8} 1/6 1
8 {v6} => {v9} 1/2 0.75
9 {v6} => {v10} 1/2 0.75
10 {v6} => {v11} 2/3 0.8
11 {v6} => {v12} 5/6 1
12 {v6} => {v13} 5/6 0.83
13 {v6} => {v14} 1/3 0.67
14 {v6} => {v15} 1/2 0.75
15 {v6} => {v16} 1/2 0.75
16 {v6} => {v17} 1/3 0.67
17 {v6} => {v18} 1/6 0.5
18 {v1} => {v6} 0 0
19 {v2} => {v6} 0 0
20 {v3} => {v6} 1/2 0.6
21 {v4} => {v6} 1/2 0.6
22 {v5} => {v6} 1/2 0.6
23 {v7} => {v6} 1/2 0.6
24 {v8} => {v6} 1/6 0.2
25 {v9} => {v6} 1/2 0.6
26 {v10} => {v6} 1/2 0.6
27 {v11} => {v6} 2/3 0.8
28 {v12} => {v6} 5/6 1
29 {v13} => {v6} 5/6 1
30 {v14} => {v6} 1/3 0.4
31 {v15} => {v6} 1/2 0.6
32 {v16} => {v6} 1/2 0.6
33 {v17} => {v6} 1/3 0.4
34 {v18} => {v6} 1/6 0.2
Как видно из табл. 2, наибольшей поддержкой (еоп/ = 1) обладают правила 7, 11, 28 и 29. Однако правило 7 {{иб} => {и8}) можно исключить из рассмотрения по двум причинам. Во-первых, его поддержка слишком мала {16,7 %). Для рассматриваемого набора данных это минимальная ненулевая поддержка. Во-вторых, симметричное к нему ассоциативное правило 24 {{и8}=>{иб}) обладает достоверностью всего 20 %. Наиболее интересными выглядят ассоциативные правила 11 и 28, которые образуют симметричную пару. Оба эти правила обладают высокой поддержкой {Бирр = 83 %) и максимально возможной достоверностью 100 %. Отсюда следует высокая вероятность взаимосвязи видов иб и и12. Также интерес представляет взаимодействие видов иб и и13, которое описывается ассоциативными правилами 12 и 29. Причем следует обратить внимание на асимметричность связи этих двух видов. Из присутствия вида и13 следует присутствие вида иб с достоверностью 100 %, тогда как
обратное утверждение выполняется с меньшей достоверностью {83 %).
Рассмотрим также отрицательные ассоциативные связи для вида иб, которые представлены в табл. 3.
Таблица 3 Отрицательные ассоциативные правила для биологического вида гольян озерный (РЬохтив регопигиЗ), Средне-Иртышский ихтиологический подрайон в пределах Омской области, начало XXI в.
№ Ассоциативное правило Supp conf
1 {v6} => not {v1} 5/6 1
2 {v6} => not {v2} 5/6 1
3 {v6} => not {v3} 1/3 1
4 {v6} => not {v4} 1/3 1
5 {v6} => not {v5} 1/3 1
6 {v6} => not {v7} 1/3 1
7 {v6} => not {v8} 2/3 0.8
8 {v6} => not {v9} 1/3 1
9 {v6} => not {v10} 1/3 1
10 {v6} => not {v11} 1/6 1
11 {v6} => not {v12} 0
12 {v6} => not {v13} 0
13 {v6} => not {v14} 1/2 1
14 {v6} => not {v15} 1/3 1
15 {v6} => not {v16} 1/3 1
16 {v6} => not {v17} 1/2 1
17 {v6} => not {v18} 2/3 1
18 {v1} => not {v6} 1/6 1
19 {v2} => not {v6} 1/6 1
20 {v3} => not {v6} 1/6 1
21 {v4} => not {v6} 1/6 1
22 {v5} => not {v6} 1/6 1
23 {v7} => not {v6} 0
24 {v8} => not {v6} 1/6 1
25 {v9} => not {v6} 1/6 1
26 {v10} => not {v6} 1/6 1
27 {v11} => not {v6} 1/6 1
28 {v12} => not {v6} 0
29 {v13} => not {v6} 1/6 1
30 {v14} => not {v6} 1/6 1
31 {v15} => not {v6} 1/6 1
32 {v16} => not {v6} 1/6 1
33 {v17} => not {v6} 1/6 1
34 {v18} => not {v6} 1/6 1
Как видно из табл. 3, можно выделить много отрицательных ассоциативных правил, обладающих достоверностью 100 %. Однако почти у всех этих правил слишком низкая поддержка, чтобы принимать их во внимание. Интерес представляют только отрицательные правила 1 и 2, обладающие поддержкой 83 %.
Экологический анализ
Богатство структурными элементами {биологическими видами) и связями между ними положительной ассоциативной сети с участием трех групп и отдельных видов ихтиофауны Средне-Иртышского ихтиологического подрайона в пределах Омской области обусловлено способностью этих видов к сосуществованию в условиях разделения и
адекватной имеющимся условиям реализации экологических ниш. При этом отдельные компоненты экологических ниш используются разными видами ихтиофауны без обострения межвидовой конкуренции и отношений хищничества до того предела, когда совместно обитающие виды оказываются в условиях взаимного исключения вследствие антагонистических отношений.
Тем не менее для ряда видов совместное существование затруднено, в результате чего формируется отрицательная ассоциативная сеть с участием ряда видов. Однако полного исчезновения видов из биотопов из-за обостренной межвидовой конкуренции и отношений хищничества не происходит. Поэтому для большинства видов в составе отрицательной ассоциативной сети антагонистические отношения имеют относительный характер.
Рассмотрим несколько частных случаев, выявленных в предыдущем разделе, и приведем их экологический анализ.
1. Ассоциативные правила {v6} => {v12} и {v12} => {v6}, из которых следует высокая вероятность одновременного присутствия гольяна озерного и карася золотого. Эта связь объясняется разделением большинства параметров экологических ниш этих видов при наличии острой конкуренции за трофический и топический компоненты у гольяна озерного и карася золотого только в возрастной группе 0+, тогда как в старших возрастных группах карася золотого (1+ и более) топическая и трофическая конкуренция видов исчезают: в общих биотопах виды дополняют друг друга в освоении наличных ресурсов.
2. Ассоциативные правила {v6} => {v13} и {v13} => {v6}, из которых следует высокая вероятность одновременного присутствия гольяна озерного и карася серебряного. Причем вторая ассоциативная связь обладает большей достоверностью. Эта связь объясняется разделением большинства параметров экологических ниш этих видов при наличии острой конкуренции за трофический и топический компоненты у гольяна озерного и карася серебряного только в возрастной группе 0+, тогда как в старших возрастных группах карася серебряного (1+ и более) топическая и трофическая конкуренция видов исчезают: в общих биотопах виды дополняют друг друга в освоении наличных ресурсов. Более того, для карася серебряного (гиногенетической амурской формы) присутствие в биотопе гольяна озерного является необходимым в качестве ведущего (в условиях Средне-Иртышского ихтиологического подрайона в пределах Омской области) донора спермы, обеспечивающего успех размножения при (почти) полном отсутствии самцов своего вида.
3. Отрицательная ассоциативная связь {v6} => not {v1}, из которой следует, что присутствие гольяна озерного исключает при-
сутствие осетра сибирского. Эта отрицательная связь может быть объяснена полным несовпадением экологических ниш, реализуемых в разных биотопах: там, где обитает гольян озерный, не обитает осетр сибирский, и наоборот. Выводы
Таким образом, анализ статистических данных, проведенный на основе методов поиска ассоциативных правил, позволяет выявлять новые закономерности сосуществования и взаимодействия биологических видов. В частности, удается установить положительные и отрицательные ассоциативные связи, которые находят объяснение на основе экологического анализа. Так, наличие положительных ассоциативных связей свидетельствует о возможности совместного существования видов с различными экологическими нишами. Отрицательные ассоциативные связи свидетельствуют о конкуренции за ресурсы или наличии хищничества. Тем не менее стоит помнить, что анализ статистических данных с целью выявления ассоциативных правил выполняет роль поддержки принятия решений, а окончательный результат может быть получен только исходя из экологического анализа выявленных закономерностей.
ЛИТЕРАТУРА
[1] Bray J. R., Curtis J. T. An ordination of upland forest communities of southern Wisconsin // Ecological monographs. 1957. Vol. 27. P. 325-349.
[2] Jaccard P. Étude comparative de la distribution florale dans une portion des Alpes et des Jura // Bulletin del la Société Vaudoise des Sciences Naturelles. 1901. № 37. Р. 547-579.
[3] Sorensen Т. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content // Kgl. danske vid. sel-skab. biol. krifter. 1948. № 4. Р. 232-244.
[4] Hwang S., Kuznetsov I. B. Bioinformatics Study of Functional Associations Observed in Multiple Sources of Human Genome Data // The Open Applied Informatics Journal. 2007. № 1. Р. 1-10.
[5] Czibula G, Bocicor M.-I., Czibula I. G. Promoter sequences prediction Using Relational Association Rule Mining // Evolutionary Bioinformatics. 2012. № 8. Р. 181-196.
[6] Nam H., Lee K., Lee D. Identification of temporal association rules from time-series microarray data sets // BMC Bioinformatics. 2009. № 10 (Suppl. 3). S. 6.
[7] Agrawal R., Imielinski T., Swami A. Mining Associations between Sets of Items in Massive Databases // Proc. ACM SIGMOD. 1993. P. 207-216.
[8] Кассал Б. Ю. Гидробионты Средне-Иртышского района // Труды Зоологической Комиссии. Ежегодник : c6. науч. тр. Вып. 3 / под ред. Б.Ю. Кассала. Омск : Издатель-Полиграфист, 2006. С. 30-42.
[9] Кассал Б. Ю. Животные Омской области: биологическое многообразие : монография. Омск : Амфора, 2010. 574 с.