лета птенцов, хотя уже в десятидневном возрасте молодой перепелятник способен проглотить, например, целую ногу воробья (от голени до пальцев) хотя еще явно с трудом.
В одном из гнезд самец, принося добычу, клал ее на край гнезда, независимо от того, находилась там в этот момент самка или нет.
Как правило, ястребята никак не реагировали на лежащих в гнезде птиц. Только в одном случае молодой самец сам начал есть воробья и оставил его, съев примерно половину. Почти сразу же остатки стала доедать молодая самка. Остальные птенцы на происходящее не реагировали.
В другом гнезде самец передавал самке корм на соседнем дереве. Там она доводила до конца ощипывание добычи и немного ела сама. В этот момент самец присаживался на край гнезда, где оставался не более нескольких секунд.
Вероятно, как неучастие самки в охоте, так и кормление ею птенцов до самого их вылета, а также нежелание птенцов самим ощипывать и расчленять принесенную добычу, в данном случае связано с благоприятной трофической ситуацией в городских условиях за счет синантропных птиц.
Библиографический список
1. Воробьёв Г.П. К экологии гнездования ястреба-перепелятника в городе Воронеже // III конференция по хищным птицам Восточной Европы и Северной Азии: Материалы конференции 1518 сентября 1998 г. Ставрополь: СГУ, 1998. Часть
УДК 631.15:004.942
1. C. 25-26.
2. Галушин В.М. Хищные птицы леса. М.: Лесная промышленность, 1980. 158 с.
3. Дементьев Г.П. Перепелятник. // Птицы Советского Союза, т.1. - М. Сов. наука. 1951. 652 с.
4. Ивановский В.В. Ястреб-перепелятник в Северной Беларуси // III конференция по хищным птицам Восточной Европы и Северной Азии: Материалы конференции 15-18 сентября 1998 г. Ставрополь: СГУ, 1998. Часть 1. C.48-50.
5. Ильюх М.П., Друп А.И., Хохлов А.Н. Экология перепелятника в Ставропольском крае // Материалы IV конференции по хищным птицам Северной Евразии. - Пенза, 2003. - С. 61-64.
6. Карякин И.В. Перепелятник (Accipiter nisus) // Пернатые хищники Уральского региона. Со-колообразные (Falconiformes) и Совообразные (Strigiformes). Пермь: Центр полевых исследований Союза охраны животных Урала / Социально-экологический союз, 1998. - 483 с.
7. Храбрый В.М. Птицы Санкт-Петербурга. Фауна, размещение, охрана. Под ред. В.А. Паевского. Санкт-Петербург, 1991. 275 с.
8. Solonen T. Effect of Sparrowhawk Accipiter nisus predation on forest birds in southern Finland // Ornis fenn. № 1, 1997, т.74, 1-14.
9. Zawadzka D., Zawadzki J. Breeding populations and diets of the Sparrowhawk Accipiter nisus and the Hobby Falco subbuteo in the Wigry National Park (NE Poland) // Ann. zool. N 1, 2001, т.36, С. 25-31.
Е.П. Васильев, д-р техн. наук, профессор, Рязанский ГАТУ В.И. Орешков, соискатель, Рязанский ГАТУ
МОДЕЛИРОВАНИЕ УРОЖАЙНОСТИ НА ОСНОВЕ ДАННЫХ АГРОХИМИЧЕСКОГО ОБСЛЕДОВАНИЯ ПОЧВ С ПОМОЩЬЮ МЕТОДА АССОЦИАТИВНОГО АНАЛИЗА
Введение
Вступление России в ВТО требует повышения эффективности управления предприятиями АПК с целью увеличения выхода продукции, снижения ее себестоимости и нагрузки на окружающую среду, что позволит повысить конкурентоспособность отечественных сельхозпроизводителей.
Одним из перспективных направлений повышения эффективности земледелия является разработка методов рационального использования
удобрений и средств защиты растений на основе современных информационных технологий. Одной из современных концепций данного направления является точное земледелие (ТЗ) [1], в основе которого лежит система хозяйствования с учетом новейших достижений науки и техники. Ключевой задачей ТЗ является построение моделей урожайности, учитывающих разнообразные агрохимические и агротехнические показатели. Большое количество таких показателей и слож-
© Васильев Е. П., Орешков В. И., 2012
ность взаимосвязей между ними делает актуальным применение при моделировании методов интеллектуального анализа [2]. В данной работе рассмотрена возможность использования ассоциативного анализа для построения моделей урожайности зерновых по данным агрохимического обследования почв.
Моделирование урожайности
Подготовка исходных данных. В основе ассоциативного анализа лежит поиск ассоциативных правил (АП), которые устанавливают и количественно описывают связи между появлением событий, объектов и явлений предметной области. АП работают с данными специфического вида - транзакциями, которые содержат группы связанных элементов (событий, объектов, явлений, предметов).
Исходными данными для построения ассоциативной модели будут результаты агрохимического обследования почв для 56 земельных участков, включающие кислотность (рН), содержание подвижного азота, калия и фосфора (в мг/100 г. почвы), а также площадь участка и фактическую урожайность. Фрагмент ведомости агрохимического обследования представлен на рисунке 1 [3]. Задачей ассоциативного анализа будет обнаружение зависимостей между уровнем урожайности и значениями агрохимических показателей, знание которых позволит выработать практические рекомендации по рациональному использованию удобрений.
Для поиска АП ведомость агрохимического обследования необходимо преобразовать в транзак-
ционную базу данных (БД), в которой каждое наблюдение (поле) будет транзакцией (номер поля - идентификатор транзакции), а событиями - появление определенного значения агрохимического показателя. Поскольку алгоритмы поиска АП работают только с категориальными значениями, необходимо преобразовать числовые значения агрохимических параметров в категориальные. Для этого воспользуемся таблицами классификации почв по содержанию в них питательных элементов и кислотности [4].
Значения агрохимических показателей заменим меткой группы, в которую данное значение попало. Например, если содержание азота в наблюдении равно 6, что соответствует 2-й группе (низкое), то это значение можно заменить меткой Азот 2. Однако, такое обозначение не вполне удачно, поскольку чтобы его интерпретировать, потребуется соответствующая таблица. Поэтому введем более понятную мнемонику: Азот_низк. Аналогичным образом преобразуем остальные значения.
Фрагмент полученной в результате замены числовых значений категориальными транзакцион-ной БД представлен на рисунке 2. Она содержит всего два поля:
- идентификатор транзакции - уникальное значение (в нашем случае это № поля), связывающее группу ее элементов;
- показатель - содержит группу элементов (значений агрохимических показателей и урожайности), отделенных друг от друга определенным символом-разделителем (в нашем случае запятой).
Генерация ассоциативных правил. Целью
Л' поля Площадь, га Кислотность, РН Азот, мгЛСОг Калий, мг/1ГОг Фосфор мгЛООг Юг. % Ср ¡(ТОП Урожайность Урожайность (класс)
133,01 4,8 3 1Э.З 13,52 31,30 1,20 2.2 Низкая
2 185,99 5,5 5 10,83 19,15 67,9 0,83 4,3 Средняя
3 47,62 5,6 12,76 16 14,24 0,92 6,3 Средняя
4 63,04 5,6 6 12,76 16 Э2.8 0,69 6,4 Средняя
5 141.08 5.2 4 24.42 19,55 25,26 1,05 3,5 Низкая
Рис. 1 - Фрагмент ведомости агрохимического обследования почв
Ы:поля Показатель
► Среанекислзя, Азстсчнизк, Каяий_оч_высок, ФосФор_оч_еысск, Низкая
2 Слабокислая, Азсгт_низк, Калмй_повыш, Ф осфор_оч_высок, Средняя
3 Слабокислая, Азот_иизк, Кали й_ высок, Фосфор_еысок, Средняя
4 Слабокислая, Азст_низк, Калий_высок, ФосФор_еысок, Средняя
5 Слабокислая, Азст_оч_низк., К.алий_оч_высок, Фосфор оч_высск, Низкая
Рисунок 2 - Фрагмент транзакционной БД, сформированной на основе ведомости агрохимического
обследования почв [3]
ассоциативного анализа при моделировании урожайности является обнаружение подмножеств элементов, в которых встречаются вместе классы урожайности (высокая, средняя, низкая) и значения агрохимических показателей. Например, такое подмножество может иметь вид:
\Среднекпс.1ая1Лзот_оу_н1вкКалип_оч высок, Низкая].
Данное подмножество предполагает, что совместно со средней кислотностью, очень низким содержанием азота и очень высоким содержанием калия наблюдается низкая урожайность.
В общем виде, АП записывается как А ->В (читается «из А следует В), где А - условие, а В - следствие. Очевидно, что АП может считаться не любая ассоциация условия и следствия, а только та, в которой связь между ними достаточно сильна. Количественной мерой силы такой связи является поддержка 5. При этом, следует различать поддержку подмножества и поддержку порожденной им ассоциации. Поддержка подмножества определяется как 8=ММ , где М - число транзакций, содержащих данное подмножество, N - общее число транзакций. Если поддержка подмножества превышает некоторый порог БтП, то такое множество называется частым.
Поддержка ассоциации определяется как S=N(A>BfN , т.е. отношение числа транзакций, в которых встречается как условие, так и следствие, к общему числу транзакций. В качестве АП рассматриваются ассоциации, для которых поддержка превышает заданный порог 5тПп. Поскольку поддержка подмножества не может быть больше, чем наименьшая поддержка его отдельного элемента (свойство антимонотонности), искать АП имеет смысл только среди частых подмножеств. Поэтому обнаружение частых подмножеств элементов в транзакционной БД является начальным этапом работы алгоритмов ассоциативного анализа.
Высокая поддержка правила еще не гарантирует его высокой значимости с точки зрения логики анализа. Даже если условие и следствие в 50% транзакций встречаются вместе, ничто не мешает им в остальных 50% транзакций встречаться по отдельности, что в определенной степени снижает достоверность предположения, что появление условия в любой новой транзакции влечет появление следствия. Поэтому, для определения значимости АП используется дополнительный показатель, равный отношению поддержки ассоциации в целом к поддержке только условия, т.е. C=S(A->B)/S(A). Данный показатель называется достоверностью, и он тем ниже, чем чаще условие и следствие встречаются по отдельности. Обычно АП считается значимым только если оно имеет достаточно высокие значения как поддержки, так и достоверности.
На основе частого подмножества может быть сформировано несколько ассоциаций, где содержащиеся в нем элементы в различных комбинаци-
ях используются в качестве условия и следствия. Но, исходя из логики задачи, нас будут интересовать только ассоциации, в которых следствием является урожайность, т.е.:
Среднекнслая,Азот_оч_швкКалнй_оч_еысок -» Низкая]
{Азот_оч_нтк, Кал нй оч высок Низкая)
Для ассоциаций вычисляется поддержка и достоверность, и те из них, для которых данные показатели превышают заданный порог, считаются правилами. Например, если будет обнаружено правило
{Азот оч ннзк —> Низкая)
с достоверностью 100%, это означает, что все ассоциации, где условием является очень низкое содержание азота, имеют следствием низкую урожайность. Из этого можно будет сделать вывод, что основной причиной низкой урожайности является очень низкое содержание азота в почве.
Первым этапом поиска АП является обнаружение частых подмножеств. Главной задачей аналитика при этом является выбор верхней и нижней границ поддержки и достоверности частых подмножеств и правил, обнаруженных алгоритмом. Данный выбор весьма противоречив. Действительно, если диапазон допустимой поддержки и достоверности ничем не ограничить, то алгоритм обнаружит все возможные ассоциации и правила. Их будет огромное количество, а большинство из них будут редкими и малозначительными, либо, напротив, очень частыми и совершенно очевидными. Поэтому на практике ограничивают поддержку и достоверность правил снизу, чтобы отсечь редкие и малозначимые, а также сверху, чтобы отсечь очевидные. Начнем процесс поиска АП, не ограничивая диапазон минимальной и максимальной поддержки и достоверности, дав возможность алгоритму построить все подмножества.
В результате было сформировано 475 частых подмножеств, а на их основе - 4198 правил. Например, подмножество {Низкая, Среднекислая}, имеющее поддержку 0,3214, означает, что сочетание средней кислотности почвы и низкой урожайности встречается в 18 из 56 транзакций. Но что является причиной и следствием - средняя кислотность почв следствием низкой урожайности, или наоборот, мы можем заключить только исходя из логики задачи. Но можно сделать заключение, что в трети случаев низкая урожайность и средняя кислотность почв наблюдаются вместе.
Ассоциативные модели. Для АП нельзя указать выходные и входные переменные, а только условия и следствия, комбинации которых отражают ситуации, возникающие в некоторых процес-
сах. При этом одни и те же элементы многократно появляются в АП и в качестве условия, и в качестве следствия. Выходом систем поиска АП являются показатели значимости обнаруженных ассоциаций - поддержка и достоверность. На основе этих показателей аналитик принимает решение о том, стоит ли руководствоваться данным правилом в практической деятельности.
Однако если система АП не предполагает наличия входа и выхода, то аналитические задачи, решаемые с ее помощью, могут предполагать наличие входных и выходных переменных. Поскольку в задаче моделирования урожайности выходом является урожайность, предсказываемая на основе агрохимических показателей как число или класс, то в АП нас будут интересовать только правила,
содержащие в следствии урожайность (точнее, определенное состояние ее переменной). Таким образом, можно перейти от системы АП к ассоциативной модели, для которой определяются входные и выходные переменные, устанавливаются и объясняются зависимости на основе обобщения большого числа прецедентов (транзакций).
Такая ассоциативно-аналитическая модель состоит из двух частей: генератора правил, где реализуется какой-либо алгоритм поиска АП (например, Арпоп), который формирует ассоциации и оценивает их значимость на основе поддержки и достоверности, и подсистемы отбора правил, где определяются входные и выходные переменные, характер зависимости между ними. Структура ассоциативной модели представлена на рисунке 3.
Рис.3 - Ассоциативная модель
В подсистеме отбора отбираются правила, которые, во-первых, содержат в следствии интересующую (выходную) переменную и, во-вторых, соответствуют определенным критериям (минимальной поддержке, достоверности, актуальности).
Актуальность ассоциативных правил. На
практике, в задачах поиска АП приходится иметь дело с десятками тысяч транзакций, когда априорные сведения о частоте появления событий отсутствуют. Поэтому для таких случаев нужна мера оценки значимости правила с точки зрения логики решаемой задачи, независимая от частоты появления следствия в транзакциях.
Очевидно, что такая мера должна компенсировать снижение поддержки правила из-за низкой частоты появления следствия, являющегося выходным в ассоциативной модели. В качестве такой меры может представлять интерес введение нового показателя - актуальность правила, которую будем обозначать буквой R (от англ. relevance - актуальность, уместность, обоснованность).
Определим ее как отношение частоты появления условия и следствия-выхода (т.е. поддержки ассоциации в целом S(A->Bвых) к частоте появления только следствия-выхода 3(Веы^:
R=S(A->B )/Б(В ).
» еых » еых/
Таким образом, актуальность правила - это безразмерная величина, которая изменяется в диапазоне от 0 до 1. При этом, чем выше актуальность, тем выше потенциальный интерес правила для аналитика в рамках ассоциативной модели.
Для того чтобы использовать актуальность для обнаружения редких, но практически интересных правил, нужно вычислить ее для каждого правила и отфильтровать правила в порядке убывания поддержки. Очевидно, что вместе с поддержкой будет убывать и актуальность, но только до тех пор, пока в очередном правиле не появится следствие с более низкой поддержкой по базе транзакций в целом (рисунок 4). Это приведет к «всплеску» актуальности, что позволит обнаруживать появление следствий с низкой поддержкой.
На рисунке 4 видно, что как только следствие
меняет значение на менее частое (например с «низкая» на «средняя»), то благодаря тому, что величина в знаменателе выражения для актуальности уменьшается, актуальность увеличивается, а затем продолжает уменьшаться вместе с поддержкой до появления нового следствия с мень-
шей частотой появления. Например, если установить порог актуальности 0,6, то будут обнаружены правила, представленные на рисунке 5. N - число транзакций, в которых содержится условие и следствие.
В то же время, если бы поиск правил произ-
Рис.4 - Графики актуальности и поддержки
NE Условие Следствие S А/ R
37 АЗСТ_ОЧ_!-МЗК Низкая 51,79 29 0,96
162 Среднекислая Низкая 32,14 1S 0.60
19 Д;от_низк Средняя 23,21 13 0,72
171 Слабокислая Средняя 21,43 12 0,67
194 Фосфор_высок Средняя 19,64 11 0,61
85 Фосфор_рЧ_ЭЫГОК Высокая 12,50 7 0,89
76 Калий_высйк Высокая 10,71 6 0,76
363 Калий_высок И Фосфор_оч_высок Высокая 3,93 5 0,63
82 Слабокислая Высокая 8,93 5 0,63
Рис. 5 - Правила, обнаруженные для уровня актуальности R =0,6
водился только по минимальной поддержке, значение которой, как правило, задают достаточно высоким (более 50%), не было бы обнаружено ни одного правила с урожайностью в качестве следствия.
Анализ «что-если» для ассоциативных правил. Практическое использование ассоциативной модели возможно двумя способами - в режиме исследования и в режиме предсказания. В режиме исследования аналитик подает на вход модели различные комбинации значений элементов в условии, исследуя, как поведет себя значение в следствии. Таким образом, например, можно выяснить, как будет вести себя урожайность при изменении агрохимических показателей и на основе полученных зависимостей выработать рекомендации по рациональному использованию удобрений, средств защиты растений, орошения и т.д. Для этого аналитик выбирает значения признаков и вводит их в условие. При этом модель «подбирает» к заданному условию следствие, в соответствии с правилом, имеющим наибольшую поддержку. В режиме предсказания на вход подается набор значений входных признаков, зафиксированных в строке ведомости агрохимического
обследования, и модель формирует на выходе значение урожайности в соответствии с правилом, имеющим наибольшую поддержку.
Рассмотрим реализацию анализа «что-если» для ассоциативной модели на примере платформы Deductor [5]. Вид соответствующего окна программы представлен на рисунке 6. Определим ожидаемый класс урожайности полей, для которых урожайность неизвестна, но получены агрохимические показатели в виде элементов транзакции:
■¡Слабокислая. Аэои i _ оч husk. Кал пii высок. Фосфор_ высок}
В левой части рисунка 6 представлен список всех элементов, встречающихся в БД транзакций. Нужно последовательно переместить соответствующие элементы списка в поле «Условие», после чего модель сформирует правила, у которых в следствии будут значения урожайности. Затем для каждого из них вычисляется поддержка и достоверность, на основании которых пользователь принимает решение, какое правило более значимо. На рис. 6 видно, что S =51,8%, S „ =21,4%,
низк среон
a SebicoK=10,7%, что позволяет сделать вывод о том, что наиболее значимым является правило:
{Слабокислая. Азот _ov _низк.Калин_высок.Фосфор_высок} —> {Низкая] ,
т.е. прогнозируемая урожайность для поля с соответствующими агрохимическими характеристиками является низкой.
Учитывая, что изначально значения урожайности появляются в исходной транзакционной БД с различной частотой, вычислим актуальность правил:
где в знаменателе - общая поддержка соответствующего уровня урожайности по всем транзакциям.
Таким образом, даже с поправкой на дисбаланс появления классов урожайности в транзакционной БД,
предпочтение следует отдать правилу со следствием «Низкая», как имеющему наибольшую актуальность. Аналогичным образом можно предсказывать урожайность для любых новых транзакций. Предложенная модель расширяет класс и подходы к решению задач современными методами Data Mining [6-8].
Основные выводы
1. Метод моделирования на основе ассоциативных правил позволил получить простую в понимании и интерпретации модель, позволяющую оценивать ожидаемый уровень урожайности и исследовать зависимость потенциальной урожайности от агрохимических свойств почвы.
2. Использование нового показателя актуальности ассоциативных правил, который предложен в работе, позволяет обнаруживать интересные
Элемент Поддержка, % +53 Условие
Азот нм . 32,14 Элемент Псддермг. %
Азот оч... 5179 | Азот оч низк 51.73
Азот_ср... 16,07 Калий высок 39,25
Высокая 14,29 Слабокислая 50,00
Калий_в... 39,29 Фосфор высок 46.43
Калий о.,. 8,33
Калий_л... 32,14
19,64
Нейтрал... 7,14 Ш - V о
Низкая 53,57 Количество правил: 30
Слабоки.,. 50,00 +Í3 Следствие Поддержка Достоверность, %
Среднее 1,79 № I X
Среднек... 33,93 Низкая г% 51,30 100,00 !■
Средняя 32,14 Средняя 12 21,40 42.90 ■ I
Фосфор... 46,43 Высокая 6 10,70 27.30 ■ I
Фосфор... 26,79
Фосфор... 8,93
Фосфор... 16,07
Щелочная 7,14
Рис. 6 - Анализ «Что-если» для ассоциативной модели
правила, даже если они имеют низкую поддержку.
3. Разработанная модель может быть практически использована для моделирования урожайности зерновых культур на основе данных агрохимического анализа почв с целью оптимизации севооборота, а также повышения эффективности и снижения себестоимости агрохимических мероприятий, направленных на повышение урожайности.
4. Проведенные исследования направлены на совершенствование одного из основных этапов технологии точного земледелия и позволяют сократить затраты на внесение удобрений, средства защиты растений и семена в среднем на 30% при повышении урожайности на 10%.
Установлено, что результаты моделирования урожайности, полученные при помощи ассоциативного анализа, соответствуют теории растениеводства, что говорит о значимости и практической полезности предложенной методики исследования.
Библиографический список
1. Васильев Е.П., Орешков В.И. Моделирование урожайности зерновых с использованием метода совокупности доказательств в рамках концепции точного земледелия // Современные проблемы науки и образования. - 2012. - № 5; URL: http://www.science-education.ru/105-6972 (дата об-
ращения: 10.09.2012).
2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+CD). Изд. 2-е, переработанное и дополненное. - СПб.: Питер, 2010.- 700 с.
3. Евстропов, А.С. Системы управления и производством сельскохозяйственной продукции на основе информационно-иновационных технологий (монография) / А.С. Евстропов, В.А. Артамонов. - Рязань: ГНУ ВНИМС, 2009. - 196 с.
4. Смирнов П. М., Муравин Э. А. Агрохимия. -3-е изд., перераб. и доп. -М.: Агропромиздат, 1991.-288 с.
5. Васильев Е.П., Орешков В.И. Современные аналитические платформы для задач АПК // Вестник Рязанского гос. агротехнологического университета имени П.А. Костычева. Рязань: РГАТУ — 2011. — № 1. — С.68-75.
6. Mucherino, A. Data Mining in Agriculture. - Springer Science+Business Media / A. Mucherino,
P. M. Papajorgji, P. M. Pardalos - LLC 2009. - 271 p.
7. Fayyad, M. Advances in Knowledge Discovery and Data Mining. Edited by Usama / M. Fayyad, Gregory Piatetsky-Shapiro. - MIT Press, 1996. - 655 p.
8. Rub, G. Data Mining in Precision Agriculture: Management of Spatial Information / Rub, G., Brenning, A. // IPMU 2010, LNAI 6178. - Springer-Verlag Berlin Heidelberg 2010. - P. 350-359.