Научная статья на тему 'Кластерный анализ в сельском хозяйстве'

Кластерный анализ в сельском хозяйстве Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
921
169
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / CLUSTER ANALYSIS / ЭКОНОМИКА / ECONOMICS / МЕТОДЫ ГРУППИРОВКИ / GROUPING METHODS / КЛАССИФИКАЦИИ / CLASSIFICATIONS / КЛАСТЕРИЗАЦИЯ / CLUSTERING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мулянова Юлия Николаевна, Косников Сергей Николаевич

Существует огромное количество различных анализов, которые позволяют выявить недостатки в экономике, финансовой деятельности, в целом по предприятию, а также оптимизировать и повысить производительность. Одним из таких анализов является кластерный анализ, который будет обсуждаться в этой статье. Благодаря этому анализу мы можем группировать различные объекты, области деятельности по некоторым общим характеристикам или критериям и анализировать каждую группу отдельно, что позволяет провести более подробный анализ. Кластерный анализ является одним из методов многомерной статистики, который наиболее четко отражает многомерность в процедуре классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Кластерный анализ в сельском хозяйстве»

МАТЕМАТИЧЕСКИЕ И ИНСТРУМЕНТАЛЬНЫЕ МЕТОДЫ _ЭКОНОМИКИ_

CLUSTER ANALYSIS IN AGRICULTURE 1 2 Mulyanov Yu.N. , Kosnikov S.N. (Russian Federation)

Email: Mulyanov237@scientifictext.ru

1Mulyanova Yuliya Nikolaevna - Student, SPECIALTY: BUSINESS INFORMATICS;

2Kosnikov Sergey Nikolaevich - Candidate of Economic Sciences, Associate Professor, DEPARTMENT OF ECONOMIC CYBERNETICS, FACULTY OF APPLIED INFORMATICS, KUBAN STATE AGRARIAN UNIVERSITY, KRASNODAR

Abstract: there is a huge number of different analyzes that allow us to identify shortcomings in the economy, financial activities, the enterprise as a whole, and further optimize and improve productivity. One such analysis is the cluster analysis, which will be discussed in this article. Thanks to this analysis, we can group different objects, areas of activity by some common characteristics or criteria and analyze each group separately, which allows for more detailed analysis. Cluster analysis is one of the methods of multivariate statistics that most clearly reflects the multidimensionality in the classification procedure. Keywords: cluster analysis, economics, grouping methods, classifications, clustering.

КЛАСТЕРНЫЙ АНАЛИЗ В СЕЛЬСКОМ ХОЗЯЙСТВЕ 12 Мулянова Ю.Н. , Косников С.Н. (Российская Федерация)

1Мулянова Юлия Николаевна - студент, специальность: бизнес-информатика;

2Косников Сергей Николаевич - кандидат экономических наук, доцент, кафедра экономической кибернетики, факультет прикладной информатики, Кубанский государственный аграрный университет, г. Краснодар

Аннотация: существует огромное количество различных анализов, которые позволяют выявить недостатки в экономике, финансовой деятельности, в целом по предприятию, а также оптимизировать и повысить производительность. Одним из таких анализов является кластерный анализ, который будет обсуждаться в этой статье. Благодаря этому анализу мы можем группировать различные объекты, области деятельности по некоторым общим характеристикам или критериям и анализировать каждую группу отдельно, что позволяет провести более подробный анализ. Кластерный анализ является одним из методов многомерной статистики, который наиболее четко отражает многомерность в процедуре классификации. Ключевые слова: кластерный анализ, экономика, методы группировки, классификации, кластеризация.

Кластерный анализ подразумевает собой деление объектов на группы (кластеры), которые являются значимыми и полезными. Если важными являются целые группы, то кластеры должны представлять собой естественную структуру данных. Однако в большинстве случаев кластерный анализ проводится для обобщения данных. Кластерный анализ используется в совершенно разных сферах: психологии, социологии, статистики, медицине, в распознавание образов и поиске информации, а

также в машинном интеллектуальном анализе. В большинстве случаев кластерный анализ проводится для решения практических задач. Кластеризация для понимания классов или концептуально значимых групп объектов, которые имеют общие характеристики, играют важную роль в том, как люди анализируют и описывают мир. Действительно, люди умеют делить объекты на группы (кластеризация) и назначать конкретные объекты этим группам (классификация). Например, даже относительно маленькие дети могут быстро маркировать объекты на фотографии как здания, транспортные средства, люди, животные, растения и т.д. В контексте понимания данных кластеры представляют собой потенциальные классы, а кластерный анализ -это изучение методов автоматического поиска класса.

Примеры использования кластерного анализа:

1. Биология. Биологи провели много лет, создав таксономию (иерархическую классификацию) всех живых существ: королевство, тип, класс, порядок, семью, род и виды. Таким образом, не удивительно, что большая часть ранней работы по кластерному анализу стремилась создать дисциплину математической таксономии, которая могла бы автоматически находить такие структуры классификации. В последнее время биологи применяют кластеризацию для анализа большого количества генетической информации, которая теперь доступна. Например, кластеризация была использована для поиска групп генов, которые имеют сходные функции.

2. Поиск информации. Всемирная паутина состоит из миллиардов веб-страниц, а результаты запроса к поисковой системе могут возвращать тысячи страниц. Кластеризация может использоваться для группировки этих результатов поиска в небольшое количество кластеров, каждый из которых фиксирует конкретный аспект запроса. Например, запрос «movie» может возвращать веб-страницы, сгруппированные по категориям, таким как обзоры, трейлеры, звезды и театры. Каждая категория (кластер) может быть разбита на подкатегории (подкластеры), создавая иерархическую структуру, которая также способствует поиску пользователем результатов запроса.

3. Климат. Понимание климата Земли требует поиска паттернов в атмосфере и океане. С этой целью кластерный анализ был применен для поиска закономерностей атмосферного давления полярных регионов и районов океана, которые оказывают значительное влияние на климат на земле.

4. Психология и медицина. Болезнь или состояние часто имеет ряд вариаций, и кластерный анализ может использоваться для идентификации этих разных подкатегорий. Например, кластеризация использовалась для идентификации различных типов депрессии. Кластерный анализ также может быть использован для обнаружения закономерностей пространственного или временного распределения болезни.

5. Бизнес. Предприятия собирают большое количество информации о текущих и потенциальных клиентах. Кластеризация может использоваться для сегментации клиентов в небольшое количество групп для дополнительного анализа и маркетинговой деятельности.

Кластеризация для анализа кластеров Utility обеспечивает абстрагирование от отдельных объектов данных кластерами, в которых находятся эти объекты данных. Кроме того, некоторые методы кластеризации характеризуют каждый кластер в терминах прототипа кластера; то есть объект данных, который является репрезентативным для других объектов в кластере. Эти прототипы кластера могут использоваться в качестве основы для ряда методов анализа данных или обработки данных. Поэтому в контексте полезности кластерный анализ представляет собой изучение методов поиска наиболее типичных кластерных прототипов.

6. Суммирование. Многие методы анализа данных, такие как регрессия или PCA, имеют сложность времени или пространства O (m2) или выше (где m - количество объектов) и, следовательно, не подходят для больших наборов данных. Однако вместо применения алгоритма ко всему набору данных его можно применить к сокращенному набору данных, состоящему только из кластерных прототипов. В зависимости от типа анализа, количества прототипов и точности, с которой прототипы представляют данные, результаты могут сравниваться с результатами, которые были бы получены, если бы все данные могли быть использованы.

7. Сжатие. Кластерные прототипы также могут использоваться для сжатия данных. В частности, создается таблица, которая состоит из прототипов для каждого кластера; то есть каждому прототипу присваивается целочисленное значение, которое является его позицией (индексом) в таблице. Каждый объект представлен индексом прототипа, связанного с его кластером. Этот тип сжатия известен как векторное квантование и часто применяется к изображениям, звуковым и видеоданным, где многие объекты данных очень похожи друг на друга, допустима некоторая потеря информации и требуется существенное уменьшение размера данных.

8. Эффективный поиск ближайших соседей. Поиск ближайших соседей может потребовать вычисления попарного расстояния между всеми точками. Часто кластеры и их кластерные прототипы можно найти гораздо эффективнее. Если объекты относительно близки к прототипу их кластера, то мы можем использовать прототипы для уменьшения количества вычислений расстояний, необходимых для нахождения ближайших соседей объекта. Интуитивно, если два прототипа кластера находятся далеко друг от друга, то объекты в соответствующих кластерах не могут быть ближайшими соседями друг от друга. Следовательно, чтобы найти ближайших соседей объекта, нужно только вычислить расстояние до объектов в соседних кластерах, где близость двух кластеров измеряется расстоянием между их прототипами.

Кластерный анализ группирует объекты данных, основанные только на информации, найденной в данных, описывающих объекты и их отношения. Цель состоит в том, чтобы объекты внутри группы были одинаковыми (или связанными) друг с другом и отличались от (или не связаны) с объектами в других группах. Чем больше сходство (или однородность) внутри группы и чем больше различие между группами, тем лучше или более отчетливее кластеризация.

На рисунке, предоставленном ниже, видна чёткая кластеризация.

Рис. 1. Кластеризация

Термины сегментации и разбиения иногда используются как синонимы кластеризации, эти термины часто используются для подходов, не относящихся к традиционным границам кластерного анализа. Например, термин «разбиение» часто используется в связи с методами, которые делят графики на подграфы и не сильно связаны с кластеризацией. Сегментация часто относится к разделению данных на группы

с использованием простых методов; например, изображение можно разделить на сегменты, основанные только на интенсивности и цвете пикселя, или людей можно разделить на группы на основе их дохода. Тем не менее, некоторые работы по разбиению графов, а также по имиджу и сегментации рынка связаны с кластерным анализом.

Различают следующие типы кластеризации: иерархическую (вложенную) и разделяемую (unsested), исключающую или перекрывающуюся по сравнению с нечеткой, и полную или частичную.

1. Иерархическая или разделяемая. Групповая кластеризация - это просто разделение набора объектов данных на неперекрывающиеся подмножества (кластеры), так что каждый объект данных находится в одном подмножестве. Взятые индивидуально, каждый набор кластеров на рисунках 1 является разделительной кластеризацией. Если мы разрешаем кластерам иметь подкластеры, тогда мы получаем иерархическую кластеризацию, которая представляет собой набор вложенных кластеров, которые организованы как дерево.

2. Исключающие или перекрывающиеся. Название исключающие получили, поскольку они привязывают каждый объект к одному кластеру. Существует много ситуаций, когда точка может быть разумно размещена в нескольких кластерах, и эти ситуации лучше устраняются неисключающей кластеризацией. В наиболее общем смысле перекрывающаяся или неисключающая кластеризация используется для отражения того факта, что объект может одновременно принадлежать более чем к одной группе (классу). Например, человек в университете может быть как зарегистрированным студентом, так и сотрудником университета. Неисключительная кластеризация также часто используется, когда, например, объект находится «между» двумя или более кластерами и может быть разумно назначен любому из этих кластеров.

3. Полная или частичная. Полная кластеризация присваивает каждому объекту кластер, а частичная кластеризация - нет. Мотивация частичной кластеризации заключается в том, что некоторые объекты в наборе данных могут не принадлежать четко определенным группам. Много раз объекты в наборе данных могут представлять шум, выбросы или «неинтересный фон». Например, некоторые газетные сюжеты могут иметь общую тему, глобальное потепление, в то время как другие рассказы более общие или единственные в своем роде. Таким образом, чтобы найти важные темы в истории за прошлый месяц, мы можем искать только кластеры документов, которые тесно связаны общей темой. В других случаях желательна полная кластеризация объектов. Например, приложение, использующее кластеризацию для организации документов для просмотра, должно гарантировать просмотр всех документов.

Рассмотрим использование кластерного анализа в сельском хозяйстве. Сельское хозяйство считается одной из самых древних сфер на земле. Её состояние ухудшается с такими показателями, как климат, паразиты, болезни почвы и другое. Использование компьютеров, новых методик вычисления для защиты данной сферы является очень эффективным. Новое защищает старое. Основной задачей становится - сбор базы данных о земле.

В данной статье рассмотрим кластерный анализ, как средство совершенствование в управление сельским хозяйством. Прецизионное сельское хозяйство в основном связано с использованием технологий и интеграцией различных технологий с сельским хозяйством. В результате прогресса в области науки и техники стоимость технологии растет с каждым днем. Кроме того, эта технология также внедряется в различные сельскохозяйственные устройства. В результате этой интеграции сельскохозяйственное оборудование нынешнего времени становится более продуктивным, обновляемым и полезным для фермеров. Это также приводит к наводнению информации, генерируемой этими оборудование как датчики роста растений GPS, датчики использования удобрений и спутниковая или аэрофотосъемка высокого разрешения. Эти датчики генерируют пространственные наборы данных. Поэтому необходимо учитывать особые свойства, чтобы справиться с задачи, встречающиеся в прецизионном сельском хозяйстве. Одной из

50

этих задач является разграничение зон управления. Этот процесс обычно требуется до вегетационного периода, когда необходимо измерить доступность различных минералов, таких как калий, фосфор и магний, которые должны быть доступны, что называется базовым оплодотворением, поскольку это может быть жизненно важно для здорового роста культуры. Разграничение зон управления использовалось как метод разделения полей на части с различными свойствами в течение длительного времени. Однако это обычно делалось ранее с использованием экспертных и долгосрочных знаний в соответствующей области. Такие ученные, как Георг Русс, Мартин Шнайдер и Рудольф Крузе разработали двухэтапный процесс.

Первый шаг пространственного разбиения точек данных может быть достигнут путем наложения сетки. Из-за неровностей формы поля и зазоров, а также отверстий в естественной плотности данных, выполнение алгоритма к-средних по координатам точек в наборе данных обеспечивает более гибкое решение начального тесселяции (тесселяция -автоматизированный процесс добавления новых выпуклых многоугольников в полигональную сетку с целью повышения детализации сетки). Верхняя граница параметра к определяется размером самой маленькой зоны, тогда как зоны ниже порога, обеспечиваемого точностью используемого сельскохозяйственного оборудования, не могут управляться. Нижняя граница для параметра к задается гранулярностью конечных зон управления и количеством гетерогенности на поле.

Второй этап повторного слияния двух зон имеет несколько ограничений: во-первых, зоны, которые должны быть объединены, должны быть одинаковыми по своим атрибутам; во-вторых, они должны быть прямыми соседями в географическом пространстве (пространственное ограничение). Вследствие обоих условий было бы гарантировано, что результирующие зоны будут, скорее, однородными, в соответствии с первым условием и смежными, согласно второму условию.

Проведём кластерный анализ по данным сельского хозяйства Кубани, взятых из Росстата. Будем использовать принцип ближайшего соседа.

Таблица 1. Исходные данные

№ п/п 1 2 3 4 5 6

1316 1311,3 1137,9 1391,8 1400,7 1473,7

Х2 0,6 1,1 0,4 0,6 0,6 0,4

Где 1 - 2010, 2 - 2011, 3 - 2012, 4- 2013, 5 - 2014, 6 - 2015 гг.

1. Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:

Рис. 2. Формула евклидова расстояния, где I - признаки; k - количество признаков

р(хиз) = 1/(1316 -1137.9)2+(0.6 - 0,4)2 = 178.1 р(хы) = /{1316-Ш1.8)2+(0.6-0.6}2 = 75.8

Рис. 3. Производимые подсчеты

2. Полученные данные помещаем в таблицу (матрицу расстояний).

№ п/п 1 2 3 4 5 6

1 0 4,727 178,1 75,8 84,7 157,7

2 4,727 0 173,401 80,502 89,401 162,402

3 178,1 173,401 0 253,9 262,8 335,8

4 75,8 80,502 253,9 0 8,9 81,9

5 84,7 89,401 262,8 8,9 0 73

6 157,7 162,402 335,8 81,9 73 0

3. Поиск наименьшего расстояния. Из матрицы расстояний следует, что объекты 1 и 2 наиболее близки Р1;2 = 4.73 и поэтому объединяются в один кластер

Таблица 3. Преобразованная матрица состояний

№ п/п [1] [2] 3 4 5 6

[1] 0 4,727 178,1 75,8 84,7 157,7

[21 4,727 0 173,401 80,502 89,401 162,402

3 178,1 173,401 0 253,9 262,8 335,8

4 75,8 80,502 253,9 0 8,9 81,9

5 84,7 89,401 262,8 8,9 0 73

6 157,7 162,402 335,8 81,9 73 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1 и №2. В результате имеем 5 кластера: Бп,2), Б(з), Б(4), Б^, Б(6). Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки Р4;5 = 8.9 и поэтому объединяются в один кластер.

Таблица 3.1. Преобразованная матрица расстояний

№ п/п 1,2 3 [4] [5] 6

1,2 0 173,401 75,8 84,7 157,7

3 173,401 0 253,9 262,8 335,8

[4] 75,8 253,9 0 8,9 81,9

[5] 84,7 262,8 8,9 0 73

6 157,7 335,8 81,9 73 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №4 и №5. В результате имеем 4 кластера: Бп,2), Б(3), Б(4,5), Б(6). Из матрицы расстояний следует, что объекты 4,5 и 6 наиболее близки Р45;6 =73 и поэтому объединяются в один кластер.

Таблица 3.2. Преобразованная матрица расстояний

№ п/п 1,2 3 4,5 [6]

1,2 0 173,401 75,8 157,7

3 173,401 0 253,9 335,8

4,5 75,8 253,9 0 73

[6] 157,7 335,8 73 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №4,5 и №6. В результате имеем 3 кластера: Бп,2), Б(3), Б(4,5,6). Из матрицы расстояний следует, что объекты 1,2 и 4,5,6 наиболее близки Р1,2;456 = 75.8 и поэтому объединяются в один кластер.

Таблица 3.3. Преобразованная матрица расстояний

№ п/п 1,2 3 4,5,6

1,2 0 173,401 75,8

3 173,401 0 253,9

4,5,6 75,8 253,9 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,2 и №4,5,6. В результате имеем 2 кластера: Брд^зд, Б(3)

Таблица 4. Результаты преобразований

№ п/п 1,2,4,5,6 3

1,2,4,5,6 0 173,401

3 173,401 0

Таким образом, при проведении кластерного анализа по принципу "ближнего соседа" получили два кластера, расстояние между которыми равно Р=173.4

Результаты иерархической классификации объектов представлены на рис. в виде дендрограммы.

Рис. 1. Дендограмма 1 - иерархическая классификация объектов

Были взяты данные посевных площадей основных растениеводческих культур, а именно пшеницы и ржи. Задачей было найти ближайшую общую площадь посева, что с помощью кластерного анализа было выявлено в 173,4 га. Точно таким же образом можно выявить экономические выгоды от продаж тех или иных культур, сравнить финансовое положение от растениеводства и животноводства, проанализировать с помощью вывода данных примерные затраты на предстоящие периоды.

Кластерный анализ помогает предотвратить ненужные затраты и улучшить эффективность производства как в сельскохозяйственной сфере, так и во многих других: банковское дело, менеджмент, точные науки и т.д.

Список литературы /References

1. Мандель Игорь. Кластерный анализ //Финансы и статистика,2014. с. 257.

2. Дюран Б., Оделл П. Кластерный анализ // Статистика, 2011. с. 159.

3. Иванченко Г.И. Математическая статистика // Москва ЛКИ, 2016. с. 200.

4. Кобзарь А. И. Прикладная математическая статистика // ФИЗМАТЛИТ 2015, с. 135.

i Надоели баннеры? Вы всегда можете отключить рекламу.