МИРОВАЯ ЭКОНОМИКА
SEGMENTATION OF COUNTRIES OF THE WORLD BY CRITERIA OF EASE OF DOING BUSINESS
USING CLUSTER ANALYSIS METHODS 1 2 Golomidova Yu.K. , Kireev V.S. (Russian Federation)
Email: [email protected]
1Golomidova Yuliya Konstantinovna - Undergraduate, DEPARTMENT OF INDUSTRIAL ECONOMICS AND MANAGEMENT (№ 71); 2Kireev Vasily Sergeevich - PhD in Technical Sciences, Associate Professor, DEPARTMENT OF CYBERNETICS (№ 22), NATIONAL RESEARCH NUCLEAR UNIVERSITY MOSCOW ENGINEERING PHYSICS INSTITUTE, MOSCOW
Abstract: the article presents the results of the segmentation of countries in terms of ease of doing business, published in the Doing Business ranking. For the segmentation the cluster analysis method was chosen, which was implemented using the Rapid Miner Studio software as a tool. Three cluster analysis methods were applied to the initial data: k-means, DBSCAN and EM-algorithm. As a criterion for the quality of the results obtained, we used indicators such as the Davies Bouldin index, the mean intra- and inter-cluster distances. As a result of the research, 208 countries and individual cities were segmented into 5 clusters according to the criteria of ease of doing business, and interpretation of the results was carried out.
Keywords: Rapid Miner, cluster analysis, segmentation, ease of doing business index.
СЕГМЕНТАЦИЯ СТРАН МИРА ПО КРИТЕРИЯМ ПРОСТОТЫ ВЕДЕНИЯ БИЗНЕСА С ИСПОЛЬЗОВАНИЕМ
МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА 12 Голомидова Ю.К. , Киреев В.С. (Российская Федерация)
1Голомидова Юлия Константиновна - магистрант, кафедра экономики и менеджмента в промышленности (№ 71); 2Киреев Василий Сергеевич - кандидат технических наук, доцент, кафедра кибернетики (№ 22),
Национальный исследовательский ядерный университет Московский инженерно-физический институт, г. Москва
Аннотация: в данной статье представлены результаты проведения сегментации стран по показателям легкости ведения бизнеса, опубликованным в рейтинге Doing Business. Для проведения сегментации выбран метод кластерного анализа, который был осуществлен с использованием программного комплекса Rapid Miner Studio, в качестве инструмента. К исходным данным было применено 3 метода кластерного анализа: k-средних, DBSCAN и EM-алгоритм. В качестве критерия качества полученных результатов использовались такие показатели как: индекс Davies Bouldin, среднее внутри- и меж-кластерное расстояния. В результате исследования произведена сегментация 208 стран и отдельных городов на 5 кластеров по критериям простоты ведения бизнеса, а также проведена интерпретация полученных результатов. Ключевые слова: Rapid Miner, кластерный анализ, сегментация, индекс легкости ведения бизнеса.
Введение
Часто для проведения анализа данных аналитику проще из общего массива данных выделить группы схожих объектов и изучить их особенности. Данная задача решается с помощью кластеризации, то есть объединения в группы схожих объектов. Список прикладных областей, где она применяется, широк: сегментация, маркетинг, прогнозирование, анализ текстов и многие другие [3].
Задача кластеризации имеет различные способы решения. Сложность заключается в отсутствии на момент начала анализа какой-либо дополнительной информации о данных. В связи с этим возможное множество решений по мощности сопоставимо с входным множеством, что на практике неприемлемо. Для качественного и быстрого решения задачи кластеризации необходимы методики выбора наилучших решений [4].
В рамках данного исследования будет проведена сегментацию стран в программном комплексе Rapid Miner с помощью кластерного анализа с целью разбиения исходного массива стран на некоторое количество кластеров, каждый из которых объединяет набор стран с определенными характеристиками относительно простоты ведения бизнеса.
Описание исходных данных
Всемирный Банк [2] ежегодно публикует рейтинг Doing Business, отражающий сложность открытия и ведения собственного бизнеса в разных странах мира. В результате все страны ранжируются по уровню благоприятных условий ведения бизнеса, где первое место — наиболее высокое. Высокая позиция страны означает, что открыть и вести бизнес в этой стране быстро, просто и безопасно.
Для данного исследования были взяты данные за 2016 год и отобрано 11 показателей, из которых складывается общий индекс страны:
1. кредит: индекс силы юридических прав (от 0=слабая до 12=сильная);
2. индекс глубины кредитной информации (от 0=низкий до 8=высокий);
3. охват частных кредитных бюро (% взрослых);
4. охват государственного кредитного реестра (% взрослых);
5. количество процедур, необходимых для подключения к электричеству;
6. количество процедур, необходимых для начала бизнеса;
7. количество налоговых платежей;
8. время, необходимое для начала бизнеса (кол-во дней);
9. время подготовки и уплаты налогов (кол-во часов);
10. количество лет, требуемое для признания банкротства;
11. общая ставка налога (% от прибыли).
Проведение сегментации с помощью Rapid Miner Studio
До начала проведения непосредственно кластерного анализа была произведена подготовка данных. В исходном массиве данных имелись пропущенные значения, которые были заменены на нулевые, кроме того была проведена нормализация данных с помощью Z-преобразования. Далее была построена корреляционная матрица для выявления зависимостей между рассматриваемыми критериями и избавления от избыточности. В результате анализа матрицы парных корреляций были выявлены следующие зависимости и принято решение исключить следующие показатели из дальнейшего рассмотрения (таблица 1).
Показатель, который оставляем Показатель, который исключаем Коэффициент корреляции
Время, необходимое для начала бизнеса Количество процедур, необходимых для начала бизнеса 0,66
Индекс глубины кредитной информации Охват частных кредитных бюро 0,62
Индекс глубины кредитной информации Охват государственного кредитного реестра 0,31
Хотя корреляция последней пары показателей не такая большая, переменную «Охват государственного кредитного реестра» тоже исключаем из модели, так как на основании нее рассчитывался Индекс глубины кредитной информации.
Далее к исходным данным было применено 3 метода кластерного анализа: к-средних, DBSCAN и EM-алгоритм. Во всех трех методах в качестве метрики была использована мера квадрата Евклидового расстояния.
Для определения оптимального количества кластеров при применении метода к-средних в качестве критерия были использованы значения индекса Davies Bouldin и среднее внутрикластерное расстояние (таблица 2).
Таблица 2. Значения индекса Davies Bouldin и среднего межкластерного расстояния при применении метода ^средних
К ВоикИи Среднее внутрикластерное расстояние
2 -1,067 -6,916
3 -1,631 -5,687
4 -1,767 -5,085
5 -1,745 -4,723
6 -1,709 -4,497
7 -1,670 -4,169
8 -1,523 -3,928
9 -1,513 -3,653
10 -1,478 -3,456
По данной таблице видно, что с увеличением количества кластеров, на которые происходит разбиение стран до к=4, значение индекса Davies Bouldin увеличивается, а затем плавно начинает уменьшаться, в то время как среднее внутрикластерное расстояние планомерно уменьшается с увеличением к. Здесь нет однозначного ответа, какое количество кластеров будет оптимальным, поэтому перейдем к следующему методу.
После применения алгоритма DBSCAN было получено 5 кластеров с показателем среднего межкластерного расстояния равным -2676,305. Однако при рассмотрении подробных результатов оказалось, что такое большое значение достигается только из-за нулевого кластера (таблица 3), поэтому данный алгоритм для этой задачи не подходит.
До кластера Среднее межкластерное расстояние
0 -3041,123
1 -9,485
2 -3,472
3 -5,920
4 -2,862
Далее при применении EM-алгоритма были получены следующие значения среднего межкластерного расстояния при различных значениях к (таблица 4).
Таблица 4. Значения среднего межкластерного расстояния при применении ЕМ-алгоритма
K Среднее межкластерное расстояние
2 -1888,127
3 -1064,847
4 -956,799
5 -750,622
6 -451,802
7 -475,218
8 -398,180
9 -262,603
По данным результатам тоже нельзя сделать однозначный вывод, но видно, что есть большой разрыв между к=2 и к=3, и далее после к=5 значение среднего межкластерного расстояния начинает убывать все медленнее. Поэтому разобьем имеющиеся страны на 5 кластеров и проинтерпретируем полученный результат. В таблице 5 представлены средние значения по каждому показателю в разрезе полученных кластеров [1].
Номер кластера Индекс юр. прав Глубина кред. инф-ии Подкл. к электрич-ву Налог. платежи Время для начала бизнеса Время подготовки и уплаты налогов Банкротство Общая ставка налога
1 5,971 7,029 4,964 9,037 8,899 172,150 1,879 41,169
2 5,429 3,561 5,144 31,000 17,142 222,664 2,343 38,058
3 4,333 5,083 5,833 31,750 44,542 329,000 2,933 32,658
4 4,250 2,438 5,313 46,313 46,138 550,181 2,681 51,144
5 3,000 3,667 5,583 30,300 64,208 861,833 3,025 44,133
В кластер 1 вошло 70 стран и городов. В данных странах у предприятий уходит минимальное время для подготовки и уплаты налогов, также минимально время для сбора документов для начала открытия бизнеса, само количество платежей также на самом низком уровне, кроме того, время, для подведения электричества к помещениям тоже находится на самом низком уровне. Более того в данной группе стран самый высокий индекс юридических прав и самая доступная кредитная информация. Срок признания банкротства в данных странах самый короткий. В то же время общая ставка налога немного выше среднего значения. Таким образом, можно сделать вывод, что в данном кластере находятся те страны, в которых вести бизнес проще всего, так как это страны с развитой экономикой. В основном это страны Европы, Азии, Северной Америки и некоторые другие.
В кластер 2 вошло 98 стран и городов. В данном кластере находятся страны, у которых значения показателей индекса юридических прав, длительности подключения к электричеству, время для начала открытия бизнеса и уплаты налогов и длительность признания банкротства находятся на втором месте по привлекательности, после значений первого кластера. Также у данных стран общая ставка налога даже ниже, чем в предыдущем кластере. В то же время в этих странах недостаточная глубина кредитной информации и достаточно большое количество налоговых платежей. Таким образом, данные страны находятся на втором месте по простоте ведения бизнеса. Это так же, как и в первом кластере страны с развитой и развивающейся экономикой, также сюда входят индустриальные страны
В кластер 3 вошло 12 стран и городов. В данном кластере самая низкая общая ставка налогов и достаточно высокий индекс глубины кредитной информации. Однако значения остальных показателей недостаточно хороши, поэтому страны из этого кластера стоят на 3-м месте по простоте ведения бизнеса. Это наиболее благополучные из бедных стран, которые расположены в основном в Африке, сюда же входят страны-экспортеры нефти.
В кластер 4 вошло 16 стран и городов. Как видно из таблицы 5, в данных странах самый высокий уровень налогов, что же касается остальных показателей, то их значения немного лучше, чем у последнего кластера, поэтому в данных странах достаточно сложно вести бизнес.
В кластер 5 вошло 12 стран и городов. Данные страны можно назвать самыми неудобными для того, чтобы вести в них бизнес, в них это будет делать сложнее всего, так как значения почти по всем показателям оказались самыми неудовлетворительными. В последние 2 кластера входят страны с отстающей экономикой, в основном это бедные страны Африки.
Заключение
По итогам работы был выявлен оптимальный для данной работы по мнению исследователя алгоритм кластеризации - EM-алгоритм и количество кластеров, которое оказалось равным пяти. Таким образом, было получено 5 кластеров стран, самый первый из которых включает в себя страны, где вести бизнес проще, чем в остальных, а самый последний кластер содержит страны, где будет сложнее всего начинать свое дело. Разбиение стран по таким кластерам находит свое объяснение в степени развитости экономики страны в целом.
Список литературы /References
1. Rapid Miner Studio. [Электронный ресурс]. Режим доступа: http://rapid-i.com/content/view/181/190, свободный/ (дата обращения: 04.07.2017).
2. Группа Всемирного банка. [Электронный ресурс]. Режим доступа: http://russian.doingbusiness.org, свободный/ (дата обращения: 04.07.2017).
3. Ершов К.С., Романова Т.Н. Анализ и классификация алгоритмов кластеризации, 2016. [Электронный ресурс]. Режим доступа: https://elibrary.ru/item.asp?id=2586407 0/ (дата обращения: 04.07.2017).
4. Паклин Н. Алгоритмы кластеризации на службе Data Mining. [Электронный ресурс]. Режим доступа: https://basegroup.ru/community/artides/datamining, свободный/ (дата обращения: 04.07.2017).