УДК 330.1
doi:10.18720/SPBPU/2/id20-254
Фам Тхи Ми Зунг1, студент Института компьютерных наук и технологий;
Черненькая Людмила Васильевна ,
д-р техн. наук, профессор, профессор Института компьютерных наук и технологий
КЛАССИФИКАЦИЯ РАЙОНОВ ПО УРОВНЮ БЕЗРАБОТИЦЫ ВО ВЬЕТНАМЕ МЕТОДОМ КЛАСТЕРНОГО АНАЛИЗА
1 2
' Санкт-Петербургский политехнический университет Петра Великого,
Санкт-Петербург, Россия, 12 phammydung200695@gmail.com, ludmila@qmd.spbstu.ru
Аннотация. Безработица является неизбежным явлением, характерным для рыночного капиталистического хозяйства. Для решения задачи мониторинга уровня безработицы во Вьетнаме целесообразно применение математических методов многомерной статистики. Классификация районов по уровню безработицы во Вьетнаме методом кластерного анализа очень важна для социально-экономического развития Вьетнама. Данная разработка позволит принимать решения относительно дальнейших действий с выбором приоритетных направлений развития экономики Вьетнаме.
Ключевые слова: классификация районов, уровень безработицы, метод кластерного анализа, Вьетнам.
Pham Thi My Dung1,
Master Student, Institute of Computer Science and Technology;
Liudmila V. Chernenkaya , Doctor of Technical Sciences, Professor, Professor of Institute of Computer Science and Technology
CLASSIFICATION OF DISTRICTS BY THE UNEMPLOYMENT RATE IN VIETNAM USING THE CLUSTER ANALYSIS
TECHNIQUE
1 2
' Peter the Great St. Petersburg Polytechnic University,
St. Petersburg, Russia, 12 phammydung200695@gmail.com, ludmila@qmd.spbstu.ru
Abstract. Unemployment is an inevitable phenomenon characteristic of a market capitalist economy. To solve the problem of monitoring of the unemployment rate in Vietnam, it is advisable to use mathematical methods of multidimensional statistics.
Classification of districts by the unemployment rate in Vietnam using the cluster analysis technique is very important for the socio-economic development of Vietnam. The development of this task will allow to make decisions regarding further actions with the selection of priority areas for the development of the Vietnam economy.
Keywords: areas classification, unemployment rate, cluster analysis technique, Vietnam.
Введение
Вьетнам - это страна с молодым населением. Однако, в настоящее время темпы роста трудоспособного населения выше, чем темпы естественного прироста всего населения.
В период стабилизации населения темпы общего прироста и прироста трудоспособного населения будут сближаться. Вследствие этого актуальной становится задача разработки планов и политики в области труда и занятости. Поэтому классификация районов по уровню безработицы очень важна для социально-экономического развития Вьетнама.
В работе рассмотрены методы статистического анализа. Метод кластерного анализа разработан в 1939 году исследователем Трионом (Tryon) и является многомерным статистическим методом [1]. Цель метода - разбиения совокупности объектов на однородные группы или кластеры. Основное преимущество метода кластерного анализа в том, что он позволяет проводить разделение объектов не только по одному параметру, но и по полному комплексу признаков. Кроме того, метод позволяет анализировать множество исходных данных фактически произвольной природы и большого объема [2].
Поэтому метод кластерного анализа целесообразно использовать при проведении классификации районов по уровню безработицы во Вьетнаме.
1. Статистические данные для исследования задачи определения уровня безработицы во Вьетнаме
Вьетнам разделяется на следующие районы: район равнинной Красной реки, район равнинной реки Меконг, район северо-запада, южные и северные районы центрального Вьетнама, район юго-востока страны, плато Тэйнгуен.
Статистические данные для исследования задачи определения уровня безработицы для разных возрастных групп населения по районам, городу и деревне во Вьетнаме показаны в таблице 1 [3].
Таблица 1
Статистические данные для исследования уровня безработицы во Вьетнаме
Год, район Уровень безработицы, (%)
2017 всего город деревня
Вьетнам 2,24 3,18 1,78
район равнинной Красной реки 2,20 3,19 1,64
район северо-запада 1,01 2,71 0,68
южные и северный районы центрального Вьетнама 2,54 4,00 1,98
плато Тэйнгуен 1,05 1,98 0,70
район юго-востока страны 2,68 2,83 2,43
район равнинной реки Меконг 2,88 3,63 2,64
2016
Вьетнам 2,30 3,23 1,84
район равнинной Красной реки 2,24 3,23 1,73
район северо-запада 1,17 3,20 0,77
южные и северный районы центрального Ветнама 2,78 4,30 2,17
плато Тэйнгуен 1,24 2,19 0,88
район юго-востока страны 2,46 2,61 2,19
район равнинной реки Меконг 2,89 3,73 2,62
2015
Вьетнам 2,33 3,37 1,82
район равнинной Красной реки 2,42 3,42 1,94
район северо-запада 1,10 3,11 0,72
южные и северный районы центрального Вьетнами 2,71 4,51 2,05
плато Тэйнгуен 1,03 2,27 0,57
район юго-востока страны 2,74 3,05 2,17
район равнинной реки Меконг 2,77 3,22 2,63
2. Математические описания кластерного анализа
Задача кластерного анализа заключается в следующем. Для совокупности п объектов каждый объект характеризуется к признаками. С помощью метода кластерного анализа необходимо разбить эту совокупность на сходные по некоторым признакам группы, которые называются кластерами (таксонами). Кластеризация представляет собой разбиение множества объектов на сходные группы (кластеры).
Для приведения диапазона изменения значений признаков к некоторым требуемым границам выполняется процедура нормирования. Существуют разные способы обработки исходных данных задачи [2]:
x x x x x x z =- z = — z =- z =-
max max mm
где x,a- среднее и среднеквадратическое отклонение x;
xmax, xmin - соответственно наибольшее и наименьшее значение x . Первым этапом решения задачи кластеризации является выбор способа вычислений расстояний между признаками или объектами.
Расстояние (метрика) между объектами в пространстве параметров
dab удовлетворяет следующим условиям:
dab ^ 0; dab = dba ; dab + dbc ^ dac
Мерой близости (сходства) juab имеет предел и возрастает с увеличением близости объектов: !лаЪ непрерывна, pab = Hba ;0 < juab < 1
Процедура кластерного анализа предполагает объединение в группы объектов, наиболее схожих между собой, то есть тех, расстояние между которыми является наименьшим [5].
Пусть Ki - группа (кластер), которая состоит из П объектов.
xi — среднее арифметическое векторного наблюдения Kt группы, т.е. «центр тяжести» i — й группы;
Р(Ki, Kj ) = Pij - расстояние между кластерами Ki и Kj .
Существуют различные способы вычисления расстояния между кластерами:
1) Метод ближнего соседа или метод одиночной связи, когда расстоянием между двумя кластерами является наименьшим:
Лшп(Kг, Kj) = min,, Р(x, x).
2) Метод дальнего соседа или метод полной связи, когда расстояние между кластерами определяется как расстояние между самыми удаленными объектами:
Лпт (Кг, К} ) = П аХ К Р(X , X )•
х,. еК1, х, еК}
3. Алгоритмы решения задачи классификации районов
по уровню безработицы во Вьетнаме методом кластерного анализа
На рисунке 1 показан алгоритм решения задачи классификации районов по уровню безработицы.
Рис. 1. Алгоритмы решения задачи классификации методом кластерного анализа
На первом шаге каждый объект определяется к отдельному классу. На следующем шаге объединяются два самых близких объекта, которые составляют новый кластер, рассчитываются расстояния от этого кластера до всех остальных объектов, размерность матрицы расстояний D уменьшается.
На p-м шаге повторяется та же процедура на матрице D(n-p)(n-p).
4. Классификация районов по уровню безработицы во Вьетнаме методом кластерного анализа с использованием программного обеспечения R-studio
Программное обеспечение (ПО) R-studio позволяет последовательно анализировать несколько наборов данных. Модуль Hierarchical clustering программы R-studio является наиболее подходящим для выполнения задачи классификации [4].
Рассмотрим процедуру решения методом кластерного анализа в системе.
На рисунке 2 представлены данные по уровню безработицы во Вьетнаме: общей, в городе и деревне за три года (2015, 2016 и 2017). Задача состоит в том, чтобы распределить объекты по однородным группам и установить качественные взаимосвязи между группами с близкими значениями показателей.
Районы Всего в 2017 Город 2017 Деревня 2017 Всего 2016 Город 2016 Деревня 2016 Всего 2015 Город 2015 Деревня 2015
район равниной Красной реки 2.2 3.19 1.64 2.24 3.23 1.73 2.42 3.42 1.94
район северо-запада 1.01 2.71 0.68 1.17 3.2 0.77 1.1 3.11 0.72
южные и северный районы центрального 2.54 4 1.58 2.78 4.3 2.17 2.71 4.51 2.05
плато ТэйНгуен 1.05 Ш 0.7 1.24 2.19 0.88 1.03 2.27 0.57
район юго-востока страны 2.68 2.83 2.43 2.46 2.61 2.19 2.74 3.05 2.17
район равниной реки Меконг 2.88 3.63 2.64 2.89 3.73 2.62 2.77 3.22 2.63
Рис. 2. Данные по уровню безработицы во Вьетнаме за 2015, 2016 и 2017 годы
После процедуры нормирования данные выглядят следующим образом (см. рис. 3):
<-
seal e(data_l)
[1.] [2,] [3,]
[5,] [6,]
V2 V3
0.1860799 -0.04558273 -0.4S3807S -1.18713287
> data_l, seal ed
> data_l. seal ed
vl
0.1690456 -1,2678423 0.5795850 -1.2195435 0.7486307 0.9901244 attrСI "scaled : center")
VI V2 V3
2.060000 3.056667 1.678333 2.130000 attr С,"scaled:scale")
VI V2 V3 V4 V5 V6 V7 VS V9
0. 8281787 0.7165380 0.8409618 0.7529675 0.7562275 0. 7538346 0.8334367 0„ 7261313 0.S367556
1.3165155 -1.5025954 -0.3163359 0.8001437
0.35871627 1.16335057 0.89381790 1.14353199
V4 V5
0.1460886 0.02644707 0
-1.2749555 -0.01322353 -1
0.8632511 1.44136524 0
-1.1819900 -1.34S800 50 -1
0.4382659 -0.79341206 0
1.0093398 0.68762378 1
V6
004421836 269067000 5S8104219 123146404 614635237 185052111
V7
0. 3499566 -1.2338470 0.6979135 ■1.317S3S6 0.7339090 0.7699045
V8
0. 21575529 -0.21116475 1.716S6121 -1.36798032 -0.29379443 -0.05967699
V4
V5 V6 V7
3.210000 1.726667 2.128333
V8 V9
!. 263333 1. 680000
V9
0. 3107239 ■1,1472884 0. 4421841 -1. 3265522 0. 5855951 1,1353374
Рис. 3. Нормированные данные
Построим вертикальную древовидную дендрограмму, фрагмент программного кода представлен на рисунке 4.
data l-<-read.delim("tertl.txt"/header-=-F)H
--ЧЛЛЛЛЛЛ/*ЛЛЛЛЛЛЛЛ/1 f /II
data l.scaled<-scale(data
data l.scaledH
-VWWWVWVSA 11
hclust.data l-<--hdust(dist(data 1.scaled),■method'='"complete")H
--WWWWVlWVWAl -WWWWWWV ' I "
ploti hclust.data 1/тат-:=,||Дендрограмма,дел имых-классов 'методом-« пол ных'связей»|г}11
Кллллл- - / »ЛЛЛЛЛЛА 1ЛАЛЛЛЛЛЛКAA^VWWWWW I I I I * 11
abline(h-=-3,-col-='llredll)11
WWWVW* I / I»
cutreeihclust.data lf-h-=-3)l
wwuwwuj — ' '
Рис. 4. Фрагмент программного кода
На рисунке 5 показана дендрограмма, по горизонтальной оси представлены наблюдения, по вертикальной - расстояния объединения. На дендрограмме 1, 2, 3, 4, 5, 6 соответствуют районам равнины Красной реки, южным и северным районам центрального Вьетнама, плато Тэйн-гуен; району юго-востока страны и району равниной реки Меконг.
Рис. 5. Дендрограмма делимых классов методом полных связей
На первом шаге были объединены объекты 2 и 4, как имеющие минимальное расстояние, а на последнем - ранее объединенные в какие-либо кластеры. Далее определяем, сколько этапов следует выполнить, чтобы, исходя из анализа дендрограммы, считать полученную классификацию окончательной. В результате получили число кластеров К = 3. Первый кластер будет состоять из 2 и 4, второй кластер объединяет 1 и 5, третий - 3 и 6. Результаты объединения представлены в таблице 2.
Таблица 2
Объединение классов методом полной связи
Номер класса Кол-во объектов в классе Состав классов
с„ 2 район северо-запада, плато Тэйнгуен
с 12 2 район равнины Красной реки, район юго-востока страны
с ^13 2 южные и северный районы центрального Вьетнама, район равниной реки Меконг
С точки зрения рынка труда первый кластер является наиболее стабильным, экономически активным и производящим больше продукции. В этот класс вошли следующие районы: плато Тэйнгуен, район северо-запада.
Второй кластер с точки зрения рынка труда является относительно стабильным. Этому кластеру принадлежат район равниной Красной реки и район юго-востока страны.
Третий кластер для рынка труда является наименее развитым. В этот кластер вошли следующие районы: южные и северный районы центрального Вьетнама, район равниной реки Меконг.
Опираясь на полученные результаты, можно рекомендовать правительству Вьетнама проводить политику инвестирования в районах 3-го и 2-го кластеров для снижения безработицы, ускорения экономического развития и улучшения качества жизни населения.
Заключение
В данной работе была исследована возможность применения метода кластерного анализа для проведения исследования уровня безработицы во Вьетнаме.
Показано, что задача классификации районов по уровню безработицы во Вьетнаме хорошо решается методом кластерного анализа с применением программного обеспечения "R-studio". Полученные результаты имеют важное значение для развития рынка труда во Вьетнаме.
Список литературы
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.
2. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. С.176-180.
3. Статистические данные для исследования уровня безработицы во Вьетнаме: сайт. URL: https://www.gso.gov.vn/default.aspx?tabid=714 (дата обращения: 13.05.2020).
4. Савельев А.А., Мухарамова С.С., Пилюгин А.Г. Учебно-методическое пособие: Использование языка R для статистической обработки данных. М.-Казань, 2007. 10 с.
5. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 2000. 450 с.