УДК 330.342
doi:10.18720/SPBPU/2/id23-479
Нгуен Тхи Тху Зунг \
аспирант;
л
Черненькая Людмила Васильевна ,
профессор, д-р техн. наук, профессор;
Лэ Ван Хуен , аспирант
МОДЕЛИ ДЛЯ АНАЛИЗА ФАКТОРОВ, ВЛИЯЮЩИХ НА РАЗВИТИЕ ЭКОНОМИКИ
12 3
' ' Россия, Санкт-Петербург, Санкт-Петербургский политехнический
университет Петра Великого,
1 2
[email protected], [email protected],
-5
huyenlevan120193 @gmail.com
Аннотация. В последние годы для анализа различных сфер деятельности, включая экономику, образование, политику, здравоохранение и т. д. применяют модели многомерного статистического анализа, используя такие методы, как корреляционно-регрессионный анализ, факторный анализ, кластерный анализ, метод главных компонент и т. д., одним из методов, который считается наиболее популярным, является метод кластерного анализа. Однако во Вьетнаме применение этих методов и, в частности, метода кластерного анализа для оценки социально-экономических факторов еще ограничено. Следовательно, цель исследования — создание модели классификации социально-экономических систем по целому набору критериев на основе математического метода ^-средних. Предлагается с помощью метода статистики разрывов найти количество наиболее подходящих классов с использованием языка программирования Python. В данной работе проанализировано применение метода кластерного анализа на основе экспериментальных данных, составленных Главным статистическим управлением Вьетнама, описательных данных по 143 социально-экономическим показателям 63 регионов Вьетнама в 2019 году. Результаты исследования заключаются в применении разработанной модели кластерного анализа, позволяющей классифицировать 63 социально-экономических системы на 3 кластера. Результаты используются при оценке социально-экономических систем районов Вьетнама.
Ключевые слова: математические методы, многомерная статистика, подготовка данных, метод кластерного анализа, метод ^-средних, статистика разрывов, классификация социально-экономических систем, анализ экономики, экономика Вьетнама.
Nguyen Thi Thu Dung 1,
PhD Student of the Institute for Computer sciences and Technologies;
л
Liudmila V. Chernenkaya ,
Doctor of Technical Sciences, Professor of the Institute for
Computer sciences and Technologies;
Le Van Huyen 3,
PhD Student of the Institute for Computer sciences and Technologies
MODELS FOR FACTOR ANALYSIS,
INFLUENCING THE DEVELOPMENT OF THE ECONOMY
12 3
' ' Peter the Great St. Petersburg Polytechnic University,
St. Petersburg, Russia,
1 2
[email protected], [email protected], 3 [email protected]
Abstract. In recent years, for the analysis of general practice, including economics, education, politics, health, etc. multivariate statistical analysis models such as correlation and regression analysis, factor analysis, cluster analysis, principal components, etc. have been applied, one of the methods that is considered the most popular is the cluster analysis method. However, in Vietnam, the application of these methods and in particular the cluster analysis method for socio-economic assessment is still limited. Therefore, the purpose of the study is to create a model for classifying socio-economic systems according to a whole set of criteria based on the mathematical method of &-means using the method of gap statistics to find the number of the most suitable classes using the Python programming language. This research analyzes the application of the cluster analysis method based on experimental data compiled by the General Statistics Office of Vietnam, descriptive data on 143 socio-economic indicators of 63 regions of Vietnam in 2019. The results of the work are to apply the developed model of cluster analysis classifies 63 socio-economic systems into 3 clusters. The results are introduced into the assessment of the socio-economic systems of Vietnam's provinces.
Keywords: mathematical methods, multivariate statistics, data preprocessing, cluster analysis method, k-means, gap statistics, classification of socio-economic systems, economic analysis, economy of Vietnam.
Введение
В данном исследовании классификация социально-экономических регионов проводится по процедурам, представленным на рисунке 1 [1-3].
Цель исследования состоит в создании модели классификации социально-экономических систем по целому набору критериев на основе математического метода ^-средних с помощью метода статистики разрывов, позволяющего найти количество наиболее подходящих классов с использованием языка программирования Python [4-9]. Проведен анализ возможности применения метода кластерного анализа для обработки
экспериментальных данных, доступ к которым был предоставлен Главным статистическим управлением Вьетнама.
В ходе исследования необходимо решить следующие задачи:
• сбор данных по социально-экономическим показателям 63 районов Вьетнама;
• предварительная обработка данных;
• реализация анализа к-средних с помощью статистики разрывов;
• анализ полученных результатов и последующее внедрение. Модель классификации социально-экономических систем 63 районов Вьетнама представлена на рисунке 1.
Рис. 1. Модель классификации социально-экономических систем
63 районов Вьетнама
1. Сбор данных по социально-экономическим показателям 63-х районов Вьетнама
В этом исследовании используются практические данные, предоставленные Главным статистическим управлением Вьетнама. Данные составлены по 143 социально-экономическим показателям 63 регионов Вьетнама в 2019 году [10-12]. Данные были сгруппированы по 20 ключевым факторам:
1. Территория и население
2. Труд, занятость и гендерное равенство
3. Предприятия, хозяйственные учреждения, административные и некоммерческие
4. Инвестиции и строительство
5. Национальный счет
6. Общественные финансы
7. Страхование
8. Сельское, лесное и рыбное хозяйство
9. Промышленность
10. Торговля, услуги
11. Статистика цен
12. Транспорт
13. Информационные и коммуникационные технологии
14. Наука и технология
15. Образование
16. Здоровье и благополучие
17. Культура, спорт и туризм
18. Жилые стандарты жизни
19. Социальный порядок, безопасность и справедливость
20. Защита окружающей среды
2. Предварительная обработка данных
Качество данных является первостепенной задачей при проведении анализа. На практике качество итоговых моделей намного больше зависит от качества подготовленных данных, чем от выбора самой модели и её оптимизации. Для каждой задачи предварительной обработки данных существует множество решений [13]. В данном исследовании выбраны наиболее подходящие методы, составляющие коэффициент корреляции для поиска избыточных атрибутов; проведена нормализация г-оценки для нормализации данных; очистка данных; вменение с использованием наиболее частых значений (рис. 2).
Рис. 2. Процесс подготовки данных
3. Реализация анализа Л-средних с помощью статистики разрывов
Оценка надлежащего количества кластеров является важной проблемой при выборе метода кластеризации, а также при проверке полученных результатов. Именно поэтому при использовании метода к-средних важно сначала провести проверку подходящего числа кластеров для данного набора данных [4, 5, 9]. Алгоритма реализации метода к-средних показан на рисунке 3.
Рис. 3. Алгоритм метода к-средних
Для определения оптимальных кластеров разработана методика и проведено моделирование. Исследование показывает, что результаты, полученные методом статистики разрывов, обычно превосходят другие предложенные методы. Вычисление по методу статистики разрывов включает следующие шаги (рис. 4).
Рис. 4. Алгоритм метода статистики разрывов
4. Анализ результатов
На рисунке 5 приведены результаты расчета для эталонных данных и для целевых данных от к = 1 до к_тах = 20. Для наблюдаемых и эталонных данных общая внутрикластерная вариация вычисляется с использованием различных значений к. Статистика разрывов для данного к от 1 до 20 показана на рисунке 5.
Разработанная программа автоматически выберет наименьшее значение к, удовлетворяющее формуле:
Оар ( к ) > Оар ( к +1) - ,
'к+1
Рис. 5. Результаты логарифмического расчета и статистики разрыва
для данного к от 1 до 20
Анализ результатов, представленных на рисунке 5, показал, что значение к = 3 является наименьшим значением, удовлетворяющим уравнению.
Оценивание и внедрение результатов
Разработанная методика была использована при оценке социально-экономических систем 63 районов Вьетнама. Результаты кластеризации
представлены в таблице 1.
Таблица 1
_ Результаты кластеризации 63 районов Вьетнама_
Кластеры Объекты
кластер 1 25 районов Nam Dinh, Ha Giang, Cao Bang, Bac Kan, Tuyen Quang, Lao Cai, Yen Bai, Lang Son, Phu Tho, Dien Bien, Lai Chau, Son La, Hoa Binh, Thanh Hoa, Nghe An, Quang Binh, Quang Tri, Hue, Phu Yen, Kon Tum, Gia Lai, Dak Lak, Lam Dong, Dong Nai, Hau Giang
кластер 2 16 районов Thai Binh, Quang Ngai, Binh Dinh, Ninh Thuan, Binh Thuan, Tien Giang, Ben tre, Tra Vinh, Vinh Long, Dong Thap, An Giang, Kien Giang, Can Tho, Soc Trang, Bac Lieu, Ca Mau
кластер 3 22 района Hanoi, Vinh Phuc, Bac Ninh, Quang Ninh, Hai Duong, Hai Phong, hung Yen, Ha Nam, Ninh Binh, Thai Nguyen, Bac Giang, Ha Tinh, Da nang, Quang Nam, Khanh Hoa, Dak Nong, Binh Phuoc, Tay Ninh, Binh Duong, BA Ria Vung Tau, TP Ho Chi Minh, Long An.
Результаты кластеризации получены при к = 3.
Заключение
В данной работе проанализировано применение метода к-средних. Показано, что с помощью метода статистики разрывов можно классифицировать социально-экономические системы районов на кластеры с наиболее подходящим количеством классов. Для решения поставленной задачи было разработано программное обеспечение с использованием языка программирования Python. Для подготовки данных выбраны наиболее подходящие методы: определение коэффициента корреляции для поиска избыточных атрибутов; нормализация z-оценки для нормализации данных; очистка данных; вменение с использованием наиболее частых значений. Результаты работы заключаются в применении разработанной модели кластерного анализа, позволяющей классифицировать 63 социально-экономических системных на 3 кластера. Разработанная методика внедрена при оценке социально-экономических систем районов Вьетнама.
Список литературы
1. Волкова ВН., Горелова Г.В., Козлов ВН., Лыпарь Ю.И., Паклин Н.Б., Фир-сов А.Н., Черненькая Л.В. Моделирование систем. Подходы и методы: учеб. пособ. / Под ред. В.Н. Волковой. - СПб.: Изд-во Политехи. ун-та, 2013. - 567 с.
2. Волкова В.Н., Козлов В.Н., Магер В.Е., Черненькая Л.В. Классификация методов и моделей в системном анализе // В сб. науч. трудов Междунар. конференции по мягким вычислениям и измерениям. - СПбПУ: СПбГЭУ «ЛЭТИ», 2017. - Т. 1. -С. 223 - 226.
3. Шалымов Д.С. Алгоритмы устойчивой кластеризации на основе индексных функций и функций устойчивости. // Интеллектуальные подсистемы САПР. М.: МГТУ им. Н.Э.Баумана. - 2008. - С. 236- 248.
4. Фролов В.В., Слипченко С.Е., Приходько О.Ю. / Frolov V.V., Slipchenko S.E., Prikhodko O.Yu. Метод расчета числа кластеров для алгоритма k-means // Экономика. Информатика. - 2020. - Том 47, № 1. - С. 213-226.
5. Лях Ю.Е., Гурьянов В.Г., Горшков О.Г., Выхованец Ю.Г. Использование contrast-статистики при кластеризации результатов методом построения самоорганизующихся карт // Журнал телемедицинита медичной телематики. - 2009. - Том 7, № 2. - С.149-153.
6. Amira M. El-Mandouh, Hamdi A. Mahmoud, Laila A. Abd-Elmegid, Mohamed H. Haggag. Optimized K-Means Clustering Model based on Gap Statistic // International Journal of Advanced Computer Science and Applications. - 2019. - Vol. 10, No. 1.-Pp. 183-188.
7. Robert Tibshirani,Guenther Walther, Trevor Hastie. Estimating the number of clusters in a data set via the gap statistic // Journal of the Royal Statistics Society. - 2001. -Part 2. - Pp. 411-423.
8. Mohajer Mojgan, Englmeier Karl-Hans, Schmid Volker J. A comparison of Gap statistic definitions with and with-out logarithm function // Technical Report. - 2010. -№ 96.
9. Chunhui Yuan, Haitao Yang. Research on K-Value Selection Method of K-Means Clustering Algorithm // Multidisciplinary Scientific Journal. - 2019. - Pp. 226-235.
10. Нгуен Тхи Т.З., Черненькая Л.В. Модель для анализа развития экономики района Тхай-Бинг (Вьетнам) на основе математических методов многомерной статистики // Системный анализ в проектировании и управлении: сборник научных трудов XXIV Международной научной и учебно-практической конференции. - 2020. -С. 497-505.
11. Нгуен Т.Т.З., Черненькая Л.В. Системный анализ в управлении развитием территориальных комплексов Вьетнама // Системный анализ в проектировании и управлении: сборник научных трудов XXV Международной научной и учебно-практической конференции. - Санкт-Петербург: Политех-Пресс, 2021. - С. 346-352.
12. Нгуен Т.Т.З. Модели для анализа развития экономики нескольких районов Вьетнама на основе математических методов многомерной статистики // Импульс организационных инноваций: Сборник конкурсных работ 1 межвузовского конкурса студентов, магистрантов и аспирантов. - М. : Общество с ограниченной ответственностью «Русайнс», 2020. - С. 301-324. - EDN VCUSXS.
13. García6 Salvador, Luengo Julián, Herrera Francisco. Data Preprocessing in Data Mining / Intelligent Systems Reference Library. Springer, 2015. - Vol. 72.