Благодарности
В работе использованы экспериментальные данные, полученные на уникальной научной установке «Сферический токамак Глобус-М», входящей в состав ФЦКП «Материаловедение и диагностика в передовых технологиях» (уникальный идентификатор проекта
RFMEFI62119X0021). Коллектив авторов выражает благодарность научному сотруднику ФТИ им. А.Ф. Иоффе Курскиеву Г.С. за подробные консультации по анализу экспериментальных данных.
Список литературы
1. Шафранов В.Д., Бондаренко Б.Д., Гончаров Г.А., Лаврентьев О.А., Сахаров А. Д. К истории исследований по управляемому термоядерному синтезу // Успехи физических наук. 2001. № 8 (171). С. 877-886. URL: https://ufn.ru/ru/articles/2001/8/o/ (дата обращения: 23.04.2020). DOI: 10.3367/UFNr.0171.200108o.0877.
2. Брюс П., Брюс Э. Практическая статистика для специалистов Data Science: 50 важнейших понятий / Пер. с англ. СПб.: БХВ-Петербург, 2018. 303 с.
3. Системный анализ и принятие решений: Словарь-справочник / Под ред. В.Н. Волковой, В.Н. Козлова. М.: Высшая школа, 2004. 616 с.
4. Vega J., Murari A., Gonzalez S. A universal support vector machines based method for automatic event location in waveforms and video-movies: Applications to massive nuclear fusion databases // Review of scientific instruments. 2010. №81.
УДК 330.1
ао1:10.18720/8РБРШМ20-253
Нгуен Тхи Тху Зунг1, студент ИКНТ; Черненькая Людмила Васильевна ,
д-р техн. наук, профессор ИКНТ
МОДЕЛЬ ДЛЯ АНАЛИЗА РАЗВИТИЯ ЭКОНОМИКИ РАЙОНА ТХАЙ-БИНГ (ВЬЕТНАМ) НА ОСНОВЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ МНОГОМЕРНОЙ СТАТИСТИКИ
1 2
' Санкт-Петербургский политехнический университет Петра Великого,
Санкт-Петербург, Россия, 12 thudung.mta.tb@gmail.com, ludmila@qmd.spbstu.ru
Аннотация. В социально-экономических системах широко используются методы многомерной статистики. Для определения факторов экономического развития был проведен сбор сведений о нескольких районах Вьетнама. На основе анализа методов многомерной статистики для решения подставленной задачи были выбраны два метода: метод факторного анализа и метод корреляционно-регрессионного анализа. Разработана модель, включающая методы расчета рейтинга и прогноза развития экономики нескольких районов Вьетнама. Модель реализована с
помощью пакета прикладных программ Matlab. Проведена апробация разработанной модели и анализ результатов. Выявлены факторы, влияющие на социально-экономические характеристики региона.
Ключевые слова: статистика, методы многомерной статистики, факторный анализ, корреляционно-регрессионный анализ, анализ развития экономики.
Nguyen Thi Thu Dung1, Master Student, Institute of Computer Science and Technology;
Liudmila V. Chernenkaya , Doctor of Technical Sciences, Professor, Professor of Institute of Computer Science and Technology
MODEL FOR ANALYSIS OF THE ECONOMIC DEVELOPMENT OF THAI BINH (VIETNAM) ON THE BASIS OF MATHEMATICAL METHODS OF MULTIDIMENSIONAL STATISTICS
1 2
' Peter the Great St. Petersburg Polytechnic University,
St. Petersburg, Russia,
12 thudung.mta.tb@gmail.com, ludmila@qmd.spbstu.ru
Abstract. In socio-economic problems, multidimensional statistical methods are widely used. For the determination of economic development factors, the accumulating of data about several regions of Vietnam has been carried out. Based on the analysis of multidimensional statistical methods, for solving of the stated task two methods were chosen: methods for factor analysis and correlation- regression analysis. The model, that includes methods for calculation of rating and the forecast for economic development of selected regions of Vietnam, has been developed. The simulation was realized with using of the application package Matlab. The developed model is tested, and the analysis of results has been carried out. Factors, that bring impacts on the social-economic characteristics of the region, are determined.
Keywords: statistics, multidimensional statistical methods, factor analysis, correlation and regression analysis, analysis of economic development.
Введение
Каждый район Вьетнама представляет собой целостную социально-экономическую систему, которая характеризуется множеством параметров. Как для анализа любой социально-технической системы [1], так и для анализа развития экономики района целесообразно использовать многомерный статистический анализ - раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематизации и обработки многомерных статистических данных с целью выявления характера и структуры взаимосвязей между компонентами каждого исследуемого многомерного признака.
1. Постановка задачи
Цель исследования заключается в обосновании выбора математических методов многомерной статистики и построении модели анализа экономики района Тхай-бинг (Вьетнам). Статистический анализ многофакторной статистики позволяет перейти от исходной системы, которая характеризуется многими экономическими показателями, к новой модели, которая характеризуется неродственными компонентами или факторами [2, 3]. Метод факторного анализа позволяет уменьшить размерность исходных данных при минимальной потере исходной информации
[4].
Для изучения взаимозависимостей параметров системы использован корреляционно-регрессионный анализ, построено уравнение регрессии, характеризующее зависимость признака от определяющих его факторов [5].
Разработана модель для анализа развития экономики района Тхай-Бинга (Вьетнам), основанная на комбинации двух математических методов многомерной статистики: метода факторного анализа и метода корреляционно-регрессионного анализа.
2. Решение задачи
Для выполнения этих задач в этом исследовании были предприняты следующие шаги:
Шаг 1. Сбор статистических данных для анализа.
Шаг 2. Проведение анализа по методу факторного анализа и методу корреляционно-регрессионного анализа с помощью пакетов прикладных программ Matlab и Statistica.
Шаг 3. Анализ и подтверждение полученных результатов.
На подготовительном этапе практические данные района Тхай-Бинга, включающие 44 под-факторные переменные, принадлежащие 13 факторам, были закодированы. Факторы, которые были рассмотрены для проведения анализа данных, были следующими:
1. Рыночный спрос на продукцию
2. Доступ к материальным и нематериальным ресурсам
3. Доступ к земле и жилью
4. Деловой климат
5. Местные налоги
6. Местные школьные системы
7. Утилиты
8. Экологическая осведомленность
9. Спорт и культура
10. Качество рабочей силы
11. Транспортная инфраструктура
12. Политика правительства в области экономического развития
13. Другие
2.1. Анализ на основе методов факторного анализа
Замечание 1. Для получения при использовании факторного анализа надежных результатов рекомендуется, чтобы размер выборки был в 4-5 раз больше числа исходных переменных[6].
В данном случае размер выборки составлял 1000 опрошенных, поэтому первое требование выполняется.
Command Window
>> lOCtSCh
Matrix correlation coefficient: X =
Columns 1 through 10
1, .0000 0, .7507 0, .3556 0, .2665 0, .3765 0, .3370 0, .4016 0, .4567 0, . 5088 0, .4543
0, .7507 1, .0000 0, .3435 0, .2 689 0, .3947 0, .3437 0, .3777 0, . 4005 0, .4505 0, .4221
0, .3556 0, .3435 1, .0000 0, .2 621 0, .2965 0, .322 5 0, .4257 0, .3577 0, .372 9 0, .3935
0, .2665 0, .2 689 0, .2 621 1, .0000 0, .4162 0, . 6309 0, .4083 0, .43-56 0, .3135 0, . 4033
0. .3769 0. .3947 0. .2965 0. .4162 1. .0000 0. .4537 0. .3539 0. .4359 0. .4665 0. .4174
0. .3370 0. .3437 0. .3225 0. . 6309 ■0. .4537 1. .0000 ■0. .3531 ■0. .4364 0. .3680 0. .4415
0. .4016 0. .3777 0. .4257 0. .4083 ■0. .3539 ■0. .3531 1. .0000 ■0. .3661 0. .3578 0. .3996
0. .4567 0. .4008 0. .3577 0. .4386 ■0. .4359 ■0. .4364 ■0. .3661 1. . 0000 0. .5166 0. . 5017
0, . 5088 0, .4 508 0, .3725 0, .3135 0, .4668 0, .3680 0, .3575 0, .5166 1, . 0000 0, .4364
0, .4543 0, .4221 0, .3535 0, .4033 0, .4174 0, .4418 0, .3556 0, . 5017 0, .4364 1, . 0000
0, .3745 0, .3752 0, .3555 0, .2 560 0, .2555 0, .3510 0, .3418 0, .3677 0, . 4002 0, .3577
0, .4580 0, .4407 0, .4557 0, .3158 0, .3643 0, .4017 0, .482 6 0, .4331 0, .4336 0, .4532
0, .4366 0, .4126 0, .4003 0, .2279 0, .3471 0, .3157 0, .4015 0, .4036 0, .3966 0, .3521
0, .4766 0, .4561 0, .3 550 0, .3135 0, .3757 0, .3515 0, .4500 0, .4325 0, .3514 0, .4306
0, .3443 0, .4364 0, .3755 0, .4235 0, .442 0 0, .4509 0, .3 903 0, . 4003 0, .4049 0, .4199
0. .3332 0. .3554 0. .3529 0. .3530 0. .3515 0. .4081 0. .3712 0. .3 580 0. .3591 0. .3413
0. .2371 0. .2246 0. . 2 640 0. .3084 ■0. .3183 ■0. .3573 ■0. .2145 ■0. .3457 0. .3327 0. .1515
0. .4423 0. .3960 0. .4220 0. .2 561 ■0. .3890 ■0. .3048 ■0. .4352 ■0. .3657 0. .4377 0. .4253
0. . 3 552 0. .4553 0. .3224 0. .2724 ■0. .3 970 ■0. .3200 ■0. .3586 ■0. . 3048 0. .4109 0. . 3780
0, .4072 0, .4303 0, .3582 0, .4038 0, .3556 0, .4152 0, .3751 0, .3827 0, .442 6 0, .3685
Рис. 1. Матрица корреляций
Проверка корреляционных коэффициентов между под-факторами. На рисунке 1 представлена корреляционная матрица, которая отражает попарную корреляцию между возможными парами переменных, включённых в анализ. Проанализировав полученную матрицу, можно сделать вывод, что большинствокорреляционных коэффициентов между под-факторами больше 0.3, что хорошо для анализа.
Замечание 2. Факторный анализ эффективен, если между исходными переменными существует заметная корреляция.
Чтобы убедиться, что это так, осуществляется проверка по критерию выборочной адекватности Кайзера - Мейера - Олкина (КМО) [7]. Факторный анализ целесообразно применять, если значение КМО находится в пределах от 0,5 до 1. В нашем случае этот показатель равен 0.8976 (примерно 89,76 %), что является хорошим результатом.
На рисунке 2представлен вывод графика каменистой осыпи (Scree Plot), т. е. графика последовательного убывания собственных значений матрицы коэффициентов корреляции между исходными переменными.
При этом собственное значение (eigenvalue) должно быть больше 1. Как следует из рисунка 2, имеется 10 компонент, для которых eigenvalues > 1, поэтому число компонент будет 10.
Command Window
» eigenvalue
Table of the Extraction of Components.
Percent of Cuimmlative Factors Eigenvalue Variance Percent of Variance
1 2
3
4
5
6
7
8 5 10 11
12.353776
2.785556
2.302126
2.125212
1.529616
1.545501
1.266350
1.137205
1.051443
1.026565
0.584848
28.167673
6.331805
5.232105
4.830027
4.385450
3.521553
2.878068
2.584565
2.385643
2.334012
2.238250
28.167673 34.455481 35.731587 44.561614 48.547104 52.468657 55.346764 57.531325 60.320572 62.654584 64.853274
Ри^ 2. График каменистой осыпи
На рисунке 3 представлен результат применения метода вращения факторов.
Command1 Win dow
Faetoiloadings3 =
0.4731 0.4681 0.6677 0.2405 0.3012 0.3287 0.544S 0.3736 0.4055 0.5027 0.6147 0.7440 0.6536
0738 1511 1201 0518 0333 0357 1159 0105 0645 1118 0127 0483 1435
0.1156 0.0501 0.1831 0.0371 0.0515 0.1138 0.0554 О.1646 0.1272 -0.0167 0.0235 0.0550 0.1014
0.1610 0.1516 0.0228 -0.0045 0.1575 0.0424 0.0585 0.0385 0.2068 0.0266 0.1022 0.0850 0.0380
0771 0454 0353 0563 0827 0066 0164 0400 1280 0254 0175 0527 0833
0.1277 0.1358 0.0322 0.1086 0.1013 0.0230 0.1453 -0.0031 0.1418 0.1161 0.1726 0.0537 -0.1404
0.1212 0.1628 0.0420 0.7731 0.5731 0.7364 0.2871 0.3856 0.2703 0.3254 0.1782 0.1563 0.0632
0684 0081 0276 0715 1343 0558 1213 3363 1758 1547 0615 1362 1075
0.0261 -0.0351 0.1211 0.0645 0.0484 0.0460 -0.0006 0.1551 0.2713 0.1632 0.1381 0.0206 0.0872
6654 6232 0403 0024 1684 0448 0545 2525 3308 2341 0335 0131 1525
Рис. 3. Результат применения методов вращения факторов
Факторные нагрузки будут отсортированы следующим обра-зом:сверху будут расположены исходные переменные, которые сильнее всего коррелируют с первым фактором, они будут отсортированы по убыванию модуля коэффициентов с этим фактором; затем аналогичным образом будут расположены исходные переменные, сильнее всего коррелирующие со вторым фактором и т. д. [5]. Кроме того, в данном случае-факторные нагрузки, по модулю меньшие чем 0,5, не будут учитываться.
Сокращение количества переменных и определение структуры взаимосвязей между переменными было проведено с использованием факторного анализа. Получено сокращение 13 основных факторов и 44 под-фактора до 10 основных факторов и 33 под-факторов, что существенно упрощает дальнейшую обработку данных. Факторы, которые
оказывают наибольшее влияние на экономическое развитие региона, были выделены в первую группу факторов. К ним относятся «Деловой климат», «Местные налоги» и др. Вторая группа факторов включает, в частности, показатель «Доступ к материальным и нематериальным ресурсам». В третью группу факторов входят такие показатели, как «Среда жизни», «Возможность и квалификация сотрудников» и др.
Были установлены связи и степени влияния между переменными, определены расчетные значения зависимой переменной по методу корреляционно-регрессионного анализа [7]. В результате были получены модели зависимости показателей «Качество жизни», «Общий бизнес-климат», «Доступ к маркетинговым и рекламным услугам» и определено, что в соответствии с коэффициентами, рассчитанными в работе, наибольшее влияние оказывает показатель «Уровень преступности».
2.2. Анализ на основе корреляционно-регрессионного анализа
Регрессионный анализ проводился на основе построения и последующего анализа регрессионных моделей. Для моделей были определены важные переменные, зависимости и было построено уравнение регрессии.
Пример регрессионного результата для переменной показан на рисунке 4.
Workbookl
Workbook"!
Basic Statistics/Tables [S| Elt_f Descriptive statistics i
^■■j__| Descriptive Statist
l_j> Basic Statistics/Tables (S| El Correlations dialog
| Correlations (Spre Multiple Regression (Spn i- y Regression residuals: Predicted SiResic Multiple Regression (Spn R . .y Regression residuals: Normal Probabilil Multiple Regression (Spn
[=] ■_^ Regression descriptiv
Means and Stand i- Regression residuals t i Summary Statistii Regression Sumrr
- Regression Summary for Dependent Variable: Qla (Spreadsheet3)
i U-
N=2033
Intercept
Q1b
Q1c
Q2a
Q2b
Q2c Q3a
Q3b
Q4a
Q4b
Q4c
Q4d
Q5a
Q5b Q6a
Q6b
u
Regression Summary for Dependent Variable: Q1a (Spreadsheet3) R= ,05152555 Rl= .72509576 Adjusted Rl= .71915263 F(43,1989)=122.01 p<0 0000 Std.Error of estimate: .39922_
Std.Err of b*
0 646492 -0.004747 -0 004433 -0 014540 0 003449 0 019110 0 071156 0.084726 0 0541S4 0 016696 0 014882 0.050620 0 000675 -0.140735 0 044930
0.016762 0 015671 0 017267 0 015970 0 017510 0 015620 0 016600 0 016874 0 016496 0 015503 0 0 1 7475 0 016100 0 016390 0.020659 0 019335
-0.440021
0 602196 -0.007230 -0 006372 -0.012626 0.003503 0.024942 0 088460 0 087319 0 063246 0.024741 0.021524 0.044160 0 008247 -0.1 15631 0 040226
Std.Err. of b
t[1989) p-value
0.171720 0 015614 0.023697 0.024820 0 013074 0 017709 0 020390 0 020639 0 017390 0 019256 0.023093 0 025275 0 014124 0 015569 0.016974 0 017307
-2 58243 38.56059 -0 30209 -0.25673 -0.90999 0 19690 1.22200 4 20553 5.02111 3 20465 1.07130 0.85160 3.12649 0.52904 -6.81236 2 32420
0 010467 0 000000 0 762007 0.797410 0 362939 0 843926 0,221552 0 000019 0 000001 0 001039 0,204129 0 394541 0.001703 0.596639 0 000000 0 020215
Summary Statistics; DV: Q1a (Spneadsheet3) '"'J Regression Sumrnarytor Dependent Variable: Qla {Spreadsheets
Рис. 4. Пример результатов расчета регрессии
Коэффициент детерминации Я2 = 0.7251 показывает, что изменчивость зависимой переменной на 72,51 % объясняется изменчивостью других переменных. Значение ^-критерия , который используется для проверки гипотезы, равно 121,01. Значение уровня значимости гипотезы о равенстве нулю коэффициентов регрессии р мало [8].
Рис. 5. График остатков для переменной х1
Остатки находятся на линии, соответствующей нормальному правилу, при условии, что выполняется нормальная ошибка распределения. Поэтому запрошенная модель имеет вид:
В результате модель регрессиидля переменной х1 можно представить
следующим образом:
х1 = -0.44 + 0.602x2 - 0.007хз - 0.006х4 + 0.013х5 + 0.004х6 + 0.025х7 + + 0.088х8 + 0.088х9 + 0.063х10 + 0.025х11 + 0.022х12 + 0.044х13 + + 0.008х14 - 0.116х15 + 0.04х16 - 0.053х17 + 0.097х18 -0.073х19 -
- 0.025х20 + 0.064х21 + 0.113х22 + 0.135х23 +0.018х24 - 0.107х25 + + 0.172х26 + 0.075х27 + 0.031х28 + 0.023х29 + 0.011х30 + 0.063х31 -
- 0.006х32 + 0.012х33 - 0.06х34 - 0.08х35 + 0.011х36 - 0.021х37 -
- 0.077 х38 - 0.084х39 - 0.039х40 + 0.051х41 - 0.112х42 + 0.096х43 -
- 0.106х44.
Из управления видно, какие переменные влияют на значение х1 в большей или меньшей степени в зависимости от величины стоящего перед переменной множителя. Положительный коэффициент свидетельст-
вует о прямой зависимости между переменными, отрицательный - об обратной зависимости.
Другими словами, чем больше значения факторов х2,х5,х6,..., тем больше значение х1, и, наоборот, чем больше значение факторов х3, х4... , тем меньше значение х1.Таким образом, из построенной модели мы получили, что, чем больше значения «Близость к рынку для вашей продукции», «Доступ к сырью/материалам производства», «Доступ к производственным/ производственным услугам», ..., тем больше значение «Доступ к рынку для продукции» и наоборот, чем больше значение «Доступ к инженерным, исследовательским и производственным объектам», ..., тем меньше значения «Доступ к рынку для вашей продукции».
Аналогично проводится анализ для остальных переменных.
3. Рекомендации по развитию экономики района Тхай-Бинг, Вьетнам
Анализ результатов проведенного исследования показал, что для развития экономики района Тхай-Бинг следует сосредоточиться на факторах, относящихся к первой группе. Среди них можно отметить минимизацию уровня преступности, в частности, уровня экономических преступлений. Для этого, как показал корреляционно-регрессионный анализ, необходимо поддерживать благоприятный деловой климат, предоставлять налоговые льготы, вводить государственную систему регулирования. Эти факторы имеют первостепенное значение для компаний, организующих свой бизнес в данном районе Вьетнама.В то же время власти района Тхай-Бинг должны пропагандировать принимаемые законодательные меры, рекламировать изменения в законодательной сфере, а также предотвращать возможные нарушения экономического характера со стороны компаний.
Заключение
В работе были изученыстатистические данные, с использованием факторного анализа классифицированы группы новых факторов с уменьшением общего количества факторов. Для решения задач исследования был использован пакет прикладных программ МайаЬ.
Полученным новым группам факторов присвоены более подходящие по смыслу названия, данные новые элементы использованы как база для практического анализа развития каждого района.
Применение корреляционно-регрессионного анализа позволило получить взаимосвязь между факторами и определить факторы, оказывающие наиболее сильное влияние на основные факторы, которые требуется проанализировать.
На основании комплексной методики, объединяющей различные методы многомерной статистики, и проведения практического анализа определены направления экономического развития в каждом районе Вьетнама.
Предложенные модели для анализа развития экономики районов Вьетнама на основе математических методов многомерной статистики прошли апробацию для нескольких районов Вьетнама и могут найти практическое применение при проведении экономических исследований в стране.
Список литературы
1. Volkova V.N., Loginova A.V., Chernenkaja L.V., Romanova E.V., Chernyy Y.Y., Lankin V.E. Problems of sustainable development of socio-economic systems in the implementation of innovations // Proceedings of the 3rd International Conference ERGO-2018: Human Factors in Complex Technical Systems and Environments (ERGO-2018). 4-7 July 2018, Saint Petersburg Electrotechnical University "LETI", St. Petersburg, Russia. Publisher: IEEE, 2018. P. 53-56.
2. Leonova T.I., Mager V.E., Mikeladze B.D., Chernenkaya L.V., Chernenkii A.V. Support of decision-making in organizations' quality management // Proceedings of the 2017 XX IEEE International conference on soft computing and measurement (SCM 2017). 1 May 2017, Saint Petersburg Electrotechnical University "LETI", St. Petersburg, Russia. Publisher: IEEE, 2017. P. 843-845.
3. Chernenkaya L.V., Desyatirikova E.N., Belousov V.E., Chepelev S.A., Sergeeva S.I., Slinkova N.V. Optimal planning of distributed control systems with active elements. // Proceedings of the 2017 IEEE II International Conference on Control in Technical Systems (CTS 2017). 3-4 October 2017, Saint Petersburg Electrotechnical University "LETI", St. Petersburg, Russia. Publisher: IEEE, 2017. P. 37-40. DOI: 10.1109/CTSYS.2017.8109482.
4. Чураков Е. П. Введение в многомерные статистические методы: Учебное пособие. СПб.: Лань, 2016. 146 с.
5. Кулаичев А.П. Методы и средства комплексного статистического анализа данных: Учебное пособие. 5-е изд., перераб. и доп. М.: Форум : ИНФРА-М, 2017. 484 с.
6. SPSS survival manual: A step by step guide to data analysis using SPSS. Sydney: Allen & Unwin, 2013. 334 p.
7. Кисляк Н.В., Шорохова И.С., Мариев О.С. Статистические методы анализа: Учебное пособие. М.: Флинта, 2017. 300 с.
8. Алабин М.А. Корреляционно-регрессионный анализ статистических данных в двигателестроении. М.: Машиностроение, 1974. 122 с.