Научная статья на тему 'Определение детерминантов экономического роста на основе кластерного анализа'

Определение детерминантов экономического роста на основе кластерного анализа Текст научной статьи по специальности «Экономика и бизнес»

CC BY
245
86
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ / РЕГРЕССИОННЫЙ АНАЛИЗ / КЛАСТЕРНЫЙ АНАЛИЗ / КОМПОНЕНТНЫЙ АНАЛИЗ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / ВЫБРОСЫ / ВЛИЯТЕЛЬНЫЕ НАБЛЮДЕНИЯ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Капелюк С.

В данной статье с помощью регрессионного анализа проанализировано влияние различных факторов на экономический рост в регионах России. Для учета неоднородности социально-экономического развития регионов использована оригинальная методика устранения выбросов и влиятельных наблюдений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Определение детерминантов экономического роста на основе кластерного анализа»

Вестник Института экономики Российской академии наук

3/2013

ЛАУРЕАТЫ КОНКУРСА МОЛОДЫХ УЧЕНЫХ

С. КАПЕЛЮК кандидат экономических наук, доцент Сибирского университета потребительской кооперации

ОПРЕДЕЛЕНИЕ ДЕТЕРМИНАНТОВ ЭКОНОМИЧЕСКОГО РОСТА НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА

В данной статье с помощью регрессионного анализа проанализировано влияние различных факторов на экономический рост в регионах России. Для учета неоднородности социально-экономического развития регионов использована оригинальная методика устранения выбросов и влиятельных наблюдений.

Ключевые слова: эконометрический анализ, регрессионный анализ, кластерный анализ, компонентный анализ, метод главных компонент, выбросы, влиятельные наблюдения.

Классификация JEL: : C520; R110; R150.

Эконометрический анализ факторов экономического роста на региональном уровне проводили многие ученые, в том числе К. Глущенко1, А. Корицкий2, В. Попов3, С. Дробышевский4. Как правило, для оценки влияния факторов используется регрессионный анализ. Наиболее популярный способ нахождения параметров регрессионной модели - метод наименьших квадратов (МНК). Однако он имеет ряд ограничений, к которым в том числе относится чувствительность к выбросам и влиятельным наблюдениям.

Под выбросами (outliers) и влиятельными наблюдениями (influential observations) понимают резко отличающиеся данные, при наличии кото-

Глущенко К.П. Исследования неравенства по доходам между российскими регионами // Регион: экономика и социология. 2010. № 4. С. 88-119.

Корицкий А.В. Человек как статья // Креативная экономика. 2009. № 2. С. 90-98. Popov V. Reform Strategies and Economic Performance of Russia's Regions // World Deve-

lopment. 2001. № 5. P. 865-886.

Дробышевский С. и др. Факторы экономического роста в регионах РФ. М.: ИЭПП, 2005.

4

рых качество модели существенно ухудшается5. Ухудшение качества происходит в моделях со сравнительно небольшим числом наблюдений (например, когда регрессионная модель строится по 83 регионам России). Для устранения их влияния такие наблюдения, как правило, удаляют из анализа, но выявить их не всегда просто. В прикладных исследованиях для выявления часто используют анализ остатков (residuals), однако данный метод некорректен, т.к. величина остатков также получена из модели со смещенными под влиянием выбросов параметрами. В качестве других способов используют метод стьюдентизированных остатков (studentized residuals)6, оценку показателя влиятельности наблюдений в частной регрессии (partial-regression leverage plots)7, критерий Шапиро-Уилка (Shapiro-Wilk test)8, тест Жарке-Бера (Jarque-Bera test)9, расстояние Кука (Cook outlier test)10, тест Граббса (single-outlier Grubbs' test)11, критерий Шовене (Chauvenet's criterion)12, метод анализа диагональных элементов матрицы проекции на пространство регрессоров (diagonal elements of hat matrix)13, расстояние Махаланобиса (Mahalanobis distance)14, тест Дехона-Гасснера-Верарди (Hausman-type test by Dehon, Gassner and Verardi)15. Каждый из них имеет определенные ограничения и недостатки.

Другой проблемой является определение влияния фактора на зависимую переменную, когда данный эффект неоднороден. Например, эффект от влияния фактора может наблюдаться только в одной группе объектов, тогда как в другой группе тот же фактор может не оказывать никакого влияния на зависимую переменную. В еще более сложных случаях эффект может быть разнонаправленным: в одной группе увеличение независимой переменной приводит к росту значений зависимой

5 Wooldridge J. Introductory Econometrics, Fourth Edition. South-Western Cengage Learning, 2009. P. 325.

6 Greene W.H. Econometric Analysis, 7th edition. Pearson Education Limited, 2012. P. 141-142.

7 Belsley D., Kuh Е. and. Welsch R. Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: Wiley, 2005. P. 34.

8 Maddala G.S. Econometrics. New York: McGraw-Hill, 1977. P. 305-308.

9 Jar que C.M. and Bera A.K.. Efficient Tests for Normality, Heteroskedasticity, and Serial Independence of Regression Residuals // Economics Letters. 1980. № 6. P. 255-259.

10 Kennedy P. A Guide to Econometrics. 6th edition. Blackwell Publishing, 2008. P. 76.

11 Grubbs F.E. Procedures for Detecting Outlying Observations in Samples // Technometrics. 1969. № 1. P. 1-21.

12 Taylor J.R. An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements. University Science Books, 1997. P. 166.

13 Stevens J.P. Outliers and Influential Data Points in Regression Analysis // Psychological Bulletin. 1984. № 2. P. 334-344.

14 Там же.

15 Dehon C., Gassner M. and Verard Vi. Beware of «Good» Outliers and Overoptimistic Conclusions // Oxford Bulletin of Economics and Statistics. 2009. № 3. P. 437-452.

переменной, в другой - к снижению. Для решения данной проблемы традиционно используют фиктивные переменные (dummy variables), принимающие значение 1 для конкретной группы наблюдений и 0 для всех остальных групп. Однако не всегда удается разделить совокупность на определенные группы, либо число признаков для классификации может быть слишком большим, что становится критичным при малом числе наблюдений.

Для эконометрического анализа факторов экономического роста с использованием МНК-регрессии характерны данные проблемы выбросов и влиятельных наблюдений. В особенности это актуально при изучении регионов России, характеризующихся значительной неоднородностью социально-экономического развития. В прикладных работах в данной области используются различные методы решения проблемы неоднородности. Одно из средств решения - построение регрессионной модели по панельным данным с фиксированными эффектами. Интересным также представляется подход, предложенный А.В. Корицким, в котором для определения параметров регрессионной модели человеческого капитала используется взвешивание по численности занятых в экономике региона16.

В данной статье предлагается принципиально иной подход к устранению указанного недостатка, основанный на применении специального статистического метода - кластерного анализа. Для анализа используется экзогенная модель роста на основе модифицированной производственной функции Кобба-Дугласа, в которую добавлены человеческий капитал и государственные расходы, также рассматриваемые как факторы экономического роста17. Учитывается также величина ВРП в предшествующем году и роль добывающей промышленности в экономике региона. Базовая регрессионная модель выглядит следующим образом:

ln У it = в0 + в lnY,t-1 + в2 ln iit + в3 ln К + в4 ln git + в5 resit -1 + uit' (1)

где yit - темп роста реального ВРП в регионе i в году t; Yit_i - ВРП в регионе i в предшествующем году; iit - инвестиции в основной капитал на одного занятого в регионе; hit - средняя продолжительность обучения, лет; git - государственные расходы на душу населения в регионе; resit_1 - доля добывающей промышленности в ВРП в году t-1; uit - случайная величина, отражающая влияние факторов, не включенных в модель.

16 Корицкий А.В. Человек как статья // Креативная экономика. 2009. № 2. С. 90-98.

17 Barro, R.J. Government spending in a simple model of endogenous growth // Journal of Political Economy. 1990. № 5. P. 103-125.

Для учета межрегиональных различий ВРП инвестиции и государственные расходы пересчитаны исходя из стоимости фиксированного набора товаров и услуг, определяемого Росстатом. Значения всех показателей, кроме числа лет обучения, взяты по 82 регионам Российской Федерации (за исключением Чеченской республики) за 2009-2010 гг. из статистического сборника Росстата «Регионы России. Социально-экономические показатели»18. Среднее число лет обучения в регионе рассчитано на основе итогов Всероссийской переписи населения за 2010 г.19

Для оценки наличия воздействия факторов вводится нулевая гипотеза о равенстве нулю коэффициента наклона при соответствующем факторе, проверяемая с помощью ¿-статистики. Результаты оценки параметров уравнения регрессии представлены в табл. 1.

Тест Бреуша-Пагана показал наличие гетероскедастичности (р<0,01), т.е. вариация случайной величины и неодинакова при малых и больших значениях независимых переменных (гетероскедастичность часто встречается в пространственных региональных моделях, т.к. показатели крупных регионов чаще и сильнее отклоняются от общего тренда, чем показатели малых). При гетероскедастичности нарушаются допущения Гаусса-Маркова для метода наименьших квадратов, поэтому нами также рассчитаны устойчивые к гетероскедастичности (робастные) стандартные ошибки, по которым более корректно тестировать наличие влияния факторов.

В результате проведения регрессионного анализа с устранением гете-роскедастичности удалось отвергнуть нулевую гипотезу об отсутствии воздействия только для физического капитала, поскольку только для него рассчитанный параметр имеет статистическую значимость на уровне 5%. Также статистически значима доля добывающей промышленности в ВРП. Сумма и направление воздействия фактора определяются значением соответствующего коэффициента наклона, который в связи с логарифмической формой модели представляет собой значение коэффициента эластичности. Вместе с тем полученные оценки могли быть искажены из-за неоднородности социально-экономического развития регионов.

Для начала воспользуемся стандартным методом обнаружения выбросов. По методу стьюдентизированных остатков удалено три региона - Москва, Сахалинская область и Чукотский автономный округ, у которых значение стьюдентизированного остатка по модулю превышало значение 3. Результаты оценивания модели по остальным 79 регио-

18 Регионы России. Социально-экономические показатели 2011 : Стат.сб. / Росстат. M., 2011.

19 Информационные материалы об окончательных итогах Всероссийской переписи населения 2010 года // Росстат [Электронный ресурс]. URL: http://www.gks.ru/free_doc/ new_site/perepis2010/perepis_itogi1612.htm.

Таблица 1

Взаимосвязь темпов роста реального ВРП и факторов в 2010 г.

Зависимая переменная - темп роста реального ВРП

Факторы Общая модель С удалением выбросов методом стьюдентизиро-ванных остатков

ВРП в предшествующем году 0,003* (0,007) [0,005] 0,000* (0,005) [0,004]

Инвестиции на одного занятого 0,036** (0,010) [0,016] 0,007 (0,008) [0,007]

Среднее число лет обучения 0,037 (0,130) [0,154] 0,341*** (0,105) [0,119]

Расходы консолидированного бюджета субъекта РФ на душу населения 0,010 (0,008) [0,006] 0,017*** (0,006) [0,006]

Доля добывающей промышленности в ВРП в предшествующем году -0,001** (0,000) [0,001] -0,001** (0,000) [0,001]

Константа 4,70*** (0,31) [0,40] 3,84*** (0,25) [0,40]

Б-сгатисгика 6,32 7,61

Р-значение 0,000 0,000

И-квадрат 0,29 0,34

Число регионов 82 79

Примечание: в круглых скобках указаны стандартные ошибки, в квадратных скобках указаны устойчивые к гетероскедастичности (робастные) стандартные ошибки. * - параметр имеет статистическую значимость на уровне 10%; ** - параметр имеет статистическую значимость на уровне 5%; *** - параметр имеет статистическую значимость на уровне 1%.

нам приведены в табл. 1 (последний столбец). После удаления трех регионов нулевую гипотезу об отсутствии гетероскедастичности отвергнуть не удалось, поэтому статистическое оценивание проведено на основе обычных стандартных ошибок.

Полученные результаты наглядно иллюстрируют «проблему выбросов» - оценки параметров изменились весьма значительно. Отдача от человеческого капитала существенно возросла, а от физического - уменьшилась. Влияние государственных расходов стало статистически значимым.

Кластерный анализ - метод классификации многомерных неоднородных объектов, основанный на представлении результатов отдельных наблю-

дений в виде точек подходящего геометрического пространства с выделением групп как «сгустков» этих точек20. Фактически кластерный анализ представляет собой группировку объектов, однако главным отличием от обычной группировки выступает то, что каждый кластер содержит схожие объекты, резко отличающиеся от объектов из других кластеров21.

Термин «кластерный анализ» впервые был предложен К. Трионом в 1939 г.22 Первые публикации по иерархическим процедурам кластерного анализа появились в 1950-е гг.23 С начала 1960-х гг. число предлагаемых алгоритмов кластеризации активно возрастало.

К началу XXI в. кластерный анализ нашел применение в самых разнообразных научных направлениях - в биологии, медицине, социологии, геологии, химии, археологии, истории, географии, филологии, криминологии. Из близких к экономике дисциплин наиболее широко кластерный анализ используется в маркетинге для оценки уровня конкуренции в различных сегментах, для разделения потребителей на группы с целью разработки индивидуальной политики обслуживания24.

В последние годы кластерный анализ используется все более активно. Это обусловлено появлением мощной вычислительной техники, постоянным увеличением количества факторов, используемых в моделях. К сожалению, несмотря на появление статистических программ, включающих различные алгоритмы кластерного анализа, многие исследователи не используют возможности, предоставляемые данным методом.

Проведем классификацию регионов на группы с помощью кластерного анализа. Кластерный анализ состоит из 7 этапов:

1. Выбор объектов кластеризации.

2. Определение набора переменных (показателей, которые станут основой для кластеризации объектов).

3. Стандартизация переменных.

4. Выбор метрики.

5. Выбор метода кластерного анализа.

6. Определение необходимого числа кластеров.

7. Интерпретация результатов25.

На первом этапе в качестве объектов кластеризации взяты регионы Российской Федерации. На втором этапе для анализа выбраны следую-

20 Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. С. 4.

21 Орлов А.И. Нечисловая статистика. М.: МЗ-Пресс, 2004. С. 242.

22 Там же. С. 10.

23 Там же. С. 44.

24 Punj G. and Stewart D.W. Cluster Analysis in Marketing Research: Review and Suggestions for Application // Journal of Marketing Research. 1983. № 20. P. 134-148.

25 Arabie P., L.J. Hubert L.J. and G. Soete G. Clustering and classification. Singapore: World Scientific, 1996. P. 342.

щие показатели: уровень бедности, коэффициент миграционного прироста, доля городского населения в общей численности, среднедушевые денежные доходы населения, стоимость фиксированного набора товаров и услуг, темп роста промышленного производства, уровень фактической безработицы, уровень регистрируемой безработицы, среднегодовая численность и темп роста численности занятых в экономике, число лет обучения, валовой региональный продукт, инвестиции в основной капитал, расходы консолидированного бюджета субъекта РФ, удельный вес безвозмездных перечислений в доходах бюджета субъекта РФ, структура ВРП (доля сельского хозяйства, добывающей, обрабатывающей промышленности, оптовой и розничной торговли). Значения показателей также взяты по 83 регионам Российской Федерации за 2009 г. из статистического сборника Росстата «Регионы России. Социально-экономические показатели»26.

Перед проведением кластерного анализа прежде всего необходимо выбрать метрику. Метрика - функция, определяющая расстояния между объектами. В кластерном анализе используются различные метрики. Среди них можно выделить метрику Евклида (Euclidean distances), метрику Чебышева (Chebychev distance metric), метрику Минковского (Minkowski metric), метрику Махаланобиса (Mahalanobis distance), метрику Хемминга (Hamming distance) и манхэттенскую метрику (City-block distance, Manhattan distance).

Наиболее часто используется метрика Евклида, поэтому в данном исследовании выбор сделан в ее пользу. Следует иметь в виду, что у метрики Евклида есть определенные ограничения, связанные с требованием однородности объектов. В том случае, когда переменные измеряются в разных единицах, необходимо обязательно проводить стандартизацию показателей. В качестве одного из способов стандартизации используются индексные показатели. Для этого соответствующие значения показателей для каждого региона делятся на максимальное значение среди всех регионов. Однако чаще всего стандартизацию проводят с использованием среднеквадратического отклонения. Для стандартизации мы применили следующую формулу:

xt=^-, (2)

где х. - стандартизованное значение показателя x для региона i; xi - фактическое значение показателя x для региона i; x - среднее значение показателя x; стх - среднеквадратическое отклонение показателя x.

26 Регионы России. Социально-экономические показатели 2011. Стат. сб. / Росстат. M., 2011.

Одним из требований в пользу проведения кластерного анализа выступает отсутствие корреляционной связи между показателями. Для проверки ее наличия построена матрица парных коэффициентов корреляции Пирсона. Многие парные коэффициенты корреляции имеют статистическую значимость на уровне 5% (p < 0,05), при этом для некоторых показателей выявлена сильная корреляционная связь. Например, между уровнем фактической и регистрируемой безработицы коэффициент корреляции составляет 0,92 (p < 0,01), между ВРП и расходами консолидированного бюджета РФ - 0,89 (p < 0,01). При этом любой из выбранных показателей имеет значимую корреляционную связь на уровне 5% как минимум с одним из других показателей в выбранном перечне.

В связи с наличием мультиколлинеарности (сильной корреляционной взаимосвязи между переменными) перед проведением кластерного анализа следует скорректировать перечень показателей. При небольшом числе показателей достаточно легко выбрать и удалить один или несколько показателей, имеющих высокий коэффициент корреляции с другими. При большом числе показателей необходимо использовать факторный анализ на основе метода главных компонент (так называемый компонентный анализ).

В результате использования метода главных компонент происходит сокращение размерности модели, т.е. на основе вариации общего числа показателей (n) определяется число главных компонент () - линейных комбинаций исходных показателей27. При этом число главных компонент меньше числа исходных показателей (j < n).

После определения количества главных компонент вычисляются значения каждой компоненты по каждому региону по следующей формуле:

Zij=itakjxki, (3)

к=1

где Zj - значение j-й главной компоненты (factor score) для региона i; ащ -факторная нагрузка k-го показателя (factor score coefficient) в j-й главной компоненте; xki - стандартизованное значение k-го показателя для региона i; n - число показателей (в нашем случае - 19).

Процедура преобразования исходных показателей в компоненты получила название «вращение» (rotation). Цель вращения - максимизация дисперсий по исходным переменным для каждой компоненты. Основные методы вращения делят на две группы: ортогональные (orthogonal rotations) и косоугольные (oblique rotations)28. При ортогональ-

27 Woods C.M. and Edwards M.C. Factor Analysis and Related Methods // Handbook of Statistics / Ed. by C.R. Rao , J. P. Miller and .D.C. Rao. Vol. 27. Elsevier Science B.V., 2007. P. 367-394.

28 Woods C.M. and Edwards M.C. Factor Analysis and Related Methods // Handbook of Statistics / Ed. by C.R. Rao, J.P. Miller and D.C. Rao. Vol. 27. Elsevier Science B.V., 2007. P. 367-394.

ных методах вращения коэффициент корреляции между компонентами равен нулю, в то время как косоугольные методы вращения допускают ненулевую корреляцию компонент.

Для вращения мы использовали ортогональный метод «варимакс» (Varimax rotation). Метод «варимакс» максимизирует сумму дисперсии квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. Вместо коррелированных друг с другом показателей мы получаем ортогональные, т.е. не коррелированные между собой главные компоненты. Чем сильнее в имеющемся наборе данных выражена мультиколлинеарность, тем меньше главных компонент необходимо выделить. Первая главная компонента представляет собой линейную комбинацию исходных параметров, учитывающую максимум их суммарной дисперсии. Вторая главная компонента не коррелирует с первой и учитывает максимум оставшейся дисперсии - и так до тех пор, пока вся дисперсия не будет учтена.

Ключевой вопрос компонентного анализа - определение числа главных компонент29. Каждая последующая компонента отражает все меньше дисперсии. Решение об остановке процедуры выделения факторов зависит от того, что считать малой дисперсией. На практике чаще всего используют четыре метода:

1. Критерий Кайзера (Kaiser criterion или Kaiser-Guttman rule).

2. Анализ остатков (residual analysis).

3. Критерий каменистой осыпи (scree plot).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Параллельная процедура (parallel analysis)30.

При использовании критерия Кайзера отбираются только главные компоненты с собственными значениями, большими 1. Таким образом, если компонента не отражает дисперсию, эквивалентную, как минимум, дисперсии одной переменной, то данная компонента исключа-ется31. Несмотря на то, что этот критерий, предложенный Кайзером в 1960 г., наиболее широко используется, он часто приводит к неверным результатам32.

Метод каменистой осыпи представляет собой графический метод, предложенный Кеттелем (Cattell) в 1966 г. Для этого метода строится график, на котором по оси x откладываются главные компоненты, по оси y - собственные значения. На графике определяется точка, в которой убывание собственных значений значительно замедляется.

29 Там же.

30 Там же.

31 Jolliffe I.T. Principal Component Analysis, Second Edition. New York: Springer, 2002. P. 114.

32 Woods C.M. and. EdwardsM.C. Factor Analysis and Related Methods // Handbook of Statistics / Ed. by C. R. Rao, J. P. Miller and D.C. Rao. Vol. 27. Elsevier Science B.V., 2007. P. 367-394.

При использовании метода параллельной процедуры к графику из метода каменистой осыпи добавляется график собственных значений для матрицы некоррелированных данных, полученных случайным образом. Число главных компонент определяется в точке пересечения двух графиков33.

В нашем случае применение критерия Кайзера позволило выделить пять главных компонент, имеющих собственное значение более 1, которые вместе объясняют 80,4% вариации показателей (табл. 2). Чем выше порядковый номер главной компоненты, тем меньшую долю вариации она объясняет.

Таблица 2

Вклад главных компонент в общую вариацию показателей социально-экономического развития регионов России (по данным за 2009 г.)

Главная компонента Собственное Доля объясненной

Значение вариации,%

1 6,75 35,5

2 3,43 18,1

3 2,43 12,8

4 1,47 7,8

5 1,20 6,3

Итого 15,28 80,4

По критерию каменистой осыпи оптимальное количество главных компонент, которые необходимо выделить, - 4, что можно увидеть на графике собственных значений главных компонент (рис. 1). На графике видно, что после выделения четвертой главной компоненты убывание собственных значений минимизируется.

Порядковый номер главной компоненты

Рис. 1. Собственные значения главных компонент.

33 Там же.

Мы решили выделить пять главных компонент, ориентируясь на первый критерий. Это связано с тем, что четыре главных компоненты (с первой по четвертую) объясняют только 74,1% общей вариации, что недостаточно для проведения корректного анализа.

Факторные нагрузки показателей (я^) представлены в табл. 3.

Таблица 3

Факторные нагрузки показателей социально-экономического развития регионов России (по данным за 2009 г.)

№ п/п Показатели Компоненты

1 2 3 4 5

1. Уровень бедности 0,028 0,050 -0,197 -0,058 -0,063

2. Коэффициент миграционного прироста 0,072 -0,385 -0,095 0,200 0,099

3. Доля городского населения -0,032 -0,018 0,002 -0,172 0,226

4. Среднедушевые денежные доходы 0,064 0,184 0,025 -0,033 0,092

5. Стоимость фиксированного набора 0,003 0,303 0,026 -0,115 0,059

6. Индекс промышленного производства 0,029 0,119 -0,010 0,303 -0,068

7. Фактическая безработица 0,040 -0,091 -0,419 0,030 0,121

8. Официальная безработица 0,032 -0,070 -0,449 -0,038 0,182

9. Среднегодовая численность занятых 0,216 -0,066 -0,033 0,002 -0,025

10. Доля сельского хозяйства в ВРП 0,060 0,028 0,158 0,142 -0,349

11. Доля добывающей промышленности -0,091 0,015 -0,061 0,240 0,243

12. Доля обрабатывающей промышленности -0,070 -0,252 0,072 -0,103 0,083

13. Доля торговли в ВРП 0,252 0,088 0,031 -0,142 -0,242

14. Доля безвозмездных перечислений 0,038 0,198 -0,037 -0,081 -0,239

15. Число лет обучения 0,112 0,131 0,093 0,023 -0,036

16. Валовой региональный продукт 0,229 0,009 -0,052 0,050 -0,023

17. Инвестиции в основной капитал 0,142 -0,107 -0,073 0,224 0,104

18. Расходы бюджета субъекта РФ 0,242 0,068 -0,034 -0,069 -0,086

19. Темп прироста численности занятых 0,012 -0,125 0,058 0,559 -0,058

В результате компонентного анализа отобраны пять наиболее существенных признаков для оценки социально-экономического развития регионов, на основе которых проводилась многомерная классификация. Для каждого региона проведены расчеты всех пяти компонент по формуле (3). Например, первая компонента рассчитана следующим образом:

г1 = 0,028x3с! +0,072 хЗс2 -0,032 хЗс3 +... + 0,012 хЗс19.

На пятом этапе определяется метод кластерного анализа. Методы кластерного анализа делят на пять основных групп: иерархические (hierarchical), разбиения (partitioning), Q-сортировки (Q-sort), концентрации (density) и группировки (clumping)34.

При использовании иерархического метода, результатом которого становится построение дендрограммы объектов, в первую очередь необходимо определиться со способом определения связей между объектами кластеров. Таких способов также выделяют значительное количество, но 98% исследователей применяют следующие три35:

1) метод одиночной связи (single linkage) - на каждом шаге присоединяется объект, имеющий наиболее близкое расстояние к одному из объектов данного кластера независимо от расстояния до других объектов кластера;

2) метод полной связи (complete linkage) - при присоединении объекта учитывается его расстояние до всех объектов кластера;

3) метод Уорда (Ward's method), основанный на дисперсионном анализе.

Наиболее подходящими для решения подобных задач считаются

методы полной связи и Уорда. В данном исследовании мы использовали метод полной связи.

Процедура построения дендрограммы заключается в следующем. На первом шаге каждый объект рассматривается как отдельный кластер (монокластер). Далее на каждом шаге происходит объединение двух наиболее близких кластеров. Каждая ветвь дерева соответствует кластеру, появившемуся на каком-либо шаге работы алгоритма. Слияние ветвей соответствует объединению кластеров, а ствол - заключительному шагу, когда все наблюдения оказываются объединенными в один кластер36. Чтобы получить отдельные кластеры на дендрограмме, нужно провести вертикальную линию для горизонтальной дендрограммы (или горизонтальную для вертикальной), соответствующую определенному значению расстояния, установив таким образом ограничение на минимальное расстояние между кластерами. Например, при ограничении равном 8 в метрике Евклида, можно выделить три кластера: два монокластера из Москвы, Республики Дагестан, и кластер, включающий прочие регионы. Если снизить ограничение до 4, количество кластеров увеличится до восьми, из которых три будут монокластерами.

Метод k-средних дал аналогичные результаты по составу кластеров. Корректность результатов кластерного анализа можно проверить, срав-

34 Jobson J.D. Applied Multivariate Data Analysis: Categorical and Multivariate Methods. New York: Springer, 1992. P. 518.

35 Romesburg С. Cluster Analysis for Researchers. Morrisville, North Carolina: Lulu.com, 2004.

P. 3.

36 Орлов А.И. Нечисловая статистика. М.: МЗ-Пресс, 2004. С. 351.

нив результаты при различном числе кластеров. Проведенный анализ показал, что при увеличении числа кластеров на единицу новый кластер появляется внутри других кластеров. При этом очень редко какой-либо из регионов перемещается в «чужой» кластер, то есть старые границы кластеров в основном сохраняются. Это подтверждает возможность кластеризации в нашем случае.

На шестом этапе определяется окончательное число кластеров. Для этого также могут использоваться различные алгоритмы. Одним из подобных алгоритмов считается анализ изменения межкластерных расстояний на каждом шаге объединения, представленного на рис. 2.

Шаг

Рис. 2. График пошагового изменения межкластерного расстояния.

На графике пошагового изменения не должно быть слишком длинных прямых вертикальных участков. На рис. 2 первый длинный участок наступает на 77 шаге, который соответствует пяти кластерам.

Итак, можно сделать вывод, что кластеризация данных объектов возможна (в противном случае результатом становится обычная группировка, а не кластеры) и наиболее подходящее число кластеров - 5.

Первый кластер, представленный главным образом сырьевыми регионами, выделяется более высокими доходами населения и наличием миграционной убыли населения. Второй кластер (регионы европейской части страны, Сибирского федерального округа) характеризуется показателями, близкими к средним значениям по России. Данный кластер в 2009 г. был в наибольшей степени затронут кризисом. Третий кластер представляет собой монокластер из республики Дагестан. В четвертом кластере представлены преимущественно аграрные регионы, имеющие миграционный прирост населения. Наиболее благополучным выглядит пятый монокластер - город Москва. В этом кластере наблюдаются самые высокие показатели дохода и миграционного прироста и самое низкое значение уровня безработицы.

Проведем анализ полученных результатов. Средние значения по каждому кластеру представлены в табл. 4.

Средние значения показателей социально-экономического развития регионов России по выделенным кластерам в 2009 г.

Кластеры Первый («сырьевые») Второй («промышленные) Третий (Дагестан) Четвертый («аграрные») Пятый (Москва)

Число регионов 11 44 1 24 1

Среднедушевые месячные 19669,2 14288,1 13849,0 13180,2 43099,0

денежные доходы населе-

ния, руб.

Стоимость фиксирован- 9186,9 7590,5 6748,7 7451,6 10754,1

ного набора товаров и у^уг руб.

Коэффициент миграционного прироста (на 10000 человек) -14,7 0,0 -30,0 +2,9 +55,0

Доля городского населения в общей численно- 76,4 69,6 42,4 65,9 100,0

сти,%

Стоимость основных фон- 2045,7 817,6 610,5 711,5 15356,8

дов на конец года, млрд руб.

Среднее число лет обуче- 11,0 10,7 10,4 10,9 12,4

ния

Расходы консолидированного бюджета субъекта РФ, млн руб. 67116,8 68100,6 67631,0 48896,9 1156395

Удельный вес добываю- 23,9 6,8 0,5 4,4 0,0

щей промышленности в ВРП,%

Удельный вес сельского и 4,3 8,2 14,6 11,4 0,0

лесного хозяйства в ВРП,%

Фактическая безрабо- 8,5 9,2 13,2 11,2 2,7

тица^

Индекс промышленного производства, в % к 2008 г. 97,0 91,1 103,2 95,8 93,7

В результате кластерного анализа выявлено, что регионы России можно разделить на две большие группы, в первую из которых входит 44 региона, во вторую - 24. Еще 13 регионов (первый, третий и пятый кластеры) представляют собой наблюдения, резко отличающиеся по своим характеристикам от большинства регионов России. Полученная группировка позволила отдельно оценить параметры модели (1) для второго и четвертого кластеров. Результаты представлены в табл. 5.

Взаимосвязь темпов роста реального ВРП и факторов во всех регионах и выделенных кластерах в 2010 г.

Зависимая переменная - темп роста реального ВРП

Факторы Общая модель С удалением выбросов методом стью-дентизирован-ных остатков Кластер 2 Кластер 4

ВРП в предшествующем году 0,003* (0,007) [0,005] 0,000* (0,005) [0,004] 0,005 (0,011) [0,008] -0,004 (0,012) [0,016]

Инвестиции на одного занятого 0,036** (0,010) [0,016] 0,007 (0,008) [0,007] 0,029* (0,013) [0,015] 0,017** (0,026) [0,025]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Среднее число лет обучения 0,037 (0,130) [0,154] 0,341*** (0,105) [0,119] 0,017 (0,223) [0,183] 0,490 (0,292) [0,449]

Расходы консолидированного бюджета субъекта РФ на душу населения 0,010 (0,008) [0,006] 0,017*** (0,006) [0,006] 0,019*** (0,012) [0,006] 0,026* (0,015) [0,017]

Доля добывающей промышленности в ВРП в предшествующем году -0,001** (0,000) [0,001] -0,001** (0,000) [0,001] -0,001 (0,000) [0,001] -0,000 (0,001) [0,001]

Константа 4,70*** (0,31) [0,40] 3,84*** (0,25) [0,40] 4,69*** (0,55) [0,45] 3,53*** (0,68) [1,01]

Б-сгатисгика 6,32 7,61 5,29 2,22

Р-значение 0,000 0,000 0,001 0,097

И-квадрат 0,29 0,34 0,41 0,38

Число регионов 82 79 44 24

Примечание: в круглых скобках указаны стандартные ошибки, в квадратных скобках указаны устойчивые к гетероскедастичности (робастные) стандартные ошибки. * - параметр имеет статистическую значимость на уровне 10%; ** - параметр имеет статистическую значимость на уровне 5%; *** - параметр имеет статистическую значимость на уровне 1%.

В результате проведенного исследования подтверждено, что при исключении регионов с нехарактерными значениями (так называемых выбросов) отдача от физического капитала уменьшилась, а от человеческого возросла. Кроме того, отдача от разных видов капитала значительно различается в разных кластерах. Наиболее высокая отдача от человеческого капитала наблюдается в четвертом кластере, представленном преимущественно аграрными регионами.

Результатом данного исследования стала группировка регионов России по уровню социально-экономического развития. Выявлено, что регионы делятся на пять ярко выраженных кластеров, каждый из которых имеет свою специфику. Целесообразно учитывать подобную типо-логизацию при проведении политики по обеспечению экономического роста. В частности, инвестиции в отдельные виды капитала могут иметь различный эффект в разных регионах страны. При этом проведенное исследование позволило выявить характеристики регионов, обусловливающие различия в эффектах.

В данном исследовании представлено изучение влияние факторов на экономический рост в краткосрочном периоде. Изучение факторов в долгосрочном периоде обещает быть еще более перспективным. Из других возможных направлений следует отметить применение данной методики на муниципальном уровне. Несмотря на то что российская муниципальная статистика значительно беднее региональной, изучение факторов на местном уровне актуально по причине значительной внутрирегиональной дифференциации37. Отметим, что подобный анализ факторов экономического роста проводился, например, в США38. Данную методику устранения влияния выбросов можно применять и в других областях эконометрических исследований.

37 Капелюк С.Д., Брякотнина Е.А., Гурьянов Т.И., Заяц Е.Ю. Внутрирайонное неравенство в доходах и потреблении товаров и услуг: масштабы, факторы, последствия // Региональная экономика: теория и практика. 2012. № 33. С. 39-47.

38 Stansel D. Local decentralization and local economic growth: A cross-sectional examination of US metropolitan areas // Journal of Urban Economics. 2005. № 1. P. 55-72.

i Надоели баннеры? Вы всегда можете отключить рекламу.