Кластеризация регионов по уровню социально-экономического развития на основе самоорганизующихся карт Кохонена

Гордополов Юрий Владимирович; Лукашевич Никита Сергее

УДК 332.122

Ю.В. Гордополов, Н.С. Лукашевич

Кластеризация регионов

по уровню социально-экономического развития на основе самоорганизующихся карт Кохонена

В современных условиях возрастает значение научного анализа проблем социально-экономического развития регионов. Суть управления социально-экономическим развитием региона состоит в целенаправленном воздействии органов управления на все региональные субъекты хозяйствования с целью обеспечения повышения качества жизни населения [2]. В основе такого управления - оценка, мониторинг и сравнительный анализ уровней социально-экономического развития, которые выявляют асимметричность развития регионов и обусловливают их дифференциацию. Многомерность рассматриваемых процессов усложняет проблему обобщающей количественной оценки региональных различий. Кроме того, принятие управленческих решений в области социально-экономической политики, которые должны учитывать дифференциацию регионов, требует тщательной их проработки как федеральными, так и региональными органами власти, решения ряда правовых, организационных, информационных и аналитических задач. В этом смысле приоритетными являются такие взаимосвязанные задачи, как оценка уровня социально-экономического развития регионов, выявление кластеров регионов, схожих по социально-экономическому развитию, сравнительный анализ кластеров регионов с целью определения тенденций межрегиональной дифференциации по социально-экономическому развитию.

Цель исследования - кластеризация и сравнительный анализ регионов по уровню социально-экономического развития. Полученные результаты могут стать основой для повышения качества и обоснованности принимаемых органами государственной власти управленческих решений в области социально-экономической политики и применяться для выявления ано-

мальных регионов, которые требуют специальных государственных мероприятий и поддержки, разработки социально-экономической политики с учетом специфики уровня развития для разных кластеров регионов.

Сравнение регионов по уровню социально-экономического развития в научной литературе проводится на основе определения обобщающего показателя (рейтинга). Для получения рейтинга используется достаточное количество методов, например экспертные методы, метод балльных оценок, метод многомерной средней, метод стандартизированных показателей, методы теории нечетких множеств. Результатом применения данных методов является качественное или количественное значение рейтинга, на основании которого осуществляется интерпретация уровня социально-экономического развития регионов и их сравнение. Недостатками применения традиционных методов являются, во-первых, сложность интерпретации рейтинга из-за сравнения значительного количества объектов оценки, что порождает необходимость в формировании кластеров (кластеризации) регионов со схожим уровнем развития, во-вторых, сложность интерпретации рейтинга из-за большого количества показателей, которые обусловливают высокий или низкий уровень социально-экономического развития, что порождает необходимость в обобщении показателей, построении их иерархии.

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания [3]. Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом показателей. Кластеризация как метод многомерного анализа

успешно применяется в решении задач региональной экономики и оценке дифференциации регионов [3].

В контексте решаемой задачи результатом кластерного анализа станут кластеры регионов, схожих по уровню социально-экономического развития. Каждый выделенный кластер получает качественную экономическую интерпретацию (рейтинг) с точки зрения социально-экономического развития.

Представим постановку задачи в математическом виде. Пусть X - множество объектов, У -множество номеров (меток) кластеров, С - множество показателей. Имеется конечная обучающая выборка из т объектов Хт = (хь ..., хт) е X. Каждому объекту хт ставится в соответствие набор значений п показателей Ст = (ст1, ..., стп) е С. Задана функция расстояния (метрика) между объектами в (Хт; Ст). Требуется разбить выборку на к непересекающихся подмножеств У = (уь ..., ук), называемых кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике в, а объекты разных кластеров существенно отличались. При этом каждому объекту хт ставится в соответствие номер кластера ук согласно некоторому алгоритму (методу) кластеризации /: X ^ У. Множество У заранее неизвестно.

На основе вышеизложенного необходимо: во-первых, сформировать множество объектов исследования; во-вторых, сформировать набор значений предварительно отобранных показателей; в-третьих, обоснованно выбрать алгоритм кластеризации.

На первом этапе в качестве объектов исследования рассматривались все субъекты Российской Федерации. На втором этапе отбора показателей возникли следующие проблемы: показателей, характеризующих социально-экономическое развитие, было отобрано более чем достаточно, что усложнило интерпретацию результатов, следовательно, появилась проблема отбора наиболее важных, которые в большей степени показывают дифференциацию развития; возникла необходимость учета мультиколлинеарности показателей, которая может исказить результаты кластеризации; ввиду отсутствия традиционного набора социально-экономических показателей отбор базировался на субъективном предпочтении исследователей, что во многом обусловило субъективность результатов.

Поскольку регионы сильно дифференцированы по численности населения, площади территории, числу зарегистрированных организаций и другим показателям, выбирались преимущественно относительные и среднедушевые показатели, что позволило произвести более адекватное сравнение регионов. Собраны основные показатели, которые, по нашему мнению, в большей степени отражают уровень социально-экономического развития регионов и опубликованы в ежегодном статистическом сборнике [4]. Из этого сборника были отобраны следующие показатели:

С1 - коэффициенты миграционного прироста (на 10 тыс. чел. населения); С2 - уровень экономической активности населения, %; С3 - уровень безработицы, %; С4 - среднедушевые денежные доходы населения, руб.; С5 - численность населения с денежными доходами ниже величины прожиточного минимума, %; С6 - потребительские расходы в среднем на душу населения, руб.; С7 - число собственных легковых автомобилей на 1 тыс. чел. населения, ед.; С8 - общая площадь жилых помещений, приходящаяся в среднем на одного жителя, м ; С9 - удельный вес расходов домашних хозяйств на оплату жилищно-коммунальных услуг, %; С10 - численность студентов образовательных учреждений высшего профессионального образования на 10 тыс. чел. населения; С11 - число зарегистрированных преступлений на 100 тыс. чел. населения; С12 - валовый региональный продукт на душу населения, руб.; С13 - степень износа основных фондов, %; С14 -оборот малых предприятий, млрд руб.; С15 -производство электроэнергии, млрд кВт-ч; С16 -ввод в действие жилых домов, м2 (общей площади) на 1 тыс. чел. населения; С17 - затраты на информационные и коммуникационные технологии, млн руб.; С18 - оборот розничной торговли на душу населения, руб.; С19 - объем платных услуг на душу населения, руб.; С20 - инновационная активность организаций, %; С21 - вклады (депозиты) физических лиц в рублях, привлеченные кредитными организациями, млн руб.; С22 - задолженность по кредитам (в рублях), предоставленным кредитными организациями физическим лицам, млн руб.; С23 - удельный вес убыточных организаций, %; С24 - просроченная задолженность по заработной плате

(в расчете на одного работника, перед которым имеется просроченная задолженность), руб.; С25 -инвестиции в основной капитал на душу населения), руб.; С26 - стоимость фиксированного набора потребительских товаров и услуг, руб.; С27 - экспорт, млн долл. США; С28 - импорт, млн долл. США; С29 - иностранные инвестиции, тыс. долл. США.

Использование большого числа показателей при кластеризации приводит к тому, что выделенные кластеры могут и не иметь четкой структуры [3], что порождает необходимость построения обобщенных критериев, каждый из которых содержит информацию сразу о нескольких показателях. Кроме того, кластерный анализ предъявляет следующие требования к данным [1, 3]: во-первых, показатели не должны коррелировать между собой; во-вторых, показатели должны быть безразмерными; в-третьих, их распределение должно быть близко к нормальному. Для решения этих проблем целесообразно применять факторный анализ.

В качестве метода факторного анализа выбран традиционно используемый метод главных компонент, подробно описанный в работе [6]. Метод варимакс с нормализацией Кайзера, выбранный в качестве метода вращения факторов, максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок [1]. В качестве критерия определения числа факторов выбран критерий Кайзера [1], согласно которому отбираются только факторы с собственными значениями, равными или большими единице. Расчеты проведены в статистическом пакете «SPSS 11.5». Высокое значения критерия адекватности выборки Кайзера - Мейера - Олкина и значение p - уровня критерия сферичности Барлетта говорят о высокой адекватности результатов факторного анализа. Рассчитанные факторные нагрузки, процент объясненной дисперсии и факторные коэффициенты представлены в табл. 1. В ней исключены показатели, которые не удалось однозначно отнести к тому или иному фактору, а также показатели, факторные нагрузки которых меньше заданного числа, т. е. незначимые.

Полученные результаты позволили провести интерпретацию факторов F1-F5. Фактор F5 включает один показатель, характеризующий объем

производства электроэнергии. Фактор F4 содержит показатели, отражающие инновационно-технологический уровень организаций. Фактор F3 отражает уровень благосостояния (бедности) населения и организаций. Фактор F2 содержит основные среднедушевые экономические показатели, отражающие уровень доходов и расходов (экономическую активность) населения. Фактор F1 однозначно интерпретировать трудно, поскольку он содержит много разнородных показателей, но имеющих большие значения факторных нагрузок: показатели экспортно-импортных сделок; показатели деятельности кредитных организаций; показатель деятельности субъектов малого бизнеса; показатель уровня затрат субъектов предпринимательства. Предлагается интерпретировать фактор F1 как критерий, характеризующий основные показатели деятельности субъектов предпринимательства и уровня деловой активности региона.

Для каждого фактора F1-F5 рассчитаны значения в разрезе регионов, которые являются исходными данными для кластеризации.

На третьем этапе необходимо выбрать метод кластеризации. В научной литературе существует достаточное количество методов кластеризации. Выбран метод кластеризации, основанный на нейронных сетях, а именно на самоорганизующихся картах Кохонена [5]. Процесс соотнесения друг с другом объектов управления с увеличением оценочных характеристик наталкивается на проблему взаимопоглощения отклонений показателей. Поскольку более чем трехмерное пространство не подходит для визуализации группировки близких многомерных моделей, то целесообразно применять нейросетевые модели данных. На это и направлено построение карт Кохонена [5] -с целью снизить размерность входных (исходных) параметров таким образом, чтобы возврат к исходной размерности искажал данные с минимальной ошибкой обобщения. Такая соревновательная сеть без вмешательства исследователя обучается размещать нейроны относительно его соседей и с учетом топографии.

Для проведения кластеризации но основе самоорганизующихся карт Кохонена использован пакет анализа данных «Deductor Academic 5.2». Для инициации кластеризации заданы параметры нормализации значений обобщающих критериев, скорость и радиус обучения сети, функция со-

Таблица 1

Результаты факторного анализа

Показатели Факторные нагрузки Факторные коэффициенты

Р1 Р2 Рз Р4 Р5 Р1 Р2 Р3 Р4 Р5

С21 0,97 0,07

С28 0,97 0,14

С14 0,95 0,15

С29 0,95 - 0,16 -

С17 0,94 0,17

С27 0,91 0,17

С22 0,75 - 0,18 -

С26 0,87 0,16

С4 0,85 0,19

С25 0,84 0,22

С12 0,79 0,25

С19 0,69 0,28

Сб 0,61 0,11

С16 0,77 0,30

Сз -0,76 -0,34

С7 0,68 0,27

С23 -0,64 -0,23

С5 -0,61 -0,23

С13 0,80 0,52

С20 - 0,79 - 0,53

С15 - 0,79 - 0,66

Основные статистические показатели

Дисперсия, % 34,911 20,389 14,129 7,259 6,516 Критерий КМО 0,83

Кумулята дисперсии, % 34,911 55,300 69,428 76,687 83,203 Критерий Барлетта 2202,97

седства. В качестве способа начальной инициализации карты выбрана инициализация примерами из обучающегося множества, поскольку объем выборки небольшой и необходимо снизить вероятность появления после обучения пустых ячеек [5].

Рассмотрим основные результаты кластеризации регионов. На рис. 1 представлены карты входных критериев, позволяющие интерпретировать кластеры с точки зрения критериев кластеризации.

На рис. 2 представлены полученные кластеры регионов и матрица плотности попадания субъектов РФ в кластеры, в табл. 2 - профили

полученных кластеров с точки зрения средних значений основных социально-экономических показателей.

На последнем этапе кластеризации дана интерпретация кластерам регионов с точки зрения уровня социально-экономического развития. Кластеризация дала девять компактных кластеров.

Кластер 0 (Тюменская область) - аномальный по уровню экономического развития. Данный кластер характеризуется очень высокими среднедушевыми показателями, низким уровнем безработицы, высокими темпами строительства жилых домов, высокими объемами производства электроэнергии, высоким благосостоянием жителей,

а) б)

'-2,03 -0.440&11 Ш09 5,7953

Рис. 1. Карты входных критериев (соответственно а-д)

а) б)

Рис. 2. Кластеры регионов (а) и матрица плотности попадания регионов в кластеры (б)

^НаучнО-ТехническиеведомостцСПбГПу^^

Таблица 2

Профили полученных кластеров

Показатели Кластеры

0 1 2 3 4 5 6 7 8

Число объектов

1 5 1 10 4 12 8 26 13

Сз 6,5 7,5 0,9 6,8 31,4 10,8 6,9 6,8 5,5

С4 27 612,0 22 653,8 34 207,0 12 608,1 6 345,0 10 169,7 15 548,0 10 643,9 13 557,4

С5 10,4 15,3 11,8 16,2 33,0 18,7 15,6 16,7 13,1

Сб 18019,0 11842,4 26732,0 8698,5 2777,3 6536,9 10700,9 7659,2 10161,6

С7 252,7 179,4 278,7 201,8 108,1 161,9 213,7 187,2 234,3

С12 829 155,0 330 375,8 643 733,1 135 884,6 47 709,6 104 868,0 179 663,7 109 807,1 167 785,1

С13 53,2 41,9 36,1 46,8 44,5 41,9 55,4 49,3 42,5

С14 363,3 48,0 4522,8 111,5 4,8 38,5 318,0 147,0 433,8

С15 90,5 6,1 52,8 5,3 - 4,6 25,1 14,8 13,4

С16 656,0 164,2 311,0 296,1 129,5 265,0 304,6 385,3 659,1

С17 22 063,0 2 074,4 95 417,0 2 518,4 89,2 1 017,2 6 636,0 2 680,2 6 489,3

С19 36 170,0 41 248,8 84 581,0 25 810,0 8 816,3 16 129,8 28 000,6 18 651,8 25 551,2

С20 6,5 6,0 14,9 9,2 - 5,7 16,5 9,4 8,5

С21 151 229,8 18 059,2 1 228 068,0 28 177,5 1 540,2 11 004,9 57 423,6 34 990,6 82 064,9

С22 189 710,7 12 972,7 349 270,7 26 760,4 3 381,6 13 873,3 67 256,6 39 292,8 70 534,1

С23 26,9 36,3 29,6 33,2 40,1 33,4 29,0 27,6 26,2

но выделяется высокой степенью износа основных фондов и низкой инновационной активностью. Данные значения показателей можно объяснить специализацией региона (нефтегазовая промышленность).

Кластер 1 (Мурманская область, Республика Саха (Якутия), Камчатский край, Сахалинская область, Чукотский автономный округ) -характеризуется средним уровнем социально-экономического развития. Кластер отличают высокие доходы и расходы населения, низкая деловая активность, в частности кредитных организаций, высокая доля убыточных организаций, но высокая инвестиционная привлекательность.

Кластер 2 (Москва) - второй аномальный кластер. Во многом уровень развития соответствует Тюменской области. Для кластера харак-

терны более высокие среднедушевые показатели, высокая деловая активность кредитных организаций, самый низкий уровень безработицы, большие суммы экспортно-импортных сделок и притока инвестиций.

Кластер 3 - имеет смысл объединить с кластером 7. Кластер 3 уступает кластеру 7 по показателям деятельности кредитных организаций, темпам строительства жилых помещений. Кластер 7 - самый многочисленный и состоит преимущественно из Приволжского и Центрального федеральных округов. По сравнению с кластерами 6 и 8, данный кластер незначительно уступает по показателям и характеризуется более низким (средним) уровнем социально-экономического развития.

Кластер 4 (Республика Ингушетия, Республика Калмыкия, Чеченская Республика, Респуб-

лика Тыва) - характеризуется очень низким уровнем социально-экономического развития. Данный кластер имеет наименьшие среднедушевые показатели, характеризуется высоким уровнем безработицы и бедности жителей, низкой инвестиционной привлекательностью и наибольшей долей убыточных организаций.

Кластер 5 (Владимирская область, Ивановская область, Республика Дагестан, Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Республика Северная Осетия - Алания, Республика Алтай, Республика Бурятия, Республика Хакасия, Забайкальский край, Амурская область, Еврейская автономная область) -преимущественно Южный, Сибирский и Дальневосточный федеральные округа. Характеризуется низким, но более высоким, по сравнению с кластером 4, уровнем социально-экономического развития. Среднедушевые показатели и инвестиционная привлекательность выше, уровень безработицы ниже.

Кластеры 6 и 8 (преимущественно Центральный и Северо-Западный федеральные округа, в том числе Санкт-Петербург и Ленинградская область) - целесообразно объединить, поскольку различие по основным показателям незначительное. Принципиальное отличие кластеров базируется на степени износа основных фондов, притоке инвестиций и инновационной

активности организаций. Оба кластера характеризуются высоким уровнем социально-экономического развития.

Исходя из изложенного, можно утверждать следующее. Регионы достаточно дифференцированы по уровню социально-экономического развития, об этом свидетельствует большой разброс средних по кластерам значений показателей. Выделяются два аномальных субъекта РФ с высоким уровнем развития. В государственной поддержке нуждаются прежде всего Южный, Сибирский и Дальневосточный федеральные округа. Состав кластеров с точки зрения принадлежности субъектов РФ к федеральным округам различен. Предположение о том, что федеральный округ - это кластер субъектов РФ, схожих по уровню социально-экономического развития, не нашло подтверждения.

Таким образом, исследование показало возможность эффективного применения самоорганизующихся карт Кохонена в задаче кластеризации регионов по уровню социально-экономического развития с точки зрения наглядности и интерпретируемости результатов. Получены кластеры регионов и интерпретирован уровень социально-экономического развития для каждого кластера. Сравнение полученных результатов с общепринятыми рейтингами позволило сделать заключение о приемлемой адекватности полученных выводов.

СПИСОК ЛИТЕРАТУРЫ

1. Бююль, А. SPSS: искусство обработки информации: Анализ статистических данных и восстановление скрытых закономерностей [Текст] : [пер. с нем.] / А. Бююль, П. Цефель. - СПб. : ДиаСофтЮП, 2005. -608 с.

2. Донченко, Ю.В. Сравнительная оценка социально-экономической эффективности развития регионов Центрального федерального округа Российской Федерации [Текст] / Ю. В. Донченко // Вопросы статистики. - 2004. - № 12. - С. 48-52 .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Ким, Дж.-О., Мьюллер Ч. У. Факторный анализ: статистические методы и практические вопросы [Текст] / Дж.-О Ким, Ч.У. Мьюллер // Факторный, дискриминантный и кластерный анализ: сб. работ:

пер. с англ.; / под. ред. И. С. Енюкова. - М.: Финансы и статистика, 1989. - 215 с.

4. Регионы России. Социально-экономические показатели. 2009 [Текст] : стат. сб. / Росстат. - М., 2009. - 990 с.

5. Саймон, Хайкин. Нейронные сети: полный курс = Neural Networks: A Comprehensive Foundation [Текст] / Хайкин Саймон. - Изд. 2-е. - М.: Вильямс, 2006. - 1104 с.

6. Читая, Г.О. Факторный анализ промышленного развития макрорегионов России [Текст] / Г.О. Читая // Вопросы статистики. - 2006. - № 2. - С. 19-28. (Еже-мес. науч.-информ. журнал / Федеральная служба государственной статистики).

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Гордополов Юрий Владимирович, Лукашевич Никита Сергее

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Гордополов Юрий Владимирович, Лукашевич Никита Сергее

Текст научной работы на тему «Кластеризация регионов по уровню социально-экономического развития на основе самоорганизующихся карт Кохонена»