Научная статья на тему 'ИССЛЕДОВАНИЕ ВИДОВ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА'

ИССЛЕДОВАНИЕ ВИДОВ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА Текст научной статьи по специальности «Экономика и бизнес»

CC BY
60
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Beneficium
ВАК
Область наук
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / CLUSTER ANALYSIS / ВИДЫ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ / ECONOMIC ACTIVITIES / МЕТОД K-СРЕДНИХ / K-MEANS / ИЕРАРХИЧЕСКИЕ АГЛОМЕРАТИВНЫЕ МЕТОДЫ / HIERARCHICAL AGGLOMERATIVE METHODS

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Кудряшова Т.В., Пиковский А.А.

Данная статья представляет продолжение исследования возможностей использования методов кластерного анализа для проведения классификации видов экономической деятельности, характеризующихся рядом разноплановых показателей. Использован метод k-средних, что наряду с ранее использованным методом иерархического объединения позволяет выбрать наиболее приемлемую с управленческой точки зрения группировку видов экономической деятельности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Кудряшова Т.В., Пиковский А.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STUDYOF ECONOMIC ACTIVITIES ON THE BASISCLUSTER ANALYSIS

This article is a continuation of research opportunities of using cluster analysis methods for classification of economic activities, characterized by a series of diverse indicators. K-means method used in addition to the previously used method for hierarchical merge allows you to select the most acceptable from a management perspective grouping of economic activities.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ВИДОВ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА»

УДК 338.24

КУДРЯШОВА Т. В., ПИКОВСКИЙ А. А.

ИССЛЕДОВАНИЕ ВИДОВ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА

STUDYOF ECONOMIC ACTIVITIES ON THE BASISCLUSTER ANALYSIS

Аннотация. Данная статья представляет продолжение исследования возможностей использования методов кластерного анализа для проведения классификации видов экономической деятельности, характеризующихся рядом разноплановых показателей. Использован метод ^ средних, что наряду с ранее использованным методом иерархического объединения позволяет выбрать наиболее приемлемую с управленческой точки зрения группировку видов экономической деятельности.

Ключевые слова: кластерный анализ, виды экономической деятельности, метод ^средних, иерархические агломеративные методы.

Annotation. This article is a continuation of research opportunities of using cluster analysis methods for classification of economic activities, characterized by a series of diverse indicators. K-means method used in addition to the previously used method for hierarchical merge allows you to select the most acceptable from a management perspective grouping of economic activities.

Keywords: cluster analysis, economic activities, k-means, hierarchical agglomerative methods.

Распределение видов экономической деятельности по уровню занятости населения является одной из множества актуальных проблем управления национальной экономикой, т.к. ответ на этот вопрос позволяет выявить не только специализацию отдельных регионов и страны в целом по видам экономической активности, но также оценить уровень развития экономики, выявить наиболее проблемные места с точки зрения наличия занятого населения, оплаты его труда, уровня образования, возрастного состава и количества отработанного времени.

Одним из общепризнанных инструментов исследования массовых явлений и процессов, к числу которых, несомненно, относятся и виды экономической деятельности населения, являются методы кластерного анализа. Использование методов кластерного анализа продиктовано, прежде всего, тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности, а также могут исполь-

зоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m - целое) кластеров (подмножеств) Q1, Q2, ..., Qm так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время как объекты, принадлежащие разным кластерам, были разнородными. Для решения данной задачи в кластерном анализе используются следующие основные методы: Joining (tree clustering) (иерархические агло-меративные методы или древовидная кластеризация), ^-means clustering (метод К-средних), Two-way joining (двухвходовое объединение) и др. [1, 4].

Основной задачей данного исследования стало проведение классификации объ-

ектов с учетом признаков, отражающих их сущность и природу. Объектами выступили виды экономической деятельности, каждый из которых характеризуется среднегодовой численностью занятого населения (человек), среднемесячной номинальной начисленной заработной платой (рублей), отработанным временем (тыс. человеко-часов), средним возрастом работников (лет), наличием высшего профессионального образования (тыс. человек).

В соответствии с общероссийским классификатором видов экономической деятельности (ОКВЭД) выделяются следующие ее виды:

1) сельское и лесное хозяйство, охота, рыболовство;

2) добыча полезных ископаемых;

3) обрабатывающие производства;

4) производство и распределение электроэнергии, газа и воды;

5) строительство;

6) оптовая и розничная торговля, ремонт автотранспортных средств, мотоцик-

лов, бытовых изделий и предметов личного пользования, гостиницы и рестораны;

7) транспорт и связь;

8) финансовая деятельность, операции с недвижимым имуществом, аренда и предоставление услуг;

9) государственное управление и обеспечение военной безопасности, социальное обеспечение;

10) образование;

11) здравоохранение и предоставление социальных услуг;

12) другие виды экономической деятельности.

На основе общероссийского классификатора видов экономической деятельности (ОКВЭД) введены условные обозначения этих видов. С учетом вышеперечисленных объектов (с введенными обозначениями) и их признаков исходные данные для проведения кластерного анализа представлены в таблице 1 (по состоянию на 2010 г.).

Таблица 1

Виды экономической деятельности и характеризующие их признаки _

№ Виды экономической деятельности по ОКВЭД Обозначение по ОКВЭД Среднегодовая численность занятого населения, человек Среднемесячная номинальная начисленная заработная плата, рублей Всего отработано, тыс. человеко-часов Средний возраст работников, лет Высшее профессиональное образование имеют, тыс. человек

1 2 3 4 5 6 7 8

1 Сельское и лесное хозяйство, охота, рыболовство AB 6816658 32532,7 524523 41,8 424

2 Добыча полезных ископаемых C 11190870 35363,4 51479 39,8 274

3 Обрабатывающие производства D 1883646 16583,1 485965 40,7 2744

4 Производство и распределение электроэнергии,газа и воды E 5474478 16583,1 79222 43,2 486

5 Строительство F 12020127 16583,1 203734 39 1019

6 Оптовая и розничная торговля, ремонт автотранспортных средств, мотоциклов, бытовых изделий и предметов личного пользования, гостиницы и рестораны G 5450789 16583,1 445209 36,7 2376

7 Транспорт и связь I 1131912 16583,1 262344 40,4 1282

8 Финансовая деятельность, операции с недвижимым имуществом, аренда и предоставление услуг J 5145505 42372,9 47974 35,6 783

Продолжение таблицы 1

1 2 3 4 5 6 7 8

9 Государственное управление и обеспечение военной безопасности, социальное обеспечение L 3727026 23960 174079 36,9 2244

10 Образование М 5980135 13293,6 225631 41,8 3476

11 Здравоохранение и предоставление социальных услуг N 4666375 14819,5 196330 41,6 1629

12 Предоставление прочих коммунальных, социальных и персональных услуг О 2621168 15070 94273 39,8 768

Необходимо разбить виды экономической деятельности на несколько однородных групп, в которых они мало бы отличались друг от друга.

В данном исследовании расчеты проводились с использованием программного продукта 81ай811са. Переменными (столбцами) выступали признаки, наблюдениями (строками) являлись виды экономической деятельности.

Наиболее трудным и наименее формализованным в задаче классификации является определение понятия однородности (понятие сходства и различия) объектов.

На первом этапе исследования, результаты которого отражены в статье «Возможности исследования видов экономической деятельности на основе кластерного анализа» [3], среди различных мер расстояния между объектами было выбрано евклидово расстояние (1) [1, 4]:

л ,, =

т .

к -

к=1

Х]к,

(1)

расстояние между г-м и у-м

где объектами;

Хгк и Хук - значения к-й переменной соответственно у г-го и у-го объектов.

Понятно то, что г-й и у-й объекты попадали бы в один кластер, когда расстояние (отдаленность) между точками хг и ху было бы достаточно маленьким, и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни же-

лательности различных разбиений и группировок, который называют целевой функцией.

Наиболее распространенными функционалами качества являются.

1) Сумма квадратов расстояний до центров классов или сумма внутриклассовых дисперсий (2):

=Е Е л2 X, X/)

(2)

/=1 ,еХ

где I - номер кластера (I = 1, 2,..., к);

X - центр 1-го кластера;

X - вектор значений переменных для г-го объекта, входящего в 1-й кластер;

Л 2(X, Х1) - расстояние между г-м объектом и центром 1-го кластера.

При использовании этого критерия стремятся получить такое разбиение совокупности объектов на к кластеров, при котором значение ¥1 было бы минимальным.

2) Сумма попарных внутриклассовых расстояний между объектами (3):

^=ЕЕ л,, ■

/=к

(3)

В этом случае наилучшим следует считать такое разбиение, при котором достигается минимальное значение ¥2, т.е. получены кластеры большой «плотности». Объекты, попавшие в один кластер, близки между собой по значениям тех переменных, которые использовались для классификации.

3) Суммарная (обобщенная) внутриклассовая дисперсия (4) [1, 2]:

к Р

ръ = ЕЕаИ, (4)

/=1 , =1

2

к

где - дисперсия у'-й переменной в

кластере 5/.

В проводимом исследовании разбиение, при котором сумма внутриклассовых (внутригрупповых) дисперсий будет минимальной, целесообразно считать наиболее подходящим.

Из всех методов кластерного анализа самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на первом шаге каждый объект выборки рассматривается как отдельный кластер. Последовательность объединения легко поддается геометрической интерпретации и может быть представлена в виде графа-дерева (дендрограммы) [1, 4].

Немаловажным вопросом при проведении иерархической кластеризации является выбор правила объединения. Существуют следующие правила иерархического объединения кластеров: правило одиночной связи; правило полных связей; правило не-взвешенного попарного среднего; взвешенное попарное среднее; невзвешенный цент-роидный способ; взвешенный центроидный способ; метод Уорда [1, 2, 4].

В проведенном исследовании [3] были использованы методы объединения: правило одиночной связи и метод Уорда.

Древовидная кластеризация с использованием метода Уорда представлена на рисунке 1.

Дендрограмма для 12 набл. Метод Уорда Евклидово расстояние

о 4

I Е Ь О М Б I Б САВ

Рис. 1. Древовидная кластеризация объектов по методу Уорда

8

7

6

5

3

2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

N О

Визуальный анализ данной дендро-граммы позволяет предположить, что наиболее предпочтительным будет объединение объектов в три кластера: первый кластер будет состоять из N (здравоохранение и предоставление социальных услуг), О (предоставление прочих коммунальных, социальных и персональных услуг), I (транспорт и связь), Е (производство и распределение электроэнергии, газа и воды); второй - из Ь (государственное управление и обеспечение военной безопасности, социальное

обеспечение), О (оптовая и розничная торговля, ремонт автотранспортных средств, мотоциклов, бытовых изделий и предметов личного пользования), М (образование), Б (обрабатывающие производства); а третий -из I (финансовая деятельность, операции с недвижимым имуществом, аренда и предоставление услуг), Б (строительство), С (добыча полезных ископаемых), АВ (сельское и лесное хозяйство, охота, рыболовство).

Как показал анализ полученных результатов [3], метод Уорда наиболее интере-

сен, т.к. образует кластеры приблизительно равных размеров с минимальной внутрикла-стерной вариацией в отличие от метода одиночной связи, приводящего к образованию слишком больших продолговатых кластеров.

Следующим этапом исследования целесообразно провести классификацию объектов исследования другими методами. В кластерном анализе существуют методы, которые трудно отнести к агломеративным (объединяющим) и дивизимным (разделяющим), - это итеративные методы (например, метод к-средних). Их характерная особенность в том, что кластеры формируются, исходя из задаваемых условий разбиения (параметров), которые в процессе работы алгоритма могут быть изменены пользователем для достижения желаемого качества разбиения. В отличие от агломеративных и дивизим-ных методов итеративные алгоритмы могут привести к образованию пересекающихся кластеров, когда один объект может одновременно принадлежать нескольким кластерам.

Метод к-средних существенно отличается от иерархических агломеративных методов. Он применяется, если пользователь уже имеет представление относительно числа кластеров, на которые необходимо разбить наблюдения. Тогда метод к-средних строит ровно к различных кластеров, расположенных на возможно больших расстояниях друг от друга.

В отличие от иерархических процедур метод к-средних не требует вычисления

и хранения матрицы расстояний или сходств между объектами. Алгоритм этого метода предполагает использование только исходных значений переменных. Для начала процедуры классификации должны быть заданы к случайно выбранных объектов, которые будут служить эталонами, т.е. центрами кластеров. Считается, что алгоритмы эталонного типа удобные и быстродействующие. В этом случае важную роль играет выбор начальных условий, которые влияют на длительность процесса классификации и на его результаты [1, 2, 4].

Для реализации метода к-средних сначала выбираются объекты для кластеризации. Поскольку цель исследования состоит в кластеризации отраслей, то в качестве таковых выбираются наблюдения (строки) или виды экономической деятельности. Число кластеров должно быть больше 1 и меньше, чем количество объектов. Метод к-средних является процедурой, в результате которой на каждой итерации объекты перемещаются в различные кластеры. Для примера было взято число кластеров, равное 5, и число итераций, равное 10. В результате проведения кластеризации видов экономической деятельности при указанных стартовых условиях можно получить такие данные как средние величины кластера (класса) по всем наблюдениям, евклидовы расстояния и квадраты евклидовых расстояний между кластерами. Результаты дисперсионного анализа представлены в таблице 2.

Таблица 2

Дисперсионный анализ (число кластеров^ = 5)

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 9,7946 4 2,2054 7 7,7720 0,0102

Среднемесячная номинальная начисленная заработная плата, рублей 9,2007 4 2,7993 7 5,7519 0,0225

Всего отработано, тыс. человеко-часов 7,8675 4 4,1324 7 3,3316 0,0789

Средний возраст работников, лет 6,5244 4 5,4755 7 2,0852 0,1862

Высшее профессиональное образование имеют, тыс. человек 9,9837 4 2,0162 7 8,6651 0,0076

В таблице 2, где строки - переменные (наблюдения), а столбцы - показатели для каждой переменной, приведены: дисперсия между кластерами (межгрупповая); число степеней свободы для межгрупповой дисперсии; дисперсия внутри кластеров (внут-ригрупповая); число степеней свободы для внутригрупповой дисперсии; Б-критерий, для проверки гипотезы о неравенстве дисперсий; значимость рассчитанных показателей. Чем меньше значение внутригрупповой дисперсии и больше значение межгрупповой дисперсии, тем лучше признак характе-4

ризует принадлежность объектов к кластеру и тем «качественнее» кластеризация.

Таким образом, из данных таблицы 2 следует, что переменные «Всего отработано, тыс. человеко-часов» и «Средний возраст работников, лет» вносят меньший, по сравнению с другими признаками, вклад при разбиении видов экономической деятельности на 5 кластеров.

Средние значения переменных для каждого кластера можно увидеть на линейном графике (см. рисунок 2).

3 2 1 0 -1 -2 -3 -4

Численность занятого населения Отработано человеко-часов Высшее профессиональное образование

Заработная плата Средний возраст

Переменные

^^ Кластер 1 -о Кластер 2 •■о-- Кластер 3 -й- Кластер 4 -•- Кластер 5

Рис. 2. Средние значения переменных для каждого кластера (число кластеров = 5)

Из рисунка 2 видно, что в отдельных кластерах средние значения отдельных параметров незначительно отличаются друг от друга. Это свидетельствует о не очень успешном разбиении на группы. Это может быть связано с тем, что данные характеристики слабо различимы для различных видов экономической деятельности. При итеративном способе кластеризации можно по-

экспериментировать с устранением отдельных переменных. Так, например, если исключить из рассмотрения такие переменные, как «Всего отработано, тыс. человеко-часов» и «Средний возраст работников, лет», то при разбиении совокупности на 5 кластеров результаты будут отличными от предыдущего разбиения (см. таблицу 3).

Таблица 3

Дисперсионный анализ при меньшем числе переменных (число кластеров = 5)

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 8,2901 4 3,7098 7 3,9106 0,0561

Среднемесячная номинальная начисленная заработная плата, рублей 10,947 4 1,0528 7 18,195 0,0008

Высшее профессиональное образование имеют, тыс. человек 10,923 4 1,0765 7 17,756 0,0009

Но прежде, чем принимать решение об исключении каких-либо переменных, необходимо посмотреть результаты кластеризации при другом числе групп (кластеров). В

таблицах 4, 5, 6 и 7 представлены результаты дисперсионного анализа при различном числе групп разбиения исходной совокупности и первоначальном наборе переменных.

Таблица 4

Дисперсионный анализ (число кластеров = 6)___

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 9,837 5 2,163 6 5,458 0,031

Среднемесячная номинальная начисленная заработная плата, рублей 9,532 5 2,468 6 4,635 0,044

Всего отработано, тыс. человеко-часов 7,950 5 4,050 6 2,355 0,163

Средний возраст работников, лет 10,468 5 1,532 6 8,198 0,012

Высшее профессиональное образование имеют, тыс. человек 10,635 5 1,365 6 9,352 0,008

Таблица 5 Дисперсионный анализ (число кластеров = 4)

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

1 2 3 4 5 6 7

Среднегодовая численность занятого населения, человек 8,282 3 3,718 8 5,940 0,020

Таблица 5

Продолжение таблицы 5

1 2 3 4 5 6 7

Среднемесячная номинальная начисленная заработная плата, рублей 8,866 3 3,134 8 7,545 0,010

Всего отработано, тыс. человеко-часов 3,811 3 8,189 8 1,241 0,357

Средний возраст работников, лет 5,760 3 6,240 8 2,461 0,137

Высшее профессиональное образование имеют, тыс. человек 9,950 3 2,050 8 12,944 0,002

Таблица 6

Дисперсионный анализ (число кластеров = 3)___

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 6,526 2 5,474 9 5,365 0,029

Среднемесячная номинальная начисленная заработная плата, рублей 7,100 2 4,900 9 6,521 0,018

Всего отработано, тыс. человеко-часов 2,509 2 9,491 9 1,190 0,348

Средний возраст работников, лет 2,600 2 9,400 9 1,244 0,333

Высшее профессиональное образование имеют, тыс. человек 9,916 2 2,084 9 21,415 0,000

Таблица 7

Дисперсионный анализ (число кластеров = 2)___

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 6,404 1 5,596 10 11,443 0,007

Среднемесячная номинальная начисленная заработная плата, рублей 7,021 1 4,979 10 14,102 0,004

Всего отработано, тыс. человеко-часов 0,152 1 11,848 10 0,129 0,727

Средний возраст работников, лет 0,628 1 11,372 10 0,552 0,475

Высшее профессиональное образование имеют, тыс. человек 4,246 1 7,754 10 5,476 0,041

Результаты кластеризации, приведенные в таблицах 4, 5, 6 и 7, также свидетельствуют о не очень успешной кластеризации. Это следует из того, что переменные «Всего отработанно, тыс. человеко-часов» и «Средний возраст работников, лет» вносят

незначительный вклад при разбиении видов экономической деятельности на кластеры (малые значения межгрупповой дисперсии, большие значения внутригрупповой дисперсии и, соответственно, малые значения F-критерия и большие значения уровня зна-

чимости p). Поэтому целесообразно из про- на кластеры при меньшем числе перемен-цедуры кластеризации их исключить. ных представлено в таблицах 8, 9, 10, 11, а

Проведение разбиения совокупности также в таблице 3.

Таблица 8

Дисперсионный анализ при меньшем числе переменных (число кластеров = 6)

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 10,081 5 1,919 6 6,302 0,022

Среднемесячная номинальная начисленная заработная плата, рублей 10,981 5 1,019 6 12,931 0,004

Высшее профессиональное образование имеют, тыс. человек 10,997 5 1,003 6 13,158 0,003

Таблица 9

Дисперсионный анализ при меньшем числе переменных (число кластеров = 4)

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 7,900 3 4,100 8 5,138 0,029

Среднемесячная номинальная начисленная заработная плата, рублей 10,658 3 1,342 8 21,182 0,000

Высшее профессиональное образование имеют, тыс. человек 10,127 3 1,873 8 14,418 0,001

Таблица 10

Дисперсионный анализ при меньшем числе переменных (число кластеров = 3)

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 5,950 2 6,050 9 4,426 0,046

Среднемесячная номинальная начисленная заработная плата, рублей 10,579 2 1,421 9 33,510 0,000

Высшее профессиональное образование имеют, тыс. человек 6,559 2 5,441 9 5,425 0,028

Таблица 11

Дисперсионный анализ при меньшем числе переменных (число кластеров = 2)_

Переменные Межгрупповая дисперсия Число степеней свободы Внутригрупповая дисперсия Число степеней свободы Б-критерий Значимость, р

Среднегодовая численность занятого населения, человек 6,404 1 5,596 10 11,443 0,007

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Среднемесячная номинальная начисленная заработная плата, рублей 7,021 1 4,979 10 14,102 0,004

Высшее профессиональное образование имеют, тыс. человек 4,246 1 7,754 10 5,476 0,041

Результаты кластеризации, приве- целесообразно выбрать число кластеров,

денные в таблицах 3, 8, 9, 10 и 11 без учета равное 6, т.к. при таком числе кластеров все

параметров «Всего отработанно, тыс. чело- переменные вносят существенный вклад при

веко-часов» и «Средний возраст работников, разбиении на классы.

лет» свидетельствуют о более успешной Средние значения переменных для

кластеризации. На основе дисперсионного каждого кластера представлены на линей-

анализа после удаления данных переменных ном графике (см. рисунок 3).

3,0

2,5

2,0

1,5

1,0

0,5

0,0

-0,5

-1,0

-1,5

-2,0

-2,5

Численность занятого населения Высшее профессиональное образование

Заработная плата

Переменные

Кластер 1 Кластер 2 Кластер 3 Кластер 4 Кластер 5 Кластер 6

Рис. 3. Средние значения переменных для каждого кластера

Далее выводится классификация ви- расстояния (см. таблицу 12). дов экономической деятельности и евклидовы

Таблица 12

Классификация видов экономической деятельности и евклидовы расстояния

Виды экономической деятельности Обозначение по ОКВЭД Кластер Расстояние

Сельское и лесное хозяйство, охота, рыболовство АВ 6 0,36

Добыча полезных ископаемых С 4 0,00

Обрабатывающие производства Б 1 0,40

Производство и распределение электроэнергии, газа и воды Е 3 0,49

Строительство Б 5 0,00

Оптовая и розничная торговля, ремонт автотранспортных

средств, мотоциклов, бытовых изделий и предметов личного О 1 0,36

пользования

Транспорт и связь I 3 0,45

Финансовая деятельность, операции с недвижимым I 6 0,36

имуществом, аренда и предоставление услуг

Государственное управление и обеспечение военной безопасности, социальное обеспечение Ь 1 0,33

Образование М 2 0,00

Здравоохранение и предоставление социальных услуг N 3 0,41

Другие виды экономической деятельности О 3 0,23

Как видно из таблицы 12, к первому кластеру относятся такие виды экономической деятельности, как Б (обрабатывающие производства); О (оптовая и розничная торговля, ремонт автотранспортных средств, мотоциклов, бытовых изделий и предметов личного пользования); Ь (государственное управление и обеспечение военной безопасности, социальное обеспечение). Для данного кластера характерно то, что высшее профессиональное образование имеют почти 2500 тыс. человек, среднемесячная номинальная начисленная заработная плата находится в пределах от 16000 до 24000 рублей.

Ко второму кластеру относится только М (образование). Данный вид экономической деятельности характеризуется самой высокой долей работников, имеющих высшее профессиональное образование, самой низкой из всех видов экономической деятельности среднемесячной номинальной заработной платой; количество занятого населения находится примерно на 4 месте из всех рассмотренных видов экономической деятельности.

К третьему кластеру относятся такие виды экономической деятельности, как Е (производство и распределение электроэнергии, газа и воды); I (транспорт и связь); N (здравоохранение и предоставление социальных услуг); О (другие виды экономической деятельности). Для данного кластера

характерно, что средняя номинальная заработная плата составляет примерно 16000 рублей.

К четвертому кластеру относится вид деятельности С (добыча полезных ископаемых), для которого характерно наименьшее число работников, имеющих высшее профессиональное образование, при этом численность занятого населения в этой отрасли уступает лишь строительству, средняя номинальная заработная плата составляет около 35000 рублей.

К пятому кластеру относится Б (строительство). Данный вид деятельности имеет самое большое число занятого населения при средней номинальной заработной плате равной приблизительно 16500 рублей.

К шестому кластеру относится I (финансовая деятельность, операции с недвижимым имуществом, аренда и предоставление услуг), а также АВ (сельское и лесное хозяйство, охота, рыболовство). Для данных видов деятельности характерна самая высокая номинальная заработная плата и примерно одинаковое количество занятого населения.

Если сравнивать результаты кластеризации видов экономической деятельности на основе двух методов (метод иерархического объединения [3] и метод к-средних), то можно отметить следующие особенности.

Оба метода объединили такие виды

деятельности как E, I, N O в один кластер, хотя число переменных, по которым проводилось сравнение, в методек-средних было уменьшено. Это позволяет предположить, что выделенный кластер объединяет такие виды экономической деятельности, по которым могут приниматься похожие управляющие воздействия, приводящие к сопоставимым результатам.

Выделенный в иерархическом методе кластер, включающий виды деятельности D, G, L и M, есть сумма двух кластеров в методе к-средних (кластер, состоящий из D, G, L, и кластер из M). В данном случае выделение образования в отдельный кластер представляется более целесообразным, т.к. особенности и специфика данного вида деятельности требуют особого внимания при принятии управленческих решений.

Наконец, третий кластер при иерархическом объединении, включающий такие виды деятельности как AB, С, Г и J, есть сумма трех кластеров в методе к-средних (кластер, состоящий из АВ и J, кластер, состоящий из С, и кластер из Б). Для окончательного решения по установлению состава кластеров в данном случае необходимо провести дополнительное исследование, либо принимать управленческие решения по отношению к данным видам экономической деятельности более дифференцированно.

Совокупность методов кластерного анализа не исчерпывается методами иерархического объединения и методом к-средних. Существует целый ряд методов, которые также могут быть использованы для выделения однородных классов объектов (например, двухвходовое объединение, когда одновременно классифицируются как

наблюдения, так и переменные).

Подводя итог проведенного исследования можно сделать вывод о возможности и целесообразности использования методологии кластерного анализа для классификации видов экономической деятельности с учетом таких признаков как численное значение занятого населения, оплата его труда, уровень образования, возрастной состав и количество отработанного времени. Расширение числа признаков, характеризующих виды экономической деятельности, может дать основу для расширения спектра используемых видов кластерного анализа.

Литература

1. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы: Учебник. - М.: Финансы и статистика, 2003. - 352 с.

2. Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS. Учебник для вузов. - М.: Издательский дом ГУ-ВШЭ. Серия: Учебники Высшей школы экономики, 2006. - 283 с.

3. Кудряшова Т.В. Возможности исследования видов экономической деятельности на основе кластерного анализа // Сборник статей Всероссийской научно-практической конференции (с международным участием) «Экономика и управление в ХХ1веке: современные проблемы и тенденции развития» / Под ред. Грековой Г.И. и др.; НовГУ им. Ярослава Мудрого. - Великий Новгород, 2012. - С. 90-99.

4. Ниворожкина Л.И., Арженовс-кий С.Б. Многомерные статистические методы в экономике: Учебник для вузов. - М.: Дашков и К / Наука-Спектр, 2007. - 224 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.