сфере труда // Профессиональное образование. - 2003. - № 10. URL: http://www.dcz.-gov.ua/cri/control/uk/publish/article/ (дата обращения: 21.02.2009).
7. Майер В.В. Роль качества образования в социально-экономическом развитии // Экономика образования. 2006. - № 2 (33). - С. 71-74.
8. Красильникова Е.В., Ванеркина Т.С. Оценка качества образования с учетом требований потребителей // Экономика образования. - 2006.- № 2 (33). - С. 49-55.
9. Бурмистрова Е.В. Исследование рынка образовательных услуг с целью оценки удовлетворенности потребителей // Экономика образования. - 2006. - № 1(32). - С. 55-57.
10. Добрыднев С.И. К вопросу определения продукта вуза // Маркетинг в России и за рубежом. - 2004. - № 4 (42). - С. 28.
11. Федюкин И. Управление спросом и предложением на российском рынке образования // Отечественные записки. - 2007. - № 3 (35). - С. 45-53.
Задорожняя Елена Константиновна
Технологический институт федерального государственного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге E-mail: [email protected]
347928, г. Таганрог, пер. Некрасовский, 44, тел. 371-742 Доцент.
Масыч Марина Анатольевна
E-mail: [email protected] Доцент.
Паничкина Марина Васильевна
E-mail: [email protected] Доцент.
Zadorognya Elena Konstantinovna
Taganrog Institute of Technology - Federal State-Owned Educational Establishment of Higher Vocational Education «Southern Federal University»
E-mail: [email protected]
44, Nekrasovskiy, Taganrog, 347928, Russia, phone 371-742 Associate professor.
Masich Marina Anatolevna
E-mail: [email protected] Associate professor.
Panichkina Marina Vasilevna E-mail: [email protected] Associate professor.
УДК 517.77
А.Ю. Казанская, В.С. Компаниец
ОПЫТ ИССЛЕДОВАНИЯ МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА ИЗ ПАКЕТА STATISTICA 6.0 НА ПРИМЕРЕ ВЫБОРКИ ГОРОДОВ
Рассматриваются особенности применения различных методов кластерного анализа в решении задачи кластеризации городов по сформированной системе частных социально-экономических показателей при помощи пакета статистических программ Statsoft Statistica 6.0.
Методы кластерного анализа; статистический анализ; социально-экономические индикаторы; муниципальная статистика.
A.Y. Kazanskaya, V.S. Kompaniets
THE RESEARCH EXPERIENCE OF CLUSTER ANALYSIS METHODS FROM PACKAGE STATISTICA 6.0 ON THE EXAMPLE OF TOWNS’ SAMPLE
Application Features of different cluster analysis methods are considered in solving the problem of towns clustering, on the basis of formed particular socio-economical indicators system, by means of program package Statsoft Statistica 6.0.
Methods of cluster analysis; statistic analysis; socio-economical indicators; municipal statistics.
В пакете статистических программ Statsoft Statistica 6.0 в модуле кластерного анализа представлены семь иерархических агломеративных методов, итерационный метод k-средних и метод двухвходового объединения. В данной работе представлены результаты исследования возможности различных сочетаний методов кластеризации и мер сходства удовлетворительно решать задачу кластеризации городов по сформированной системе 12 частных индикаторов. В результате эксперимента должно быть выявлено такое сочетание метода кластеризации и меры сходства, которое лучшим, с точки зрения содержательного анализа, образом группирует города тестовой выборки. Качество получаемых в процессе эксперимента кластерных решений оценивалось формально по значению энтропии, а затем по результатам содержательного анализа. Момент остановки процедуры кластеризации, т.е. число и состав получаемых кластеров, определялся совместным анализом пошагового графика объединения и дендрограммы метода.
Эксперимент осуществлялся с группой всех иерархических агломеративных методов посредством перебора всех возможных сочетаний методов и мер сходства для кластеризации тестовой выборки.
Метод одиночной связи. Как и следовало ожидать, метод одиночной связи оказался непригоден. Удовлетворительного решения получено не было, так как во всех рассмотренных случаях с различными мерами сходства проявился цепной эффект.
Неудачей закончилось использование процента несогласия в качестве меры сходства. Ни один из семи методов с использованием данной меры не привел к решению. И этот результат следовало ожидать, так как исходные данные не являются категориальными.
Метод полной связи. Используя метод полной связи и евклидово расстояние в качестве меры сходства, было получено решение о разбиении тестовой выборки на два кластера. Резкий вертикальный скачок графика на последнем шаге итерации можно интерпретировать как объединение несхожих кластеров. Следовательно, решение уже получено и дальнейшее объединение кластеров не имеет смысла. Аналогично выполнялся поиск решений для других вариантов меры сходства. С помощью метода полной связи в четырех случаях из семи было получено решение
о разбиении тестовой выборки на два кластера. Использование в качестве меры сходства расстояния Чебышева и коэффициента корреляции привели к решению из трех кластеров. Процент несогласия в качестве меры сходства, как уже указывалось, к решению не привел.
Так, для варианта из двух кластеров в первый из них стабильно попадают практически все города - центры субъектов РФ (14 из 16). Исключение - г. Псков и г. Кострома попали в число «лидеров» второго кластера. Для варианта из трех кластеров указанные центры переходят вместе с группой «лидеров» (городами Волжским, Новороссийском, Орском и Таганрогом) в первый кластер. «Лидерами» из всей выборки стали города Курск и Мурманск (два случая), а также Киров и Магнитогорск (один случай), которые выделились в отдельный кластер. Город
Сочи, единственный из всех городов «не центров», устойчиво попадает в первый кластер. Наибольшие значения Н зафиксированы для вариантов из трех кластеров.
Метод невзвешенного попарного среднего (UPGMA). Используя различные варианты меры сходства, метод позволил получить все решения из трех кластеров.
В целом, результаты метода невзвешенного попарного среднего характеризуют «единогласие» при оценке числа кластеров, но меньшая устойчивость состава кластеров. В частности, в первом кластере всегда присутствовали только три города: Калининград, Сочи и Ставрополь, во втором кластере - 25 (из 31 города-«не центра»). В третьем кластере сменяли друг друга Курск, Киров и Мурманск.
Метод взвешенного попарного среднего (WPGMA). Метод взвешенного попарного среднего обнаруживал, как правило, решения из двух кластеров (в пяти из семи случаев). К тому же все они оказались по составу очень похожи. Только при использовании обратного коэффициента корреляции было получено три кластера. В целом, метод оправдал свое название. Использование весовых коэффициентов позволило более точно распознать города-центры субъектов. Так, при использовании обратного коэффициента корреляции в первый кластер попали 15 из 16 таких городов, однако устойчиво всеми способами определялись только шесть из них. К тому же в первый кластер к городам-центрам попали «лидеры» из соседнего кластера: Таганрог, Волжский Магнитогорск и Орск. Второй кластер устойчиво собирает города-«не центры» (26 из 31).
Методы средней связи. Из четырех рассмотренных методов средней связи решения позволили получить только два метода попарного среднего. Центроид-ные методы привели к цепочному эффекту. Объяснить такой результат можно неравными размерами образуемых кластеров.
Метод Уорда. Этот метод единственный из всех позволил получить решение из четырех кластеров (один случай из семи). Большинство же решений сводилось к трем кластерам.
В целом, несмотря на меньшую устойчивость решений (в первый кластер устойчиво включались только семь городов, из них пять - города-центры субъектов РФ, второй кластер устойчиво объединяет 23 города-«не центра» из 31) метод Уорда с формальной точки зрения более качественный, так как получил самые высокие в эксперименте значения энтропии Н=1,47-1,67 бит.
Подводя общий предварительный итог использования агломеративных методов кластеризации, можно сделать следующие выводы.
1. Доминирующим решением является три кластера: из 24 приведших к решению вариантов 14 выявили три кластера, 9 - два кластера, 1 - четыре кластера.
2. Методы в целом удовлетворительно выявили в тестовой выборке разные по статусу города: центры субъектов РФ и города-«не центры». Наилучшие результаты показали метод взвешенного попарного среднего (мера сходства - обратный коэффициент корреляции): 15 из 16 городов-центров включены в первый кластер, 26 из 31 городов-«не центров» - во второй; метод полной связи при разбиении на два кластера в четырех случаях из семи выявил соответственно 14 и 29 городов.
3. Все полученные решения из трех кластеров можно условно разделить на две группы, различные по составу третьего кластера: первая группа решений (получаемая методами полной и средней связи) в третьем кластере содержит более сильные города-центры с более высокими значениями показателей (Киров, Мурманск, Курск); вторая группа решений (метод Уорда) формирует третий кластер из «слабых» представителей городов-центров (Кострома, Псков) и «сильных» не центров (Новороссийск, Таганрог, Орск, Волжский). Единственное решение из четы-
рех кластеров необходимо более тщательно исследовать, так как оно соответствует сразу обеим указанным группам.
Таким образом, при использовании итерационного метода ^-средних следует установить значение числа кластеров, равное трем как наиболее вероятное, однако проверить следует разбиение и на четыре кластера (табл. 1, 2). Отметим, что все таблицы составлены авторами по материалам исследования.
Таблица 1
Общие результаты разбиения на три кластера тестовой выборки методом ^-средних с различными способами определения начального разбиения
Способ разбиения Н Характеристика решения кластеризации
1 кластер 2 кластер 3 кластер
1, 32 1,45 10 (Брянск, Калининград, Киров, Курск, Магнитогорск, Мурманск, Смоленск, Сочи, Ставрополь, Тверь) 25 Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Орск, Пятигорск, Сарапул, Шахты, Энгельс, 12 Великий Новгород, Владикавказ, Владимир, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орел, Псков, Таганрог, Тамбов
2, 31 1,47 14 (Брянск, Владикавказ, Владимир, Калининград, Киров, Курск, Магнитогорск, Мурманск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь) 24 Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс 9 Великий Новгород, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог
Так как метод ^-средних чувствителен к начальному разбиению, проведем исследование трех различных способов его формирования. В итоговой табл. 1 в колонке «Способ разбиения» цифрами обозначены следующие способы:
1) автоматический подбор начального разбиения с максимальным межгруп-повым расстоянием;
2) автоматический подбор начальных центров групп по сортированному списку объектов;
3) прямое указание начальных центров групп вручную (один раз способ был применен без изменения исходного алфавитного списка городов - центрами стали Армавир, Балаково и Батайск (в таблице этот вариант помечен 31); второй раз (обозначение 32) центрами были указаны Калининград, Димитровград, Псков, так как в дендрограммах метода Уорда для трех кластеров указанные города чаще всего оказывались примерным геометрическим центром своего кластера).
Полученные методом ^-средних решения для трех кластеров дополняют группу решений метода Уорда, когда третий кластер формируют относительно «слабые» представители городов-центров (Кострома, Псков, Великий Новгород и Калуга) и «сильные» не центры (Новороссийск, Таганрог, Орск, Волжский, Нальчик и Орск).
В табл. 2 представлены решения методом ^-средних для четырех кластеров.
Таблица 2
Общие результаты разбиения на четыре кластера тестовой выборки методом ^ средних с различными способами определения начального разбиения
Способ разбиения Н Характеристика решения кластеризации
1 кластер 2 кластер 3 кл. 4 кластер
1 1,74 9 (Брянск, Владикавказ, Владимир, Курск, Магнитогорск, Орел, Смоленск, Тамбов, Тверь) 24 Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс 5 Калининград, Киров, Мурманск, Сочи, Ставрополь 9 Великий Новгород, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог
2 1,62 14 (Брянск, Владикавказ, Владимир, Калининград, Киров, Курск, Магнитогорск, Мурманск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь) 24 Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс 2 7(+2) Великий Новгород, Волжский, Калуга, Кострома, Орск, Псков, Таганрог Нальчик, Новороссийск
31 1,91 14 (Брянск, Владикавказ, Владимир, Калининград, Киров, Курск, Магнитогорск, Мурманск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь) 17(+7) Армавир, Балаково, Батайск, Волгодонск, Димитровград, Златоуст, Кисловодск, Ковров, Миасс, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Обнинск, Пятигорск, Шахты, Энгельс Великие Луки, Глазов, Камышин, Копейск, Муром, Ново-шахтинск, Сарапул 7 9 Великий Новгород, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог
32 1,77 8 (Великий Новгород, Владикавказ, Владимир, Калуга, Смоленск, Орел, Тамбов, Тверь) 24 Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс 8 (Брянск, Калининград, Киров, Курск, Магнитогорск, Мурманск, Сочи, Ставрополь) 9 (Волжский, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог)
Аналогичным образом для третьего способа формирования начального разбиения указаны два варианта (см. табл. 2): 31 - центрами кластеров являются первые в списке по алфавиту города (Армавир, Балаково, Батайск и Брянск); 3 2 - центрами начальных групп стали примерные геометрические центры по дендрограмме метода Уорда (Великие Луки, Новочеркасск, Орел и Брянск). Отдельные решения для четырех кластеров дополнительно к двум указанным выше группам решений добавляют третью. Особенностью решений (способы 2 и 31 см. табл. 2) является разделение устойчиво сформированных в предыдущих итерациях кластеров
на две части. Способом 31 разбиению подвергся второй кластер. В нем из 24 городов было выделено 7 наиболее отстающих. Способом 2 из четвертого кластера было выделено 2 города, причем неправильно: самый «лучший» (Новороссийск) и самый «худший» (Нальчик). Так как способ 31 (с алфавитным принципом определения центров групп) нельзя назвать научным, и применялся он скорее для контраста со способом 32, то оба решения 2 и 31 следует отвергнуть, несмотря на высокие значения энтропии. Оставшиеся решения (способы 1 и 32) в общем схоже разбивают тестовую выборку на четыре группы: «лидеры» (кластер №3), «средние» («сильные» - кластер № 1, «слабые» - кластер № 4), «аутсайдеры» (кластер № 2). Для выбора лучшего их двух решений следует проанализировать их более подробно. В табл. 3 представлен стандартный отчет дисперсионного анализа двух сравниваемых группировок городов по 12 показателям (у1-у12).
Таблица 3
Результаты дисперсионного анализа группировок городов, построенных разными
способами:
1- автоматический подбор начального разбиения по максимуму межгруппового
расстояния;
32 - определение центров групп начального разбиения вручную
Способ 1 Способ 32
Нфакт В ост ВГ2 Р Нфакт Вост Р
VI 3458 3 1936 43 25,6044 0,000 3549,7 3 1845 43 27,6 0,000
у2 1203 3 5245 43 3,28997 0,029 1344 3 5105 43 3,8 0,017
v3 1518 3 874 43 24,8929 0,000 1559 3 833,6 43 26,8 0,000
v4 18536 3 4083 43 65,0738 0,000 18827 3 3793 43 71,2 0,000
v5 9471 3 3495 43 38,8379 0,000 10058 3 2909 43 49,6 0,000
419 3 4260 43 1,40988 0,253 325,6 3 4354 43 1,1 0,371
V? 2548 3 1213 43 30,1029 0,000 2403 3 1358 43 25,4 0,000
v8 4036 3 1504 43 38,4618 0,000 3738 3 1802 43 29,7 0,000
7060 3 2632 43 38,4578 0,000 6871 3 2821 43 34,9 0,000
vI0 19681 3 2948 43 95,7077 0,000 19871 3 2758 43 103,3 0,000
vII 8251 3 4114 43 28,7493 0,000 8112 3 4253 43 27,3 0,000
vI2 4614 3 3038 43 21,7726 0,000 4091 3 3561 43 16,5 0,000
Сравнивая по табл. 3 значения сумм квадратов отклонения, можно сделать вывод, что межгрупповая вариация ффакт) больше внутригрупповой фост) для всех индикаторов, кроме v2 и v6 (труд, законопослушность). Сопоставляя представленные значения ^-критерия с критическим фкрит=2,82 для df1=3, df2=43 ^=0,05) [1] следует сделать вывод, что в обоих случаях (1 и 32) влияние на формирование групп всех индикаторов, за исключением v6, является существенным, т.е. статистически значимым, так как F>Fкрит. Примечательно, что если совсем исключить из анализа индикатор v6, то оказывается, что состав кластеров не изменяется.
Однако, как указывают М.С. Олдендерфер и Р.К. Блэшфилд, для проверки обоснованности кластерного решения приведенный анализ значимости не подходит, так как он всегда будет давать положительные результаты, независимо от того, есть ли в исходных данных кластеры или нет [2]. Для более достоверной проверки обоснованности решения следует провести повторную выборку, либо применить процедуры Монте-Карло. Но одним из лучших способов проверить обоснованность решения указанные авторы называют тесты значимости для внешних признаков. Для этого необходимо сравнить кластеры по признакам, не применявшимся при получении кластерного решения. В качестве таких «внешних» призна-
ков предлагается использовать значения удельного веса социально-экономических показателей городов в идентичных показателях соответствующего субъекта РФ. В частности, в официальных публикациях Росстата [3] используются ряд показателей, характеризующих вклад городов в общие социально-экономические показатели субъекта РФ: численность населения, среднегодовая численность работающих в организациях, основные фонды организаций, объемы промышленной продукции и работ, выполненных по договорам строительного подряда, ввод в действие жилых домов, оборот розничной торговли, инвестиции в основной капитал. Указанные показатели на самом деле являются внешними, так как характеризуют город как часть более общей социально-экономической системы - субъекта РФ. К тому же значения показателей уже являются относительными, что избавляет от необходимости их нормировать.
Таблица 4
Результаты проверки обоснованности двух кластерных решений тестом значимости для внешних показателей
Внешние показатели к Вфакт Вост Р
Способ 1 начального разбиения
Численность населения (% субъекта) 0,72 4937 1646 21,374 0,0
Среднегодовая численность работающих (% субъекта) 0,72 6720 2240 23,480 0,0
Основные фонды организаций (% субъекта) 0,67 11761 3920 17,523 0,0
Объем промышленной продукции (% субъекта) 0,62 9463 3154 14,783 10'5
Объем работ по дог. строит. подряда (% субъекта) 0,66 11875 3958 18,814 0,0
Ввод в действие жилых домов (% субъекта) 0,67 13290 4430 17,551 0,0
Оборот розничной торговли (% субъекта) 0,74 16549 5516 25,431 0,0
Инвестиции в основной капитал (% субъекта) 0,70 12821 4274 16,819 0,0
Способ З2 начального разбиения
Численность населения (% субъекта) 0,73 5270 1757 25,374 0,0
Среднегодовая численность работающих (% субъекта) 0,75 7226 2409 28,797 0,0
Основные фонды организаций (% субъекта) 0,69 11961 3987 18,198 0,0
Объем промышленной продукции (% субъекта) 0,67 10345 3448 17,879 0,0
Объем работ по дог. строит. подряда (% субъекта) 0,71 12066 4022 19,530 0,0
Ввод в действие жилых домов (% субъекта) 0,67 13117 4372 17,051 0,0
Оборот розничной торговли (% субъекта) 0,77 17158 5719 28,209 0,0
Инвестиции в основной капитал (% субъекта) 0,69 12848 4283 16,896 0,0
В таблице 4 представлены результаты проверки значимости внешних показателей для группировки городов двумя способами.
В столбце «к» (см. табл. 4) также даны значения коэффициента линейной корреляции каждого показателя с номером кластера, причем номера кластеров в данном случае были заданы следующей иерархией: 1 - «аутсайдеры», 2 - средние «слабые», 3 - средние «сильные», 4 - «лидеры». То есть проверялась гипотеза о том, что более высокие значения показателей предопределяют попадание города в кластер с большим номером. Наличие сильной связи между номером кластера и каждым из показателей свидетельствует о подтверждении выдвинутой гипотезы. Результаты теста значимости показывают, что полученные разными способами кластеры достоверно различаются и по внешним показателям (Dфакт>Dост и F>Fкрит). Следовательно, оба кластерных решения следует считать обоснованными.
Таким образом, проведенное экспериментальное исследование методов кластеризации не позволило выявить только один наилучший метод. Примерно равными характеристиками, но лучшими по сравнению с решениями остальных методов, обладают две разновидности итерационного метода ^-средних с автоматическим подбором начального разбиения по максимуму межгруппового расстояния и определением центров групп начального разбиения вручную, по дендрограмме. Следовательно, после определения примерных центров кластеров по дендрограмме метода Уорда с обратным коэффициентом корреляции в качестве меры сходства, указанные разновидности метода ^-средних в данном исследовании следует использовать совместно. Окончательное решение можно будет принять только в результате анализа устойчивости кластеризации по имеющимся статистическим данным за четыре года и содержательного анализа кластеров каждой из групп городов.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Елисеева И.И., Юзбашев М.М. Общая теория статистики. - М.: ФиС, 2001.
2. Олдендерфер М.С., Блэшфилд Р.К. Кластерный анализ // Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1988.
3. Регионы России: социально-экономическое положение городов. 2004: Стат. сб. - М.: Росстат, 2004.
Казанская Алина Юрьевна
Технологический институт федерального государственного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге E-mail: [email protected]
347928, г. Таганрог, пер. Некрасовский, 44, тел. 371-742, моб. 8-904-506-55-47 Доцент.
Компаниец Виталий Сергеевич
E-mail: [email protected] Доцент.
Kazanskaya Alina Yur’evna
Taganrog Institute of Technology - Federal State-Owned Educational Establishment of Higher Vocational Education «Southern Federal University»
E-mail: [email protected]
44, Nekrasovskiy, Taganrog, 347928, Russia, phone 371-742, cell 8-904-506-55-47 Associate professor.
Kompaniets Vitaliy Sergeevich E-mail: e-mail: [email protected] Associate professor.
УДК 658.012.2
А.Ю. Павлов
УПРАВЛЕНИЕ СОВРЕМЕННЫМИ ИННОВАЦИОННЫМИ И СОЦИАЛЬНО-ОРИЕНТИРОВАННЫМИ ИНВЕСТИЦИОННЫМИ ПРОЕКТАМИ И ИХ КЛАССИФИКАЦИЯ1
Рассматриваются особенности процесса управления современными инновационными и социально-ориентированными инвестиционными проектами. Дает-
1 Работа выполнена при поддержке РГНФ (грант № 09-02-00446в/И)