Раздел I. Инвестиции и инновации
М. А. Боровская, А. Ю. Казанская, В. С. Компаниец
ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА В ТЕСТОВЫХ ИССЛЕДОВАНИЯХ КРУПНЫХ МУНИЦИПАЛЬНЫХ ОБРАЗОВАНИЙ
В проведении тестовых исследований выбрана группа из 47 городов, отнесенная к четвертому («срединному») типу региона (табл. 1). Во-первых, эта группа самая многочисленная, во-вторых, в нее входят города Ростовской области, наличие априорных представлений о которых должно помочь выполнить содержательный анализ формируемых в процессе экспериментального исследования кластеров.
Таблица1
Принадлежность городов регионам разных типов
Наименование типа региона Код Состав групп городов
Регионы - лидеры (федеральная столица, богатые нефтегазовые округа) 1(2) Нефтеюганск, Нижневартовск, Сургут (3 города)
Более развитые или опережающие по доходу регионы освоенной зоны Альметьевск, Арзамас, Асбест, Балашиха, Белгород, Березники, Вологда, Дзержинск, Елец, Железнодорожный, Жуковский, Зеленодольск, Каменск-Уральский, Коломна, Королев, Люберцы, Мытищи, Нефтекамск, Нижнекамск, Нижний Тагил, Новокуйбышевск, Ногинск, Одинцово, Октябрьский, Орехово-Зуево, Первоуральск, Подольск, Рыбинск, Салават, Сергиев-Посад, Серов, Серпухов, Соликамск, Старый Оскол, Стерлита-мак, Сызрань, Химки, Чайковский, Череповец, Щелково, Электросталь (41 город)
Более развитые или опережающие по доходу ресурсные регионы слабо освоенной зоны 3 Ачинск, Белово, Воркута, Канск, Киселевск, Комсомольск-на-Амуре, Ленинск-Кузнецкий, Междуреченск, Норильск, Петрозаводск, Прокопьевск, Сыктывкар, Томск, Ухта, Якутск (15 городов)
«Середина», более урбанизированные регионы 4 Армавир, Балаково, Батайск, Брянск, Великие Луки, Великий Новгород, Владикавказ, Владимир, Волгодонск, Волжский, Глазов, Димитров-град, Златоуст, Калининград, Калуга, Камышин, Киров, Кисловодск, Ковров, Копейск, Кострома, Курск, Магнитогорск, Миасс, Мурманск, Муром, Нальчик, Невинномысск, Новомосковск, Новороссийск, Новотроицк, Новочеркасск, Новошах-тинск, Обнинск, Орел, Орск, Псков, Пятигорск, Сарапул, Смоленск, Сочи, Ставрополь, Таганрог, Тамбов, Тверь, Шахты, Энгельс (47 городов)
«Середина», слабо освоенная зона 5 Абакан, Ангарск, Артем, Архангельск, Бийск, Благовещенск, Братск, Магадан, Находка, Петро-павловск-Камчатский, Рубцовск, Северодвинск, Улан-Удэ, Уссурийск, Усть-Илимск, Южно-Сахалинск (16 городов)
«Аутсайдеры», наиболее бедные и депрессивные области освоенной зоны 6(7) Грозный, Дербент, Иваново, Йошкар-Ола, Курган, Майкоп, Назрань, Новочебоксарск, Саранск, Хасавюрт, Чебоксары, Черкесск (12 городов)
«Аутсайдеры», наиболее бедные и депрессивные области слабо освоенной зоны Кызыл, Чита, Элиста (3 города)
* Таблица составлена авторами по материалам исследования. Названия типов регионов введены в рамках проекта «Социальный атлас регионов России» (www.socpol.ru/atlas).
Целью эксперимента является исследование возможности различных сочетаний методов кластеризации и мер сходства удовлетворительно решать задачу кластеризации городов по сформированной системе 12 частных индикаторов. В результате эксперимента должно быть выявлено такое сочетание метода кластеризации и меры сходства, которое лучшим, с точки зрения содержательного анализа, образом группирует города тестовой выборки. Использование результатов эксперимента может позволить: во-первых, определить необходимое число кластеров для тестовой выборки и остальных групп городов; во-вторых, создать начальное разбиение и реализовать все варианты метода ^-средних на тестовой выборке; в-третьих, сопоставить полученные решения кластеризации данных за разные годы и, оценив их устойчивость, достоверность, на основе содержательного анализа построить итоговое разбиение всех групп городов на типы. Качество получаемых в процессе эксперимента кластерных решений будет оцениваться формально по значению энтропии, а затем по результатам содержательного анализа. Момент остановки процедуры кластеризации, то есть число и состав получаемых кластеров, будет определяться совместным анализом пошагового графика объединения и дендрограммы метода.
Для проведения эксперимента используется пакет статистических программ Statsoft Statistica 6.0. В модуль кластерного анализа пакета включены семь иерархических агломеративных методов, итерационный метод ^средних и метод двухвходового объединения. Эксперимент будет осуществляться с группой всех иерархических агломеративных методов посредством перебора всех возможных сочетаний методов и мер сходства для кластеризации тестовой выборки.
Метод одиночной связи. Как и следовало ожидать, метод одиночной связи оказался непригоден. Удовлетворительного решения получено не было, так как во всех рассмотренных случаях с различными мерами сходства проявился цепной эффект. Неудачей закончилось использование процента несогласия в качестве меры сходства. Ни один из семи методов с использованием данной меры не привел к решению. И этот результат следовало ожидать, так как исходные данные не являются категориальными.
Метод полной связи. Используя метод полной связи и евклидово расстояние, в качестве меры сходства было получено решение о разбиении тестовой выборки на
два кластера. На рис. 1 показан пошаговый график объединения объектов в кластеры методом полной связи (мера сходства - евклидово расстояние).
Рис. 1. Пошаговый график объединения тестовой выборки городов методом полной связи (мера сходства - евклидово расстояние) *
* Рисунок получен авторами в ходе эксперимента
Резкий вертикальный скачок графика (см. рис. 1) на последнем шаге итерации можно интерпретировать как объединение несхожих кластеров. Следовательно, решение уже получено и дальнейшее объединение кластеров не имеет смысла. Действительно, с помощью дендрограммы (рис. 2) можно увидеть, что, начиная с отметки 84, происходит объединение двух кластеров. Судя по величине расстояния между кластерами (около 160), можно сделать вывод, что кластеры несхожие и объединять их не следует. Таким образом, решением является два кластера. Состав полученных кластеров можно определить по дендрограмме. В данном случае первый кластер содержит 16 городов: Мурманск, Киров, Курск и т.д.; второй кластер объединяет 31 город начиная с Новороссийска.
40 Б0 80 100 120
Расстояние объединения (Linkage Distance)
Рис. 2. Дендрограмма метода полной связи для тестовой выборки городов *
* Рисунок получен авторами в ходе эксперимента
Аналогично выполнялся поиск решений для других вариантов меры сходства. С помощью метода полной связи в четырех случаях из семи было получено реше-
ние о разбиении тестовой выборки на два кластера. Использования в качестве меры сходства расстояния Чебышева и коэффициента корреляции привели к решению из трех кластеров. Процент несогласия в качестве меры сходства, как уже указывалось, к решению не привел.
Общие результаты кластеризации методом полной связи приведены в табл. 2. В столбце «Мера сходства» таблицы использованы номера, соответствующие порядку рассмотрения мер сходства в данной работе: 1- евклидово расстояние; 2 -квадрат евклидова расстояния; 3 - Манхэттенское расстояние; 4 - расстояние Чебышева; 5 - степенное расстояние; 6 - процент несогласия; 7 - обратный коэффициент линейной корреляции.
Таблица 2
Общие результаты кластеризации тестовой выборки методом полной связи с различными мерами сходства*
Мера сходства Н Характеристика решения кластеризации
1 кластер 2 кластер 3 кластер
1, 2, 3, 5 0,98 16 (Брянск, Великий Новгород, Владикавказ, Владимир, Калининград, Калуга, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Киров, Курск, Магнитогорск, Мурманск) 31 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Нальчик, Невин-номысск, Новомосковск, Но-вотроицк, Новочеркасск, Но-вошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс. Волжский, Кострома, Новороссийск, Орск, Псков, Таганрог)
4 1,19 18 (Брянск, Великий Новгород, Владикавказ, Владимир, Калининград, Калуга, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Волжский, Кострома, Новороссийск, Орск, Псков, Таганрог) 25 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитров-град, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Нальчик, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошах-тинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс) 4 (Киров, Мурманск, Курск, Магнитогорск)
6 - - - -
7 1,2 18 (Брянск, Великий Новгород, Владикавказ, Владимир, Калининград, Калуга, Киров, Кострома, Магнитогорск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Волжский, Орск, Таганрог) 27 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитров-град, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Нальчик, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Новошах-тинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс. Новороссийск, Псков) 2 (Курск, Мурманск)
В столбце «Н» (табл. 2) представлены рассчитанные значения энтропии.
Таблица 3
Общие результаты кластеризации тестовой выборки методом невзвешенного попарного среднего с различными мерами сходства*
Мера Н Характеристика решения кластеризации
сходства 1 кластер 2 кластер 3 кластер
1, 2 1,15 18 (Брянск, Великий Новгород, Владикавказ, Владимир, Волжский, Калининград, Калуга, Магнитогорск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Кострома, Псков, Таганрог, Курск) 27 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невинно-мысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс. Новороссийск, Орск) 2 (Киров, Мурманск)
3,5 1,11 19 (Брянск, Великий Новгород, Владикавказ, Владимир, Волжский, Калининград, Калуга, Магнитогорск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Кострома, Псков, Таганрог, Киров, Курск) 27 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невинно-мысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс. Новороссийск, Орск) 1 (Мурманск)
4 1,26 19 (Брянск, Великий Новгород, Владикавказ, Владимир, Волжский, Калининград, Калуга, Магнитогорск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Кострома, Псков, Таганрог, Новороссийск, Орск) 25 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невинно-мысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс) 3 (Киров, Мурманск, Курск)
6 - - - -
7 0,58 4 (Калининград, Сочи, Ставрополь, Мурманск) 42 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невинно-мысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс, Брянск, Великий Новгород, Владикавказ, Владимир, Волжский, Калуга, Киров, Магнитогорск, Орел, Смоленск, Тамбов, Тверь, Кострома, Калуга, Псков, Таганрог, Новороссийск, Орск) 1 (Курск)
* Таблица составлена авторами по материалам исследования.
Используя указанные в таблице значения, можно формально оценивать качество кластеризации. Максимально возможное значение энтропии, определяемое как \og2N, где N=47 - количество объектов тестовой выборки, составляет 5,55 бит. Минимальное значение равно нулю (соответствует случаю, когда все объекты объединяются в один кластер). Следовательно, чем выше рассчитанное значение
энтропии, тем лучше с формальной точки зрения работает метод. В табл. 2 жирным шрифтом выделены города, устойчиво попадающие в соответствующий кластер. Так, для варианта из двух кластеров в первый из них стабильно попадают практически все города - центры субъектов РФ (14 из 16). Исключение: г. Псков и г. Кострома попали в число «лидеров» второго кластера. Для варианта из трех кластеров указанные центры переходят вместе с группой «лидеров» (городами Волжским, Новороссийском, Орском и Таганрогом) в первый кластер. «Лидерами» из всей выборки стали города Курск и Мурманск (два случая), а также Киров и Магнитогорск (один случай), которые выделились в отдельный кластер. Город Сочи, единственный из всех городов «не центров», устойчиво попадает в первый кластер. Наибольшие значения Н зафиксированы для вариантов из трех кластеров.
Метод невзвешенного попарного среднего (ПРОМА).
Используя различные варианты меры сходства, метод позволил получить все решения из трех кластеров (табл. 3).
В целом, результаты метода невзвешенного попарного среднего характеризуют «единогласие» при оценке числа кластеров, где меньшая устойчивость состава кластеров. В частности, в первом кластере всегда присутствовали только три города: Калининград, Сочи и Ставрополь, во втором кластере - 25 (из 31 города - не центра). В третьем кластере сменяли друг друга Курск, Киров и Мурманск.
Метод взвешенного попарного среднего (ШРОЫА). Метод взвешенного попарного среднего обнаруживал, как правило, решения из двух кластеров (в пяти из семи случаев). К тому же все они оказались по составу очень похожи. Только при использовании обратного коэффициента корреляции было получено три кластера (табл. 4).
В целом, метод оправдал свое название. Использование весовых коэффициентов позволило более точно распознать города-центры субъектов. Так, при использовании обратного коэффициента корреляции в первый кластер попали 15 из 16 таких городов, однако устойчиво всеми способами определялись только шесть из них. К тому же в первый кластер к городам-центрам попали «лидеры» из соседнего кластера: Таганрог, Волжский Магнитогорск и Орск. Второй кластер устойчиво собирает города-«не центры» (26 из 31).
Методы средней связи. Из четырех рассмотренных методов средней связи решения получили только два метода попарного среднего. Центроидные методы привели к цепочному эффекту. Объяснить такой результат можно неравными размерами образуемых кластеров.
Метод Уорда. Этот метод единственный из всех позволил получить решение из четырех кластеров (один случай из семи). Большинство же решений сводилось к трем кластерам (табл. 5).
В целом, несмотря на меньшую устойчивость решений (в первый кластер устойчиво включались только семь городов, из них пять - города-центры субъектов РФ, второй кластер устойчиво объединяет 23 города - не центра из 31) метод Уорда с формальной точки зрения более качественный, так как получил самые высокие в эксперименте значения энтропии Н=1,47-1,67 бит.
Подводя общий предварительный итог использования агломеративных методов кластеризации, можно сделать следующие выводы.
1. Доминирующим решением является три кластера: из 24 приведших к решению вариантов 14 выявили три кластера, 9 - два кластера, 1 - четыре кластера.
2. Методы в целом удовлетворительно выявили в тестовой выборке разные по статусу города: центры субъектов РФ и города - не центры. Наилучшие результаты показал метод взвешенного попарного среднего (мера сходства - обратный коэффициент корреляции): 15 из 16 городов-центров включены в первый кластер, 26 из
31 городов - не центров - во второй; метод полной связи при разбиении на два кластера в четырех случаях из семи выявил соответственно 14 и 29 городов.
Таблица 4
Общие результаты кластеризации тестовой выборки методом взвешенного попарного среднего с различными мерами сходства*
Мера сходства Характеристика решения кластеризации
Н 1 кластер 2 кластер З кластер
1, 2 0,74 10 (Брянск, Калининград, Магнитогорск, Смоленск, Сочи, Ставрополь, Тверь, Курск, Мурманск, Киров) 37 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невин-номысск, Новомосковск, Новотроицк, Новочеркасск, Но-вошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс, Новороссийск, Великий Новгород, Владикавказ, Владимир, Волжский, Орел, Тамбов, Кострома, Калуга, Псков, Таганрог, Орск)
3, 4, 5 0,7 9 (Брянск, Калининград, Магнитогорск, Сочи, Ставрополь, Тверь, Курск, Мурманск, Киров) 38 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невин-номысск, Новомосковск, Новотроицк, Новочеркасск, Но-вошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс, Новороссийск, Великий Новгород, Владикавказ, Владимир, Волжский, Орел, Тамбов, Кострома, Калуга, Псков, Таганрог, Орск, Смоленск)
6 - - - -
7 1,11 20 (Брянск, Великий Новгород, Владикавказ, Владимир, Волжский, Калининград, Калуга, Магнитогорск, Мурманск, Орел, Орск, Смоленск, Сочи, Ставрополь, Тамбов, Тверь, Кострома, Псков, Таганрог, Киров) 26 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Ми-асс, Муром, Нальчик, Невин-номысск, Новомосковск, Новотроицк, Новочеркасск, Но-вошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс, Новороссийск) 1 (Курск)
Таблица 5
Общие результаты кластеризации тестовой выборки методом Уорда с различными
мерами сходства*
Мера сход- ства Н Характеристика решения кластеризации
1 кластер 2 кластер 3 кластер 4 кластер
1, 2 1,47 16 (Брянск, Калининград, Магнитогорск, Сочи, Ставрополь, Киров, Мурманск. Великий Новгород, Владикавказ, Владимир, Калуга, Орел, Смоленск, Тамбов, Тверь, Курск) 23 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Муром, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Невин-номысск, Новомосковск, Ново-троицк, Новочеркасск, Новошах-тинск, Обнинск, Сарапул, Шахты, Энгельс) 8 (Волжский, Кострома, Новороссийск, Таганрог, Орск, Псков, Пятигорск, Нальчик)
3, 5 1,47 9 (Брянск, Калининград, Магнитогорск, Сочи, Ставрополь, Киров, Мурманск, Тверь, Курск) 24 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Муром, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Невин-номысск, Новомосковск, Ново-троицк, Новочеркасск, Новошах-тинск, Обнинск, Сарапул, Шахты, Энгельс Пятигорск) 14 (Волжский, Кострома, Новороссийск, Таганрог, Орск, Великий Новгород, Владикавказ, Владимир, Калуга,, Орел, Смоленск, Тамбов, Псков, Нальчик)
4 1,47 9 (Брянск, Калининград, Магнитогорск, Сочи, Ставрополь, Киров, Мурманск, Тверь, Курск) 24 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Муром, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Невин-номысск, Новомосковск, Ново-троицк, Новочеркасск, Новошах-тинск, Обнинск, Сарапул, Шахты, Энгельс. Орск) 14 (Волжский, Кострома, Новороссийск, Таганрог, Великий Новгород, Владикавказ, Владимир, Калуга,, Орел, Смоленск, Тамбов, Псков, Нальчик, Пятигорск
6 - - - - -
7 1,67 7 (Брянск, Калининград, Магнитогорск, Сочи, Ставрополь, Киров, Мурманск) 26 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Муром, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Невин-номысск, Новомосковск, Ново-троицк, Новочеркасск, Новошах-тинск, Обнинск, Сарапул, Шахты, Энгельс Псков, Новороссийск, Пятигорск) 5 (Курск, Великий Новгород, Орел, Тамбов, Нальчик) 14 (Волжский, Кострома, Таганрог, Владикавказ, Владимир, Калуга, Смоленск, Орск, Тверь)
* Таблица составлена авторами по материалам исследования.
3. Все полученные решения из трех кластеров можно условно разделить на две группы, различные по составу третьего кластера: первая группа решений (получаемая методами полной и средней связи) в третьем кластере содержит более сильные города-центры с более высокими значениями показателей (Киров, Мурманск, Курск); вторая группа решений (метод Уорда) формирует третий кластер (в табл. 5 состав кластера представлен в колонке «4 кластер») из «слабых» представителей городов-центров (Кострома, Псков) и «сильных» не центров (Новороссийск, Таганрог, Орск, Волжский). Единственное решение из четырех кластеров
(см. табл. 5) необходимо более тщательно исследовать, так как оно соответствует сразу обеим указанным группам.
Таким образом, при использовании итерационного метода ^-средних следует установить значение числа кластеров равное трем как наиболее вероятное, однако проверить следует разбиение и на четыре кластера.
Так как метод ^-средних чувствителен к начальному разбиению, проведем исследование трех различных способов его формирования. В итоговой табл. 6 в колонке «Способ разбиения» цифрами обозначены следующие способы:
1) автоматический подбор начального разбиения с максимальным межгруппо-вым расстоянием;
2) автоматический подбор начальных центров групп по сортированному списку объектов;
3) прямое указание начальных центров групп вручную (один раз способ был применен без изменения исходного алфавитного списка городов - центрами стали Армавир, Балаково и Батайск (в таблице этот вариант помечен 31); второй раз (обозначение 32) центрами были указаны Калининград, Димитровград, Псков, так как в дендрограммах метода Уорда для трех кластеров указанные города чаще всего оказывались примерным геометрическим центром своего кластера)
Таблица 6
Общие результаты разбиения на три кластера тестовой выборки методом ^-средних с различными способами определения начального разбиения*
Способ разбиения Н Характеристика решения кластеризации
1 кластер 2 кластер 3 кластер
1, 32 1,45 10 (Брянск, Калининград, Киров, Курск, Магнитогорск, Мурманск, Смоленск, Сочи, Ставрополь, Тверь) 25 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитровград, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Не-винномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Орск, Пятигорск, Сарапул, Шахты, Энгельс) 12 (Великий Новгород, Владикавказ, Владимир, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орел, Псков, Таганрог, Тамбов )
2, 31 1,47 14 (Брянск, Владикавказ, Владимир, Калининград, Киров, Курск, Магнитогорск, Мурманск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь) 24 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитров-град, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Не-винномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс) 9 (Великий Новгород, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог)
• Таблица составлена авторами по материалам исследования.
Полученные методом ^-средних решения для трех кластеров дополняют группу решений метода Уорда, когда третий кластер формируют относительно «слабые» представители городов-центров (Кострома, Псков, Великий Новгород и Ка-
луга) и «сильные» не центры (Новороссийск, Таганрог, Орск, Волжский, Нальчик и Орск).
В табл. 7 представлены решения методом ^-средних для четырех кластеров. Аналогичным образом для третьего способа формирования начального разбиения указаны два варианта: 31 - центрами кластеров являются первые в списке по алфавиту города (Армавир, Балаково, Батайск и Брянск); 32 - центрами начальных групп стали примерные геометрические центры по дендрограмме метода Уорда (Великие Луки, Новочеркасск, Орел и Брянск).
Таблица 7
Общие результаты разбиения на четыре кластера тестовой выборки методом ^-средних с различными способами определения начального разбиения*
Способ разбиения Н Характеристика решения кластеризации
1 кластер 2 кластер 3 кластер 4 кластер
1 1,7 4 9 (Брянск, Владикавказ, Владимир, Курск, Магнитогорск, Орел, Смоленск, Тамбов, Тверь) 24 (Армавир, Балаково, Батайск, Великие Луки, Волгодонск, Глазов, Димитров-град, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Не-винномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс) 5(Калининград , Киров, Мурманск, Сочи, Ставрополь) 9 (Великий Новгород, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог )
2 1,6 2 14 (Брянск, Владикавказ, Владимир, Калининград, Киров, Курск, Магнитогорск, Мурманск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь) 24 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитров-град, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Не-винномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс) 2 7(+2)(Великий Новгород, Волжский, Калуга, Кострома, Орск, Псков, Таганрог Нальчик, Новороссийск)
31 1,9 1 14 (Брянск, Владикавказ, Владимир, Калининград, Киров, Курск, Магнитогорск, Мурманск, Орел, Смоленск, Сочи, Ставрополь, Тамбов, Тверь) 17(+7) (Армавир, Балаково, Батайск, Волгодонск, Ди-митровград, Златоуст, Кисловодск, Ковров, Миасс, Невинномысск, Новомосковск, Новотроицк, Новочеркасск, Обнинск, Пятигорск, Шахты, Энгельс Великие Луки, Глазов, Камышин, Копейск, Муром, Новошахтинск, Сарапул) 7 9 (Великий Новгород, Волжский, Калуга, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог)
32 1,7 7 8 (Великий Новгород, Владикавказ, Владимир, Калуга, Смоленск, Орел, Тамбов, Тверь) 24 (Армавир, Балаково, Ба-тайск, Великие Луки, Волгодонск, Глазов, Димитров-град, Златоуст, Камышин, Кисловодск, Ковров, Копейск, Миасс, Муром, Не-винномысск, Новомосковск, Новотроицк, Новочеркасск, Новошахтинск, Обнинск, Пятигорск, Сарапул, Шахты, Энгельс) 8 (Брянск, Калининград, Киров, Курск, Магнитогорск, Мурманск, Сочи, Ставрополь) 9 (Волжский, Кострома, Нальчик, Новороссийск, Орск, Псков, Таганрог)
Средние значения кластеров в методе Я-средних с автоматическим подбором начального разбиения по максимуму межгруппового расстояния (способ 1)
і і і і; \
і / \ / У \ \ \
£ ■: // І’ V ч \у: V \ \ \
V/ \Л V Р / \ 4 \ \
/ / / у, у №. / і / \ \
\с Г -І і с \ "'■'Ё
11 "Ч:
VI у2 уЗ у4 у6 уі VI □ VII VI2
-й- "Лидеры" (кластер 4)
-о- "Средние (сильные)" (кластер 1)
-а- "Средние (слабые)" (кластер 3)
-о- "Аутсайдеры" (кластер 2)
Рис. 3, а. Графическая характеристика кластеров, полученных разными способами метода к-средних: автоматический подбор начального разбиения по максимуму межгруппового расстояния (способ 1)*
Средние значения кластеров в методе /с-средних с заданными центрами начального разбиения
(способ З2)
\ / / / / \ \ і х у /І V і 1 1 \ > \ \
/Ні // \\ / / \\\ и V її № V. ^ і ■■ ! ' \ \ \
ч V. й/ ■' \ ■, О / ""Ч і А/ 4 ". ч :
V. ,, 'с \ :
.
VI у2 vЗ у4 ч5 уВ у7 уВ VI □ VII VI2
-л- "Лидеры" (кластер 4)
-о "Средние (сильные)" (кластер 1)
-о- "Средние (слабые)" (кластер 3)
-о- "Аутсайдеры" (кластер 2)
Рис. 3, б. Графическая характеристика кластеров, полученных разными способами метода к-средних) определение центров групп начального разбиения
вручную (способ 32). *
• Рисунок получен авторами в ходе эксперимента
Отдельные решения для четырех кластеров дополнительно к двум указанным выше группам решений добавляют третью. Особенностью решений (способы 2 и 31, см. табл. 7) является разделение устойчиво сформированных в предыдущих итерациях кластеров на две части. Способом 31 разбиению подвергся второй кластер. В нем из 24 городов было выделено 7 наиболее отстающих. Способом 2 из четвертого кластера было выделено 2 города, причем неправильно: самый «лучший» (Новороссийск) и самый «худший» (Нальчик). Так как способ 31 (с алфавитным принципом определения центров групп) нельзя назвать научным и применялся он скорее для контраста со способом 32, то оба решения 2 и 31 следует отвергнуть, несмотря на высокие значения энтропии. Оставшиеся решения (способы 1 и 32) в общем схоже разбивают тестовую выборку на четыре группы: «лидеры» (кластер №3), «средние» («сильные» - кластер №1, «слабые» - кластер № 4), «аутсайдеры» (кластер №2). Для выбора лучшего из двух решений следует проанализировать их более подробно. На рис. 3 представлены совместные графики решений, в которых линиями соединены средние значения каждого из 12 частных индикаторов (у1-у12) для всех четырех кластеров.
Сравнение графиков (см. рис. 3) позволяет установить определенное сходство полученных кластерных решений, однако следует отметить и отличия, в частности, решение, полученное по начальному разбиению с максимальным межгруппо-вым расстоянием (способ 1, см. рис. 3,а), хуже разделяет города по индикатору у8 и у9 (строительство, услуги пассажирского транспорта), чем это делает другое решение (способ 32, см. рис. 3,б), но несколько лучше выполняет разбиение по индикатору у12 (инвестиционная активность).
Более точно сопоставить полученные решения можно также по показателям дисперсии. В табл. 8 представлен стандартный отчет дисперсионного анализа двух сравниваемых группировок городов по 12 показателям (у1-у12).
Сравнивая по таблице (см. табл. 8) значения сумм квадратов отклонения, можно сделать вывод, что межгрупповая вариация (Офакт) больше внутригрупповой (Оост) для всех индикаторов кроме у2 и у6 (труд, законопослушность). Сопоставляя представленные значения ^-критерия с критическим (_Ркрит=2,82 для 4/1=3, 4/2=43 р=0,05), следует сделать вывод, что в обоих случаях (1 и 32) влияние на формирование групп всех индикаторов, за исключением у6, является существенным, то есть статистически значимым, так как К>Екрит. Примечательно, что если совсем исключить из анализа индикатор у6, то оказывается, что состав кластеров не изменяется.
Однако, как указывают М.С. Олдендерфер и Р.К. Блэшфилд, для проверки обоснованности кластерного решения приведенный анализ значимости не подходит, так как он всегда будет давать положительные результаты, независимо от того, есть ли в исходных данных кластеры или нет [1]. Для более достоверной проверки обоснованности решения следует провести повторную выборку либо применить процедуры Монте - Карло. Но одним из лучших способов проверить обоснованность решения указанные авторы называют тесты значимости для внешних признаков. Для этого необходимо сравнить кластеры по признакам, не применявшимся при получении кластерного решения. В качестве таких «внешних» признаков предлагается использовать значения удельного веса социально-экономических показателей городов в идентичных показателях соответствующего субъекта РФ. В частности, в официальных публикациях Росстата [2] используются ряд показателей, характеризующих вклад городов в общие социально-экономические показатели субъекта РФ: численность населения, среднегодовая численность работающих в организациях, основные фонды организаций, объемы промышленной продукции и работ, выполненных по договорам строительного подряда, ввод в действие жи-
лых домов, оборот розничной торговли, инвестиции в основной капитал. Указанные показатели на самом деле являются внешними, так как характеризуют город как часть более общей социально-экономической системы - субъекта РФ. К тому же значения показателей уже являются относительными, что избавляет от необходимости их нормировать.
Таблица 8
Результаты дисперсионного анализа группировок городов, построенных разными
способами*:
1- автоматический подбор начального разбиения по максимуму межгруппово-го расстояния;
32 - определение центров групп начального разбиения вручную
Способ 1 Способ 32
&факт й/, &ост йҐ2 Р &факт й К &ост йҐ2 Р
V, 3458,86 1936,267 3 25,6044 0,000 3549,68 1 845,445 3 27,5699 0,000
у2 1203,87 5244,896 3 3,28997 0,029 1344,19 5 104,579 3 3,7744 0,017
v3 1518,31 874,242 3 24,8929 0,000 1558,95 833,606 3 26,8051 0,000
v4 18536,33 4082,867 3 65,0738 0,000 18826,7 3792,515 3 71,1531 0,000
v5 9471,23 3495,403 3 38,8379 0,000 10058,1 2908,555 3 49,5661 0,000
v6 419,08 4260,463 3 1,40988 0,253 325,64 4353,897 3 1,0720 0,371
V? 2548,05 1213,243 3 30,1029 0,000 2403,32 1 357,977 3 25,3668 0,000
v8 4036,14 1504,124 3 38,4618 0,000 3738,29 1 801,969 3 29,7353 0,000
v9 7060,86 2631,603 3 38,4578 0,000 6871,04 2821,432 3 34,9060 0,000
vl0 19681,54 2947,538 3 95,7077 0,000 19871,2 2757,853 3 103,276 0,000
VII 8251,31 4113,792 3 28,7493 0,000 8112,03 4253,069 3 27,3385 0,000
v12 4614,19 3037,610 3 21,7726 0,000 4090,78 3 561,027 3 16,4656 0,000
* Таблица составлена авторами по материалам исследования.
В табл. 9 представлены результаты проверки значимости внешних показателей для группировки городов двумя способами. В столбце «к» также даны значения коэффициента линейной корреляции каждого показателя с номером кластера, причем номера кластеров в данном случае были заданы следующей иерархией: 1 -«аутсайдеры», 2 - средние «слабые», 3 - средние «сильные», 4 - «лидеры». То есть проверялась гипотеза о том, что более высокие значения показателей предопределяют попадание города в кластер с большим номером. Наличие сильной связи между номером кластера и каждым из показателей свидетельствует о подтверждении выдвинутой гипотезы.
Результаты теста значимости показывают, что полученные разными способами кластеры достоверно различаются и по внешним показателям (Офакт>Бост и ^>^крит). Следовательно, оба кластерных решения следует считать обоснованными.
Таблица 9
Результаты проверки обоснованности двух кластерных решений тестом значимости для внешних показателей*
Способ 1 начального разбиения________________________________________________
Внешние показатели к &факт ^ ост Р
Численность населения (% субъекта) О, С5 О, ЧО СО ^ о 1645, 66 21,37 4 0,0000 0
Среднегодовая численность работающих (% субъекта) О, С5 6719,9 8 2239, 99 23,48 0 0,0000 0
Основные фонды организаций (% субъекта) 0,6 7 11761, 44 3920, 48 17,52 3 0,0000 0
Объем промышленной продукции (% субъекта) чо ©Л 9462,9 5 3154, 32 14,78 3 0,0000 1
Объем работ по дог. строит. подряда (% субъекта) 0,6 6 11875, 00 3958, 33 18,81 4 0,0000 0
Ввод в действие жилых домов (% субъекта) 0,6 7 13289, 77 4429, 92 17,55 1 0,0000 0
Оборот розничной торговли (% субъекта) О, о" 16549, 08 5516, 36 25,43 1 0,0000 0
Инвестиции в основной капитал (% субъекта) 0,7 0 12820, 98 4273, 66 16,81 9 0,0000 0
----------л------------------------
Способ 3 начального разбиения
Внешние показатели к ^факт ^ ост Р
Численность населения (% субъекта) 0,7 3 5270,3 6 1756, 79 25,37 4 0,0000 0
Среднегодовая численность работающих (% субъекта) 0,7 5 7225,7 8 2408, 59 28,79 7 0,0000 0
Основные фонды организаций (% субъекта) 0,6 9 11961, 20 3987, 07 18,19 8 0,0000 0
Объем промышленной продукции (% субъекта) 0,6 7 10344, 87 3448, 29 17,87 9 0,0000 0
Объем работ по дог. строит. подряда (% субъекта) 0,7 1 12066, 45 4022, 15 19,53 0 0,0000 0
Ввод в действие жилых домов (% субъекта) 0,6 7 13116, 97 4372, 32 17,05 1 0,0000 0
Оборот розничной торговли (% субъекта) 0,7 7 17158, 43 5719, 48 28,20 9 0,0000 0
Инвестиции в основной капитал (% субъекта) 0,6 9 12848, 08 4282, 69 16,89 6 0,0000 0
* Таблица составлена авторами по материалам исследования.
Проведенное экспериментальное исследование методов кластеризации не позволило выявить только один наилучший метод. Примерно равными характеристиками, но лучшими по сравнению с решениями остальных методов, обладают две разновидности итерационного метода ^-средних с автоматическим подбором начального разбиения по максимуму межгруппового расстояния и определением центров групп начального разбиения вручную, по дендрограмме. Следовательно, после определения примерных центров кластеров по дендрограмме метода Уорда с обратным коэффициентом корреляции в качестве меры сходства, указанные разновидности метода ^-средних в исследованиях муниципальных образований следует использовать совместно. Таким образом, принимать решения возможно будет только в результате применения методов анализа устойчивости кластеризации по имеющимся статистическим данным за несколько периодов и дальнейшие соци-
ально-экономические исследования содержательного анализа кластеров можно проводить в каждой из групп выявленных муниципальных образований.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. ОлдендерферМ.С., БлэшфилдР.К. Кластерный анализ //Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1988.
2. Регионы России: социально-экономическое положение городов. 2004: Стат. сб. - М.: Росстат, 2004
В. А. Архипенко
МОДЕЛИРОВАНИЕ ПРОЦЕССА ИННОВАЦИОННООРИЕНТИРОВАННОГО РАЗВИТИЯ ПРЕДПРИЯТИЙ НА ОСНОВЕ РАЗРАБОТКИ И ПРИМЕНЕНИЯ БАЗИСНЫХ И УЛУЧШАЮЩИХ
ИННОВАЦИЙ
В условиях усиливающейся конкуренции и ориентации производителей товаров и услуг на все более разнообразные запросы потребителей одним из основных условий выживания и развития промышленного предприятия становится активная инновационная деятельность, которая превратилась в неотъемлемый компонент устойчивого развития хозяйствующего субъекта. Повышение роли инноваций в макроэкономическом производственном кругообороте вызывает интерес к исследованию воспроизводственного цикла создания и внедрения инновации на микроуровне, на уровне крупного промышленного предприятия.
Моделирование инновационно-ориентированного развития предприятия связано, прежде всего, с инновационными стратегиями, которые можно представить в виде двух основных типов: стратегия лидера, направленная на разработку и реализацию принципиально новых продуктов, и стратегия последователя, подразумевающая выведение на рынок усовершенствованных продуктов. Внедрение инноваций на предприятии часто отождествляется с управлением еще одним функциональным подразделением, что неправильно, по сути, инновационное развитие - это, как минимум, часть стратегии предприятия. То есть инновации носят эндогенный и перманентный характер по отношению к системе предпринимательства. Во избежание экономических рисков, связанных с коммерциализацией инноваций, предприятие в своем инновационном развитии будет придерживаться политики защитной реакции, придерживаться выжидательной стратегии и пытаться вывести на рынок улучшенные варианты товаров, которые уже опробованы рынком.
К базисным относят инновации, которые реализуют крупные научно -технические разработки и становятся основой формирования продуктов нового поколения, не имеющих аналогов в отечественной и (или) мировой практике. Базисные инновации - это принципиально новые для отрасли продукты и технологии. Улучшающие инновации реализуют мелкие и средние изобретения, усовершенствующие технологию изготовления и/или технические характеристики уже известных товаров [1]. Вне зависимости от выбранной стратегии число этапов по разработке и реализации инноваций будет единым как для базисной, так и для улучшающей инновации, которые, в свою очередь, отражают стадии жизненного цикла товара.
Рассмотрим цикл введения улучшающей инновации для отдельного вида продукции, производимой промышленным предприятием. В данном случае предпри-