Громов В.В. Кластеризация и ее применение для анализа финансово-экономического состояния отрасли растениеводства в регионах РФ
Опубликовано в №8 (32), август 2013 Раздел
• финансовый менеджмент
Авторы: Громов Владислав Владимирович аспирант
Россия, Кубанский государственный университет gromov.vladisl av@gmai. com
Gromov Vladislav Vladimirovich
postgraduate student
Russia, Kuban state university
• Аннотация: С использованием комплекса методов математического моделирования, многомерного-статистического анализа, нечётких множеств проведен анализ финансово-экономического состояния отрасли растениеводство в регионах РФ. Опираясь на результаты корреляционного, факторного, кластерного анализа и статистические показатели Федеральной службы государственной статистики разработана система показателей, отражающих финансово-экономическое состояние отрасли сельского хозяйства в регионе РФ. Проведена кластеризация регионов России по выделенным факторам на пять групп, дана качественная и количественная характеристика каждому кластеру.
We used the complex mathematical modeling, multivariate statistical-analysis, fuzzy sets to analyze the financial and economic state of the crop production in Russian regions. We developed a system of indicators, detecting the state agricultural sector in the region, based on the results of correlation, factor, cluster analysis and statistics of the Federal State Statistics Service. We performed clustering analyses to divide regions of Russia on selected factors into five groups. A qualitative and quantitative characteristics of each cluster was received.
• Ключевые слова: моделирование, кластеризация, нечеткие множества, сельское хозяйство, регионы РФ, финансово-экономическое состояние.
modeling, clustering, fuzzy sets, agriculture, the regions of the Russian Federation, the financial and economic situation.
• Выходные данные статьи: Громов В.В. Кластеризация и ее применение для анализа финансово-экономического состояния отрасли растениеводства в регионах РФ // Современные технологии управления, 2013. - №08 (32). - ISSN 2226-9339. - Режим доступа к журн.: http://sovman.ru
Региональные особенности развития АПК, которые основываются на природно-климатических, географических, производственно-экономических, ресурсных, структурных и прочих особенностях конкретного региона, порождают не только различия в производственных, инвестиционных условиях, но и в подходах к решению проблем АПК [1]. Негативным фактором при этом является неопределенность, информационная
непрозрачность и сложность в оценке финансово-экономического состояния отрасли в регионе.
Одним из самых популярных инструментов оценок финансовой стабильности, экономического состояния региона в целом или его отдельных отраслей, являются рейтинги, которые присваиваются всем субъектам РФ. Показатели рейтинга в компактной и емкой форме характеризуют состояние и перспективные тенденции изменения деятельности региона, играя роль индикаторов для принятия решений, установления и поддержания деловых отношений. Минсельхоз России и Российская академия сельскохозяйственных наук составляют рейтинг АПК регионов по показателям эффективности сельскохозяйственного производства.
Рейтинг составляется на основе анализа шести критериев в АПК [3]: валовая продукция сельского хозяйства в расчёте на одного занятого в сельском хозяйстве, отношение выручки от продажи товаров, работ и услуг к стоимости основных средств на начало года, уровень рентабельности по всей деятельности сельхозорганизаций, удельный вес прибыльных организаций в их общем числе, коэффициент относительной финансовой устойчивости, отношение заработной платы в сельском хозяйстве к заработной плате в среднем по экономике субъекта РФ.
На наш взгляд, данные методики имеют ряд недочетов и недостатков. Во-первых, очень часто используется ранжирование по исследуемым показателям. Во-вторых, отсутствует предварительный анализ исследуемых показателей. Также в данных методиках не используются современные методы многомерного статистического анализа и интеллектуальных систем, которые уже давно подтвердили свою эффективность в зарубежных исследованиях. Рейтинги, присвоенные по таким методикам, безусловно, способны определить лидеров и аутсайдеров, но могут дать весьма общую картину состояния региона и не способны адекватно определить состояние отрасли в отдельно взятом регионе. Чтобы провести комплексный анализ, который будет учитывать многомерные статистические данные, необходимо использовать методы корреляционного, факторного, кластерного анализа данных, которые позволят выделить исследуемую выборку по группам (кластерам), позволят говорить о существовании таких групп.
В связи с этим создание собственной адекватной оценочной системы регионов по уровню их финансово-экономического состояния является актуальной задачей. Для решения подобной задачи, на наш взгляд, целесообразно использовать методы многомерного статистического анализа[2], нечетких продукционных систем [5]. В качестве исходных данных мы будем использовать центральную базу Федеральной службы государственной статистики.
Под термином «состояние отрасли» мы понимаем экономическую категорию, отражающую финансово-экономическое состояние отрасли, характеризуемое, на фиксированный момент времени, значениями следующих основных харктеристик: произведенная продукция, эффективность деятельности и другими количественными и качественными характеристиками и позволяющими ответить на следующие вопросы:
• насколько эффективна деятельность региона в отрасли?
• каков производственный потенциал отралси?
В ходе исследования нами будут использоваться прикладные программы Statictica [2] и МаНаЬ [5].
На первом этапе в качестве показателей, характеризующих финансово-экономическое состояние отрасли в регионе РФ, выбираются значения коэффициентов из статистического сборника «Регионы России. Социально-экономические показатели 2012.» Федеральной службы государственной статистики (Росстата) [4]: XI - Продукция растениеводства, млн. руб.;
Х2- Сальдированный финансовый результат организаций, млн. руб.; Х3 - Рентабельность проданных товаров, продукции, %; Х4 - Посевные сельскохозяйственных культур площади, тыс. гектаров. Х5 - Валовой сбор сельскохозяйственных культур., тыс. т. Х6 - Внесение удобрений минеральных и органических, т.
С помощью соответствующей процедуры в программе Statistica проведем нормализацию (стандартизацию) переменных - приведение к общему масштабу единиц исчисления.
На втором этапе исследования с помощью метода главных компонент [2], без вращения выделим фактор, который объединит финансовые показатели х2 и х3.
Рисунок 1 - Анализ собственного значения фактора
Собственное значение нового фактора равно 1,61 (рисунок 1). Данный фактор объясняет 75,85% от общей дисперсии. Следовательно, данные переменные можно объединить в один фактор, который будет линейной комбинацией факторов x2 и x3. Назовем данный фактор FIN.
На третьем этапе исследования проведем кластерный анализ по получившимся факторам. Мы будем использовать два метода кластеризации: k-средних и fuzzy c-means. В алгоритме k-средних (k-means) строится k кластеров, расположенных на возможно больших расстояниях друг от друга. Данный метод подтверждает гипотезы относительно числа кластеров. Выбор числа k базируется на результатах исследований, экспертной оценке.
Предположим, что наша выборка по регионам состоит из трех кластеров: Как видно из рисунка 2, наше предположение о существовании трех кластеров верно: центры кластеров расположены на достаточно большом расстоянии друг от друга (евклидово расстояние).
Cluster Number Euclidean Distances between Clusters (2011) Distances below diagonal Squared distances above diagonal
No 1 No 2 No 3
Mo. 1 0X0 00 DO 1,381419 4.92612
Wo. 2 1 175338 0.000000 10.58977
No 3 2 219437 3,264192 0.00000
Рисунок 2- Расстояние между кластерами (3 кластера)
Далее выделим 5 кластеров из нашей выборки. Результаты представлены на рисунке 3. В данном случае центры кластеров уже не так далеки друг от друга, но, тем не менее, явно прослеживаются 5 групп.
Гипотеза о существовании подтверждается евклидовым расстоянием и квадратом евклидового расстояния между кластерами (рисунок 4) и таблицей дисперсионного
анализа (рисунок 5). Во второй таблице приведены значения межгрупповых (Between SS) и внутригрупповых (Within SS) дисперсий признаков. Чем меньше значение внутригрупповой дисперсии и больше значение межгрупповой дисперсии, тем лучше признак характеризует принадлежность объектов к кластеру и тем «качественнее» кластеризация. Параметры F и p также характеризуют вклад признака в разделение объекта на группы. Лучшей кластеризации соответствуют большие значение первого и меньшие значения второго параметра.
Plot of Means for Each Cluster
5 5 4
Ъ 2 1 0
-3
x" x4 x6 xS FIN
Variables
-e- Cluster " -=- Cluster 2 Cluster J -4- Cluster 4 - Cluster E-
Рисунок 3 - Метод к-средних. Средние значения 5кластеров
В нашем случае можно говорить о «хорошей» кластеризации исходных данных. Кластер №1 содержит регионы с очень высоким финансово-экономическим состоянием отрасли. Кластер №2 содержит регионы с высоким финансово-экономическим состоянием отрасли. Кластер №3 содержит регионы с низким финансово-экономическим состоянием отрасли. Кластер №4 и №5 содержит регионы с средним финансово-экономическим состоянием отрасли, наблюдается различие между кластерами по фактору х6 (внесение удобрений), что может говорить о географических особенностях регионов, попавших в кластер №5.
Clusler Number Euclidean Distances belween Clusters (2011) Qiitances telow diagonal Squared distances above diagonal
No 1 Nu 2 No 3 NO 4 No 5
No 1 0 OQOOOO 4 SI 6293 13.33347 9.704JS4 tO.66903
No 2 2.148557 0 000000 2.69Б64 1,363229 Э.1710В
No 3 3.651=02 1 612093 о ooooo 0,391664 2,34571
No. 4 No. 5 3 115202 3.266343 1 167574 1 730753 0 62533 1 54458 0.000000 1,220652 1,48999 0,00000
Рисунок 4 - Расстояние между кластерами (5 кластеров)
Variable Analysis of Vanance (2011)
Between SS dr Within SS df F signif. P
5(1 6Q.i62Q6 4 19.Q3794 76 60.6405.5 0.Ш000
х4 59.36350 4 20 13650 76 56.43433 0,000000
*£ 4 20 261S3 76 5G.01M2 0,000000
4S.3925G 4 34.GQ744 76 24,92119 0.000000
FIN SS.72310 4 24.27690 76 43.61095 0.000000
Рисунок 5 - Анализ дисперсий (5 кластеров)
В таблице 1 представлено распределение регионов по кластерам
Таблица 1 - Кластеризация. Метод k-средних
Кластер
№1 №2 №3 №4 №5
Кра23 Белго Ивано Брянс, Влади Липец
Росто Ворон Архан Калуж, Костр Калин
Ставр Курск Ненец Моско, Орлов Ленин
Тамбо Псков Рязан, Смоле Мурма
Волго Ингуш Тверс, Тульс Сахал
Башко Чечен Яросл, Карел
Татар Ханты Коми, Волог
Оренб Ямало Новго, Адыге
Сарат Тыва Калмы, Астра
Челяб Забай Дагес, Кабар
Регион Алт.кр Томск Карач, Осети
Кра24 Саха Марий, Мордо
Новос Хабар Удмур, Чуваш
Омска Чукот Пермс, Киров
Нижег, Пензе
Самар, Ульян
Курга, Сверд
Тюмен, р.Алтай
Бурят, Хакас
Иркут, Кемер
Камча, Примо
Амурс, Магад, Еврей
Всего 3 14 14 22 5
Используем алгоритм нечеткой кластеризации (fuzzy c-means) и сравним полученные результаты. Главным достоинством данного метода является использование понятия нечеткости при определении принадлежности к определенному кластеру. Таким образом, элемент может принадлежать к каждому кластеру с определенной степенью принадлежности от 0 до 1. Используя прикладную программу Matlab и fuzzy logic toolbox [5], проведем нечеткую кластеризацию методом с-средних (команда fcm). В качестве параметров минимизирующей функции возьмем параметры, предлагаемые по умолчанию. Средние значения для каждого полученного кластера (центр кластера) представлены на рисунке 6 на линейном графике.
-1
Рисунок 6 - Метод fuzzy c-means. Средние значения 5кластеров.
Проанализировав матрицу принадлежности регионов к конкретному кластеру, получаем следующий результат (таблица 2). Стоит отметить, что алгоритм нечеткой кластеризации, используя понятия нечеткости, сумел лучше выделить кластеры и более «равномерно» распределил объекты наблюдений. В случае если регион с одинаковой степенью принадлежности относится сразу к нескольким кластерам, то мы использовали результаты первого метода.
Таблица 2 - Кластеризация. Метод fuzzy c-means
Кластер
1 2 3 4 5
Ворон Белго Брянс Влади Ивано
Кра23 Курск Моско Калуж Костр, Смоле
Росто Тамбо Орлов Липец Тверс, Яросл
Ставр Волго Рязан Тульс Архан, Ненец
Башко Кабар Карел Псков, Калмы
Татар Мордо Коми Дагес, Ингуш
Регион Оренб Удмур, Чуваш Волог Осети, Чечен
Сарат Пермс, Киров Калин Марий, Ханты
Челяб Нижег, Тюмен Ленин, Камча Ямало, Алтай
Алтай Пензе, Кра24 Мурма, Карач Бурят, Тыва
Новос Самар, Кемер Новго, Магад Хакас, Забай
Омска Ульян, Амурс Адыге, Сахал Саха , Хабар
Курга, Сверд Астра, Примо Еврей, Чукот
Всего 4 12 20 18 27
Заключение. В ходе исследования нами были достигнуты следующие результаты: выполнен анализ состояния отрасли растениеводства регионах России, разработан комплекс статистических показателей оценки состояния отрасли в регионах, проведен корреляционный, факторный анализ показателей. Проведена кластеризация регионов по выделенным факторам двумя методами. Таким образом, используя результаты
кластерного анализа, мы подтвердили гипотезу о существовании пяти кластеров регионов РФ в отрасли растениеводство:
• кластер №1 - содержит в себе группу регионов с очень высоким финансово-экономическим состоянием отрасли растениеводство (4 региона);
• кластер №2 - содержит в себе группу регионов с высоким финансово-экономическим состоянием отрасли растениеводство (12 регионов);
• кластер №3 - содержит в себе группу регионов со средним финансово-экономическим состоянием отрасли растениеводство (20 регионов);
• кластер №4 - содержит в себе группу регионов с «низким финансово-экономическим состоянием отрасли растениеводство (18 регионов);
• кластер №5 - содержит в себе группу регионов с «очень низким финансово-экономическим состоянием отрасли растениеводство (21 регион).
В дальнейшем, опираясь на результаты кластерного анализа и экспертные заключения, необходимо выполнить следующий этап моделирования, связанный с разработкой дискриминантных моделей и нечеткой продукционной системы. Эти модели позволят более точно и эффективно оценивать как отрасль растениеводства в целом, так и в каждом регионе РФ.
Список литературы:
1. Леоненков А.В. Нечёткое моделирование в среде MATLAB и fuzzyTECH. - СПб.: БХВ-Петербург, 2007. -736 с.
2. Минаков И. А. Экономика отраслей АПК: учеб. - М. Колосс. 2008. - 256 с.
3. Огнев Ю.Ю. Аграрный вопрос. Основные предложения. - М.: Пресс, 2010. - 56 с.
4. Халафян А.А. STATISTICA 6. Статистический анализ данных. - 3-е изд. учеб. - М.: Бином-Пресс, 2007. - 512 с.
5. Центральная база статистических данных // Федеральная служба государственной статистики URL: http//www.gks.ru (дата обращения: 01.04.2013).
References:
1. Leonenkov A.V. Fuzzy modeling in MATLAB and fuzzyTECH [Nechetkoe modelirovanie v srede MATLAB i fuzzyTECH]. - St. Petersburg.: BHV-Petersburg, 2007. 736 p.
2. Minakov I. A. Economy agricultural industries: textbook [Ekonomika otraslei APK]. M.: Colossus. 2008. 256 p.
3. Ognev Iu.Iu. The agrarian question. The main proposals [Agrarnyi vopros. Osnovnye predlozheniia]. M.: Press, 2010. 56 p.
4. Khalafian A.A. STATISTICA 6. Statistical analysis [STATISTICA 6. Statisticheskii analiz dannykh]. 3rd ed. textbook. M.: Bean-Press, 2007. 512 p.
5. The central statistical database [Tcentralnaia baza statisticheskikh dannykh]. Federal State Statistics Service URL: http//www.gks.ru (date accessed: 01.04.2013).