Научная статья на тему 'Информационно-аналитическая система оценки социально-экономического положения регионов (на примере Оренбургской области)'

Информационно-аналитическая система оценки социально-экономического положения регионов (на примере Оренбургской области) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
214
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗВИТИЕ РЕГИОНА / КЛАСТЕРИЗАЦИЯ / МЕТОДЫ КЛАСТЕРИЗАЦИИ / МЕЖКЛАСТЕРНОЕ РАССТОЯНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цыганова Ирина Александровна

Российские регионы обладают существенным потенциалом развития, который при определенных условиях может стать дополнительным источником роста экономики страны. Регион в настоящее время является главным объектом экономических и политических отношений, и очень важно в этой ситуации определить специфику и приоритеты формирования региональной экономики. При формировании региональных программ социально-экономического развития региона необходимо провести анализ и оценку сложившейся социально-экономической ситуации региона. Для поддержки принятия решения по развитию региона предлагается использовать разработанную информационно-аналитическую систему. В системе в качестве инструмента оценки используется кластеризация муниципалитетов внутри региона. В работе выбран и обоснован метод кластеризации с минимаксной оптимизацией критериев качества разбиения. В результате работы системы формируются кластеры с определенным уровнем социально-экономического развития, и в зависимости от уровня определяются конкретные мероприятия и распределяются финансовые средства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информационно-аналитическая система оценки социально-экономического положения регионов (на примере Оренбургской области)»

УДК 338:332.122:[311.2:004.4](470.56)

Информационно-аналитическая система оценки социально-экономического положения регионов (на примере Оренбургской

области)

Information-analytical system assessing socio-economic climate of regions

on the example of Orenburg region

Цыганова Ирина Александровна

Tsyganova I. A.

кандидат экономических наук доцент кафедры прикладной информатики в экономике и управлении ФГБОУ ВО «Оренбургский государственный университет»

Аннотация Российские регионы обладают существенным потенциалом развития, который при определенных условиях может стать дополнительным источником роста экономики страны. Регион в настоящее время является главным объектом экономических и политических отношений, и очень важно в этой ситуации определить специфику и приоритеты формирования региональной экономики. При формировании региональных программ социально-экономического развития региона необходимо провести анализ и оценку сложившейся социально-экономической ситуации региона. Для поддержки принятия решения по развитию региона предлагается использовать разработанную информационно-аналитическую систему. В системе в качестве инструмента оценки используется кластеризация муниципалитетов внутри региона. В работе выбран и обоснован метод кластеризации с минимаксной оптимизацией критериев качества разбиения. В результате работы системы формируются кластеры с определенным уровнем социально-экономического развития, и в зависимости от уровня определяются конкретные мероприятия и распределяются финансовые средства.

Abstract: Russian regions have significant development potential, which could become an additional growth driver of the national economy under specific

1

conditions. Regional level is the focus of economic and political relations; in this context it is very important to determine the specifics and priorities of regional economy formation. It's essential to carry out an analysis and assessment of socio -economic situation in the region while forming regional programs of regional socio-economic development. To support the decision-making on development of the region the author proposes using the developed information-analytical system. Therein the clustering process of municipalities within the region is used as an evaluation tool. The study selects and justifies clustering method with mini-max optimization of decomposition quality criteria. As a result, clusters with a certain level of social and economic development are formed. Depending on the level, the specific activities are defined and funds distribution is carried out. Ключевые слова: развитие региона, кластеризация, методы кластеризации, межкластерное расстояние информационно-аналитическая система Keywords: development of region, clustering, clustering methods, inter-cluster distance, information-analytical system

Для регионов важным моментом является его способность конкурировать не только с другими регионами на внутреннем рынке, но и на мировом. Экономические, политические условия заставляют изменить подходы к социально-экономическому развитию российских регионов.

Органы власти активно используют результаты экономического анализа, оценка эффективности функционирования региональной экономики - одна из важнейших задач государственной экономики.

Одним из средств отображения экономического развития регионов является кластерный подход, как перспективное направление для повышения их социально-экономического положения.

Целью настоящего исследования является разработка

информационно-аналитической системы (ИАС) оценки социально-

экономического положения муниципалитетов Оренбургской области,

которая позволит проводить кластерный анализ муниципалитетов для

2

получения общей и реальной картины их социально-экономического положения

Для достижения поставленной цели решены следующие задачи:

- проведен анализ существующих методов и алгоритмов классификации данных методом кластерного анализа, с учетом их достоинств, недостатков и особенностей применения;

- создано программное средство, реализующие выбранные методы и алгоритмы;

- проведено тестирование ИАС при решении практических задач.

Одним из важных и очень сложных направлений работы

территориальных органов Росстата является формирование муниципальной статистики. База данных показателей муниципальных образований (БД ПМО) формируется органами государственной статистики, начиная с итогов за 2006 год, в рамках реализации постановления Правительства Российской Федерации от 11.11.2006 года №670 «О порядке предоставления органами местного самоуправления органам государственной власти статистических показателей, характеризующих состояние экономики и социальной сферы муниципального образования »[5].

Администрации городов и районов Оренбургской области через территориальные подразделения Оренбургстата представляют в адрес отдела сводной информации формы федерального статистического наблюдения в бумажном виде и в виде файлов формата Microsoft Word:

- приложение к форме №1 -МО «Показатели для оценки эффективности деятельности органов местного самоуправления городских округов и муниципальных районов»;

- форму №1-МО «Сведения об объектах инфраструктуры муниципального образования».

В Оренбургстате БД ПМО представляет собой набор файлов Microsoft Word, в каждом документе хранится информация (значения показателей) по одному муниципальному образованию за один год.

Перечень показателей, характеризующих состояние экономики и социальной сферы муниципальных образований, постоянно расширяется, увеличиваются объемы предоставления официальной статистической информации пользователям, которые формируются на основе БД ПМО. [2]

Особое внимание в работе Оренбургстата уделяется проведению многомерного статистического анализа, по направлениям:

- расчет показателей структурных различий и структурных сдвигов;

- построение множественной регрессии;

- многомерная классификация кластерным анализом.

В работе Оренбургстата большое внимание уделяется анализу социально-экономических явлений с использованием современных компьютерных технологий. [1]

Функция анализа данных сводится к следующему:

- определение изучаемого явления;

- выявление совокупности статистических переменных, значения которых подлежат анализу, показатели должны удовлетворять требованиям:

а) представительность - это характеристика изучаемого явления с разных сторон;

б) информационная доступность;

в) соразмерность, то есть все рассматриваемые показатели приводятся к единой базе;

г) непротиворечивость, то есть один и тот же показатель не должен характеризовать разные стороны изучаемого явления;

д) информационная достоверность;

- выбор методов, посредствам которых будет осуществляться анализ совокупности статистических переменных (многомерные статистические, математические, экономические); [3]

- определение муниципальных образований Оренбургской области, подлежащих обследованию;

- установление временного интервала.

Специалисты для обработки статистической информации, при написании аналитических записок используют современные программные средства, такие как Statistika, Stata, SPSS с применением кластерного, факторного анализа, множественной регрессии, панельных данных.

Сбор информации осуществляется вручную, специалисты на основании текстовых файлов формируют файлы Excel и затем используют их для обработки в статических пакетах.

Необходимость создания информационно-аналитической системы вызвана отсутствием единой базы хранения статистических показателей, как передаваемых, так и рассчитываемых и формируемых в результате обработки и анализа.

Создание информационно-аналитической системы позволит:

- обеспечить компактное хранение данных;

- вводить информацию в единую базу данных только один раз и впоследствии использовать ее;

- проверять данные на наличие ошибок (логический и арифметический контроль);

- осуществлять быстрый многокритериальный поиск;

- проводить различные отборы данных;

- сортировать данные;

- быстро и удобно добавлять, изменять, удалять данные;

- предоставлять данные, как в табличном, так и в графическом виде;

- формировать отчётность;

- проводить многомерную классификацию кластерным анализом муниципальных образований области.

При этом спроектированная автоматизированная система позволит избежать основных недостатков ручной обработки данных, таких как:

- низкая оперативность;

- медленная обработка больших объемов информации.

ИАС разрабатывается с помощью системы визуального объектно-ориентированного программирования C++Bшlder 6, позволяющей решать множество сложных задач.

Информационно-аналитическая система предназначена для решения двух основных задач:

- проектирование реляционной базы данных:

а) ограничения целостности:

1) целостность сущностей;

2) ссылочная целостность;

3) семантическая целостность;

б) управление таблицами:

1) создание справочников;

2) создание таблиц;

в) управление данными:

1) извлечение данных;

2) добавление данных;

3) изменение данных;

4) удаление данных;

г) управление доступом к данным;

д) управление обработкой:

1) хранимые процедуры;

2) триггеры;

- кластерный анализ муниципальных образований:

а) расчет расстояний:

1) между объектами;

2) между кластерами;

б) расчет критериев качества разбиения;

в) расчет значений функционала.

Для выбора метода, положенного в основу информационно-

аналитической системы, необходимо провести анализ существующих

6

методов кластеризации и алгоритмов классификации данных, выделив их достоинства, недостатки и особенности применения. [4]

В результате исследования достаточно больших совокупностей объектов среди них выявляют близкие между собой в каком-то определенном (заданном) смысле.

При проведении многомерных наблюдений возникает задача классификации, заключающаяся в необходимости преобразования большого числа объектов в однородные группы.

В производимой классификации присутствуют п объектов, для каждого из них характерен m-мерный вектор признаков. Целью классификации является изучение внутренней структуры системы представленных объектов и ее «сжатия» без существенной потери информации путем выделения классов объектов, схожих между собой, интерпретации объектов внутри каждого класса.

Классификация объектов проводится с помощью кластерного анализа в условиях отсутствия заранее известной информации о наблюдениях внутри классов.

Используемые кластерные методы образуют следующие основные семейства:

- иерархические агломеративные методы;

- иерархические дивизимные методы;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- итеративные методы группировки;

- методы поиска модальных значений плотности;

- факторные методы;

- методы сгущений;

- методы, использующие теорию графов.

Представленные методы являются классическими методами кластерного анализа. Качество кластеризации является основным критерием оценивания применяемого алгоритма кластеризации. До недавнего времени считалось, что весь набор исследуемых данных умещается в памяти.

В настоящее время востребованы алгоритмы, способные обрабатывать большие объемы информации, сверхбольшие базы данных и ведется их разработка. К таким алгоритмам относятся обобщенное представление кластеров, а также выборка и использование структур данных, поддерживаемых СУБД.

Разработаны алгоритмы кластерного анализа, в которых методы иерархической кластеризации интегрированы с другими методами. К таким алгоритмам относятся: BIRCH, CURE, CHAMELEON, ROCK.

Во многих программах реализован итеративный метод - метод К-средних. Данный метод достаточно широко описан, является относительно простым, но вместе в тем позволяет определить оптимальное разбиение в соответствии с заданным критерием качества. Как правило, в качестве таких критериев используют межкластерное расстояние, внутрикластерное рассеяние и многое другое

При этом метод обладает существенными следующими недостатками:

- для выбора разбиения с лучшим значением критерия качества необходимо применять процедуры несколько раз для различного числа кластеров;

- стремление метода к выделению сферических кластеров, что не всегда соответствует оптимальному разбиению;

- за один цикл просмотра получить устойчивое разбиение практически невозможно.

Представленные недостатки частично можно смягчить, так второй исправляется частично мягкой кластеризацией.

Таким образом, на основе рассмотренных недостатков в разработке решения практических задач необходим метод, являющийся простым и не зависящий от субъективных параметров по сравнению с методом К-средних. В таком методе выборка просматривается в один проход и процесс оптимизации осуществляется непосредственно уже в ходе работы. При этом желательно учитывать несколько критериев оптимизации.

Доктором физико-математических наук, профессором Московского инженерно-физического института (государственного университета) Киреевым Сергеем Васильевичем в своей статье «Алгоритм кластеризации данных с минимаксной оптимизацией критериев качества разбиения» предложен метод, учитывающий эти соображения и обладающий универсальностью подхода. [6]

Алгоритм кластеризации данных с минимаксной оптимизацией критериев качества разбиения, заложенный в информационно-аналитической системе, состоит из следующих шагов:

Шаг 1. Выбор объекта в качестве начального кластера-эталона (например, первый объект в выборке).

Шаг 2. Выбор объекта из оставшейся выборки, если она не пуста.

Шаг 3. Расчет расстояния от текущего объекта до каждого из имеющихся кластеров-эталонов.

Шаг 4. Расчет значения для двух вариантов: текущий объект принимается в качестве нового кластера и текущий объект объединяется с ближайшим кластером в один.

Шаг 5. Выбор варианта с максимальным и переход к шагу 2.

В основу ИАС положен метод профессора Васильева с минимаксной оптимизацией критериев качества разбиения. Исходными данными являются социально-экономические показатели муниципалитетов. Формирование списка показателей в системе представлено на рисунке 1.

На рисунке 2 приведена форма рассчитываемых показателей для каждого кластера и входящие в него объекты, а также растояние между центрами кластеров.

В таблице 1 представлен состав кластеров согласно результатам работы информационно-аналитической системы.

Рисунок 1 - Формирование списка показателей

Файл Выход

Исходные данные | Состав кластеров Дополнительно | Метод ГК | Расстояния от элементов до центров кластера

1 кластер Расстояние 2 кластер Расстояние 3 кластер Расстояние 4 к; Ь|

1) Абдулино 0,579794123835491 2) Абдулинский 0,242885775059094 8) Бугуруслан 0,408141811456895 28)"

3) Адамовский 0,418854461280221 20) Кувандыкский 0,506279847948826 10) Бузулук 1,06682430359183

4) Акбулакский 0,443398746977332 38) Соль-Илецк 0,613704850969914 23) Медногорск 1,34628110745193

шш т

Расстояния между центрами кластеров

От центра 1 кластера до центра 2 кластера: 1,64015183664698

От центра 1 кластера до центра 3 кластера: 2,19771631662547

От центра 1 кластера до центра 4 кластера:

Среднее значение показателей в кластерах

-

1 кластер -0,228737622

2 кластер -0,815551049 -1,604248881

3 кластер 0,8555963035 1,8265870805

4 кластер -1,312893629 10,553702354

Средние значения признаков в кластере

10 9

7 6 5 4 3 2

1 . /

----___

0 2 4 6 8 10

Рисунок 2 - Дополнительная информация о кластерах

Таблица 1 - Результаты кластеризации муниципалитетов Оренбургской области

№ кластера

Муниципалитеты Оренбургской области

Кластер 1

I) г. Абдулино 16

3) Адамовский 17

4) А кбул акс кий 18

5) Александровский 19

6) Алексеевский 21

7) Беляевский 22 9) Бугурусланский 24

II) Бузулукский 25

12) г. Гай 26

13)Гайский 27

14) Грачевский 30

15) Домбаровский 31

Илекский 32

Кваркенский 33

Красногвардейский 34

г. Кувандык 35

Курманаевский 36

Матвеевский 37

Новоорский 40

Новосергиевский 42

г. Новотроицк 43

Октябрьский 44

г. Орск 45

Первомайский 47

Переволоцкий

Пономаревский

Сакмарский

Саракташский

Светлинский

Северный

г. Сорочинск

Ташлинский

Тоцкий

Тюльганский

Шарлыкский

г. Ясный

Кластер 2

2) Абдулинский 38 20) Кувандыкский 39

г. Соль-Илецк 41

Соль-Илецкий 46

Сорочинский Ясиенский

Кластер 3

8) г. Бу гуру слан 23 10) г. Бузу лук 29

г. Медногорск Оренбургский

Кластер 4

28) г. Оренбург

Специалисты отдела сводной информации Оренбургстата для кластеризации данных использовали ППП «^аЙБЙса».

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для сравнения классификаций полученных методом К-средних и алгоритмом, реализованном в ИАС, необходимо рассмотреть состав получившихся кластеров.

В таблице 2 представлен численный состав кластеров для каждого метода и число совпадений - количество муниципалитетов вошедших в один и тот же кластер при разных методах классификации.

Таблица 2 - Состав кластеров

№ кластера Число муниципалитетов, вошедших в кластер Число совпадений

метод К-средних ИАС

1 36 36 34

2 5 6 5

3 5 4 3

4 1 1 1

Графики средних значений представлены на рисунках 3 и 4.

Рисунок 3 - График средних значений метод К-средних

Рисунок 4 - График средних значений метод в ИАС

Разница в средних значениях при разных методах кластеризации не повлияла на взаимное расположение прямых на графике.

Преимущества классификации муниципалитетов с помощью ИАС по сравнению с методом К-средних следующие:

- учитывается сразу несколько критериев разбиения (среднее внутрикластерное расстояние и среднее межкластерное расстояние);

- работа метода заканчивается за один цикл прохода по исходной выборке объектов;

- не требуется задавать количество образуемых кластеров (и, следовательно, нет необходимости пользоваться иерархическими агломеративными методами кластерного анализа для определения числа кластеров).

Реализованный в системе кластерный анализ позволил разделить всю совокупность объектов на четыре группы: с максимальным уровнем социально-экономического развития (4 кластер), с высоким уровнем (3 кластер), со средним уровнем (1 кластер) и уровнем социально-экономического развития ниже среднего (2 кластер).

В результате проведенной классификации выяснилось, что большая часть муниципалитетов («87%) имеет максимальный, высокий и средний уровень социально-экономического развития, что свидетельствует о высоком уровне социально-экономического развития Оренбургской области.

Для дальнейшего развития области в целом следует уделить отдельное внимание группе городов и районов второго кластера, с уровнем социально -экономического развития ниже среднего, выработать стратегию поддержки и развития экономики.

Библиографический список:

1. Оренбургстат [Электронный ресурс]. - Режим доступа: http://orenstat. gks.ru

2. Портал Правительства Оренбургской области [Электронный ресурс]. - Режим доступа: http://www.orenburg-gov.ru/magnoliaPublic/regportal/Main.html

3. Региональный портал прогнозирования социально-экономического развития регионов России [Электронный ресурс]. - Режим доступа: http://regюn. prognoz.ru/main. aspx

4. Торгово-промышленная палата Оренбургской области [Электронный ресурс]. - Режим доступа: http://orenburg-cci.ru/252

5. Федеральная служба государственной статистики [Электронный ресурс]. - Режим доступа: http://www.gks.ru

6. В.С. Киреев, Алгоритм кластеризации данных с минимаксной оптимизацией критериев качества разбиения // "ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ" №7, 2007. - Стр. 47 - 49

i Надоели баннеры? Вы всегда можете отключить рекламу.