Научная статья на тему 'Графы для анализа структурных соотношений между переменными и их приложение к изучению российских регионов (часть 2)'

Графы для анализа структурных соотношений между переменными и их приложение к изучению российских регионов (часть 2) Текст научной статьи по специальности «Математика»

CC BY
146
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная эконометрика
Scopus
ВАК
Область наук

Аннотация научной статьи по математике, автор научной работы — Вайнберг Аллен Анна

Вторая часть статьи продолжает исследование структуры набора случайных переменных. Она состоит из двух частей: 1) описание предлагаемой автором модификации метода выбора ковариаций Демпстера, основанной на его комбинации с алгоритмом построения деревьев зависимостей, результаты моделирования, а также технология представления данной графовой модели на плоскости и различные методы интерпретации результатов; 2) применение разработанного метода к практическому исследованию и сравнению российских регионов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Graphical Methods of Structural Relations between Variables and their Application to Russian Regions (Part Two)

The second part of the article continues studying the structure of a set of variables. It consists of two pieces: (1) description of a modification of Dempster covariance selection algorithm based on its combination with that of tree dependence structures construction, simulation results, methods of representation of the graphical model on the plane, and different methods of results interpretation; (2) application of the method to studying and comparing Russian regions.

Текст научной работы на тему «Графы для анализа структурных соотношений между переменными и их приложение к изучению российских регионов (часть 2)»

№4(12) 2008

Анна Вайнберг Аллен

Графы для анализа структурных соотношений между переменными и их приложение к изучению российских регионов (часть 2)

Вторая часть статьи продолжает исследование структуры набора случайных переменных. Она состоит из двух частей: 1) описание предлагаемой автором модификации метода выбора ковариаций Демпстера, основанной на его комбинации с алгоритмом построения деревьев зависимостей, результаты моделирования, а также технология представления данной графовой модели на плоскости и различные методы интерпретации результатов; 2) применение разработанного метода к практическому исследованию и сравнению российских регионов.

В разделе 4 подробно описаны модификация алгоритма Демпстера и связанные с ней методы моделирования и интерпретации. Все программы, представленные в данной работе, и примеры их применения можно найти на сайте stat.solev.ru/ Weinberg.

Раздел 5 посвящен применению модифицированного алгоритма Демпстера к анализу российских регионов в 1994-1999 годах. Мы наблюдаем своего рода «поле переменных» — плавный переход от переменных, характеризующихэкономическую, предпринимательскую деятельность и качество населения, к общим макроэкономическим индикаторам (ВРП и др.), а затем через инфраструктурные и географические индикаторы — к социальным индикаторам. Такое «поле» также содержит изолированные переменные.

Основное внимание уделено анализу графов за 1994, 1997 и 1999 годы, в частности анализу структуры переменных и ее изменению во времени.

Понимание структуры переменных позволяет выяснить, какие внешние воздействия (например, развитие ипотеки или рост промышленного производства) могли бы привести к наиболее ощутимым практическим социально-экономическим результатам. С точки зрения экономической теории особый интерес вызывает сравнение структур переменных для различных наборов данных.

Автор выражает свою глубокую благодарность проф. С. А. Айвазяну за постоянную поддержку в процессе написания этой статьи, а также проф. Ж. Антилю, проф. Ю. Н. Благовещенскому, своему отцу с.н.с. Л. И. Вайнбергу и с.н.с. Т. С. Рыбниковой за полезное обсуждение и ценные советы. Автор также хотел бы отметить, что эта работа была начата в 1999 году совместно с ныне покойным проф. Л. Д. Мешалкиным.

4. Новый алгоритм выбора

Опишем модификацию алгоритма Демпстера [Dempster (1972)], детально представленного в первой части статьи. Главная идея состоит в следующем:

42

№4(12) 2008

1) объединение дерева зависимостей и модели выбора ковариаций, введенных в первой $ части статьи;^

2) разработка дополнительных инструментов для интерпретации результатов. ¡5

Как ранее обсуждалось в подразделе 1.3,11, мы часто предполагаем, что гипотеза древовидных зависимостей удовлетворяется для определенного подмножества данных. Таким образом, мы идентифицируем начальную субмодель, выбирая первые ребра дерева зависимостей. Эта модель используется как начальная точка в алгоритме Демпстера. Как правило, она уже близка к решению, и такой выбор уменьшает число вычислений.

Другое преимущество выбора дерева зависимостей в качестве начальной точки заключается в использовании простой и понятной структуры. Действительно, идея дерева зависимостей берет свое начало в цепях Маркова и их свойстве условной независимости будущего от прошлого.

Алгоритм выбора ковариаций Демпстера также основан на условной независимости между переменными. Однако итерационный алгоритм в целом труднее для понимания и построенные графы имеют более сложную структуру.

4.1. Описание алгоритма

Алгоритм в целом можно описать следующим образом:

Шаг инициализации. Вычислить дерево зависимостей (алгоритм Крускала). Вычислить логарифмическую функцию правдоподобия диагональной корреляционной матрицы.

Шаг I. Добавить ребро дерева зависимостей. По алгоритму Дейкстры оценить корреляционную матрицу, используя свойство цепи деревьев зависимостей в случае нормального распределения (см. Приложение 1).

Шаг II. Если это ребро вносит достаточный вклад2, то оно добавляется, и происходит возврат к шагу I.

Шаг III. Применить алгоритм Демпстера выбора ковариаций (см. раздел 3, I).

Конец алгоритма.

В результате получаем «улучшенное» дерево зависимостей, т. е. усеченную древовидную структурузависимостей с дополнительными ребрами, или, если посмотреть сдругой стороны, модификацию алгоритма Демпстера.

В данном случае результат выполнения алгоритма Крускала служит отправной точкой для реализации алгоритма Демпстера.Теоретическая сложность алгоритма остается неизменной, однако использование новой начальной точки заметно уменьшает число вычислений.

4.2. Псевдокод

Технически новый алгоритм выбора состоит из последовательного применения трех алгоритмов:

1 Здесь и далее римской цифрой I обозначена первая часть статьи, к которой принадлежит соответствующий раздел, рисунок или алгоритм. Например, 1.3, I — это подраздел 1.3 первой части статьи.

2 Вклад считается достаточным, если значима разность между новым и старымзначением критерия, построенного на основе логарифмической функции правдоподобия (см. правило остановки в разделе 3, I).

43

№4(12) 2008

<N

¡5

u

iL s§ 8 ¡5

<ъ Q.

I

u

>s §

u

0

.

!

<u §

<U

1

I

£ §

s Ü I

<u

Ü &

с

! §

!

5

о

iE

о

0

u

6

£ &

u

<S «

1

<s

!

■fr

<s

£

1) алгоритма Крускала поиска максимального связывающего дерева (MST) на шаге инициализации;

2) алгоритма Дейкстры [Dijkstra (1959)] поиска кратчайшей траектории на шаге I (алгоритм 3, см. Приложение 1);

3) алгоритма выбора ковариаций Демпстера на шаге III (алгоритмы 1 и 2, I).

4.3. Численный пример

Вернемся к примеру Демпстера. Для этого примера с данными, имеющими древовидную структуру зависимостей, все три алгоритма, изложенные вданной статье (дерево зависимостей, алгоритм Демпстера и модифицированный алгоритм Демпстера), приводят к одному и тому же результату, изображенному в виде графа на рис. 1, I.

Шаг инициализации состоит в построении дерева зависимостей, и он представлен в численном примере подраздела 3.3, I.

Шаги I-II

Итерация 1: Добавляем первое ребро дерева зависимостей: (4, 5). Увеличение значения функции правдоподобия незначимо.

Итерации 2-4: Добавляем следующие три ребра согласно алгоритму Крускала.

Итерация 5: Добавляем пятое ребро дерева зависимостей: (5, 6). Корреляционная матрица, оцененная по алгоритму Дейкстры, имеет вид

Г1,000 0,3966 0,3688 0,2163 1,0000 0,1463 0,0858 1,0000 0,0798 1,0000

I] =

-0,4632 -0,1837 -0,1708 -0,4671 1,0000

0,1693 0,0672 0,0625 0,1708 -0,3656 1,0000

Разность значений логарифмических функций правдоподобия равна 28,32. Значение критической статистики, основанной на логарифмической функции правдоподобия, значимо.

Таким образом, шаг III не выполняется.

4.4. Моделирование

В разделе 5 модифицированный алгоритм Демпстера будет применен к реальным сложным совокупностям данных. Поэтому вначале тестируем поведение обоих алгоритмов — алгоритма выбора ковариаций Демпстера и модифицированного алгоритма Демпстера — с помощью смоделированных данных.

4.4.1. Моделирование данных

Моделируем нормально распределенные совокупности данныхX ^: / = 1,...,п; ] = 1,.

., Р,

где п — число наблюдений, р — число переменных. Фиксируем п = 100, поскольку на практике как в межстрановых, так и в межрегиональных исследованиях никогда не бывает большего числа наблюдений, и р изменяется от 3 до 25. В частности, моделируем данные:

44

№4(12) 2008

• случайные;

• с древовидной структурой зависимостей;

• с частичной древовидной структурой зависимостей;

• с блочно-диагональной структурой корреляционной матрицы.

4.4.2. Моделирование корреляционных матриц с известной структурой

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Процедура моделирования — одна и та же для всех четырех случаев. Моделируем корре- ^ ляционную матрицу С с определенной структурой. Для этого прежде всего строим матрицу случайных величин V = {V ^}, / = 1,...,п; ] = 1,..., р, или, другими словами, р векторов V, ] .Далее находим С = 1/п (V - V /(V - V).

Затем, применяя разложение Холецкого, получаем матрицу Н, такую, что С = Н Н, и строим нормально распределенные данные X, применяя формулу X = УН, где Упхр ~ N[0,I].

Опишем способы моделирования V ^ для четырех выбранных структур данных.

I. Случайные данные. Моделируем случайную матрицу V? ~ N(0,1), / = 1,...,п; ] = 1,...,р, где V ^ взаимонезависимы. Получаемая выборочная ковариационная матрица С должна быть близка кI.

II. Древовидная структура зависимостей. Вначале моделируем Vn ~ N(0,1) с независимыми координатами, далее строим вектор V,]+1 на основе вектора V,] согласно следующей процедуре:

1) моделируем а ] ~ ^(0,1; 0,3)3 и берем число 11 = а]п, округленное до следующего целого;

2) моделируем константу с], где с] ~ Н(—1,5; 1,5);

3) случайным образом выбираем I] элементов вектора V,] и умножаем каждый из них на константу с], остальные его элементы остаются без изменения. Полученный вектор называем

+1.

III. Частичная древовидная структура зависимостей. Строим к блоков с т (полагаем т = 5) векторами в каждом (кроме, возможно, последнего блока), где к равно отношению числа переменных р к т, округленному до следующего целого числа.

Повторяем процедуру II отдельно для каждого блока, но при этом а] выбирается из Я(0,1;0,5), а с1 —из R ((-2; -4) и(2;4)).

IV. Блочно-диагональная структура. Строим блоки, как в случае III. Далее моделируем первый вектор в каждом блоке, как в случае II, и строим вектор V,.+1 = V,] + и,., где координаты и,, — независимые случайные величины из N(0,^0,2).

Полученные результаты очень близки для всех четырех смоделированных структур данных. Для экономии места приведем результаты только для данных с частичной древовидной структурой зависимостей, поскольку именно эта структура всегда встречалась нам в практических исследованиях.

3 ЧерезR (а;Ь) обозначаем равномерно распределенную величину на отрезке (о; Ь).

4.4.3. Результаты моделирования

45

№4(12) 2008

сч

¡5

и £

8 8 г?

<и а.

I

и >5

8 и

0

.

1

г §

г

I §

& §

I

I

г

а &

с

г

5

1

5

о

Е

о

0 и

Й

¡8 *

6

и <в м

1

<в !

<в £

Алгоритм Демпстера и модифицированный алгоритм Демпстера практически всегда приводят к одному и тому же результату, но их эффективность отличается.

На рис. 3 для частичной древовидной структуры зависимостей показано, что абсолютная разность времен выполнения алгоритмов Демпстера увеличивается при увеличении числа переменных. Это верно и для других рассматриваемых структур данных.

Рис. 3. Время выполнения алгоритма при различном числе переменных для данных с частичной древовидной структурой зависимостей

Однако нас больше интересует скорость этого увеличения. Для частичной древовидной структуры зависимостей и случайных данных на рис.4 представлены отношения времени выполнения двух алгоритмов. Видно, что для данных с частичной древовидной структурой зависимостей (см. рис. 4, а) при увеличении числа переменных отношение времени выполнения алгоритмов стабилизируется около цифры 4, а для случайных данных (см. рис.4, б) — около цифры 2, также как и для двух других рассматриваемых структур данных.

Напомним, что модифицированный алгоритм Демпстера специально разработан при предположении частичной древовидной структуры зависимостей данных. Таким образом, кажется логичным, что он более эффективен именно в присутствии этой структуры данных.

Преимущество во времени выполнения не настолько ощутимо, но оно, тем не менее, заметно в практической работе, особенно принимая во внимание, что совокупности данных в пространственном (межрегиональном) анализе страны, как правило, имеют частичную древовидную структуру зависимостей.

На рис. 5 показано интересное наблюдение для частичной древовидной структуры зависимостей: число связей, сохраненных алгоритмом, в основном пропорционально числу переменных. Это верно и для трех других моделируемых структур данных.

№4(12) 2008

Рис. 4. Отношение времени выполнения алгоритма Демпстера и модифицированного алгоритма Демпстера для данных с частичной древовидной структурой зависимостей (а) и для случайных данных (б)

47

№4(12)2008

<N

fi

и £

03

0

is s

<ъ а.

1

и

>5 §

U

0

.

!

ii

s *

г ï

1

! :s

5

I

I

il

6

с ^

I

>S

I

э

о

s

о о и

а

!

£ .

«

«

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I «

л

Рис. 5. Соотношение между числом ребер и числом переменных для данных с частичной древовидной структурой зависимостей

4.5. Процедура построения графа

Для построения графовых моделей используем систему визуализации графов uDraw(Graph)4, разработанную в Университете Бремена. Система распространяется бесплатно для использования в исследовательских целях и доступна непосредственно на сайте uDraw (Graph)5.

Данные можно вводить вручную либо они должны быть подготовлены в формате API (Application Programmer Interface) — внутреннем языке uDraw(Graph). Нами в системе MatLab написан специальный интерфейс, позволяющий переводить графы, представленные в виде троек [вершина 1, вершина 2, вес ребра] в формат API. Напоминаем, что мы работаем с неориентированными графами. Программа интерфейса находится в свободном доступе на сайте stat.solev.ru/weinberg.

4.6. Интерпретация

Обсудим три аспекта интерпретации результатов: качество объяснения, интерпретация структуры переменных и интерпретация наблюдений.

4.6.1. Качество объяснения

Применяем два индикатора для оценивания качества объяснения:

• качество представления корреляционной матрицы (см. подраздел 1.2, I). Этот индикатор отражает, насколько хорошо из оставленных в графе ребер, можно восстановить исключенные ребра исходной выборочной корреляционной матрицы;

4 До 2005 года программа была известна как daVinci или da Vinci Presenter.

5 www.informatik.uni-bremen.de/uDraw(Graph)/en/index.html

№4(12) 2008

• доля (в процентах) логарифмической функции правдоподобия (далее для краткости бу- $ дем говорить: логарифм правдоподобия), объясняемая графом. Вычисляем отношение лога- |

рифма правдоподобия для матрицы, аппроксимированной графовой моделью, к логарифму правдоподобия корреляционной матрицы. н|

>5

4.6.2. Интерпретация структуры переменных

Опишем основные методы и индикаторы, применяемые для интерпретации структуры переменных.

1. Основная идея заключается в непосредственной интерпретации графа, чтобы распознать структуру корреляционной матрицы, обнаружить переменные, которые агрегируются в другие переменные, и отследить взаимосвязи между переменными и группами переменных.

В частности, можно провести сравнительное исследование различных графов для одного и того же множества переменных (но для различных групп регионов, стран или для различных временных диапазонов), изучая поведение и устойчивость во времени и в пространстве структуры переменных.

2. Вводим также иерархию переменных. Их можно упорядочить, во-первых, по суммам логарифмов правдоподобия исходящих ребер, во-вторых, по числу связей (числу смежных вершин) для каждой переменной и, в-третьих, согласно некоторой функции от этих двух переменных.

3. Большинство наших выводов получаем, интерпретируя множество самых «информативных» переменных, другими словами, тех, которые имеют высокие значения логарифма правдоподобия и(или) большое количество связей. Определение 7 из первой части статьи вводит понятие степени переменной: степень переменной равняется числу ее связей. Переменные третьей степени и выше мы называем скелетными. Полагаем, что такие переменные в некотором смысле являются агрегацией других, связанных с ними перемен-

В частности, для каждой переменной i вычисляются следующие итоговые параметры:

а) число смежных вершин n;

б) функция отзначений логарифмов правдоподобия ребер, выходящих изданной вершины. Вычисляем также sum, — сумму этих значений;

в) оптимизационная функция — комбинация первого и второго параметров. Обозначим через summax максимальную сумму значений логарифмов правдоподобия смежных ребер, а через nmax— максимальное число связей.Таким образом, данная комбинация для переменной i определяется как sum, + summax • n,/nmax.

4. Значение R2 дпя регрессии вычисляется только для переменных, имеющих смежные ребра6. Эта переменная выступает в качестве независимой, а ее смежные вершины — в качестве объясняющих переменных. Большое значение R2 означает, что смежные переменные допускают хорошую аппроксимацию самой переменной.

6 В противном случае этот параметр устанавливается равным нулю.

<N

S

u

.1?

№4(12) 2008

5. Качество представления графа и отдельных переменных. Хорошее качество представления означает, что на основе ребер, входящих в граф, можно достоверно восстановить все корреляции данной переменной.

Оптимизационная функция (комбинация) между числом смежных ребер и суммой значе-щ ний логарифмов правдоподобия особенно полезна, когда множество переменных содержит подмножество высококоррелированных переменных. Ребра, соединяющие переменные

г?

этого подмножества, добавляются первыми. Таким образом, соответствующие переменные имеют особенно высокие суммы значений логарифмов правдоподобия. Относительная важ-| ность других переменных при этом занижается. В частности, в нашем случае такой эффект наблюдается для экономических переменных. Последние тесно связаны между собой, и поэтому мы начинаем с добавления переменных, которые имеют высокие значения логариф-

>s g

u о

<г мов правдоподобия

!

Таким образом, используя только значения логарифмов функции правдоподобия, вводим в наш анализ «экономическое смещение», а дополняя логарифм правдоподобия степенью переменной, в значительной мере «корректируем» этот нежелательный эффект.

В данной статье, в связи с ограничением по объему, мы не имеем возможности представить

§

5 4.6.3. Интерпретация наблюдений

§ Мы можем объединить исследование переменных с анализом (типологией) наблюдений.

§ конкретные примеры интерпретации, но опишем сами методы.

И менных откладываются на равноотстоящих друг от друга радиусах, исходящих из центра кру-

щ

1. Для каждого наблюдения строим «звезду Велша» (Welsh) [Fienberg (1979)], что приводит к полезному графическому представлению данных. Для каждого наблюдения значения пере-

га, формируя своего рода «звезду». Если переменные измерены в разных единицах, то они стандартизируются перед построением графика. Можно построить звезды, используя все переменные множества или только скелетные, подмножество наиболее информативных переменных или подмножество взаимосвязанных переменных.

2. Вместозвезд Велша можно использовать «лица Чернова» (СЬегп^Т). Лица Чернова аналогичны лицам людей, и, таким образом, большее значение приобретают те переменные, которые соответствуют более заметным (изолированным) чертам лица. Для эффективного «чтения» лиц Чернова важен порядок, в котором переменные ассоциируются сопределен-

i ными чертами лица, и знак этих переменных. Как и в предыдущем случае, переменные стан-^ дартизируются, и дополнительно мы обращаем внимание, чтобы «лучшим»характеристикам g региона соответствовали положительные знаки переменных. Области с «более высоким

развитием» имеют «более удовлетворенное выражение лица». | 3. К выбранному множеству переменных применяем также кластерный анализ. Использу-! ем результаты иерархических методов [Johnson (1967), Borgatti (1994)], чтобы распознать [S структуру наблюдений и выбрать начальную точку. Далее, для уточнения разбиения, приме? няем метод динамических облаков с устойчивыми ядрами [Diday (1971), Diday et al. (1982), Ammor, Chah Slaoui (2000)]. Могут использоваться также и другие методы кластерного ана-^ лиза. Однако метод динамических облаков с устойчивыми ядрами позволяет автоматически определить число кластеров данного множества переменных. Более подробное описание

50

№4(12) 2008

метода и программу, написанную нами в системе MatLab, можно найти на сайте stat.solev.ru/ jg Weinberg.

Наш опыт применения кластерного анализа показывает, что наиболее интересные результаты достигаются при построении кластеров на основе подмножества взаимосвязанных переменных, отражающих не более двух «глобальных» характеристик переменных.

4. Множество скелетных переменных также имеет интересное свойство «сохранения кар- ^ тинки». Для ряда наборов данных мы сравнивали плоскости первых двух главных компонент, ^ построенные: 1) на самом наборе переменных и 2) только на основе переменных со степенями более двух при сохранении того же набора наблюдений. Расположение наблюдений остается почти тем же самым. Визуально создается впечатление, что местоположение регионов относительно другдруга остается очень похожим. В будущем представляет интерес проверить данное наблюдение на статистически значимом количестве наборов данных и ввести численные критерии сравнения.

4.7. Направления продолжения работы

Ниже представлен неполный перечень дополнительных возможностей для применения и интерпретации графовых моделей (часть из них реализована в данной работе).

1. Можно строить графы для отдельных больших групп переменных, например для экономических, социально-демографических, политико-правовых и экономико-правовых переменных. На предварительном, «разведочном»этапе исследования, когда подчас приходится выбирать из сотен переменных, это имеет смысл сделать с помощью деревьев зависимостей, скорость построения которых почти не зависит от количества переменных.

2. Можно повторить исследование с тем же самым множеством переменных в разные периоды времени или для различных подмножеств наблюдений (в этой работе, например, изучаются отдельно регионы Сибири и европейской части России в данный момент времени).

3. Можно расширить набор используемых переменных, преобразуя переменные, изначально не распределенные нормально, в нормально распределенные (более подробно об этом см. Приложение 3.3).

4. Можно (и должно!) проверить с помощью теста Грейнджера направленность каждого ребра графа, т.е. какие факторы являются причиной, а какие — следствием той или иной связи.

5. Иногда можно объединить наблюдения за различные периоды времени. Допустим, имеется два набора данных по российским регионам, например, за 1996 и 2006 год, где каждый набор содержит 77 наблюдений. Тогда в объединенном наборе будет 144 наблюдения с именами, состоящими из названия региона и года, к которому относится указанный набор данных. В нашем случае наблюдения будут с именами «Москва 1996», «Москва 2006», «Татарстан 1996» и «Татарстан 2006». Данная процедура имеет смысл, когда не хватает наблюдений и(или) когда происшедшие изменения кардинально меняют сам объект наблюдения. Например, в нашем случае можно определенно сказать, что Москва в 1996 и 2006 году — это экономически и социально два совершенно разных общества.

6. В будущем можно применить результаты, полученные с помощью графовых моделей, для построения эконометрических моделей. В этом случае строим уравнения регрессии для скелетных переменных и рассматриваем переменные, с которыми они связаны в качестве объясняющих. При этом получаем систему одновременных уравнений.

51

<N

¡5

и

.1?

№4(12) 2008

5. Анализ российских регионов в 1994-1999 годах

Данный раздел посвящен практическому применению графовых моделей (модифицированного алгоритма Демпстера) к исследованию российских регионов.

Традиционно, с помощью метода анализа главных компонент получаем новые переменные как агрегации других переменных. Применение графовых моделей позволяет подойти щ к решению задачи с другой стороны: мы находим переменные, которые уже являются агрегациями других переменных. В анализе главных компонент ищем переменные (направления),

5

максимизирующие дисперсию всех «облаков» переменных. Применяя алгоритм Демпстера, как описано в разделе 3, I, выбираем ребра, суммирование которых обеспечивает максими-| зацию информации, содержащейся в других ребрах, и, таким образом, максимизацию логарифма правдоподобия.

В данном исследовании проводим анализ 77 многомерных наблюдений, представлявших

о.

2 регионы — субъекты Российской Федерации. Автономные округа, а также республики Ингу!

шетия и Чечня были исключены из исследования. Набор данных покрывает шестилетний период с 1994 по 1999 год и содержит 29 переменных (см. Приложение 2).

*

« 5.1. Выбор переменных

^ Для проведения нашего исследования необходимо было охватить как можно больше раз-| личных аспектов ситуации в регионах, а также их развитие. В любом межрегиональном или межстрановом исследовании Моррис и Адельман [Morris, Adelman (1988)] предлагают ис-

§ пользовать пять групп переменных: s

§ E — экономические индикаторы; | D — демографические индикаторы;

| Б — социально-институциональные переменные и переменные, характеризующие человеческий капитал;

Р — политико-институциональные переменные; М — рыночно-институциональные переменные.

Такая классификация переменных вполне пригодна для наших целей, однако мы ввели еще одну группу:

С — географические индикаторы,

которая отражает российскую специфику: протяженность и разнообразиетерритории страны. || Выбор переменных во всех шести группах в первую очередь определяется нашим наме-^ рением использовать интегрированные индикаторы, полностью характеризующие некоторое количество аспектов социально-экономической ситуации. Также выбор переменных обусловлен желанием проверить ряд социально-экономических гипотез: о роли инвестиций, человеческого капитала, природных ресурсов, предпринимательской активности, гео-| графического положения регионов и институциональных факторов. Примером интегриро-[5 ванного индикатора, в частности, служит ВРП на душу населения — переменная, отражаю-2 щая целый ряд аспектов экономической ситуации в регионе. Вместе с тем во многих случаях

^ нить их другими. Например, в нашем распоряжении не было комплексного индикатора кли-

интегрированные индикаторы оказались недоступны, поэтому мы были вынуждены заменить их другими. Например, в нашем распоряжении не было комплексного индикатора климатических условий в российских регионах. Вместо него была использована средняя темпе-

52

'— №4(12) 2008

ратура января, причем для того, чтобы зафиксировать этот индикатор, пришлось использо- $ вать одну и ту же температуру для всех лет на протяжении изучаемого периода. |

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кроме того, мы не располагали переменными, описывающими институциональное разви- ^ тие, а также действия правительства и проведение реформ, поэтому при изучении политико-институциональных характеристик регионов были вынуждены использовать результаты выборов. || Более подробную информацию по указанному набору данных, включая проверку его на ^ нормальность, преобразование отдельных переменных, работу с пропущенными перемен- ^ ными, можно найти в Приложении 3. Строим графовые модели за все 6 лет изучаемого периода, а затем исследуем стабильность и изменения переменных.

Для 1994 года представлен полный набор методов интерпретации. Список ребер с соответствующими корреляционными коэффициентами и значениями логарифмов правдоподобия содержится в табл. 2. Ребра приведены в порядке присоединения. Сводная таблица переменных представлена в табл.3. С целью определения «ключевых» переменных набора данных переменные были отсортированы по убыванию значений оптимизационной функции.

Таблица 2

Сводная таблица ребер графа для российских регионов, 1994 год

Вершина 1 Вершина 2 Коэффициент корреляции Логарифм правдоподобия

ге!аИ4 ехрепБ4 0,95 170,9

дгр4 ¡пс4 0,90 124,6

дгр4 ¡пу4 0,84 92,2

аББе!Б4 дгр4 0,84 91,6

дгр4 ехрепБ4 0,82 85,2

¡пс2тт4 роог4 -0,81 82,4

соттипЗ СетЗ -0,81 80,5

о1с14 netw4 0,79 7З,4

тигс^М ехреД4 -0,78 72,7

спте4 expect4 -0,73 58,1

ге!аП4 игЬап4 0,71 52,3

ехрепБ4 соттипЗ -0,69 49,1

ехреД4 соттипЗ 0,68 46,9

о1С4 m¡gгat4 0,68 46,3

ехрепБ4 ¡nc2m¡n4 0,65 42,4

!етр]ап netw4 0,65 42,3

ехрепБ4 Бmentг4 0,61 35,0

дгр4 tempjan -0,60 34,2

репрЬ netw4 -0,54 26,7

геБеагсИ4 игЬап4 0,54 25,7

адг4 игЬап4 -0,52 24,3

пайуе соттипЗ 0,50 22,2

ехрепБ4 avto4 0,48 20,2

ИоиБе4 ипетр14 -0,46 18,4

тигСегБ4 ¡nfmoгt4 0,44 16,3

№4(12) 2008

Окончание табл. 2

¡5

и £

8 8

.

I

и >5

8 и

0

.

1

<ъ §

I §

& §

I

I

а &

с

г

5

1

5

о

Е

о

0 и

Й

6

£ &

и

<в «

1

<в !

<в £

Вершина 1 Вершина 2 Коэффициент корреляции Логарифм правдоподобия

геБеэгсЬ4 netw4 0,45 29,4

тигс^М tempjan -0,57 18,6

¡пс14 ехрепБ4 0,63 15,2

¡пС4 urban4 0,63 15,3

геБеэгсЬ4 ¡nfmoгt4 -0,41 15,2

¡nc2m¡n4 netw4 0,24 15,4

¡пу4 о1С4 -0,50 18,2

гeta¡l4 smentг4 0,47 13,8

Таблица 3

Сводная таблица переменных для российских регионов, 1994 год

Переменная Степень Логарифм правдоподобия Комбинация Я2 Качество представления

expens4 7 418 846 0,96 0,88

дгр4 5 426 733 0,96 0,84

netw4 5 187 493 0,74 0,72

commun3 4 199 443 0,80 0,82

reta¡l4 3 237 420 0,92 0,85

uгban4 4 118 362 0,77 0,74

expect4 3 178 361 0,77 0,74

¡пС4 3 155 338 0,87 0,69

¡nc2m¡n4 3 140 324 0,77 0,65

о1С4 3 138 321 0,73 0,67

muгCeгs4 3 108 291 0,66 0,61

tempjan 3 95 278 0,63 0,68

гeseaгch4 3 70 254 0,45 0,63

¡ПУ4 2 110 233 0,76 0,79

smentг4 2 49 171 0,47 0,59

¡nfmoгt4 2 32 154 0,29 0,59

assets4 92 153 0,70 0,72

pooг4 82 144 0,66 0,54

Cem3 80 142 0,65 0,74

cг¡me4 58 119 0,53 0,69

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

m¡gгat4 46 107 0,46 0,57

peг¡ph 27 88 0,30 0,49

agг4 24 85 0,27 0,21

nat¡ve 22 83 0,25 0,59

avto4 20 81 0,23 0,59

house4 18 79 0,21 0,21

unempl4 18 79 0,21 0,15

stuCent4 0 0 0 0 0,43

patг3 0 0 0 0 0,19

54

№4(12) 2008

Графовые модели для 1994 и 1999 года приведены соответственно на рис. 6 и 7. В целях ^ экономии места здесь отражена только наиболее существенная часть информации, послу- ч

жившая основой анализа.

а1/Ю4 | | ¡11(14 | 15тс|]1г41

Рис. 6. Графическая модель для российских регионов, 1994 год

1 ремр|1 [ 15И1с1е|И9

Рис. 7. Графическая модель для российских регионов, 1999 год

В 1994 году ключевыми переменными являлись ВРП, расходы домашних хозяйств, плотность дорожной сети, число научных работников, процент городского населения, «прокоммунистическое» голосование, отношение дохода к прожиточному минимуму, число убийств и процент населения старше трудоспособного возраста (см. рис.6). В 1999 году структура переменных мало изменилась (см. рис. 7). Переменная ра^9 (голосование за «патриотические», правонационалистические партии) отражает здесь усиление протестных настроений в обществе после кризиса 1998 года.

5.2. Введение в анализ структуры переменных

Прежде всего, отметим, что отношение логарифма правдоподобия, объясняемого моделью, и логарифма правдоподобия полного набора данных, возросло с 58% в 1994 году до

сч

¡5

и

.1?

№4(12) 2008

67% в 1999 году. Общее качество интерпретации выросло менее существенно: с 0,64 в 1994 году до 0,67 в 1999 году. Это указывает на большую связность наборов данных, поскольку переменные более коррелированны между собой в 1999 году, чем в 1994 году, что также объясняется снижением влияния неэкономических, «принудительных» решений советского периода развития, а также возросшей взаимозависимостью между социальными щ и экономическими факторами.

Напомним, в чем заключается основная идея метода прямого выбора в графовых моделях

г?

(см. подраздел 2.2,1), которую, в частности, реализует алгоритм Демпстера: модель строится

путем добавления ребер, дающих наибольшее количество новой информации, измеренной

| логарифмическим правдоподобием всего набора данных. Процедура добавления новых ре-

| бер прерывается согласно особому «правилу остановки». Это правило проверяет гипотезу

о о том, что коэффициенты частичной корреляции нового добавляемого ребра существенно о.

8 отличаются от нуля.

Анализ основывается на коэффициентах частичной корреляции. Частичная корреляция между двумя переменными означает наличие корреляции только между этими двумя переменными, влияние всех остальных переменных набора данных не учитывается. Следовательно, если переменная И в графических моделях связана с переменной только через переменную у2, считаем, что переменные И и ^3 влияют друг на друга только через перемен-| ную у2.

В процессе анализа предстоит выполнить четыре задачи:

!е • определить точки возможного управляющего воздействия. щ

выбрать ключевые переменные;

проверить стабильность структуры переменных;

наблюдать изменения в структуре в течение переходного периода;

¡Ъ 5.3. Описание ключевых переменных

%

§ ВРП (валовой региональный продукт) на душу населения (дгр). На протяжении всего периода 1994-1999 годов эта переменная обнаруживает устойчивые связи с такими пере-

!

& менными, как: а

|| • расходы домашних хозяйств на душу населения;

^ • объем промышленного производства на душу населения;

а • температура января.

и

объем инвестиций на душу населения; основные фонды на душу населения;

§ В 1995 году ВРП на душу населения также связан с безработицей, а в 1998-1999 годах —

5

£ с «прокоммунистическим» голосованием на парламентских выборах 1999 года.

¡5 ВРП на душу населения — один из ключевых экономических индикаторов для каждого

2 региона. В то же время в России из-за влияния неравномерности уровня цен7 итак называе-

<в _

£

7 Например, в некоторых сибирских регионах из-за необходимости импортировать практически все продукты питания и почти все потребительскиетовары уровень цен почти в 2 раза выше, чем в центральной части России.

56

'— №4(12) 2008

мых «северных надбавок»8 он имеет значительную географическую составляющую, что под- jg тверждается связями сдругими переменными, зависящими отуровня цен, и с температурой января. В российских условиях ВРП практически полностью определяется промышленным ^ производством и наличием природных ресурсов (переменные «основные фонды» и «инве- н» стиции»). Связь с безработицей в 1995 году объясняется имевшим в то время место общим || кризисом в российской промышленности и, соответственно, временной остановкой многих ¡в предприятий. ^

Расходы домашних хозяйств надушу населения (expens) связаны с такими переменными, как:

• «прокоммунистическое» голосование;

• отношение дохода к прожиточному минимуму;

• валовой региональный продукт на душу населения;

• объем розничного товарооборота на душу населения;

• объем промышленного производства на душу населения;

• процент городского населения (через объем розничного товарооборота — retail);

• число автомобилей на душу населения.

Эти многочисленные связи сохраняются даже в 1997 году, когда к списку переменных добавились «процент голосов, отданных за демократические партии» и «процент коренного населения». Связь с процентом городского населения, т.е. степенью урбанизации, непрямая, а проходит через объем розничного товарооборота. В целом наш анализ основан на прямых связях, но вследствие некоторых особенностей расчетов, проводимых Госкомстатом, «объем розничного товарооборота» (retail) и «расходы домашних хозяйств на душу населения» (expens) оказались слишком сильно коррелированными (0,95), и в данном случае без ущерба для смысла общее правило можно нарушить. Также представляется возможным оставить одну из этих переменных за рамками нашего анализа.

Переменная «расходы домашних хозяйств на душу населения» является агрегированным индикатором экономической деятельности и поэтому имеет положительную корреляцию со «степенью урбанизации» и отрицательную — с «процентной долей голосов, отданных за прокоммунистические партии».

Проанализировав табл. 2 и 3, приходим к убеждению, что высокие значения логарифмов правдоподобия первых двух добавленных связей — между объемом розничного товарооборота и расходами домашних хозяйств надушу населения, а также между ВРП и объемом промышленного производства — в значительной мере определяют высокие значения логарифмов правдоподобия этихэкономических индикаторов. Особенно очевидным это становится в случае с объемом промышленного производства, чье высокое значение логарифма объясняется его связью с ВРП.

Эти две первые переменные — ВРП и «расходы домашних хозяйств на душу населения» — имеют хорошее качество представления и высокое значение R2. Последнее означает, что их значения легко оценить исходя из смежных переменных.

8 Повышающие коэффициенты, установленные государством в районах Крайнего Севера и приравненных к ним районов (64% территории страны, но менее 6% населения). Применяются к зарплатам и пенсиям для компенсации тяжелых климатических условий и высокого уровня цен.

57

№4(12) 2008

Отношение дохода к прожиточному минимуму (тс2тт) является агрегированным индикатором благосостояния, что подтверждается стабильностью его связей с такими переменными, как:

• процентная доля населения, живущего ниже прожиточного минимума (бедного населения);

8 • плотность транспортной сети и, следовательно, уровень развития инфраструктуры;

• расходы домашниххозяйств или объем розничного товарооборота, поскольку, какуже отмечалось, Госкомстат рассчитывал расходы домашниххозяйств исходя из объема розничного товарооборота.

екая экономика становится более рыночно-ориентированной, и теперь жилищное строитель-

о

'! В 1997 году возникает новая связь — с жилищным строительством. В этот период россий-

u о

S ство в большей степени зависит от дохода населения, чем от внеэкономических факторов. jg Ожидаемая продолжительность жизни при рождении (expect). Это стабильный агрегированный индикатор качества населения [Айвазян (2002)], суммирующий влияние таких

^ переменных, как «число убийств и преступлений надушу населения», «детская смертность»,

X «плотность транспортной сети», а в 1997 году также «жилищное строительство». ^ Процент населения старше трудоспособного возраста (old) всегда остается ключе-

| вой переменной любого набора данных в российских регионах и в значительной степени

^ противопоставляет давно заселенные регионы недавно заселенным9.

§ Плотность транспортной сети (netw). Эта переменная не только отражает уровень развития инфраструктуры региона и его географию10, но также является агрегированным индикатором качества жизни, что подтверждается его связью с отношением дохода к прожиточному минимуму и, в последние годы, связями с жилищным строительством и мигра-

§

<ь цией.

с Численность населения, живущего ниже прожиточного минимума (poor). Значе-Ц ниеэтой переменной возросло в 1999 году. Она имеет связи не только с отношением дохода | к прожиточному минимуму, но и с числом малых предприятий.

Остальные переменные, сохранившие свое значение на протяжении всего периода исследования, — это «инвестиции» (inv), «число убийств и покушений на убийство» (murders) и «число малых предприятий» (smentr). Они отражают соответственно эффект от инвестиций § кактаковых, эффективность государственного управления в сфере обеспечения безопасно-£ сти населения, а также уровень предпринимательской деятельности в регионе.

g; 5.4. Анализ структуры «поля переменных»;

£ стабильность и изменения

Q.

о Как уже было отмечено, в течение переходного периода наблюдалось усиление связно-

| сти набора данных и взаимного влияния между социальными, географическими и экономи-

<8 ческими индикаторами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^ 9 I—|

Ч Давно заселенные европейские регионы характеризовались наивысшим процентом населения старших воз-

^ растов. Многие молодые люди мигрировали оттуда в недавно заселенные регионы (некоторые регионы Сибири <в и Дальнего Востока) с крайне низким процентом населения старших возрастов.

10 Вследствие административных решений в советский период транспортные расходы при перевозках между заводами не оказывали влияния на цены товаров.

58

№4(12) 2008

В целом можно говорить о своего рода «поле переменных» — мы начинаем с переменных, $ характеризующих экономическую и предпринимательскую деятельность, качество населения11 (число малых предприятий, процентная доля населения, живущего ниже прожиточного мини- ^ мума, отношение дохода к прожиточному минимуму и объем розничного товарооборота). Далее н» переходим к общим макроэкономическим индикаторам,

промышленного производства, объем инвестиций, основные фонды, а затем через инфра- я структурные и географические индикаторы (степень урбанизации, густота дорожной сети, ^ детская смертность, число убийств и покушений на убийство и др.) — к социальным индикаторам, таким как уровень безработицы, процент лиц старше трудоспособного возраста и, наконец, миграция.

Экономические переменные характеризуются стабильной структурой корреляций. Связи между географическими и социальными индикаторами больше изменяются во времени, отражая новые тенденции в данных. Например, если в 1994 году переменная «жилищное строительство» была практически изолирована от остальных данных, то в 1999 году она оказалась связанной с такими переменными, как «протестное "патриотическое" голосование», «плотность транспортной сети» и «отношение дохода к прожиточному минимуму».

Наиболее нестабильны политические переменные: они перемещаются по графику после каждых новых выборов, которые нередко полностью меняют «смысл» этих переменных. В разные периоды времени голосование за одни и те же партии может отражать различные процессы и тенденции, существующие в обществе. Например, переменная, отражающая «патриотическое» голосование, т.е. протестные правонационалистические настроения, в 1994 году была изолированной. В 1999 году эта же переменная имела четыре связи: с продемократиче-ским голосованием, жилищным строительством, основными фондами и уровнем преступности, что стало политическим следствием финансового кризиса 1998 года, когда большинство развитых регионов с многочисленным средним классом оказалось в числе наиболее пострадавших от обвального падения рубля. Сильная связь с уровнем преступности также является неотъемлемым свойством переменной «патриотического» голосования12.

Политические переменные обнаруживают стабильную связь с процентом (долей) городского населения, что, как известно из российской политической практики, позволяет предсказывать электоральные предпочтения в регионах. Этот эффект был отмечен специалистами в области экономической географии13. В целом процент городского населения в значительной степени определяет как социально-экономический облик региона, так и пути его развития.

Переменная, отражающая численность студентов, остается изолированной в течение всего изучаемого периода. Возможно, мы должны обратить на нее особое внимание: либо она некорректно рассчитывается, либо научно-исследовательская деятельность и пред-

11 Качество населения — синтетический показатель, отражающий воспроизводство, демографическую структуру и физическое здоровье населения, способность образовывать и сохранять семьи, уровень образования и культуры, уровень квалификации населения.

12 Заключенные в России голосуют за правые националистические партии. Тюрьмы, как правило, расположены в нескольких северных районах, например в Республике Мордовия. Вышедшие на свободу часто вынуждены селиться неподалеку от своих бывших тюрем, поскольку согласно некоторым законам, оставшимся в силе с советских времен, они лишаются прописки в прежних местах проживания. Среди этого контингента населения также весьма высок уровень рецидивной преступности.

13 Личные беседы автора с проф. Л. Смирнягиным, канд. геогр. наук Е. Скатерщиковой и др.

59

<N

¡5

и

.1?

№4(12) 2008

принимательская деятельность не имеют связи с университетами и институтами, что может означать наличие проблем в системе высшего образования России (см. Приложение 3.3).

Переменные, относящиеся к одной группе, можно обнаружить в разных частях «поля». Например, такие демографические переменные, как «процент городского населения» и «миграция» расположены очень далеко друг от друга. Первая из них отражает экономиче-щ скую деятельность, а вторая — в основном географические аспекты.

Такие переменные, как «объем жилищного строительства», «уровень безработицы», перемен-

¡5

ные, отражающие социальное неравенство («процент бедного населения» и «отношение среднего дохода к прожиточному минимуму»), также перемещались по «полю». Это перемещение | представляется важным, поскольку оно отражает изменения, которые претерпело общество за годы перестройки. В 1994 году эти переменные были либо практически полностью изолированными, либо более связанными с географическими переменными. В 1999 году положение этих пере-

0

<г менных(за исключением безработицы) определялось экономической деятельностью в регионе

1

5.5. Точки возможного управляющего воздействия

Понимание структуры переменных позволяет выяснить, какие внешние воздействия могли бы привести к наиболее ощутимым результатам. Например, вызывает сомнение, способна ли такая изолированная переменная, как «численность студентов», повлиять на соци-| ально-экономическое положение в регионе. Представляется, что самыми логичными точками приложения управляющего воздействия могут быть: промышленное производство, уве-§ личение которого подразумевает рост ВРП и снижение процентной доли населения, s живущего ниже прожиточного минимума, и детская смертность.

I Также можно предположить, что возможность приобретать в кредит дома, квартиры

¡С

5 и автомобили окажет положительное влияние на уровень расходов домашниххозяйств и от-

^ к прожиточному минимуму. Оживление предпринимательской деятельности (увеличение числа малых предприятий на душу населения) — еще один способ повысить расходы домашниххозяйств надушу населения и снизить процентную долю населения, живущего ниже прожиточного минимума (бедного населения).

Помимо этого можно рассмотреть жилищное строительство вместе с плотностью транспортной сети как возможные экзогенные переменные, или «точки влияния» для стимулирования развития регионов. Поэтому государственные инвестиции в этих двух направке лениях могли бы дать существенный положительный результат.

Тем не менее отметим, что для подтверждения изложенных гипотез нам необходимо провести тесты Грейнджера, чтобы проверить, какие переменные являются «источниками», а какие — «восприемниками» того или иного влияния.

§ 5.6. Анализ групп регионов

" (сравнение структур регионов европейской части России и Сибири)

§

пе, и при разделении более чем на две группы последние в нашем случае окажутся слишком

Сравним теперь структуру переменных по группам регионов. Низкое значение отношения числа наблюдений к числу переменных сокращает объем информации по каждой груп-

маленькими для того, чтобы обеспечить получение значимых результатов.

№4(12) 2008

При разделении регионов на две группы применялись различные критерии. Сначала были использованы рейтинги [Айвазян (2002)], полученные в соответствии со следующими синтетическими критериями:

• качество населения;

• жизненный уровень;

• качество социальной сферы.

Далее мы перешли к разделению по ключевым переменным набора данных, к числу которых относятся «отношение дохода к прожиточному минимуму», «ожидаемая продолжительность жизни при рождении», «число убийств на душу населения» и др.

Графические модели этих разделений сохраняют структуру переменных почти без изменений. Происходиттолько незначительное снижение числа связей за счет уменьшения отношения числа наблюдений к числу переменных. Некоторые переменные стали более важны в отдельных наборах данных: например, «"прокоммунистическое" голосование» в 1994 году или «объем сельскохозяйственного производства» в 1999 году. Причиной этому, возможно, послужили: в 1994 году— политическая нестабильность;в 1999-м — возрождение сельского хозяйства после падения рубля в 1998 году и резкого снижения объема импорта.

В данной статье представлены результаты только одного, самого интересного, «естественного» разделения — на регионы европейской части страны и регионы Сибири в период окончания перестройки (1999 год). Соответствующие графические модели для 1999 года приведены на рис.8 и 9. Уральские горы служат традиционной границей между европейской и азиатской (сибирской) частями России, собственно же уральские регионы оказались разделенными. Мы сочли, что республики Башкортостан и Удмуртия, Оренбургская и Пермская области относятся к европейской части, тогда как Курганская, Челябинская и Свердловская области — к Сибири.

£ §

и. £

>5

£ СО

I

Рис. 8. Графическая модель для российских регионов европейской части страны, 1999 год

61

№4(12) 2008

сч

¡5

и £

8 8 г?

г о.

I

и >5

8 и

0

.

1

г §

г

I §

& §

I

I

г

а &

с

г

5

1

5

о

Е

о

0 и

Й

¡8 *

6

и <в м

1

<в !

<в £

Рис. 9. Графическая модель для российских регионов сибирской (азиатской) части страны, 1999 год

Графическая модель европейских регионов характеризуется растущей ролью переменной, отражающей число малых предприятий на душу населения. Эта переменная связана с расходами домашних хозяйств, объемом розничного товарооборота, объемом сельскохозяйственного производства и числом автомобилей (все вышеперечисленные — на душу населения). Таким образом, наряду с расходами домашних хозяйств и ВРП на душу населения число малых предприятий становится ключевым экономическим индикатором.

Вследствие малочисленности сибирских регионов их граф не содержит большого числа связей. Два экономических индикатора — ВРП и расходы домашних хозяйств на душу населения, а также такой индикатор качества населения, как ожидаемая продолжительность жизни при рождении, являются ключевыми переменными этого набора данных.

Сравнивая графы обоих наборов данных, можно сделать вывод, что наличие природных ресурсов и тяжелой промышленности по-прежнему является определяющим фактором экономической деятельности за Уралом, в то время как экономическая деятельность в европейской части России становится все более связанной с рыночными формами производства, в частности с числом малых и средних предприятий.

5.7. Некоторые выводы по структуре переменных

Обобщая анализ, можно отметить:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1.Мы увидели усилившуюся «связность» факторов, определяющих социально-экономическое положение и развитие российских регионов. В 1994 году внеэкономические факторы, унаследованные от советского периода развития, обусловили ряд необычныхтенден-ций в данных. Например, прямую связь между числом научных работников и густотой дорожной сети, между процентом уроженцев региона от общей численности его населения и числом голосов, поданных за коммунистов, а также между процентом населения старше трудоспособного возраста и миграцией. Как видно на графе 1999 года, эти и другие особенности структуры переменных исчезли за годы переходного периода, тогда как число тех свя-

№4(12) 2008

зей между переменными, которые объясняются традиционными социально-экономически- $ ми теориями, оставалось сравнительно стабильным или даже увеличилось.

2. Нам представляется, что главный результат этого раздела состоит в обнаружении «поля переменных», в котором позиции основных социально-экономических, географиче- н| ских и демографических переменных оставались неизменными, а политических (в нашем случае электоральных) — перемещались.

6. Выводы и дальнейшие направления исследования

В работе дано краткое введение в графовые модели и подробно представлен модифицированный алгоритм Демпстера, а также технология его применения для различных наборов данных. Кроме того, описано его применение к сравнительному исследованию российских регионов во второй половине периода перестройки (1994-1999 годы).

Распространение настоящего исследования на другие периоды времени, больший набор переменных или другие страны, а также сопоставление полученных результатов с результатами настоящего исследования может обеспечить проверку нашей гипотезы о существовании в социально-экономических исследованиях некой общей структуры переменных. Отклонение от такой структуры может свидетельствовать об экономическом и социальном своеобразии страны или региона в течение определенного периода времени.

В настоящее время автор в сотрудничестве с Татьяной Рыбниковой (ЦЭМИ) и Жераром Антилем (Женевский университет) продолжает эту работу соответственно для базы данных регионов России за 1997-2007 годы [Рыбникова, Вайнберг Аллен (2008)] и базы данных Лозаннского Института Развития, публикуемой в «Ежегоднике мировой конкурентоспособности» [World Competitiveness Yearbook (2008)]. Наличие институциональных переменных в обеих совокупностях данных позволяет проверить гораздо более широкий и интересный набор гипотез по структуре (полю) переменных.

Результаты этих работ мы хотели бы опубликовать в последующих номерах журнала.

Приложение 1

Алгоритм поиска кратчайшей траектории Дейкстры (Dijkstra)

Алгоритм для поиска кратчайшей траектории из данной вершины i ко всем другим вершинам разработан Дейкстрой [Dijkstra (1959)]. Сложность этого алгоритма равна O(p2) [Cormen et al. (1990)].

Определения

G(X, U) — граф;

p — число вершин;

l(i, j) — длина ребра (i, j) € U;

г, — множество вершин, смежных с вершиной i;

П*(i) — длина кратчайшей траектории из вершины 1 к вершине i;

IT (i) = 0.

Введение

• Выполняем p — 1 итерацию. В начале каждой итерации имеем два множества: множество S всех уже исследованных вершин и множество S = X\ S неисследованных вершин. На первой итерации S = {1}.

• Каждая вершина имеет метку П(i) со свойством:

<N

¡5

и

iL

№4(12) 2008 ^

n( i)

[IT(i), если i e S,

min {T(k) +1(k, i)}, если i e S.

[k e Snr,

• ЗначениеП(/)для / € 5 соответствует кратчайшей траектории из вершины 1 к вершине /, когда все вершины, за исключением вершины I, принадлежат 5.

о Алгоритм 3. Поиск кратчайшей траектории Дейкстры 5

1. S = X\{1}, П(1) = 0

х 2. П( i) = /(1, i), если i € Г1, и те в противном случае

g 3. while S ^0do

>;g —

§ 4. Выбрать j € S так, чтобы П( j) = min П(i)

| 5. S = S \{j} _ i€S

S 6. for i € Г, П S do

8. end for

* 9. end while

3 другой вершине i. Таким образом, оператор 7 из алгоритма 3 упрощается. В исходном алгоритме он

Ц имеет вид

7. T i) = T( j) +1( i, j)

Поскольку граф нециклический, то существует единственная траектория от вершины 1 к каждой

1ератор 7 из алгоритма 3 у

П(/) = min{П(/), П(]) + /(/,])}.

|| Приложение 2

| Список переменных за 1994-1999 годы

& адг4-9 — сельскохозяйственное производство на душу населения, в текущих ценах. ¡^ аББеТБ4-9 — основные фонды на душу населения, в текущих ценах. | ауШ4-9 — число автомобилей на 1000 человек.

соттипЗ, 5, 9 — голоса, поданные за коммунистов и их союзников на выборах 1993, 1995 и 1999 годов, в процентах.

спте4-9 — уровень преступности: число преступлений на 1000 человек.

с1ет3, 5, 9 — голоса, поданные за демократические партии и их союзников на выборах 1993, 1995 и 1999 годов, в процентах.

ехреД4-9 — ожидаемая продолжительность жизни при рождении, в годах. ехрепБ4-9 — расходы домашних хозяйств на душу населения, в текущих ценах. дгр4-9 — валовой региональный продукт (ВРП) на душу населения, в текущих ценах. о ИоиБе4-9 — жилищное строительство на 1000 человек, в м2.

<5

§ тс2тнп4-9 — отношение среднего дохода в денежном выражении к прожиточному минимуму в де-

| нежном выражении, в процентах.

^ тС4-9 — промышленное производство на душу населения, в текущих ценах.

ч т1тюгТ4-9 — уровень детской смертности.

■4 ту4-9 — инвестиции в основные фонды на душу населения, в текущих ценах. я

^ тндгаТ4-9 — миграция на 1000 человек.

тигСегБ4-9 — число убийств и покушений на убийство на 1000 человек.

No4(12) 2008

native — доля населения родившегося в регионе, в процентах. -g netw4-9 — плотность транспортной сети, в км/м2.

old4-9 — лица старше трудоспособного возраста, процент от общей численности населения. ^

patr3, 5, 9 — голоса за «патриотические» (правые националистические) партии и их союзников на vis

выборах 1993, 1995 и 1999 годов, в процентах. '<§

CQ

periph — периферийность, в баллах. <в

£

poor4-9 — численность населения с доходами ниже прожиточного минимума (так называемого ^ бедного населения), в процентах.

research4-9— число научных работников на 1000 человек.

retail4-9 — розничный товарооборот на душу населения, в текущих ценах.

smentr5-9 — число малых предприятий на 1000 человек.

student4-9 — число студентов на 1000 человек.

tempjan —температура января, в градусах.

unempl4-9 — число безработных на конец года, на душу населения. urban4-9 — городское население, в процентах.

Приложение 3

К вопросу о подготовке данных

Как уже отмечалось, мы проводили анализ на основе 77 многомерных наблюдений, представлявших регионы (субъекты Федерации). Автономные округа, а также республики Ингушетия и Чечня были исключены из исследования.

Набор данных покрывает шестилетний период с 1994 по 1999 год и содержит 29 переменных. Почти все переменные представляют собой официальные данные Госкомстата. К сожалению, наш набор не включает переменные, относящиеся к внешней торговле, поскольку эти данные по регионам имеются в наличии лишь с 1998 года.

В нашем распоряжении не было также комплексного индикатора климатических условий российских регионов. Вместо него была использована средняя температура января, причем с тем, чтобы зафиксировать этот индикатор, пришлось использовать одну и ту же температуру для всех лет на протяжении изучаемого периода, в нашем случае температуру января 1997 года. Переменная «процент населения, родившегося в регионе» приведена по данным переписи населения 1988 года. Плотность транспортной сети рассчитывалась как среднее значение плотности автодорожной и железнодорожной сетей (число километров дорог, деленное на площадь территории).

Мы не располагали переменными, описывающими институциональное развитие, а также действия правительства и проведение реформ, поэтому были вынуждены использовать результаты выборов при изучении политико-институциональных характеристик регионов.

Мы использовали переменные в текущих ценах, поскольку в постоянных ценах многие из них недоступны. В частности, ВРП на душу населения в постоянных ценах Госкомст России регистрировал только начиная с 1996 года. Тем не менее, если принять рабочую гипотезу об одинаковой инфляции во всех регионах14, использование переменных в текущих ценах не влияет на результаты, так как мы всегда работаем с нормированными переменными.

Вообще говоря, такая гипотеза является достаточно грубой.

65

№4(12) 2008

Также следует отметить, что 1994 год стал первым годом расчета ВРП, и специалисты, которые им занимались, еще только знакомились с методологией. Помимо этого существует проблема расчета основных фондов. Предшествующие 1990-1993 годы были временем высокой инфляции, и в 1994 году ^ были пересчитаны еще не все основные фонды15. В результате основные фонды за 1994 год превышают ^ ВРП только в 3 раза, тогда как обычно это соотношение равняется 10. Есть основания предположить, ^ что эти проблемы относились не только к центральному управлению Госкомстата, но и к его регио-| нальным отделениям, поэтому их данные не должны приводить к существенным ошибкам при регио-5 нальных сравнениях за один и тот же период. а Й

* 3.1. Переменная «периферийность» (репрИ)

«Периферийность» понимается нами как удаленность от границ и основных экономических и культурных центров страны. Данная переменная построена автором экспертно на основе подробного справочника по российским регионам [Europa Publications Limited (1999)]. Были использованы три кри-

портам);

| терия классификации:

§ I. Близость (в географическом и транспортном смысле) к центрам страны (международным аэро

| II. Близость к границам и морю, особенно наличие портов.

§ III. Наличие городов с населением более 500 тыс. человек. §

^ Были определены пять групп и пятнадцать подгрупп: §

| 1. Центры страны, прибыльные порты и «полезные» границы.

1.1. Москва, Санкт-Петербург.

1.2. Приморский край, Архангельская, Калининградская, Ленинградская, Нижегородская, Новгородская и Псковская области.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1.3. Республика Карелия, Хабаровский и Краснодарский края, Калужская, Мурманская, Ростовская и Тульская области.

2.3. Республики Башкирия, Северная Осетия, Мордовия и Удмуртия, Орловская и Пензенская об-

5

2. Центр европейской части России и менее прибыльные порты.

§ 2.1. Републики Дагестан и Татарстан; Амурская, Кировская, Пермская, Самарская, Сахалинская, Са-¡5 ратовская, Ульяновская, Волгоградская, Вологодская, Ярославская и Тверская области. 8 2.2. Республики Чувашия и Марий Эл, Астраханская область.

ласти.

£

6 3. Внутренние районы европейской части России, Уральские горы и часть Сибири. и

§ 3.1. Ивановская, Костромская, Челябинская, Курганская, Рязанская, Ставропольская, Тамбовская

I

я

к 3.2. Республики Калмыкия, Карачаево-Черкесия и Кабардино-Балкария, Белгородская, Брянская, §

3.3. Новосибирская, Омская, Томская и Тюменская области. £ _

и Владимирская области.

3.2. Республики Калмь Курская, Липецкая, Смоленская и Воронежская области, Ставропольский край.

Частная информация от канд. экон. наук Зайцевой.

№4(12) 2008

4. Середина сибирской и север европейской части России. jg

§

4.1. Кемеровская, Челябинская, Новосибирская и Оренбургская области. **

4.2. Республика Коми, Красноярский край, Иркутская область. ^

4.3. Архангельский край. >|

£ 0Q

5. Удаленные регионы: вдали от центра, нет удобного доступа за границу. g

х ч

5.1. Республики Адыгея, Саха-Якутия, Бурятия, Читинская, Камчатская области, Хабаровский край.

5.2. Еврейская автономная и Магаданская области.

5.3. Республики Алтай и Тыва.

Для «квантификации» этой классификации применяли схему Морриса и Адельмана [Morris, Adelman (1988)]. Мы использовали линейную шкалу от 0 до 100. Максимальное значение 90 соответствует группе 1, минимальное 10 — группе 5, значения для остальных групп были равномерно распределены между ними. Значения для подгрупп были определены таким образом, чтобы расстояние между последней подгруппой одной группы и первой подгруппой последующей группы было примерно в 2 раза больше, чем расстояние между подгруппами внутри группы. В частности, 95 соответствует подгруппе 1.1 (Москва и Санкт-Петербург), 90— подгруппе 1.2, 85 — подгруппе 1.3, а 75 — подгруппе 2.1. И наконец, мы умножаем все значения на -1, чтобы переменная «периферийность» принимала свое максимальное значение для наиболее «удаленных» регионов.

3.2. Отсутствующие переменные

Сведения о количестве малых предприятий за 1994 год недоступны, поэтому в 1994 году мы воспользовались переменной 1995 года.

В трех случаях отсутствуют данные для Москвы и Санкт-Петербурга:

1. Температура января ^етр1ап). Оба отсутствующих значения берутся равными соответствующим значениям для Московской и Ленинградской областей.

2. Плотность транспортной сети (netw). Значения для городов Москва и Санкт-Петербург взяты из данных для Московской и Ленинградской областей соответственно.

3. Данные по сельскохозяйственной продукции (адг). Они берутся равными нулю.

Другие отсутствующие значения16 были рассчитаны с помощью классических методов регрессии, изложенных в работе Шафера [БсИаГег (1996)]. Предположим, что отсутствует значение переменной Хдля года Го для региона го. Мы исключаем регион го, а для всех остальных переменных строим модель регрессии, считая Х{ зависимой переменной. В качестве объясняющих используем переменныеХ{ (I = 1,..., Т) для Тдругих лет и I других различных переменных ] (] = 1,..., I) для того же года Го. Отсюда получаем

Xо = *X.....\- УГ0,1.....У0,1).

Затем полученное новое соотношение используется для расчета значений для региона го.

16 Всего 12 значений: процент населения с доходами ниже прожиточного минимума в Республике Дагестан в 1994 году и в Еврейской автономной области в 1994-1998 годах; отношение среднего дохода к прожиточному минимуму для Республики Северная Осетия — Алания и Еврейской автономной области в 1994 году; число безработных на душу населения для Северной Осетии — Алании в 1994 году; число студентов на душу населения в Ленинградской области в 1994-1996 годах.

67

№4(12)2008

Й

U

те

0

1

0

is

<u а

8

1 о о

0 а

t

<u §

<ь S

1

I §

§

S S

t

<Ь §

<й а

с

i §

1 <ь =3 о

iE

о о о

ЕЁ fr

U

те

I

те |

те £

Наилучшая модель выбирается путем использования Ср-статистики Мэллоуза [Mallows (1973)]. Данный метод вносит смещение. Этого можно избежать, например, прибавив к оцененному результату нормально распределенную случайную ошибку. Тем не менее в нашем случае вследствие пренебрежимо малого числа отсутствующих значений (12) по отношению к общему объему данных (более 10 тысяч наблюдений) этим смещением можно пренебречь.

3.3. Проверка на нормальность и преобразование переменных

Перед применением алгоритма Демпстера или модифицированного алгоритма Демпстера построения графовых моделей необходимо удостовериться, что эмпирическое распределение наших данных близко к нормальному. Мы делаем это с помощью «квантиль—квантиль» (К-К) графиков нормального распределения, представленных на рис. 10.

Рис. 10. Графики «квантиль-квантиль» (К-К) нормального распределения для некоторых переменных 1994 года

'— №4(12) 2008

Сортируем значения переменной в порядке возрастания, и для каждого значения откладываем -g по горизонтали квантили нормального распределения, а по вертикали — квантили выборочного распределения. Соответственно, значения нормально распределенной переменной должны лежать ^ строго на прямой линии. vis

Первый из шести графиков рисунка представляет распределение выборочной нормальной пере- '<§ менной и представлен здесь для «калибровки глаза» на относительную важность отклонений от пря- <в мой линии, а значит, как мы уже отметили, от нормальности [Welsh (1996)]. Остальные графики представляют пять переменных 1994 года: ВРП на душу населения (grp4), промышленное производство на душу населения (ind4), сельскохозяйственное производство на душу населения (agr4), миграция на 1000 человек (migrat4) и количество студентов на душу населения (student4).

Мы видим, что за исключением переменной сельскохозяйственного производства на душу населения (agr), которую можно считать приблизительно нормальной, распределения оставшихся четырех переменных далеки от нормального, что обусловливает необходимость их преобразования [Welsh (1996), Хальд (1956)].

Список преобразований переменных представлен в табл.4. Все указанные преобразования дают удовлетворительные результаты, кроме преобразования переменной числа студентов на душу населения (student). Это единственная переменная набора данных, к которой мы не можем подобрать правильное преобразование, возможно, в дальнейшем к ней надо будет применить метод «нормальных меток» Ван-дер-Вардена (нормальное распределение рангов переменных) [Ван-дер-Варден (1960), Благовещенский (2008)].

Таблица 4

Преобразование переменных

Преобразование Применяется к переменным

Логарифм assets, grp, inv, retail, expense, inc2min, research, crime, murders, poor, unempl, student, infmort, dem

Корень ind, house, commun, netw

Экспонента стандартизированных данных native, migrat

Не преобразовываются agr, avto, urban, old, expect, patr, smentr, tempjan, periph

Список литературы

Айвазян С. А. Анализ категорий качества жизни населения субъектов Российской Федерации: их измерение, динамика, основные тенденции (по статистическим данным за 1997-1999 гг.)// Уровень жизни населения России. 2002. № 11.

Благовещенский Ю. Н. Тайны корреляционных связей в статистике. М.: Научная книга, 2008.

Ван-дер-Варден Б.Л. Математическая статистика. М.: Иностранная литература, 1960.

Рыбникова Т. С., Вайнберг Аллен А. Л. Описание базы данных институциональных показателей по регионам РФ 1999-2007 гг. www.cemi.rssi.ru, 2008.

Хальд А. Математическая статистика с техническими приложениями. М.: Иностранная литература, 1956.

AmmorN., Chah SlaouiS. Algorithme de noyaux stables// In XXXiieJournees de Statistiques. Actes. GRESTAF. Fes. Maroc. 2000.

69

<N

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

¡5

u

.s?

<u

№4(12) 2008

BorgattiS. P. How to explain hierarchical clastering // Connectons. 1994. V. 17(2). Cormen T. H, Leiberson C. E, RivestR. L. Introduction to Algorithms. MIT Press, 1990. Dempster A. Covariance selection // Biometrics. 1972. V. 28. March.

Diday E. Une nouvelle methode en classification automatique et reconnaissance des formes // Revue de statistique applique. 1971. V. 19(2).

Diday E., LemaireJ., PougetJ., Testu F. Elements d'analyse de donnees. Paris: Bordas, 1982. g Dijkstra E. W. A note on two problems in connection with graphs // Numerische Mathematik. 1959. V. 1. 5 Europa Publications Limited. The Territories of the Russian Federation. Old Woking, Surrey, UK: The ^ Gresham Press. 1999.

s

se Fienberg S. E. Graphical methods in statistics // American Statistician. 1979. V. 33.

>S o.

g don: John Hopkins University Press, 1988.

I Mallows C. L. Some comment on cp // Technometrics. 1973. V. 15.

Johnson S. Hierarchical clustering schemes// Psychometrika. 1967. V.2.

Morris C. T., Adelman I. Comparative Patterns of Economic Development 1850-1914. Baltimore and Lon-

p

SchaferJ. Analysis of Incomplete Multivariate Data. London: Chapman & Hall, 1996.

® Venables W, Ripley B. Modern Applied Statistics with S-Plus. New York: Springer-Verlag, 1994. <u

Weinberg A. Quantitative analysis of the situation and development of Russian regions during the transition period. These de Doctorat. Geneva: University of Geneva, 2007.

Welsh A. H. Aspects of Statistical Inference. New York: John Wiley & Sons, 1996.

§

^ World Competitiveness Yearbook. IMD. Lausanne, 2008.

70

/-

PeruoHbi ^

i Надоели баннеры? Вы всегда можете отключить рекламу.