Научная статья на тему 'Методы многомерного статистического анализа в проекте «Политический атлас современности»'

Методы многомерного статистического анализа в проекте «Политический атлас современности» Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
321
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Полунин Юрий Алексеевич, Тимофеев Иван Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы многомерного статистического анализа в проекте «Политический атлас современности»»

II. КЛАССИФИКАЦИЯ И ТИПОЛОГИЯ ГОСУДАРСТВ В «ПОЛИТИЧЕСКОМ АТЛАСЕ СОВРЕМЕННОСТИ»

Ю.А. ПОЛУНИН, И.Н. ТИМОФЕЕВ

МЕТОДЫ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА В ПРОЕКТЕ «ПОЛИТИЧЕСКИЙ АТЛАС СОВРЕМЕННОСТИ»

Общие проблемы и методологические ограничения

Одной из ключевых характеристик «золотого века» эмпирической сравнительной политологии, который пришелся на 195 0-1960-е годы, считается интерес к крупномасштабным сравнениям. Выходя за рамки изучения сходств и различий между политическими институтами развитых стран, ученые предпринимали попытки разработать такие теории и методы, которые позволили бы анализировать политические системы любого типа, независимо от стадии развития, региональной привязки и других особенностей. Подобные разработки касались как концептуальных схем, так и принципов и логики эмпирических исследований. Однако всплеск интереса к универсальным сравнительным исследованиям впоследствии сменился скептицизмом в отношении методологии подобных разработок. Несмотря на целый ряд проектов, которые реализуются и сегодня (проекты Т. Ванханена, «Полития» и др.), политологи и международники вплоть до последнего времени предпочитали ограничивать исследуе-

мые случаи теми или иными регионами или группами стран, редко выходя на глобальный уровень сравнения1.

Скептицизм в отношении сравнительных исследований, основанных на количественных методах, объектами которых одновременно выступают все страны мира или большая их часть, определяется рядом ограничений, присущих данному подходу.

К их числу относятся, во-первых, трудности в определении адекватных переменных, на основе которых различия между странами могли бы быть описаны в рамках единообразной логики, с одной стороны, и учтены особенности этих стран - с другой. Во-вторых, это проблема весов переменных, составляющих критерии сравнения. В-третьих, проблема взаимосвязи между этими критериями и переменными: нередко они оказываются тесно коррелированными друг с другом, описывая фактически одно и то же (так, например, корреляция индексов политических прав и гражданских свобод «Freedom House» превышает 0,95 - они описывают практически одинаковые явления, наподобие дюймов и сантиметров в измерении длины). В-четвертых, это проблема структурирования стран по отношению друг к другу на основе выделенных критериев: речь идет о проблеме одномерности таких структур и трудности кластеризации стран на их основе. Немаловажной проблемой нередко выступает и трудность политологической интерпретации результатов количественных исследований.

Преодоление этих ограничений представляло серьезную дилемму и для проекта «Политический атлас современности». Одна из ключевых методологических проблем проекта определяется следующим образом: каков тот алгоритм количественного анализа, который позволил бы адекватно описать различия между странами и при этом в максимальной степени преодолеть вышеупомянутые ограничения?

Общая стратегия решения этой проблемы сводится к следующему многоэтапному алгоритму: на основе ряда переменных сконструировать комплексные индексы и, учитывая веса образующих индексы переменных, ранжировать страны на основе индексов (т.е. рассчитать

1 Подробнее см.: Мэр П. Сравнительная политология: общие проблемы // Политическая наука: новые направления / Под ред. Гудина Р., Клингеманна Х.Д. -М: Вече, 1999. - С. 311-317.

рейтинги стран по соответствующим индексам). Эти индексы и должны выступать теми критериями, на основе которых страны сравниваются друг с другом. Индексы должны освещать различные стороны функционирования политий, что выступает предпосылкой многомерности их исследования.

Учитывая то, что индексы могут оказаться более или менее взаимосвязанными и прямой анализ стран по всей совокупности индексов (рейтингов) в этом случае затруднителен, следующий шаг предполагает использование факторного анализа1. Речь идет о «свертывании» пространства из 192 стран к нескольким главным компонентам, которые бы объясняли различия между странами, не будучи коррелированными друг с другом. Этот шаг предполагает также определение коэффициентов вклада индексов в каждую из полученных компонент, что позволило бы интерпретировать их содержание. Кроме того, указанное действие включало в себя оп-

1 Интенсивное применение факторного анализа началось вместе с подъемом модернизма в американской политологии. Пионерской стала активно цитирующаяся вплоть до настоящего времени работа Х. Алкера и Б. Рассета (Alker H., Russett B. World politics in the General Assembly. - New Haven: Yale univ. press, 1965). В последующие годы очень значительный вклад в применение методов факторного анализа к изучению политических проблем и прежде всего проблем демократии внес Р. Раммел (Rummel R.J. Understanding factor analysis // J. of conflict resolution. - New Haven, 1967. - Vol. 11, N 4. - P. 444-480; Rummel R.J. Democracies are less warlike than other regimes // European j. of international relations. - L., 1995. - Vol. 1, N 4. -P. 457-479; Rummel R.J. Power kills: Democracy as a method of nonviolence. - New Brunswick: Transaction, 1997; Rummel R.J. Statistics of democide: Genocide and mass murder since 1900. - Munster: LIT, 1998).

Вплоть до настоящего времени факторный анализ широко используется для изучения разнообразных проблем политологии и политической социологии (М. Тесслер, И. Зоко, Дж. Рей, К. Форнелл и др.). См., напр.: TesslerM. Do islamic orientations influence attitudes towards democracy in the Arab world? // International j. of comparative sociology. - L., 2002. - Vol. 43, N 3-5. - P. 229-249; Zoco E. Legislators’ positions and party system competition in Central America: A comparative analysis // Party politics. - L., 2006. - Vol. 12, N 2. - Р. 257-280; Ray L.J. Democracy and international conflict: An evaluation of the democratic peace proposition. - Columbia, S.C.: Univ. of South Carolina, 1995; Fornell C. Political democracy: How many dimensions? // American sociological review. - Wash., 1983. - Vol. 48, N 1. - Р. 136-138. Достаточно широко применяется и такой метод многомерного статистического анализа, как кластерный анализ (М. Уолфсон и др.). См., напр.: Wolfson M., Zagras M., James P. Identifying national types: A cluster analysis of politics, economics and conflict // J. of peace research. - L., 2004. - Vol. 41, N 5. - P. 607-623.

ределение структуры расположения стран по отношению друг к другу в пространстве главных компонент.

Следующий шаг - кластеризация стран на основе полученных данных. Принципиальность этого шага заключается в том, что страны кластеризуются не на основе индексов (рейтингов) как таковых, но на основе независимых, некоррелированных главных компонент, полученных на базе индексов (рейтингов). То есть к моменту кластеризации решаются как проблема весов, так и проблема коррели-рованности индексов.

Все страны описываются на основе 70 переменных, составляющих индексы. Часть переменных (параметров) заполняются на основе данных международной статистики (социально-экономические показатели, электоральные показатели, численность вооруженных сил и т.п.). Другие переменные предполагают те или иные шкалы (в исследовании использованы пятибалльные шкалы, шкалы-оппозиции «да - нет») и заполняются на основе национальных конституций (например, возможность у главы исполнительной власти находиться на своем посту более двух сроков подряд) и данных международных организаций, таких как ООН, ВОЗ и др. (например, наличие эпидемии ВИЧ/СПИД, присутствие на территории страны иностранных контингентов и т.п.).

Индексы, рейтинги и дискриминантный анализ

Ключевыми критериями определения различий между странами выступают комплексные индексы, которые формируются на основе тех или иных переменных, включенных в базу данных. Это, как мы уже сказали, пять индексов: индекс государственности, индекс внешних и внутренних угроз, индекс потенциала международного влияния, индекс качества жизни, индекс институциональных основ демократии.

Одна из основных проблем определения значений индексов заключается в методике их расчета. Неприемлемым выступает вариант «механического» соединения нормированных переменных и расчет рейтингов стран по этим индексам, например на основе вычисления среднего значения. В этом случае не учитывается потенциально разный вес переменных. Следовательно, результаты

расчетов с приданием переменным одинаковых весов были бы не совсем корректными.

В свете этой проблемы требовалась такая методика, которая позволила бы получать индексы с учетом разных весов переменных (параметров). В качестве такой методики был выбран дискриминантный анализ.

В статистике дискриминантный анализ используется для выявления переменных, которые разделяют имеющиеся случаи (у нас -страны) на две группы и более или лучше предсказывают отнесение анализируемых случаев к той или иной группе. Эта процедура в некоторой степени сходна с многомерным дисперсионным анализом (МЛКОУЛ). Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии1.

Дискриминантный анализ заключается в следующем: на основании так называемой «обучающей выборки»2 осуществляется поиск линейной комбинации весов и исходных параметров, которые наилучшим образом характеризуют различия между группами стран. Сумма параметров, умноженных на их вес, является дискриминантной функцией. Учет информации, содержащейся в наборе параметров, значительно облегчает операцию деления стран на группы. Коэффициенты (веса) вычисляются так, чтобы максимизировать условное расстояние между группами. В контексте нашего исследования процедура дискриминантного анализа была использована следующим образом.

Индексы и рассчитанные по ним рейтинги предполагают размещение стран в определенном двухполюсном континууме, например, страны с высоким качеством жизни и с низким. Остальные же страны размещены между этими «полюсами». Такую структуру имеет практически любой индекс. В рамках нашего анализа подобные «полюса» выступили теми двумя группами, на которые разбиваются страны. Для проведения подобной процедуры и формируются «обучающие выборки» стран, являющиеся эталонами одного и другого

1 Пациорковский В.В., Пациорковская В.В. БРББ для социологов. - М.: ИСЭПН РАН, 2005. - С. 328-335; НаследовА. БРББ: компьютерный анализ данных в психологии и социальных науках. - СПб.: Питер, 2005. - С. 331-351. См. также: Дискриминантный анализ. - Режим доступа: http://www.statsofl.ru/home/textbook/modules/stdiscan.html.

2 Заметим при этом, что, как правило, формирование «обучающей выборки» само есть результат определенной экспертной процедуры.

«полюсов». Процедура дискриминантного анализа позволяет не только разбивать страны на группы, но и ранжировать их посредством расчета дискриминантной функции, т.е. строить рейтинги.

Иными словами, применение дискриминантного анализа в нашем исследовании во многом носит инновационный характер: его традиционное назначение, заключающееся в разделении стран на группы, мы используем не как цель, а как средство расчета рейтингов. Наряду с этим мы не отказываемся от задачи разделения стран на группы как таковой. Но она будет осуществлена на следующих этапах - в рамках применения метода главных компонент и кластерного анализа.

Алгоритм проведения расчета рейтинга стран по индексу методом дискриминантного анализа включает в себя, таким образом, следующие шаги.

1. Выбор параметров, составляющих тот или иной индекс.

2. Формирование «обучающей выборки»1: исходя из характера индекса, выделяются страны-антагонисты, которые потенциально составляют «полюса» рассматриваемой проблемы. В «обучающую выборку» отбиралось приблизительно по 20 стран, принадлежащих к каждому «полюсу». Например, в случае индекса потенциала международного влияния выделяются страны, которые со всей очевидностью обладают наибольшим арсеналом ресурсов оказания влияния в «своем» регионе и за его пределами и активно его используют, и страны, которые являются наименее влиятельными. В то же время в обучающую выборку не включались страны с аномальными значениями (эти аномалии выявляются диаграммами Бокса - Дженкинса, основанными на статистических критериях). Например, в случае ряда переменных, входящих в индекс качества жизни, к таким аномалиям относится Люксембург, в случае параметров индекса потенциала международного влияния - США, с одной стороны, и малые государства, такие, как Микронезия, Маршалловы острова и т.п., - с другой.

3. Расчет значения дискриминантной функции для каждой страны с учетом весов параметров.

1 В проекте «Политический атлас современности» «обучающие выборки» стран формировались по итогам серии экспертных семинаров, проведенных на базе МГИМО-Университета и Российской ассоциации политической науки.

4. Формирование соответствующего рейтинга стран мира на основе значения дискриминантой функции. Такая процедура была осуществлена для всех пяти индексов.

Метод главных компонент

В то же время, как уже говорилось выше, научная задача проекта заключается не только в самом по себе рейтинговании стран по определенным заданным индексам, но в выявлении структуры внутренних взаимосвязей между индексами и на этой основе выделении структуры взаимосвязей между различными группами стран. Последнее необходимо для построения классификации стран. Индексы, таким образом, формируются не только для составления рейтингов, но для эффективной группировки переменных.

Однако для дальнейшей классификации стран и выявления структуры их взаимосвязей полученные индексы имели серьезное ограничение: они оказались достаточно сильно коррелированными друг с другом. Это означает, что они могли в той или иной степени описывать одинаковые явления разными языками1. Таким образом, следующим шагом в исследовательской стратегии стал поиск тех факторов (компонент), которые объясняли бы различия между странами и при этом не были бы коррелированными друг с другом.

Осуществление этого шага проводилось с использованием метода главных компонент. Этот метод позволяет установить такие комбинации переменных (индексов), выражающих сущностные стороны (компоненты) изучаемых объектов, по которым они в наибольшей степени сходны или отличаются друг от друга. В нашем случае первая компонента должна установить наибольший процент сходств и различий между странами в рамках определенных сочетаний индексов.

В принципе метод главных компонент мог бы быть использован применительно ко всему набору переменных исходной базы данных проекта. Однако в силу чрезвычайно высокой разнородности исполь-

1 Следует, однако, отметить, что если бы мы не ставили задачу многомерного анализа, изучение подобных корреляций могло бы стать самостоятельным предметом исследования с выделением какого-либо индекса в качестве зависимой переменной, а остальных индексов - в качестве независимых переменных.

зуемых показателей, отражающих различные стороны функционирования изучаемых стран, этот метод используется нами применительно к уже выявленным комплексам индексов - именно в этом состоит их инструментальная ценность. Мы, таким образом, применяем двухуровневый подход редукции: первый уровень - сведение переменных в индексы, второй - определение главных компонент уже на основе индексов. Благодаря этому достигаются две цели: нивелируется некоторая часть «статистического шума», что важно для эффективного применения математических методов, а также упрощается процедура политологической трактовки полученных результатов.

Итак, общий алгоритм применения метода главных компонент подразумевает, во-первых, выявление компонент, «преобразующих» исходное пространство коррелированных координат размерности 192 (так как в исследовании 192 страны) к нескольким некоррелированным координатам (основным компонентам), определяющим различия между странами. В этом случае в редакторе 8Р88 страны и индексы транспонируются - меняются местами: страны выступают как переменные, а индексы - как многомерные измерения. Во-вторых, он подразумевает определение степени вклада значения каждого из индексов в значение координаты страны по каждой компоненте, что необходимо для содержательной интерпретации получаемых результатов. Это достигается путем расчетов, выполняемых в рамках метода главных компонент. В-третьих, осуществляется анализ структуры положения стран в пространстве главных компонент, изучение полученной структуры как в виде проекций на условных плоскостях, образуемых попарно главными компонентами, так и в проекциях на отдельно взятые компоненты.

Для каждой из компонент можно оценить вклад каждого индекса (можно говорить о весах индексов в каждой компоненте), т.е. продемонстрировать, как рассчитывается координата страны по каждой компоненте. Это показывает, в какой логике та или иная компонента определяет структуру стран, их положение относительно друг друга. Если вес того или иного индекса в компоненте близок к 0, то его влияние в данной компоненте минимально. Значимы те индексы, которые образуют «полюса» компонент. Расчеты по всем компонентам позволяют увидеть, как страны соотносятся друг с другом в одномерных (в рамках одной компоненты) и двумерных пространствах (плоскости, образуемые двумя компонента-

ми). Кроме того, мы можем проследить положение отдельно взятой страны по конкретной компоненте, а также выявить процент особенностей страны, который объясняется компонентой.

Подробнее о применении метода главных компонент в рамках проекта и о полученных результатах см. раздел Приложений «Классификация стран с помощью метода главных компонент».

Метод кластерного анализа

Следующий шаг исследовательской стратегии - группировка стран на основе координат в некоррелированных главных компонентах. Эта процедура осуществляется методом кластерного анализа. Кластеры образуют те страны, условное «расстояние» между которыми, исходя из описанных компонентами их признаков, является наименьшим. Степень близости между странами в пространстве главных компонент рассчитывается на основании метрики Евклидовых расстояний, которые равны корню квадратному из суммы квадратов разностей между значениями одноименных переменных (в нашем случае - компонент).

Изначально мы имеем 192 страны, каждая из которых представляет собой уникальный случай (кластер). В ходе анализа возможно проведение кластеризации в диапазоне от 2 до 191 кластера. В результате с каждым новым шагом (возрастанием числа кластеров) кластеры включают в себя лишь все более близкие по характеристикам страны. С ростом числа кластеров выделяются все более однородные группы стран.

Характер крупных кластеров во многом определяется содержанием компоненты 1 (качество жизни га. угрозы). Например, если разбить все страны на 10 кластеров, то среди них выделяются две крупные, которые представлены странами с высоким качеством жизни и низкими угрозами, с одной стороны, и высокими угрозами и низким качеством жизни - с другой. Вклад других компонент прослеживается, например, в очень быстром выделении в отдельный кластер влиятельных государств - США, Китая, России, Франции, Германии и др. По мере дальнейшего дробления эти кластеры приобретают более специфические черты вплоть до превращения России и США, Китая, Индии и некоторых других стран в самостоятельные кластеры.

Результаты использования кластерного анализа в рамках проекта приводятся в разделе Приложений «Классификация стран с помощью кластерного анализа».

* * *

Итак, при отработке методологии проекта необходимо было создать инструмент, который подходил бы для универсального определения сходств и различий между странами, выявления их структурных взаимосвязей. Для этого мы должны были найти способы преодоления (насколько это вообще возможно) отмеченных выше ограничений. Созданный в рамках проекта инструмент многомерного сравнительного анализа включает в себя несколько уровней, каждый из которых вносит свой вклад в минимизацию потенциальных недостатков и ограничений.

Ограничение 1: трудности в определении адекватных переменных для сравнения стран. Это ограничение минимизировано посредством включения в анализ переменных, отражающих разные стороны функционирования современных политий: внутри- и внешнеполитические, социально-экономические и др. Эти переменные в большинстве своем опираются на признанную международную статистику. Кроме того, отобраны те переменные, информация по которым покрывает все исследуемые страны.

Ограничение 2: проблема весов переменных при вычислении индексов и ранжировании стран. Эта проблема решается с помощью дискриминантного анализа.

Ограничение 3: коррелированность индексов. Метод главных компонент позволяет решить эту проблему. Здесь следует отметить, что результаты использования этого метода нередко трудноинтер-претируемы. Эта проблема была решена путем включения в данную процедуру не всех переменных, но индексов (рейтингов), полученных на их основе, и разработкой специальных процедур, позволяющих наглядно представить результаты математической обработки.

Ограничение 4: анализ коррелированных данных. Эта проблема также решается с помощью метода главных компонент. Структура стран получена в зависимости от некоррелированных измерений (в пространстве главных компонент). На основе этих данных проводится корректная кластеризация стран.

i Надоели баннеры? Вы всегда можете отключить рекламу.