ВЕСТН. МОСК. УН-ТА. СЕР. 12. ПОЛИТИЧЕСКИЕ НАУКИ. 2008. № 2
АКТУАЛЬНЫЕ ПРОБЛЕМЫ ПОЛИТИЧЕСКОЙ НАУКИ
А.С. Ахременко
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ЭЛЕКТОРАЛЬНОЙ СТАТИСТИКИ: НЕКОТОРЫЕ МЕТОДОЛОГИЧЕСКИЕ И МЕТОДИЧЕСКИЕ ПРОБЛЕМЫ
Корреляционный анализ является одним из наиболее распространенных, широко используемых статистических техник анализа данных в электоральных исследованиях. В самых общих чертах данный метод измеряет статистические связи между переменными, устанавливая направление и тесноту такой связи. В электоральных исследованиях корреляционный анализ применяется для решения двух основных задач:
1) измерения связи между электоральной поддержкой определенной партии (кандидата) и некоторым показателем, фиксирующим социальные (в самом широком смысле слова) характеристики изучаемых объектов. Например, может быть измерена связь между уровнем урбанизации территорий (доля городского населения) и голосованием за партии либеральной ориентации. В таком случае правомерно говорить об анализе влияния фактора урбанизации (независимая переменная) на электоральное поведение (зависимая переменная);
2) измерения связи между поддержкой различных партий (кандидатов). Например, на парламентских выборах 1999 и 2003 гг. фиксировалась положительная связь между поддержкой СПС и ЯБЛОКА по регионам России, из чего делался вывод о наличии у этих партий общего электората. В данном случае неправомерно говорить об отношении влияния: переменные не разделяются на зависимые и независимые.
В настоящей статье мы сосредоточим внимание на второй из указанных выше задач. Как будет показано далее, вычисление корреляций между объектами электорального выбора связано с рядом трудностей, которые необходимо учитывать в процессе политологической интерпретации получаемых результатов. К сожалению, в современной литературе по эмпирическим исследованиям электорального процесса это практически никогда не делается, что приводит к существенным ошибкам в содержательной оценке получаемой статистики. Чтобы рассмотреть данные проблемы, необходим достаточно глубокий "экскурс" в собственно математический аппарат корреляционного анализа; хотя метод считается "простым" и "хорошо известным" ученым-политологам, на практике приходится нередко сталкиваться с попытками обнаружить содержательные связи там, где их на самом деле не существует.
Эмпирической основой для расчета корреляций служат, как правило, электорально-статистические таблицы. Ниже приводится фрагмент такой таблицы (табл. 1), отражающей сопряженности признаков "поддержка избирателями политической партии" и "территориальная принадлежность избирателя" (проживание в том или ином регионе — социально-географический признак). Следует подчеркнуть, что таблицы электоральной статистики представляют собой не что иное, как матрицы сопряженностей двух указанных качественных (категориальных) признаков: электоральная ориентация избирателей (столбцы — категории переменной — соответствуют партиям или кандидатам) и их территориальная принадлежность (строки — также категории переменной — соответствуют регионам, районам, участкам). В ячейках таблицы даются частоты, одновременно наблюдаемые для категорий этих двух переменных. В литературе часто бытует неявное заблуждение1, что процентные данные такого рода являются "изначально количественными", выступают неким аналогом физических характеристик регионов, таких, как температура или давление для вещественных тел. На самом же деле в электоральной статистике мы имеем дело с данными, которые в своем "исходном" виде являются данными нечисловой природы: электоральный выбор представляет собой выбор из качественно разных альтернатив (политических партий или кандидатов).
Таблица 1
Регион СПС ЯБЛОКО "Родина" ЛДПР "Единая Россия" КПРФ и т.д.
Адыгея 0,89 1,71 7,51 8,76 51,27 14,76
Республика Алтай 2,01 2,54 3,68 8,65 26,36 11,04
Башкирия 3,03 3,61 6,54 10,95 38,85 13,04
Бурятия 5,88 3,28 4,99 11,00 34,69 14,87
Дагестан 4,20 0,80 0,58 0,41 65,93 18,36
Ингушетия 1,27 3,29 0,56 1,03 57,02 0,99
Кабардино-Балкария 1,19 0,68 2,75 2,84 76,98 6,83
Калмыкия 3,11 1,90 6,48 5,17 50,69 10,61
Карачаево-Черкесия 9,52 1,82 4,79 5,11 49,59 13,20
Карелия 5,50 7,70 7,31 14,42 37,87 7,95
Коми 4,39 5,63 8,63 15,86 32,96 8,72
и т.д. (89 регионов)
1 См.: Евстифеев Р.В. Моделирование электорального пространства российских регионов на основе показателей корреляционной близости политических альтернатив // Моделирование в социально-политической сфере. 2007. № 1.
Имея подобные данные, мы получаем возможность рассматривать категории номинальной переменной "электоральная ориентация избирателей" в качестве набора самостоятельных переменных: «электоральная поддержка "Единой России"», "электоральная поддержка СПС" и т.д., чьи значения варьируются от случая к случаю, т.е. от региона к региону. Так, в табл. 1 поддержка "Единой России" принимает максимальное значение в Кабардино-Балкарии (76,98%), минимальное — в Республике Алтай (26.36%). Средняя доля поддержавших "Единую Россию" по данной совокупности регионов составляет 47,47%, ближе всего к средней находится случай Карачаево-Черкесии. Аналогичным образом мы можем рассматривать вариации других переменных, отражающих колебания электоральной поддержки партий, а также их комбинации. На графике ниже отображены колебания поддержки всех указанных в табл. 1 партий по данному набору территорий (график 1):
График 1
Цель корреляционного анализа состоит в том, чтобы оценить сходства (различия) вариаций переменных, отражающих электоральную поддержку различных партий. Фактически каждая пара переменных сопоставляется с определенной функцией, значение которой показывает, насколько близки (различны) их вариации. Мы рассмотрим наиболее распространенный метод осуществления такого сопоставления, а именно корреляционный анализ по методу К. Пирсона, являющийся "классическим" инструментом решения подобного рода задач.
На первом этапе реализации метода Пирсона происходит центрирование участвующих в анализе переменных: их исходные значения для каждого случая заменяются на отклонения данных значений от среднего арифметического значения:
В результате у всех участвующих в анализе переменных возникает общая средняя, равная нулю2, — общий центр распределения (именно поэтому процедура и называется "центрирование"). С помощью данной процедуры мы переходим от некоторого однонаправленного континуума ("электоральная поддержка партии" — гипотетически от 0 до 100%) к отклонениям от центра (0) в двух противоположных направлениях ("+" и "-").
После того как операция центрирования произведена, абсолютные значения отклонений от общей средней все еще довольно сильно различаются в зависимости от того, насколько сильно варьируют переменные (в нашем случае — насколько сильны перепады электоральной поддержки партии от одного региона к другому). Для стандартизации отклонений используется процедура нормирования (нормировки), представляющая собой вычисление отношения отклонения в каждом данном случае к стандартному отклонению переменной3.
Теперь все анализируемые переменные характеризуются не только общим центром распределения (0), но и общим стандартным отклонением, равным единице.
На графике 2 ниже представлены центрированно-нормирован-ные вариации трех переменных, соответствующих электоральной поддержке "Единой России", "Родины" и ЛДПР (на указанном массиве случаев).
В отличие от графика 1, этот график уже довольно нагляден. Так, мы видим, что переменные, соответствующие поддержке "Родины" и ЛДПР на данном массиве, варьируют сходным образом: возрастанию значений одной переменной, как правило, соответствует возрастание значений другой, равно как понижению значений одной — понижение другой. Переменные варьируют как бы "в одном направлении". Совершенно иная ситуация с поддержкой "Единой России",
2 См.: Дорофеева A.B. Высшая математика: гуманитарные специальности. VI.. 2004. С. 318.
3 Двумя основными показателями колеблемости переменных на интервальном уровне являются дисперсия и стандартное отклонение. Дисперсия представляет собой отношение суммы квадратов разностей отклонений переменной от среднего
Дисперсия — "сырая", нестандартизированная мера разброса и в очень большой степени зависит от абсолютных показателей электоральной поддержки партии. Стандартное (среднее квадратическое) отклонение с вычислительной точки зрения
держательном же уровне разница между двумя этими показателями существенна: стандартное отклонение является величиной именованной, т.е. имеет ту же единицу измерения, что и индивидуальные значения признака.
значения (среднего арифметического) к общему числу случаев
представляет собой квадратный корень из дисперсии: (с =
V1SE5 На
График 2
2,5 2,0 1,5 1,0 0,5 0
-0,5 -1,0 -1,5 -2,0
направление вариации (отклонение от средней) которой в основном противоположно и "Родине", и ЛДПР.
Что "физически" означает сходство или различие в вариации переменных электоральной поддержки? Как отмечалось выше, каждая из переменных, соответствующих поддержке определенной партии, имеет идентичный набор случаев (регионов) в идентичном порядке, приобретая в каждом или большинстве из них разные значения. Тем самым они — как правило — фиксируют определенные объективные различия между регионами. Другими словами, имеются некоторые до поры до времени скрытые (ненаблюдаемые) факторы, которые и обусловливают сходства и различия в вариациях переменных. Графически это можно представить следующим образом (рисунок).
Поддержка партии «А» Поддержка партии «В»
\/
Ненаблюдаемый фактор
Логично предположить, что если вариации переменных сходны (однонаправлены), то 1) они "регистрируют" одни и те же социальные различия (межрегиональные дифференциации одного и того же социального признака или похожего комплекса признаков); 2) дифференциация по данному социальному признаку (комплексу признаков) сходным образом (с одним и тем же "знаком") влияет на поддержку обеих партий. Иными словами, вариация данного признака будет положительно связана с вариациями поддержки обеих партий. Если же вариации переменных "противоположны" (разнонаправле-ны), то, во-первых, как и в предыдущем случае, они "регистрируют"
одни и те же региональные различия; во-вторых, дифференциация по данному признаку (комплексу признаков) противоположным образом (с разными знаками) влияет на поддержку обеих партий. Вариация данного признака будет положительно связана с вариацией поддержки одной партии и отрицательно — с другой.
Однако важен и третий случай, которому до сих пор практически не уделялось никакого внимания в электоральных исследованиях. Это отсутствие сколько-нибудь выраженной связи вариаций двух переменных, когда для одной части случаев характерны однонаправленные колебания, а для другой — разнонаправленные. Такая картина представлена на графике 3, где демонстрируются центрированно-нормированные вариации переменных "поддержка СПС" и «поддержка "Единой России"».
График 3
3 2 1 О -1 -2
Здесь мы вынуждены констатировать отсутствие такого дифференцирующего признака, различия по которому фиксировали бы обе партии. Данные партии отражают разные типы дифференциаций, и в этом смысле они "не пересекаются" в социальном пространстве, прокладывая "каждая свой курс", апеллируя — прямо или косвенно — к различным социальным группам. Разным в том смысле, что эти группы не могут быть представлены как категории одной номинальной переменной (дизъюнктивные подмножества одного множества), как не могут быть представлены в таком виде "католики" и "представители среднего класса".
Коэффициент корреляции Пирсона как мера связи пар переменных выявляет не только степень общности направлений их вариации, но и суммарную интенсивность взаимных сходных или противоположных отклонений от общей средней. Для каждого случая рассчитываются произведения центрированных и нормированных значений, которые затем суммируются и делятся на число случаев:
х. - х у- у г = х-г—)/#
ах у
Полученный в результате коэффициент колеблется от 1 (функциональная положительная связь) до —1 (функциональная отрицательная связь). Близость к нулю означает отсутствие связи. Геометрически парную корреляцию наиболее часто представляют в виде корреляцион-
ного поля (диаграммы рассеивания), где по оси X откладываются значения одной переменной, по оси У — другой. Каждый случай, соответственно, представляется как точка на плоскости с двумя координатами (уровень поддержки одной партии — X, уровень поддержки другой партии — У). При данном геометрическом представлении мы имеем случаи (у нас — регионы) как точки в пространстве электоральных альтернатив. Их взаимное расположение определяет форму (линейная или нелинейная), направление (прямое, положительное или обратное, отрицательное) и плотность (интенсивность) связи. Характерную картину очень плотной отрицательной связи демонстрируют, в частности, выборы 2000 г. в США, на которых конкурировали Дж. Буш и А. Гор (оси X и У соответственно). Коэффициент корреляции составляет —0,95, связь близка к отрицательной функциональной (график 4).
График 4
65 55 45 35 25 15 5
25 35 45 55 65 75 85 95
Таково традиционное для статистики геометрическое представление парной корреляционной связи. Оно чрезвычайно удобно для решения многих "технических" задач, в частности, визуального определения соответствия связи линейному критерию, выявлению выбросов4, формы двумерного распределения переменных и т.д. Однако существует и иное, гораздо менее наглядное геометрическое представление объектов электорального выбора с колеблющейся поддержкой, которое в то же время необходимо для понимания некоторых содержательных проблем интерпретации результатов корреляционного анализа.
4 Выброс в статистике — нетипичное значение, сильно отклоняющееся от основной тенденции связи переменных. Применительно к корреляционному анализу — значение, сильно отклоняющееся от линии регрессии.
Вернемся к формуле коэффициента корреляции Пирсона и рассмотрим ее числитель:
Он представляет собой не чтоуиное, как скалярное произведение. В математике скалярное произведение вектора а (ау а2) и вектора Ь {Ьу ¿2) равно + ¿¿2^2' т-е- представляет собой сумму произведений соответствующих координат векторов. Координатами вектора называют разность координат конечных и начальных точек вектора. Также скалярное произведение может быть вычислено как произведение длин векторов на косинус угла между ними:
Таким образом, объекты электорального выбора, чья поддержка варьирует от одного региона к другому, могут быть представлены как векторы в n-мерном пространстве. Компоненты ("координаты") таких векторов представляют собой значения, принимаемые переменными в каждом случае. Число компонент соответствует числу линейно независимых координатных прямых, по которым раскладывается вектор. Таким образом, для случая выше (табл. 1) мы имеем 6 партий, изображенных геометрически как 6 векторов в 11-мерном (по числу регионов) пространстве. Если выше мы представляли случаи (регионы) как точки в пространстве электоральных альтернатив, то теперь мы представляем электоральные альтернативы как векторы в многомерном пространстве регионов. Правда, в настоящее время мы не имеем возможности визуализировать такое представление в виде диаграммы.
Так как число и набор случаев для всех переменных идентичны, то все векторы находятся в единой системе координат, принадлежат одному математическому пространству. Имея совокупность направленных отрезков (векторов) в одном пространстве, мы в состоянии измерить углы между всеми их парами, совместив их начала с началом координат. Если векторы направлены противоположным образом, угол между ними будет близок к 180° (л, развернутый угол, график 5а). Если векторы имеют одно и то же или близкое направление, угол между ними будет незначительным5, близким к 0 (график 5 Ь).
В примере 6с векторы ортогональны (перпендикулярны), т.е. угол между ними составляет 90° (л/2). В этом случае говорят об их линейной независимости, что соответствует случаю отсутствия связи вариаций двух переменных. Содержательно, как мы отмечали выше,
3 Здесь и далее мы будем считать, что любой угол можно измерить от 0° до 180°, двигаясь по часовой стрелке или против нее (например, угол в 360°, или 2л, мы будем считать равным 0). Соответственно "небольшим" углом будем называть угол, близкий к 0°, большим — угол, близкий к 180°.
х{УгУ\
\a\\b\ cos ab.
График 5
а Ъ с
это свидетельствует о том, что две партии отражают разные типы региональных дифференциаций.
Выше отмечалось, что скалярное произведение рассчитывается двумя эквивалентными способами: по компонентам векторов a =
(= У afii) или как произведение длин векторов на косинус угла между
b ч ,ч ( Xj-x у ¡-у Л
ними (a = \a\b\ cos a b). Формула Пирсона г= У (-)(-)/N\ фа-
У ^ °х )
ктически воспроизводит первый способ с учетом центрирования и нормировки компонент. В действительности вычисление коэффициента парной корреляции равнозначно вычислению косинуса угла между двумя многомерными векторами — отрезками, характеризующимися определенным направлением в многомерном пространстве. Это положение наглядно иллюстрирует табл. 2.
Таким образом, корреляционный анализ сопоставляет каждой паре объектов электорального выбора некоторое значение скалярной функции. Данное значение отражает различия (сходства) в направленности векторов, соответствующих данным объектам выбора, в
Таблица 2
Угол между «-мерными векторами Значение коэффициента корреляции Косинус угла между «-мерными векторами Интерпретация коэффициента корреляции Векторная интерпретация косинуса угла
180 (л) -1 -1 Функциональная обратная связь Векторы коллине-арны6 и противоположно направлены
0 1 1 Функциональная прямая связь Векторы коллине-арны и одинаково направлены
90 (л/2) 0 0 Отсутствие связи Векторы ортогональны (линейно независимы)
6 Векторы называются коллинеарными, если существует такая прямая, которой они параллельны (см.: Беклемишев Д.В. Курс Аналитической геометрии и линейной алгебры. М., 2007. С. 10).
многомерном пространстве региональных различий. Содержательная политологическая интерпретация значений скалярной функции позволяет, таким образом, установить:
— фиксацию переменными "электоральная поддержка партии X, У, Ъ и т.д." одних и тех же (или разных) региональных различий;
— их взаимную ориентацию в смысле однонаправленного или противоположного следования вдоль того "поля напряжения", которое создается данной региональной дифференциацией.
В результате корреляционного анализа находится матрица парных соотношений (сравнений) вида:
А =
аи, ... аь
в2] ... а2п
где элемент ау определяет результат сопоставления электоральных объектов О/ и в смысле корреляционной связи (косинуса угла между многомерными векторами). Для нашего примера матрица парных корреляций представлена в табл. 3.
Таблица 3
СПС ЯБЛОКО " Родина" ЛДПР "Единая Россия" КПРФ
СПС 1,00
ЯБЛОКО 0,23 1,00
"Родина" 0,18 0,54 1,0
ЛДПР 0,22 0,78 0,85 1,00
"Единая Россия" -0,26 -0,62 -0,57 -0,79 1,00
КПРФ 0,34 -0,35 0,13 0,05 -0,10 1,00
Приведенные выше рассуждения приобретают особое значение в контексте так называемой "проблемы случайных величин" (или "вырожденных матриц"), которая традиционно игнорируется отечественными (и не только) исследователями, использующими корреляции для анализа электоральной статистики. Изначально корреляционный анализ как статистическая техника был разработан для выявления связей между случайными величинами, т.е. такими, которые однозначно не определяются друг через друга. В общем виде статистическую связь можно выразить формулой
где У1 — предсказанное значение зависимой переменной, Дх/) — часть результативного признака, сформировавшаяся под воздействием уч-
тенных известных факторных признаков, j — часть результативного признака, возникшая вследствие действия неконтролируемых или неучтенных факторов, а также измерения признаков, неизбежно сопровождающегося некоторыми случайными ошибками. Именно j — случайный компонент — определяет стохастический характер связи. Показатели электоральной поддержки партий и кандидатов, взятые в разрезе дизъюнктивных социальных групп (в том числе регионов), не являются случайными величинами в строгом смысле этого слова. Показатель "электоральная поддержка партии А" однозначно (или почти однозначно) восстанавливается по значениям электоральной поддержки других партий. Так как сумма голосов, поданных за отдельные электоральные альтернативы, равна общему числу проголосовавших избирателей, то результат отдельной партии рассчитывается как разность между числом избирателей и суммарными показателями поддержки всех других партий. В относительном (процентном) выражении результат А = 100 — (B+C+D+E+N). Строки (столбцы) электорально-статистических таблиц, таким образом, обладают чертами линейной зависимости, или, на языке линейной алгебры, вырожденности7. Соответственно чертами линейной зависимости обладают и матрицы парных отношений (корреляций) между объектами электорального выбора.
Содержательно это означает, что вариация переменных, соответствующих электоральной поддержке партий или кандидатов, зависит не только от различий между территориями, но и от вариаций других электоральных переменных. Это связано с тем, что переменные электоральной поддержки варьируют как бы в "ограниченном пространстве" (ограниченном общим числом голосов или 100%). Так, в случае, когда кандидатов (партий) всего 2, такая зависимость становится функциональной: доля голосов, поданных за партию А, всегда будет составлять 100% — В. Соответственно связь между поддержкой А и В всегда будет функционально отрицательной (— 1), если только А и В не являются константами (тогда связь отсутствует, 0). Часть исследователей, основываясь на своеобразном "математическом пуризме", предлагают в этой связи вообще не рассчитывать коэффициенты корреляции между переменными, отражающими электоральную поддержку.
С точки зрения автора, такой подход слишком радикален. Расчет корреляций дает вполне осмысленные политологические результаты. Кроме того, в случае, когда электоральных альтернатив более 2 (а это повсеместный случай, даже в США в президентских выборах участвуют в среднем около 10 кандидатов), строгая функциональность связей исчезает. Конечно, сохраняется одна связь А = 100 —
7 См.: Бортаковский A.C., Пантелеев A.B. Линейная алгебра в примерах и задачах. VI.. 2005. С. 99-101.
(В+С+ +0+Е+Ы), однако распределение значений по слагаемым в скобках можно считать (относительно) случайным компонентом.
Однако, что действительно необходимо подчеркнуть в связи с проблемой неслучайных величин, так это следующее. Во-первых, правомерно говорить не о фиксации статистических зависимостей между переменными, соответствующими поддержке различных электоральных альтернатив, а о выявлении векторной структуры данных. Неслучайно выше мы сделали особый упор на геометрическом смысле коэффициента корреляции как косинуса угла между многомерными векторами. Во-вторых (и это более важно), именно проблема вырожденности выводит на передний план необходимость целостного, комплексного анализа всех объектов электорального выбора. Неправомерно как с политологической, так и с математической точки зрения "вырывать из контекста" отдельные связи, пытаться интерпретировать их автономно. Особенно это актуально для случаев наличия доминирующей партии или кандидата, набирающих львиную долю голосов. В такой ситуации вариация переменной, соответствующей поддержке доминирующей партии, обладает, как правило, максимальными показателями колеблемости, прежде всего дисперсией и стандартным отклонением. В каком-то смысле такая переменная "давит" своей огромной вариацией на все остальные переменные, заставляя их колебаться в противоположном направлении. К примеру, гистограмма, приведенная ниже, представляет собой вариации поддержки партий на выборах 2003 г. по районам Республики Тува (график 6). Белым цветом отмечена вариация "Единой России".
Воспользуемся простой физической аналогией: представим цилиндр, в котором находится несколько шаров из упругого материала и ходит твердый поршень. "Поршень" соответствует в нашем случае поддержке "Единой России", "шары" — поддержке остальных партий. Если давление поршня слабеет (например, случай 4 на графике 6), все "шары" увеличиваются в объеме, если давление нарастает — они сжимаются. Именно это и обусловливает положительные корреляции между всеми партиями, кроме "Единой России". Здесь вариация переменной «поддержка "Единой России"» обусловливает общую векторную структуру данных, образуя отрицательные связи со всеми остальными переменными (табл. 4).
Картину связей такого рода обязательно нужно видеть в целом и понимать истинные механизмы ее действия. Глубокие размышления над природой совершенно нетипичных — положительных — связей между ЛДПР, ЯБЛОКОМ и КПРФ будут совершенно беспочвенны, если не принимать в расчет структурообразующую роль вариации переменной «поддержка "Единой России"», эффектом которой и являются названные положительные связи.
Вновь подчеркнем центральный тезис нашего изложения: коэффициент корреляции между переменными, отражающими электоральную поддержку политических партий (кандидатов), следует рас-
График 6
14 13 12 11 10 9 8 7 6 5 4 3 2 1
«XXI ~
шжшм: жжм—
гжжш:
■ СПС Ш «Яблоко» Н «Родина» Ш ЛДПР
ш кпрф
□ ЕР
I ^^т | то^ш
ахххххх!
20
40
60
80
100 %
Таблица 4
ЕР КПРФ СПС ЯБЛОКО "Родина" ЛДПР
ЕР 1
КПРФ -0,78 1
СПС -0,71 0,43 1
ЯБЛОКО -0,80 0,55 0,77 1
"Родина" -0,82 0,58 0,83 0,89 1
ЛДПР -0,79 0,57 0,82 0,85 0,97 1
сматривать не как меру "статистической связи", а как составляющую векторной структуры данных. При этом такую структуру данных необходимо рассматривать в целом, комплексно, не "вырывая" из нее отдельные коэффициенты. В противном случае неизбежны ошибки в политологической интерпретации результатов корреляционного анализа.