Р. У. Камалова, Д.К. Стукал
ПРИКЛАДНАЯ СТАТИСТИКА КАК ИНСТРУМЕНТ ПОЗНАНИЯ В СОЦИАЛЬНЫХ НАУКАХ
Дискуссия о единстве или множественности органона научного познания, развернувшаяся на страницах ежегодника «МЕТОД», демонстрирует многие важные аспекты как применения математики и семиотики к изучению социального, так и развития этих наук в их познавательном потенциале. В этой статье мы обратимся к более техническим вопросам использования одной из ветвей математики - статистики - в прикладных исследованиях в области социальных наук (с акцентом на политологических изысканиях, обусловленным интересами и опытом авторов). Заметим, однако, что прикладная статистика не есть в чистом виде раздел математики, поскольку требует от специалиста не только и не столько способности формулировать и доказывать некоторые утверждения в форме теорем и даже не способности применять конкретные теоремы к решению отдельных задач, сколько готовности сочетать знание математических основ статистики с личным исследовательским опытом, эвристическим потенциалом тех или иных математических операций, а также пониманием природы и особенностей имеющихся эмпирических данных и характера решаемой исследовательской задачи. Важнейшим этапом применения статистики в исследовательской практике оказывается интерпретация результатов, которая едва ли может предопределяться реализованными математическими операциями. В этой связи очевидно, что успешное применение методов прикладной статистики требует дополнение сугубо математических операций над данными методами семиотики для дальнейшего совершенствования интерпретационного потенциала получаемых в ходе обработки данных результатов.
Собственно, в самом выражении «обработка данных» заложена некоторая предумышленная осторожность: мы избегаем говорить об анализе данных - процессе намного более глубоком и выходящем далеко за рамки вычислительных операций, совершаемых либо вручную, либо с использованием специализированных компьютерных средств. Специалисты-статистики порой говорят о том, что анализ данных - это не наука, а ис-
83
кусство, требующее большого исследовательского опыта. Возможно, обозначение анализа как сферы искусства является следствием разъединения статистики (и шире - математики) и семиотики; их сочетание же в рамках исследовательской практики позволило бы вернуть анализ данных в поле науки. Подобные попытки, однако, предпринимаются чрезвычайно редко и представлены в периферийных для современной статистики журналах [Martynenko, 2003]. Этот факт лишь подчеркивает большую дистанцию, на которой расположились по нелепому стечению обстоятельств статистика и семиотика, и указывает на перспективность их сближения.
Решение обозначенной задачи, однако, осложняется нехваткой конкретных методик и техник, доступных для использования прикладными статистиками в рамках современной семиотики. По этой причине мы не ставим перед собой задачу какого бы то ни было синтеза этих областей знания как элементов органона (или различных органонов?), ограничиваясь демонстрацией широкого потенциала применения методов статистики для решения разнообразных задач в области социальных наук.
Современным исследователям доступно большое количество количественных и качественных данных. Они включают в себя межстрановые показатели, электоральную статистику, данные социологических опросов, психологических тестов, обследований организаций, тексты, экспертные оценки и др. В эмпирических политологических исследованиях для выявления характера и структуры взаимосвязей социальных явлений распространено применение методов математической статистики и эконометрики.
Все методы прикладной статистики могут быть разделены на два класса: описательных и моделирующих причинно-следственные связи явлений и процессов [King, Keohane, Verba, 1994, р. 7-8]. Спектр задач, которые они позволяют решить, довольно широк: от выявления зависимостей между признаками, которыми описываются некоторые объекты, классификации этих объектов, конструирования индексов до измерения латентных категорий и моделирования причинно-следственных связей и динамики процессов. Инструментарий многомерного статистического анализа и эконометрики предлагает большое количество методов разной степени сложности для решения таких задач, каждый из которых имеет определенные границы применимости, обусловленные совокупностью модельных допущений. Для выбора метода, адекватного сформулированной задаче, необходимо получить первичное представление о поведении изучаемых признаков, а в случае необходимости предварительно их концептуализировать, операционализировать и измерить.
Существуют две основные группы шкал измерения показателей (переменных): количественные и категориальные [Analysis of multivariate social science data, 2008, p. 8-10]. Переменные количественного уровня могут принимать как целые, так и дробные значения. Для них разница между двумя значениями по шкале является осмысленной величиной. К таким переменным относятся, например, росто-весовые показатели, число на-
84
ступлений события, денежные единицы, проценты и доли и др., а также латентные показатели - интеллектуальные способности, демократия1, политическая культура и т.п., измеряемые только через моделирование. Признаки, измеренные в номинальных или порядковых (ординальных) шкалах называются категориальными. Обе шкалы позволяют распределить все наблюдения на категории (группы). Разница состоит в том, что в порядковой шкале упорядочение категорий разумно, скажем, уровня образования, а в номинальной шкале, например по признаку «страна рождения» или «пол», - нет.
Математические методы обработки количественных и категориальных данных существенным образом различаются, поэтому определение типа шкалы, в которой измерены признаки, - обязательный этап анализа данных.
Заметим, что вне зависимости от типа шкалы во многих случаях характер генезиса признаков можно считать схожим: интересующие исследователя социальные явления мыслятся как стохастические, т.е. не являющиеся жестко детерминированными и испытывающие влияние множества случайных факторов. Например, результаты социологического опроса для выявления установок по отношению к мигрантам. На ответы могут влиять не только действительные установки опрашиваемого, но и самочувствие, погода, личные переживания, личность интервьюера, проводящего опрос. К анализу многих признаков, природа которых обусловлена как закономерностями, так и случайностью, может применяться инструментарий теории вероятностей и математической статистики.
Стохастический взгляд на исследуемые признаки предполагает, что конкретные наблюдения суть результаты реализации некоторого порождающего данные процесса, который в новой ситуации может привести к возникновению другого набора значений. Следовательно, имеющиеся данные - это только выборка из некоторой генеральной совокупности (некоторого закона распределения, характеризующего порождающий данные процесс). Иногда на первый взгляд неочевидно, что помимо полученной «выборки» есть еще какая-то генеральная совокупность. Например, если исследуется ВВП / человек в постсоветских государствах в 1991-2012 гг., то что считать генеральной совокупностью? В этой ситуации продуктивным может оказаться осознание того, что ВВП / человек - это результат взаимодействия множества экономических, демографических, социальных и природных процессов, значительное число которых носит недетерминированный характер. Следовательно, содержательно важной может быть
1 Здесь предполагается, что уровень демократии измеряется не в дихотомической шкале («есть» «нет»), а может быть представлен точкой на отрезке вещественной прямой. О дискуссии между сторонниками и противниками измерения демократии как непрерывного по своей природе показателя заинтересованный читатель может узнать, например, из работы [СоШег, Лёсоск, 1999].
85
задача отделения результатов экономических процессов от совокупности прочих (случайных) факторов. При такой постановке вопроса генеральной совокупностью может считаться множество значений, которые изучаемый признак мог принять на рассматриваемых объектах при данных характеристиках экономических процессов и совокупности влияющих случайных факторов.
К анализу многих признаков, природа которых обусловлена как закономерностями, так и случайностью, может применяться инструментарий теории вероятностей и математической статистики. Основной задачей, решаемой с помощью количественных методов, является инференция - получение вывода о характеристиках порождающего данные процесса на основе имеющихся выборочных данных. Наиболее широкое распространение получили два инструмента статистического вывода, речь о которых пойдет ниже: статистическое оценивание и проверка статистических гипотез.
Под статистическим оцениванием понимается установление приблизительного значения некоторого параметра генеральной совокупности на основе выборки. Сами оценки могут быть точечными (т.е. дающими на основе выборки конкретное числовое значение, которое считается достаточно близким к неизвестному параметру генеральной совокупности) или интервальными (так называемые доверительные интервалы, которые по выборке указывают не одно значение, а целый диапазон, в котором с некоторой, заданной исследователем, вероятностью, лежит неизвестный параметр распределения). При проверке статистической гипотезы исследователь сначала формулирует предположение про значение неизвестного параметра генеральной совокупности, затем устанавливает из этого предположения некоторое следствие, которое должно наблюдаться, если гипотеза верна, и не должно, если она ошибочна. Далее остается только узнать, наблюдается ли это следствие в данных или нет, и сделать вывод (конечно, не однозначный, а допускающий некоторую вероятность ошибки - ведь сами данные рассматриваются как результат случайного эксперимента).
Описанная логика работы с данными как результатами реализации случайных величин особенно естественна в случае количественных показателей, которые могут непосредственно отождествляться со случайными величинами. Так, случайной величиной можно назвать ВВП / человек в отдельном государстве, уровень безработицы, число респондентов в выборке, заявивших о поддержке некоторой реформы и др.
Основными числовыми характеристиками случайных величин, позволяющими описать данные в выборке, являются меры центральной (средней) тенденции и меры разброса относительно среднего. Они характеризуют распределение, которым описываются признаки, и могут способствовать выбору методов их анализа.
К мерам центральной тенденции относятся среднее арифметическое, медиана и мода. Среднее арифметическое является точечной оценкой математического ожидания Е (х) (среднего значения в генеральной совокуп-
86
ности), медиана - значение показателя, меньше которого располагаются 50% наблюдений1, мода - наиболее распространенное значение, способ оценить среднее для категориальных переменных.
Дисперсия Уаг (х) - мера разброса относительно среднего. Она рассчитывается как усредненная сумма квадратов отклонений от среднего. Квадратный корень из дисперсии называется стандартным отклонением и тоже является мерой разброса, но имеет преимущество перед дисперсией поскольку измеряется в тех же самых единицах, что и сам признак, а дисперсия - в единицах в квадрате.
Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.
Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности -это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам - два значения признака В. В каждой ячейке таблицы указывается число объектов, для которого А и В принимают соответствующие строке и столбцу значения. Как правило, количество категорий признаков невелико, поэтому для включения в анализ непрерывного признака необходимо разбить его на категории. Например, можно создать возрастные группы или группы по доходу. Тогда исследователь сталкивается с необходимостью задания пороговых значений, которые зачастую во многом произвольны.
Вывод о наличии или отсутствии связи делается на основании проверки статистической гипотезы о независимости признаков. Самым простым из возможных критериев проверки, пожалуй, является X2 («хи-квадрат») К. Пирсона. На основе разницы между ожидаемыми при независимости признаков и наблюдаемыми частотами в каждой ячейке рассчитывается значение статистики хи-квадрат, и на его основе можно сделать вывод о статистической независимости изучаемых признаков или же, наоборот, о наличии статистически значимой связи. Однако существенное ограничение: критерий хи-квадрат Пирсона некорректно использовать, если среди ячеек таблицы сопряженности есть такая, ожидаемое значение в которой меньше пяти. Это ограничение связано с тем, что распределение
1 К примеру, при изучении душевого дохода адекватнее использовать медиану, потому что большая часть населения получает доходы ниже среднего, однако есть немногочисленные группы населения, получающие очень высокие доходы, что завышает значение среднего арифметического.
87
хи-квадрат, на основе которого проверяется гипотеза, является непрерывным, в то время как одноименная статистика, высчитываемая на основе выборки, явно принимает конечное число значений. В подобной ситуации рекомендуется использовать точный критерий Фишера (о других критериях см. подробнее [Аптон, 1982, с. 16-40]).
Вообще, диапазон возможных критериев для анализа таблиц сопряженности достаточно широк. Так, V-критерий Крамера также использует статистику хи-квадрат, но является мерой связи между признаками и лежит в границах от 0 до 1. Лямбда-критерии Гудмана и Краскела позволяют ответить на вопрос о силе связи между номинальными признаками, основываясь на предсказании категории одного признака при известной категории другого. Тау-критерии являются вероятностными мерами верной классификации, но избавлены от некоторых недостатков лямбда-критериев. Гамма Гудмана и Краскела отвечает на вопрос о связи порядковых признаков [см. подробнее: Аптон, 1982].
Исследование связи номинальных признаков - типичная социологическая задача. В политологии же чаще наблюдается необходимость в исследовании взаимосвязи признаков, измеренных в непрерывной или порядковой шкале. Для этого обычно применяется корреляционный анализ. Он позволяет установить наличие и силу статистической линейной взаимосвязи двух и более показателей, а также ее направление (положительное или отрицательное). Оценкой истинной степени линейной связи между признаками является коэффициент корреляции, рассчитанный по выборке. Он принимает значения от -1 до 1, и чем больше абсолютное значение коэффициента, тем сильнее взаимосвязь. Значения, близкие к нулю, говорят о наличии слабой связи или ее отсутствии вовсе. Напомним, что коэффициент корреляции не интерпретируется в терминах каузальной связи.
Если анализируемые признаки x и y измерены в количественной шкале, то по выборке рассчитывается коэффициент корреляции r К. Пирсона. К минусам коэффициента Пирсона можно отнести его неустойчивость к нетипичным наблюдениям (статистическим выбросам), а также неспособность выявить нелинейную взаимосвязь. Этот недостаток преодолевают коэффициенты ранговой корреляции: Ч.Э. Спирмена (р) и М.Ж. Кендалла (т). Они улавливают нелинейную монотонную связь, возрастающую или убывающую, и более устойчивы к нетипичным наблюдениям, поскольку «работают» с рангами единиц наблюдения.
Подчеркнем, что коэффициент корреляции является лишь выборочной оценкой теоретической корреляции (корреляции между признаками в генеральной совокупности), поэтому при работе с малыми выборками недостаточно знать значение коэффициента - требуется также проверить на его основе статистическую гипотезу о том, что корреляция генеральной совокупности равна нулю.
Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), кото-
88
рая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее - температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими-то признаками может возникнуть как эффект разнородности.
К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя. Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков - регрессии.
Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика» (коэффициент детерминации Я2) и оценки степени связи предикторов с «откликом» (регрессионный коэффициент).
Линейная регрессионная модель с одной объясняющей переменной (парная регрессия) может быть записана следующим образом: У, = Ро + А Х1 + £,,
где индексом г обозначается номер объекта, у, - объясняемая переменная; Хi - первая объясняющая переменная, измеренная на г объекте; - случайный член (ошибка регрессионной модели, отражающая влияние факторов, неучтенных в рамках имеющейся спецификации, а также ошибки измерения признаков); коэффициент р0 - константа - среднее значение зависимой переменной в том случае, если предиктор принимает значение ноль (поэтому константа не всегда имеет содержательную интерпретацию). Коэффициент р1 показывает среднюю разницу между значением «отклика» и средним значением у тех объектов, у которых значение независимой переменной больше среднего на единицу. В тех случаях, когда исследователь готов постулировать причинно-следственную связь, говорят, что р1 показывает, как в среднем изменится значение «отклика» при росте значения объясняющей переменной х на единицу.
89
В большинстве случаев в регрессиях, особенно построенных по пространственным выборкам, трудно (если вообще возможно) говорить об отсутствии неучтенных переменных, которые оказывают значимое влияние на зависимую переменную, а также каким-либо образом связаны с другими объясняющими переменными. Возникающее при их наличии смещение приводит к неверной оценке регрессионных коэффициентов, причем направление и размер смещения заранее не известны исследователю. Учесть в анализе такой набор факторов, чтобы объекты анализа (индивиды, фирмы, государства) стали сопоставимыми, а переменные, включенные в регрессионное уравнение, не транслировали влияние третьих факторов, не включенных в спецификацию, призвана множественная регрессия.
Таким образом, множественная регрессия может рассматриваться как удобный метод сравнительных политологических исследований, основанных на идее сравнения сравнимого. Естественно, массив данных в рамках регрессионного анализа также трактуется как выборка, а получаемые регрессионные коэффициенты считаются выборочными оценками, на основе которых необходимо осуществлять статистический вывод.
Однако не всегда интересующая исследователя зависимая переменная является непрерывной. Диапазон возможных значений многих показателей зачастую бывает ограничен. Например, некоторые экономические показатели неотрицательны, а на ряд вопросов в социологических анкетах предусмотрены лишь несколько вариантов ответа: «да» или «нет»; «согласен», «не знаю» или «не согласен».
В таких случях оценивание классической модели линейной регрессии некорректно и даже ошибочно. Задачу выявления связи между зависимой переменной, которая принимает только два значения (1 - «успех» (в статистическом смысле), 0 - «неуспех»), и рядом предикторов решают модели бинарного выбора. В общем случае, когда есть несколько категорий «отклика», но их количество мало, используются модели множественного упорядоченного и неупорядоченного выбора.
Статистическая связь между предикторами и «откликом» выражается в виде вероятности того, что «отклик» примет некоторое значение при заданных величинах объясняющих переменных. С помощью этого класса моделей можно изучать характеристики, которые обусловливают то, какие покупки совершает индивид, какую учебную программу он выбирает, за кого он голосует, если ходит на выборы. Например, в исследовании Джеффри Мондака (Jeffery J. Mondak) анализировалась связь между политической грамотностью (правильными ответами на вопросы с политической тематикой) и рядом социально-демографических характеристик респондентов [Mondak, 2000]. На данных национальных избирательных опросов в США (National Election Studies) 1992 г. было показано, что при переходе в следующую образовательную категорию (всего их было задано
90
шесть) вероятность быть политически грамотным растет при неизменных значениях прочих переменных.
Довольно часто исследователи нацелены на работу с более чем двумя показателями. Иногда, правда, количество показателей столь велико, что непосредственная работа со всем их множеством затруднительна. Возникает задача сжатия информации, снижения количества признаков (иными словами, снижения размерности признакового пространства).
Возможными вариантами решения этой задачи являются экспертное оценивание или конструирование интегральных индексов. Для характеристики той или иной синтетической категории используются зачастую экспертные оценки, способные обобщить существующие в этой связи знания и другие неизмеряемые естественным образом особенности. Вместе с тем существует позиция, что использование экспертных оценок снижает научную ценность и прогностическую силу проводимых исследований. Подобное заключение в некоторой мере оправдано, но в социальных науках практически невозможно обойтись без экспертного мнения, хотя подобные опросы очень сложны в подготовке и проведении, а также являются дорогостоящими [см. например: Ахременко, 2006, с. 206-207].
Столь же неоднозначны мнения по поводу индексов, обобщающих представление о возможных выражениях понятий и их свойств. Во многих случаях исследователи «проявляют определенную смелость, суммируя цифры, которые, как кажется, суммировать не имеет смысла» [Ахременко, 2006, с. 130]. Однако мы нуждаемся в индексах, поскольку зачастую нас интересует множество показателей, моделирующих тот или иной теоретический концепт или процесс.
К методам снижения размерности многомерного признакового пространства относятся компонентный анализ и факторный анализ. Оба подхода позволяют на выходе получить небольшое число обобщенных характеристик, довольно полно описывающих изменчивость одного или нескольких латентных (ненаблюдаемых) признаков, стоящих за исходными частными критериями. Ни метод главных компонент, ни факторный анализ не делят переменные на зависимые и объясняющие.
Метод главных компонент (МГК) был предложен К. Пирсоном в 1901 г. и сейчас активно применяется во множестве естественных и социальных наук. С его помощью можно сжать изображения и видео, отделить значимую информацию от «шума», описать бактериальные геномы, составить индексы состояния окружающей среды, инвестиционной привлекательности регионов или коррупции в странах мира.
В МГК на входе имеется исходный набор признаков х (1), х (2), .., х <р), измеренных в количественной шкале, который содержит в себе информацию, и этой информацией является дисперсия исходных показателей. МГК позволяет значительно уменьшить размерность исходного признакового пространства с минимальными потерями путем избавления от дублирующейся информации, содержащейся в сильно коррелированных признаках.
91
Результатом является свертка имеющихся переменных в новые, некоррелированные между собой (ортогональные) «компоненты» y1, y2, .., yp, первые несколько из которых объясняют большую долю общей дисперсии исходных признаков.
Полученная первая главная компонента y1 максимально объясняет дисперсию исходных признаков. Вторая главная компонента y2 объясняет максимально возможную долю оставшейся дисперсии и т.д. Доля дисперсии, которую объясняют последние компоненты, настолько мала, что от этих компонент можно отказаться без существенной потери информации. Количество компонент, которые будут извлечены по результатам МГК, зависит от исследователя и стоящей перед ним задачи. Существуют различные рекомендации относительно того, сколько главных компонент следует извлекать. Например, предлагается руководствоваться соображениями того, что извлеченные главные компоненты должны объяснять не менее 70-80% дисперсии исходных признаков [Analysis of multivariate social science data, 2008, р. 124]. Так или иначе важно, чтобы полученные компоненты могли быть содержательно интерпретированы. Интерпретация j компоненты осуществляется на основании того общего, что есть в частных критериях, объединенных в одну компоненту.
Многие категории политической науки являются сложными, многоаспектными, а возникающие при их формализации признаковые пространства - многомерными. Примерами таких признаков являются политические убеждения, государственная состоятельность [Стукал, Хавенсон, 2012], социально-экономический статус, уровень интеллекта и т.п., работа с ними требует обращения к методам измерения латентных переменных.
Методы измерения латентных переменных состоят в изучении взаимосвязей доступных для наблюдения показателей, отражающих некоторую латентную синтетическую категорию, и последующем моделировании ненаблюдаемых переменных. Допуская, что отдельные показатели могут характеризовать разные стороны ненаблюдаемого признака, мы принимаем тот факт, что их изменчивость во многом обусловлена изменчивостью латентного признака. Такая модель схожа с моделью регрессии и тоже содержит требования относительно распределения ошибок, но «отклик» в ней ненаблюдаем в принципе, поэтому о связи «предикторов» и «отклика» ничего нельзя утверждать однозначно.
Задача моделирования латентных переменных состоит в том, чтобы выяснить, можно ли наблюдаемую связь между несколькими переменными объяснить небольшим числом латентных признаков - факторов.
Самым первым и распространенным методом измерения латентных переменных является факторный анализ. Для его реализации требуется, чтобы и ненаблюдаемый «отклик», и наблюдаемые индикаторы были непрерывными величинами. Основным источником информации при этом является корреляционная матрица наблюдаемых переменных. Свои мето-
92
ды есть для категориальных признаков, а также для случаев признаков в разных шкалах [Стукал, Хавенсон, 2012, с. 244-246] (см. табл. 1).
Таблица 1
Классификация методов измерения латентных переменных
Шкала измерения латентной переменной Шкала измерения наблюдаемых переменных
Количественная Категориальная (порядковая / номинальная)
Количественная Факторный анализ Анализ латентных черт
Категориальная (порядковая / номинальная) Латентно--профильный анализ Латентно-классовый анализ
Источник: [Analysis of multivariate social science data, 2008, p. 177].
В факторном анализе выделяются два типа: разведывательный (exploratory) и подтверждающий (confirmatory). В первом типе не проводится проверка гипотез, он помогает проанализировать структуру связей в данных и сформулировать гипотезы, во втором типе, наоборот, проводится проверка гипотез о количестве факторов и нагрузках.
Метод главных компонент и факторный анализ часто дают близкие результаты и иногда МГК считают частью факторного анализа. Тем не менее это не так, хотя и появились они в одно время (факторный анализ был предложен Ч.Э. Спирменом в 1904 г. для изучения интеллекта). Во-первых, они различны потому, что метод главных компонент относится к описательным методам математической статистики, а факторный анализ является методом моделирования. Это значит, что для моделей факторного анализа релевантны понятия допущения о характере распределения переменных, оценивания, статистической значимости, качества модели и статистического вывода. Во-вторых, этапы проведения факторного анализа исходно формулируются так, чтобы сначала содержательно определить ненаблюдаемую категорию, интересующую исследователя, и уже потом подбирать измеримые показатели, характеризующие ее, тогда как для МГК набор исходных признаков предполагается заданным (стоит отметить, что на практике оба метода зачастую реализуются с нарушением такой последовательности) [Analysis of multivariate social science data, 2008, p. 177].
В работе 2007 г. Р. Инглхар и К. Велзель предположили, что для установления и развития демократического режима необходим осознанный общественный запрос. Важно, чтобы демократия воспринималась не как инструмент достижения экономического процветания нации, а как способ обеспечения политических прав и свобод от принуждения и дискриминации. По мнению авторов, свобода объединяет такие категории, как «Равенство против патриархального уклада», «Толерантность против подчинения традиционным нормам», «Автономия против авторитета», «Выражение про-
93
тив спокойствия и обеспеченности». Для конструирования индекса ценности свободы были привлечены 14 переменных из «Всемирного исследования ценностей» в 90 странах. По каждому вопросу были получены доли положительно ответивших от общего числа опрошенных в каждой стране. По каждой из четырех категорий были вычислены средние значения, а итоговое значение индекса ценности свободы было получено из четырех переменных методом факторного анализа [1^1еЬаг1, Welzel, 2009].
Другим важным инструментом многомерного статистического анализа является кластерный анализ. Его основное назначение состоит в разбиении множества исследуемых признаков на однородные в определенном смысле группы, когда объекты внутри одного кластера более похожи друг на друга, чем на объекты из других кластеров [Айвазян, Мхитарян, 2001, с. 484].
Методы кластерного анализа актуальны, когда возникает задача классификации в признаковом пространстве большой размерности, что естественно, ведь если признаков, которыми описываются объекты, всего два, то получить группировку можно с помощью визуализации данных на диаграмме рассеяния.
Являясь описательным методом статистики, кластерный анализ позволяет проанализировать внутренние связи между единицами в группах, он может быть особенно полезен при исследовании малоизученных явлений. С его помощью можно описать большой объем информации, выявить сходную динамику или структуру распределения показателей.
Существенным достоинством метода является отсутствие каких-либо допущений о характере распределения данных и априорной информации о числе групп. Все, что необходимо для реализации кластерного анализа - задать меру схожести объектов и правило объединения в кластеры. Несмотря на то, что многие методы кластерного анализа довольно просты, их активное использование стало возможным только с появлением необходимых вычислительных мощностей, потому что эффективное решение задачи поиска кластеров требует большого числа арифметических действий [Айвазян, Мхитарян, 2001, с. 484].
Различаются иерархические и итеративные методы кластеризации. Агломеративные иерархические методы предполагают последовательное объединение объектов в группы и групп между собой до тех пор, пока все объекты не окажутся в одном кластере. Дивизивные, наоборот, построены на последовательном разбиении одного кластера со всеми объектами на более малочисленные группы.
К итеративным методам кластерного анализа относится метод ¿-средних. В отличие от иерархических методов, он требует предварительного определения количества кластеров, которые будут сформированы. Смысл процедуры состоит в итерационном уточнении «центров тяжести» искомых классов и классификации наблюдений в соответствии с расстоя-
94
нием до ближайшего «эталонного» центра. Но итеративные методы значительно более трудоемки с точки зрения вычислений и менее популярны.
Мерой схожести (однородности) обычно принимается величина, обратная расстоянию между объектами, ведь если объекты в многомерном пространстве находятся рядом, то разумно предположить, что они похожи друг на друга. Возможных мер расстояния между точками (объектами) г и j довольно много, вот только некоторые из них:
1) Евклидово, dj = д/^О^Г-^кУ,
2) квадрат Евклидова d ц ,
3) расстояние Манхеттен d4 _ £ |x
где xj (1), Xj .., Xj (m) - m количественных признаков, которыми описываются объекты.
Если признаки измерены на категориальном уровне, тогда мерами схожести будут такие метрики, которые основаны на совпадении или несовпадении значений по каждому признаку [Ким, Мьюллер, Клекка, 1989, с. 161].
После объединения наиболее близких друг к другу точек в один кластер, в иерархических методах необходимо задать способ агломерации -правило сравнения и объединения единичных точек к кластерам или двух кластеров в один более крупный. Для этого используются метод ближнего соседа, метод дальнего соседа, центроидный метод и метод средней связи. По результатам некоторых исследований, лучшие результаты дают метод Варда и метод средней связи [Gore, 2000, p. 315].
Кластерный анализ позволяет получить относительно объективную классификацию единиц наблюдения, так как является формальным методом, но в зависимости от способа агломерации и смены метрики он может выдавать различные по составу группы при одинаковом числе кластеров. В каждом отдельном случае самым важным остается качество содержательной интерпретации полученных совокупностей объектов, но все-таки некоторые конвенциональные правила комбинации метрик и правил агломерации существуют [Gore, 2000, p. 309-312].
Совокупность описанных методов анализа данных позволяет решать наиболее типичные задачи политического анализа (а возможно, и социальных наук вообще) на основе количественных данных. Тем не менее за рамками нашего обзора остался широкий класс методов, изучение и описание которого требует достаточно свободного владения понятиями теории вероятностей и математической статистики, а также алгебраической геометрии. Речь идет, в первую очередь, о байесовском подходе к анализу данных, непараметрических методах, методах анализа пространственно-временны Пх данных и временны Пх рядов, а также нелинейных вариантах метода главных компонент, основанных на теории нелинейных многообразий.
X
k
95
Все описанные и оставленные без обзора методы прикладной статистики, однако, требуют для успешности использования привлечения способности исследователя интерпретировать как саму изучаемую реальность, так и полученные в ходе математической обработки результаты. Семиотика потенциально способна оказать практикующим исследователям большую помощь в этой области. Надеемся, что продемонстрированная в этом обзоре широта приложений статистики привлечет внимание специалистов по семиотике к прикладной статистике и будет способствовать сближению этих областей знания.
Литература
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник для вузов. - М.: ЮНИТИ, 2001. - 1022 с.
Ахременко А. С. Политический анализ и прогнозирование. - М.: Гардарики, 2006. - 333 с.
Аптон Г. Анализ таблиц сопряженности / Пер. с англ. и пред. Ю.П. Адлера. - М.: Финансы и статистика, 1982. - 144 с.
Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р. Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1989. - 215 с.
Кимбл Г. Как правильно пользоваться статистикой. - М: Финансы и статистика, 1982. -294 с.
Стукал Д.К., Хавенсон Т.Е. Моделирование государственной состоятельности постсоциалистических стран // ПОЛИТЭКС. - СПб., 2012. - Т. 8, № 1. - С. 233-260.
Analysis of multivariate social science data / D.J. Batholomew, F. Steele, I. Moustaki, J.I. Galbraith (eds.). - Boca Raton; L.; N.Y.: CRC Press, 2008. - xi, 371 p.
CollierD., AdcockR. Democracy and dichotomies: A pragmatic approach to choices about concepts // Annual review of political science. - Palo Alto, Calif., 1999. - N 2. - P. 537-565.
Gore P.A., jr. Cluster analysis // Handbook of applied multivariate statistics and mathematical modeling. - San Diego: Academic Press, 2000. - P. 297-321.
InglehartR.F., Welzel C. Political culture, mass beliefs and value change // Democratization. -N.Y.: Oxford univ. publishers, 2009. - P. 126-144.
King G., KeohaneR.O., Verba S. Designing social inquiry: scientific inference in qualitative research. - Princeton: Princeton univ. press, 1994. - xi, 245 p.
Martynenko G. Semiotics of statistics // Journal of quantitative linguistics. - L., 2003. - Vol. 10, N 2. - P. 105-115.
MondakJ.J. Reconsidering the measurement of political knowledge // Political analysis. - Oxford, 2000. - Vol. 8, N 1. - P. 57-82.
96