Факторный анализ и категориальный метод главных компонент: сравнительный анализ и практическое применение для обработки результатов анкетирования

Фомина Елена Евгеньевна

УДК 316:004.9

БОТ 10.18698/2306-8477-2017-10-473

Факторный анализ и категориальный метод главных

компонент: сравнительный анализ и практическое применение для обработки результатов анкетирования

Тверской государственный технический университет, Тверь, 170026, Россия

Анкетирование представляет собой один из основных инструментов изучения состояния общественного мнения в работе социолога. Первичным результатом анкетирования является, как правило, база данных, требующая последующего глубокого анализа и поиска взаимосвязей между исследуемыми показателями. Для решения этой задачи могут быть применены факторный анализ и категориальный метод главных компонент, которые позволяют придать содержательный смысл полученным результатам. Несмотря на то что с применением данных методов решают одну задачу, в них используются различные алгоритмы выделения интегральных характеристик, поэтому проблема выбора подходящего метода является актуальной. В статье проведено сравнение факторного анализа и категориального метода главных компонент как с теоретической позиции, так и с точки зрения практического применения. Рассмотрен пример обработки результатов анкетирования, предложены методические рекомендации.

Ключевые слова: факторный анализ, алгоритм С^РСЛ, метод главных компонент, анкетирование

Анкетирование — метод исследования, позволяющий оперативно осуществлять мониторинг состояния и тенденций изменения общественного мнения по тем или иным вопросам.

Основное достоинство метода заключается в том, что исследователь может опросить большое число респондентов, проживающих в разных регионах, и получить сопоставимые данные, для анализа которых удобно использовать методы математической статистики [ 1].

Обработка анкет — многоэтапная процедура, включающая как выполнение рутинных, механических операций, так и решение содержательных задач, получение обоснованных выводов.

На практике для обработки анкет наиболее часто используются следующие методы:

• расчет показателей описательной статистики;

• подсчет распределения ответов в зависимости от значений дополнительных переменных, таких как пол, возраст, образование и др.;

• построение таблиц сопряженности и проверка статистических гипотез о независимости признаков с использованием критерия хи-квадрат;

• выявление корреляционной зависимости между отдельными признаками;

• графическая обработка информации.

Наряду с вышеуказанными, важную роль также играют методы и алгоритмы интерпретации, позволяющие придать содержательный смысл результатам анкетирования. К ним относятся факторный анализ (ФА) и категориальный метод главных компонент (CatPCA — Categorical Principal Component Analysis), которые направлены на решение следующих задач:

• поиск скрытых закономерностей во множестве исследуемых переменных, которые возникают вследствие воздействия на них некоторых факторов;

• изучение статистической взаимосвязи между признаками и выделенными факторами;

• описание предметной области с помощью общих факторов, количество которых намного меньше, чем исходное число переменных [2, 3].

Несмотря на то, что методы направлены на решение одинаковых задач, каждый из них имеет свои особенности реализации, поэтому встает актуальная проблема выбора. Цель настоящей статьи — провести сравнение ФА и CatPCA, а также рассмотреть особенности их реализации для решения задачи обработки данных, полученных в результате анкетирования.

Факторный анализ. ФА — класс процедур многомерного статистического анализа, направленный на выявление латентных переменных (факторов), отвечающих за наличие линейных статистических связей (корреляций) между наблюдаемыми переменными [4].

ФА основывается на предположении, что исследуемое явление, определяемое некоторой системой признаков, изменяющихся согласованно, может быть описано с помощью меньшего числа других латентных переменных, называемых факторами, объясняющими причины этих изменений. Число факторов намного меньше числа исходных переменных.

Факторы — это группы определенных переменных, коррелирующих между собой больше, чем с переменными, входящими в другой фактор. Таким образом, содержательный смысл факторов может быть выявлен путем исследования корреляционной матрицы исходных данных.

Например, при изучении ценностных предпочтений какой-либо социальной группы необходимо установить наличие взаимосвязей среди большого числа параметров (пола, возраста, образования, различных групп ценностных ориентаций и т. д.). Для исследования всех возможных зависимостей между этими переменными потребовалось бы рассчитать и проанализировать большой набор коэффициентов корреляций. Вместо этого можно заменить исходный набор

признаков меньшим числом латентных переменных или факторов, не поддающихся непосредственному измерению (например, факторами карьерного роста, социальной активности, духовности и морально-этических ценностей и др.). Предполагается, что выделенные факторы являются наиболее существенными и определяющими.

Математическая модель факторного анализа представляет собой набор линейных уравнений, в котором каждая наблюдаемая переменная хг выражается в виде линейной комбинации общих факторов Т7!,Т2, ...,Еп и уникального фактора иг:

п

Х =Х а*рь + иг,

к=1

где хг — переменная, г = 1, т, (т — количество переменных); п — количество факторов (п « т); агк — факторная нагрузка; Гк — общий

фактор, к = 1, п ; иг — частный фактор.

Процедура ФА включает в себя три этапа.

Этап 1. Построение корреляционной матрицы системы переменных путем расчета коэффициентов линейной корреляции Пирсона. Причем корреляционная матрица может быть представлена не в исходном, а в редуцированном виде, т. е. на ее главной диагонали будут стоять не единицы, а оценки общих нормированных дисперсий, рассчитываемые по методу наибольшей корреляции или по методу Барта [5]. Использование редуцированной матрицы объясняется тем, что в ФА дисперсия признаков может быть объяснена не на 100 %, а несколько меньше с учетом существования частных факторов.

Этап 2. Извлечение факторов и расчет факторных нагрузок агк, являющихся основным предметом интерпретации. На этом этапе используют методы компонентного анализа (метод главных компонент), главных факторов и максимального правдоподобия.

На практике для выделения факторов наиболее часто используется метод главных компонент (МГК). Его основная идея заключается в том, чтобы выделить в многомерном пространстве X = (х1, х2,..., хк) группы тесно коррелирующих между собой переменных и заменить их без потери информативности главными компонентами У = (у1,у2,...,ут). Математическая модель МГК может быть записана в виде

к

Уз = ,

г=1

где Уз — главная компонента ( ] = 1, т ); а^ — коэффициент, отражающий вклад переменной в главную компоненту уг; — стандартизированная исходная переменная = (хг - Хг) / , г = 1, к.

Выделение главных компонент осуществляется по представленному ниже алгоритму.

1. Стандартизация исходных переменных, приводящая к тому, что дисперсии всех стандартизированных переменных становятся одинаковыми (все стандартизированные переменные имеют одинаковую информативность) и начало координат переносится в центр облака данных.

2. Линейное преобразование пространства 2 = (г2,..., гк) с целью построения нового ортогонального пространства главных компонент У = (уь у2,..., Ук ):

к _^

У] = Х ], 1 =1'к.

г=1

Для осуществления этого преобразования необходимо рассчитать коэффициенты Л = [<1у}. Они определяются исходя из следующих требований:

• главные компоненты должны быть линейными комбинациями переменных г1, ,..., 2к;

• главные компоненты должны быть ортогональными;

• первая главная компонента должна иметь максимальную выборочную дисперсию, вторая главная компонента должна иметь максимальную выборочную дисперсию при фиксированной первой и т.д.:

5 2( У1) > 5 2( У2) >... > 5 2( Ук);

• суммарная дисперсия исходных переменных должна быть равна суммарной дисперсии главных компонент.

Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений (А1, А2, ..., Ак) корреляционной

матрицы исходных данных. При этом собственные числа будут равны

2 2 2 дисперсиям новых переменных 5 (У1) = А1 > 5 (У2) = А2 > ... > 5 (У к ) =

= Ак, а собственные векторы будут совпадать со столбцами матрицы

т

Л = {аг]} : (а1г...а^) — г-й собственный вектор, соответствующий собственному числу Аг.

Значения а^ называются факторными нагрузками. Они представляют собой коэффициенты корреляции между исходными переменными и главными компонентами. Факторы включают в себя те переменные, для которых | а] | > 0,7.

3. Сокращение размерности пространства 7 = (уьУ2,...,Ук) посредством отсечения неинформативных переменных. Для решения этой задачи используются:

• критерий Кайзера, связанный с собственными значениями: в число главных компонент включают только те переменные, которым соответствуют собственные значения Хг > 1, так как их информативная ценность выше;

• критерий, связанный с долей сохраненной дисперсии: суммарная дисперсия главных компонент должна быть не менее заданной доли;

• критерий Кеттела (критерий «каменистой осыпи»), согласно которому собственные числа отображаются на графике, где по оси абсцисс откладываются их номера, а по оси ординат — значения. Далее ищется точка на графике, где убывание собственных чисел максимально замедляется. Номер, соответствующий этому числу, и определяет оптимальное количество факторов.

Этап 3. Вращение факторного решения, которое используется в том случае, если выделенные факторы невозможно достаточно наглядно интерпретировать [2, 3, 6]. На практике используют следующие методы вращения: варимакс, квартимакс, эквимакс, биквартимакс.

Ограничения метода. ФА осуществляется по коррелированным переменным. Его основным объектом исследования является корреляционная матрица, построенная с использованием коэффициента линейной корреляции Пирсона. Следовательно, анализируемые данные должны подчиняться многомерному нормальному закону распределения; значения признаков необходимо измерить в интервальной шкале. Допускается также анализ порядковых переменных с большим числом значений, так как порядковые шкалы с высоким числом градаций обладают свойствами интервальных шкал [7]. Однако в анкетах эти требования часто не выполняются: анализируемые переменные имеют разный уровень измерений (в порядковых, номинальных и дихотомических шкалах). Применение ФА для таких переменных может привести к искажению факторной структуры, которое связано с искажением коэффициента корреляции. В этом случае альтернативой ФА выступает Са1РСЛ.

Метод Са1РСЛ. Данный метод предназначен для решения задачи снижения размерности пространства исходных данных, измеренных в любых шкалах.

Он обладает большими возможностями, в частности, при обработке результатов анкетирования, так как не накладывает никаких ограничений на тип переменных. Са1РСЛ позволяет одновременно анализировать как количественные переменные, измеренные в интервальных, порядковых, номинальных, дихотомических шкалах, так и качественные переменные. Кроме того, с помощью данного метода можно решить проблему пропущенных данных, так как отсутствующая информация по какой-либо из переменных воспринимается как

самостоятельная категория или как отдельное для каждого объекта значение.

Обработка данных методом CatPCA включает в себя два этапа. На первом этапе происходит процедура оцифровки переменных, которая опирается на принципы оптимального шкалирования; на втором этапе выполняется редукция размерности данных.

Математическая формализация метода имеет следующий вид. Рассмотрим матрицу исходных переменных X = (x1,x2,..., xp) размерности n х p, где переменная xj е Rn и может принимать Lj различных значений. Для нее требуется определить матрицу интегральных характеристик Z таким образом, чтобы функция o(Z,W)

принимала минимальное значение [8]:

p

g(Z, W) = £ tr (Z - GjWj )T (Z - GjWj) ^ min (1)

j=1

при ограничениях

zt in = 0r; (2)

ZTZ = nIr, (3)

т. е. интегральные характеристики должны удовлетворять условиям центрированности и ортонормированности.

Здесь Z — матрица интегральных характеристик размерности n х r; Gj — матрица индикаторов размерности n х Lj для исходной переменной x j ;

f1, если объект i относится к категории lj,

Gj (i, lj ) = L

[0 в противном случае;

Wj — матрица размерности Lj х p переменной Xj, содержащая координаты всех ее категорий в r-м пространстве; 1n — единичный вектор размерности n х 1; 0r — единичный вектор размерности r х 1; Ir — единичная матрица размером r х r.

Оптимизация функции (1) при ограничениях (2), (3) осуществляется с помощью итерационного алгоритма Princals [8].

Оцифровка переменных в алгоритме CatPCA происходит таким образом, что собственные значения компонент, рассчитанные по матрице корреляций оптимизированных переменных, максимизируются.

Показателем, позволяющим оценить качество проведенного анализа, является альфа Кронбаха (а) — коэффициент, показывающий внутреннюю согласованность характеристик, описывающих один объект. Альфа Кронбаха лежит в интервале от до 1. Если а У 0,7,

то модель считается качественной. Когда в модели появляются факторы с собственным значением меньше 1, а становится отрицательным. Следовательно, оптимальным является то число факторов, при котором а принимает положительное значение [9].

Сравнительный анализ методов ФА и Са1РСЛ представлен в табл. 1.

Таблица 1

Сравнительный анализ методов ФА и CatPCA

Показатель Факторный анализ Са1РСЛ

1. Ограничения метода 1.1. Нормальность распределения исходных данных 1.2. Уровень измерения анализируемых данных 1.3. Использование переменных, измеренных на разных уровнях Предполагается Интервальная шкала или порядковая с большим числом градаций Не предполагается Не требуется Любой Возможно

2. Исходные данные для анализа 2.1. Предварительное преобразование данных 2.2. Исходные данные для выделения факторов Не предполагается Матрица корреляций исходных переменных Оцифровка Матрица корреляций «оцифрованных» переменных

3. Критерий отбора оптимального числа факторов Критерий Кайзера; критерий, связанный с долей сохраненной дисперсии; критерий Кеттела (критерий «каменистой осыпи») Альфа Кронбаха

4. Возможность вращения Предполагается Не предполагается

Пример. Рассмотрим пример практического применения ФА и CatPCA. Методы использовались для обработки результатов анкетирования, целью которого было установить степень доверия жителей России к органам власти, степень удовлетворенности экономической, политической ситуацией и отношение к мигрантам.

Анкета и база данных с результатами анкетирования были взяты с сайта http://sophist.hse.ru/ (единый архив экономических и социологических данных). Объем выборки составил 1000 человек. В анализируемых данных частота каждой категории по всем вопросам включает больше восьми наблюдений, что обеспечивает устойчивость применяемых методов.

Автоматизированная обработка полученных данных осуществлялась в пакете SPSS.

Анкета

А1. Насколько Вы интересуетесь политикой?

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Варианты ответа: 1 — «очень интересуюсь»; 2 — «интересуюсь в некоторой степени»; 3 — «мало интересуюсь»; 4 — «совсем не интересуюсь»; 5 — «затрудняюсь ответить».

А2. Насколько Вы доверяете Парламенту нашей страны?