№ 6(24) 2009
А. Ю. Трусова
Анализ социально-экономических данных средствами многомерного шкалирования
Количественный анализ данных социологических исследований в настоящее время предполагает широкое использование информационных технологий. Применение статистических пакетов в исследовании способствует смещению акцента на более глубокую интерпретацию полученных результатов. Современные версии SPSS предоставляют исследователю уникальную возможность визуализации многомерных данных, в том числе полученных в разных шкалах.
Потребление как социально-экономический феномен является сложным явлением современного общества. Его изучение в контексте современной российской действительности представляется особенно важным и востребованным, что подтверждается многочисленными маркетинговыми исследованиями.
В настоящее время широко используется качественный анализ потребительских отношений, однако интерес представляет и количественный подход, использующий математические модели. Сочетание информационных технологий с аппаратом математического моделирования обеспечивает комплексный подход при изучении результатов социологических исследований.
Известно, что большинство используемых в маркетинге характеристик не являются одномерными: даже при решении простейшей задачи исследователь сталкивается с наличием множества критериев оценки некоего объекта.
Традиционные методы одномерного шкалирования позволяют работать только с одним признаком, ограничивая поле исследования. Методы многомерного анализа, к числу которых относятся кластерный анализ, факторный анализ, а также многомерное шкалирование (МШ), дают возможность учитывать многообразие объекта изучения и получать более полную картину. В настоящее время они нашли широкое применение в практике анализа данных только в связи с развитием
информационных технологий, а именно с появлением статистических пакетов анализа данных. SPSS — мощный инструмент в руках исследователя [4].
Такие сложные с точки зрения математических расчетов методы, как факторный анализ и многомерное шкалирование, стали доступны при использовании их в анализе многомерных данных.
Многомерное шкалирование как инструмент анализа данных
Характеризуя прикладную статистику (или анализ данных) как область исследований, можно отметить, что до последнего времени теория, методология и практика статистической информации развивались, по существу, в двух ключевых направлениях [1, 6]. Первое представлено методами, предусматривающими возможность вероятностной интерпретации обрабатываемых данных. Второе (логи-ко-алгебро-геометрическое) — методами, логическая схема которых строится на оптимизации некоторого заданного критерия (функционала) качества. МШ — инструментарий, развиваемый в рамках второго направления. МШ как метод опирается на весьма общую и распространенную идею о том, что наблюдаемые в эксперименте объекты можно адекватно описать (представить) точками в некотором координатном пространстве. Оси этого пространства соответствуют скрытым
91
№ 6(24) 2009
§
«о
0
1
о ^
о %
&
€
0 %
€ а
1 «о
S
■о %
is
I
а
I
а §
0 а
1 а
гг
53 iS
а
(латентным) факторам, в совокупности адекватно описывающим экспериментальную ситуацию. От других методов анализа данных, опирающихся на подобные представления (например, факторного анализа), МШ отличается тем, что наблюдаемые отношения между объектами описываются некоторыми формулами — функциями близости, заданными для пар точек координатного пространства.
В ходе анализа методами МШ решаются следующие вопросы: поиск и интерпретация латентных переменных, сжатие исходного массива данных, визуализация геометрической конфигурации наблюдаемых объектов в координатном пространстве латентных факторов [2, 3, 5]. Независимо от типа решаемой задачи эти методы можно использовать как инструмент наглядного представления (визуализации) исходных данных. Поэтому многомерное шкалирование позволяет решать различные проблемы в социально-экономических исследованиях. В этой связи изучение потребительских отношений средствами МШ является актуальным.
Общий принцип построения модели МШ формулируется следующим образом. Пусть имеется некоторая характеристика. Респонденты используют определенный ограниченный набор признаков для ее оценки, а различия между объектами объясняются расхождениями по ним. Чем сильнее отличаются оценки двух объектов, тем больше должны быть различия между ними по набору латентных факторов. Следовательно, оцениваемые объекты можно расположить в пространстве факторов так, чтобы имелась зависимость между оценками объектов и расстояниями между объектами в пространстве восприятия. Чем больше сходство между объектами, тем меньше между ними расстояние в конструируемом пространстве факторов.
Таким образом, в основе МШ лежат два фундаментальных предположения: об объединенном психологическом пространстве (в одном пространстве латентных факторов описываются точками и объекты, и респонденты) и о зависимости между оценками объектов и расстоянием между ними в искомом пространстве факторов.
В наиболее общем виде процесс МШ можно представить как перевод исходных данных в некоторую монотонную функцию с последующим определением координат стимулов — объектов в пространстве факторов. Эти координаты называют «оценками координат стимулов». Для поиска координат («оценки параметров») используется «набор статистических методов». Стимулы размещаются в пространстве, осями которого являются искомые латентные факторы. Принципы построения этой пространственной модели могут быть различными: привычной является Евклидова модель пространства, но есть и другие модели (например, метрика города, метрика доминирования, которые, включая Евклидову, являются частными случаями метрики Минков-ского). Различие между ними заключается в том, как измеряется расстояние между двумя точками. В случае МШ от выбора метрики (а значит, от того, как будет подсчитано расстояние между стимулами), зависит результат оценки координат стимулов.
Поэтому существуют «различные пространственные дистанционные модели для данных».
Задача исследователя заключается в выборе функции, которая максимально соответствовала бы первичным данным, и поиске подходящей размерности координатного пространства. Для оценки отклонений координат стимулов от первичных данных используется мера соответствия полученных оценок исходным расстояниям, называемая «стрессом». «Стресс» рассчитывается с использованием специальных стресс-формул [2]. Кроме того, «стресс» помогает определить оптимальную размерность теоретического пространства. Помимо оценки соответствия, существуют другие критерии выбора размерности итогового пространства: интерпретируемость (выбор минимально возможной размерности с интерпретируемыми осями) и воспроизводимость результатов.
К настоящему времени не все виды МШ представлены в SPSS, что существенно ограничивает возможности применения МШ при обработке данных социологических исследований. Сочетание возможностей Excel и любо-
92
№ 6(24) 2009
го математического пакета, например Maple, позволяет применять и те методы МШ, которые в настоящее время не представлены, в частности, в SPSS.
Среди методов МШ при обработке данных используются метрическое, неметрическое шкалирование, а также поиск индивидуальных различий [7-13]. Социологи в исследованиях используют данные, полученные в различных шкалах. Метрическое и неметрическое МШ различаются по уровню измерения исходных данных. Метрическое шкалирование требует метрических данных (получаемых в результате использования абсолютных шкал). Неметрическое шкалирование накладывает гораздо меньшие ограничения и позволяет использовать данные более низкого уровня измерения (порядковых шкал). Метрическое МШ при построении функции учитывает числовые отношения между объектами, а неметрическое — только их порядок. Модель индивидуальных различий применялась первоначально для изучения степени отличия оценок стимулов у различных людей, отсюда и ее название. Однако модели индивидуальных различий могут применяться не только для описания различий между индивидами, но и также позволяют определить вес координат и степень взаимодействия между координатами в субъективном пространстве.
Таким образом, методы МШ позволяют получить интегративную оценку исследуемой характеристики (а не ее отдельных аспектов), и определить, не навязывая собственного мнения испытуемым, какими же признаками они руководствовались в процессе оценивания. В результате МШ обеспечивает более легкую интерпретируемость решения в пространстве меньшей размерности.
Американским статистиком У. Торгерсоном в начале 50-х годов XX в. был предложен один из первых алгоритмов МШ, впоследствии известный как метрический метод Торгерсо-на [2].
Теоретически метод Торгерсона базируется на жестких теоретических предположениях:
• в некотором определенном шкальном пространстве X расстояния между наблюдае-
мыми объектами соответствуют величинам, характеризующим их различия, т. е. 8, =
• сами расстояния между объектами в теоретическом пространстве достаточно точно описываются метрикой Евклида:
6,j = dij
<jk j
F =E|6
~E Xikxjk k
>min,
--ft
где 82. = 82..
-E82; j T j;
- T822;
4 EE82. ij i j ij
Матрица, все элементы которой — 8*, называется матрицей с двойным центрированием А*, средние значения элементов каждой ее строки и каждого столбца равны нулю.
93
а
«о
I
• в шкальном пространстве Xсредние значения координат стимулов по каждой оси равны нулю, нуль — исходная точка отсчета:
Е Хк =Е Хк = о.
' ]
Алгоритм Торгерсона минимизирует меру соответствия:
т. е. сумма квадратов разностей центрированных величин — характеристик различий объектов и расстояний между объектами в некотором теоретически определенном пространстве X — должна быть минимальной (требование метода наименьших квадратов). При наличии исходной матрицы различий А с элементами 8, алгоритм реализуется последовательным выполнением следующих шагов.
Шаг1. Приняв ЕХкк =Ехк =0 и 8, =
предполагается, что существуют адаптивные реальным характеристикам различий величины 8*, для которых выполнялось бы аналогичное условие: Е8*к =Е8*к = 0. Значения 8* находят по формуле:
2
№ 6(24) 2009
§ §
«0
0
1
о ^
о %
&
€
0
3 %
€ a
1 «о
S
is
■о %
§ I
QJ »
a
i
a §
0 a
1 a
sr
53 iS
a
Шаг 2. По Торгерсону, для рассчитанных значений 8*, если Ьц = ёц хк — х]к )2,
справедливо равенство: 8* хкХцк, или
к
в матричном виде:
д*= ххт,
где X — матрица координат стимулов.
Поиск матрицы X означает расчет собственных векторов. Для определения матрицы координат стимулов можно использовать метод главных компонент или методы факторного анализа.
На заключительном этапе решаются вопросы определения оптимальной размерности теоретического пространства и интерпретируемости аналитических результатов. Размерность пространства стимулов определяется коэффициентом информативности, который чаще всего составляет не менее 70-90 %. Визуализировать результаты можно, оставив в исследовании две или три шкалы. Интерпретируемость результатов МШ определяется компонентным составом векторов, представляющих шкалы. Для усиления координат стимулов может быть использовано вращение шкального пространства, например ва-римаксное.
Потребление в фокусе многомерного шкалирования
В работе представлен анализ потребления средствами МШ. Данные для исследования предоставлены Самарской Городской Общественной Организацией социологов «Социологический центр», а также социологическим центром Самарского государственного университета.
Целью данной работы является определение местонахождения объектов в «пространстве стимулов» средствами МШ на примере освоения жителями города Самары потребительских практик, соответствующих обществу потребления. В качестве объектов рассматривались различные группы населения г. Самары в возрасте 21-60 лет. Изучаемая выборка
является квотной. Объем выборочной совокупности составил 800 человек.
На начальном этапе проводилась первичная обработка данных, представленных в SPSS в виде анкет. Результатом первичной обработки является группировка данных и расчет индексов (Q,), отражающих степень соответствия потребительских практик жителей города той или иной черте общества потребления. Значения индексов изменяются от 1 до 4. Чем ближе Q, к 1, тем менее соответствует та или иная потребительская практика обществу потребления; верно и обратное утверждение.
В ходе анализа полученной эмпирической информации было выявлено, что жители города, реагируя на структурные изменения потребительского рынка Самары, наиболее интенсивно освоили следующие потребительские практики:
• потребление в крупноформатных торговых точках;
• использование ресурсов сети Интернет и мобильной связи (см. табл. 1).
Группировка данных производилась по двум признакам: «Возраст» и «Доход на одного члена семьи в месяц». В результате группировки по первому признаку были выделены четыре группы: 21-30 лет (N,), 31-40 лет (N2), 41-50 лет (N3), 51-60 лет (N4). По признаку «Доход на одного члена семьи в месяц» были сформированы пять групп: до 4000 руб. (L0, 4001-8000 руб. (L2), 8001-12 000 руб. (L3), 12 0016 000 руб. (L4), свыше 16 000 руб. (L5).
Для сформированных групп был произведен расчет индексов Q,—Q7 в SPSS, значения которых представлены в табл. 2 и 3.
Матрицы различий Д, и Д2 между объектами и координаты стимулов (X; Х2) представлены в табл.4 и 5 (см. с. 96) соответственно. Расчеты этих матриц также производились в SPSS.
Оставленные в исследовании две шкалы теоретического пространства обеспечивают коэффициент информативности 90,04 и 86,8% по двум вариантам группировок. Рассчитанные значения мер соответствия («стресс») можно считать удовлетворительными.
Взаимное расположение объектов в новом теоретическом пространстве координат стимулов представлено на рисунке (см. с. 96).
94
ПРИКЛАДНАЯ ИНФОРМАТИКА ___________
------- т 6(24) 2009
в
Таблица 1 §
Сводная таблица индексов О,
№ п/п индекса О, Черта общества потребления Значение индекса О,
1 Снижение роли мелких магазинов, повышение роли крупных торговых центров, а также супер- и гипермаркетов 3,17
2 Превращение шоппинга в одну из форм проведения досуга 2,71
3 Интернет и мобильная связь образуют новое коммуникативное пространство 3,36
4 Повсеместное использование кредитов 2,43
5 Постоянное изменение в сфере моды, ориентирование на бренды, а не на качество товара 2,70
6 Образование становится платной услугой наравне с другими коммерческими услугами, а также превращается в один из факторов успешности индивида в обществе 2,54
7 Занятия спортом (фитнесом) — знак социально-экономического положения индивида; забота о теле как способ социальной идентичности 2,45
Таблица 2
Значения индекса О, для объектов N
Объект О1 О2 Оз Индекс О4 О5 Об О7
N1 3,41 3,21 3,82 2,57 3,21 2,74 3,04
N2 3,48 3,12 3,75 3,16 3,07 2,51 3,11
N3 3,01 2,45 3,11 2,02 2,54 2,32 2,48
N4 2,78 2,07 2,76 1,98 1,99 2,04 1,16
Итоговое значение 3,17 2,71 3,36 2,43 2,70 2,54 2,45
Таблица 3
Значения индекса О, для объектов
Объект О1 О2 Оз Индекс О4 О5 Об О7
¿1 2,31 2,12 2,99 1,42 2,01 2,12 1,48
¿2 2,78 2,44 3,12 1,91 2,25 2,21 1,94
¿3 3,41 2,69 3,27 2,64 2,71 2,33 2,52
¿4 3,49 3,14 3,58 2,98 3,11 2,65 2,89
¿5 3,84 3,15 3,84 3,19 3,44 2,69 3,43
Итоговое значение 3,17 2,71 3,36 2,43 2,70 2,54 2,45
95
№ 6(24) 2009
Таблица 4
Матрицы различий между объектами изучаемых групп
Матрица различий Д, для объектов ^ Матрица различий Д2 для объектов Ц
Д, N1 N2 N3 N4 Д2 ¿2 ¿3 ¿4 ¿5
N1 0,0000 0,0054 0,1119 1,5705 ¿1 0,0000 0,0150 0,4602 1,6086 3,7701
N2 0,0054 0,0000 0,4499 1,3535 ¿2 0,0150 0,0000 0,2277 0,6145 1,1076
N3 0,1119 0,4499 0,0000 0,3819 ¿3 0,4602 0,2277 0,0000 0,1187 0,3607
N4 1,5705 1,3535 0,3819 0,0000 ¿4 1,6086 0,6145 0,1187 0,0000 0,0895
¿5 3,7701 1,1076 0,3607 0,0895 0,0000
Таблица 5
Координаты стимулов
Группировка по возрасту X, Х2 Группировка по доходу Х1 Х2
N1 0,612 378 0,56 689 ¿1 -0,71 223 -0,57 765
N2 0,624 451 0,61 114 ¿2 -0,21 099 0,2003
N3 0,00 012 0,10 004 ¿3 0,00 022 0,41 008
§ §
«о
0
1
о
^
о %
&
€
0 %
€ а
1 «о
5
■о %
§
I
ш »
а
I
а §
о а
в а
гг
53
3 §
а
-0,4 -0,2
т
0,8" 0,6" 0,4" 0-2,
-0,4" -0,6"
ё
.Л/2
.«В
0,2
0,4
Л/1
0,6
0,8
¿2
1.4 Р
0,6 0,4
¿5
¿4
-1
-0,5
-1 0,2" 0
-0,2" -0,4" -0,6" -0,8"
0,5
б
Новое теоретическое пространство для объектов: а — М; б — Ь
96
№ 6(24) 2009
Проиллюстрированное расположение объектов в новом признаковом пространстве позволяет условно интерпретировать шкалу Х1 как «Интенсивность потребления товаров и услуг», а шкалу Х2 — как «Тип потребления», где, например, «-1» — это тип потребления общества модерна, «1» — постмодерна (возможны и другие интерпретации).
Из полученных данных можно увидеть, что население Самары в возрасте 31-40 лет является наиболее активным в сфере потребления товаров и услуг, а потребительские практики этой возрастной группы в наибольшей степени соответствуют обществу потребления.
Молодежь в возрасте 21-30 лет потребляет товары и услуги чуть менее активно, потребительские практики также во многом соответствуют обществу потребления. Население Самары, относящееся к возрастной группе 41-50 лет, заметно отстает от двух предыдущих возрастных групп как по интенсивности потребления, так и по его типу, о чем свидетельствует местоположение на шкале Х2. Жители города в возрасте 51-60 лет потребляют товары и услуги значительно меньше других, а по типу потребления близки, скорее, к потреблению, свойственному модерну.
Таким образом, структурные изменения потребительского рынка Самары, произошедшие за последние пять лет, привели к активному освоению новых потребительских практик жителями города в возрасте 21-40 лет. Другими словами, потребительские практики населения Самары указанного возраста в наибольшей степени соответствуют обществу потребления.
Из данных «б» рисунка можно сделать вывод о том, что по интенсивности и типу потребления лидирующее положение занимают домохозяйства, в которых уровень ежемесячных доходов, приходящихся на одного члена семьи, составляет свыше 16 000 рублей. По типу потребления на одном уровне находятся домохозяйства со среднемесячным уровнем дохода на одного члена семьи 12 001-16 000 руб. и 8001-12 000 руб. Однако интенсивность потребления у выделенных групп различна. Далее на графике следуют домохозяйства со среднемесячным уровнем дохода на одного члена семьи 4001-8000 руб. и до 4000 руб.
Таким образом, первоначальный объем § информации, состоящей из анкетных данных ^ 800 респондентов, в результате применения метода метрического МШ сжимается и визуа- •=£ лизируется. Наглядное представление данных позволяет подтвердить, что интенсивность потребления определяется основными социально-демографическими характеристиками населения — возрастом и уровнем дохода на одного члена семьи в месяц.
Средствами многомерного шкалирования решена задача о выявлении зависимости между потреблением ряда товаров и услуг, и основными социально-демографическими характеристиками жителей Самары. Результаты свидетельствует о том, что структурные изменения потребительского рынка Самары в период с 2002 по 2007 гг. характеризуются освоением новых потребительских практик жителями города в возрасте 21-40 лет со среднемесячным доходом на одного члена семьи от 12 тыс. руб. Однако наибольшее соответствие обществу потребления приобрели только 2 потребительские практики: интенсивное потребление товаров в крупноформатных торговых объектах и активное использование современных коммуникационных технологий — мобильной связи и Интернета.
Заключение
Современные информационные технологии позволяют внедрять при анализе данных социально-экономических исследований такой мощный математический инструментарий методов многомерного анализа как многомерное шкалирование. Возможности различных методов многомерного шкалирования способствуют более глубокому изучению различных социально-экономических явлений.
Это обусловлено разнообразием подходов при представлении исходных данных, а также результатов обработки.
Использование SPSS расширяет возможности исследователя: проведение комплексного анализа первоначальной информации в виде анкетных данных до применения многомерных методов, в частности, многомерного шка-
97
№ 6(24) 2009
§
«о
0
1
о ^
о %
&
€
0 %
€ а
1 «о
S
■о %
is
I
а
I
а §
0 а
1 а
гг
53 iS
а
лирования. Исследователь на каждом шаге может варьировать различными латентными факторами, их количеством, учитывая интерпретацию в конкретной ситуации. При использовании варимаксного вращения имеется возможность улучшения параметров латентных факторов. Представление изучаемых объектов в пространстве теоретических шкал позволяет исследователю изучить все многообразие различных вариантов. Выбору оптимального варианта погружения объектов в теоретическое пространство способствуют расчеты стресс-формул как мер соответствия эмпирических и теоретических данных.
В данной работе рассмотрены основные теоретические положения метода метрического многомерного шкалирования, представлен анализ потребительских практик жителей г. Самары в ситуации структурных изменений потребительского рынка средствами многомерного шкалирования. В качестве объектов исследования выступали группы населения, отличающиеся по возрасту и уровню дохода на одного члена семьи в месяц, в качестве признаков — индексы, отражающие степень соответствия той или иной потребительской практики обществу потребления.
Средствами SPSS рассчитаны координаты стимулов теоретического пространства латентных факторов. В исследовании оставлены две теоретические шкалы, обеспечивающие достаточно высокий коэффициент информативности. Кроме того, потребительское поведение логически интерпретируется в данных шкалах. Графически представлено взаимное расположение различных групп населения.
Сжатие и наглядное представление данных позволяет проводить более глубокий анализ и интерпретацию полученных результатов.
СПИСОК ЛИТЕРАТУРЫ
1. Айвазян С. А., Бухштабвр В. М., Енюков И. С., МешалкинЛ.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.
2. ДейвисонМ. Многомерное шкалирование: методы наглядного представления данных: пер. с англ. М.: Финансы и статистика, 1988.
3. ДубровА.М.,МхитарянВ.С.,ТрошинЛ.И. Многомерные статистические методы: учебник. М.: Финансы и статистика, 1998.
4. НаследовА.Д. SPSS 15: профессиональный статистический анализ данных. СПб.: Питер, 2008.
5. Сошникова Л. А., Тамашевич В. Н, УебеГ, Ше фер М. Многомерный статистический анализ в экономике. М.: Юнити, 1999.
6. Терехина А. Ю. Анализ данных методами многомерного шкалирования. М.: Наука, 1986.
7. Толстова Ю. Н. Основы многомерного шкалирования. М.: Книжный дом «Университет», 2006.
8. Трусова А. Ю., Тетерин А. Е., Орлова И. С., Горе лова В. В. Моделирование социальных групп методами многомерного шкалирования II «Математические методы и информационные технологии в экономике, социологии и образовании». Пенза, 2004.
9. Трусова А. Ю., Орлова И. С., Горелова В. В. Анализ индивидуальных различий электоратов ведущих партий II Межвузовский сборник научных трудов «Образовательные технологии». Вып. 12. Воронеж, 2004.
10. Трусова А. Ю., Орлова И. С. Математическое моделирование социальной системы средствами неметрического многомерного шкалирования II Труды III Всероссийской ФАМ'2004 конференции. Красноярск, 2004.
11. Трусова А. Ю., Измайлова Т. В. Многомерное шкалирование социального самочувствия II Труды IV Всероссийской конференции по финансово-актуарной математике и смежным вопросам. Часть первая. Красноярск: ИВМ СО РАН; КрасГУ; КГТЭИ; Гротеск, 2005.
12. Трусова А. Ю. Анализ социальных явлений средствами многомерного шкалирования в курсе новых информационных технологий I Вестник учебно-методического совета Самарского государственного университета: информационно-методическое обеспечение профессионального образования в условиях многоуровневой подготовки специалистов. Самара: Универсгрупп, 2007.
13. Трусова А. Ю. Многомерное шкалирование структуры общества II Вестник Самарского государственного университета. 2008. № 7(66).
98