Информационные системы в экономике
С.Н. МАРТЫШЕНКО,
Н.С. МАРТЫШЕНКО
Методы обработки нечисловых данных в социально-экономических исследованиях
Предложен метод компьютерной обработки открытых вопросов анкеты, основанный на преобразовании открытой формы ответов к номинальной измерительной шкале. Дается понятие составного признака и рассматриваются два подхода к построению его частотных рядов.
Условием экономически развитого общества является необходимость принятия решений в социальной и экономической сфере с учетом мнения населения. Основным источником информации, отражающей мнение населения, был и остается анкетный опрос.
Обработать данные опросов невозможно без использования компьютерной техники, которая на сегодняшний день доступна практически каждому исследователю. Однако в специализированных средствах обработки анкетных данных на компьютере ощущается острый дефицит [4]. Необходимость использования специализированных средств обусловлена спецификой получаемых в ходе анкетных опросов данных, заключающейся в том, что они содержат большое количество нечисловой информации, порождаемой использованием в анкетах большого разнообразия измерительных шкал [3]. Большинство распространенных компьютерных программ, напротив, нацелено на обработку числовой информации.
Наличие разнообразных шкал вызвано не прихотью исследователей, а их стремлением получить от респондентов более достоверную информацию. Поскольку исследователь заинтересован в получении актуальной информации, ему приходится подстраиваться под респондента, формулируя вопросы таким образом, чтобы участник опроса смог или пожелал ответить на них.
Наиболее сложным с точки зрения компьютерной обработки является так называемый открытый или неструктурированный вопрос [1]. В отличие от закрытого, он не содержит подсказок, не «навязывает» тот или иной вариант ответа и рассчитан на получение неформализованного мнения. Еще чаще, чем открытый, встречается полузакрытый вопрос, который кроме определенного числа вариантов ответа содержит позицию «другое
- укажите какое (что, где, как)». Известны и иные формы открытого вопроса: «завершение предложения», «подбор ассоциации» и др.
Большинство исследователей не применяют компьютерную обработку открытых вопросов, а используют их в целях получения информации для будущих исследований. Между тем, ответы на эти вопросы могут оказаться очень информативными.
При открытой форме вопроса можно было бы ожидать, что респонденты не дадут одинаковых ответов. На практике перечень действительно различных по сути, а не по форме ответов на такие вопросы анкет ограничен. Уже при выборке порядка 700 анкет можно выделить всего 30-40 различных возможных вариантов ответов. При увеличении объема выборки картина практически не изменяется. Выделенные варианты ответов можно интерпретировать как значения признака, измеренного в номинальной шкале.
Наличие 30-40 вариантов значений - тоже слишком большое количество для анализа измерений в номинальной шкале. Поэтому исследователь после формирования приемлемого списка действительно различных вариантов должен сгруппировать эти ответы, рассматривая их как некоторые характеристики непересекающихся классов (типов) респондентов.
Конечно, такое объединение будет носить субъективный характер, тем не менее оно совершенно оправданно с точки зрения социологической теории личности, которая выделяет определенное количество типов личности. Это подтверждается большим количеством независимых исследований ученых из различных стран, которые выявили не более 7-8 типов. В реальных исследованиях каждому из выделенных типов присваивается определенное название, ассоциированное с темой исследования. С математической точки зрения название не имеет никакого значения, имеет смысл только операция объединения ряда значений признака в один класс. Поэтому типы (классы) могли бы быть просто пронумерованы в произвольном порядке.
Таким образом, с содержательной точки зрения операция преобразования открытого вопроса к номинальной шкале, или операция типизации, не так уж и сложна. Однако при переходе к реальным данным, когда исследователю приходится иметь дело с тысячами анкет, возникают определенные трудности.
В связи с этим нами было разработано специальное инструментальное средство, которое позволяет автоматизировать деятельность исследователя при поиске типологий по большим спискам первичных ответов на открытый вопрос. Оно входит в состав разработанного нами специализированного комплекса программных средств обработки анкетных данных, предназначенного для работы в среде EXCEL [2]. Подход, состоящий не в разработке собственного автономного пакета программных средства, а в расширении функций распространенного среди широкого круга практиков пакета, на наш взгляд, наиболее отвечает сегодняшнему уровню использования программных средств по обработке данных. Даже разрабатывая собственную технологию решения этих задач, мы можем использовать всю мощь пакета EXCEL как для выполнения отдельных промежуточных операций, так и оформления результатов.
Разработанный программный модуль позволяет решать не только упомянутую выше задачу типизации в простейшем случае, но и допускает решение более сложных проблем, встречающихся на практике. Обратимся к некоторым более общим вариантам постановок задач типизации.
Рассмотрим работу программного модуля при решении простой задачи типизации. Поскольку программный модуль предназначен для совместной работы в среде EXCEL, то и принцип работы, и возможности программы должны демонстрироваться в этой программной среде.
Решение задачи типизации значений признака, порожденного открытым вопросом, можно производить и стандартными средствами EXCEL, используя функции сортировки и корректировки данных. Однако при больших объемах выборки такой способ будет весьма трудоемким. Один и тот же ответ можно выразить десятками способов. Даже различие в одном символе компьютер воспринимает как различные ответы. Достаточно поменять порядок слов ответа, и один и тот же ответ окажется в различных частях отсортированного списка.
Учет в программном модуле всех особенностей задачи позволяет на порядок сократить время получения конечного результата по сравнению с ее решением стандартными средствами EXCEL. Кроме того, неискушенный пользователь в процессе работы со стандартными средствами может допускать ошибки на каждом этапе многоходовой операции.
Работа с программным модулем начинается с отбора признака, подлежащего типизации (рис. 1). При использовании программы в составе специализированного программного комплекса в списке признаков будут указаны только те, которые соответствуют открытым вопросам.
Рис. 1. Форма выбора признака в программе типизации
Программа формирует на отдельном листе EXCEL рабочую таблицу типизации, включающую четыре столбца. В первом содержится список неповторяющихся значений признака (уникальных значений), второй отведен для ввода названий классов, третий - для ввода названий подклассов, в четвертом выводятся частоты повторяемости уникальных ответов. В исходном состоянии второй и третий столбцы не заполнены (рис. 2).
В п О Е
(Занимаюсь ни мор в ж Класс т| Подкласс ▼ Часі □ та ▼
дкусно поесть Н1
вяэать и вышивать А
дайвинг 5В
дискотека 12
зего рать и ¡купоться SOI
заниматься с детьми В
э ани мат ься сексом 67
заниматься спортом 72
знакомиться н
играть в балмиитон 2Б
играть в баскатбал 5
играть ы волейбол ЭВ7
играть в карты 23
играть в мяч 23
играть в теннис Б
играть в ф^тйел 21
играть нн гитаре 5
Рис. 2. Фрагмент таблицы типизации уникальных значений признака «занимаюсь на море» анкетного опроса по изучению пляжно-оздоровительного отдыха
При запуске программы выводится панель управления типизацией (рис. 3). На все время активности программы к таблице уникальных значений признака могут быть применимы все средства EXCEL.
Первоначально этот список может содержать от 500 до 700 строк. После серии корректировок списка с целью его унификации пользователь может выполнить команду «Сжать», по которой все повторяющиеся записи «сжимаются» в одну, а соответствующие частоты уникальных значений признака пересчитываются. Корректировка одной записи таблицы уникальных значений эквивалентна корректировке множества связанных с ней записей исходной таблицы данных.
Мношаговая типизация
1
;жать Назад Начальные значения
Вывести Следующий шаг Г отово
Рис. 3. Панель управления программой типизации
При повторении нескольких циклов выполнения действий «корректировка - сжатие» список уникальных значений быстро сокращается. По мере сокращения списка срок обдумывания исследователем очередных корректировок возрастает, поскольку ему приходится анализировать все более и более сложные ситуации. При этом существенно сокращается время, затрачиваемое исследователем на поиск однотипных ответов.
Частоты повторения уникальных ответов (четвертый столбец таблицы) служат весьма полезной информацией для логических рассуждений исследователя, который в первую очередь сосредоточивает свое внимание на ответах, имеющих высокие частоты, и пытается свести к ним все остальные ответы, если это не приводит к искажению их смысла. В конечном итоге список удается сократить в десять и более раз, причем без искажения информации.
После завершения операции типизации признака пользователь может либо заменить значения исходной выборки, либо, в случае сомнений в корректности действий, разместить столбец признака с замещенными значениями на новом месте. В частном случае эта программа может служить для корректировки любого признака или построения частотных рядов признака. Кроме того, пользователь и сам может находить другие ситуации приложения программы.
При выполнении операции типизации в полном объеме исследователь объединяет ответы в группы, вводя названия (или номера) классов во второй столбец. В простейшем случае третий столбец просто повторяет первый.
Однако при выполнении операции на реальных данных возникает необходимость внесения в третий столбец значений более общих, чем в первом столбце. В реальной ситуации могут встретиться очень близкие по смыслу, но все-таки различные ответы. Например, ответы «пробки на дорогах» и «отсутствие автостоянок» можно было бы заменить одним обобщенным ответом «транспортные проблемы». Создавать два подкласса по очень близким по смыслу ответам нецелесообразно, поскольку это может привести к чрезмерному количеству вариантов с крайне низкой частотой встречаемости. С другой стороны, иногда не желательно терять информацию при замене двух вариантов ответов одним обобщенным, потому что при пополнении количества данных может оказаться, что один из этих ответов достигнет такого уровня встречаемости, когда его будет целесообразно выделить как вполне самостоятельный вариант.
Поэтому для сохранения информации «на будущее» используется следующий подход. В строки таблицы уникальных значений, соответствующие приведенным выше ответам, вносят значения: «транспортные проблемы (пробки на дорогах)» и «транспортные проблемы (отсутствие автостоянок)», а в столбец «подкласс» для обоих ответов вносят обобщенное значение «транспортные проблемы». Определив названия классов и подклассов, исследователь может вывести результаты типизации в форме таблиц и создать новые признаки в таблице данных, составленные из значений, ассоциированных с названиями классов или подклассов.
В качестве примера приведем результаты выполнения операции типизации ответов на открытый вопрос: «Чем еще любите заниматься во время отдыха на море, кроме солнечных ванн и купания?» анкетного опроса по изучению пляжно-оздоровительного отдыха. В опросе участвовал 3361 респондент. Анкета описывается 72 признаками.
В результате выполнения операции типизации выделено 48 различных ответов (подклассов), которые были объединены в 8 групп (табл. 1). Считается, что респонденты, дающие ответы на вопросы из одной груп-
пы, обладают некоторыми общими интересами. В зависимости от того, какие ответы дал респондент, мы можем отнести его к соответствующему классу (подклассу), название которого служит аналогом значения, измеренного в номинальной шкале.
Таблица 1
Результаты выполнения операции типизации
Класс Подкласс Частота
спортивные игры 75
играть в волейбол 434
подвижные игры 144
заниматься спортом 85
Спортсмены играть в мяч 32
играть в бадминтон 29
играть в теннис 6
играть в баскетбол 5
играть в футбол 24
ловить рыбу 270
дайвинг 65
кататься на лодке и т.п. 52
Увлеченные собирать грибы и ягоды 20
экстрим 11
редкие увлечения 21
активный отдых 7
пить пиво 69
готовить шашлык 102
приготовление пищи 24
Гурманы пить спиртное 92
вкусно поесть 68
пикник 9
кушать сладкое и пить прохладительные напитки 9
читать 135
фотографировать 14
прогулки 97
любоваться природой 22
играть на гитаре 8
Лирики слушать музыку 9
сидеть вечером у костра 17
строить замки из песка 12
собирать ракушки и камни, гербарий 15
культурная программа и экскурсии 9
разгадывать кроссворды 6
уединение 8
Инертные загорать, купаться, отдыхать 841
общаться 59
настольные игры 8
Общительные заниматься сексом 71
дискотека 14
петь песни 16
Окончание табл. 1
Класс Подкласс Частота
играть в карты 29
знакомиться 10
посещение кафе-баров-ночных клубов 8
Сони спать 80
пассивный отдых 42
Мамы заниматься с детьми 10
вязать и вышивать 4
Нет данных 164
Выше мы рассмотрели использование программы типизации в простом случае. Операция типизации допускает обобщение, когда респондент на один вопрос может дать не один ответ, а несколько. При этом ответы записываются в одном столбце таблицы данных, соответствующей вопросу. Несколько простых ответов разделяются каким-либо знаком (; или ,). Такой признак мы определяем как составной. Например, на вопрос о любимых занятиях в пляжной зоне респондент может ответить: «осматривать достопримечательности; играть в бадминтон; читать». В этом случае ответ содержит три простых ответа.
Такие множественные ответы требуют разделения исследуемого признака на несколько признаков, для обработки которых применяется многошаговая типизация. Сначала производится типизация по первому ответу, затем по второму (если таковые имеются) и т. д. На каждом шаге программа выполняет действия, аналогичные рассмотренным выше для одношаговой типизации. Исправления, внесенные в данные на каждом шаге типизации, возвращаются в исходный столбец таблицы данных, либо выводятся на новом месте.
В результате типизации составного открытого ответа в номинальной шкале измерения будет выявлен и составной признак. Он может быть получен и непосредственно при сборе первичных данных в процессе анкетирования, а также когда из списка ответов на вопрос анкеты респондент может выбрать не один вариант, а несколько. Причем, различные респонденты могут выбрать разное количество вариантов. Конечно, такой ответ можно было бы представить несколькими признаками, но это далеко не всегда удобно для анализа. При построении частотного ряда простых значений, входящих в составной признак, возникает вариантность, которая не может быть разрешена с помощью стандартных средств.
Продемонстрируем на примере значений составного признака, полученного в результате выполнения операции многошаговой типизации, вариантность построения частотного ряда. Типизации подвергались ответы на открытый вопрос: «Что омрачало ваш отдых в пляжной зоне города?» При этом выделили 25 ответов, которые объединили в 10 групп, получивших названия: 1) зеленые, 2) урбанисты, 3) нелюдимые, 4) интеллигенты, 5) автомобилисты, 6) студенты, 7) привередливые, 8) нетерпимые, 9) оптимисты, 10) равнодушные.
В результате замены типовых значений названиями групп был получен новый составной признак (табл. 2). Его запись можно представить обобщенно в числовой форме (табл. 3).
Таблица 2
Значения составного признака после замены ответов названиями групп
Номер анкеты Значения составного признака
1 Зеленые, зеленые
2 Зеленые, зеленые, привередливые
3 Интеллигенты, нелюдимые
4 Автомобилисты, зеленые
5 Нелюдимые
п = 3361 Интеллигенты, зеленые
Таблица 3
Числовая форма представления составного ответа
Номер анкеты Номер группы ответов
1 2 3 у к
1 Г11 Г12 Г13 Ги Г1к
2 Г21 Г22 Г23 Г2 і Г2к
3 Г31 Г32 Г33 Г3і Г3к
7 Г1 Г 2 Г-3 Гі Гк
п Гп1 Гп 2 Ги3 Гпі Гпк
По данным табл. 3 можно построить два варианта (или модификации) частотных рядов. Частоту встречаемости /-го значения признака можно рассчитать по формулам:
}(1) _ ¿=1
Р (2) = -
п к ’ X X Гу 7=1 і=1
Ґ \
п Г
X У к
7 = 1 X Г ■■ ¿—і і
^ і1 )
(1)
(2)
где Гу - количество простых ответов составного признака 7-й анкеты, отнесенных к группе с номером у; 7 - номер анкеты (7 = 1,2,3,... и); у - номер группы ответов (у = 1,2,3,...к).
п
Обе эти формулы дают значения, отвечающие основному свойству частотного ряда:
¿Р(1) = ¿Р(2) = 1. (3)
/=1 /=1
В каждом конкретном случае частотные ряды, рассчитанные по формулам (1) и (2), могут существенно различаться. То есть для составного признака имеет место вариантность частотного ряда.
Предпочтение тому или иному варианту отдается в зависимости от того, какой содержательный смысл имеет значение составного признака. Если значение, как в нашем примере, имеет смысл типа личности, то встречаемость в одной строке исходной таблицы (см. табл. 2) нескольких различных значений мы можем интерпретировать как то, что конкретный респондент обладает чертами сразу нескольких типов личности. В этом случае для расчета частотного ряда предпочтительней использовать формулу (2).
Рассмотрим другой случай, приводящий к составному ответу. Например, если мы спрашиваем респондента о том, какие виды развлекательно-оздоровительных учреждений он предпочитает, то простые ответы - «ресторан», «фитнес-клуб» - целесообразно учитывать по первой схеме. То есть такой потребитель дает нагрузку двум различным типам предприятий.
С формальной точки зрения составные ответы в двух рассмотренных случаях тоже имеют различия. В первом случае г/ может принимать значения 0,1,2,3,..., а во втором только значения 0,1.
Программные модули построения модифицированных частотных рядов по составным признакам также включены в разработанный нами специализированный пакет обработки анкетных данных. Кроме того, пакет включает модули, позволяющие преобразовывать составные признаки к простым и обратно.
К числу достоинств программных модулей мы относим то, что даже при очень больших выборках они позволяют получать результаты в реальном времени, что открывает большие возможности для экспериментальной работы исследователя.
Расчеты на реальных данных показали очень высокую устойчивость числовых характеристик частотных рядов, построенных по данным, полученным в результате типизации ответов на открытые вопросы. Поэтому эти данные могут выступать в роли характеристик исследуемых совокупностей. Результаты типизации могут быть с успехом использованы для анализа структуры потребителей товаров и услуг.
Наличие средств по обработке открытых вопросов обеспечивает широкому кругу исследователей новые возможности сбора первичного материала методом анкетного опроса.
Литература
1. Малхотра Н.К. Маркетинговые исследования / Н.К. Малхотра. - М.:
Вильямс, 2002. - 960 с.
2. Мартышенко С.Н. Совершенствование математического и программного обеспечения обработки первичных данных в экономических и социологических исследованиях / С.Н. Мартышенко, Н.С. Мартышенко, Д. А. Кустов // Вестник ТГЭУ. 2006. № 2. С. 91-103.
3. Орлов А.И. Нечисловая статистика / А.И.Орлов. - М.: МЗ-Пресс, 2004. - 513 с.
4. Толстова Ю.Н. Анализ социологических данных. Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000. - 352 с.
© Мартышенко С.Н., Мартышенко Н.С., 2006 г.