Мартышенко С.Н., Мартышенко Н.С. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ПОВЫШЕНИЯ КАЧЕСТВА ОБРАБОТКИ АНКЕТНЫХ ДАННЫХ
В работе рассматриваются особенности данных анкетного опроса. Современный подход к анализу данных требует применения многомерных статистических методов. В работе дается теоретическое обоснование элементов технологии обработки анкетных данных. Технология была реализована в виде комплекса программных средств в EXCEL.
Для повышения уровня обоснованности управленческих решений на всех уровнях управления требуется качественная и достоверная информация. Среди данных, характеризующих состояние социальноэкономических систем, особое место занимают данные анкетных опросов.
Анкетный опрос один из основных источников информации, отражающей:
- реакцию населения на решения и действия, предпринимаемые органами государственного управления всех уровней;
- мнения потребителей, определяющие выбор различных товаров и услуг.
Устремления России к созданию общества демократического согласия и условий для здоровой конкуренции производителей в борьбе за потребителей неуклонно повышают интерес к исследованиям, основанным на анкетных опросах. Сегодня редкий университет не выпускает специалистов по маркетингу и социологии, у которых одним из основных инструментариев исследования является анкетный опрос. И все эти специалисты ощущают острую потребность в методах и компьютерных технологиях обработки статистических данных анкет.
Обработка анкетных данных переходит с уровня научного исследования на уровень практики повседневной работы многих предприятий. Преимущество смогут получить те, кто будет использовать более совершенные методы обработки статистических данных, основанные на последних достижениях в области прикладной статистики и компьютерных технологий. Современный подход к анализу анкетных данных требует использования статистических методов, позволяющих анализировать многомерные данные. Системное изложение прикладных методов многомерного анализа данных было дано в работе Н.Г. Загоруйко [2].
Данные анкетных опросов имеют ряд существенных отличий от классических статистических данных учетного характера. Для их обработки необходима разработка специальных методов и программного обеспечения. Разработка информационных технологий базируется на учете особенностей данных и обобщении опыта решения наиболее распространенных практических задач.
Можно выделить ряд особенностей анкетных данных.
Первая особенность заключается в том, что эти данные включают признаки различной природы. Многие признаки являются нечисловыми и качественными. В работе известного статистика И.И. Елисеевой [1] возрастание доли нечисловой информации в собираемых статистических данных объясняется следующими причинами:
- стремлением учесть человеческий фактор, выявить ориентации и предпочтения людей;
- сбором информации в форме нечисловых данных с тем, чтобы не затронуть количественные показатели, составляющие коммерческую тайну;
- использованием рейтингов (банков, предприятий, учебных заведений, политических деятелей и т.д.).
Большое количество нечисловой информации, порождается использованием в анкетах разнообразных измерительных шкал [9 и 10 ]. Наличие разнообразных шкал вызвано не прихотью исследователей, а их стремлением получить от респондентов более достоверную информацию. Поскольку не респондент а исследователь заинтересован в получении информации, ему и приходится подстраиваться под респондента, предоставляя респонденту вопросы в такой форме при которой он сможет или пожелает ответить. Исследователь всегда вынужден искать компромисс между желаемой информацией и информацией, которую он может получить. Качественная информация часто является гораздо более содержательной. Однако для ее обработки нужно использовать свои методы. Большинство распространенных компьютерных программ, напротив, нацелено на обработку числовой информации.
Анкетные данные содержат от 7 0% до 90% нечисловой информации. Даже информация, представленная в числовом виде, таковой является весьма условно. Это, как правило, оценки средних значений каких-либо характеристик или показателей изучаемого явления или процесса, даваемые респондентами.
При анализе любых статистических данных не обойтись без содержательного анализа данных и результатов их обработки. Преобладание в анкетах качественных данных приводит к тому, что роль содержательного анализа намного выше, чем при обработке числовых данных (вторая особенность).
Присутствие в процессе формирования данных человеческого фактора в виде респондентов, которых нельзя считать квалифицированными экспертами в изучаемой предметной области и которые, как правило, привлекаются к этому виду деятельности в разовом случае, накладывает свой отпечаток на всю систему сбора данных.
Таким образом, анкетный опрос представляет собой некоторый специфический способ измерения. Специфика этого способа измерения состоит в высокой степени неопределенности оценок достоверности данных, которую можно выделить в качестве третьей особенности данных анкетных опросов. Неопределенность обусловлена тем, что данные имеют множество источников ошибки (рис. 1).
Среди ошибок в данных можно выделить особый вид ошибок - это ошибки не наблюдения или пропуска в данных. Эти ошибки могут быть настолько значительными, что их присутствие можно обозначить, как четвертую особенность анкетных данных.
При разработке информационных технологий обработки анкетных данных необходимо учитывать еще ряд особенностей присущих реальным исследованиям, основанным на таких данных. Реальные таблицы данных содержат очень большое количество признаков. Количество признаков может достигать ста и более единиц. Для получения надежных оценок по различным подмножествам выборки требуется значительное количество наблюдений (количество наблюдений может достигать нескольких тысяч). Большую размерность данных можно выделить как пятую особенность.
Шестая особенность тоже является в большой степени следствием размерности данных. Но при разработке технологии обработки данных должна быть выделена отдельным пунктом. Анализ данных включает очень большое количество задач и может занимать значительные отрезки времени. Процесс обработки может растянуться на месяцы и более. Таким образом, длительность периода обработки данных - шестая особенность.
ЦцмошибК]
Ошибка Ошибка
не наблюдения (пропуска) наблюдения
г
Ошибки исследователя Ошибки интервьюера Ошибки респондента
Ошибка замены информации Ошибка измерения Ошибка определения генеральной совокупности Ошибка модели выборки Ошибка обработки данных Ошибка выбора респондента Ошибка вопроса Ошибка записи Ошибка обмана Ошибка неспособности Ошибка нежелания
Рис. 1. Источники ошибок при проведении анкетного опроса
Седьмая особенность состоит в том, что процесс обработки данных часто строится как поисковая задача. До получения данных мы можем только предполагать схему обработки, но результаты обработки могут порождать все новые и новые задачи. Обработка данных носит творческий характер.
К сбору анкет привлекаются временные сотрудники - интервьюеры, которые по-разному относятся к порученной работе. Необходимость учета личности интервьюера, предоставляющего данные, является восьмой особенностью.
Кроме того, анкетные опросы, производимые на профессиональной основе, не проводятся как единичная акция. По мере анализа данных анкета постоянно совершенствуется, как по содержанию, так и по форме. Удачную анкету целесообразно использовать в нескольких опросах - распространение процесса во времени . Сбор и обработка данных по одной анкете происходят на фоне опросов по другим анкетам - параллельные процессы. Отработанные блоки вопросов могут быть включены в виде модулей, связывающие различные опросы. Многие базы данных анкетных опросов, кроме как информация для обоснования управленческих решений могут быть использованы для научной работы многих других исследователей (препарирование).
Постоянное совершенствование системы сбора и накопление знаний в процессе обработки данных является девятой особенностью. Информационная технология должна способствовать системному накопление знаний в виде базы знаний.
Десятая особенность состоит в очень высокой степени зависимости системы сбора информации от того, какими методами анализа данных владеет исследователь и того, какие средства компьютерной обработки данных ему доступны. Какой смысл собрать информацию, если исследователь не в состоянии ее обработать. Это приводит к тому, что с одной стороны значительная часть информации, содержащейся в данных, не используется или недостает какой-то малости, что исключает применение современных методов анализа данных, или очень затрудняет их применение.
Недооценка какой-либо особенности данных может привести к принципиальным ошибкам при выборе ключевых элементов технологии. В теоретическом плане работа по анализу особенностей анкетных данных должна быть продолжена.
Важность работы по разработке компьютерной технологии следует из того, что статистический анализ конкретных данных предполагает использование целого ряда процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В работе известного отечественного ученого А.И. Орлова - автора большого количества работ по прикладным вопросам статистики отмечается, что в научной литературе вопросам рассмотрения технологий обработки статистических данных уделяется явно недостаточное внимание [8]. Обычно все внимание сосредотачивается на том или ином элементе технологической цепочки, а переход от одного элемента к другому остается в тени.
Многие методы обработки данных не дают должного эффекта, и часто не —стыкуются" с другими методами и алгоритмами. Тоже самое, можно сказать и о программном обеспечении, реализующем эти методы.
Тот же А.И. Орлов утверждает, что о полной автоматизации всего процесса анализа статистических данных говорить преждевременно, потому что слишком много нерешенных проблем, вызывающих дискуссии среди статистиков. Однако снизить проблему дефицита технологий обработки реальных данных необходимо и возможно.
В теоретическом аспекте - разработка информационных технологий это обобщение закономерностей в проведении исследований в данной предметной области. Без длительной работы с реальными данными достаточно трудно представить себе проблемы, с которыми приходится сталкиваться в практической работе. Компьютерная технология это не просто набор методов - это системный подход к решению стандартных проблем проведения анализа данных, выявленных в процессе решения реальных задач. Эффективность информационной технологии зависит от того насколько полно она учитывает особенности используемых данных и обеспечивает решение наиболее часто встречающихся задач.
При разработке технологии обработки анкетных данных особое внимание нами было уделено блоку проблем, связанному с повышением качества данных. Создание технологии исследования качества данных должно создать предпосылки использования методов многомерного статистического анализа, пока не получившему достаточного распространения при обработке анкетных данных, хотя эти данные по своей сути являются многомерными.
Основу технологии анализа анкетных данных составляют методы обнаружения и подавления грубых ошибок. Отличие разработанных методов состоит в рассмотрении не отдельных признаков, а их совокупности, то есть в применении многомерного подхода.
Методы повышения качества данных неотрывно связаны с понятием грубой ошибки. Этому понятию невозможно дать однозначное формализованное определение. Поэтому попытаемся уточнить его через некоторые его свойства. Грубой ошибкой можно считать многомерное наблюдение, которое резко отличается на фоне всех остальных. Совокупность значений признаков можно считать грубой ошибкой, если они совместно воссоздают абсурдный, с содержательной точки зрения, объект или его поведение. При этом значения одномерных признаков могут быть вполне правдоподобными. Определить грань, за которой наступает аб-
сурдность объекта, может только сам исследователь в процессе содержательного анализа многомерного объекта. Размытое определение грубой ошибки приводит к обобщенной схеме выявления грубых ошибок (рис.2).
Существует множество причин возникновения и вариантов проявления грубых ошибок. Поэтому для их обнаружения необходимо иметь набор инструментальных средств выделения ошибок. Рассмотрим алгоритмы, которые работают по принципу многомерных фильтров. Программы позволяют выделить анкеты, которые являются —подозрительными" на содержание грубой ошибки или выброса. Исследователь должен подвергнуть выделенные критические анкеты углубленному содержательному анализу, после чего принять решение о том, как поступить с такими анкетами. Исследователь может оценить ситуацию, как допустимую или как недопустимую. В последнем случае он может либо отбросить данные анкеты как недостоверные и только искажающие конечный результат, либо попытаться восстановить отдельные значения признаков по многомерной выборке. В отдельных случаях он может интерпретировать необъяснимое значение, как ситуацию отсутствия данных или пропуск. Отбрасывание небольшой части данных низкого качества никак не сказывается на репрезентативности выборки. Тем более, что при недостатке данных мы можем произвести опрос дополнительной группы респондентов.
Рис. 2. Обобщенная схема выявления грубых ошибок
Разработанные методы обнаружения грубых выбросов условно можно разделить на статистические и логические. Вначале рассмотрим статистические методы. Анализ выбросов целесообразно начинать с анализа таблицы данных на отсутствие данных, рассматривая пропуски как определенный вид ошибки.
Компьютерная технология анализа пропусков в данных основывается на правилах описания и компьютерного представления отсутствия данных [6]. Необходимость единообразного описания ситуации отсутствия данных обусловлена требованиями системного подхода к разработке компьютерных технологий обработки данных, которые строятся с учетом некоторых общих свойств данных и специфики решаемых задач.
В состав технологии выявления грубых ошибок в настоящее время включены семь статистических алгоритмов, оформленных по типу фильтров:
Фильтр отсутствия данных (ФОД);
Фильтр экстремальных непрерывных значений (ФЭНЗ);
Фильтр ранжирования непрерывных значений (ФРНЗ);
Фильтр метрический непрерывных значений (ФМНЗ);
Фильтр частот кодированных значений (ФЧКЗ);
Фильтр замены кодированных значений(ФЗКЗ);
Фильтр эталонных значений (ФЭЗ).
В программной реализации каждый алгоритм представлен двумя модулями. Один модуль служит для обработки отдельных наблюдений, второй — для обработки пакетов анкет, представленных различными интервьюерами. При пакетной обработке в название фильтра добавляется буква «Г» (групповой).
Формализованное описание фильтров приводится в работах [4,5]. Список статистических алгоритмов, включенных в разработанный нами комплекс программных средств анализа анкетных данных, постоянно пополняется новыми алгоритмами. Например, нами был добавлен в программный комплекс алгоритм исследования качества данных, основанный на описании общих свойств представительных классов. Дополнительное предположение о свойствах классов данных упрощает содержательный анализ данных со стороны эксперта, особенно при анализе пограничных данных.
Кроме статистических алгоритмов в состав разработанного комплекса входят средства разработки и сопровождения логических фильтров. Логические фильтры органично дополняют статистические. Во многих случаях логические методы позволяют обнаружить противоречия в данных, которые не выявляют статистические методы. Идея поиска логических противоречий состоит в накоплении обнаруженных противоречий в виде логических выражений, которые реализуются в форме настраиваемых фильтров. Фильтры выделяют анкеты, в которых были обнаружены противоречия. В фильтрах может участвовать значительное количество признаков. Логические связи могут быть как между отдельными значениями признаков, так и диапазонами значений. В логических фильтрах могут быть использованы признаки разных типов. Многие противоречия очень затруднительно выявить без специальных программных средств. Окончательное решение о корректировке данных, как и в случае статистических фильтров, принимает исследователь на основе углубленного содержательного анализа конкретной ситуации.
Логические алгоритмы позволяют аккумулировать знания и опыт, полученные в ходе работы над проектом анализа анкетного опроса. Отличие этих алгоритмов состоит в активном участии исследователя в процессе работы программ [3]. Такие алгоритмы зависят от возможностей программной среды, в которой они реализованы. В нашем случае в процессе работы с программами пользователь может использовать весь арсенал средств обработки данных, предоставляемых EXCEL.
Логические фильтры оказываются наиболее полезными для исследователей, которые занимаются анкетным опросом на профессиональной основе. Такие исследования отличает то, что опросы с помощью одной и той же анкеты могут повторяться через какой-то промежуток времени. Одновременно могут проводиться опросы по нескольким анкетам. Различные анкеты могут включать блоки вопросов, которые уже использовались в других анкетах. Эти методы могут быть использованы для проверки корректности восстановления данных при использовании статистических методов.
Логические методы были использованы нами при обработке открытых вопросов [7]. Для обработки таких данных использовались словари замен, которые автоматически пополняются при накоплении данных.
Статистические и логические методы анализа таблиц эмпирических данных реализованы в виде программного комплекса, который выполнен в форме надстройки к EXCEL. Такой путь был выбран в связи с тем, что большинство пользователей, занимающихся обработкой данных, используют в своей работе EXCEL и легко смогут освоить ряд новых функций. Пользователю совершенно необязательно сразу осваивать все возможности комплекса, он может осваивать их постепенно, переходя от более простых методов к более сложным.
Однако разработанный комплекс нельзя рассматривать как простой набор программ. Программы комплекса образуют единую технологию. Структура и принципы работы специализированного комплекса программных средств обработки анкетных данных представлены в работе [6]. Разработка программного комплекса основана на определении понятий «проекта анкетного опроса» и «модель данных опроса», которые приводят к определенным правилам компьютерного представления информации и доступа к программам комплекса. Структура проекта включает семь элементов: исходные данные по анкетному опросу, параметры проекта, даты изменений, логические фильтры, словари замены, отчеты, изъятые данные. В работе [6] обсуждается содержание и назначение этих элементов. Отдельные модули программного комплекса объединены в четыре раздела по функциональному признаку (рис.З).
Рис. 3. Основные разделы программного комплекса
Разработанные программные средства прошли апробацию на нескольких крупных проектах анкетных опросов и показали высокую эффективность.
ЛИТЕРАТУРА
1. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под. ред. И.И. Елисеевой. - 5 -е изд., перераб. и доп. - М.: Финансы и статистика, 2006. - 656 с.
2. Загоруйко Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко - Новосибирск Изд-во Ин-та математики СО РАН, 1999 - 270 с.
3. Каневский Е.А., Саганенко Г.И., Гайдукова Л.М., Клименко Е.Н. Диалоговая система классификации
и анализа текстов // Социология: 1997. № 9. - С. 198 - 216.
4. Мартышенко С.Н. Цензурирование при обработке анкетных данных / С.Н. Мартышенко, Н.С. Мартышен-ко, Д.А. Кустов // Известия высших учебных заведений. Поволжский регион. — 2006. — №6(27). С. 170177.
5. Мартышенко С.Н. Многомерные статистические методы повышения достоверности маркетинговых данных / С.Н. Мартышенко, Н.С. Мартышенко, Д.А. Кустов // Практический маркетинг - 2007. - № 119(1. 2 0 07)-
С. 20-30.
6. Мартышенко С.Н. Совершенствование математического и программного обеспечения обработки первичных данных в экономических и социологических исследованиях / С.Н. Мартышенко, Н.С. Мартышенко, Д.А. Кустов // Вестник ТГЭУ. - 2006. - № 2 - С. 91-103.
7. Мартышенко С.Н. Средства разработки типологий по данным анкетных опросов в среде EXCEL / С.Н. Мартышенко, Н.С. Мартышенко, Д.А. Кустов // Академический журнал Западной Сибири. - 20 07. - № 1 - С. 75-77.
8. Орлов А.И. Нечисловая статистика / А.И.Орлов. - М.: МЗ-Пресс, 2004. - 513 с.
9. Татарова, Г.Г. Основы типологического анализа в социологических исследованиях: Учеб. пособие
/Г.Г. Татарова; Федер. агенство по образованию, Нац. фонд подготовки кадров. - М.: Новый учебник,
2004. -206 с.;
10. Толстова Ю.Н. Анализ социологических данных. Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000. - 352с.