№2(22) 2011
Е. В. Черепанов
Стохастические методы анализа данных выборочных маркетинговых и социальных
обследований1
Любые количественные выводы в маркетинге потребительских рынков и прикладной социологии основаны на асимптотических свойствах выборочных частот. Для преодоления проблемы неоднородности населения во всем мире используют метод «квотных выборок», отражающих по основным категориям структуру генеральной совокупности. В работе предложен метод статистического анализа данных о конечных структурированных множествах, которые получены на основе случайного отбора. Метод основан на исчислении условных вероятностей для статистик бинарных отношений на множествах «наблюдения — дихотомические признаки». По сравнению с квотными методами, предложенный подход значительно повышает точность оценок по населению (покупателям, избирателям) в целом и позволяет получить оценки частот по категориям населения для любых априорных классификаций.
Ключевые слова: структурированное конечное множество, выборочный метод, дихотомические (булевы) признаки, статистические оценки, случайная выборка, квотная выборка, гипергеометрическое распределение, маркетинг потребительских рынков, прикладные социологические исследования.
JEL classification: С13, С81, С83.
1. Введение
Выборочный метод заложен в основу любых методик маркетинговых и прикладных социологических исследований. Заметим, что здесь и далее термин «маркетинг» используется в узком смысле, как изучение массового потребительского рынка. С математической точки зрения выборочные обследования (при отборе из однородной совокупности) подчинены гипергеометрическому распределению (ГГР) вероятностей, что, насколько это известно автору, в русскоязычной литературе было впервые отмечено в мо-нографии(Кокрен, 1976).
1 Примечание от редакции. Статья затрагивает очень важную для приложений тему теоретико-вероятностного обоснования формирования случайных неоднородных выборок. Поэтому редколлегия журнала решила опубликовать эту статью, несмотря на отдельные критические замечания рецензентов. О двух таких замечаниях мы решили проинформировать читателя. Во-первых, автор подвергает чрезмерной критике широко распространенный и оправдавший себя в социологических исследованиях метод, основанный на квотных выборках. Второе замечание относится к точности полученных автором оценок дисперсий частот изучаемого признака. Так, высказанное автором соображение, что «измерения частоты встречаемости качественного признака с помощью практически не связанных между собой номинальных шкал должны слабо коррелировать», часто оказывается сомнительным в практической работе и зачастую требует дополнительной коррекции.
№2(22) 2011
По сути, любые выборочные методики базируется на законе больших чисел, согласно § которому (в форме теоремы Я. Бернулли (Бернулли, 1986)) выборочная частота встречае- § мости булевого признака в серии независимых наблюдений сходится по вероятности к его истинной частоте встречаемости. Сложность состоит в том, что, кроме случайности и не- ^ зависимости наблюдений, требуется априорная однородность наблюдений. А население — ^ это структурированное (по многим номинальным шкалам) множество. В этой связи, при разумных объемах выборки (например, 2-3 тыс. случайно опрошенных респондентов), различие в структурах выборки и генеральной совокупности могут сильно испортить точность оценки частоты встречаемости изучаемого признака (Мхитарян, Черепанов, 2006; Черепанов, 20076).
В принципе существует лишь два решения этой проблемы: 1) при расчетах математически строго учесть различия в структурах выборки и генеральной совокупности; и 2) так подобрать выборку, чтобы ее структура по основным классификациям (пол, возраст, образование, национальность и т. п.) дублировала бы генеральную совокупность (построить так называемую «квотную» выборку). Поскольку в 30-е гг. прошлого века, когда зародились массовые опросы населения, вычислительной техники не существовало, то у пионеров эмпирической социологии фактически выбора не было: раз считать условные вероятности не на чем, будем создавать квотные выборки.
Эксплуатируя квотные выборки, почти век развивались маркетинг рынков и прикладная социология. За это время методы математической работы с социально-экономическими и социологическими данными достигли серьезного уровня (см., например, (Толстова, 2000; Айвазян, Мхитарян, 2001; Орлов, 2006)). Но в эмпирических исследованиях продолжается применение «квотных технологий», в частности, классических методов математической статистики, которые были заимствованы из анализа однородных данных в естественнонаучных областях знания. А в части структурированности населения «молча» предполагается, что все связанные с ней проблемы разрешены на этапе проведения квотного опроса населения.
Кроме того, формирование, «ремонт» и поддержание квотных выборок — дело дорогостоящее и связанное с большими трудозатратами (Косолапов, 1997). Однако создание точных и дешевых методов работы со случайными выборками из структурированных (несколькими номинальными шкалами) совокупностей, которые используют современные компьютерные технологии (Азаров и др., 2005), описываются в терминах классической теории вероятностей. Эти методы, основанные на исчислении статистик бинарных отношений на множествах (Колочков и др., 1990), используют обобщения гипергеометрического распределения вероятностей.
Статистические процедуры, на которых базируется выборочный метод в социологических исследованиях, основаны на ГГР (Справочник по теории вероятностей..., 1978, п. 6.1.5). Пусть задана генеральная совокупность, представляющая собой население (избиратели, покупатели и т.д.), состоящая из N человек (N »1). Среди населения существует М человек, обладающих интересующим нас дихотомическим признаком (состоят в данной партии, являются клиентами некоторого пенсионного фонда, пользуются изучаемой страховой услугой и т. п.). Производится случайная выборка респондентов объема п. Вероятность того,
2. Многомерные обобщения структурированного ГГР
№2(22) 2011
о
что в выборку попадет ровно т лпц, обладающих изучаемым дихотомическим признаком (О < т < п), задается формулой:
( N У1/ М\( N - М \ Рг{т | п} = ку(т | М,N;п) = , (2.1)
п — т
\" I \т/
/ аЛ
где
N
\п I
N!
Рг{ } обозначает вероятность события {•} , а Ьу(•) — стандартное
(N - п)! п!
обозначение ГГР (Миттаг, Ринне, 1995).
Используя свойства гамма-функции (Янке и др., 1977, п. V. 3), из (2.1), несложно получить
(М - к + 1)(и - к + 1)
. т
ку(т | N, М; п) = 11 +
N - п + 1
111 N - к + 11 11
=1 ЦЫ - п + к + 1)
|о Это выражение «выгодно» отличается от традиционных представлений ГГР (в смысле
¡? его использования для машинных расчетов), которые основаны на вычислениях бесконеч-
^ ных (и медленно сходящихся) сумм или произведений.
Отметим, что ГГР зародилась в задачах анализа качества массовой продукции (Миттаг,
5 Ринне, 1995). Но сегодня многомерные обобщения ГГР могут быть широко использованы
| для корректного описания многих задач в социологии и маркетинге потребительских рын-
о ков, в банковском деле, при подготовке рекламных и избирательных кампаний, для обосно-
« вания проектов в лотерейном бизнесе и при актуарных расчетах в страховом деле.
Л Пусть изучается генеральная совокупность населения, мощность которой равна N. Для о
маркетингового или социологического опроса составлен инструментарии из некоторого чис-
| ла «содержательных вопросов», общее число вариантов ответов на которые равнор. При
¡^ опросе используются я априорных классификаций, данные по которым имеются в Росстате
* (обычно, это данные последней переписи населения).
| В дальнейшем будем обозначать:
а • индексом & — номер варианта ответа на содержательный вопрос анкеты, иначе говоря,
^ к определяет номер соответствующего булевого признака, характеризующего наблюдения
° изучаемой совокупности;
| • индексом г — номер априорной классификации (номинальной шкалы), данные по ко-
ч торой есть в Госкомстате;
• индексом^' — номер социально-демографической категории населения (покупателей,
| электората), определенной /-ой априорной классификацией.
2 Итак, если прямо не оговорено иное, везде далее к = 1,...,р; / = 1,...,5; у = 1,...,г;.
^ Например, к = 45 — намерение купить автомобиль «Форд Фокус», г = 4 — классифи-
§ кация по возрасту, у = 3 — лица в возрасте 45-60 лет. В этом случае запись N445 = 5200
| означает, что в заданном регионе существует 5200 лиц из указанного возрастного диапазо-
ф на, желающих купить «Форд Фокус».
£ Общее число жителей, относящихся к у'-ой категории г-ой классификации, обозначим N¡j.
в г
Для всех априорн^1х классификаций населения справедливо соотношение N = ^ N¡J, г = 1,..., 50
№2(22) 2011
Этот очевидный факт объясняется тем, что каждая номинальная шкала (классификация) задает разбиение (непересекающееся покрытие) населения. Мощность подмножества лиц, об-
« £ §
ладающих &-ым «содержательным» признаком, одновременно относясь к/'-ой категории г'-ой ® классификации, обозначим . Ясно, что общее число жителей, обладающих &-ым призна- ^
ком, для любой априорной классификации (при любом г) равно Nк =2 N
эг Щ
тк ИЦ
V ' 1=1
В ходе случайного опроса было проинтервьюировано п (п < N) респондентов. Пусть в выборку попало п ЛИЦ' относящихся ку'-ой категории г'-ой классификации, причем &-ым
изучаемым признаком обладают из них. Общее число респондентов, имеющих &-ый при-
г
знак, равно пк = .
Введем априорные частоты вида , определяющие доли численностиу'-ой категории г'-ой классификации среди всего изучаемого населения:
г г
в у = Ыр/Ы; V / = 1,..., ^ : ^в у = 1; ГЭе^а] ^ пч = «• (2'2>
3=1 3=1
Введем векторные обозначения:
П = п,п2,...,пщ) е Щ ;в, = (вп,в,2,...,в1Г1) е м;.
Подчеркнем, что компоненты этих векторов известны: значения п^ непосредственно по структуре полученной в ходе опроса случайной выборки, а значения априорных частот б^ — данные Росстата.
Вероятность Рг{«; | п} того, что случайная выборка объема п по г'-ой классификации имеет структуру п, определяется многомерным ГГР вида
'ИГ Л (Nви
Рг{ «> } = куг, ( п1\в1, И; п) = I П
\п) *=т I п
(2.3)
Например, пусть г — классификация населения региона по национальностям, тогда: ва —доля русских среди населения, в12 —украинцев, ..., в>г —армян. Вероятность того, что в случайную выборку объема п попадет пя русских, п12 украинцев, ..., п1г армян, описывается распределением (2.3). Введем в рассмотрение частоты встречаемости &-го «содержательного» признака среди представителейу'-ой категории г'-ой классификации ук: укц = Щ ¡Ид. Частота встречаемости &-го признака по населению в целом определяется
в виде гк = N /И. С помощью категорий априорной классификации населения эта частота выражается в виде
г г
V г ей V* =12 <1 . (2.4)
И м у 1
Введем вектор вида: пк = (п^,пк2,...,пкг) е М* . Вероятность Рг { пк | п1 } того события, что в случайной выборке объема п со структурой по г'-ой классификации вида п1 к-ый признак будет зафиксирован в виде вектора пк , определится как:
\
51
№2(22) 2011
Рг{ пк | ц } = П ку (пк | N6^, N6,; п,) = Нпг, (пк | 0,, V?; N п) =
}=1
-П (?,
]=1 \ пч ]
^^ N0,(1-1$
л
Nв * К п
\ ч /
V п - п ,
; п, п е N. .
(2.5)
>8
I
та о о
5 §
\о о
X £
л
ч
та $
э о о X X
Л
о о
^Е
3
а
та §
х
л
I?
о а о
\о
! §
£
0 ш
1 5
О
Распределение кпг{ ( пк | 0;, ук; N, п1), которое назовем условным распределением структурированной выборки 1-го рода, определяет распределение лиц с к-ым изучаемым признаком в выборке по категориям г'-ой классификации при некоторой заданной структуре выборки (по этой классификации).
Далее, используя (2.3) и (2.5), вероятность того, что в случайной выборке объема п окажется: а) по г'-ой классификации структура п1, и б) &-ый признак будет зафиксирован в виде вектора пк, определяется как:
Рг { пк, п | п } = Рг{ пк | п }Рг{ п, | п } =
= йуг; ( пк, п{\ук, 0;; N; п) =
N ^
П
\пI ¡=1
N0, а-И, ^ п - п ,
(2.6)
Распределение вида (2.6) назовем многомерным структурированным гипергеометриче-скимраспределением (МСГГР). Очевидно, что одномерное СГГР определится в виде
Пу( пк,п | N, гк, 0..; п) = ку( пк \ N6^, N0,; п,) ку( N0,,N; п) =
N
\п I
N (1-0,)
п — п..
ч /
N о, Ук
\ Ч /
N б, (1-^)
V п - п ,
(2.7)
Теперь определим необходимое для построения статистических процедур условное распределение структурированной выборки 2-города:
Рг{ п | }= Рг {п'Л1п } —
Рг{ пЦп }
■ = Щ (п1\ук,0;,N;пк) =
N(1-/ )1
п — п
п
]=1
(щ-ел'
п — п.,.
ч /
к\\
N6 , (1-<)
V п - п ,
(2.8)
Распределение Йг; (п | ук,0;,N; пк) определяет вероятность конкретной структуры выборки (по данной классификации) при заданной структуре выборки по к-ому изучаемому признаку. Одномерный вариант этого условного распределения имеет вид:
Й( п 1гк,0,, N пк) = ку[ щ - пк N(1-0^),N0, (1 - ук); п - пк ] =
т-е, )
к
кл Г1 /
\
п — п.,.
ч /
N(1-0,)
V п - п„ ,
N в, С1-^^
V п - п ,
(2.9)
52
/
I №
2(22) 2011
3. Квотные методы выборочных обследований
Для прояснения сути вопроса рассмотрим сначала однородные данные, подчиненные одномерному ГГР (2.1). Зная вид распределения, несложно вычислить значения границ до- ^ верительных интервалов для «прямых оценок» частот встречаемости дихотомических при- ^ знаков
V = т/п (3-1)
при заданном уровне доверительной вероятности. Но этот процесс достаточно трудоемок. Поэтому, с удовлетворительной точностью ограничимся значениями оценок погрешностей «сверху» для оценок частот (3.1). Используя выражение для дисперсии ГГР (Справочник по теории вероятностей..., 1978, п. 6.1.6), имеем
1-пШ
Бш = пг(1 — г) 1—= пг(1 — г). (3-2)
Как правило, при массовых маркетинговых и социологических опросах п с N. Это позволяет, используя правило «трех сигм», представить (на уровне доверительной вероятности не менее 0.99) гарантированную оценку погрешности частоты встречаемости V в виде
д = Зл/Ор = Зд/V(1-у)/п . (3.3)
2л/ п
В формуле (3.3) учтено, что максимум дисперсии ОV достигается при значении V = 0.5. Используя это соотношение, вычисляются значения гарантированных погрешностей для «прямых» оценок частот встречаемости дихотомического признака, подчиненного ГГР, в зависимости от п.
Интересны и «обратные» оценки: каковы должны быть объемы выборки для заданных уровней гарантированной погрешности? Из неравенства (3.3) получаем приближение:
п = 9/ (4б2). (3.4)
Соответствующие данные приведены в табл. 1.
Таблица 1. Необходимые объемы выборки для заданных уровней гарантированной погрешности «прямых» оценок частот встречаемости дихотомических признаков
5 0.005 0.01 0.02 0.03 0.04 0.05 0.10 0.15
п 90000 22500 5600 2500 1400 600 225 100
Заметим, что для (традиционных в социологии и маркетинге) объемов выборки порядка 1.5-2 тыс. респондентов гарантированная погрешность частоты примерно равна 3.5%, как обычно и указывается в публикациях. Но для точности оценок в 2% нужно уже порядка 5.5 тыс. наблюдений, а гарантия погрешности в 1% потребует опроса 22.5 тыс. респондентов.
№2(22) 2011
Важно и то, что если нужно сделать статистические выводы по некоторой немногочисленной категории населения, то численность этой категории в репрезентативной выборке должна составлять (при разумном пороге точности в 5%) не менее 600 (!) человек. Это значит, например, что для категории, которая составляет 5% населения (скажем, «военнослужащие в Пермском крае» или «таджики в Хакасии») потребуется квотная выборка (подробнее см. далее) порядка 12 тыс. человек. Практически методом квотного опроса это нереализуемо. В данном примере потребуется объем квотной выборки п = 12/0.05 = 240 тыс. человек. Следовательно, для анализа структуры общественного мнения нужны отдельные исследования для каждой такой категории населения. Это существенный вывод: для оценки частот встречаемости качественных признаков по категориям населения не смогут помочь самые совершенные стандартные пакеты программ.
Хотя использование квотных методик в исследованиях общественного мнения и предпочтений потребителей сегодня носят тотальный характер, не было найдено ни одной публикации, в которой формально обосновывалась бы корректность применения статистических методов на квотных выборках (за исключением статьи (Черепанов, 2007в)). Но по своему | построению квотные выборки в строгом понимании не являются случайными. Следова-| тельно, правомерность их применения и корректность полученных на них статистических ¡? выводов требует обоснования.
^ Рассмотрим суть квотного отбора. Пусть, как и ранее, население имеет априорные клас-х сификации по 5 номинальным шкалам, причему-ая шкала имеет г. категорий. Тогда гене-
5 ^
| ральная совокупность разбивается на г = ^ г] непересекающихся подмножеств («квот»)
8 1=1
8 численностью (/ = 1,..., г). Частота встречаемости лиц /-ой «квотной группы» из гене-
■5 ральной совокупности, обозначаемая (1 = 1,..., г), вычисляется как о
| П, =П ■ ^
§ *=1
| Пример. Пусть построение квотной выборки производится по трем шкалам наименова-
а ний: «пол», «уровень образования», «возраст». Первая шкала имеет два значения ( г1 = 2). Вто-
^ рая шкала (к = 2) имеет три значения (г2 = 3): «неполное среднее», «среднее» и «высшее»
* образование. Третья шкала ( к = 3) имеет четыре значения ( г3 = 4): «молодежь» (до 30 лет),
| «лица среднего возраста» (31-45 лет), «зрелые люди» (46-60 лет) и «пожилые» (старше
ч 60 лет). Тогда г = 2-3-4 = 24 . Заметим, что если добавить четвертую классификацию, например, «условия проживания» с пятью категориями («мегаполис» (более 1 млн жителей),
| «город» (100 тыс.-1 млн жителей), «городок» (до 100 тыс. жителей), «поселок» городского
2 типа, «сельская местность»), то число «квотных групп» возрастет до г = 5-24 = 120. Фор-
^ мирование такой квотной выборки на практике становится крайне трудоемким занятием. § Если же добавить пятую классификацию, скажем, «национальность», например, с 15
| значениями («русск.», «укр.»,..., «калмык», «проч.»), то число «квот» возрастет до
ф г = 15-120 = 1800. И формирование такого квотного выборочного ансамбля становится уже просто нереальным. В этой связи, по крайней мере в России, при квотных обследованиях
| обычно ограничиваются тремя-четырьмя классификациями (как правило, пол, возраст, образование, иногда — регион проживания или условия проживания).
5
2(22) 2011
При квотном отборе псевдослучайная выборка объема п формируется (соответственно числу квот) путем г стохастически независимых случайных отборов (по каждой из квот) объемами щ1. Далее, пусть среди N¡ лиц, входящих в /-ую квотную группу, ровно М, = Ы1V, лиц обладают изучаемым дихотомическим признаком. Общее число лиц генеральной сово-
г
купности, обладающих этим дихотомическим признаком, равно М = N у1 . Ясно, что
г /=1
общая «частота встречаемости» этого признака равна V = М]Ы = уг В прикладных задачах, как правило, значения ^ (/ = 1,..., г) известны, а значения V, (/ = 1,..., г) и V неизвестны.
Несложно понять, что вероятность получить вектор наблюдений т = {тх,т2,...,тг,} из лиц, обладающих изучаемым булевым признаком и входящих в соответствующую «квотную группу», равна
ж{т | п) = ^ ку{т] | .V ., Nц .; щ .); т Е М* _
(3.6)
]=1
}=1
0 £
г
1
Щ
ии
Назовем (3.6) структурированным распределением квотного отбора (СРКО). Отсюда
г
ясно, что вероятность совокупного обнаружения т = ^ т. наблюдений, обладающих изу-
чаемым признаком, при квотном отборе определяется выражением, которое назовемрас-пределением квотного отбора (РКО)
п(т | п) =
II [^
2 ( NПг V г
тг=0\ тг
N Пг (1-^г )
V ЩГ ~тг )
—гц.
^ Пг-1 ^г-1
т
т—2 тг
^ (1-У 2
2 Д п^2 ~т2 /
т2=0
т
N ц1у1
тг\ '"г-1 / \/ ЛТ^л П .. \ \
NГ)г-1 (1-^г_1 У
\ пПг-1 ~тг-1 )
\ ¡=з /\
N П1 (1-^1)
г
щ1 —т+^т;
г=3 /
(3.7)
-1
По-видимому, путем комбинаторных преобразований РКО можно придать вид, более обозримый, чем (3.7). Но в силу произвольности значений частот Vj (у = 1,..., г) очевидно, что нельзя привести (3.7) к ГГР, определяющему случайный отбор
Ьу(т | Nv, N; п) =
N-1
\" /
\ т I
п — т
(3.8)
Следует ли отсюда, что квотный опрос со стохастической точки зрения некорректен для оценки частоты встречаемости заданного признака в исследуемой генеральной совокупности? Нет, не следует. В статье (Черепанов, 2007в) показано, что математическое
г
ожидание случайной переменной т = ^ тк, подчиненной РКО, равно пг, а ее дисперсия
к=1
№2(22) 2011
асимптотически (по п) стремится к нулю. Следовательно, квотная выборочная частота появления изучаемого дихотомического признака является несмещенной и состоятельной оценкой истинной частоты встречаемости этого дихотомического признака.
4. Погрешности квотного метода в социальных работах
Введем величину
V, = т, / п, I = 1,..., г . (4.1)
Ее дисперсия, учитывая, что отбор по каждой квоте подчинен соответствующему гипергеометрическому распределению, приближенно равна
Оу, Ш*.
— / — \ 1-^
п
\ Ъ I
(4.2)
о С учетом очевидной стохастической независимости значений т1 (I = 1,...,г), дисперсию
а
г
= 2^ (4-3)
- , -------------„---------------------------------------------------------..'11
о ^ " '
5 квотной оценки «суммарной» частоты вида §
\о о X
£ /=1
л
4
та $
э о о ¡5 X
п -
5
можно приближенно представить как
1г
Цу = -(1-*,/П,)• (4.4)
ф Заметив, что максимум дисперсии (4.4) достигается приусловиях у1 = ц1 / 2 (/ = 1,...,г),
¡^ по правилу «трех сигм» запишем: §
х
л
I?
о а.
0
\о 2
* Сравнивая (4.5) с (3.3), видим, что гарантированная погрешность квотного оценивания | частоты встречаемости дихотомического признака имеет тот же порядок, что и погрешно-
4 сти оценивания частот при прямом случайном опросе из неструктурированной генеральной совокупности.
§
1
та
2
5 5. Статистические оценки частот встречаемости булевых признаков
ф §
| На основе обобщений ГГР, описанных в п. 2, возможны различные виды состоятельных
® оценок частот встречаемости дихотомических признаков как по населению в целом, так
¡5 и по его социально-демографическим категориям (Черепанов, 2006, 2007а, 2008). Ниже при-
| веден простой метод, позволяющий получить достаточно точные оценки частот. Используя условное распределение случайной выборки 1-го рода (2.5) вида
56 у =
I №
2(22) 2011
о £
г
}=1 §■
Ипг, ( и* | б,, $; N п) = П Иу (и,* | N6^, N0,; п,),
Щ
«грубую» оценку частоты встречаемости &-го булевого признака среди лицу'-ой категории чц г'-ой классификации запишем в виде
% = й / нг (5.1)
Несложно показать, что (5.1) является состоятельной и несмещенной оценкой частоты . Но на практике значения п^ и пк оказываются, зачастую, малы, что обуславливает большие погрешности оценок (4.1). Поэтому эти оценки используются только как вспомогательные. Определим оценку вида
г
*к) = * У' (5-2)
]=1
рассмотрев условное распределение (2.5) структурированной выборки 1-го рода Ипг {пк | в1, V*; N, п ) . Дисперсия случайной величины пк приближенно равна
Щ «(1-^)(1-п^/^), N» 1. (5.3)
Следовательно, дисперсия оценки выражается в виде
Щ (1-**)(п-1 -N71). (5.4)
Поскольку ковариации случайных величин п^ и пка (I ^ у) для распределения структурированной выборки 1-го рода равны нулю, то дисперсия оценки (5.2) выглядит как
О V « г (5-5)
У V ]=1
(
Тривиально показать состоятельность и несмещенность оценок Vа).
Каждую из 5 оценок вида (5.2) можно рассматривать как некоторое неравноточное измерение искомой частоты встречаемости &-го признака, погрешность которого определена дисперсией вида (5.5). Уместно отметить, что идея получения итоговой оценки частоты встречаемости изучаемого признака в виде линейной суперпозиции ее неравноточных измерений (Свешников, 1972) соответствует естественнонаучной традиции обработки результатов экспериментов (Мудров, Кушко, 1976).
Будем рассматривать «частные» оценки частоты V) как неравноточные измерения истинного значения частоты ук . Итоговую оценку частоты ук представим в виде
(
V
= 2«, ^ (') ■ (5-6)
1=1
Ее дисперсия имеет вид Оv = ^а{ Оv(,■) о. {ауС у, где С( = Соу(V(,), V(у)). Но в ста-
1=1 1=1 у=1
тье (Азаров, Черепанов, 2004), основываясь на вычислениях ковариаций по методу из рабо-
№2(22) 2011
ты (Вучков и др., 1987), показано, что значения С^ , как правило, на порядок меньше, чем значения ОV^). Содержательно это ясно: измерения частоты встречаемости качественного признака с помощью практически не связанных между собой номинальных шкал должны слабо коррелировать. В этой связи величины V« в первом приближении можно считать статически независимыми. ®
Для несмещенности оценки (5.6), необходимо ограничение на вектор а вида = 1.
г=1
С учетом этого требования, значения компонент вектора а можно определить из критерия
D vk
■ min.
(5.7)
Решение этой задачи, в предположении стохастической независимости «неравноточных измерений» у), находится в виде оценки
>s
S I
та о о
5 §
\о о
X £
л
4 та s э о
U
5 X л о о
Se S Sí
о.
та §
X
л ?
о о. о
VO л
0 X л
1 I
! щ
S
щ
s
U
щ
I S
О
V (j)
j=i D v
(j) у
2( D v U )Г \j=i
дисперсия которой равна
D vk =
2 (Dv¿))"
(5.8)
(5.9)
Являясь средним гармоническим дисперсий вспомогательных оценок, дисперсия оценки (5.9) заведомо меньше минимального значения этих дисперсий. Заметим, что все соотношения этого пункта применимы и к результатам квотного опроса, поскольку он представляет собой частный случай изложенного при значениях ntj = пО^ .
Пример: прогноз итогов голосований на Съезде народных депутатов
Приведем пример из практики автора. В 1992 году администрацией Президента РФ было решено пригласить на очередной VII Съезд народных депутатов России, как это практикуется в Конгрессе США, семь коллективов социологов, шесть из которых являлись наиболее известными социологическими центрами РФ. Седьмой приглашенной организацией был Институт системных исследований и социологии (ИСИС) — частная структура, директором которой тогда был автор.
На Съезде остро встал вопрос, который был крайне актуален для администрации Президента РФ: имеет ли шансы Е. Т. Гайдар, еще возглавлявший правительство России, сохранить свой пост. Кураторы социологических работ на Съезде А. Н. Лифшиц (впоследствии ставший министром финансов РФ) и П. Г. Яковлев (ныне профессор Московского городского университета управления) задали этот вопрос социологам. Шесть команд, занимавшихся описанием позиций депутатов, не смогли дать вразумительный ответ о шансах Е. Т. Гайдара.
ИСИС через час после поступления вопроса дал ответ: «за» сохранение поста Е. Т. Гайдаром будут 470 депутатов плюс-минус 6 голосов. Это означало, что действующий премьер ни в коем случае не сможет получить поддержку большинства депутатов (которая составляла 521 голос). Через сутки процедура тайного голосования дала результат: за сохранение поста премьер-министра Е. Т. Гайдаром было отдано 467голосов народных депутатов РФ.
k
№2(22) 2011
Подход состоял в следующем. Все команды социологов получили распечатки поимен- § ных голосований депутатов на предыдущих съездах. Нашими коллегами эти распечатки § использовались для сопоставительного анализа позиций депутатского корпуса. А команда ИСИС отобрала 125 голосований по важнейшим вопросам и использовала их в каче- ^ стве номинальных шкал (априорных классификаций) со значениями: «за», «отсутство- ^ вал» и «прочее» (позиции «против» и «воздержался» были равнозначны с точки зрения итогов голосования). В результате каждый депутат обрел «опросный паспорт» из 125 номинальных шкал, который использовался при решении задачи прогнозирования итогов голосований.
Первым вопросом, который задавался каждому из опрашиваемых депутатов (для его идентификации в базе данных), был: «Пожалуйста, представьтесь». Ответив, респондент автоматически «заполнял» «социологический паспорт», априорные частоты которого были известны из распечатки результатов предыдущих голосований. Таким образом, опросив всего лишь около 40 депутатов (каждый из которых имел «социологический паспорт» со 125 классификациями), удалось дать столь точный результат.
Парадокс состоит в том, что при использовании квотных технологий наличие многих априорных классификаций — непреодолимая трудность, а для изложенной методики — это благо. Это обусловлено тем, что дисперсия итоговой оценки (5.9) имеет вид среднего гармонического дисперсий частных (неравноточных) измерений. Откуда следует: чем большее число вспомогательных номинальных шкал используется, тем меньше погрешность итогового результата (если, конечно, есть априорная статистика по этим классификациям).
Практика показала, что изложенный метод в реальных исследованиях (1991-2009 гг.) политологического, социологического и маркетингового характера обычно обеспечивает, при объемах случайного выборочного ансамбля 1500-2000 наблюдений, погрешности оце-
Изложенное выше стохастическое описание структурированной выборки позволяет решить одну из важных задач, которая практически неразрешима в рамках традиционных для маркетинга и социологии «квотных» методов эмпирических исследований. Эта задача — оценка частот встречаемости булевых признаков по социально-демографическим категориям населения.
На практике автором применялись различные методы для оценки частот встречаемости дихотомических признаков по категориям населения (Черепанов, 2006, 2007а, 2008). Ниже изложен один из наиболее простых методов оценивания этих частот, который, тем не менее, дает достаточно точные результаты.
Математическое ожидание условного распределения структурированной выборки 2-го рода (2.8) имеет вид
ноку порядка0.005-0.015.
6. Выборочные оценки частот встречаемости по социально-демографическим категориям населения
М[п. - П ] =
б, (1-у* )(п - П ) 1-/
(6.1)
№2(22) 2011
Это выражение позволяет записать оценку частоты встречаемости к-то признака поу-ой категории г'-ой классификации в виде
^ --1-Г ■ (6-2)
в у п - п
У
Состоятельность оценки (6.2) доказывается элементарно. Дисперсия VI] приближенно имеет вид
п~к (Пу -пУ)(1-V )2
О V у = ' '
у ~ п2 /-„ ,„к\2
61 (п - пк )2
„к \
1_ п у - пу
п - пк
(6.3)
Таким образом, в данной работе обоснован метод оценивания значений частот встречаемости булевых признаков по априорным классификациям (данные по которым есть в Росста-те). Погрешности этих оценок сильно зависят от численности конкретной категории населения (точнее, ее доли в структуре населения). Но для объемов выборки п порядка 1.5-2.0 тыс.
1 Г^к
■с человек типичные значения погрешностей Зу Буу составляют около 0.03-0.06.
7. Заключение
о о
5 §
\о о X
5 С момента возникновения массовых выборочных обследований до наших дней во всем
мире тотально используются квотные методы получения и обработки данных. В статье показано, что использование квотной методологии с формальных вероятностно-статистических позиций корректно. Но при этом использование квотных выборочных процедур сопряжено:
о зано, что использование квотной методологии с формальных вероятностно-статистических Й
»с невысокой точностью получаемых результатов для населения в целом;
0
• с невозможностью получить оценки частот встречаемости качественных признаков
| по социально-демографическим категориям;
¡^ »с высокой трудоемкостью формирования выборочного ансамбля, низкой оперативно* стью и высокой стоимостью получения данных.
| Существует альтернатива квотной методологии выборочных исследований: работа со слу-
а чайными выборками, при которой репрезентативность результатов обеспечивается на эта-
^ пе математически корректной и достаточно нетривиальной машинной обработки данных
* обследований.
| При использовании изложенных методов работы со случайными выборками точность
ч оценок (по сравнению с «квотными» методами) значительно возрастает, стоимость опросов резко падает и оперативность исследований существенно повышается. А возможность
| анализа общественного мнения в «разрезах» по категориям населения радикально повыша-
2 ет информативность экспертного анализа социальных и экономических проблем.
1
ф §
| Список литературы
о ф
£ Азаров С. В., Черепанов Е. В. (2004). Регрессионные методы статистического оценивания в соци-
| альных исследованиях. В кн.: Математические методы и компьютерные технологии в маркетинговых и социальных исследованиях. М.: Академия менеджмента инноваций, 2004, 56-72.
о
№2(22) 2011
Азаров С. В., Пашин Ю. А., Черепанов Е. В. (2005). Современные компьютерные технологии в со- щ
циальныхисследованиях. БезопасностьЕвразии, 1,264-281. |
с
Айвазян С. А., Мхитарян В. С. (2001). Прикладная статистика и основы эконометрики. В 2-х §
ф
томах. М.: Юнити. ^
щ
Бернулли Я. (1986). О законе больших чисел. Пер. с лат. Юбилейное издание с предисловиями ^ А. А. Маркова и А. Н. Колмогорова. М.: Наука.
Вучков И., Бояджиева А., Солаков Е. (1987). Прикладной линейный регрессионный анализ. М.: Финансы и статистика.
Кокрен У. (1976). Методы выборочных исследований. М.: Статистика.
Колочков Ю. М., Савелов В. И., Черепанов Е. В. (1990). Статистики бинарного отношения на множествах. В кн.: Проблемы перспективного планирования и управления. М.: изд. Госплана СССР, 88-98.
Косолапов М. С. (1997). Принципы построения многоступенчатой вероятностной выборки для субъектов Российской Федерации. Социологические исследования, 10, 98-109.
Миттаг Х.-И., Ринне X. (1995). Статистические методы обеспечения качества. М.: Машиностроение.
Мудров В. И., Кушко В. Л. (1976). Методы обработки измерений. М.: Советское радио.
Мхитарян В. С., Черепанов Е. В. (2006). Проблемы прикладной социологии в их привязке к социально-экономическим исследованиям. В кн.: Информатика, социология, экономика, менеджмент. Вып. 3,ч.2.М.: Академия менеджмента инноваций, 23-33.
Орлов А. И. (2006). Прикладная статистика. М.: Экзамен.
Свешников А. А. (1972). Основы теории ошибок. Л.: ЛГУ
Справочник по теории вероятностей и математической статистике. (1978). Под ред. В. С. Ко-ролюка. Киев: Наукова думка.
Толстова Ю. Н. (2000). Анализ социологических данных. М.: Научный мир.
Черепанов Е. В. (2006). Вероятностно-статистические основы прикладной социологии и маркетинговых исследований. М.: Академия менеджмента инноваций.
Черепанов Е. В. (2007а). Статистическая методология для задач социологических и социально-экономических исследований. М.: Академия менеджмента инноваций.
Черепанов Е. В. (20076). К вопросу корректности использования стохастического формализма в социологических и социально-экономических исследованиях. Безопасность Евразии, 2 (28), 386-402.
Черепанов Е. В. (2007в). Негосударственное пенсионное страхование: состояние и перспективы (по результатам ряда социологических исследований 2006 года). Социальная политика и социология, 2 (34), 87-98.
Черепанов Е. В. (2007г). Социологический анализ структуры пользователей страховых услуг (на примере региональных исследований 2006 года по страхованию жизни и страхованию от несчастных случаев). Социальная политика и социология, 4 (36), 78-89.
Черепанов Е. В. (2007д). Стохастическое описание выборочного метода. Социология: методология, методы, математическоемоделирование, 25, 167-189.
Черепанов Е. В. (2008). Стохастические методы прикладной социологии и маркетинга рынков. М.: Академия менеджмента инноваций.
Янке Е., Эмде Ф., Леш Ф. (1977). Специальные функции. М.: Наука.