Научная статья на тему 'О проверке фактической репрезентативности социальной выборки'

О проверке фактической репрезентативности социальной выборки Текст научной статьи по специальности «Экономика и бизнес»

CC BY
288
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник НГУЭУ
ВАК
Область наук
Ключевые слова
ПРЕДСТАВИТЕЛЬНОСТЬ / ПАРАМЕТР / СТАТИСТИКА / ВЫБОРКА / ИНФОРМАТИВНОСТЬ / ДЕНДРИТ / ЗНАЧИМЫЕ СВЯЗИ / REPRESENTATIVITY / PARAMETER / STATISTICS / SAMPLING / INFORMATIVENESS / DENDRITE / SIGNIFICANT RELATIONS

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Глинский В. В., Гусев Ю. В., Овечкина Н. И., Шмарихина Е. С.

В статье рассматриваются вопросы, связанные с проверкой представительности результатов выборочных социологических, демографических обследований; особенностью генеральных совокупностей в таких исследованиях (население в целом, его отдельные типы, классы) является то обстоятельство, что в большинстве случаев априори неизвестны значения параметров этих множеств, что затрудняет применение традиционных подходов к оценке репрезентативности полученных выборок, основанных на ЦПТ (центральной предельной теореме); в работе сформулированы и апробированы на реальных информационных массивах дополнительные условия (проверка фактической информативности типообразующих признаков), позволившие снизить риски смещения результатов социальных выборок.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On checking of the real representativeness of social sampling

The article considers the issues relating to checking of representativity of results of sampling sociological, demographic observations. The entire assembly feature in such researches (general population, its individual types, classes) is that in most cases parameters values of these multitudes are a priori unknown which makes it difficult to apply traditional approaches to the appraisal of representativeness of result samplings based on CLT (central limit theorem). The paper formulates and evaluates on real information arrays additional conditions (checking of real informativeness of the type-forming attributes), allowing to decrease risks of human bias.

Текст научной работы на тему «О проверке фактической репрезентативности социальной выборки»

статистика и экономическое измерение

УДК 311.21

о проверке фактической репрезентативности социальной выборки

В.В. Глинский, Ю.В. Гусев, н.и. Овечкина, Е.С. Шмарихина

Новосибирский государственный университет экономики и управления «НИНХ» E-mail: [email protected]

В статье рассматриваются вопросы, связанные с проверкой представительности результатов выборочных социологических, демографических обследований; особенностью генеральных совокупностей в таких исследованиях (население в целом, его отдельные типы, классы) является то обстоятельство, что в большинстве случаев априори неизвестны значения параметров этих множеств, что затрудняет применение традиционных подходов к оценке репрезентативности полученных выборок, основанных на ЦПТ (центральной предельной теореме); в работе сформулированы и апробированы на реальных информационных массивах дополнительные условия (проверка фактической информативности типообразующих признаков) , позволившие снизить риски смещения результатов социальных выборок.

Ключевые слова: представительность, параметр, статистика, выборка, информативность, дендрит, значимые связи.

on checking of the real representativeness of social sampling

V.V. Glinskiy, Yu.V. Gusev, N.I. Ovechkina, E.s. shmarikhina

Novosibirsk State University of Economics and Managment E-mail: [email protected]

The article considers the issues relating to checking of representativity of results of sampling sociological, demographic observations. The entire assembly feature in such researches (general population, its individual types, classes) is that in most cases parameters values of these multitudes are a priori unknown which makes it difficult to apply traditional approaches to the appraisal of representativeness of result samplings based on CLT (central limit theorem). The paper formulates and evaluates on real information arrays additional conditions (checking of real informativeness of the type-forming attributes), allowing to decrease risks of human bias.

Key words: representativity, parameter, statistics, sampling, informativeness, dendrite, significant relations.

© Глинский В.В., Гусев Ю.В., Овечкина Н.И., Шмарихина Е.С., 2012

Данные, полученные в результате выборочного обследования различных категорий населения, являются конкретными реализациями случайных величин (пол, возраст, уровень образования, национальность, длительность заболевания и т. п.), следовательно, всегда существует ненулевая вероятность получения непредставительной выборки, и даже в случае полного соблюдения принципов выборочного обследования - случайности, равной возможности для единиц генеральной совокупности попасть в выборочную [3-5, 8]. Обычно под представительностью понимают адекватность структуры выборочной совокупности структуре генеральной совокупности. Идеальную репрезентативность получают в случае полной адекватности обеих структур, что реализовать практически невозможно, поэтому считают представительной выборку (в экономике, социологии, демографии; в технике, медицине и т.п. критерии надежности, как правило, более жесткие), которая обеспечивает отклонения значений основных характеристик (статистик) выборочной совокупности не более чем на 5% относительно параметров генеральной совокупности. Следовательно, в случае, когда имеются данные по генеральной совокупности, фактическую репрезентативность выборки можно проверить сравнением показателей по генеральной и выборочной совокупностям, и если фактическая ошибка не превышает, например, 5%, можно считать, что фактически полученная выборка представительна в заданных ограничениях.

В практических исследованиях, особенно это касается социологических, демографических обследований, чаще встречаются ситуации, когда нет показателей по генеральной совокупности (собственно, выборка обычно и организуется для того, чтобы получить оценки параметров генеральной совокупности). В таких ситуациях рекомендуется организовать две независимые выборки и затем сравнить их параметры. Этот прием в теоретическом аспекте достаточно привлекателен и корректен, однако в прикладном смысле практически не применим. Здесь следует учитывать два существенных обстоятельства: во-первых, даже одно обследование провести достаточно сложно и недешево, а во-вторых, если результаты этих независимых выборок не совпадут, то возникает вопрос, какая из них непредставительна. Учитывая данные соображения, мы предлагаем определить представительность выборки проверкой фактической информативности априорно информативных признаков. Действительно, если для совокупности, например, больных получилось, что длительность и вид болезни не связаны с системой остальных признаков программы наблюдения, значит, реализована плохая выборка и продолжать дальнейший анализ не имеет смысла.

Известны два подхода к определению информативности признака в систе-

п

ме. Так, предлагается оценивать информативность величиной / Гу, где Г^ =

i = 1

= 1(УХ)/Н(Х) - показатель влияния X на Т, Н(Х) = -Тр(Х) ■ Р(Х) - неопределенность (энтропия) случайной величины X; 1(ХУ) = Н(У) - НХ(У) -

снятая неопределенность (информация), где НХ:(У) = -/Р(Х^/Р(Х^}) ■

j i

■ ^2Р(Х^ Yг•) - средняя условная энтропия случайной величины Y при условии Х; Н(Г) = -Хр(^)

■ Р(^) - энтропия случайной величины Y [6, с. 128].

Наиболее информативным будет, следовательно, признак, имеющий тахХГу . Ввиду того, что ГУХ - показатель влияния X на У, ХГу будет давать, с нашей точки зрения, оценку информативности признака У как результата. В сложной системе взаимосвязей признак может одновременно выступать и как фактор, и как результат, поэтому ХГу не в полной мере будет характеризовать его информативность.

В соответствии с другим подходом [7, с. 128-130] информативность признака определяется суммой коэффициентов взаимной информации либо иных показателей связи (коэффициентов парной корреляции - по модулю, коэффициентов взаимной сопряженности и т.п.). Этот подход, с нашей точки зрения, лучше характеризует информативность признаков системы, однако следует указать на недостаток, присущий обоим подходам. Предположим, что в сис-

30

теме из 30 признаков мы получили по одному из них / R (Х1 X) = 10,510, а

30 г =1

по второму - /R(Х2X) = 10,508 (Я - показатель связи). Имеется ли основа-

I = 1

ние называть Х1 более информативным, чем Х2? Наверное, нет. Значения коэффициентов являются конкретными реализациями вероятностного процесса, взаимодействием необходимости и случайности, и в данном случае разница носит, скорее, случайный характер.

С учетом этого обстоятельства определению информативности признака, когда наиболее информативным будет более влиятельный признак, в значительной мере отвечает дискретный показатель. Мы предлагаем два таких показателя: число значимых связей для данного признака в системе и число связей в дендрите, построенном для данной системы признаков. Эти показатели в лучшей мере будут характеризовать связанность признака, его информативность.

Рассчитаем показатели информативности для ситуации проверки репрезентативности выборочной совокупности, сформированной из контингента больных работников одного из заводов г. Новосибирска. Цель исследования -изучение факторов, определяющих уровень гипертонической болезни на данном предприятии. В качестве исходной расчетной базы используем матрицу нормированных коэффициентов сопряженности Пирсона, рассчитанную для выборочной совокупности (табл. 1).

C / X2 ^ _ / min{n — 1; m — 1}

с' = —— с = —---с =

2

Cmax V X2 + n' max V min{n — 1; m — 1} + 1 '

где С - нормированный коэффициент взаимной сопряженности; C - коэффициент сопряженности Пирсона.

Для каждого признака рассчитаем: ii

1) / C ' при i ф j, где Cjj - коэффициент связи между Xi и Xj;

i = 1

2) Ni - число значимых по критерию х2 связей. Результаты расчетов приведены в табл. 2.

Таблица 1

Матрица коэффициентов взаимной сопряженности

Признак У Х1 Х2 Х3 Х4 Х5 Х6 Х7 Х8 Х9 Х10

Y - длительность заболевания 1000 362 462 537 415 406 639 492 427 462 427

Х1 - пол 362 1000 141 385 198 837 769 622 089 308 308

Х2 - возраст 462 141 1000 907 172 109 197 491 495 337 385

Х3 - трудовой стаж 537 385 907 1000 510 387 331 426 553 337 362

Х4 - качество вентиляции 415 198 172 510 1000 198 267 370 141 406 141

Х5 - курение 406 837 109 387 198 1000 822 622 000 337 242

Х6 - употребление алкоголя 639 769 197 331 267 822 1000 471 198 000 000

Х7 - увлечения 492 622 491 426 370 622 471 1000 385 000 308

Х8 - наследственность 427 089 495 553 141 000 198 385 1000 198 362

Х9 - характер труда 462 308 337 337 406 337 000 000 198 1000 308

Х10 - сверхурочные работы 427 308 385 362 141 242 000 308 362 308 1000

П р и м е ч а н и е. Большинство признаков программы атрибутивные, следовательно, адекватной им мерой связи являются коэффициенты сопряженности, теоретико-информационные меры и т. п. Коэффициенты умножены на 1000, подчеркнуты значимые по критерию %2 показатели.

Таблица 2

Оценка информативности признаков программы наблюдения

Признак С' Число значимых связей Число связей в дендрите

Щ ранг N ранг м,• ранг

У - длительность заболевания 4629 2 9 1 4 1,5

Х1 - пол 4019 4 4 7,5 2 4

Х2 - возраст 3696 6 5 4,5 1 8,5

Х3 - трудовой стаж 4735 1 7 3 4 1,5

Х4 - качество вентиляции 2818 10 4 7,5 1 8,5

Х5 - курение 3960 5 5 4,5 2 4

Х6 - употребление алкоголя 3694 7 4 7,5 2 4

Х7 - увлечения 4187 3 8 2 1 8,5

Х8 - наследственность 2848 8 4 7,5 1 8,5

Х9 - характер труда 2693 11 2 10,5 1 8,5

Х10 - сверхурочные работы 2843 9 2 10,5 1 8,5

Более наглядным средством оценки информативности является анализ связей в дендрите. Построим дендрит, используя данные табл. 2 и схему дендрита на коэффициентах взаимной сопряженности:

X

10

510

427

X2— 907—X3— 537— У— 639—X — 822—X — 837—X— 622 —X7

553

462

X8

X9

В дендрите отчетливо видны наиболее информативные признаки. Большим числом характеризуются Х3 (трудовой стаж) и Y (длительность заболевания).

Аналогичные расчеты, только по более широкой программе, проведены по проверке представительности выборки, образующей совокупность хронических больных на том же предприятии. Данные представлены в табл. 3 и на рисунке. Информационность измерена для 33 признаков (в табл. 3 приведены 18 наиболее информативных признаков).

Были установлены следующие показатели для определения информативности:

1) / с, г ! ]; 2) / RlJ,

г=1 I=1

г! } I! }

где Яху = I(XY)/H(XY) - коэффициент взаимной информации, предложенный

К. Райским;

3) N1 - число значимых по критерию х2 связей.

Таблица 3

Оценка информативности признаков программы наблюдения

№ Признак ГYX Кху Число значимых связей

ранг 2 Кху ранг N ранг

1 Х2 - пол 0,853 18 7,84 17 15 10

2 Х3 - возраст 1,797 6 11,762 5 21 6

3 Х5 - профессия 1,350 16 10,237 7 22 5

4 Х61 - стаж трудовой общий 1,857 3 11,531 6 25 4

5 Х62 - стаж работы на заводе 1,572 15 10,110 8 18 8

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6 Х7 - производственные вредности 2,026 1 12,803 3 26 3

7 Х8 - стаж работы с производственными вредностями 1,889 2 12,168 4 21 6

8 Х10 - запыленность 1,655 12 8,260 14 19 7

9 Х12 - загазованность 1,784 7 7,768 12 21 6

10 Х18 - температура воздуха 1,685 9 8,906 11 21 6

11 Х19 - производственный шум 1,630 14 8,152 15 17 9

12 Х24 - число детей 1,841 5 9,695 9 15 10

13 Х25 - среднедушевой доход 1,845 4 9,615 10 17 9

14 Х31 - курение 1,753 8 7,864 16 18 8

15 Х32 - употребление алкоголя 1,636 13 6,806 18 15 10

16 Х50 - характер труда 0,909 17 8,750 13 17 9

17 Х51 - длительность заболевания 1,675 11 13,416 1 27 2

18 Х47 - вид заболевания 1,682 10 13,038 2 28 1

Дендрит на коэффициентах взаимной информации К. Райского Х10 - запыленность; Х12 - загазованность; Х13 - характер работы (основная поза); Х14 - сквозняки; Х15 - вибрация; Х16 - температура воздуха; Х18 - освещенность; Х19 - производственный шум; Х2 - пол; Х22 - доставка на работу транспортом (пешком); Х24 - число детей; Х25 - среднедушевой доход; Х27 - качество питания; Х3 - возраст; Х31 - курение; Х32 - употребление алкоголя; Х37 - увлечения; Х38 - занятия спортом; Х4 - житель коренной (или приезжий); Х41 - место проживания; Х42 - бытовой шум; Х46 - сопутствующие заболевания; Х47 - вид болезни; Х49 - сверхурочные работы; Х5 - категория профессии; Х50 - характер труда; Х51 - длительность заболевания; Х61 - общий стаж работы; Х62 - стаж работы на заводе; Х7 - производственная вредность;

Х8 - стаж работы с производственными вредностями

Как показывают данные табл. 3, признаки заболеваемости и в этом случае входят в число наиболее информативных, причем по RXУ и числу значимых связей они показывают наибольшую «связность». В дендрите (см. рисунок) отчетливо видны наиболее информативные признаки. Большим числом связей характеризуются признаки Х47 - вид заболевания (связан с 8 признаками - Х4, Х16, Х18, Х2, Х48, Х51, Х41, Х3); Х51 - длительность заболевания (7 связей); Х2 -пол (5 связей); Х7 - работа с производственными вредностями (4 связи); Х3 -возраст (3 связи).

Полученные результаты и представленные ранее несколько различаются, но они согласуются в главном: показатели заболеваемости (длительность и вид болезни) являются одними из наиболее информативных признаков программы наблюдения. Следовательно, гипотеза о репрезентативности фактически полученной выборки не может быть отвергнута, а информация, полученная в ходе обследования, может быть применена в дальнейшем анализе.

Таким образом, прежде чем приступать к применению результатов выборочного обследования, необходимо провести проверку репрезентативности выборки. Очевидно, что даже корректно организованное выборочное наблюдение с ненулевой вероятностью может привести к смещенным результатам - в силу действия ЦПТ, также очевидно, что достаточных условий избежать случайной ошибки выборки нет (если не рассматривать ситуацию, когда численность выборки равна численности генеральной совокупности), однако обеспечить выполнение корректных дополнительных необходимых условий вполне возможно, причем это позволит снизить риски принятия последующих решений. При отсутствии известных параметров генеральной совокупности проверка может быть выполнена с использованием оценки информативности априорно-информативных признаков. При этом связность признаков (например, длительность и вид заболевания, как в рассмотренном нами примере) является необходимым условием представительности выборочной совокупности.

литература

1. Аптон Г. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. 160 с.

2. Глинский В.В., Ионин В.Г. Статистический анализ. М.: ИНФРА-М, 2002. 241 с.

3. Глинский В.В., СергаЛ.К. Нестабильные совокупности: концептуальные основы методологии статистического исследования // Вестник НГУЭУ. 2009. № 2. С. 137-142.

4. Глинский В.В. Как измерить малый бизнес // Вопросы статистики. 2008. № 7 С. 73-75.

5. Глинский В.В. Мифическая статистика малого бизнеса. Проблемы статистического изучения турбулентных совокупностей // ЭКО (Экономика и организация промышленного производства). 2008. № 9. С. 51-62.

6. Елисеева И.И., Рукавишников О.В. Группировка, корреляция, распознавание образов. М.: Статистика, 1977. 144 с.

7 Славко Т.Л. Математико-статистические методы в исторических исследованиях. М.: Наука, 1981. 158 с.

8. Шмарихина Е.С. Комплексный подход к оценке качества выборочного обследования // Вестник НГУЭУ. 2011. № 1. С. 129-137

Bibliography

1. Apton G. Analiz tablic soprjazhennosti. M.: Finansy i statistika, 1982. 160 p.

2. Glinskij VV., Ionin V.G. Statisticheskij analiz. M.: INFRA-M, 2002. 241 p.

3. Glinskij VV., Serga L.K. Nestabil'nye sovokupnosti: konceptual'nye osnovy metodologii statisticheskogo issledovanija // Vestnik NGUJeU. 2009. № 2. IP 137-142.

4. Glinskij VV. Kak izmerit' malyj biznes // Voprosy statistiki. 2008. № 7 II 73-75.

5. Glinskij VV. Mificheskaja statistika malogo biznesa. Problemy statisticheskogo izuchenija turbulentnyh sovokupnostej // JeKO (jekonomika i organizacija promyshlennogo proiz-vodstva). 2008. № 9. II 51- 62.

6. Eliseeva I.I., Rukavishnikov O.V Gruppirovka, korreljacija, raspoznavanie obrazov. M.: Statistika, 1977. 144 p.

7 Slavko T.L. Matematiko-statisticheskie metody v istoricheskih issledovanijah. M.: Nauka, 1981. 158 p.

8. Shmarihina E.S. Kompleksnyj podhod k ocenke kachestva vyborochnogo obsledovanija // Vestnik NGUJeU. 2011. № 1. II 129-137

i Надоели баннеры? Вы всегда можете отключить рекламу.