Научная статья на тему 'Некоторые подходы к проектированию региональных выборок'

Некоторые подходы к проектированию региональных выборок Текст научной статьи по специальности «Математика»

CC BY
229
55
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Козеренко Екатерина

The paper examines some methods of designing representative territorial samples of Russia's population. The author discusses the problems of unitsselection, preliminary stratification, the methods of selection at each stage, and the identification of the necessary sample size.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Some Approaches to Designing Regional Samples

The paper examines some methods of designing representative territorial samples of Russia's population. The author discusses the problems of unitsselection, preliminary stratification, the methods of selection at each stage, and the identification of the necessary sample size.

Текст научной работы на тему «Некоторые подходы к проектированию региональных выборок»

Екатерина КОЗЕРЕНКО

Некоторые подходы к проектированию

региональных выборок

Особую актуальность в последнее время приобрело получение репрезентативных данных в масштабе субъекта Российской Федерации (СФ). Так, только за 1996 г. ВЦИОМ провел предвыборные опросы в Воронежской, Тамбовской, Калининградской и Тюменской областях, исследование "Здоровье женщин фертильного возраста" в Ивановской, Пермской и Свердловской областях, "Положение шахтеров" в Тульской и Ростовской областях и ряд других исследований в различных СФ. В связи со все нарастающей потребностью в информации на региональном уровне, в настоящей работе рассматриваются методы проектирования выборки для СФ.

В зависимости от целей и задач исследования в качестве изучаемой совокупности может выступать взрослое население СФ (электоральные исследования, исследования общетвенного мнения по различным вопросам и т.п.), какая-либо группа населения (шахтеры, женщины фертильного возраста и т.п.), совокупность домохозяйств изучаемого СФ (потребительские исследования) и т.д. Соответственно, элементом изучаемой совокупности , а стало быть, и источником интересующей исследователя информации будет являться "взрослый житель СФ", "женщины фертильного возраста -жительницы изучаемого СФ", "домохозяйство" и т.п. При исследованиях подобных совокупностей, в настоящее время как в зарубежной, так и в отечественной социологии, наибольшее распространение получили территориальные выборки. Это обусловлено тем, что именно территориальные выборки обеспечивают одновременное изучение всех слоев и групп населения обследуемой социальной или территориальной общности.

В данной работе рассматриваются методы проектирования репрезентативных территориальных выборок населения СФ, где под "населением" понимается постоянно проживающее, взрослое (от 16 лет и старше) население СФ. Общие принципы проектирования выборок не меняются, если исследуемой совокупностью является, в частности, какая-либо социально-демогра-фическая или иная группа населения (например, домохо-зяйки, женщины фертильного возраста, потребители определенного товара и т.п.).

Поскольку элементом изучаемой совокупности при опросах населения СФ является отдельный человек -житель СФ, то идеальным вариантом для исследователя было бы иметь список всех жителей СФ, из которого можно было бы производить случайный отбор. Однако в России такие списки на уровне СФ отсутствуют. Составлять подобные списки самостоятельно, на основе списков адресных бюро или списков избирателей, задача невероятно трудоемкая, требующая очень больших затрат времени и денег. Кроме того, как хорошо известно практическим исследователям, списки адресных бюро и избирательные списки часто бывают очень низкого качества. Они содержат до 30% неверных адресов, не пополняются новыми адресами, содержат неизвестное число повторений и т.д. Как следствие, возникает необходимость в проектировании многоступенчатой выборки, т.е. такой, когда выборка производится в несколько этапов. Первый этап, или первая ступень, состоит в извлечении некоторой выборки "первичных единиц отбора" (ПЕО), второй — в извлечении некоторой выборки единиц отбора (ЕО) из каждой отобранной ПЕО и т.д.

При проектировании многоступенчатых выборок исследователь сразу же сталкивается со следующими проблемами:

• выбор единиц отбора и способа отбора на каждой ступени;

• определение числа ступеней;

• определение объема выборки;

• минимизация затрат на исследование;

• определение стандартной ошибки;

Перечисленные проблемы в большой степени связаны между собой. Результаты выборочных обследований всегда отчасти неопределены. Происходит это потому, что исследуется только часть всей совокупности и измерения производятся с ошибками. Неопределенность можно уменьшить за счет увеличения объема выборки и производя более точные измерения, что обычно приводит к росту затрат времени и средств. Увеличение числа ступеней выборки сокращает затраты на исследование, однако увеличивает стандартную ошибку. Таким образом, исследователь сталкивается с проблемой выбора некоего компромисса между желаемой точностью и стоимостью исследования.

Единицы отбора. Первая задача с которой сталкивается исследователь, выбор и составление полного перечня единиц отбора. Единицы должны вместе покрывать всю совокупность и не должны пересекаться между собой, т.е. каждый элемент совокупности должен принадлежать одной и только одной единице отбора. Должен быть задан строгий алгоритм, по которому каждый элемент может быть отнесен к определенной единице. Для того, чтобы составить такой перечень, все единицы должны иметь четкие границы, а для последующего отбора и оценки дисперсий необходимо знать размер каждой ЕО. Кроме того, чтобы иметь возможность стратифицировать единицы отбора, по каждой из них придется собирать необходимую для стратификации информацию. Для этого удобно воспользоваться данными официальной статистики статистических управлений СФ. Из вышесказанного следует, что единицы отбора должны быть составной частью территориально-административного деления СФ.

Таким образом, при проектировании территориальной выборки населения СФ в качестве единиц отбора на первой ступени можно использовать:

населенные пункты; административные районы; избирательные участки; счетные (переписные) участки; почтовые отделения.

Для определения того, что именно лучше использовать в качестве единицы отбора при проектировании выборки для СФ, рассмотрим стандартную ошибку для многоступенчатой выборки. Пусть мы имеем К-ступенча-тую выборку. При этом исследуемая совокупность состоит из M1единиц первой ступени, каждая из которых содержит единиц второй ступени, которые, в свою очередь, содержат по М единиц третьей ступени и т.д. Пусть также, при реализации выборки на каждой ступени было отобрано соответственно щ,т2,...,тк единиц. Тогда, если на всех ступенях применялся простой случайный отбор, то выборочное среднее есть несмещенная оценка среднего значения для совокупности с дисперсией

ПЪ = )Б2г /(щ пц)+...+

+ (1-Л)3?/(щ-пь-г-щ) (1),

где Sf — дисперсия средних значений единиц отбора 1-й ступени:

/1 = т1 I М1 — частота отбора на \-й ступени,

1 — поправка на конечность совокупности (пкс) на 1 -й ступени.

Несмещенная оценка Ну) по выборке есть »(у) = (1 — А)*? I + /Л1- /2)^2 I (т1-т2)+...

+/г/2 -/з--<1-Л)^( 2 ),

где 5 . - выборочные аналоги соответственно 5, .

Из формулы (1) видно, что каждая лишняя ступень добавляет свою долю в дисперсию, т.е. чем меньше ступеней, тем меньше стандартная ошибка. А это в свою очередь, означает, что при проектировании выборки на уровне СФ выбирать в качестве единицы отбора на первой ступени населенные пункты (НП) или административные районы (АР) нецелесообразно потому, что составление списков адресов, даже и по части населенных пунктов или административных районов, очень трудоемкая, а подчас просто невыполнимая задача. Следовательно выбор населенных пунктов или административных районов неизбежно повлечет за собой дополнительную ступень, на которой в качестве единиц отбора будут выступать более мелкие территориальные единицы, такие как избирательные участки или счетные участки. Тем самым суммарная дисперсия будет увеличиваться. Кроме того, из формулы (1) видно, что, чем меньше единиц отбора на каждой ступени выборки отобрано, тем больше суммарная дисперсия. Иными словами, при оперировании относительно крупными единицами отбора на очередной ступени выборки — такими, как административные районы или населенные пункты, — общее число которых невелико, а размер, "вес", в свою очередь, достаточно велик, высока вероятность получить большую стандартную ошибку. Выбирать административные районы или населенные пункты в качестве ПЕО можно лишь в том случае, когда заранее известно, что дисперсия средних значений изучаемых признаков ПЕО (административных районов или населенных пунктов соответственно) пренеб-режительно мала по сравнению с дисперсией средних значений элементов внутри ПЕО. Исследователь, как правило, такой предварительной информацией не располагает.

В мировой практике в настоящее время наиболее частое применение находит двухступенчатый отбор, при котором на первой ступени выборки отбирается не менее 100—120 ПЕО. Это правило вытекает из формулы (2). Общепринятой нормой для стандартной ошибки является 10% среднего квадратического отклонения (СКО). Учитывая, что пкс в подавляющем большинстве случаев близка к единице и ею можно пренебречь, формула (2) приобретает вид:

у(у) = / т, + /, х22 / (т, т2) (3),

т.е. та часть дисперсии, которая обусловлена наличием первой ступени есть , а следовательно, 10% СКО

достигается при т1>100.

Большинство СФ, за редкими исключениями не содержат в себе такого количества административных районов, а многие СФ — такого числа населенных пунктов, что является еще одним серьезным доводом в пользу использования в качестве ПЕО более мелких единиц, таких, как избирательные участки или счетные участки.

Заметим, что данная особенность (недостаточное количество административных районов и населенных пунктов) принципиально отличает ситуацию в СФ от ситуации в Российской Федерации. Так, например, при проектировании выборок для исследований населения РФ, ВЦИОМ в качестве ПЕО использует городские населенные пункты в городской части РФ и административные районы в сельской части*, Институт социологии РАН (ИС РАН) — административные районы и в городской и в сельской части**. Эго обусловлено тем, что сбор, хранение и обработка полного перечня избирательных участков по РФ слишком трудоемки (всего в РФ около 55000 избирательных участков). С другой стороны, в РФ достаточное число городских населенных пунктов (1087 городов и 2022 поселков городского типа) и административных районов (1543). Таким образом, несмотря на то что при трехступенчатой выборке суммарная дисперсия увеличивается по сравнению с двухступенчатой, реально при проектировании населенческой выборки для РФ используются трехступенчатые проекты.

Двухступенчатая выборка при проектировании насе-ленческой выборки для СФ (это уже посильная задача), с другой стороны как показано выше, все прочие варианты (выбор населенных пунктов или административных районов на первой ступени с последующим отбором на второй ступени более мелких территориальных единиц) не обеспечивают общепринятого уровня станда ртной ошибки - с другой.

Таким образом, в качестве вариантов ПЕО остаются:

• почтовые отделения;

•избирательные участки;

• счетные участки.

Рассмотрим вариант почтовых отделений. Он имеет ряд недостатков. Во-первых, это слишком большая территориальная единица как по численности населения (например, в г. Москве среднее почтовое отделения обслуживает около 20 тыс. человек), так и по охватываемой территории (в сельской местности одно почтовое отделение может охватывать несколько небольших сел (деревень), расположенных на значительном расстоянии друг от друга). Как следствие, возникают трудности при организации полевых работ, приводящие либо к увеличению затрат на проведение исследования либо к необходимости введения третьей ступени и, соответственно, увеличению стандартной ошибки. Во-вторых, полный список почтовых отделений по СФ с точным указанием его границ и численности охватываемого населения труднодостижим.

Таким образом, остаются два варианта: избирательные участки и счетные участки. Преимущества каждого из них будут рассмотрены ниже. ВЦИОМ традиционно использует в качестве ПЕО избирательные участки.

Отметим, что в сельской местности избирательные участки имеют тот же недостаток, что и почтовые отделения. В состав одного избирательного участка могут входить несколько сел (деревень), что вызывает значительные трудности на этапе полевых работ. Поэтому обычно в качестве ПЕО в городской части используются избирательные участки, а в сельской — села (деревни).

* Методы построения выборки для исследования "Мониторинг-94" //Экономические и социальные перемены: Мониторинг общественного мнения. 1994. № 5.

** SwafforcM. Sample of the Russian Federation. Rounds V and VI of the Russian Longitudinal Monitoring Survey: Technical Report in association with the Institute of Sociology of Russian Academy of Science under contract with the University of Carolina and USAID. М., 1996.

На подготовительном этапе исследования необходимо составить полный список избирательных участков СФ. Данный список можно попробовать получить в окружной избирательной комиссии. Если это не удается, то такой список составляется самостоятельно на основе публикаций в местной печати накануне последних выборов. По существующему положению местные газеты в каждом районе СФ обязаны опубликовать перечень всех избирательных участков с указанием границ. Обычно в этих публикациях описание границ выглядит следующим образом: участок 204: ул. Мичурина дома №№ 55а, 57, 114, 116, 116а; ул. Пролетарская №№ 20, 22; ул. Сарыгина №№ 34, 34а.

После того как такой полный список составлен, из него удаляются недостижимые участки, расположенные на территории воинских частей, тюрем, больниц и т.п. Кроме того, могут быть исключены участки недостижимые в силу природных условий. Например, при проектировании выборки населения Ивановской области был исключен из рассмотрения Заволжский район, так как исследование проводилось весной и из-за разлива рек этот район стал недоступен.

Общий объем выборки. Для определения необходимого объема выборки вернемся к формуле (3). Прежде всего, необходимо задаться уровнем ошибки выборочных оценок, с которым мы готовы мириться. Далее, если бы мы знали дисперсии средних значений на первой и второй ступенях, мы могли бы достаточно точно определить общий объем выборки. Такую информацию теоретически можно получить из предыдущих исследований. Однако даже если нам из предыдущего опыта приблизительно известна дисперсия признака в совокупности в целом, то дисперсия средних значений ПЕО бывает известна крайне редко. Кроме того, как правило, в одном исследовании измеряется довольно много различных признаков, так что, даже если указанные дисперсии известны по части из них, этого бывает недостаточно для более или менее точной оценки общего объема выборки. В этих случаях необходимый объем выборки грубо оценивается следующим образом. Рассмотрим случай простой случайной выборки. Пусть, для простоты, изучаемый признак принимает два значения (0 и 1) и исследователя интересует процент (или доля ) элементов р, обладающих некоторым свой-ством ( признак равен 1). Такая классификация вводится в опросный лист путем постановки вопросов, на которые респондент отвечает "да “ или "нет" . Известно, что максимальная дисперсия в этом случае возникает в ситуации, когда совокупность по этому признаку "разваливается" пополам, т.е. половина респондентов на вопрос отвечает "да", а половина — "нет" (р=50%). В исследованиях, в которых одновременно изучается довольно много различных признаков, такая ситуация обязательно встречается. Таким образом, если мы хотим иметь заданный уровень точности для всех исследуемых признаков, то ориентироваться нужно на самый "плохой" вариант. А для простой случайной выборки при заданной доле р доверительные интервалы известны. В табл. 1 приведены значения доверительных интервалов при уровне доверительной вероятности 95% и ситуации максимальной дисперсии признака, принимающего значения 0 и 1 (р=50%) (табл. 1).

Из отечественного и зарубежного опыта проведения социологических опросов известно, что при двухступенчатой выборке при условии, что на первой ступени выборки отобрано не менее 100 ПЕО, доверительный

Таблица 1

Объем вьборки Дрверительньй интервал (%)

600 4

800 3,5

1000 3,1

1200 2,7

1500 2,5

2000 2,2

2500 2

интервал увеличивается, по сравнению с простой случайной выборкой того же объема, в 1,4—1,6 раза, т.е. умножив значения доверительных интервалов для простой случайной выборки на 1,5, мы получим приблизительные значения доверительных интервалов для двухступенчатой выборки данного дизайна. Таким образом можно сделать грубую оценку необходимого объема выборки для СФ. Например, если исследователь хочет иметь результаты исследования по СФ с доверительным интервалом 3%, то ему необходим общий объем выборки 2500, а если ему достаточно точности 4,.5%, то достаточно взять выборку в 1000 человек.

Часто исследователю нужно получить данные по некоторым крупным подразделениям совокупности (например, по городской и сельской части СФ) с определенным уровнем точности. В этом случае необходимые объемы выборок определяются для каждой подсовокупности отдельно, а общий объем выборки получают, суммируя объемы подвыборок.

Предварительная стратификация. Когда общий объем выборки определен и окончательный список избирательных участков по СФ составлен, проводится предва рительная стратификация. Как известно, стратификация является одним из распространенных методов сокращения организационных расходов и уменьшения стандартной ошибки. Разбиение совокупности на страты производится таким образом, чтобы элементы одного страта были как можно более похожи, а элементы из разных стратов — как можно более различны между собой. Стратификация может дать выигрыш в точности при оценивании характеристик всей совокупности, если неоднородную совокупность удается подразделить, на подсовокупности, каждая из которых внутренне однородна. Если каждый страт однороден, в том смысле, что результаты измерений изучаемых признаков в нем очень мало изменяются от единицы к единице, то можно получить точную оценку среднего значения для любого страта по небольшой выборке в этом страте. Затем можно объединить эти оценки в одну точную оценку для всей совокупности.

Из сказанного следует, что в качестве стратообразующих признаков нужно брать признаки, коррелирующие с изучаемыми переменными. Например, если изучаются проблемы труда и занятости, то такими признаками могут быть: доля безработных, доля занятых в определенной отрасли промышленности и т.п. Так, в исследовании "Здоровье женщин фертильного возраста" в г. Екатеринбурге в отдельный страт был выделен Верх-Исетский район в силу того, что в этом районе расположен специальный медицинский центр "Планирование семьи" и предполагалось, что женщины данного района могут быть более информированы по вопросам, интересующим исследователей и иначе, чем другие женщины, решать проблемы своего здоровья и планирования семьи. Для каждого СФ и в зависимости от целей исследования

стратообразующие признаки могут быть свои. Однако многолетний опыт проведения социологических исследований свидетельствует о том, что такой признак, как . численность населенного пункта коррелирует со многими изучаемыми переменными и является в некотором смысле универсальным стратообразующим признаком. Поэтому при проведении любого исследования на терри-тории СФ, как правило, выделяются следующие страты:

1. ПЕО, расположенные на территории областного центра;

2. ПЕО, расположенные на территории городов с численностью населения более 100 тыс. человек;

3. ПЕО, расположенные на территории городов с численностью населения от 50 до 100 тыс. человек;

4. ПЕО, расположенные на территории городов с численностью населения от 20 до 50 тыс. человек;

5. ПЕО, расположенные на территории городов с численностью населения от 10 до 20 тыс. человек;

6. ПЕО, расположенные на территории городов и поселков городского типа с численностью населения менее 10 тыс. человек;

7. ПЕО, расположенные на территории сельских районных центров;

8. ПЕО, расположенные на территории прочих сельских населенных пунктов, не являющихся районными центрами.

Заметим, что областной центр выделяется в отдельный страт как саморепрезентирующийся статистический объект. Если на территории СФ еще имеются НП ( один или несколько), значительно превосходящие по размеру все остальные города и численность каждого из них составляет не менее 4-5% от общей численности исследуемой совокупности, то эти НП также выделяются в отдельные страты как саморепрезентирующиеся статистические объекты.

Если, исходя из целей исследования, необходимо использовать дополнительный стратообразующий признак, то все (или некоторые) из перечисленных выше страт можно разделить на группы по этому признаку. Например, страты "ПЕО, расположенные на территории городов с численностью населения от 50 до 100 тыс. человек" на два страта: "ПЕО, расположенные на территории городов с численностью населения от 50 до 100 тыс. человек и уровнем безработицы выше 7%“ и "ПЕО, распо-ложенные на территории городов с численностью населения от 50 до 100 тыс. человек и уровнем безработицы ниже 7%”.

При разбиении исследуемой совокупности на страты следует придерживаться следующих правил: во-первых, страты должны, по возможности, быть равных размеров и, во-вторых, их не должно быть слишком много (размер каждого страта не должен быть менее 1% от всей совокупности).

После того как страты определены, для каждого из них составляется список составляющих его ПЕО и подсчитывается численность населения. Общий объем выборки распределяется между стратами пропорционально доле этого страта в генеральной совокупности.

Отметим, что обычно население областного центра составляет около трети от всего населения СФ. Таким образом, при пропорциональном распределении выборки, на областной центр приходится приблизительно треть от всего объема выборки N что при N=1000 составляет 300—350 анкет. Из этого следует, что для областного центра необходимо проектировать независимую выборку на основе таких же, принципов,

что и выборка для СФ, т.е. в областном центре проводится предварительная стратификация всех входяцих в него ПЕО, объем выборки (300-350 анкет) распределяется между стратами пропор-ционально, а затем в каждом страте производится отбор ПЕО.

Отбор ПЕО. Отбор ПЕО в каждом страте производится независимо друг от друга. Прежде, чем производить отбор ПЕО в каждом страте, необходимо определить число ПЕО для каждого страта. Как правило, при определении числа ПЕО исходят из средней нагрузки на одного интервьюера. Традиционно один интервьюер работает в одной ПЕО и опрашивает 10—20 респондентов. Разделив объем выборки в страте на среднюю нагрузку одного интервьюера, мы получаем число ПЕО, которое необходимо отобрать в данном страте.

Отбор ПЕО можно проводить двумя способами:

• с равной вероятностью;

• свероятностъю, пропорциональной размеру ПЕО.

В первом случае объем выборки распределяется между отобранными ПЕО пропорционально размерам отобранных ПЕО, а во втором — поровну. С точки зрения организации полевых работ, второй вариант предпочтительнее. Однако если исследователь пользовался списками избирательных участков, опубликованных в местной печати, где указываются только границы участков (без указания численности избирателей), то такой возможности у исследователя нет. На практике исследователь часто бывает вынужден отбирать избирательные участки с равной вероятностью, а затем самостоятельно определять размеры отобранных участков и распределять объем выборки пропор-ционально их размерам.

Как уже говорилось выше, списки избирателей вопервых, очень низкого качества и, во-вторых, труднодоступны. Поэтому по каждой отобранной ПЕО составляется полный список домохозяйств ПЕО -методом натурного обхода*. В результате — создается база адресов, из которой с помощью датчика случайных чисел, отбирается необходимое количество адресов для проведения опроса. И здесь снова нужно вернуться к проблеме выбора избирательных участков или счетных участков в качестве ПЕО. Если по данному СФ предполагается проводить регулярные опросы, то предпочтительнее избирательные участки, так как их размер (в среднем около 1000 домохозяйств) позволяет пользоваться полученной базой неоднократно, тем самым окупая значительные средства, затраченные на составление такой базы. Счетные участки в несколько раз меньше' по размеру, поэтому полученной базой можно воспользоваться всего 1—2 раза, зато составление такой базы обходится дешевле. Поэтому если по спроектированной выборке предполагается проводить разовое исследование, то выгоднее использовать счетные участки.

* Козеренко Е.В. Методические рекомендации по проектированию репрезентативной выборки населения субъекта Российской Федерации //Методический отчет для Министерства труда Российской Федерации. М., 1995.

i Надоели баннеры? Вы всегда можете отключить рекламу.