ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2012 Управление, вычислительная техника и информатика № 3(20)
УДК 519.2
Ю.Г. Дмитриев
ОБ ОЦЕНКАХ ВЕРОЯТНОСТЕЙ ПРИ НАЛИЧИИ ДАННЫХ С ПРОПУСКАМИ
Рассматривается задача статистической вероятностей событий на основе комплектных и некомплектных наблюдений. Предлагаются оценки с привлечением дополнительной информации, содержащейся в некомплектных наблюдениях, а также имеющейся априори, исследуются свойства оценок.
Ключевые слова: комплектные и некомплектные наблюдения, дополнительная информация, статистическая оценка, таблица сопряженности.
Объекты наблюдений в социологических [1], экономических и маркетинговых исследованиях [2] характеризуются многомерным вектором признаков, которые могут быть как непрерывными, так и дискретными переменными. В процессе наблюдения объектов случаются пропуски в компонентах вектора признаков, что приводит к некомплектным наблюдениям и ставит вопрос об их использовании в анализе данных. Довольно часто их просто исключают из рассмотрения. В других случаях пытаются заполнить пропуски, используя различные приемы, и увеличить число комплектных наблюдений. Главной задачей выборочного метода является статистическое оценивание долей объектов с заданными значениями признаков и анализ соотношения этих долей в соответствии с целями исследования. В этой связи проблема оценки долей при наличии пропусков представляет важную научную и практическую задачу. В статистической практике известны методы статистического анализа данных с пропусками [3,4]. Кроме некомплектных наблюдений исследователь дополнительно может располагать априорной информацией о долях объектов в генеральной совокупности с заданными значениями признаков.
В связи с этим представляет интерес разработка методов статистического анализа данных и построения оценок с одновременным использованием всей имеющейся информации, как априорной, так и эмпирической, содержащейся в некомплектных наблюдениях. Рассмотрение этой задачи на примере оценивания вероятности событий по наблюдениям многомерного вектора категориальных признаков приводится в данной работе.
Практическое применение указанных оценок возникает в выборочных обследованиях некоторых совокупностей, когда требуется оценить долю объектов с заданным значением некоторого признака в случае известной доли объектов с заданным значением другого признака. Так, например, при выявлении предпочтений избирателей некоторой территории к тому или иному кандидату или партии проводятся выборочные опросы людей и оцениваются доли избирателей, которые будут голосовать за конкретного кандидата или партию. При этом о населении территории всегда имеется разнообразная статистическая информация (половая, возрастная, национальная, образовательная структура населения и т.д.), которую можно использовать в оценивании долей с целью повышения точности оценок или сокращения объема наблюдений при заданной точности оценивания.
1. Постановка задачи
Пусть объекты характеризуются г-мерным вектором (Хь...,Хг), компоненты которого принимают конечное число значений. Из генеральной совокупности методом случайной выборки отобраны объекты, составлена матрица данных и результаты измерений сведены в таблицу сопряженности признаков. В некоторых компонентах вектора часть измерений отсутствует. Будем считать эти пропуски случайными. Наблюдения вектора признаков, в которых пропусков нет, назовем комплектными, в противном случае - некомплектными. Компоненты Х[ принимают значения а1щ ,1 = 1,..., г;ш1 = 1,..., sг с вероятностями Р(А1щ) = Р{Х{ = а1щ }.
Нас будут интересовать как вероятности событий А1щ = {Х{ = а{ }, так и других
всевозможных событий, связанных с ними. В работе интересующее нас событие будем обозначать через А, опуская для простоты сопутствующие индексы. Полную группу событий также будем обозначать единообразно Н = (Нь...,Нк) . Разбиения множеств могут быть различными как по составу событий, так и по их числу. В частности, это может быть разбиение, связанное с конкретным признаком, например Хг, тогда Н, = Аг,,, = 1,...,зг,Р(Н,) = Р(Аг,), к = sг.Разбиения могу быть по паре признаков и т.д. Эмпирическими вероятностями (относительными частотами) событий являются
Рп (А1щ) = - ^ (А1щ),
п г =1
где I (•) - индикаторная функция соответствующего события, п - объем выборки.
Рассмотрим задачу оценивания Р(А), используя наряду с комплектными и некомплектные наблюдения с целью повышения точности оценки.
2. Структура несмещенной оценки
Пусть имеется случайная выборка объема п, по которой необходимо оценить вероятность некоторого события Р(А ) при условии, что известны вероятности Р(Н),■ = 1,., к, где совокупность событий Н = (Нь...,Нк) образует полную группу событий. Данную информацию можно использовать в структуре оценки Р(А), применяя формулы полной вероятности и условной вероятности [5]. Рассмотрим следующую оценку:
к Р (АН ■)
------Р(Н3), если Рп(Н}.) * 0, ■ = 1,...,к,
■=1 Рп Н) 1 1
Р*(А) = \к^Р„(АН,)_ (1)
V-—Р(Н, ), если Рп (Н,) * 0, ] = 1,...,к - 5, 0 < 5 < к - 2,
■=1 Рп ()
Рп (А), если Р(Н}) = 0, 5 = к - 2.
1п
Здесь Рп (АН,) = — V Ц (АН,), Рп (А), Рп (Н ■) - эмпирические вероятности (доп г =1
ли), построенные по исходным данным, 5 - число событий из Н, для которых Рп(Н,) = 0, 0 < 5 < к -2, Р1 ,...,Рк-5 - пересчитанные (нормированные) вероят-
ности после исключения из полной группы событий тех Н , , для которых Рп (Н) = 0.
Покажем, что оценка (1) является несмещенной. Для к = 2 математическое ожидание
* Г Рп (АН, ) Рп (АН2) 1
ЕР„ (А) = Е--------х— Р(Н ) +-^----^Р(Н2)} =
[ Рп(Н ) Рп(Н2) ]
= Р(Н )£ Е\ Рп (АН1) | г} Р{пРп (Н ) = г} +
^ ( пРп (Н1) = г (
+ Р(Н2)ХЕ( Р;((НН)2) I г} Р{пРп (Н2) = г} =
г=0 ( пРп (Н2) = г ]
= Р(Н1 )[Р(А)(Р{Рп (Н1 ) = 0} + Р{Рп (Н1 ) = 1} + ]-1 Р(А | Н1 )Р{пРп (Н1 ) = г}] +
г =1
п-1
+ Р(Н2)[Р(А)(Р{Рп (Н2) = 0} + Р{Рп (Н2) = 1} + VР(А I Н2 )Р{пРп (Н2) = г}] =
г =1
= Р(Н1 )Р(А)(Р{Рп (Н1 ) = 0} + Р{Рп (Н1 ) = 1}) + Р(АН1 )(1 - (Р{Рп (Н1 ) = 0} +
+Р{Рп (Н1 ) = 1})) + Р(Н2)Р(А)(Р{Рп (Н2) = 0} + Р{Рп (Н2) = 1}) +
+Р(АН2 )(1 - (Р{Рп (Н2) = 0} + Р{Рп (Н2) = 1})) = Р(А). (2)
Равенство в (2) вытекает из того, что
Р(Н1) + Р( Н 2) = 1 и Р{Рп (Н1) = 0} = Р{Рп (Н 2 ) = 1}.
Выполняя подобные рассуждения для значений к > 2 и учитывая (2), устанавливаем несмещенность оценки (1). Данная оценка имеет конечную дисперсию. В зависимости от типа выборки (повторная или бесповторная) дисперсии имеют разные выражения, в силу громоздкости выражений они здесь не приводятся.
3. Асимптотическая нормальность оценок
Рассмотрим асимптотические свойства оценки (1) для повторной выборки. Поскольку эмпирические вероятности с ростом объема выборки стремятся по вероятности к своим истинным значениям, асимптотические свойства оценка будут определяться поведением величины
к Р (АН ■)
оп =! " „ \ р(н,), Рп(Н,) *0, ■ = 1,...,к. (3)
■=1 Рп (Н ■ )
Разложим эту величину в окрестности истинных вероятностей по формуле Тейлора с остаточным членом Я*п в форме Лагранжа. В результате имеем
оп = Р(А) + V [Р(АН,) - Рп (АН,)) - Р(А | Н■)(Р(Н■) - Рп (Н})] + Я*п . (4)
■=1
Главная часть в (4) имеет математическое ожидание равное P(A) и дисперсию
аА /п, где
СТА = Р(А)(1 - Р(А) - £ Р2 (А | И} )Р(И}) - Р2 (А)). (5)
і =1
На основании теоремы непрерывности (см. [6, гл. 6]) последовательность ■Ш Я*п слабо сходится к нулю при п — го . Отсюда, в силу центральной предельной теоремы имеем
Иш Р{МР* (А) - Р(А)] < 2} = N(2,(0, стА)), ^ е (-го, +го),
п—го
где N(2,(0, стА)) - нормальный закон распределения с нулевым математическим ожиданием и дисперсией (5).
Пусть исходная выборка объема п = п1 + п2 состоит из п1 комплектных наблюдений и п2 некомплектных, причем событие А наблюдается только в комплектных наблюдениях, а события Ну во всех наблюдениях и вероятности Р(Н) неизвестны. В этом случае оценку для Р(А) возьмем в виде
£Рп (А | Ну)Рп (Нj), если Рп; (Н}) * 0, j = 1,...,к,
у=1
Р (А) =1 £ Рп1 (А | Н})Рп (Ну), если Рп1(Ну) * 0, j = 1,..., к - 5, 0 < 5 < к - 2, (6)
у=1
Рп1(А), если Рп1 (Н]) = 0, 5 = к - 2.
Для повторной выборки при п —— го асимптотические свойства оценки (6) определяются величиной
4 = ХР (А | Н})Рп (Н}), Рп1 (Н;) * 0, j = 1,...,к.
У=1
Разложение этой величины в окрестности истинных вероятностей по формуле Тейлора с остаточным членом Яп в форме Лагранжа приводит к выражению
&п = Р(А) + Х (Р(АНу) - Рп1 (АНу)) - Р(А | Ну) X
У=1
х[(Р(Ну) - Рп1 (Ну)) - (Р(Ну) - Рп (Ну))] + Яп.
В этом выражении главная часть имеет математическое ожидание равное Р(А) и дисперсию СТА /п1, где
СТА = [Р(А)(1 -Р(А)------(ХР2(А | Ну )Р(Ну) -Р2(А))]. (7)
п1 + п2 ] =1
Пусть соотношение между объемом выборки и объемом некомплектных наблюдений задается пропорцией п2 = Ш, 0< t <1, которая соблюдается при увеличении п. Тогда отношение п2 /(п1 + п2) в пределе заменяется в (7) на t. В силу теоремы непрерывности (см. [6, гл. 6]) последовательность л/пЯ слабо сходится к
нулю при n ^го . Следовательно, на основании центральной предельной теоремы имеем
lim P{Jn[Pn (A) - P(A)] < z} = N(z, (0, &2A)), z e (-го, +го).
n^ro
Сравнение предельных дисперсий (5) и (7) асимптотически нормальных оценок (1) и (6) показывает, что замена вероятностей P(Hj) на оценки Pn(Hj), построенные по выборке, приводит к снижению точности, а величина уменьшения определяется коэффициентом пропорциональности t.
Заключение
Построены оценки для вероятностей событий с использованием априорной информации и с учетом информации, содержащейся в некомплектных наблюдениях категориальных данных в выборочных исследованиях. Установлена асимптотическая нормальность оценок, получены асимптотические дисперсии оценок, которые показываю, как влияет учет дополнительной информации на точность оценок (уменьшение их дисперсий). Эти результаты позволяют строить доверительные интервалы неизвестных вероятностей с меньшей шириной по сравнению с обычными эмпирическими оценками при тех же доверительных вероятностях. Полученные оценки могут применяться в оценивании различных функционалов от распределений (дисперсий оценок, условных распределений) методом подстановки.
ЛИТЕРАТУРА
1. Ядов В.А. Стратегия социологического исследования. М.: Омега-Л, 2007. 567 с.
2. Котлер Ф. Основы маркетинга: пер. с англ. М.: РосИнтер, 1996. 698 с.
3. Литтл Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 430 с.
4. Чурилова А.А. Корректировка неответов // Материалы семинара «Несплошные статистические исследования». Нижний Новгород, 2000. С. 27.
5. Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента: дис. ... канд. техн. наук. Томск: ТГУ, 2001. 149 с.
6. Боровков A.A. Математическая статистика. М: Наука, 2007. 704 с.
Дмитриев Юрий Глебович
Томский государственный университет
E-mail: [email protected] Поступила в редакцию 3 июля 2012 г.
Dmitriev Yury G. (Tomsk State University). On estimates of the probabilities with missing data.
Keywords: complete and incomplete observations, additional information, statistical estimate, contingency table.
A problem of estimating of the probabilities with missing data is considered under assumption that certain additional information concerning probabilities is available. Different estimators of the probabilities using an additional information are proposed, and their properties are studied. The impact of using of additional information on the accuracy of the estimators is studied.