ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2012
Управление, вычислительная техника и информатика
№ 3(20)
УДК 519.2 (311.2)
Ю.Г. Дмитриев, С.В. Курицина
ОБ ИСПОЛЬЗОВАНИИ ДОПОЛНИТЕЛЬНОЙ ИНФОРМАЦИИ В СТАТИСТИЧЕСКОМ ОЦЕНИВАНИИ ПАРАМЕТРОВ ДЕТЕРМИНАЦИОННОГО АНАЛИЗА
Рассматривается задача оценивания параметров детерминационного анализа в предположении, что имеется некоторая дополнительная информация о распределении признаков. Строятся различные оценки с использованием этой информации и изучаются их свойства. Анализируется влияние учета информации на качество оценивания, приводятся примеры применения оценок в анализе реальных данных.
Ключевые слова: детерминационный анализ, интенсивность, емкость, дополнительная информация, статистические оценки, таблица сопряженности.
Одним из методов анализа социально-экономических данных является детерминационный анализ (ДА), предложенный С.В. Чесноковым [1]. Этот метод служит для поиска и интерпретации взаимосвязей между переменными (признаками) или группами переменных на основе эмпирических материалов обследований и представляет собой вариант исчисления эмпирических условных частот (долей), которые содержатся в таблицах сопряженности. При этом устанавливаются ситуации, в которых по конкретным значениям одних индикаторов можно с известной определенностью предсказывать значения других. Важными характеристиками ДА являются интенсивность и емкость, вычисляемые по данным таблицы сопряженности выделенных признаков и представляющие собой оценки условных долей. Точность вычислений этих характеристик можно повысить, если наряду с исходными данными использовать имеющуюся дополнительную информацию об исследуемой генеральной совокупности. В данной работе дополнительная информация выступает в виде знания долей (или числа) объектов генеральной совокупности с заданными значениями, как изучаемых, так и других признаков. Предлагается подход к учету такого вида информации при построении статистических оценок долей, интенсивности и емкости, анализируется выигрыш в точности оценивания, приводятся примеры практического применения.
Приведем основные понятия ДА. Пусть у объектов некоторой совокупности выделены два признаками X и У. Среди множества значений признака Х имеется значение а, а у признака У - значение Ь. Согласно [1], правило как детерминация - это условное суждение вида: «Если а, то Ь» (или сокращенно а ^ Ь) вместе с двумя своими характеристиками - точностью и полнотой, которые характеризуются соответственно интенсивностью и ёмкостью детерминации, являющимися условными долями:
1. Оценки интенсивности и емкости с учетом дополнительной информации
Здесь N (а, Ь) - количество объектов генеральной совокупности, у которых одновременно X = а и У = Ь, N (а) - количество объектов с X = а, N (Ь) - количество объектов с У = Ь. Интенсивность выражает точность детерминации, а ёмкость - ее полноту. Интенсивность и ёмкость обычно подсчитываются по таблице сопряженности выделенных признаков, построенной на основании случайной выборки объема п.
Рассмотрим задачу статистического оценивания характеристик (1) в терминах событий А = {X = а}, В = {У = Ь}, АВ = {X = а, У = Ь} и соответствующих вероятностей Р(А), Р(В) и Р(АВ). Тогда интенсивность и емкость детерминации а ^ Ь, которую обозначим как А ^ В , примут вид
Пусть случайной выборке объема п соответствуют эмпирические вероятности
где I (•) - индикаторная функция соответствующего события. Подставив эти эмпирические вероятности в (2), получим статистические оценки функции интенсивности и емкости в виде
В объектах, попавших в выборку, могут быть и другие наблюдаемые признаки. Пусть признак 2 один из них. Рассмотрим событие С = {2 = с}, для которого известна вероятность Р(С). Другими словами, известна доля объектов генеральной совокупности, у которых 2 имеет заданное значение с. Используем эту информацию для построения оценок вероятностей других событий и характеристик (2). Рассмотрим оценки, основанные на использовании формулы полной вероятности
где С - событие противоположное событию С. Применив формулу (4) для оценивания вероятности Р(А ), методом подстановки получим оценки характеристик
(2), с учетом имеющейся информации. Анализ свойств получающихся оценок и их сравнение с оценками (3) проведем на примере оценивания интенсивности детерминации. Далее предполагается, что объем генеральной совокупности достаточно большой по сравнению с объемом выборки, так что поправкой на беспо-вторность можно пренебречь, и асимптотические соотношения выполняются.
Метод подстановки приводит к следующей оценке интенсивности с учетом дополнительной информации:
I(А ^ В) = Р(В|А)
Р( АВ)
Р(А) ’
С (А ^ В ) = Р (А|В)
Р( АВ) Р( В)
(2)
3 = Рп (АВ) с = Рп (АВ) п Рп (А) , п Рп (В)
(3)
[2]:
Исследуем асимптотическое поведение данной оценки. Поскольку при увеличении п оценки вероятностей сходятся по вероятности к истинным значениям, то можно провести разложение Лп в окрестности истинных вероятностей по формуле Тейлора с остатком в форме Лагранжа. Имеем
Л = ((АВС) - Р(АВС) + Рп(АВС) -Р(АВС))-(Рп(АС) -
Р(А) Р(А) Р (А)
- Р( АС) + Рп (АС) - Р( АС)) +
Р( А)
Р( АВС) - Р( АВ) Р(С)
Р(С) (1 - Р(С))
(Р„(С) - Р(С)) +
Р( АВ)
Р2( А)
Р( АС) - Р( А) Р(С)
, Р(С) (1 - Р(С)) _
(Рп (С) - Р(С))++п .
(6)
Обозначим главную часть в (6) через Л . Анализ показывает, что математическое ожидание и дисперсия главной части удовлетворяют соотношениям
Ы{3Я } = Л, пБЛе } = ст2 =
Р(АВ) (1 - Р(АВ)
1
Р2(А) ^ Р(А) ) Р(С) (1 - Р(С)) Р( АВ)
Р( АВС) - Р( АВ) Р(С)
Р( А)
Р2( А)
(Р( АС) - Р( А) Р(С))
(7)
Рассмотрим выражение
'Гп (-^п - Л) = ^п РJg - Л) + ^п.
В силу центральной предельной теоремы последовательность
л/п - Л)~ N (о, ст2 ),
т.е. имеет асимптотически нормальное распределение с нулевым математическим ожиданием и дисперсией, определяемыми формулой (7).
Последовательность 4п • Лп слабо сходится к нулю в силу теоремы непрерывности (см. [3, гл. 6]). Следовательно, последовательность л/й (Лп - Л) имеет асимптотически нормальное распределение с нулевым математическим ожиданием и дисперсией ст2. Аналогично показывается, что оценка интенсивности без учета информации (см. (3)) является асимптотически нормальной, т.е.
4~п •(Лп - Л) ~ N (о, ст2) с дисперсией
ст2 = Р( АВ) Г1 - Р( АВ)
Р 2( А)
Р( А)
(8)
Сравнение двух выражений (7) и (8) показывает, что учет дополнительной информации в оценивании приводит к уменьшению асимптотической дисперсии оценки на величину
5=-
1
Р(С) •( - Р(С))
Р( АВС) - Р( АВ) Р(С) Р( АВ)
Р( А)
Р 2( А)
(Р( АС) - Р( А) Р(С))
(9)
2
2
Из (9) следует, что при независимости событий А, В и С уменьшения асимптотической дисперсии нет, так как 5 = 0 . Выигрыш в точности можно характеризовать отношением асимптотических дисперсий, т.е. величиной
^ =ст2 = 1 - [Р(А)(Р(АВС) - Р(АВ)Р(С)) - Р(АВ)(Р(АС) - Р(А)Р(С)]2 (10)
Формула (10) показывает, что чем ближе к нулю, тем сильнее влияние учета дополнительной информации на точность оценивания интенсивности, и чем ближе к единице, тем слабее это влияние. При независимости событий А и С величина = 1 и выигрыша в точности оценивания нет.
Из формул (7) - (10), в частности, следуют выражения для асимптотической дисперсии и характеристик выигрышей в точности для оценки (4). Для этого нужно предположить, что событие А всегда наступает (является достоверным событием). В этом случае, полагая Р(А) = 1, Р(АВ) = Р(В), Р(АС) = Р(С), Р(АВС) = Р(ВС),
Данные соотношения применяются для анализа точности оценок вероятностей и других событий.
Аналогичным образом анализируются свойства статистической оценки для ёмкости детерминации
Статистическая оценка без учета дополнительной информации дается формулой
(3), а с учетом информации формулой
Рассуждениями, аналогичными вышеприведенным, можно показать, что асимптотические свойства оценок (3) и (13) следующие:
Р( А) Р(С) Р(С) Р(АВ)( Р( А) - Р(АВ))
получим
ст2 = Р( В)(1 - Р( В))
[Р( ВС) - Р(В)Р(С) ]2 5 [Р( ВС) - Р(В)Р(С)]2
-----------------------, 5 =------------------------; (11)
Р(С) (1 - Р(С)) 1 Р(С) (1 - Р(С))
^ 1 Р(С) (1 - Р(С) )Р(В) (1 - Р( В)).
[Р( ВС) - Р( В) Р(С )]2
(12)
О = С (А ^ В ) = Р (А\В)
Р( АВ) Р( В)
(Оп - О )~ N (0, ст2 ), 4~п •(о: - О)~ N (0, ст2 ),
где асимптотические дисперсии имеют вид
(14)
2
1 Р(АВС) - Р(АВ)Р(С) - Р(АВ)(Р(ВС) - Р(В)Р(С))
Р(С) Р(С) Р( В) Р 2( В)
Р 2( В)
Второе слагаемое в (15) характеризует величину, на которую уменьшается асимптотическая дисперсия при учете имеющейся информации по сравнению с (14). Отношение асимптотических дисперсий оценок ёмкости с учетом дополнительной информации и без её учета характеризуется величиной
ж = 1 - [ Р( В)( Р( ЛВС) - Р(АВ) Р(С)) - Р(АВ)( Р( ВС) - Р( В) Р(С ))]2 (16)
2 а2 Р( В) Р(С) Р(С) р(лв)( Р( В) - Р( лв)) .
Формула (16) показывает, что чем Ш2 ближе к нулю, тем сильнее влияние учета дополнительной информации на точность оценивания ёмкости, а чем ближе к единице, тем слабее это влияние. В случае независимости событий В и С, а также независимости А, В, С, величина Ш2 = 1 и выигрыша в точности оценивания нет.
2. Анализ данных социологического опроса
Пусть исследователя интересует предпочтение населения к тому или иному кандидату перед предстоящими выборами. Производится опрос населения, и по результатам опроса делаются выводы и заключения. Респондент - это объект наблюдения. Выделим два признака: X - пол респондента (значение X = а - респондент мужчина, X = а - респондент женщина), У - фамилия кандидата. Пусть интерес представляет кандидат Ь. Детерминация а ^ Ь - это высказывание «если респондент мужчина, то он проголосует за кандидата Ь»; данному высказыванию приписывается интенсивность I(а ^ Ь), отражающая его точность, или истинность. Емкость С (а ^ Ь) измеряет долю случаев реализации голосования за Ь, которая объясняется высказыванием «из а следует Ь», тем самым она отражает полноту этой детерминации. Интенсивность и емкость выражаются через вероятности Р(А) = Р{Х = а}, Р(В) = Р{ У = Ь}, Р(АВ) = Р{Х = а, У = Ь} по формуле (2).
Приведем пример расчетов для реальных данных. В поселении №1 опрошено 319 респондентов и по результатам опроса составлена таблица сопряженности двух признаков (табл. 1). Кроме того, априори известно общее число избирателей поселения - 6380 человек, среди них мужчин - 3780, а женщин - 2600 человек. Таким образом, доля избирателей мужчин составляет 3780/6380 = 0,5925, а женщин соответственно 0,4075. Это знание используем далее в обработке данных.
Таблица 1
Таблица сопряженности 2 х 2 по переменным X и У (объем выборки - 319 человек)
У
У = Ь 38 152
Ь II У 90 39
х = а х = а X
Из табл. 1 следует, что
Рп (В) = 129 - 0,4044, Рп (В) = 199,
Рп (Л) = 12! - 0,4013, Рп (Л) = Ш,
Рп (ЛВ) = 3!! - 0,2821; (17)
= рп (АВ) = _9° и о,7029, Оп = Рп (АВ) = -90- и 0,6977. (18)
п Рп (А) 128 ’ п Рп (В) 129 ’ ^
Таким образом, за кандидата Ь проголосовало 40,44 % от общего числа опрошенных респондентов. Эту величину можно уточнить, если учесть имеющуюся информацию о долях избирателей мужчин и женщин в поселении. Если исходить из общих формул, то в нашем случае это означает, что признак 2 совпадает с признаком X (С = А), Р(А) = 0,5925, поэтому Р(С) = Р(А) = 0,5925. Данную информацию учтем с помощью формулы (4), полагая в ней С = А и принимая во внимание вычисленные выше оценки вероятностей. Получим уточненную оценку Рп (В) и 0,4998 = 49,98 %, которая отличается от значения Рп (В) на 9,54 % в
большую сторону. Заметим, что для оценивания интенсивности знание о долях избирателей по полу ничего не дает, поскольку при С = А из (5) следует, что
Уп = ^ и Wl = 1.
Для вычисления показателей выигрыша в точности нужно воспользоваться соотношениями (11) и (12). Однако в них не все вероятности известны, что делает невозможным вычисление характеристик точности на практике. В реальности эти характеристики можно оценить по имеющимся данным. Рассмотрим два способа оценивания и сравним их результаты. Первый способ основан на использовании значений (17), что приводит к оценкам характеристик
5п1 = 0,0597 и УпХ = 0,7517. (19)
Второй способ основан на оценках вероятностей, построенных с учетом информации. Вычисления по имеющимся данным приводят к следующим значениям:
Р (АВ)
Рп(АВ) = -----Р(А) и 0,4166, Рп(А) = Р(А) и 0,5925, С„ и 0,8335. (20)
Рп (А)
5п1 = 0.0601, Кп1 = 0,7595 , Wn2 = 0,7264 . (21)
Сравнение результатов (17)-(21) показывает, что значения оценок вероятностей и емкости без учета информации заметно отличаются от значений оценок вероятно -стей и емкости с учетом информации. Однако при этом значения оценок характеристик точности практически совпадают. Значения величин Уп1, Кп1, Wn2 говорят
о том, что учет знания долей избирателей по полу при оценивании вероятностей позволяет уменьшить объем выборки на 24-25 % для достижения одинаковой точности с обычными оценками, а при оценивании емкости - на 27 %.
Пусть признак 2 означает возраст респондента и значение с есть возрастной интервал (18-34) лет. Известно, что доля избирателей рассматриваемого поселения в таком возрастом интервале равна 0,35, т.е. число таких избирателей равно 2233 и Р(С) = Р{2 = с} = 0,35. Рассмотрим таблицу сопряженности для трех признаков X, У, 2 в следующем виде:
Таблица 2
Таблица сопряженности 2 х 2 по переменным X, У, ^ (п = 319)
2
с 34 26 16 13
с 56 12 23 139
аЬ аЬ аь аь ХУ
Применим приведенные выше формулы для расчета оценок вероятностей, емкости и интенсивности с учетом информации о доли избирателей по возрасту (пометим их волной и рядом с оценкой дадим ее точность). Имеем
Рп(В) и 0,4199 = 41,99%; Гп1 = 0,99918;
Рп (А) и 0,4281; Гп1 = 0,99919; Рп (АВ) и 0,2919;
1п и 0,5105; Wn1 = 0,99999; Оп и 0,6953; Wn2 = 0,99999. (22)
Из полученных вычислений следует, что влияние возрастной структуры совокупности на точность оценивания очень слабое, однако интенсивность уменьшилась, а емкость практически не изменилась. Оценки вероятностей изменили свои значения, что дает возможность строить другие доверительные интервалам с одинаковой вероятностью доверия.
Детерминация с ^ Ь - это высказывание «если возраст респондента в интервале (18-34) лет, то он проголосует за кандидата Ь». Интенсивность и емкость этой детерминации по данным табл. 2 равны соответственно
J (с ^ Ь) = Рп (СВ) = 50 и 0,5618 , п Рп (С) 89
О (с ^ Ь) = Рп (СВ) = — и 0,3876. (23)
п Рп (В) 129
Учет информации о долях избирателей по возрасту приводит к следующему:
7п = Рп(СВ) = Jn (с ^ Ь), Оп (с ^ Ь) = 0,4683.
п Рп (С) п п
Таким образом, интенсивность не изменилась, а емкость изменилась в сторону увеличения.
Заключение
В работе показано, каким образом можно привлекать знания (дополнительную информацию) о долях объектов генеральной совокупности по признакам и их значениям для повышения точности оценивания различных характеристик. Рассмотренный пример, основанный на реальных данных, позволил увидеть возможности подхода к построению оценок. Подход допускает обобщение на большее число значений признаков, чем рассмотрено в работе. Таблицы сопряженности могут быть гораздо большей размерности. Показано, что существенное повышение точности не всегда происходит. Формулы, характеризующие точность оценивания, дают возможность подбирать признаки, их комбинацию, конкретные значения признаков, которые приводят к существенному повышению точности при фиксированном объеме наблюдений или сокращению объема выборки при заданной точности. Показано, что сокращение объема данных может быть существенным. Асимптотическая нормальность оценок с учетом информации позволяет строить доверительные интервалы, которые могут быть значительно уже по сравнению с обычными оценками. Детерминационный анализ можно осуществлять по модифицированной таблице сопряженности, заменив обычные эмпирические частоты на их модификацию с учетом информации.
ЛИТЕРАТУРА
1. Чесноков С.В. Детерминационный анализ социально-экономических данных. М: Наука, 1982. 214 с.
2. Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента: дис. ... канд. техн. наук, Томск: ТГУ, 2002. 149 с.
3. Боровков A.A. Математическая статистика. М: Наука, 2007. 704 с.
Дмитриев Юрий Глебович Курицина Светлана Валерьевна Томский государственный университет
E-mail: [email protected], [email protected] Поступила в редакцию 4 июня 2012 г.
Dmitriev Yury G., Kuritsina Svetlana V. (Tomsk State University). On the use of an additional information in statistical estimate parameter of determinate analysis.
Keywords: determinate analysis, intensity, capacity, additional information, statistical estimate, contingency table.
A problem of estimating of parameter of determinate analysis is considered under assumption that certain additional information concerning features is available. Different estimators of parameter using an additional information are proposed, and their properties are studied. The impact of using of additional information on the accuracy of the estimators is studied, examples of using in the analysis of real data are given.