К проблеме эндогенности потребительских расходов при оценивании системы спроса домашних хозяйств

Тимофеева А.Ю.

А. Ю. Тимофеева

К проблеме эндогенности потребительских расходов при оценивании системы спроса

W Л

домашних хозяйств1

Работа посвящена анализу одного из случаев проявления проблемы эндогенности, а именно наличию погрешностей измерения потребительских расходов при построении системы спроса по данным выборочных обследований домашних хозяйств. Предложен и апробирован оригинальный подход на основе факторного анализа, позволяющий ослабить смещение оценок эластичности спроса и не требующий дополнительной информации (инструментальных переменных, повторных наблюдений). Его преимуществом также является возможность оценки параметров распределения истинных потребительских расходов, дающих представление о степени искажения информации о расходах населения.

ключевые слова: эндогенный регрессор; погрешность измерения; потребительские расходы; эластичность спроса по доходу; факторный анализ; метод инструментальных переменных. JEL classification: C21; C51; D12; D31.

1. введение и постановка проблемы

Исследование структуры и закономерностей спроса можно считать одним из первых и ключевых этапов в эмпирическом изучении экономических явлений и процессов. Толчком к использованию больших массивов статистической информации и соответствующего инструментария здесь послужили базы данных, сформированные в ходе массовых бюджетных обследований (Сычева, 1998). Традиционно, в силу исторических реалий бюджетные обследования связываются с анализом проблем бедности. Современные задачи анализа спроса намного шире, они включают, например, разработку шкал эквивалентности, построение моделей спроса на специфические товары (табачные изделия, алкоголь).

Несмотря на достаточно продолжительную историю бюджетных исследований спроса, все еще остаются проблемы методологического характера. Одной из самых существенных можно назвать трудность определения индикатора дохода, выступающего основным фактором-детерминантом спроса в моделях пространственных данных (одномоментный срез) при предположении о фиксированных ценах товаров и услуг. С одной стороны, ввиду ряда недостатков статистики доходов населения, многими экономистами предлагается использовать в качестве показателя дохода сумму расходов по всем затратным статьям домохозяйств (Айвазян, 2012; Бирман, 2000). Сторонники такого подхода считают, что именно расходы являются «реальной экономической величиной, которую следует рассматривать в потреби-

1 Работа выполнена при финансовой поддержке Министерства образования и науки РФ (государственное задание № 2014/138, проект № 1689).

тельском бюджете в данном промежутке времени» (Интрилигатор, 1975). Кроме того, в пользу включения суммарных потребительских расходов в качестве объясняющей переменной в систему спроса (в денежном выражении) говорит и более высокая корреляция с расходами по каждой отдельной статье.

Однако, с другой стороны, наличие расходов как в правой, так и в левой частях уравнений спроса приводит к так называемой проблеме эндогенности, поскольку нарушается одно из стандартных предположений регрессионного анализа о независимости и детерминированности входных факторов (Hausman, 2001). Проанализируем эту проблему при оценивании модели расходов с постоянной эластичностью (двойной логарифмической):

Yj = ajXb', V/ = 1Д,

где Yj — расходы поj-й статье; bj — эластичность спроса по доходуX; aj — параметр масштаба; k — число статей бюджета. Такого рода модели являются наиболее простыми и часто используемыми при обработке данных домохозяйств (Brown, Deaton, 1972, p. 1176), в частности, для исследования структуры потребления по российской статистике (Шабанов, 2012).

Очевидно, что в ходе обследования значения расходов домашних хозяйств фиксируются с некоторыми случайными погрешностями еу. При этом наблюдаемый в практике анализа данных бюджетных обследований рост вариации в расходах домашних хозяйств с увеличением их благосостояния приводит к мультипликативному виду уравнений спроса:

^ = Y*j = aX*j, V = Ü. (D

Если в качестве объясняющей переменной X использовать сумму всех наблюдаемых рас-

к

ходов x = ^ Yjе, то такой регрессор будет коррелировать со случайными ошибками в каждом уравнении. При этом между ошибками каждого уравнения системы будет взаимосвязь.

Сведем систему уравнений (1) к линейной путем логарифмирования:

yj = äj + bjX + £j, У/ = Ü, (2)

где yj = ln yj, X = ln X, cij = ln а, и относительно ошибок £ у = ln е у предполагается выполнение стандартных предположений регрессионного анализа: они постулируются независимыми одинаково распределенными случайными величинами с нулевым математическим ожиданием и постоянной дисперсией.

Использование вместо X эндогенного регрессора x = ln x при идентификации уравнений спроса (2) на основе метода наименьших квадратов (LS) приводит к оценкам параметров

yJ) _ ^ , ,

b =-, aJ = Vyj - bJ Vx , (3)

x

где cov(x, yj) — оценка ковариации x и y; S2 — оценка дисперсии x; m ~yj, mx — оценки среднего y, x. Оценки (3) являются смещенными и несостоятельными (Айвазян и др., 1985). Эта проблема особенно сильно сказывается на оценках эластичностей спроса по до-

ходу, восстановленных по микроданным. Заметим, что в ходе анализа агрегированных дан- |

ных временных рядов такие проблемы проявляются в меньшей степени, поэтому в рамках

статьи рассматривается именно анализ индивидуальных данных бюджетных обследований §

Й

2

в фиксированный момент времени.

2. современные подходы к идентификации систем спроса

Основным подходом к анализу систем спроса, учитывающим эндогенный характер потребительских расходов, является метод инструментальных переменных (instrumental variables, IV). Он основан на использовании инструмента Z, тесно взаимосвязанного с входным фактором X и не коррелированного с ошибкой Sj. В случае эндогенного регрессора x оценки параметров системы (2) по методу инструментальных переменных определяются как

UIV C0V(Z, у ) л

bj = —j , а =m-y -bj mx. (4)

cov(Z, x)

Простота вычисления и хорошие свойства оценок при выборе подходящего индикатора являются основными достоинствами метода IV. Однако на практике выбор инструмента представляет существенную проблему, которая недостаточно формализована и решается в зависимости от особенностей исходных данных и теоретических соображений. Так, например, в качестве инструмента может быть использован общий заработок главы семьи до вычета взносов и налогов (Blundell et al., 2007).

Использование метода IV нередко сопряжено с проблемой «слабых» инструментов (Эб-бес, 2007), включение которых в модель не только не приводит к улучшению свойств оценок, но, наоборот, значительно их ухудшает. Хотя разработан ряд тестов на пригодность инструментальных переменных, выбор инструментов можно считать скорее искусством, чем формально регламентированной процедурой.

Другой подход к идентификации систем спроса связан с использованием повторных наблюдений, например, дохода семьи за несколько периодов (Hausman et al., 1995). Такой подход имеет теоретическим основанием идею перманентного дохода: в краткосрочном периоде доход домашнего хозяйства случайно колеблется вокруг истинного значения X. Однако для идентификации системы спроса в этом случае требуется наличие сбалансированных панельных данных, которые, однако, не всегда доступны.

В настоящее время активно развиваются «экономные» альтернативные подходы к оцениванию эконометрических уравнений при наличии эндогенных регрессоров. Один из таких подходов предложен Ebbes et al. (2009) и предполагает инструментальную переменную ненаблюдаемой (латентной). При этом исходят из того, что Z является дискретной величиной (качественной переменной) с заданным числом групп (уровней). Такой подход в целом имеет схожие черты с методами группировки (Wald, 1940), но не требует наличия наблюдаемой переменной группировки, которая должна быть не взаимосвязана с ошибками и упорядочена в соответствии с уровнем благосостояния домашних хозяйств. Латентная инструментальная переменная в свою очередь оценивается одновременно с параметрами уравнений спроса, что является безусловным достоинством, поскольку на практике подобрать переменную группировки, в полной мере отражающую социально-экономическое положение семей, достаточно трудно.

Латентная инструментальная переменная отражает скрытую структуру доходов домашних хозяйств и оценивается методом максимального правдоподобия путем разделения смеси нормальных распределений. Следовательно, подход непригоден в случае относительной однородности доходов населения, когда нельзя выявить их гетерогенную структуру, в частности, при нормальном распределении эндогенного регрессора X.

В данной работе рассматривается как раз такой случай более или менее однородной по доходу совокупности населения, для примера взяты домохозяйства пенсионеров. Задача состоит в оценивании неизвестных параметров уравнений (2) в условиях латентного характера истинных (неискаженных случайными погрешностями) потребительских расходов X, которые рассматриваются как случайная величина, не взаимосвязанная со случайными ошибками. Такая постановка отвечает идеям факторного анализа (FA) и не требует привлечения дополнительной информации о значениях дисперсий ошибок, а также инструментальных переменных. Отметим, что в теории потребления представление системы спроса в виде модели FA используется для определения ранга такой системы (Bai, 2003). Здесь же на основе FA разработан подход к оцениванию системы спроса (1).

3. Подход на основе факторного анализа

Предлагаемый подход реализуется в несколько этапов, на каждом из которых находятся оценки определенной группы неизвестных параметров.

Этап 1. Устойчивое оценивание дисперсий ошибок на основе метода факторизации.

Этап 2. Оценивание параметров распределения объясняющей переменной.

Этап 3. Оценивание параметров сдвига и наклона уравнений спроса (2).

Предлагаемый подход накладывает некоторые ограничения на форму распределения переменных. В частности, для дальнейшего анализа существенны следующие предположения:

• ошибки в разных уравнениях не коррелируют, что требуется для применения метода факторизации;

• случайные величины X и ej независимы и нормально распределены, что необходимо для восстановления параметров распределения истинных потребительских расходов.

Что касается первого предположения, то отсутствие взаимосвязи между погрешностями измерения расходов по разным статьям бюджета должно достигаться за счет независимого их определения. В частности, опросный лист домохозяйства должен содержать необходимую детализацию расходов, не допускающую какой-либо подтасовки данных со стороны респондента (перекидывания расходов между статьями). Что касается второго предположения, то использование логнормального распределения дохода часто критикуется (Кирута, Шевяков, 1995; Панкратьев, 1997), поскольку оно недостаточно хорошо согласуется с наблюдаемым в действительности распределением. Однако, как отмечает Айвазян (2012), при исследовании достаточно однородных совокупностей домохозяйств (по источникам формирования доходов, территориальному и социально-профессиональным признакам) правомерно предполагать распределение населения по среднедушевому доходу логнормальным.

Следует отметить, что существуют также некоторые ограничения, накладываемые на число статей бюджета к. Так, система спроса, составленная только из двух благ, например, продовольственных и всех остальных (Шабанов, 2012), не предоставляет достаточно информации для корректного применения FA. Поэтому, с одной стороны, излишнее агрегирование

товарных групп приводит к возможной потере существенной информации о потребитель- |

ском поведении. Однако, с другой стороны, чрезмерная детализация расходов снижает на- .§.

дежность результатов из-за более хаотичного изменения спроса и проблем с нулевым потре- |

блением, что затрудняет восстановление закономерностей покупательского выбора (Deaton, ^

1986). Следовательно, на практике нужно выбрать некоторый компромиссный вариант. ^ Далее более подробно опишем этапы оценивания.

3.1. Проблема оценки дисперсий ошибок

Присутствие в исследуемой системе уравнений (2) ненаблюдаемой переменной X делает перспективным ее оценивание с помощью факторного анализа (Иберла, 1980). В этом случае X — единственный латентный фактор, который полностью описывает вариацию логарифмов расходов на отдельные группы товаров, не связанную с влиянием случайных ошибок. Тогда ковариационная матрица V = {} признаков у1,у2,...,ук имеет следующий вид:

V =

A о X+ о?

bA о X

г.2„2 . „2

A о * + о

bA о X

b2bk 0 X

A о X+о 2k.

где оX, оX — дисперсии X и е. соответственно.

В силу того, что дисперсии ошибок, с которыми фиксируются объясняемые переменные, неодинаковы, то наряду с коэффициентами Ь1,...,Ьк необходимо оценить и так называемые характерности (Иберла, 1980), в нашем случае полностью обусловленные ошибкой,

т. е. матрицу ^ = diag{<7?.}. Тогда имеет место следующее разложение ковариационной матрицы признаков:

V = wTw + Ф = и + ^,

где и — редуцированная ковариационная матрица признаков (Иберла, 1980), w — вектор факторных нагрузок, в нашем случае представляемый в виде

Щ = ( Н>2>-"> Щк XX , Ь2 ° X , — , Ьк ° X ).

Для решения проблемы оценки общностей предлагается использовать известный итерационный алгоритм (Иберла, 1980, с. 167). В качестве исходных данных, в отличие от обычного FA, будут выступать выборочные оценки ковариационной матрицы V признаков y2,•••, Ук.

Полученные таким образом диагональные элементы матрицы Ф представляют собой оценки дисперсий ошибок, с которыми наблюдаются расходы на отдельные группы товаров. Тогда неизвестные параметры определяются следующим образом:

w.

bj = — , aj =Vyj - bjVX , (5)

X

где myj, №x — математические ожидания y f и X. Вместо значений Wj подставляются компоненты вектора факторных нагрузок W , оцененные методом факторизации. Оценка my может быть получена как среднее арифметическое значений y.. Следовательно, для нахождения оценок параметров нужно дополнительно определить моменты распределения X.

3.2. Проблема устойчивости

На практике при анализе данных бюджетных обследований приходится сталкиваться с большим разбросом значений признаков и нередко с аномальными наблюдениями, вызванными как значительным завышением или занижением опрашиваемыми членами семьи своих расходов, так и нестандартным экономическим поведением домохозяйства. Независимо от природы таких искажений, их наличие отрицательно сказывается на результатах использования описанного выше подхода вследствие высокой чувствительности выборочных оценок ковариации.

Для того чтобы обнаружить аномальные наблюдения в многомерном пространстве исследуемых признаков, предлагается использовать метод минимума определителя ковариационной матрицы (Rousseeuw, Leroy, 1987), реализация которого осуществляется в несколько шагов (Fauconnier, Haesbroeck, 2009).

Шаг 1. Из всего множества исходных наблюдений N выделяется некоторое подмножество заданного объема h = [aN], 0.5 < а < 1 , обеспечивающее наименьшее значение определителя ковариационной матрицы, для чего используется алгоритм FAST-MCD (Rousseeuw, van Driessen, 1999). Обозначим полученную в результате выборку как

/ -о~о ~о \ ( ~о ~о ~о \

Urn У 21>-> У« )>•••> Uk ' У 2k Уък ).

Шаг 2. Рассчитывается грубое приближение оценок моментов по соотношениям:

= \ 2У, Ъ =Сг 2 ( у: -т)(-т), (6)

/=1 /=1

где с( а) — коэффициент, обеспечивающий состоятельность оценки ковариационной матрицы при предположении о совместном нормальном распределении исследуемых признаков, задаваемый на основе ^-распределения.

Шаг 3. Определяются точки исходных данных, расположенные в пределах эллипса рассеяния, построенного на основе оценок (6). Для этого вычисляется расстояние Махалано-биса d(0 от каждой точки данных до центра (/лУ1,ц°~2,...,¡йУк). Индикатор неаномальности 7-го наблюдения задается как

I1, если <х2к wi = \

[0, иначе,

,2 т £0/ ----^---------- „2

где х2 о 975 — 97.5%-ный квантиль % -распределения с k степенями свободы. В результате

N

n =

i=1

очищенная выборка содержит n = наблюдений.

Шаг 4. Вычисляются окончательные значения £§

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ф ф

1 N ( П \ 1 N

= n j, =c\N)niffw&), jj

выступающие в качестве оценок mj и VsJ соответственно.

Размер h выборочного подмножества задается исходя из предполагаемой доли выбросов. При этом обычная практика использования h = 0.5(N + k + 1) не всегда себя оправдывает (Fauconnier, Haesbroeck, 2009). Поэтому здесь предлагается применять методы размножения выборки, в частности бутстрап (Эфрон, 1988), для определения характеристик оценок искомых параметров и выбора такого объема h подмножества, который обеспечивает наиболее приемлемую величину этих характеристик (в первую очередь, наименьшие значения стандартных отклонений оценок параметров). Кроме того, использование бутстрапа позволит проанализировать статистические свойства оценок путем восстановления их эмпирического распределения по многократно генерируемым выборкам. Число повторений должно быть достаточным для получения стабильных результатов.

3.3. Проблема оценки латентного фактора

В соответствии со свойством аддитивности, истинные потребительские расходы равны сумме всех не искаженных погрешностями расходов по разным статьям семейного бюджета. Тогда случайная величина X представляет собой сумму логнормальных случайных величин Yj, и ее распределение может быть аппроксимировано логнормальным (Уа^ийе1 et а1., 2005). Его моменты определяются исходя из параметров распределений У1,У2,...,Ук, средние значения которых, в силу нулевого математического ожидания ошибок, равны ту\, ту2, • • •, т&, а ковариационная матрица соответствует введенной ранее редуцированной

ковариационной матрице и = {у, в,у = 1,...,к}. Опираясь на результаты Vanduffe1 et а1.

(2005), представим моменты распределения X следующим образом:

цх ехр(^ + - и , =22(ехР(^)-1)ехР|^» +^ + 2 ( +и«Ь (7)

х=1 \ 2 / х=1 \ 2

где тх, °X — математическое ожидание и дисперсия X соответственно. Тогда параметры логнормального распределения X определяются как

*X =ln *x - 2 aX ' aX =ln

1 ! 2 \

1 + 2

\ И-x I

(8)

Использование в соотношениях (7) - (8) найденных с помощью метода факторизации оценок элементов матрицы и и выборочных средних логарифмов расходов на каждую группу товаров позволяет восстановить распределение потребительских расходов, не искаженных случайными ошибками, и вычислить параметры уравнений (2) на основе выражений (5).

Далее на основе вычислительных экспериментов, проведенных в среде статистической обработки R 2, исследованы свойства оценок, полученных с использованием предложенного подхода, и произведено сравнение с результатами оценивания классическим LS и его устойчивой модификацией — методом усеченных наименьших квадратов (least trimmed squares, LTS).

4. результаты вычислительных экспериментов

Проводилось два варианта вычислительных экспериментов.

1. Исследование свойств оценок параметров системы спроса при справедливости введенных предположений (в частности, об известной и фиксированной функциональной форме модели).

2. Исследование точности оценивания уравнений спроса при неверной спецификации модели.

В обоих случаях рассматривались системы спроса из трех товаров с мультипликативными логнормальными ошибками. Предполагался разный характер изменения спроса на товары в зависимости от дохода. В первом варианте экспериментов первый товар имел эластичность спроса меньше единицы, а два других — больше единицы. Во втором варианте первый и третий товары выступали предметами роскоши (эластичность превышала единицу), а второй товар — необходимым благом.

Для оценивания методами LS и Ш^, игнорирующими проблему эндогенности, в качестве регрессора использовались суммарные расходы по всем статьям семейного бюджета

3

х = ^ Уj. Переменная X во всех экспериментах моделировалась нормально распределен-

7=1

ной со средним значением 2.91 и стандартным отклонением 0.365.

В первом случае моделирование данных производилось на основе системы (1) с истинными значениями параметров, равными

а = 0.725 , а2 = 0.013 , а3 = 0.332 ; \ = 0.902, Ь2 =1.5, Ь3 =1.062 .

Значения параметров подобраны так, чтобы бюджетное ограничение (условие аддитивности) выполнялось с наименьшими погрешностями. Распределение логарифма ошибок задавалось нормальной смесью с функцией распределения вида

F (х) = (1-Я)ф(х;0, а2) + ЯФ (х; 0, k о2),

где ф(х;0, о2) — функция нормального распределения с нулевым математическим ожиданием и дисперсией о2. Величина к >1 определяет степень неоднородности данных, связанную с наличием выбросов; к = 16, о2 = 0.3 для всех уравнений. Параметр ЯЕ [0,1] характеризует степень засорения данных аномальными наблюдениями и задан равным нулю для базового варианта экспериментов без выбросов (схема 0) и 0.05 для варианта с засорением (схема 1).

2 http://www.R-project.org/.

Объемы выборок варьировались от 100 до 1000 с шагом 100. Результаты оценивания па- | раметров, осредненные по 500 повторениям, при N = 500 представлены в табл. 1. В скобках указаны среднеквадратические отклонения полученных оценок. Результаты экспериментов | базовой схемы (без выбросов) при разных объемах выборок только для оценок коэффици- ^ ента эластичности спроса на третий товар Ь3 отображены графически на рис. 1. Точками ^ отмечены средние значения оценок, отрезками — среднеквадратические отклонения, горизонтальная линия показывает истинное значение параметра.

Таблица 1. Результаты оценивания параметров в первом варианте экспериментов, N = 500

Схема-метод a а2 а3 Ъ Ъ2 4

0-FA 0.757 0.015 0.351 0.895 1.516 1.055

(0.163) (0.009) (0.091) (0.072) (0.227) (0.089)

0-LS 0.491 0.097 0.435 1.010 0.794 0.947

(0.046) (0.016) (0.052) (0.032) (0.056) (0.041)

1-FA 0.756 0.015 0.357 0.896 1.515 1.050

(0.178) (0.009) (0.099) (0.078) (0.235) (0.096)

1-LTS 0.425 0.147 0.373 1.070 0.660 1.016

(0.039) (0.039) (0.065) (0.030) (0.084) (0.058)

100 200 300 400 500 600 700 800 900 1000

N

Рис. 1. Характеристики оценки параметра наклона в зависимости от объема выборки

Из рисунка 1 очевидно, что оценки, полученные по LS, характеризуются систематическим смещением, не уменьшающимся с ростом числа наблюдений. В то же время смещение оценок, полученных с помощью FA, практически нулевое. Однако оценки FA обладают гораздо большей дисперсией, особенно существенной на малых выборках. С ростом объема анализируемых данных разница между дисперсиями оценок LS и FA лишь немного сокращается. При N = 1000 стандартные отклонения оценок, полученных с помощью FA, примерно в 2.3, 3.6 и 2.3 раза больше, чем по LS, для первого, второго и третьего уравнения соответственно.

Из таблицы 1 видно, что отмеченные особенности характерны для оценок всех трех уравнений. Ситуация принципиально не меняется и в схеме 1 при наличии аномальных наблюдений. При этом использование метода минимума определителя ковариационной матрицы позволяет и при наличии и при отсутствии выбросов получить примерно одинаковые средние оценки параметров. Тогда как оценки LTS более существенно отличаются от LS-оценок.

Стоит отметить, что проверка согласия эмпирического распределения оценок параметров, полученных с помощью FA, с нормальным распределением указывает на то, что только в редких случаях нулевая гипотеза (о согласии) не отвергается. Для сравнения критерий Шапиро -Уилка подтвердил нормальность распределения LS-оценок на 95%-ном доверительном уровне во всех экспериментах. Следовательно, гипотеза о нормальности предложенных FA-оценок не обоснована, и для исследования их свойств предлагается использовать методы размножения выборки.

Как и оценки параметров уравнений спроса, оценки параметров распределения X незначительно смещены. Для выборки объема 500 оценка среднего составила 2.911 ± 0.025, оценка стандартного отклонения 0.366 ± 0.03. Следовательно, при предположении о функциональной форме модели предложенный подход позволяет получить практически несмещенные оценки эластичности спроса и достаточно точно восстановить параметры распределения потребительских расходов.

Однако модель с постоянной эластичностью обладает рядом недостатков, в частности, в силу нелинейности по доходу не выполняется свойство аддитивности. В то же время многие теоретические системы спроса являются нелинейными, и этот недостаток часто игнорируется (Brown, Deaton, 1972). Вдобавок к этому существует немало эмпирических доказательств того, что эластичность спроса по доходу не остается постоянной, а убывает с ростом дохода (Brown, Deaton, 1972). Поэтому дополнительно проанализированы последствия выбора неверной спецификации модели.

В качестве истинной модели во втором варианте экспериментов принята линейно-логарифмическая модель спроса

Это аналогично представлению долей расходов как линейной функции от логарифма дохода, так называемой модели Уоркинга-Лизера, используемой, в частности, в (Наштап et а1., 1995). Истинные значения параметров задавались следующим образом:

Значения параметров подобраны так, чтобы выполнялись свойства аддитивности, неотрицательности функций спроса, убывающей и положительной эластичности спроса по доходу. Подробные условия, накладываемые на параметры и область определения линейно-логарифмических кривых Энгеля для обеспечения перечисленных свойств, можно найти в (Тимофеев, Колесникова, 2009). В генерируемой системе спроса эластичность спроса по доходу на первый и второй товары варьируется в широком диапазоне примерно от 1.3 до 2.6. Второй товар обладает эластичностью спроса по доходу от 0.4 до 0.7. Следовательно, второе уравнение характеризуется наименьшей степенью отклонения от модели (1) с постоянной эластичностью.

(9)

a1 = 0.1, b1 =1.27; a2 =-0.23, b2 = 5.58; a3 = 0.13, b3 =1.203077.

Дисперсии логарифмов ошибок, мультипликативно включаемых в уравнения (9), задавались одинаковыми и равными 0.38, засорения данных аномальными наблюдениями не производилось. Качество оценивания модели определялась с помощью средней ошибки аппроксимации:

1 N

MAPE = — У

AT ¿-I

Y - y

а <u ф

о

2

где У, у — истинное и прогнозное значение расходов /-го домохозяйства. При LS-оценивании предполагалось, что истинная модель (9) известна, в то время как при использовании подхода на основе FA постулировалась модель (1). Результаты, осредненные по 500 повторениям, представлены в табл. 2. В скобках приведены стандартные отклонения.

Таблица 2. Показатель точности оценивания модели во втором варианте экспериментов

Уравнение Метод N = 100 N = 300 N = 500 N = 700 N = 1000

1 FA 0.177 0.091 0.075 0.065 0.058

(0.159) (0.059) (0.038) (0.033) (0.030)

LS 0.292 0.267 0.278 0.271 0.275

(0.126) (0.115) (0.079) (0.079) (0.069)

2 FA 0.069 0.036 0.031 0.025 0.023

(0.044) (0.021) (0.016) (0.012) (0.011)

LS 0.123 0.119 0.121 0.120 0.121

(0.043) (0.033) (0.028) (0.025) (0.022)

3 FA 0.147 0.079 0.065 0.056 0.051

(0.139) (0.040) (0.030) (0.028) (0.023)

LS 0.244 0.218 0.215 0.210 0.211

(0.112) (0.084) (0.077) (0.065) (0.06)

Из таблицы 2 видно, что даже при неверной спецификации предложенный подход обеспечивает лучшее качество оценивания, чем LS при известной функциональной форме модели. При этом с ростом числа наблюдений точность оценивания модели с помощью FA значительно возрастает — средняя ошибка аппроксимации сокращается практически в три раза, если сравнивать результаты при минимальном и максимальном объеме выборки. Точность LS-оценивания существенно не зависит от объема выборки. Как и ожидалось, лучше всего оценено второе уравнение, наиболее близкое к модели с постоянной эластичностью.

Отметим также, что оценка дисперсии латентного признака во втором варианте экспериментов уже несколько смещена. Так, для выборки объемом 500 элементов оценка среднего X составила 2.914 ± 0.026, оценка стандартного отклонения — 0.388 ± 0.029. При всех исследованных объемах выборок оценка дисперсии смещена вправо относительно истинного значения, смещение сокращается с ростом N. Следовательно, из-за завышенной оценки параметра о X в случае неверной спецификации модели оценка модального значения неискаженных потребительских расходов будет занижена, а оценка среднего окажется завышенной.

Перейдем к решению практической задачи с использованием предложенного подхода. Представленный далее анализ эмпирических данных производился в среде статистической обработки R.

5. Оценка системы спроса домашних хозяйств пенсионеров

В более ранних работах автора исследовались проблемы анализа и моделирования потребления продуктов питания малообеспеченным населением Новосибирской области, в частности пенсионерами (Колесникова и др., 2009; Тимофеев, Колесникова, 2010). При решении этих задач важную роль играет определение эластичности продовольственного спроса по доходу. Применим для этой цели предложенный подход к идентификации уравнений спроса от дохода.

Для анализа использованы индивидуальные данные о домохозяйствах, полученные по итогам выборочных обследований, проводимых Росстатом, в 1-4 кварталах 2009 года3. Для формирования однородной совокупности отбор наблюдений осуществлялся по следующим признакам:

• территория — Новосибирская область;

• тип населенного пункта — городской;

• число наличных лиц в домохозяйстве равно числу лиц пенсионного возраста.

В результате объем выборки N составил 609 домохозяйств. В качестве статей расходов рассматривались укрупненные группы: продукты питания (PROD), непродовольственные товары (NEPROD), услуги (USLUG). Расходы на покупку алкогольных напитков и на питание вне дома исключены из анализа, поскольку отражают скорее индивидуальные особенности членов семьи, чем закономерности потребления. Поэтому объясняющей переменной выступали суммарные расходы по трем рассмотренным категориям, т. е. потребительские расходы без учета затрат на алкоголь и общественное питание. Далее для краткости будем называть их просто потребительскими расходами.

По представленным в логарифмической шкале значениям расходов построены корреляционные поля, изображенные на рис. 2-4. Из рисунков видно, что в исходных данных присутствуют аномальные наблюдения, доля которых по приблизительным оценкам составляет 5%. Визуальный анализ не позволяет сделать однозначных выводов о тесноте зависимости, поэтому проведено оценивание формы корреляционного поля путем построения контурных эллипсов (эллипсов рассеяния) (Тимофеев и др., 2013).

Для того чтобы продемонстрировать, насколько сильно искажается характер взаимосвязи между изучаемыми переменными из-за наличия грубых ошибок наблюдения, построены два варианта эллипсов рассеяния:

• классический (classical) при игнорировании проблемы выбросов;

• устойчивый (robust) на основе оценок моментов эмпирического распределения признаков, полученных методом минимума определителя ковариационной матрицы.

При построении эллипсов доверительная вероятность задавалась равной 0.975. Начальный размер выборочного подмножества определялся как h = [0.95 N ] = 578. Из рис. 2-4 видно, что использование робастных оценок ковариационной матрицы позволило выявить более тесную связь между признаками, о чем можно судить по меньшей площади устойчивого эллипса по сравнению с классическим. Кроме того, после исключения из выборки аномальных наблюдений использование критерия Шапиро-Уилка показало, что нулевая гипотеза о нормальности распределения каждого из признаков не отвергается с доверительной вероятностью 0.95.

3 См. Микроданные выборочных обследований бюджетов домашних хозяйств, http://obdx.gks.ru/.

Q 2

О

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(H

Рч

w

0

classical robust

QQ Ф Ф

0

1

2 «i

-2-101234 PROD

Рис. 2. Корреляционное поле продовольственных и непродовольственных расходов

О т 2 2 J

classical robust

-10 12 3 4 PROD

Рис. 3. Корреляционное поле продовольственных расходов и расходов на оплату услуг

J

СЛ

classical robust

-4 -2 0 2 4

NEPROD

Рис. 4. Корреляционное поле непродовольственных расходов и расходов на оплату услуг

4

2

С помощью методов размножения выборки (бутстрапа) проведены дополнительные исследования, направленные на выбор оптимального значения размера оценочного подмножества к для использования метода минимума ковариационной матрицы. С этой целью было сгенерировано 1000 псевдовыборок, для каждой из которых производилось оценивание эластичности спроса с помощью предложенного подхода при заданных исходных значениях доли а наблюдений, включенных в оценочное подмножество (см. шаг 1 алгоритма устойчивого оценивания ковариационной матрицы). Далее по всем повторениям вычислялись средние значения оценок параметров, представленные в табл. 3. В скобках указаны их средне-квадратические отклонения.

Таблица 3. Результаты оценивания параметров в зависимости от объема подмножества

304 (a = 0.5) 548 (a = 0.9) h 578 (a = 0.95) 593 (a = 0.975) 609 (a = 1)

b 1.03 0.92 0.89 0.80 0.84

b1 (0.18) (0.09) (0.09) (0.09) (0.12)

b 1.73 1.86 1.89 1.90 1.76

b2 (0.42) (0.20) (0.18) (0.19) (0.25)

b 0.44 0.56 0.60 0.61 0.70

b3 (0.09) (0.07) (0.07) (0.08) (0.12)

Очевидно, что наименьшие отклонения (наилучшая точность оценивания) достигаются при размере оценочного подмножества 0.95^ которое и было задано для получения итоговых результатов, приведенных в табл. 4 (средние значения и стандартные отклонения по 2000 псевдовыборкам).

Таблица 4. Результаты оценивания на основе FA, усредненные по псевдовыборкам

Расходы a b Ф Ф/ W2

PROD 0.725 0.902 0.209 0.104 2.188

(0.188) (0.087) (0.024) (0.026) (0.766)

NEPROD 0.013 1.884 0.480 0.451 1.161

(0.008) (0.181) (0.091) (0.106) (0.473)

USLUG 1.037 0.598 0.194 0.045 4.574

(0.210) (0.071) (0.017) (0.011) (1.412)

По величине Ф/у\>2 можно судить о том, насколько существенны погрешности измерения расходов домохозяйств. Значение этого показателя интерпретируется как отношение дисперсии ошибки признака к дисперсии его истинного значения. Наибольшее расхождение между ними наблюдается для расходов на оплату услуг, где дисперсия погрешности в 4.6 раза превышает дисперсию истинных расходов. Для продовольственных товаров — в 2.2 раза, для непродовольственных — в 1.2 раза. Такая существенная величина дисперсии случайных ошибок согласуется с выводами, сделанными ранее в (Наштап et а1., 1995). В условиях такого сильного искажения данных бюджетных обследований имеет место проблема малой величины коэффициента детерминации восстанавливаемых уравнений зависимости (Наштап, 2001). Это служит еще одним веским доводом в пользу необходимости корректного учета погрешностей в объясняющей переменной.

С использованием сгенерированных псевдовыборок осуществлено сравнение результа- _

со

тов оценивания параметров уравнений спроса с помощью различных методов: FA, LS и IV. § Оценки параметров по LS получены из соотношений (3), по методу IV — исходя из выраже- ^ ний (4). В качестве инструмента выбран дециль по среднедушевым располагаемым ресурсам. Й На рисунке 5 координатам пересечения отрезков соответствуют средние значения оценок па- 2 раметров уравнений (1), а половина длины отрезка равна величине стандартного отклонения. 4

Из рисунка 5 видно, что применение LS обеспечивает наименьшую дисперсию оценок параметров, что соответствует теоретическим представлениям и экспериментальным исследованиям, проведенным, например, в (Тимофеев и др., 2013). Однако оценки (3) сильно смещены относительно оценок, построенных другими методами. Причем в силу корреляции между ошибками разных уравнений, возникающей при использовании эндогенного ре-грессора, наблюдается не только известный эффект смещения оценок эластичности спроса к нулю (Наштап et а1., 1995), но и положительное смещение, а именно переоценка эластичности спроса на продовольственные товары и услуги. Оценки эластичностей, полученные по методу IV и с помощью FA, почти сопоставимы по вариации и близки по средней величине. При этом средние оценки IV отклоняются относительно средних оценок FA в том же направлении, что и LS.

Благодаря использованию методов размножения выборки удается получить информацию об эмпирических распределениях оценок эластичности. В таблице 5 значения оценок эластичностей, построенных предложенным методом, для удобства восприятия и интерпретации представлены в сгруппированном виде. По полученным значениям можно судить о характере изменения расходов домохозяйств с ростом дохода. Значения, не превышающие единицы, свидетельствуют о первостепенной необходимости определенной категории товаров. К таким здесь, безусловно, отнесены услуги. Отсюда становится понятно, что речь идет преимущественно о таких базовых расходах, как оплата жилья. Существенная часть расходов малообеспеченных пенсионеров приходится именно на эту статью: 69-73% от расходов на оплату услуг для первых четырех децильных групп.

2.0

FA IV LS

NEPROD

1.5

1.0

PROD

USLUG 1-=1-1

0.5 J-,-,-,-,-,-^-,—

0.0 0.2 0.4 0.6 0.8 1.0 1.2

f

Рис. 5. Результаты оценивания параметров разными методами

Таблица 5. Распределения оценок эластичности, построенных на основе FA, %

Расходы <1 Оценка эластичности [1; 2] >2

PROD 87 13 0

NEPROD 0 74.65 25.35

USLUG 100 0 0

Расходы на питание в большинстве случаев (табл. 5) также рассматриваются как необходимые, но в 13% случаев они растут быстрее, чем общие потребительские расходы. Это согласуется с выводом, полученным ранее (Денисов и др., 2013) по результатам непараметрической идентификации уравнения продовольственных расходов: для некоторых децильных групп населения эластичность спроса на продукты питания превышает единицу.

Наконец, непродовольственные товары выступают предметами роскоши, но характер изменения расходов на эту категорию также различен. Так, примерно в 75% случаев доля непродовольственных товаров в бюджете растет более медленными темпами, чем общие потребительские расходы, тогда как в остальных случаях рост доли происходит более быстрыми темпами. Это указывает на то, что показное (демонстративное) потребление, не обусловленное рациональными нуждами, наиболее сильно проявляется именно в группе непродовольственных расходов.

Преимуществом предложенного подхода к оцениванию уравнений спроса является также возможность восстановления параметров распределения истинного (неискаженного) дохода. В таблице 6 проведено сравнение наблюдаемого (искаженного) и восстановленного (истинного) распределения потребительских расходов по значениям квантилей. Осреднение произведено по 2000 псевдовыборок. В скобках указаны стандартные отклонения.

Таблица 6. Характеристики наблюдаемого (искаженного) и восстановленного (истинного) распределения потребительских расходов

Потребительские Первый Мода Медиана Среднее Третий

расходы квартиль значение квартиль

Наблюдаемые 14.255 15.444 18.990 22.984 25.376

(0.274) (0.717) (0.405) (0.658) (0.651)

Восстановленные 14.500 16.228 18.414 19.618 23.393

(0.300) (0.345) (0.373) (0.520) (0.789)

Наиболее близкими можно считать значения 25%-ного квантиля и медианы. Это говорит о том, что представители малообеспеченных домохозяйств в меньшей степени склонны искажать свои расходы. В то же время в среднем (по медиане) случайные ошибки компенсируются. Остальные характеристики распределений довольно сильно различаются. При этом оценка математического ожидания, полученная по восстановленным параметрам распределения истинных потребительских расходов, в среднем меньше наблюдаемой почти на 3.4 тыс. руб. Что касается оценки моды, то, наоборот, восстановленные значения в среднем превышают наблюдаемые, но не столь значительно. Это свидетельствует о том, что основное искажение данных о потребительских расходах приходится на домохозяйства пенсионеров с высоким доходом.

6. Заключение 8

<u ф

Предложенный подход направлен на решение проблемы искажения оценок эластичности | спроса по доходу в условиях эндогенности потребительских расходов, а также дополняет ^ разработанную автором методику оценки экономического положения населения. Проана- ^ лизированной постановке задачи присущи некоторые ограничения. Наиболее существенны из них следующие.

1. Фиксация функциональной формы зависимости между расходами на отдельные категории товаров и потребительскими расходами. Несмотря на традиционность использования двойной логарифмической модели, ей присущи определенные недостатки. В частности, жесткое фиксирование постоянной эластичности спроса по доходу для всех слоев населения не позволяет обнаружить закономерности изменения эластичности с ростом дохода.

2. Необходимость выделения гомогенной группы потребителей может приводить к существенному сокращению объема выборки, что уменьшает надежность оценок эластичности спроса.

3. Предположение о логнормальном распределении потребительских расходов часто критикуется, в то время как использование других подходящих классов распределений (McDonald, 1984) позволило бы лучше описать расслоение населения по материальному благосостоянию.

Преодоление такой ограниченности возможно в рамках развиваемых автором подходов к непараметрическому и полупараметрическому оцениванию моделей с ошибками в объясняющих переменных (Денисов и др., 2013; Timofeeva, 2014). Эти подходы обладают большей гибкостью, но предполагают известной дисперсию ошибок входного фактора (или ее отношение к дисперсии ошибки отклика), в то время как подход на основе факторного анализа свободен от такого предположения и позволяет найти оценки дисперсии ошибок. Комбинирование этих подходов открывает более широкие возможности для развития методов оценивания эластичностей спроса по данным выборочных бюджетных обследований домо-хозяйств в направлении повышения их адекватности и применимости на практике.

Список литературы

Айвазян С. А. (2012). Анализ качества и образа жизни населения: эконометрический подход. М.: Наука.

Айвазян С. А., Енюков И. С., Мешалкин Л. Д. (1985). Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика.

Бирман И. (2000). Уровень жизни: проблемы измерения. Экономическая наука современной России, 2, 35-52.

Денисов В. И., Тимофеева А. Ю., Хайленко Е. А., Бузмакова О. И. (2013). Устойчивое оценивание нелинейных структурных зависимостей. Сибирский журнал индустриальной математики, 4, 47-60.

Иберла К. (1980). Факторный анализ. М.: Статистика.

Интрилигатор М. (1975). Математические методы оптимизации и экономическая теория. М.: Прогресс.

Кирута А., Шевяков А. (1995). Дифференцированный баланс доходов и потребления населения: новые аспекты теории и практических применений. Вопросы статистики, 7, 3-13.

Колесникова А. Ю., Скосырский В. А., Тимофеев В. С., Храмцова О. В., Чистяков В. М. (2009). Оценка доступности социально-значимых товаров для малообеспеченного населения. Сибирская финансовая школа, 2, 24-30.

Панкратьев Н. (1997). Статистические методы анализа экономического расслоения населения. Вопросы статистики, 1, 22-28.

Сычева B. C. (1998). Исторический очерк бюджетных исследований в Западной Европе и США. Социологические исследования, 4, 48-56.

Тимофеев В. С., Колесникова А. Ю. (2009). Идентификация моделей зависимости спроса от дохода в рамках неоклассической теории. Доклады Академии наук высшей школы РФ, 2, 51-65.

Тимофеев В. С., Колесникова А. Ю. (2010). Исследование устойчивости в задачах оптимизации потребительского выбора. Доклады Академии наук высшей школы РФ, 1, 47-61.

Тимофеев В. С., Щеколдин В. Ю., Тимофеева А. Ю. (2013). Идентификация зависимостей признаков стохастической природы на основе регрессии Деминга. Информатика и ее применения, 7 (2), 60-68.

Шабанов В. Л. (2012). Уровень и уклад жизни сельского населения: оценка трансформации на основе анализа структуры потребления. Вопросы статистики, 7, 72-77.

Эббес П. (2007). Инструментальные переменные и эндогенность: нетехнический обзор. Квантиль, 2, 3-20.

Эфрон Б. (1988). Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика.

Bai J. (2003). Inferential theory for factor models of large dimensions. Econometrica, 71 (1), 135-171.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Blundell R., Chen X., Kristensen D. (2007). Semi-nonparametric IV estimation of shape-invariant Engel curves. Econometrica, 75 (6), 1613-1669.

Brown J. A. C., Deaton A. S. (1972). Surveys in applied economics: Models of consumer behaviour. Economic Journal, 82, 1145-1236.

Deaton A. S. (1986). Demand analysis. In: Handbook of Econometrics, vol. 3. New-Holland: Amsterdam and New York, 1767-1839.

Ebbes P., Wedel M., Boeckenholt U. (2009). Frugal IV alternatives to identify the parameter for an endogenous regressor. Journal of Applied Econometrics, 24 (3), 446-468.

Fauconnier C., Haesbroeck G. (2009). Outliers detection with the minimum covariance determinant estimator in practice. Statistical Methodology, 6, 363-379.

Hausman J. (2001). Mismeasured variables in econometric analysis: Problems from the right and problems from the left. Journal of Economic Perspective, 15 (4), 57-67.

Hausman J., Newey W. K., Powell J. L. (1995). Nonlinear errors in variables: Estimation of some Engel curves. Journal of Econometrics, 65 (1), 205-233.

McDonald J. (1984). Some generalized functions for the size distribution of income. Econometrica, 52 (3), 647-663.

Rousseeuw P. J., Leroy A. M. (1987). Robust regression and outlier detection. New York: Wiley-Inter-science.

Rousseeuw P. J., van Driessen K. (1999). A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41 (3), 212-223.

Timofeeva A. Yu. (2014). Orthogonal regression for nonparametric estimation of errors-in-variables models. International Journal of Mathematical, Computational, Physical and Quantum Engineering, 8 (8), 1051-1055.

Vanduffel S., Hoedemakers T., Dhaene J. (2005). Comparing approximations for risk measures of sums of nonindependent lognormal random variables. North American Actuarial Journal, 9 (4), 71-82.

to <u <u

Wald A. (1940). The fitting of straight lines if both variables are subject to error. The Annals of Math- o

ematical Statistics, 11 (3), 284-300.

References

2

Ajvazjan S. A. (2012). Analiz kachestva i obraza zhizni naselenija: jekonometricheskij podhod. M.: Nauka.

Ajvazjan S. A., Enjukov I. S., Meshalkin L. D. (1985). Prikladnaja statistika: Issledovanie zavisimo-stej. M.: Finansy i statistika.

Birman I. (2000). The level of life: The measuring problems. Economics of Contemporary Russia, 2, 35-52.

Denisov V. I., Timofeeva A. Ju., Hajlenko E. A., Buzmakova O. I. (2013). Robust estimation of nonlinear structural models. Journal of Applied and Industrial Mathematics, 8 (1), 28-39.

Iberla K. (1980). Faktornyj analiz. M.: Statistika.

Intriligator M. (1975). Matematicheskie metody optimizacii i jekonomicheskaja teorija. M.: Progress.

Kiruta A., Shevjakov A. (1995). Differencirovannyj balans dohodov i potreblenija nasele-nija: novye aspekty teorii i prakticheskih primenenij. Voprosy statistiki, 7, 3-13.

Kolesnikova A., Skosyrsky V., Timofeev V., Khramtsova O., Chistyakov V (2009). Assessment of essential goods availability for population with poor financial security. Siberian Financial School, 2, 24-30.

Pankrat'ev N. (1997). Statisticheskie metody analiza jekonomicheskogo rassloenija naselenija. Voprosy statistiki, 1, 22-28.

Sycheva B. C. (1998). Istoricheskij ocherk bjudzhetnyh issledovanij v Zapadnoj Evrope i SShA. Socio-logicheskie issledovanija, 4, 48-56.

Timofeev V. S., Kolesnikova A. Ju. (2009). Identification of demand models of income with a view to neoclassical economics. Proceedings of the Russian Higher School Academy of Sciences, 2, 51-65.

Timofeev V S., Kolesnikova A. Ju. (2010). The sensitivity analysis for optimization problem of consumer choice. Proceedings of the Russian Higher School Academy of Sciences, 1, 47-61.

Timofeev V. S., Schekoldin V Yu., Timofeeva A. Yu. (2013). The error-in-variables model identification on the basis of Deming's approach. Informatics and Applications, 7 (2), 60-68.

Shabanov V L. (2012). Living standard and way of life of the rural population: Transformation estimation on the basis of consumption structure analysis. Voprosy Statistiki, 7, 72-77.

Ebbes P. (2007). A non-technical guide to instrumental variables and regressor-error dependencies. Quantile, 2, 3-20.

Jefron B. (1988). Netradicionnye metody mnogomernogo statisticheskogo analiza. M.: Finansy i statis-tika.

Bai J. (2003). Inferential theory for factor models of large dimensions. Econometrica, 71 (1), 135-171.

Blundell R., Chen X., Kristensen D. (2007). Semi-nonparametric IV estimation of shape-invariant Engel curves. Econometrica, 75 (6), 1613-1669.

Brown J. A. C., Deaton A. S. (1972). Surveys in applied economics: Models of consumer behaviour.

Economic Journal, 82, 1145-1236.