Научная статья на тему 'ОБОБЩЕНИЕ МЕТОДА ХЕКМАНА И МОДЕЛИ С ПЕРЕКЛЮЧЕНИЕМ НА СЛУЧАЙ ПРОИЗВОЛЬНОГО ЧИСЛА УРАВНЕНИЙ ОТБОРА'

ОБОБЩЕНИЕ МЕТОДА ХЕКМАНА И МОДЕЛИ С ПЕРЕКЛЮЧЕНИЕМ НА СЛУЧАЙ ПРОИЗВОЛЬНОГО ЧИСЛА УРАВНЕНИЙ ОТБОРА Текст научной статьи по специальности «Математика»

CC BY
310
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная эконометрика
Scopus
ВАК
Область наук
Ключевые слова
СИСТЕМАТИЧЕСКАЯ ОШИБКА ОТБОРА / РЕГРЕССИОННЫЕ МОДЕЛИ С ПЕРЕКЛЮЧЕНИЕМ / SAMPLE SELECTION / SWITCHING REGRESSION MODEL

Аннотация научной статьи по математике, автор научной работы — Коссова Е.В., Потанин Б.С.

В данной статье предлагается модель, обобщающая регрессионную модель с переключением и модель Хекмана на случай произвольного числа бинарных уравнений отбора наблюдений. Рассматриваются два способа оценивания модели при допущении о совместном нормальном распределении случайных ошибок: метод максимального правдоподобия и двухшаговая процедура, обобщающая классический подход Хекмана. Качество оценок модели проверяется при помощи анализа симулированных данных в случае двух уравнений отбора. Результаты данного анализа свидетельствуют о значительном превосходстве точности оценок предложенного метода над методом наименьших квадратов и методом Хекмана.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Heckman method and switching regression model multivariate generalization

The article is devoted to simultaneous estimation of one continuous and various binary equations under assumption of disturbances joint normality. It generalizes Heckman selection and switch-probit models to multivariate case. Following Heckman's univariate model implementation both two step and maximum likelihood procedures are provided. In order to test model performance and correctness we execute analysis on simulated data. It shows that when there are two selection equations generalized model estimates accuracy noticeably outperforms those that are obtained using least squares or Heckman's methods.

Текст научной работы на тему «ОБОБЩЕНИЕ МЕТОДА ХЕКМАНА И МОДЕЛИ С ПЕРЕКЛЮЧЕНИЕМ НА СЛУЧАЙ ПРОИЗВОЛЬНОГО ЧИСЛА УРАВНЕНИЙ ОТБОРА»

Прикладная эконометрика, 2018, т. 50, с. 114-143. Applied Econometrics, 2018, v. 50, pp. 114-143.

Е. В. Коссова, Б. С. Потанин1

Обобщение метода Хекмана и модели с переключением на случай произвольного числа уравнений отбора

В данной статье предлагается модель, обобщающая регрессионную модель с переключением и модель Хекмана на случай произвольного числа бинарных уравнений отбора наблюдений. Рассматриваются два способа оценивания модели при допущении о совместном нормальном распределении случайных ошибок: метод максимального правдоподобия и двухшаговая процедура, обобщающая классический подход Хекмана. Качество оценок модели проверяется при помощи анализа симулированных данных в случае двух уравнений отбора. Результаты данного анализа свидетельствуют о значительном превосходстве точности оценок предложенного метода над методом наименьших квадратов и методом Хекмана.

ключевые слова: систематическая ошибка отбора; регрессионные модели с переключением. JEL classification: C34.

введение

При изучении различных экономических явлений исследователям довольно часто приходится сталкиваться с проблемой селективности выборок. В этом случае существует некоторое правило, которое определяет, будет ли доступно то или иное наблюдение. Классическим примером является наблюдение заработной платы индивидов: на вопрос о заработной плате отвечают лишь занятые респонденты (Несктап, KiШngsworth, 1987). Величина целевого показателя может быть связана с правилом отбора наблюдений, если существуют ненаблюдаемые факторы, которые оказывают влияние как на целевой показатель, так и на вероятность того, что наблюдение попадет в выборку. В примере с заработной платой таким ненаблюдаемым фактором может выступать желание сделать карьеру.

Игнорирование селективности имеющихся в распоряжении исследователя выборок может приводить к серьезному смещению результатов при регрессионном оценивании.

Д. Хекманом был предложен метод, учитывающий возникающее смещение (Несктап, 1979). Он рассматривал случай, когда существует одно условие отбора и одно целевое уравнение. Однако некоторые задачи требуют рассмотрения более сложных селективных

1 Коссова Елена Владимировна — Национальный исследовательский университет «Высшая школа экономики», Москва; ekossova@hse.ru.

Потанин Богдан Станиславович — Национальный исследовательский университет «Высшая школа экономики», Москва; bpotanin@hse.ru.

механизмов. Так, например, уравнение отбора может быть не бинарным, а порядковым |

(Jimenez, Kugler, 1987; Vella, 1993), непрерывным (Garen, 1984) или категориальным (Jeffrey, McFadden, 1984). Последний случай эквивалентен ситуации, когда отбор наблюдения опре- ^ деляется несколькими бинарными правилами, т. е. значением многомерной бинарной пере- ^ менной. <§

Данная работа является обобщением классического подхода: рассматривается несколь- g ко условий отбора и несколько форм целевого уравнения. Задача решается в максимально общей постановке. Какое именно целевое уравнение имеет место для изучаемого показате- ® ля, определяется комбинацией правил отбора. В частном случае, для некоторых из них наблюдение целевого показателя может отсутствовать. Также могут отсутствовать наблюдения по некоторым комбинациям самих правил, что соответствует схеме последовательного принятия решений. Корреляции правил отбора друг с другом (тетрахорические корреляции) и с основными уравнениями являются дополнительными параметрами модели, что позволяет по результатам оценивания проверять гипотезы о характере зависимости случайных ошибок уравнений.

Из-за сложностей реализации метода максимального правдоподобия, работы, рассматривающие многомерный селективный механизм, встречаются редко и ограничиваются двумерным случаем и предположением о независимости правил отбора (Vella, 1998; Cinzia, 2009).

Полученные результаты являются новыми, поскольку в литературе, посвященной данному классу моделей, до сих пор не рассматривался случай произвольного числа уравнений отбора и форм основного уравнения. Алгоритм двухшаговой процедуры в случае более чем одного уравнения отбора также предлагается впервые.

1. Метод Хекмана

Используемая в данной работе система обозначений описана в Приложении. Формально, модель Хекмана имеет следующий вид:

у* = ХЬ+е,

2*. = м>;у + и,, 1, если г * > 0, т.е. и i. > —w ; у, — 1, если г * < 0, т.е. и ^ <—w ; у.

,u,)~ N

о ро ро 1

У,

| У *, если z, =1,

не наблюдаем, если z. = — 1,

i е {1,..., n},

где у { относится к наблюдаемой заработной плате индивида I, а 2 { — бинарная переменная на трудоустройство, принимающая единичное значение для тех, кто работает, и минус один иначе; х{ и w i — векторы значений объясняющих факторов, Ь и у — векторы их коэффи-

циентов, е. и и1 — случайные ошибки, п — число наблюдений. Число компонент векторов х{ и Ь , Щ и у определяется числом независимых переменных, включенных в уравнения.

Данную модель можно оценить методом максимального правдоподобия или с помощью двухшаговой процедуры, предложенной Хекманом в работе (Несктап, 1976).

Двухшаговая процедура. При неслучайном отборе математическое ожидание зависимой переменной имеет вид

Е(я) = Е(у* 12, =1) = Е(у* > 0) =

= х$ + Е(е>, >-Щ у) = (1)

/ (Щ'у)

= х'Ь + ро^^^ = х'Ь + роХг, Р (Щ у)

dF(х) /

где Я:=Я( Щу), 1( х) = / (х)/Р (х) =-/Р (х) — обратное отношение Миллса, а / и Р —

ах /

функции плотности и распределения стандартного нормального закона соответственно.

Представим у. в виде у i = х1'/3 + рок. + V., где vi — случайная ошибка с нулевым математическим ожиданием и дисперсией, равной условной дисперсии D(yI. | 2* > 0).

Для получения состоятельных оценок параметров предлагается на первом шаге, используя пробит модель, оценить у и вычислить оценки к ., а на втором шаге методом наименьших квадратов (МНК) оценить ¡3 и ро.

При проверке гипотез о коэффициентах необходимо учитывать, что распределение случайной ошибки V является гетероскедастичным. Более того, поскольку на втором шаге вместо истинного обратного отношения Миллса к используется его оценка, ковариационная матрица оценок коэффициентов должна быть скорректирована с поправкой на зависимость наблюдений.

2. обобщение метода Хекмана

2.1. Обобщенная модель Хекмана

Предположим, что существует т правил отбора наблюдений целевого показателя, задаваемых значениями бинарных переменных 2^, 5 £ {1,...,т} . Если для наблюдения . правило 5 выполнено, бинарная переменная 2^ принимает значение 1, если не выполнено, то -1. Число всех возможных комбинаций правил составляет 2т. Перенумеруем те комбинации правил, для которых доступны значения основной переменной. Будем считать, что всего таких комбинаций г (1 < г < 2т). Тогда все наблюдения, за исключением тех, для которых значения основной переменной недоступны, разбиваются на г групп в зависимости от имевшей место комбинации правил. Будем считать, что номер группы совпадает с номером соответствующей ей комбинации. Оставшиеся наблюдения образуют группу, которой присвоим нулевой номер. Данная группа может быть пустой, если значения основной переменной доступны для всех наблюдений. Для каждого наблюдения . определим значение функции индекса gi = g(2и,..., 2т{) = 5 (0 < 5 < г), равное номеру группы, к которой относится наблюдение ..

Рассмотрим ситуацию, когда в регрессионном уравнении, связывающем зависимую переменную у* и набор объясняющих переменных х {, вектор параметров и случайная ошибка е { зависят от группы g7, в которую попало 7 -е наблюдение, т. е. уравнение имеет вид у * = х'в +е .

Уравнения отбора и определяемое ими основное уравнение могут быть зависимыми из-за коррелированности входящих в них случайных ошибок, что и порождает проблему селективности. Предполагаем, что совместное распределение случайных ошибок является нормальным.

Формально модель может быть записана следующим образом:

У* = х',Р& +еи&, = <У, + и,, 5 еа..^m),

о

Щ

SS

QQ

о о о

£ Щ

iu

= I1 если Z* > 0, т.е. usl >—w'slys,

если z* < а т.е. usl <-w'sl ys:

gi=g(zll,...,z™), gi e {0,...,r},

U = К — ишг )1

(e,a,U!)' ~ N

, E g

где E а =

s g Pi, gs Pi, gs

Pi, g° 1 Pii Pi, g° Pii 1

Pm, g° Pin

Рш, g°

Pim

I У*, если g, > 0,

у, =1 {1,..., п}.

I не наблюдаем, если g7 = 0,

z

Как и в одномерном случае, х { и м,, — векторы значений объясняющих факторов для наблюдения 7 основного уравнения и уравнения отбора 5, 3g и у, — векторы коэффициентов, е{ и и, — случайные ошибки, п — число наблюдений.

В рамках предложенной модели математическое ожидание наблюдаемого целевого показателя является условным:

Е(у.) = Е(у. | г,.,...,г .) = Е(у. | —г, ж. < ,...,-г и < г мг'у ) =

, / ' т,' V 1,1, 1, 1,11? ' т, т, т, т,! т'

= х '.в + Е(е | —г, ж. < г,.м>! у,,...,—г и < г м' у ).

,г g¡ V I 1, 1, 1, 1,/ 1' ' т, т, т, т,1 т'

Обозначим

z1i zu zi,w'i y -ziUi, Pi,a "

z = Z . m , z i = z . m z w i y mi mif m _ , U , = —z u . m m и Pg. = P m, g,

В этих обозначениях (2) принимает вид:

E(yi 1 ZU ,..., zm, ) = x'tP & + E(e i, & 1 -1i ^ Z1I,..., "m, ^ ). (3)

Введем обозначения для отношения компонент градиента V, гессиана H и тензора D3, состоящего из третьих производных функции распределения нормального случайного вектора u к ее значению :

- VFa (x)

Г'( x) = Wv, (4)

F,(x)

H (F- (x))

Л"'(x) , (5)

Fu, (x)

- D3(F- (x)) ©"'( x) =—-—. (6)

Fu, (x)

Элементы данных отношений представляют собой не что иное, как значения маргинальных и совместных функций плотности усеченного сверху в точке x = (x1,..., xm) нормального случайного вектора " (см. Приложение, п. 3.3, формулы (26) - (28)). Далее для j-й компоненты вектора X"' (z ,), j G {1,..., m} , являющейся j-й маргинальной плотностью, будем использовать обозначение X"j(zi), для элемента (kj) матрицы Л"() — обозначение Л" (zt) и положим X" (z) = (X" (Zi),..., X""" (znc ))t, Л " (z) = (Л" (z),..., Лj (z^ ))t.

Второе слагаемое в выражении (3) представляет собой условное математическое ожидание компоненты многомерного нормального вектора. Используя лемму 1 (см. Приложение, п. 3.3, формула (29)), представим условное математическое ожидание (3) в виде

E(У I zi,,...,zm) = xt(igi +^Og Pja Xj (z, (7)

Таким образом, на математическое ожидание наблюдаемых значений y i оказывают влияние как переменные, входящие в основное уравнение, так и переменные, входящие в уравнения отбора наблюдений wsi, s G {1,...,m} . Уравнение (7) является обобщением уравнения (1).

Аналогично, в силу леммы 1 справедливо следующее выражение для условной дисперсии:

(m

1-SaLA- Xk( z) +

k=1

/ \2x (8)

m __/ m \

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+2 z>iPk,a 2 zi(Pj,a ~PjPk,a )Л£ (z,) _ I 2 Pk,a X" (z,)

k=1 j*k V k=1

2 Отношение (4) можно считать обобщенным обратным отношением Миллса.

2.2. Оценивание обобщенной модели Хекмана методом максимального правдоподобия

Вклад /-го наблюдения в функцию правдоподобия может быть записан в виде

^ ^— Um, ^ I £g, = У t - X',b g ) fes (У - X',b g \ еСЛИ St > °

Соответственно, функция правдоподобия имеет вид

n

L(El— Er , b — Pr , Y1Ym ) = П

i=1

r =

Fu,\egi =y, -x,Pgi (Z1tWi tYl ,..., ZmtWm, Ym )feg_ (У t - X',b g X еСЛИ g t > 0, FZ (Z1,<Yl,..., Zm,WL Ym X еСЛИ gt = 0.

О Щ

P(yt, Z1t,..., Zmt) | ^ ~ ~ ^ ~ \ n £

lPK- ^ Um, ^ ZmtX еСЛИ gt = 5

Здесь /£ — плотность распределения случайной ошибки , которая в силу предположения модели является нормальной с нулевым математическим ожиданием и дисперсией о . F~ — совместная функция распределения т компонент случайного вектора йi, а F~ — его условная функция распределения, которые, по предположению мо-

дели, являются нормальными (см. Приложение, п. 2.1). Отметим, что для вычисления F~ и F~ _ _ достаточно знать соответствующую ковариационную матрицу и математическое ожидание. Ковариационная матрица и математическое ожидание и{ идентичны и{, за исключением изменения знака некоторых компонент, в зависимости от соблюдения правил отбора, т. е. значений г (см. Приложение, п. 2.2). Для вычисления ковариационной матрицы и математического ожидания F~ _ _ используются свойства условного многомерного нормального распределения (см. Приложение, п. 2.1).

Таким образом, изменение знаков компонент ии условие на £& влияют лишь на параметры распределения (математическое ожидание и ковариационную матрицу) и , которое по-прежнему остается нормальным.

Отметим, что случай с последовательным применением правил соответствует ситуации, когда некоторые комбинации правил отбора не наблюдаемы, т. е. селективность присутствует и в правилах отбора. При этом функция правдоподобия будет выглядеть аналогично, с той поправкой, что вклад наблюдений, для которых определены не все значения правил, будет записываться как совместная вероятность значений бинарных переменных, соответствующих оставшимся (наблюдаемым) правилам.

Оценивание данной функции правдоподобия является непростой вычислительной задачей, сложность которой значительно возрастает с увеличением числа правил т. По этой причине может быть полезна процедура двухшагового оценивания, обобщающая подход, предложенный в (Несктап, 1979). Данная процедура позволяет получить состоятельные асимптотически нормальные оценки, проигрывающие по эффективности оценкам максимального правдоподобия. Помимо самостоятельной ценности, полученные с помощью двухшаговой процедуры оценки могут быть использованы в качестве начальных точек при нахождении максимума функции правдоподобия.

2.3. Двухшаговая процедура оценивания обобщенной модели Хекмана

Уравнение (7) можно было бы оценить с помощью МНК с поправкой на гетероскеда-стичность (8), если бы были известны значения обобщенного обратного отношения Милл-са. Согласно теореме о двухшаговой процедуре оценивания (Murphy, Topel, 2002), можно получить состоятельные оценки параметров, если оценивать (7) с помощью МНК, используя вместо обобщенных отношений Миллса их состоятельные оценки. В свою очередь, состоятельные оценки обобщенных отношений Миллса можно получить, оценив систему бинарных уравнений, задающих правила отбора наблюдений. Таким образом, оценивание разбивается на два этапа.

1. На первом шаге оценивается система бинарных уравнений отбора, находятся оценки Уs и Psk, s,k Е {1,...,m} . Рассчитываются оценки обобщенных отношений Миллса .

2. На втором шаге, как и в процедуре Хекмана, с помощью МНК оцениваются уравнения (7) для каждого значения gt = c, c Е {1,...,r} , по nc наблюдениям, где nc — число наблюдений, относящихся к группе c , т. е. { : gt = c} :

гп

У, = х'Зс + )1) + V,-, где 0Х] = аср]с,

1=1

с заменой обратных отношений Миллса А" () их состоятельными оценками А" ({), полученными на предыдущем шаге.

Обозначим через е вектор остатков регрессии второго шага, тогда

plim

/ пс \

-2 Kl*» Zmä )--^

УПе Ы П

= 0. (9)

В соответствии с формулами (8) и (9), состоятельная оценка дисперсии может быть записана в виде

5 с2 =

{ п , _ / _ \ 2 \\

'е+212К z* 1 k( z )-2К* 2zi (К -p ^ К)Ä I (z 42* К ^ (z)

. (10)

е

У 1=1 \ к=1 к=1 \ к=1 'II

Зная оценки ¡Зх и а^, можно получить состоятельные оценки коэффициентов корреляции:

Рк,с =Ьхк/ас, к ^ т.

2.4. Состоятельная оценка асимптотической ковариационной матрицы

Используя предложенную Хекманом методику для классической двухшаговой процедуры, получим состоятельную оценку асимптотической ковариационной матрицы МНК-оценок параметров уравнения (7). Введем диагональную матрицу А размерности пс X пс,

3 В случае если некоторые комбинации правил не наблюдаются, оценивается система бинарных уравнений, учитывающая селективное смещение.

п- ^го

Т^у^ что А„ =1-Ос 2D(yi 1 Z1t,..., Zmt). ЧеРе3 X =[х X; (Z) о Z1 ... X"m (Z) О Zm ]обозна-чим расширенную матрицу переменных размера пс X (rang (X) + m) , где rang (X) определяется числом независимых переменных основного уравнения, а символ о означает покомпонентное умножение векторов. Тогда, в силу гетероскедастичности ошибок (8), ковариационная матрица вектора оценок коэффициентов b' = [bC - bX ] имеет вид

Cov(b) = о2 (XX)-1 X'(I-А)X(XX)-1.

Однако, поскольку на втором шаге процедуры оценивается регрессия (7), в которой истинные значения g и р заменены их состоятельными оценками g и р , ковариационная матрица должна быть скорректирована:

£ о

Щ

Я

QQ О о

о £

CQ

iu

Cov

tri \ I tri

Xßc +^осрКс (1U (I) ° ^) + v = s2 (/-A) + ac2Cov|^^ о AU (|)

k=1

, k=1

(11)

Введем матрицу Якоби рассматриваемого вектора функций от коэффициентов при переменных (у) и коэффициентов корреляций (р) т уравнений отбора. Для определенности будем считать, что все т уравнений имеют одну и ту же матрицу переменных W. Тогда матрица

I tri

Якоби T = j\^pk cik о AI (I)

имеет размер пс X (rang (W) • m + (m2 — m) / 2).

Обозначим через Г столбец Г , относящийся к 5-му коэффициенту, 1 < 5 < rang (W), k-го, 1 < k < m, уравнения отбора, а через Г — столбец, относящийся к коэффициенту корреляции между ошибками l -го и k -го селективных уравнений. Всего различных коэффициентов корреляции (m2 — m)/2 . Тогда, дифференцируя линейную комбинацию маргинальных плотностей усеченного многомерного нормального распределения по указанным параметрам, можно получить столбцы якобиана.

Для / -го элемента столбца Г , используя формулы (31) и (32) (см. Приложение, п. 3.4), получаем:

( ( W

КI =Wk ^PuZjZ* И (Z)-X; (Z,)X (Z,))-Pk,C ZktX; (Z,)+(к* (Z~))2 +^р1д^ (^^^)Z^^Z

\ J*k V

j*k

П

Для столбцов, соответствующих коэффициентам корреляции рл, применяя формулы (33) и (34) (см. Приложение, п. 3.4), имеем:

(TPk ),=

(I

Ii Pi

//

IliIkipiklki Ili J U r ~ \

-2--Al'( I )

I-P2k

+ Ii P

k ,c

V

\\

Zli Zki piklli — Ik l-PPk

Ak (i,)+2

7-HZfi (PlkPj -PV )

1—PPk

®jk (I,)

+

■At( I,)

A (St) +2

j*i ,k

Ik,IJ1 (Plk Pj -Pk, )

1 —Pik

Щк (i,)

+

+

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 Ijinii Pj с (®% (I,) — Aj( I,) Ak (I,)).

j*i,k

Наконец, обозначим через I" матрицу Г , рассчитанную при 2, р и сс. Для получения асимптотической оценки второго слагаемого в (11) воспользуемся многомерным дельта-методом:

(m

° с 2 * Рк11(z)

к=1

= о 2Г As.Cov

Г '.

где As.Cov

оценка асимптотическом ковариационном матрицы параметров уравне-

ний отбора, т. е. матрица размера (rang (W) • m + (m2 — m) / 2}x (rang (W) • m + (m2 — m)/ 2}, порядок столбцов которой соответствует порядку столбцов матрицы Якоби.

Таким образом, оценка асимптотической ковариационной матрицы оценок коэффициентов второго шага обобщенной процедуры Хекмана имеет вид4

As.Cov( b) = о 2 (XX)-1 X

(I — A) + Г As.Cov

Г'

X( XX)-1.

2.5. Предельные эффекты

Для тех независимых переменных, которые входят только в основное уравнение и отсутствуют в уравнениях отбора, предельный эффект, очевидно, равен значению соответствующего коэффициента. Однако для тех независимых переменных, которые входят как в основное уравнение, так и в одно или несколько уравнений отбора, предельный эффект отражает совокупное влияние выбранной переменной как на целевой показатель (коэффициент бета), так и на величину смещения. Рассмотрим произвольную переменную р, которая входит хотя бы в одно уравнение отбора и имеет коэффициент Ьр в основном уравнении. Ее предельный эффект равен

dE(y,\zu,...,Zm,)_а , _ d1j(z)

dp

= Ь,+о2Р; z j

j=i

dp

(12)

Обозначим gp — коэффициент при p вj-м уравнении, а Yp (Z{) = z jiо g p f g • dlj (Z{)/dp —

j' j.;

часть предельного эффекта р, связанную с у-м уравнением отбора. Ур может быть рассчитана дифференцированием плотности усеченного многомерного нормального распределения по формулам (31) и (32):

ад 2)

Yp ( zi) = zjiо &Р J, ш p dZ

zki g p-rf"^ = zjiо g-Р j-: k=1 dZ к

2 zk, g p(A j (z() — 1j( st) 1k( z()}

\k*j

■ g, о p

r p g,H J

/

zji 1 (zj) + ((z. ))2 +2 z^i p к Лj (z,)

V

k*J

4 Данная процедура оценивания ковариационной матрицы для одномерного случая впервые была предложена в (Несктап, 1979).

5 Будем рассматривать общую совокупность объясняющих переменных. Если в какое-то уравнение рассматриваемая переменная не входит, коэффициент при ней считается равным нулю.

Подставляя полученный результат в (12), имеем:

S

dE(,...,) = b + kYJ (z )

# ^ 1

о

Щ

QQ

3. оценка качества обобщенного метода Хекмана

Щ lu

3.1. Обзор исследований свойств и качества оценок модели Хекмана

Подробный обзор исследований, посвященных изучению свойств и качества оценок методом Хекмана, можно найти в (Puhani, 2000). Остановимся на основных выводах.

Во-первых, многие исследователи отмечают, что превосходство метода Хекмана над МНК, а также метода максимального правдоподобия (ММП) над двухшаговой процедурой растет пропорционально величине корреляции между ошибками в оцениваемых уравнениях (Nelson, 1984; Stolzenberg, Relies, 1990; Nawata, 1993, 1994). Однако в некоторых работах не удавалось обнаружить соответствующей зависимости, или же ее надежность оказывалась спорной (Hay et al., 1987; Manning et al., 1987; Zuehlke, Zeman, 1990).

Во-вторых, когда ошибки не были распределены нормально, выявить преимущество одного из методов не удавалось (Hay et al., 1987; Paarsch, 1984), а также наблюдалось превосходство в точности оценок непараметрических подходов (Marchenko, Genton, 2012; Chavent et al., 2010).

В-третьих, двухшаговая процедура начинает работать хуже, когда отсутствуют так называемые ограничения исключений (exclusion restrictions) (Manning et al., 1987). Под этим подразумевается высокая степень схожести набора регрессоров в обоих уравнениях, т. е. когда мало таких переменных, которые есть в одном из уравнений, но отсутствуют в другом. Это приводит к тому, что из-за близости обратного отношения Миллса к линейной функции в основном уравнении появляется регрессор, в некоторой степени коллинеарный остальным независимым переменным, что приводит к снижению эффективности оценок (Zuehlke, Zeman, 1990). Также в одном из исследований отмечается, что если уникальная для уравнения отбора переменная коррелирует с независимой переменной только из основного уравнения, то это приводит к относительно более качественным оценкам ММП (Rendtel, 1992).

Наконец, один из исследователей по результатам двух работ пришел к выводу, что при высоких уровнях корреляции между ошибками (более 0.9) оценки двухшагового метода ведут себя очень нестабильно (Nawata, 1993, 1994).

В плане организации симуляций, исследователи использовали несколько фиксированных уровней параметров. Например, что репрезентативно в отношении остальных работ в этой области, в одном из исследований результаты рассматривались при уровнях корреляции ошибок 0.5 и 0.9 и доле нецензурированных наблюдений — 25, 50 и 75% (Manning et al., 1987).

Серьезным недостатком упомянутых выше исследований являлось то, что анализ проводился на очень маленьких выборках. В некоторых из них выборки составляли всего 50-200 наблюдений (Paarsch, 1984; Zuehlke, Zeman, 1990; Nawata, 1993, 1994). Это могло приводить к существенному снижению эффективности ММП оценок ввиду отсутствия надлежащей асимптотики.

В данном исследовании осуществлена попытка преодолеть указанный недостаток за счет использования выборок большего объема, в диапазоне от 300 до 5000 наблюдений на 1000

симуляций. Также используется альтернативный подход к вариации параметров: она происходит случайным образом в каждой из симуляций.

3.2. Анализ обобщенной модели Хекмана на симулированных данных

Рассмотрим частный случай обобщенной модели Хекмана, когда зависимая переменная наблюдается при условии выполнения двух правил отбора.

" X! ~ N(л, 2)"

Обозначим NR( л, 2, п) = : — случайную выборку из независимых т-мерных

_Хп ~ N(л, 2)]

нормальных случайных векторов Xi, 1 £ {1,...,п} с математическим ожиданием л и ковариационной матрицей 2 .

Значения т объясняющих переменных для каждого наблюдения генерируются из многомерного стандартного нормального закона с недиагональной корреляционной матрицей.

Рассмотрим случай, когда по основной переменной доступны лишь те наблюдения, по которым наблюдаются оба признака. Во всех остальных случаях переменная не наблюдается. Формально это можно записать как

II, если ^ = г2, =1,

&(ги,) = и 1 £ {1,...,п}.

10, в противном случае,

Случайные ошибки симулируются следующим образом:

£ = (е, uj, u2) = NR

2 - \

о Pj° °Р2

Pi0 1 Pü , n

Р2 0 Pü j /

В каждой симуляции коэффициенты при переменных являются случайными величинами, равномерно распределенными в интервале от -1 до 1. Единственное исключение составляют константы в уравнениях отбора у10 и у 20, которые распределены в интервале от 0 до 1 с целью увеличения числа нецензурированных наблюдений в выборке, что соответствует структуре данных, часто встречающейся на практике. Генерация случайных ковариационных матриц ошибок и независимых переменных осуществляется с помощью метода, предложенного (Joe, 2006), где о ~ U(0,1). Следует отметить, что в результате применения данного метода р0, р1 и р2 также оказались распределены равномерно, в интервале от -1 до 1. Симуляции выполняются для выборок объемом 300, 1000 и 5000 наблюдений. На каждую из этих выборок приходилось по 1000 симуляций.

Таким образом, в каждой симуляции на первом этапе случайным образом генерировались параметры модели и экзогенные переменные. На втором этапе, с их использованием, рассчитывались истинные значения у, z1 и z2. На третьем этапе оставлялись лишь те значения у, для которых z1 = z2 = 1. Наконец, на основе полученных данных производилась оценка параметров модели при помощи предложенного и конкурирующих методов в лице МНК и классического метода Хекмана, игнорирующего второе уравнение отбора. Для каждого

объема выборки (300, 1000 и 5000 наблюдений) соответствующая процедура повторялась § 1000 раз. Оцениваемая функция правдоподобия имела вид

ДА У^ У 2, Po, Р\, Р 2, = П Е-и1,-и2\е=у,-Х,р К Уl, < У 2 ) /е СУ,- - Х,'Ь)

2^=1,22 =1

П ^,и2 КУ2) П и2 (—<У^ <У2) П Ри1,и2 У1,—<У2). 2:=1,22=-1 2 =— 1, 22 =1 2=- 1,22 =—1

В качестве показателя, отражающего качество оценки коэффициента в 7-й симуляции, будем использовать модуль отклонения

D =

bs

£

О Щ

Я

QQ О о о

£

со

iu

Если для оценки методом Q и для оценки методом W верно > , то будем считать, что оценки метода W «победили». В качестве относительного отклонения оценки возьмем

л 1UUU

D = — X 1000 ~

bi -b

b s

Аналогичным способом оценивалось и качество оценки ст.

3.3. Первая спецификация

Уг = Ь0 + А Хи + Ь2Х2 7 + Ь3Х3 7 + е , 217 =У10 +У11 Хц +У12 Х4 7 +U17, 227 = у20 +у21 Х27 +у22 Х5 г +и2г,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

, е {1,...,и>, П е {300,1000,5000}.

Данная спецификация соответствует ситуации, когда каждое уравнение содержит хотя бы одну исключительную переменную. Уравнения отбора не имеют общих объясняющих переменных, основное уравнение имеет общую переменную с каждым из уравнений отбора.

Назовем обобщенные модели Хекмана, оцененные при помощи метода максимального правдоподобия и двухшаговой процедуры, «ММП» и «ДП» соответственно. Аналогичные модели, оцененные при помощи классического метода Хекмана с учетом лишь первого уравнения отбора 21, обозначим «ММП-0» и «ДП-0». Наконец, модель, оцененную при помощи классического метода наименьших квадратов, обозначим «МНК».

Результаты симуляции (табл. 1) показывают, что лучшим способом оценки коэффициентов, независимо от объема выборки, является обобщенный метод Хекмана, реализованный при помощи метода максимального правдоподобия. Превосходство последнего над МНК растет по мере увеличения объемов выборки. Аналогичная картина наблюдается и в отношении ДП оценок, несколько уступающим МНК оценкам на маленькой выборке.

При условии двойного смещения оценки классического метода Хекмана оказались достаточно сильно смещенными, вследствие чего их доля побед над МНК незначительна, хоть и увеличивается по мере роста объемов выборки.

Полученные результаты (табл. 2) говорят об увеличении относительного преимущества ММП оценок над МНК оценками по мере роста модуля корреляции ошибок уравнений отбора с ошибкой основного уравнения6. Аналогичная картина наблюдалась и для коэффициентов при других независимых переменных, а также на малой и большой выборках и при различных интервалах р0.

Таблица 1. Сравнение качества оценок коэффициентов при различных способах оценивания

Число bo bi b2 Ьз а bo bi b2 Ьз а

наблюдений

Доля побед ММП оценок над МНК Доля побед ДП оценок над МНК

300 0.558 0.506 0.534 0.530 0.611 0.428 0.458 0.481 0.508 0.459

1000 0.748 0.648 0.646 0.581 0.760 0.634 0.602 0.617 0.566 0.627

5000 0.843 0.786 0.781 0.733 0.875 0.787 0.749 0.758 0.724 0.814

Среднее отклонение ММП оценок Среднее отклонение ДП оценок

300 0.761 0.323 0.291 0.260 0.129 1.177 0.414 0.356 0.282 0.293

1000 0.389 0.177 0.154 0.132 0.053 0.613 0.232 0.201 0.142 0.120

5000 0.193 0.074 0.074 0.060 0.025 0.305 0.091 0.089 0.061 0.044

Доля побед ММП-0 оценок над МНК Доля побед ДП-0 оценок над МНК

300 0.489 0.469 0.489 0.501 0.545 0.465 0.441 0.491 0.488 0.484

1000 0.549 0.572 0.515 0.516 0.715 0.529 0.531 0.517 0.520 0.637

5000 0.643 0.657 0.575 0.595 0.858 0.633 0.647 0.571 0.592 0.809

Среднее отклонение ММП-0 оценок Среднее отклонение ДП-0 оценок

300 0.869 0.314 0.297 0.267 0.102 1.143 0.363 0.301 0.276 0.150

1000 0.635 0.207 0.267 0.155 0.069 0.771 0.250 0.263 0.153 0.099

5000 0.458 0.150 0.199 0.101 0.051 0.554 0.169 0.203 0.102 0.072

Среднее отклонение МНК оценок Доля побед ММП оценок над ДП

300 0.699 0.307 0.295 0.262 0.114 0.627 0.576 0.570 0.539 0.670

1000 0.796 0.296 0.268 0.194 0.107 0.641 0.577 0.570 0.542 0.660

5000 0.819 0.244 0.230 0.140 0.102 0.645 0.612 0.592 0.540 0.625

Таблица 2. Доля побед ММП оценок над МНК в отношении коэффициента ¡31 (при 1000 наблюдениях)

Р 2 Pi

(-1,-0.75) (-0.75,-0.5) (-0.5,-0.25) (-0.25, 0) (0, 0.25) (0.25, 0.5) (0.5, 0.75) (0.75, 1)

(-1,-0.75) 1.000 0.400 0.583 0.667 0.737 0.833 0.750 0.600

(-0.75,-0.5) 0.846 0.733 0.762 0.588 0.593 0.704 0.579 0.875

(-0.5,-0.25) 0.778 0.733 0.565 0.577 0.296 0.533 0.700 0.778

(-0.25, 0) 0.714 0.840 0.727 0.476 0.483 0.588 0.615 0.778

(0, 0.25) 0.800 0.810 0.722 0.438 0.500 0.600 0.741 0.833

(0.25, 0.5) 0.800 0.826 0.400 0.360 0.526 0.583 0.619 0.700

(0.5, 0.75) 1.000 0.714 0.818 0.632 0.500 0.733 0.636 0.692

(0.75, 1) 1.000 0.909 0.636 0.667 0.727 0.667 0.400 1.000

6 При очень большом числе симуляций данная таблица окажется симметричной.

3.4. Вторая спецификация

Уг = Ь0 + А Х1, + Ь2Х2 , + Ь3Х3 , + е ,

= Ую + Уп Хи +у12 Х2 г +713 Х3 г + ul,, 22г =720 +721Х11 +722Х2г +723Х3г +Ы2г,

/ е {1,...,и), и е {300,1000,5000}.

В рамках данной спецификации предполагается, что на основную зависимую переменную и переменные отбора влияют одни и те же факторы. Такая спецификация представляет наибольший интерес, т. к. соответствует наиболее распространенной на практике ситуации.

ê о

Щ

я

QQ О о

о £

со lu

Таблица 3. Сравнение качества оценок коэффициентов при различных способах оценивания

Число be А Ь2 Ьз а b0 А Ь2 Ьз а

наблюдений

Доля побед ММП оценок над МНК Доля побед ДП оценок над МНК

300 0.473 0.436 0.441 0.434 0.544 0.355 0.332 0.372 0.354 0.332

1000 0.673 0.562 0.572 0.593 0.718 0.545 0.487 0.467 0.502 0.507

5000 0.809 0.757 0.748 0.761 0.870 0.738 0.695 0.686 0.705 0.722

Среднее отклонение ММП оценок Среднее отклонение ДП оценок

300 1.245 0.436 0.547 0.524 0.544 1.834 0.332 0.747 0.755 0.332

1000 0.631 0.299 0.289 0.275 0.077 0.998 0.414 0.399 0.390 0.234

5000 0.251 0.121 0.120 0.104 0.028 0.393 0.182 0.179 0.154 0.078

Доля побед ММП-0 оценок над МНК Доля побед ДП-0 оценок над МНК

300 0.444 0.443 0.450 0.443 0.522 0.395 0.416 0.414 0.404 0.408

1000 0.608 0.517 0.522 0.537 0.715 0.570 0.483 0.502 0.503 0.592

5000 0.702 0.566 0.577 0.578 0.856 0.677 0.552 0.550 0.556 0.772

Среднее отклонение ММП-0 оценок Среднее отклонение ДП-0 оценок

300 0.953 0.443 0.474 0.450 0.522 1.28 0.416 0.563 0.526 0.408

1000 0.672 0.305 0.325 0.297 0.077 0.881 0.366 0.394 0.351 0.128

5000 0.510 0.234 0.225 0.209 0.054 0.546 0.276 0.258 0.236 0.078

Среднее отклонение МНК оценок Доля побед ММП оценок над ДП

300 0.779 0.647 0.390 0.403 0.717 0.659 0.647 0.616 0.625 0.717

1000 0.917 0.316 0.328 0.349 0.107 0.667 0.615 0.654 0.630 0.697

5000 0.801 0.283 0.274 0.266 0.102 0.612 0.642 0.607 0.619 0.694

Согласно полученным результатам (см. табл. 3), на малых выборках оценки ММП и ДП процедур хуже, чем МНК. Однако на средней выборке ММП более точен, а на большой оба обобщенных метода Хекмана показывают результаты существенно лучшие, чем МНК. Ухудшение относительно качества оценок в случае с ДП может быть связано с упомянутой выше проблемой отсутствия exclusion restriction, вследствие чего оценки утрачивают эффективность из-за мультиколлинеарности. Тем не менее, оценки ММП оказались достаточно устойчивыми к этой проблеме, что говорит о целесообразности использования обобщенного

метода Хекмана даже в тех случаях, когда наборы факторов, влияющих на зависимые переменные в основном уравнении и уравнениях отбора, совпадают.

4. Применение обобщенного метода Хекмана для оценивания уравнения заработной платы по данным РмЭЗ за 2016 год

В качестве примера применения обобщенного метода Хекмана рассмотрим классическую задачу оценивания минцеровского уравнения заработной платы. Отметим тот факт, что наблюдения по зарплате доступны лишь для тех индивидов, которые и работают, и согласились предоставить информацию о своих трудовых доходах. Таким образом, отбор может быть неслучайным не только по признаку занятости, но и по наличию ответа на вопрос о заработной плате.

Приводит ли к смещению при оценивании заработной платы удаление из выборки тех респондентов, которые отказались отвечать на вопрос о доходах?

В рамках предложенной в разделе 2.1 модели для ответа на поставленный вопрос необходимо проверить гипотезу о равенстве нулю коэффициента корреляции ошибок уравнения заработной платы и бинарного уравнения ответа на вопрос.

В качестве выборки используются данные опроса РМЭЗ по индивидам за 2016 год . Рассматриваются женщины в возрасте 25-55 лет. Указанный возрастной период выбран в соответствии с большинством исследований, посвященных предложению труда женщинами (Heckman, Killingsworth, 1987).

В соответствии с классическим подходом (Mincer, 1974; Heckman et al., 2006) в качестве зависимой переменной выступает логарифм заработной платы, а к экзогенным переменным относятся стаж (эффект которого предполагается квадратичным) и образование. Эффект образования, как правило, оказывается положительным, а влияние стажа характеризуется вогнутостью: линейная часть положительна, а квадратичная — отрицательна (Heckman et al., 2006). В уравнение также включены характеристики места проживания респондента и его состояния здоровья.

В уравнение занятости были включены факторы, традиционно используемые при анализе предложения труда среди женщин: возраст, образование, зарплата мужа, число несовершеннолетних детей и нетрудовые доходы (Heckman, Killingsworth, 1987; Blundell, MaCurdy, 1999).

Факторы, влияющие на принятие респондентом решения об ответе на вопрос о своих трудовых доходах, изучены довольно слабо (Turrell, 2000, Kim et al., 2007). Поэтому предполагается, что в уравнение ответа на вопрос о зарплате входят те же экзогенные переменные, что и в уравнение занятости, за исключением нетрудовых доходов, поскольку те, кто не отвечают на вопрос о зарплате, часто не предоставляют информацию и о своих нетрудовых доходах.

7 «Российский мониторинг экономического положения и здоровья населения НИУ ВШЭ (КЬМ$-ШЕ)», проводимый Национальным исследовательским университетом «Высшая школа экономики» и ЗАО «Демоскоп» при участии Центра народонаселения Университета Северной Каролины в Чапел Хилле и Института социологии РАН. Сайты обследования RLMS-HSE — http://www.cpc.unc.edu/projects/rlms и http://www.hse.ru/rlms.

Ниже приведена табл. 4 с оценками параметров уравнения заработной платы. Во втором и четвертом столбце таблицы представлены оценки, полученные при одновременном оценивании уравнения заработной платы и двух уравнений отбора (занятости и ответа на вопрос о величине зарплаты) ММП и описанным выше двухшаговым методом. В третьем и пятом столбце — оценки, полученные с помощью обычной модели Хекмана с единственным уравнением отбора по занятости, игнорирующей неслучайный характер отказа ответа на вопрос о величине зарплаты.

Таблица 4. Оценки уравнения заработной платы

о

Щ

я

QQ О о

о £

со ai

Переменные

Обобщенный метод Модель Хекмана Обобщенный метод Модель Хекмана

(ММП) (ММП) (2 шага) (2 шага)

Константа 9 112*** 9.171*** 9.180*** 9193***

(0.067) (0.062) (0.070) (0.064)

Среднее образование 0.112** 0.121*** 0.094 0.120***

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(0.047) (0.046) (0.066) (0.046)

Среднее специальное 0.207*** 0195*** 0.222*** 0.190***

образование (0.047) (0.046) (0.070) (0.046)

Высшее образование 0.528*** 0.499*** 0.569*** 0.490***

(0.048) (0.045) (0.091) (0.046)

Стаж 0.0165*** 0.0160*** 0.0161*** 0.0154***

(0.004) (0.004) (0.0057) (0.004)

Квадрат стажа -0.00036*** -0.00036*** -0.00034** -0.00034***

(0.00012) (0.00012) (0.00015) (0.00012)

Проживает в Москве 0.863*** 0.865*** 0.859*** 0.863***

(0.042) (0.041) (0.055) (0.042)

Проживает 0.654*** 0.692*** 0.587*** 0.692***

в Санкт-Петербурге (0.077) (0.076) (0.127) (0.076)

Проживает 0.283*** 0.288*** 0.267*** 0.284***

в областном центре (0.029) (0.029) (0.040) (0.029)

Проживает в городе 0.188*** 0.191*** 0.176*** 0.187***

(0.029) (0.029) (0.039) (0.029)

Проживает в поселке 0.183*** 0.207*** 0.140* 0.206***

городского типа (0.047) (0.045) (0.077) (0.045)

Инвалидность -0.160* -0.148*** -0.160 -0.133

(0.086) (0.078) (0.122) (0.085)

а 0.500*** 0.487*** 0.586*** 0.488***

(0.012) (0.0073) (0.014) (0.007)

р0 (Занятость, Ответ) 0.251 0.265

(0.169) (0.166)

р1 (ЗП, Занятость) -0.173** -0.166** -0.206** -0.214*

(0.076) (0.067) (0.106) (0.110)

р2 (ЗП, Ответ) 0.407*** 0.977

(0.154) (0.784)

Логарифм функции правдоподобия -4234.00 -4333.048 -4739.55 -5048.41

8 Данное значение представляет собой сумму логарифмов правдоподобия одномерной модели Хекмана и бинарного уравнения ответа на вопрос о зарплате.

Окончание табл. 4

Переменные

ЬЯ тест

(одномерная

модель Хекмана —

модель с ограничениями)

А1С

Число наблюдений

Обобщенный метод Модель Хекмана Обобщенный метод Модель Хекмана (ММП) (ММП) (2 шага) (2 шага)

LR = 2(-4234.00+4333.04) ~ 200

X2;0.005 '

LR = 2(-4739.55+5048.41) ~ 618 10.6

8361.99 8732.09 9585.11 10162.82

Всего — 3733, работающих — 2707, ответивших — 2424

Примечание. В скобках — стандартные отклонения; *** — p < 0.01, ** — p < 0.05, * — p < 0.1.

Интерпретация эффектов переменных не является целью данного параграфа. Отметим только, что знаки коэффициентов соответствуют ожиданиям. Главный вопрос — есть ли смещение из-за отказа ответить на вопрос о величине зарплаты? Как видно из таблицы, корреляция случайных ошибок уравнения зарплаты и ответа на вопрос о ее величине значима и положительна. Следовательно, существуют ненаблюдаемые факторы, увеличивающие заработную плату и вероятность ответа на вопрос о ее величине. И, как показывает значение LR статистики, использование одномерной модели Хекмана в данном случае неправомерно. Однако игнорирование возникающего смещения не приводит к существенным изменениям оценок коэффициентов при объясняющих переменных, что видно при сопоставлении их значений (столбцы 2 и 3, 4 и 5).

Корреляция ошибок уравнений занятости и ответа на вопрос о зарплате незначима, следовательно, может быть установлена направленность частных предельных эффектов. Переменные, положительно влияющие на вероятность занятости (ответа), также, через частный предельный эффект, увеличивают (уменьшают) ожидаемую заработную плату, и наоборот. Однако в уравнении ответа значимыми переменными оказались лишь высшее образование (коэффициент 0.557***) и проживание в Санкт-Петербурге (коэффициент -0.431**) (см. Приложение, п. 4). По этой причине предельные эффекты заработной платы работающих и ответивших на вопрос о зарплате индивидов при использовании обычной модели Хекмана будут отличаться от предельных эффектов обобщенной модели лишь для высшего образования и типа населенного пункта.

Согласно полученным результатам, средние предельные эффекты высшего образования для классической и обобщенной моделей Хекмана, оцененных методом максимального правдоподобия, практически совпадают и составляют 0.529 и 0.528 соответственно, аналогичный результат имеет место и для проживания в Санкт-Петербурге.

По всей видимости, столь малое различие в коэффициентах и предельных эффектах объясняется тем, что работающих и не ответивших на вопрос о зарплате женщин в выборке очень мало — менее 8% (283 человека). Было бы интересно посмотреть, насколько существенно смещение в уравнении заработной платы для мужчин, поскольку мужчины значительно чаще, чем женщины, отказываются отвечать на вопрос о заработной плате.

Отметим также, что оценка дисперсии при использовании обобщенной двухшаговой процедуры оказалась, по всей видимости, завышенной, а коэффициент корреляции уравнений зарплаты и ответа большим и незначимым, что, по всей видимости, вызвано относительно низкой эффективностью двухшаговой процедуры.

Заключение х

I

В данной работе предложена регрессионная модель с переключением, регулируемым си- о

С

стемой бинарных уравнений. Предполагается, что форма регрессионного уравнения основ- ^ ной зависимой переменной соответствует определенным комбинациям бинарных правил. ui При этом как наблюдения основной переменной, так и комбинации самих правил в неко- | торых случаях могут отсутствовать. Частным случаем описанной модели является модель § селективных выборок (модель Хекмана) и модель с переключением (switch model). ^

В статье разработаны два способа оценивания модели: с помощью метода максимально- uj го правдоподобия и с помощью двухшаговой процедуры (метода максимального правдоподобия плюс метод наименьших квадратов), реализованные в среде R9.

Получены выражения для предельных эффектов зависимой переменной, позволяющие определять направление и степень влияния на нее независимых факторов. Показано, что на зависимую переменную оказывают влияние не только переменные, входящие в основное уравнение, но и переменные, входящие в уравнения отбора наблюдений.

Качество предложенных способов оценивания для случая одного основного уравнения и двух правил отбора было изучено на симулированных данных. Оказалось, что для обобщенного случая сохраняются тенденции, присущие одномерным моделям: рост относительного преимущества метода Хекмана по мере увеличения корреляции между ошибками в основном и в селективных уравнениях, а также порождаемое квазимультиколлинеарно-стью существенное падение эффективности двухшаговой процедуры при условии схожести набора регрессоров для основной переменной и цензурирующих факторов. Кроме того, оценки обобщенного метода Хекмана в рамках использовавшихся симуляций оказались существенно более точными, чем оценки классического метода и МНК.

Список литературы

Blundell R., MaCurdy T. (1999). Labor supply: A review of alternative approaches. In: Handbook of Labour Economics. Ashenfelter O., CardD. (eds.). Vol. 3, 1559-1659.

Chavent M., Liquet B., Saracco J. (2010). A semiparametric approach for a multivariate sample selection model. Statistica Sinica, 20 (2), 513-536.

Cinzia D. (2009). Sample selection correction in panel data models when selectivity is due to two sources. Institute of Public Policy and Public Choice Working Papers, 137.

Garen J. (1984). The returns to schooling: A selectivity bias approach with a continuous choice variable. Econometrica, 52 (5), 1199-1218.

Hay J., Leu R., Rohrer P. (1987). Ordinary least squares and sample-selection models of health-care demand: Monte Carlo comparison. Journal of Business, Economic Statistics, 5, 499-506.

Heckman J. (1976). The common structure of statistical models of truncation, sample selection and limited sepen-dent variables and a simple estimator for such models. Annals of Economic Social Measurement, 5 (4), 475-492.

Heckman J. (1979). Sample selection bias as a specification error. Econometrica, 47 (1), 153-161.

Heckman J., Killingsworth M. (1987). Female labor supply: A survey. In: O. Ashenfelter and R. Layard (eds.). Handbook of Labor Economics. Vol. 1, 103-204.

9 Код может быть предоставлен авторами по запросу.

Heckman J., Lochner L., Todd P. (2006). Earnings functions, rates of return and treatment effects: The Mincer equation and beyond. Handbook of the Economics of Education, vol. 1, 307-458.

Jeffrey D., McFadden D. (1984). An econometric analysis of residential electric appliance holdings and consumption. Econometrica, 52 (2), 345-362.

Jimenez E., Kugler B. (1987). The earnings impact of training duration in a developing country. Journal of Human Resources, 22 (2), 228-247.

Joe H. (2006). Generating random correlation matrices based on partial correlations. Journal of Multivariate Analysis, 97, 2177-2189.

Kim S., Egerter S., Cubbin C., Takahashi E., Braveman P. (2007). Potential implications of missing income data in population-based surveys: An example from a pospartum survey in California. Public Health, 122, 753-763.

Manjunath B., Wilhelm S. (2012). Moments calculation for the double truncated multivariate normal density. ArXiv e-prints. arXiv:1206.5387.

Manning W., Duan N., Rogers W. (1987). Monte Carlo evidence on the choice between sample selection and two-part models. Journal of Econometrics, 35, 59-82.

Marchenko Y., Genton M. (2012). A Heckman selection-t model. Journal of the American Statistical Association, 107, 304-317.

Mincer J. (1974). Schooling, experience and earnings. New York: National Bureau of Economic Research.

Murphy K., Topel R. (2002). Estimation and inference in two step econometric models. Journal of Business and Economic Statistics, 20, 88-97.

Nawata K. (1993). A note on the estimation of models with sample selection biases. Economics Letters, 42, 15-24.

Nawata K. (1994). Estimation of sample selection bias models by the maximum likelihood estimator and Heckman's two-step estimator. Economics Letters, 45, 33-40.

Nelson F. (1984). Efficiency of the two-step estimator for models with endogenous sample selection. Journal of Econometrics, 24, 181-196.

Paarsch H. (1984). A Monte Carlo comparison of estimators for censored regression models. Journal of Econometrics, 24, 197-213.

Puhani P. (2000). The Heckman correction for sample selection and its critique. Journal of Economic Surveys, 14 (1), 53-68.

Rendtel U. (1992). On the choice of a selection-model when estimating eegression models with selectivity. DIW-Discussion Paper, 53.

Stolzenberg R., Relles D. (1990). Theory testing in a world of constrained research design, the significance of Heckman's censored sampling bias correction for nonexperimental research. Sociological Methods and Research, 18 (4), 395-415.

Turrell G. (2000). Income non-reporting: implications for health inequalities research. Epidemiol Community Health, 54, 207-214.

Vella F. (1993). A simple estimator for models with censored endogenous regressors. International Economic Review, 34 (2), 441-457.

Vella F. (1998). Estimating models with sample selection bias: A survey. Journal of Human Resources, 33, 127-169.

Zuehlke T., Zeman A. (1990). A comparison of two-stage estimators of censored regression models.

The Review of Economics and Statistics, 72, 185-188.

Поступила в редакцию 18.12.2017; принята в печать 21.04.2018.

Приложение |

Некоторые свойства многомерного нормального распределения ¡5

с

1. Обозначения ^

Обозначим через ¥х и /х функцию распределения и плотность случайного вектора X §

Положим X(1 -1 в качестве вектора X без 7-й компоненты Xi. Через X(1'3-1 обозначим вектор §

X без 7-й и 3-й компонент, Xij — вектор, состоящий из компонент Xi и Xу. ^

Через 2—1 обозначим элемент обратной матрицы 2—1 в 7-й строке и 3-м столбце. Ана- ни логично, 2^ является (7,3)-элементом матрицы 2. Через 27, и у обозначим 7-ю строку и 3-й столбец матрицы 2 соответственно.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Некоторые факты

2.1. Условное распределение Предположим, что многомерный нормальный вектор X ~ N(и, 2) состоит из двух частей

X =

X!

X,

, где X1 и X2 являются случайными векторами длины п1 и п2 соответственно.

ветствующими размерами

n2 х nx n2 х n2

с соот-

Представим ковариационную матрицу вектора X в блочном виде: 2 =

П X п1

П X п2

В соответствии со свойствами многомерного нормального распределения, при фиксировании значений вектора X2 вектор X1 будет подчиняться многомерному нормальному закону | X2 = а) ~ N (¡и ,2), где условная математическое ожидание и условная ковариационная матрица имеют вид

и = и +221(222)-1(а -и2), (13)

2 = 211 -221 (222)-1212. (14)

2.2. Изменение знака

Обозначим через X распределение, полученное из X ~ N(и, 2) путем изменения знака 7-й компоненты на противоположный. Тогда, используя правила умножения случайного нормального вектора на скалярную матрицу, нетрудно показать, что отличия от исходного распределения будут заключаться в следующем: и7 = —¡иi, 2^ = —2.у, У7 Ф 3 . Повторяя аналогичную процедуру, можно получить распределение вектора X, в котором были изменены знаки к < п компонент.

2.3. Дифференцирование

Пусть случайный вектор X ~N(и,2), а х = (х ,...,х )' £ М . Тогда справедливы следующие формулы дифференцирования10:

10 Доказательства формул могут быть предоставлены авторами по запросу.

dfX (X) _ r , w-1,

dx

= -fx (x)S-* (x -m),

dfx (x) l d2 fx (X) l

d2.. 2 dx,dx.

" z J

=fx (x) 1(x - m, )(x* - m* ^-/s-/ - 2- 1

или

dfx (x) d2fx ( x)

. /=1 *=1

И И

d(Cov( x„ x.)) dxidxj

= fx (x)| 22(x/ -m/ )(x*-m* -2-1

i* J i* J,

dfx (x) = 1 fx)_ 1

d2,, 2 d2x,.

= - fx (x) ((2-*1 (x-m))2-2-1),

dx. (Xi (') ix =x (X1'...' X'-1' X'+1'. ..ХИ ) :

dFx(')|x =x (X1 ...X'-1 X'+1 ...X")

dx

2v fx(')(x*)Fx

2

k*i ii

x ('k) x^x;, x* =xk

=x (X1,..., X'-1 X'+1,..., Xk-1 Xk+1'...' Xn

dfx ( x)_ 1

d2 2 fx' J (X'' Xj)Fx0'J) ix =x.x. =x. (X1'...' Xj-1 Xj+1'...' X'-1 X'+1'...' Xn ' * j

или

dFr (X)

(15)

(16)

(17)

(18)

(19)

(20)

d(Cov( x, x.))

/х' . (Xi' Xj ) Fx(''J )|x =x x =x (X1'...' Xj-1 Xj+1'...' X'-1 Xi+1'...' Xn )' ' * j ' (21)

dFx (X) = 1

32,,. 2

dfx, (x )

Fx(0|x=x (X1'...' X'-1' Xi+1'...' Xn )+fx, (Xi)

dFx(i) |x =x (X1'...' X'-1' X'+1 '...' Xn )

dx x (')|x'=-

dx

(22)

где

dfx (x) dFx0)|x' =x, (X1'...'X'-1'X'+1'...'xn)

dx

ветственно.

и

dx

вычисляются по формулам (15) и (20) соот-

3. Усеченное многомерное нормальное распределение

3.1. Определение Для произвольных векторов a,b G Rn введем множество

Bab = {X G Rn: a, < X < ¿1,...,an < Xn < bn}.

Если x G Rn — многомерная нормальная величина с математическим ожиданием m и ковариационной матрицей 2 , то усеченная (на множество Bab) многомерная случайная величина xa 'b имеет плотность распределения, задаваемую формулой

fxab (x) =

_fx ( x)__c- „

-' если x G Bab'

P(a < X1 < ¿1'...'an < Xn < bn)' a'b'

0, в противном случае.

3.2. Моменты

Первый и второй моменты компонент случайного вектора Xa,ь могут быть вычислены

по следующим формулам (Manjunath, Wilhelm, 2012): о

щ

(23) §

у ^ j j л j J j J

j=i

+

Е(Xa,b) = m+%fx,ь («j)-fx,ь (bjj,

j=i

Cov(Xa,b,x;b) = sj +(«Jx.b a) -bk fx«,b (bk)) +

k= skk v k k '

fxZ («k,«,)- fxti («k,b,)- fx,b (bk,«,) + fxti b,bq)) - (24)

о ü

ü £

CQ 1Ц

n i s s \

у yU -Ы*

Jq s

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

k=l q*k \ Skk /

-\У (fx* b («k ) - fx«b (bk )) -Sik \\Уих. b («k ) - fx; b (bk )) -S j

3.3. Вывод некоторых свойств усеченного сверху многомерного нормального распределения

В рамках данной работы представляет интерес случай, когда

X ~ N

° ор 12 °Pl2 1

°Рш P2n

°Pln

P 2n

1

, а = (-«,•••,-«), b = (»,b2,•••,bn). (25)

Обозначим связанную этими ограничениями многомерную случайную величину через Xь. Маргинальная плотность 7 -й компоненты Xь принимает вид11 для 7 £ {2,...,п} :

/со пЬ2 пЪ^ Гъм пЬп

7 ".J-=Ухь(Х1х.-1,х,х.+1хп№..А+А-1..А =

гъ ГЬ,-1 ГЬ,+1 Сь„ /х (х1х7-1 , х7, х7+1 хп )

Гь2 Гb- ГЧ+1 Г -tt %f -tt %f -tt %f -tt %f -

/ъ2 Съ'-1 Съ'+1 г -tt %f -tt %f -tt %f -

Fx 1 (b2 ,..., bn )

b rh-i cb'+i fbn fxm(x2,...,xi-i,xi,xi+i,...,xn)

~dx ...dx• 11 dx. 1 ...dx^dxi

n i+1 i-1 2 1

1

Fx (.) (b2 ,..., bn )

Fx (!) (b2,..., bn )

3Fx(t) (b2,..., bi-1, X', b'+1 bn )

Эх,

dx ... dx dx ... dx =

n i+1 i-1 2

11 Предложенное преобразование позволяет рассчитывать плотность усеченного многомерного распределения через плотности и функции многомерного нормального распределения. Это, во-первых, существенно ускоряет скорость работы сопряженных с расчетом функций правдоподобия оптимизационных алгоритмов и, во-вторых, значительно упрощает задачу дифференцирования соответствующей плотности.

Отметим, что

fxxb (¿i) =

1 dFx („( X)

Fx(1)(X) dX

, i G {2,...,n}.

(26)

x=b

Аналогичным образом получаем выражения для совместных плотностей двух и трех

компонент :

fxb (x, У) =

1

d" Fx(1) (b2 '...' b'-1, X' b'+1'...' b,-1, У' bJ+1'...' bn )

Fx (1) (b2 '...' bn ) dxdJ

i, j G {2,...,n}, i * j,

fxb (X' y, z) = 1-— ■

^ Fx (:) (b2 '...' bn )

d" Fx (1) (b2'...' bi-1, X' bi+1,..., bj-1, У, bj+1,..., bk-1, Z, bk+1,..., bn )

dxdydz

i, J, k G {2,...,n}, i * j * k.

(27)

(28)

Подставляя полученные выражений для маргинальной и совместных плотностей в формулы (23) и (24), получаем следующую лемму.

Лемма 1. Математическое ожидание и дисперсия первой компоненты Xь могут быть представлены в виде

D( Xb) = s2

E( xb) = m-s2r fxf (ь,- ),

i=2 '

n n __/ n

kfxl (bk ) + 2 Ak 2 (P1j - PjAk f (bk ,bj ) - 1 2 P1kfxb (bk )

k=2 J*k

(29)

. (30)

3.4. Дифференцирование в точке верхней границы

Рассмотрим многомерную случайную величину Xь. Для упрощения записи введем следующие обозначения:

Р (Х) = ^ (Х), /(х,) = /х (X,), Р(Х,) = ^ (Х,), Р(Х|Х,) = Р\,)х (Х(0),

' x(,) =x,

X (',J)),

f (xi, xj , xk ) = fXtj^ ( X , xj , xk ), F (X 1 X , XJ, Xk ) = FX^'■J'k)\X¡=x¡,XJ=xJ,Xk =x (xl ,J, )).

f (x, X ) = fX,J (x, xJ ), F (X \ X, XJ ) = Fx (', J =x, (X( ',J)),

12 Чтобы развернуть эти формулы, достаточно воспользоваться указанными выше правилами дифференцирования многомерного нормального распределения.

1. Дифференцирование маргинальной функции плотности в точке границы по верхней границе:

/ь (Ь )

db

dfx,b (b,) db.

= fxb (b,, ¿j ) - fxb (b, )fxb (¿j ), i * j,

= -b/xb (b,) - fxb (b, )2 -2 fxb, (b,,bj )p j..

(31)

(32)

j*i

£

d щ

Я

QQ О о о

£ Щ

iu

Для доказательства (31) воспользуемся формулами (15), (19) и (26):

Р(Ь)/(Ь,,Ь})Р(Ь | ь,Ь}) - /(Ь,)Р(Ь | Ь)/(Ь,)Р(Ь | Ь})

dfxb (b,)

V (b,) F (b\b,)x

db,.

F (b)

db,.

F (x)2

f(b,,b )F(b\b,,b ) f (b,)F(b \ b ) f (bj)F(b\b,)

J J ^ ^ ' - J J " = fx, (b,,bj)-fXb (b,)fxb (bj).

Р(Ь) Р(Ь) Р (Ь)

Для доказательства (32) воспользуемся формулами (15), (19), (20) и (26):

d

' f (b,) F (b\b,)x

j (b )_ V

F (b)

/ _

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

db, db,

\

-f (b, 2, J f(bj \ b) F (b \ b, bj) - bj (b,) F (b \ b,) F (b) -(f (b,) F (b \ b ))2

v .*'

-2P'j f (b,, b .) F (b\b,, b.)

j*,'

F (b)2

bj (b,) F (b\b,) f f (b,) F (b\b,)\2

F (b) F (b)

= -b,fxb (b,) - fxb (b, )2 - 2 fxl (b,, b,)Pj..

F (b)

j*'

2. Дифференцирование маргинальной функции плотности в точке границы по корреляции:

/ ь (Ь,)

^ = fx j (b"bj ,bk) - fxb (bi) fXb]k (bJ ,bkX j * ^ k * i'

(33)

dfxb (b,)

dP,,

j- - f, (b)

\ Pv

fxb (b,bj) + 2pPj-2Pfxb (b,,bj.,bk). (34)

x 'j f—f. 1-P.. Xi,J ,k

k*i, J P,J

Чтобы доказать (33), воспользуемся формулами (15), (21) и (26):

^ (b )

a f(b)F(b\bi) F (b)

F (b) f (b, bj, bk ) F (b \ b,, bj, bk ) - f (b )F (b \ bt ) f b, bk ) F (b \ bj, bk ) =

F(x)2

= f (bi, bj, bk ) F (b\bi, b}, bk ) - f (bi ) F (b\bi ) _ f (bj, bk ) F (b\b, bk ) = F (b) F (b) ' F (b)

= f^bjk (bi,bj,bk)- fxb (b)fjk b,bk).

Чтобы доказать (34), без потери общности, для наглядности положим i = n и j = n — 1. Сначала рассмотрим

3F (b\bn ) _Y 3F (b\bn ) dE (x»\xb = bn ) +

ЭР( n—i),n 2 dE(xb\xbn = bn ) apn—i,n

dF (b\bn ) aCov( x1?, x^ = bn )

2 2 aCov(Xib, x;\xb = bn ) ' apn—i,n '

В соответствии с (13) условное математическое ожидание имеет вид

рыЬп

е(хь\Хьп = Ьп) = ;

_Рп-1, ПЬ п

Поскольку рп-1 п располагается лишь в последней строке данного вектора, то, применяя (19), получаем:

2

3F(b\bn) 3e(xi \ xbn = bn)

= -bnf (bn-Jbn ) F (b\bn, bn-i).

-эе(хЬ\ХЬ = Ьп) Эрп-1,п Согласно формуле (14), условная (по п -й компоненте) ковариационная матрица имеет вид

Cov( xb\xb = bn ) =

1

Pl2

Pl2 1

Pl,n-1 P2, n—1

Pl,n-1

P 2, n—1 1

2

pin

prn pi

prn p2

P2n

P1nPn-1,n P 2 n P n—1,i

P1n Pn-1, n P2 n P n—1,n

P2

Pn-1,n

Заметим, что рп—1 п встречается лишь в правой части разности, причем только в (п — 1) -м § столбце и (п — 1) -й строке, откуда следует, что

XX-

dF(b | bn) dCov(Xb,Xb | Xbn = bn)

dCov( xb, xbixb = bn) apn-!,,

i^n j^n v г ' j I n n

= X dF(b|bn) dCov(Xb,xn_, | Xb = bn) , ui

k<n-2

_2 dCov(Xb, Xb-JXb = bn) dpn_,,

, dF (b|bn) dCov( Xb_!, Xb_JXb = bn) =

dCov(Xb_!, Xb_JXb = bn) dp n_i,n

dF (b|bn) dF (b | bn)

= -X P _dF (b|bn)__2 p

Aj Hkn dCov( Xb Xb | Xb = h ) Hn-1

dCov(Xb, Xb-! |Xb = bn) -n_1,n dCov( Xb_, Xb-! | Xb = bn)

Используя (21) и (26), получаем:

SdF(b | b )

k.n_2dCov( Xb, = b.) p*f (bn_" ^) F (b|bn • bk).

Применяя (22) и (26), имеем:

_ 2р др (ЬЬ)

Рп—1,п ЭССУ(ХЬ_ 1,Хь_ | Хъп = Ьп)

= _Pn-

1,n

f'(bn-11bn)F(b |bn,bn_i)_Pn_i,nf (bn-1 |bn)dF(blbn,bn-1)

V , _ dbn_1

f(bn-1 |bn)F(b|bn,bn_i)bn_; _PP2n-1,nbn +

1-Pn-1, n

= Pn-

n—1,n

\

+Рп_1,п/(Ьп—1 |Ьп) X Р",п1_ рпРп—1,п/(Ьк I Ьп,Ьп—1)Р(Ь | Ьк,Ьп_1,Ьп)

к<п—2 1 Р п—1,п

В результате объединения выражений и раскрытия скобок получаем:

ЭР (Ь|Ьп) ЭСОУ( X Ь, Х*|ХЬ = Ьп)

XX

,,n j,n dCov(Xb,Xb|Xb = bn) dpn-1,,

ГИ I 7 \ 7--/7 17 7 \ P n- 1,nbn-1 P n-1, nbn . = f (bn-1| bn) F (b | bn, bn-1)-,-2-+

1-Рп-1,n

£

О Щ

Я

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

QQ О о о

£

со

_ 2

I P n—l,n Pk,n-\ P n-\,nP kn r/1 7 I 7 \T~,/1 17 7 7 \

+ Z --f (bn— 1' bklbn ) F (b\K , bn—1, bn )-

k<n—2 1 P n—l, n

— ZPnf (bn—1,bk \bn)F(b\bn,bn—!,bk) =

k<n—2

Г/1 I 7 \ 7--/7 |7 7 \ P n—l, nbn—\ P 2—l,nbn . = f (bn—1 \ bn) F (b \ bn, bn—1)-:-2-+

1—P2—\, n

+ Z ^knf (bn—1,bk\bn)F(b\bk,bn—1,bn).

k^n, n—l A P n—

Таким образом, имеем:

dF(b \ bn) rri. HX^H a 4 Pn—l,nbn—l —Pl—l,nbn ,

—-= f (bn—1 \ bn) F (b \ bn, bn—1)-,-2-+

3Pn—1—Pn—l, n

Pn—l,n Pk ,n—l — Pkn

+ Z Pn—^Pkn— Pknf(b—,bk\bn)F(b\bk,bn—1,bn) — bnf(bn—1 \bn)F(b\bn,b—) =

k^n, n—l Pn—l, n

P ib , — b

I n—l, n n—l n

)

P n—l,n Pk ,n—l — Pkn

= f(bn—1 \bn)F(b\bn,bn—1) 7,n n2 n +

1—Pn—X, n

+ Z Pknf(bn_x,bk\bn)F(b\bk,bn—1,bn).

1 1 P ,„_1 ,„

k^n, n—l 1 Pn—l,n

Наконец, используя полученный результат и формулы (26), (27) и (28), получаем:

' f (bn) F (b\bn )N

f (bn) Э

= у F(b) ; = Pn—l,nbn—l — bn . f (bn)F(b)f (bn—1 \ bn)F(b\bn,bn—1) +

^Pn—l.n ^Pn—l.n l—P2n—l, n F (b)2

Pn—l,nPk,n—l —Pkn f (bn)F(b)f (bn—1,bk \ bn)F(b \ bk,bn—1,bn)

+

SPn—l,n'

^ „2 77/^2

k^n,n— l A r n—l,n

F (b)

f (bn,bn—1)F(b\bn,bn—1)f (bn)F(b\bn) = Pn—l,nbn—l — bn f (bn,bn—1)F(b\b,bn_,)

F (b)2 1 —рП—\, n F (b)

+

+

Pn—1,nPk,n-L—P1 . f (bk , bn—1, bn )F(b\bk , bn—1, bn ) .

2

Z n-l,n

l-

k^ n, n— 1 A ^ n—1, n

F (b)

f (bn, bn—1) F (b\bn, bn—1) f (bn) F (b\bn)

F(b) F(b)

lii \

Pn—l,nbn—1 —b

1 — P2n—1

/

2 ft (bn ) f^n, K—1) + Z -JnZli—P2- ^xbn n_\ k (bn,

bn—1, \ ).

, .... 1 A P___1 ,, , ,

4. Оценки обобщенной модели Хекмана: заработная плата, занятость, ответ. ММП

Независимая переменная Зарплата Занятость Ответ

Константа 9 112*** -1.253* 0.481

(0.067) (0.596) (0.903)

Среднее образование 0.112** 0195*** -0.091

(0.047) (0.090) (0.138)

Среднее специальное образование 0.207*** 0.577*** 0.212

(0.047) (0.093) (0.147)

Высшее образование 0.528*** 0.955*** 0.557***

(0.048) (0.093) (0.153)

Стаж 0.0165***

(0.0044)

Квадрат стажа -0.00036***

(0.00012)

Возраст 0.094*** 0.013

(0.030) (0.044)

Квадрат возраста -0.00118*** -0.0000

(0.00038) (0.0005)

Проживает в Москве 0.863*** 0.064 0.035

(0.042) (0.098) (0.148)

Проживает в Санкт-Петербурге 0.654*** 0.016 -0.431**

(0.077) (0.163) (0.206)

Проживает в областном центре 0.283*** 0.326*** -0.052

(0.029) (0.068) (0.103)

Проживает в городе 0.188*** 0.387*** 0.007

(0.029) (0.068) (0.102)

Проживает в поселке городского типа 0.183*** 0.035 -0.269

(0.046) (0.102) (0.138)

Число детей в возрасте до двух лет -1.241*** -0.354

(0.086) (0.200)

Число детей в возрасте 3-6 лет -0.200*** 0.082

(0.057) (0.093)

Число детей в возрасте 7-18 лет 0.127** 0.069

(0.058) (0.076)

Помощь родственников в уходе за детьми 0.252*** 0.032

(0.068) (0.093)

Состоит в официальном браке 0.144 0.069

(0.183) (0.238)

Логарифм дохода мужа -0.0446** 0.0005

(0.0178) (0.0237)

Логарифм нетрудового дохода -0.0910***

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(0.0058)

Инвалидность -0.160* -0.802*** -0.351

(0.086) (0.127) (0.283)

о

Щ

я

QQ О о о

£ Щ

ai

Рс Р1

Р2

0.500*** (0.012) 0.251 (0.169) -0.173** (0.077) 0.407*** (0.154)

Число наблюдений

3733

3733

3733

Примечание. В скобках — стандартные отклонения; *** — р < 0.01, ** — р < 0.05, * — р < 0.1.

а

Kossova E. V., Potanin B. S. Heckman method and switching regression model multivariate generalization. Applied Econometrics, 2018, v. 50, pp. 114-143.

Elena Kossova

National Research University Higher School of Economics (NRU HSE), Moscow, Russian Federation; ekossova@hse.ru

Bogdan Potanin

National Research University Higher School of Economics (NRU HSE), Moscow, Russian Federation; bogdanpotanin@gmail.com

Heckman method and switching regression model multivariate generalization

The article is devoted to simultaneous estimation of one continuous and various binary equations under assumption of disturbances joint normality. It generalizes Heckman selection and switch-probit models to multivariate case. Following Heckman's univariate model implementation both two step and maximum likelihood procedures are provided. In order to test model performance and correctness we execute analysis on simulated data. It shows that when there are two selection equations generalized model estimates accuracy noticeably outperforms those that are obtained using least squares or Heckman's methods.

Keywords: sample selection; switching regression model. JEL classification: C34.

References

Blundell R., MaCurdy T. (1999). Labor supply: A review of alternative approaches. In: Handbook of Labour Economics. Ashenfelter O., CardD. (eds.). Vol. 3, 1559-1659.

Chavent M., Liquet B., Saracco J. (2010). A semiparametric approach for a multivariate sample selection model. Statistica Sinica, 20 (2), 513-536.

Cinzia D. (2009). Sample selection correction in panel data models when selectivity is due to two sources. Institute of Public Policy and Public Choice Working Papers, 137.

Garen J. (1984). The retums to schooling: A selectivity bias approach with a continuous choice variable. Econometrica, 52 (5), 1199-1218.

Hay J., Leu R., Rohrer P. (1987). Ordinary least squares and sample-selection models of health-care demand: Monte Carlo comparison. Journal of Business, Economic Statistics, 5, 499-506.

Heckman J. (1976). The common structure of statistical models of truncation, sample selection and limited sependent variables and a simple estimator for such models. Annals of Economic Social Measurement, 5 (4), 475-492.

Heckman J. (1979). Sample selection bias as a specification error. Econometrica, 47 (1), 153-161.

Heckman J., Killingsworth M. (1987). Female labor supply: A survey. In: O. Ashenfelter andR. Layard (eds.). Handbook of Labor Economics. Vol. 1, 103-204.

Heckman J., Lochner L., Todd P. (2006). Earnings functions, rates of return and treatment effects: The Mincer equation and beyond. Handbook of the Economics of Education, vol. 1, 307-458.

Jeffrey D., McFadden D. (1984). An econometric analysis of residential electric appliance holdings and § consumption. Econometrica, 52 (2), 345-362. E

Jimenez E., Kugler B. (1987). The earnings impact of training duration in a developing country. Journal ^ of Human Resources, 22 (2), 228-247. uj

Joe H. (2006). Generating random correlation matrices based on partial correlations. Journal of Multi- 8 variate Analysis, 97, 2177-2189. o

Kim S., Egerter S., Cubbin C., Takahashi E., Braveman P. (2007). Potential implications of missing income data in population-based surveys: An example from a pospartum survey in California. Public Health, uj 122, 753-763.

Manjunath B., Wilhelm S. (2012). Moments calculation for the double truncated multivariate normal density. ArXiv e-prints. arXiv:1206.5387.

Manning W., Duan N., Rogers W. (1987). Monte Carlo evidence on the choice between sample selection and two-part models. Journal of Econometrics, 35, 59-82.

Marchenko Y., Genton M. (2012). A Heckman selection-t model. Journal of the American Statistical Association, 107, 304-317.

Mincer J. (1974). Schooling, experience and earnings. New York: National Bureau of Economic Research.

Murphy K., Topel R. (2002). Estimation and inference in two step econometric models. Journal of Business and Economic Statistics, 20, 88-97.

Nawata K. (1993). A note on the estimation of models with sample selection biases. Economics Letters, 42, 15-24.

Nawata K. (1994). Estimation of sample selection bias models by the maximum likelihood estimator and Heckman's two-step estimator. Economics Letters, 45, 33-40.

Nelson F. (1984). Efficiency of the two-step estimator for models with endogenous sample selection. Journal of Econometrics, 24, 181-196.

Paarsch H. (1984). A Monte Carlo comparison of estimators for censored regression models. Journal of Econometrics, 24, 197-213.

Puhani P. (2000). The Heckman correction for sample selection and its critique. Journal of Economic Surveys, 14 (1), 53-68.

Rendtel U. (1992). On the choice of a selection-model when estimating eegression models with selectivity. DIW-Discussion Paper, 53.

Stolzenberg R., Relles D. (1990). Theory testing in a world of constrained research design, the significance of Heckman's censored sampling bias correction for nonexperimental research. Sociological Methods and Research, 18 (4), 395-415.

Turrell G. (2000). Income non-reporting: implications for health inequalities research. Epidemiol Community Health, 54, 207-214.

Vella F. (1993). A simple estimator for models with censored endogenous regressors. International Economic Review, 34 (2), 441-457.

Vella F. (1998). Estimating models with sample selection bias: A survey. Journal of Human Resources, 33, 127-169.

Zuehlke T., Zeman A. (1990). A comparison of two-stage estimators of censored regression models.

The Review of Economics and Statistics, 72, 185-188.

Received 14.03.2018; accepted 21.04.2018.

i Надоели баннеры? Вы всегда можете отключить рекламу.