ЛЕКЦИОННЫЕ И МЕТОДИЧЕСКИЕ МАТЕРИАЛЫ
Введение
в эконометрический анализ панельных данных1)
Ратникова Т.А.
Курс лекций посвящен одному из наиболее востребованных современных инструментов количественного анализа статистической информации в экономике - анализу панельных данных, которые представляют собой прослеженные во времени пространственные2 выборки индивидуумов, домохозяйств, предприятий, регионов, стран и т.п.
Панельные данные применяются в мире в эмпирических исследованиях экономических явлений с 60-х гг. XX в. Их использование дает ряд существенных преимуществ в оценивании параметров регрессионных зависимостей, поскольку они сочетают в себе возможности как анализа временных рядов, так и анализа пространственных наблюдений. С помощью панельных данных становится возможным изучение таких хронических проблем общества, как бедность, безработица, преступность, а также последствий проведения различных государственных социально-экономических и политических программ.
В курсе излагаются базовые концепции анализа панельных данных и принципы построения наиболее востребованных моделей. Одна из лекций посвящена анализу и интерпретации моделей, построенных по реальным российским панельным данным - данным РМЭЗ (Российского мониторинга экономического состояния и здоровья населения).
В этом номере журнала публикуются четыре первые лекции курса. В первой из них излагаются сведения общего порядка, обсуждаются источники панельных данных и некоторые особенности их использования. Во второй лекции дается представление о простейших
Ратникова Т.А. - к.ф.-м.н., доцент кафедры математической экономики и эконометрики ГУ ВШЭ.
1) Автор выражает глубокую признательность всем, кто оказывал содействие в постановке этого курса и совершенствовании текста: Г.Г. Канторовичу, С.А. Айвазяну, В.А. Бессонову, Ф. Гарду, В.Е. Гимпельсону, Б. Дормонт, Э.Б. Ершову, П.К. Катышеву, Е.В. Коссо-вой, М. Морель, А.А. Пересецкому, И.Г. Поспелову.
Работа над материалами курса была поддержана грантом НФПК - Национального фонда подготовки кадров в рамках программы «Совершенствование преподавания социально-экономических дисциплин в вузах» инновационного проекта развития образования. Материалы курса сертифицированы НКСУМ - Независимым комитетом по сертификации учебных материалов.
2) В англоязычной литературе для этого понятия используется термин «cross-section data». Словосочетание «пространственная выборка», может быть, не самый адекватный, но довольно часто употребляемый перевод этого понятия.
моделях анализа панельных данных и некоторых наиболее употребимых методах их оценивания. Третья лекция посвящена обсуждению свойств оценок и методов тестирования спецификации. В четвертой лекции продолжается обсуждение тестов на спецификацию и рассматривается пример практического приложения изложенных методов к анализу данных РМЭЗ.
Лекция 1.
1. Введение
1.1. История создания микроэконометрики
Сравнительно недавно эмпирические исследования в эконометрике были обогащены возможностью анализа новых источников данных: пространственных выборок объектов (индивидуумов, домохозяйств, предприятий и т.п.), наблюдаемых в течение некоторого периода времени. Такие пролонгированные пространственные выборки, где каждый объект наблюдается многократно (например, ежегодно) на протяжении отрезка времени, получили название панельных данных.
По словам нобелевского лауреата 2000 г. Джеймса Хекмана [20], создание подобных баз данных - это главное достижение XX в. Использование этих источников открыло новые перспективы в развитии экономической науки и математических методов, обслуживающих ее.
Смысл высказывания Хекмана состоит в следующем.
Ранние эконометрические модели, опиравшиеся на данные пространственных выборок или временных рядов, носили агрегированный характер и описывали поведение усредненных объектов, для которых Альфред Маршалл ввел специальные термины: «репрезентативный потребитель» или «репрезентативная фирма». Со временем выяснилось, что эти модели часто оказывались не слишком эффективными инструментами для анализа экономических явлений и выработки рекомендаций по социально-экономической политике. Очень часто ни значения, ни знаки коэффициентов, посчитанных по регрессиям для агрегированных временных рядов, не соответствовали предположениям экономической теории, так как возникало серьезное смещение агрегирования. Об этом писали и Тейл в 1954 г., и Грин в 1964, и Фишер в 1969 г.
Одним из решений проблемы виделась разработка программы сбора комбинированных макро- и микроданных, сторонником которой выступил Оркутт в 1964 г. Усилия Оркутта послужили толчком, который привел в движение силы, создавшие современную микроэконометрику, одним из разделов которой служит анализ панельных данных.
Основной источник микроэкономических данных - национальные репрезентативные опросы, проведение которых является весьма дорогостоящей акцией. Чтобы инициировать такого рода деятельность, необходимо наличие серьезных мотивов. Этими мотивами явились, во-первых, потребность в исследованиях, выявляющих причины социально-экономических проблем, способных нарушить стабильность уклада общественной жизни, а во-вторых, спрос на социальные программы, адресованные непосредственно тем или иным специфическим проблемным группам.
Основной целью моделей, создаваемых на базе микроданных в 60-70-х гг. прошлого века, было изучение старой политики в новых условиях или предсказание возможных эффектов новой, никогда ранее не проводимой политики. Особенно пристальное внимание экономистов в эти годы занимал рынок труда. Попытки использования неоклассической теории для его описания вызвали потребность в данных индивидуального уровня и методах анализа и интерпретации зависимостей, получаемых на основании этих данных.
Когда быстро растущий уровень развития вычислительной техники позволил оперативно оценивать сотни разнообразных регрессионных моделей, появился спрос на методы выявления среди множества этих часто взаимно противоречивых результатов таких, которые поддавались бы прозрачной экономической интерпретации. Помимо этого отобранные модели должны были при минимальной размерности вмещать в себя все богатство и разнообразие информации, поставляемой новым типом данных.
Теперь, в начале XXI в., можно констатировать (опять же по словам Хек-мана), что развитие микроэконометрики привело к ряду важных эмпирических открытий.
Наиболее важное открытие - это очевидность того, что неоднородность и многообразие (экономических агентов и явлений) пронизывают экономическую жизнь, а следовательно, они должны непременно учитываться в эконометриче-ских моделях.
Второй важный результат - появление новых моделей экономических явлений - моделей анализа панельных данных, которые предоставляют разнообразные возможности учета неоднородности.
1.2. Описание наиболее употребимых источников панельных данных
Панельные обследования в той или иной форме проводятся практически во всех экономически развитых странах, однако впервые сбор панельных данных начался в США.
Сегодня наиболее востребованными можно назвать базы NLS - National Longitudinal Surveys of Labor Market Experience и PSID - University of Michigan's Panel Study of Income Dynamics. О них следует сказать несколько слов, поскольку примеры анализа этих данных часто используются в различных учебниках и научных публикациях [13].
База NLS содержит данные по различным сегментам рабочей силы: мужчины, которым в 1966 г. исполнилось от 45 до 59 лет, юноши, которым в 1966 г. исполнилось от 14 до 24 лет, женщины, которым в 1967 г. исполнилось от 30 до 44 лет, девушки, которым в 1968 г. исполнилось от 14 до 24 лет, и молодежь обоих полов, которым в 1979 г. исполнилось от 14 до 21 года. Первые 4 сегмента периодически опрашивались в течение 15 лет. Последний сегмент продолжает наблюдаться. Перечень наблюдаемых характеристик насчитывает 1000 наименований с точки зрения рыночного предложения рабочей силы.
База PSID возникла в 1968 г. с ежегодного сбора данных репрезентативной национальной выборки, охватывающей около 6000 семей и 15000 индивидуумов, и пополняется до сих пор. Данные содержат около 5000 характеристик, включая занятость, доход, переменные человеческого капитала, жилищные условия, мобильность и т.п.
В России сбор панельных данных начался в 90-е гг. XX в.
Примерами панельных данных о российской экономике являются RLMS (Rassia Longitudinal Monitoring Survay) или в русской аббревиатуре РМЭЗ - Российский мониторинг экономического положения и здоровья населения, Российский экономический тренд (доступные бесплатно по Интернету) и Российский экономический барометр - платная база данных. На РМЭЗ имеет смысл остановиться особо, поскольку эти данные очень широко используются исследователями и в России, и за рубежом.
РМЭЗ3) представляет собой серии общенациональных репрезентативных опросов, регулярно проводимых с 1992 г. с целью систематического наблюдения воздействия российских реформ на динамику экономического благосостояния до-мохозяйств и отдельных индивидов. Опросы проводятся международным консорциумом организаций при участии Института социологии РАН. База данных РМЭЗ представляет результаты опросов свыше 10 тыс. человек и содержит информацию о размерах, источниках и структуре доходов и расходов домохозяйств, занятости, распределении времени, уровне образования, состоянии здоровья и других характеристик (всего свыше 500 показателей).
Собираемая информация имеет двухуровневую структуру.
1. Информация индивидуального уровня - индивидуальные файлы содержат:
• данные из всех взрослых и детских анкет;
• общую статистическую информацию (регион, тип населенного пункта и т.п.) для каждого человека, участвовавшего в исследовании;
• некоторые сводные индивидуальные индексы (образование, профессиональная группа и т.п.);
• показатели участия данного человека в предыдущих и последующих волнах исследования.
2. Информация уровня домохозяйства (семьи) - семейные файлы включают в себя:
• данные семейных анкет;
• общую статистическую информацию (регион, тип населенного пункта и т.п.) для каждой семьи;
• показатели участия данной семьи в предыдущих волнах исследования.
А вот как выглядит неполный перечень исследований, в которых были использованы данные РМЭЗ [9].
1. Анализ сберегательного поведения российских домохозяйств.
2. Незанятость в России: вынужденная или добровольная.
3. Субъективные и объективные оценки здоровья населения.
4. Бедность в России: масштабы и структурные особенности.
5. Измерение продолжительности бедности в России.
6. Экономический анализ причин вторичной занятости.
7. Микроэкономический анализ динамических изменений на российском рынке труда.
8. Распространенность курения в России.
3)
Подробная информация о РМЭЗ и первичные данные представлены на сайте: http://www.cpc.unc.edu/projects / rlms/home.html.
9. Проблема алкоголизма в России.
10. Рабочее время как ресурс благосостояния.
11. Динамика среднего класса в России 1990-х гг.
12. Экономическая эффективность высшего образования.
13. Финансовое поведение домохозяйств: сбережение, инвестирование, кредитование, страхование.
14. Толерантность и динамика социального самочувствия в современном российском обществе.
15. Тендерные аспекты инвестиций в человеческий капитал в современной России.
16. Мобильность населения по доходам как механизм изменения неравенства.
17. Роль государства и семьи в экономической поддержке пожилых людей в Российской Федерации.
18. Человеческий капитал в России: модели текущих и пожизненных расходов.
19. Сравнительная ценность различных форм человеческого капитала в России.
20. Эволюция социального самочувствия россиян и особенности социально-экономической адаптации.
21. Трудовая незащищенность и задолженность по заработной плате в Российской Федерации.
22. Социально-экономические факторы феминизации бедности в России.
23. Женщины в сфере занятости и на рынке труда в российской экономике.
24. Анализ затрат домохозяйств на здравоохранение.
25. Экономический статус и здоровье человека.
26. Интерпретация скачка смертности в России.
27. Доходы и занятость.
1.3. Преимущества использования панельных данных
Пролонгированная, или панельная, совокупность данных представляет собой пространственную выборку объектов, прослеживаемую во времени, и, таким образом, предоставляет множество наблюдений над каждым отдельным объектом. Панели можно создавать, объединяя вместе готовые временные ряды (как правило, так строятся панели стран и регионов).
Основные преимущества данных этого типа в следующем:
1) они предоставляют исследователю большое количество наблюдений, увеличивая число степеней свободы и снижая зависимость между объясняющими переменными, а следовательно, стандартные ошибки оценок;
2) они позволяют анализировать множество экономических вопросов, которые не могут быть адресованы к временным рядам и пространственным данным в отдельности;
3) они позволяют предотвратить смещение агрегированности, неизбежно возникающее как при анализе временных рядов (где рассматривается временная эволюция усредненного «репрезентативного» объекта), так и при анализе перекрестных данных (где не учитываются ненаблюдаемые индивидуальные характеристики объектов и предполагается однородность, всех коэффициентов регрессии);
4) они дают возможность проследить индивидуальную эволюцию характеристик всех объектов выборки во времени;
5) они решают проблему поиска «хороших» инструментов при оценивании моделей с эндогенными (т.е. коррелированными со случайными ошибками) рег-рессорами;
6) они дают возможность избежать ошибок спецификации, возникающих от невключения в модель существенных переменных.
Поясним все вышесказанное следующими примерами.
Трудности с выводами о динамике изменения каких-либо объектов из пространственных наблюдений хорошо иллюстрируются следующей ситуацией на рынке труда.
Рассмотрим влияние профсоюзных объединений на экономическое поведение рынка.
Одна группа экономистов, которая намеревается интерпретировать наблюдаемые различия между фирмами, где есть профсоюз и где его нет, полагает, что союзы и коллективно осуществляемые процессы фундаментально меняют ключевые аспекты соотношений занятости: компенсацию, внутреннюю и внешнюю мобильность труда, порядок работы и окружение. Другая группа экономистов рассматривает эффекты от объединения как иллюзорные попытки противостояния совершенной конкуренции, условиям которой достаточно близко удовлетворяет реальный мир. Эти экономисты полагают, что наблюдаемые различия существуют главным образом благодаря различиям, предшествующим объединению или возникшим после. Профсоюзы не способствуют повышению заработной платы в долгосрочном периоде потому, что фирмы реагируют на это повышение повышением требований к качеству работников. Если одни полагают, что коэффициент при фиктивной переменной, отражающей статус участия в профсоюзе в уравнении заработной платы, есть мера эффекта от объединения, то другие считают, что этот коэффициент просто отражает уровень квалификации работника.
Модели, основанные только на пространственных данных, обычно не могут позволить выбрать верную гипотезу из этих двух, так как оценки отражают межиндивидуальные различия только в данный момент. При использовании панельных данных можно различить эти две ситуации, изучая разницу в заработной плате работника, движущегося от фирмы без профсоюза к фирме с профсоюзом. Если эффекта от участия в профсоюзе нет, то не будет меняться и заработная плата, и наоборот. Прослеживая данные фирмы до создания в них профсоюза и после, можно сконструировать модель, измеряющую эффект от деятельности профсоюза.
Рассмотрим пример абстрактной модели с распределенными лагами:
Как правило, в таких моделях возникает проблема квазимультиколлинеар-ности между (п + 1) объясняющими переменными х1, х11,..., х1_п. Таким образом, нет достаточной информации, чтобы получить точные оценки некоторых коэффициентов при лаговых переменных без априорного предположения о том, что они являются функциями небольшого числа параметров.
п
(1.1)
Когда есть панельные данные, мы можем использовать индивидуальные различия в величинах х, чтобы снизить проблему мультиколлинеарности. Более того, доступность пространственных массивов данных позволяет использовать различные предварительные ограничения на коэффициенты при лаговых регрес-
сорах {Ь } .
Помимо того, что панельные данные дают возможность конструировать и тестировать более сложные поведенческие модели, чем чистые пространственные данные или временные ряды, использование панельных данных позволяет снижать размерность моделей и дает средство разрешения некоторых ключевых эконометрических проблем. Например, такой проблемой является понимание, заключается ли причина наблюдаемого эффекта в пропущенных (неверно измеренных, ненаблюдаемых) переменных, которые коррелированы с объясняющими переменными.
Рассмотрим в качестве примера простую модель:
(1.2) у, = а + X,р + и,, , г = 1,...,N, , = 1,...,Т,
где X, и 2, - векторы-строки объясняющих переменных, р, у - векторы коэффициентов, случайная ошибка и, подчиняется обычным предположениям теоремы Гаусса - Маркова.
Если модель (1.2) верно специфицирована, то МНК дает несмещенную и состоятельную оценку а, р и у.
Предположим, что переменные X, наблюдаемы, а 2, ненаблюдаемы, и
соу (X и ,2,) ^ 0. Тогда оценки коэффициентов регрессии у на X будут смещены. Однако, если доступны повторяющиеся наблюдения для групп индивидуумов, они могут позволить нам выявить нежелательный (смещающий оценки при переменных X и) эффект от невключения 2 и устранить его. Пусть 2 и = 21 для V/. Мы можем перейти к первым разностям по времени:
у, -У„-1 = (X;, -X,,,-!)р + (ыг, -), г = 1,...,N, , = 2,...,Т.
Мы также можем взять отклонение от среднего:
у, - У, =(x;t - X;) р+(ии - й\, г = 1,. N, , = 1,...Т,
1 N
где у = ^ £ у» и т.д.
N ¡=1
Теперь оценка МНК р будет несмещенной (и этому не препятствует авто-коррелированность случайных ошибок в преобразованных моделях).
Если бы мы имели только пространственные данные (Т = 1) для (2 и = 21) или только временной ряд ^ = 1) для (2, = 21), такое бы было невозможным. Часто в таких случаях приходится использовать метод инструментальных пере-
менных с инструментом, коррелирующим с X, но некоррелированным с 2 и и. Найти такой инструмент, как правило, довольно сложно.
В работе Макарди [21] по жизненным циклам в предложении труда мужчин есть хорошая иллюстрация вышеизложенного. При определенных упрощающих предположениях Макарди показал, что функция предложения труда может быть записана в виде (1.2), где у - логарифм рабочих часов; X - логарифм реальной ставки заработной платы; 2 - логарифм предельной полезности начального благосостояния работника. 2 является ненаблюдаемой переменной и обусловливается суммарной величиной заработной платы работника и дохода от собственности за всю его жизнь к моменту начала наблюдения. Поэтому 2 и = 21. В этой задаче не только X коррелирует с 2, но и любая другая экономическая переменная (образование и т.п.). Следовательно, нельзя оценить р состоятельно из пространственных данных, но переходом к первым разностям по времени в панельных данных получаются состоятельные оценки.
1.4. Проблемы использования панельных данных
1.4.1. Гетерогенное смещение
Привлекательность панельных данных проистекает из теоретической возможности элиминировать в регрессионной модели влияние некоторых специфических трудноизмеряемых факторов, например политики.
Если данные генерируются простым контролируемым экспериментом, то могут быть применены стандартные статистические методы. К несчастью, большая часть панельных данных поступает из очень сложных процессов повседневной экономической жизни. Типичное предположение, что у генерируется параметрической функцией распределения вероятностей Р(у\в), где в - т-мерный действительный вектор, один и тот же для всех индивидуумов и во все времена, может быть нереальным. Игнорирование таких гетерогенных параметров может привести к несостоятельности оценок. Рассмотрим следующую модель:
(1.3) у = а, + рхи + и и , 1 = 1,...,N, I = 1,к,Т,
где X - единственная экзогенная переменная; случайная ошибка ии подчиняется обычным предположениям теоремы Гаусса - Маркова.
Параметры а. и р. могут быть различны для различных индивидуумов,
хотя и оставаться постоянными во времени. Следовательно, будут встречаться различные выборочные распределения, которые могут серьезно смещать регрессию у и на X и, оцененную по всем МГ-наблюдениям и игнорирующую индивидуальную неоднородность коэффициентов модели (1.3).
Вышесказанное можно проиллюстрировать следующими примерами: 1) гетерогенный (неодинаковый) для различных индивидуумов свободный
член и гомогенный (одинаковый) наклон: а ^ а., р = р. для V/, ]
Y
X
Y
X
- диаграммы рассеяния для отдельных индивидуумов во
- индивидуальные регрессии;
- регрессия по всем М"Т наблюдениям.
Во всех этих ситуациях сквозная регрессия4), игнорирующая гетерогенность константы, является смещенной, причем направление смещения не может быть диагностировано априорно.
2) И свободный член, и наклон гетерогенны: существуют такие /, ], для которых а1 Ф а., р. Ф р..
Здесь: ^
времени;
Y
А
Y
\ / \ /
^ I х
X
X
На первом рисунке изображена ситуация, когда сквозная регрессия приводит к бессмысленному результату, так как индивидуальные направления (коэффициенты наклона) существенно различаются. Во втором случае некий смысл сквозной регрессии имеется, но приводит к ложным результатам о криволиней-ности сквозного соотношения.
Аналогичные примеры можно привести в случае, когда свободный член и наклон изменяются со временем и одинаковы для индивидуумов.
4) Так, начиная с этого момента, мы будем переводить англоязычный термин «pooled», под которым подразумевается регрессия, оцененная без учета особой (панельной) структуры данных.
1.4.2. Смещение самоотбора
Другой распространенный источник смещения - неслучайная выборка. Например, известный факт, что в данных РМЭЗ практически нет наблюдений, относящихся к индивидуумам из высокодоходных групп населения. Когда такие неполные данные используются в качестве зависимой (объясняемой) переменной, это может повлечь за собой смещение самоотбора. Чтобы это продемонстрировать, рассмотрим пример с пространственными данными. Зависимость ищется в виде:
у, = Х'Ь + и. , I = 1, ..., Ы, Е (и. ) = 0, Б (и. ) = Стц7,
где у - заработная плата, X - набор экзогенных переменных, включая образование, интеллект и т.д.; I - единичная диагональная матрица.
Причем
при у. = ЬX. + и. < Ь - индивидуумы включаются в выборку;
при у. > Ь - исключаются.
Для простоты теперь предположим, что все экзогенные переменные принимают одни и те же значения для всех наблюдений, кроме образования (которое измеряется как продолжительность обучения).
Заработная
Из приведенного схематического рисунка видно, что линия регрессии, построенная по усеченным данным, будет иметь меньший угол наклона, чем ее аналог, который мог бы быть получен по полной выборке. Таким образом, влияние образования оказывается недооцененным. Это происходит оттого, что в данных выборок такого типа появляется корреляция между объясняемой переменной у1 и случайной ошибкой щ , что ведет к недооценке или переоценке влияния зкзогенных переменных.
Смещение самоотбора при анализе панельных данных часто является следствием истощения выборки, т.е. постепенного убывания числа объектов наблюдения. Истощение панели - это типичное явление. Панели домохозяйств могут истощаться из-за перемещений, распадов семей, а также из-за отказов участвовать в опросах в дальнейшем. Если выбытие происходит по случайным причинам,
смещения самоотбора может и не быть, но если существуют некие скрытые закономерности, то смещение неизбежно. Например, при повышении уровня доходов у домохозяйства могут пропасть стимулы участвовать в опросе, и тогда в выборке будут оставаться низкодоходные слои населения, что сделает выборку нерепрезентативной.
Перечисленные проблемы могут быть разрешены с помощью некоторых специальных приемов, которые подробно будут изложены в лекции 10. Это может быть переход или к несбалансированным панелям, где разные индивидуумы наблюдаются в течение различного числа тактов времени, или к панелям с замещением, где выбывшие объекты заменяются новыми, или использованием псевдопанелей, где в качестве объектов наблюдения выступают не отдельные индивидуумы, а группы индивидуумов со схожими (в некотором смысле) характеристиками. Хотя, конечно, это осложняет процесс оценивания.
Для решения проблемы самоотбора при исследовании пространственных выборок используют модель Хекмана. В настоящее время появились разработки, обобщающие эту модель для анализа панельных данных.
К часто встречающимся недостаткам панелей можно отнести также немногочисленность наблюдений, составляющих временные ряды для отдельных индивидуумов.
Лекция 2.
2. Простейшие модели анализа панельных данных
Изучение моделей анализа панельных данных мы начнем, введя для простоты следующие предположения:
• будем рассматривать только статические модели, в которых матрица регрессоров не содержит столбцов лаговых значений зависимой переменной;
• будем рассматривать только сбалансированные панели, т.е. те, в которых все индивидуумы наблюдаются одинаковое число временных тактов;
• будем рассматривать панели с короткими временными рядами, что очень часто встречается на практике;
• для того чтобы отразить временной эффект, будем использовать аддитивные фиктивные переменные, которые будут включены в число столбцов матрицы регрессоров;
• сосредоточим свои усилия на изучении возможностей учета специфического индивидуального эффекта, под которым будем подразумевать ненаблюдаемые и неизменяемые со временем характеристики объектов выборки.
2.1. Спецификация моделей
Модель сквозной регрессии.
Уравнение модели в покомпонентной записи:
у., = Х'Ь + а + е., .
' ¡1 ¡1 ¡1
Потребуем, чтобы наша модель удовлетворяла следующим основным предположениям:
■ Х'ы - вектор-строка значений детерминированных (пока) регрессоров;
■ а и вектор-столбец Ь - коэффициенты регрессии, одинаковые для всех наблюдений;
■ нормальны и удовлетворяют условиям классической линейной регрессионной модели, в том числе условию некоррелированности с Х'а.
Эта модель является самой ограничительной из возможных, так как предписывает одинаковое поведение всем объектам выборки во все моменты времени. Если эти предположения выполняются, то параметры модели могут быть состоятельно оценены с помощью метода наименьших квадратов (МНК). Соответствующая оценка в матричной форме записи будет иметь вид: /3МНК = (XX) 1ХТ, где
У1
(T ,1)
У2
(T ,1)
У =
У,
(T ,1)
Ум
_(T ,1) _
У =
(T ,1)
У 1
Уп
У iT
X =
X1
(T ,K)
X 2
(T ,K)
X,
(T ,K)
XN
(T ,K ) _
b =
Модель регрессии с детерминированным индивидуальным эффектом (fixed effect model - FE-модель).
Уравнение модели в покомпонентной записи:
У t = X'„b + ai + e ■
Модельные предположения соответствуют предыдущему случаю во всем, кроме того, что касается свободного члена a., который теперь принимает различные значения для каждого объекта выборки. Смысл а. в том, чтобы отразить влияние пропущенных или ненаблюдаемых переменных, характеризующих индивидуальные особенности исследуемых объектов, не меняющиеся со временем. Например, при изучении панели предприятий под а. можно подразумевать влияние качества менеджмента.
В матричном виде эта модель записывается так:
N векторов
У1 " X1 _
(T ,1) (T K)
У N XN
_(T ,1) _ _(T K) _
■ b +i
(к ,1)
iT 0 . 0
T (T ,1) (T ,1) (T ,1)
0 к
(T ,1) T (T ,1)
0 T
(T ,1) T (T ,1)
e1
(T ,1)
SN
(T ,1)
где iT =
(T ,1)
Обозначим через (А= \а1 ... ан ] вектор констант, соответствующих детерминированным индивидуальным эффектам, а через Ъ - матрицу фиктивных переменных, стоящую перед вектором А, тогда:
(2.1)
y = X ■ b + Z ■ A + e .
(NT ,1) (NT K) (K ,1) (NT ,N) (N,1) (NT ,1)
Поскольку модель не содержит общей (одинаковой для всех наблюдений) константы, матрица (X 2) будет полного ранга, и эту модель тоже можно оценивать МНК. Соответствующая оценка
bLSDV
XX XZ Z'X ZZ
XV Z'Y
получила в литературе название «оценки МНК в регрессии с фиктивными переменными» (ЪБОУ).
Эта модель является довольно гибкой, так как, в отличие от предыдущей модели, она позволяет учитывать индивидуальную гетерогенность объектов выборки. Однако за эту гибкость часто приходится расплачиваться потерей значимости оценок (из-за увеличения их стандартных ошибок), так как приходится оценивать N лишних параметров. Кроме того, необходимость обращать матрицу высокой размерности ^ + К) вызывает вычислительные трудности. Но это последнее затруднение легко обходится, как будет показано ниже.
Моделъ регрессии со случайным индивидуальным эффектом (random effect model - RE-моделъ).
В матричной записи уравнение модели имеет вид
y = X ■ b + u,
(Nt,1) (NTK) (к■!) (NT,1)
где uit = a + e
(2.2) или y =
У1 (T ,1) " X1 " (T ,K) и1 (T ,1)
У2 (T ,1) X 2 (T ,K) и2 (T ,1)
Уг = X. • b + (K ,1) и .
(T ,1) (T ,K) (T ,1)
yN _(T ,1) _ xn _(T ,K) _ un _(T ,1)_
где
и - нормально распределен X - детерминированная матрица E(и) = 0, поскольку E(a) = 0, E(e) = 0, E(ии') = S • IT E(и. и.,,) = d..,s2 + ,ст2
x it i1 ' ii a и tt e
дисперсии случайных компонент a
и e
d =
ii, i = i' (0, i Ф i'
- символ Кро-
некера; INT - единичная диагональная матрица.
Смысл a., также как и в предыдущем случае, состоит в том, чтобы отразить влияние пропущенных или ненаблюдаемых переменных, характеризующих индивидуальные особенности исследуемых объектов. Но теперь эти индивидуальные различия носят случайный характер, в среднем нивелируются, и их теоретические дисперсии предполагаются одинаковым для всех объектов выборки и 2
равными sa.
Эта модель является компромиссом между двумя предыдущими, поскольку она менее ограничительная, чем первая модель, и позволяет получать более статистически значимые оценки, чем вторая.
Если сформулированные предположения выполняются, оценки обобщенного метода наименьших квадратов (GLS или в русской аббревиатуре - ОМНК) этой
модели beis = (X'W 1X) 1X'W 1 y будут несмещенными.
Именно эта модель и будет служить в дальнейшем предметом нашего изучения.
2.2. Оценивание модели со случайным индивидуальным эффектом
2.2.1. Операторы «between» (B) и «within» (W)
Этими операторами удобно пользоваться при обращении с данными, имеющими двойные индексы. Они позволяют удобным образом разлагать векторы наблюдений на две взаимно ортогональные компоненты, что значительно упрощает процесс получения аналитических выражений для оценок моделей, сформулированных в предыдущем параграфе.
Но прежде, чем будут даны определения этих операторов, нам понадобится ввести понятие кронекерова произведения матриц.
а) Кронекерово произведение матриц.
Определение. Пусть А и В матрицы порядков (m, n) и (p, q). Их кронекеро-вым произведением называется матрица порядка (mp, nq) вида: A ® B = (a.., B).
Пример:
I ® I =
N Т
(М,Н) (Т,Т)
1 • 1Т 0 • 1Т О • 1Т 1 • 1Т
О • / к
О • к
1 • к
1' т '
{тм)
Свойства кронекерова произведения:
(А + В) ® С = (А ® С) + (В ® С); А ® (В + С) = (А ® В) + (А ® С); а А ® ЬВ = ар (А ® В), а , Ре Я;
АВ ® СБ = (А ® С )(В ® Б); (А ® В)' = А' ® В'; (А ® В)-1 = А-1 ® В
борки.
б) Операторы в пространстве Я .
Это пространство образовано векторами наблюдений над г'-ым объектом вы-
Рассмотрим следующие вектора и матрицы:
Уп
Уг =
(Т,1)
Уг,
У,Т
1" 1 1 ... 1
1 1 о
Т = , JT =
Т,1) 1 (Т,Т) 1 1
где у. - вектор наблюдений объясняемой переменной для г'-го индивидуума в течении Т периодов времени.
Можно убедиться, что -= гТ (гТ 1Т )- 1Т . Это оператор проецирования на
Т
единичный вектор гТ . Подействуем этим оператором на вектор у.:
ГТ1 Уг
Т (Т,1) (Т,Т)
Уп
Уи
У,Т
1 Т
Т Е у и
I
1 Т
Т Е У и
Т »=1
Уг.
Уг..
Уг.
= (У,).
(Т,1)
1Т
где У. = —Еу» - среднее индивидуальное по времени для г'-го индивидуума.
Т »=1
Можно ввести оператор вычисления отклонений от этого среднего:
IT - Jr
Т
v Т,Т) 0
• У =
(Т,1)
(1Т - JJT-л
v т Т 0
" y,1 " У,1 - У.
У» = Уп - У.. = 1 У а - У. V (Т,1)
_ У,т . _ УгТ - У..
Jr
Свойства операторов - и
Т
J
Т
■г--
Т
0
J^ = [ jl
Т V Т
Т Т
■ - Т И ^Т - Т
= l--
Jr_
Т
к --
Л
Т
Матрицы операторов, обладающие такими свойствами, называются симметричными и идемпотентными, а сами операторы - проекторами. в) Операторы «between» (B) и «within» (W).
Эти операторы вычисляют векторы средних значений у и векторы отклонений от их средних в пространстве всех наблюдений RNT.
Г л ^
Оператор «between» имеет вид: B = I IN
(NT ,NT)
Т
Рассмотрим вектор y и действие на него оператора В:
(nt ,1)
B • У =\In
(NT,NT) (NT,1)
I JТ
Т
y =
J о
Т (Т,Т)
(Т,Т)
о
(Т,Т )
о
Т,Т)
Т
Т,Т)
о
Т,Т)
ТТ
Т,Т)
У1
Т, 1)
У
Т, 1)
yN . (Т. 1).
Т
У
(Т,1)
У
Т
(Т ,1)
Т УN
(Т ,1)
У У1- J У. У.
yN • 7n .J
Т раз
Т раз
Т раз
Таким образом, В-у есть вектор средних индивидуальных значений у, повторенных Т раз для каждого индивидуума.
Оператор «within» имеет вид: W = IN ® 1T--
( NTNT ) N 1 т
( NT, NT )
( NT, NT )
V J 0
У11 - y.
> для 1-го инд.
f
У i - Уi.
W ■ y
(NT, NT ) ( nt ,1)
> для 2-го инд.
V
У IT - У,.
> для N -го инд.
Таким образом, W■y есть вектор отклонений индивидуальных наблюдений от своих средних значений по времени.
Можно самостоятельно убедиться, что операторы обладают следующими свойствами:
В = В ' = В2, W = W ' = W2, W + В = 1т , WB = BW = 0.
Оба эти оператора являются ортогональными проекторами, более того, ортогональными дополнениями, а их матрицы неотрицательно определены.
Теперь мы можем разложить вектор у на две ортогональные компоненты:
у = Ву + Wy, поскольку соу( Ву, Wy) = ВУ (у) W' = 0.
Если вектор у центрирован относительно выборочного среднего
сумма квадратов отклонений у (ТББ). Можно разложить ТББ у на две компоненты:
т.е. известное соотношение дисперсионного анализа (после деления на NT): общая (выборочная) дисперсия = межгрупповая дисперсия («between») +
где у'Ву - отражает не зависящие от времени различия между объектами;
у'Wy - отражает временные флуктуации индивидуальных наблюдений вокруг среднего по времени значения.
есть выборочная дисперсия, а ^ ^ y2 = y'y
уУ = yBy + y' Wy,
+ внутригрупповая дисперсия («within»),
Аналогичное разложение может быть применено к матрице ( X
X X = X 'BX + X WX ■ 2.2.2. Оценки «between» и «within»
В анализе панельных данных принято вычислять оценки коэффициентов несколькими способами и путем сравнения полученных результатов выбирать спецификацию, наиболее адекватную данным. Оценка «between»:
К = (X BX )-1 X ВУ
получается, если применить МНК к преобразованному под действием оператора «between» уравнению регрессии By = BXb + Bu . Оценка «within»:
bW = (X 'WX )-1 X 'Wy,
получается, если применить МНК к преобразованному под действием оператора «within» уравнению регрессии Wy = WXb + Wu .
Пользуясь предположениями модели со случайным индивидуальным эффектом мы можем найти аналитические выражения для математических ожиданий и ковариационных матриц полученных оценок:
E (bB ) = E ((X'BX )-1 X'BY ) = ( X'BX )-1 X'B • E (Y) = ( X'BX )-1 X'BXb = b ,
V (ьв ) = ( x BX )-1 X'B wBX ( x BX )-1,
где W - ковариационная матрица случайного возмущения. (При вычислении ковариационных матриц оценок здесь и в дальнейшем используется следующий простой результат: если u - случайный вектор, A - постоянная матрица, то V(Au) = AV(u ) A'.)
Совершенно аналогично можно получить
E (К ) =b,
V (bW ) = (X' WX)-1 X' W WWX (X' WX)-1.
В сущности обе эти оценки являются результатом использования МНК, но только применительно не к исходным, а к преобразованным данным.
Оценку «within» bw часто называют оценкой bFE, т.е. оценкой модели с детерминированным индивидуальным эффектом. Почему это возможно?
Обратимся к уравнению модели с детерминированным индивидуальным эффектом (2.1), переписав его с помощью кронекерова произведения матриц
V = X • Ь + г • А + е =
(N7,1) ("Г, К) (К,1) (N7, N (N,1) (N7,1)
= X • Ь + (I„ ® Г ) А + е .
(N7,К) (К,1) (м- дт, (N,1) (N7,1)
Доказать, что оценка вектора коэффициентов Ьш в модели с детерминированным эффектом совпадает с оценкой Ь№ в модели со случайным эффектом, можно с помощью теоремы Фриша-Вау-Ловелла.
Теорема Фриша-Вау-Ловелла [18, 27].
Оценка МНК Ь в модели (*) у = ХЬ + 2е + и совпадает с оценкой МНК Ь
в модели (**) М2у = М2ХЬ + М2и , где М2 = I - г (2 2 )-1 г' есть проектор на подпространство, ортогональное подпространству, натянутому на столбцы матрицы 2.
Доказательство.
Подействуем оператором М2 на (*):
ыу = МУХЬ + МЛе + Ми = МхЬ + Мги ,
2^2 2 2 2 2''
так как М22е = (I - 2 (2 2)-12') 2е = (2 - 2 (2 2)-12 2) е = 0.
Следовательно, модели совпали после преобразования, а значит, совпадают и оценки Ьп = Ь(,,) = (ХМ2Х)-1 ХМ2У, ч.т.д.
В нашем случае роль Z играет (INä iT), а роль mz играет W = IN Ä ^IT -J"
Если теперь покомпонентно записать результаты воздействия оператора W на уравнения обеих моделей (как с детерминированным, так и со случайным индивидуальным эффектами), то эти результаты оказываются идентичными:
у и - yt.=(x; - X,') - e), i = 1,- n , t = 1, к t,
а следовательно, идентичными будут и оценки.
В дальнейшем изложении будут использоваться, помимо введенных оценок bw и bB , еще две традиционные оценки.
Оценка МНК: ЬМНК = ( XX )-1 X Y.
Она является несмещенной в рамках предположений модели со случайным индивидуальным эффектом, так как E (Ьшк )= b, и обладает ковариационной матрицей:
V (b мнк ) = (XX)-1 X ' WX (XX)-1.
Оценка обобщенного МНК: Ь = (X 'О-1 X) X 'о у опять несмещена,
Е(Ьомх ) = ь, У (Ьомнк) = (X 'о.-1 X)-1.
Если модель со случайным индивидуальным эффектом верно специфицирована, то последняя оценка является наилучшей в классе линейных несмещенных оценок. Это утверждение следует понимать в том смысле, что матрица
У (Ь)- У (РОМНк ), где У (Ь) - ковариационная матрица произвольной линейной
несмещенной оценки, будет являться неотрицательно определенной.
2.3. Ковариационная матрица случайного возмущения в модели со случайным индивидуальным эффектом
Чтобы исследовать эффективность всех оценок и построить оценку обобщенного МНК, нам необходимо знать ковариационную матрицу случайного возмущения О . Изучим поподробнее ее структуру. Согласно (2.2)
о = Е(ии ') = Е
и1
(Т,Т)
иы
Т,Т)
и1
(Т,Т)
иы
(Т,Т)
= Е
(Т,Т)
(Т,Т)
В рассматриваемой модели Е(и ии.ч, ^ = 8.., с2а + 8и, 8и, с,,
следовательно,
для двух разных индивидуумов
I Ф1 и Е(и и') = 0,
■> \ ' 1 ) (Т,Т)
а для одного индивидуума
I =1 и Е (и. и.' ) =
с + с с
а £ а 2
с ■.
с
с + с
= с Jт + с£ !т = 2.
(Т,Т)
Следовательно, О =
2 0
(ТТ (Т,Т)
0 2
(Т,Т) (Т,Т)
0
(Т,Т)
0
(Т,Т)
2
ТТТ)
= 4 ®2= 4 ®(< + с2 1г ) •
Можно выразить О через матрицы операторов В и Ш:
S = al Jt + s IT = '
= a
( J (
T
Ir--+
T
2 ( TS JT
a IT + -
£ a T
V £
( Tal > Jr \
1-1
V s2 0 T 0
f
= a
\
Tr -^] + ^ J
v r 0 q r 0
где
a + Ta1
(( J ^
Тогда: W = IN ®a
L --
W
J,
q T
í
1
Л
W +-B
n2
v q 0
и w =
1 = ^ (w+q2 B).
Теперь можно преобразовать некоторые выражения, полученные ранее. Подставив выражение для W и воспользовавшись свойствами операторов B и W, можно значительно упростить вид ковариационных матриц оценок:
V (bB ) = (X BX)-1 X B WBX (X BX)-1 = (ст2 + Taa ) (X BX)-1 ,
v (bW) = (x wx)-1 x wwwx(x wx)-1 = a2 (x wx)-1.
CJ
Можно показать, что оценка ЬОМНК = (X 'О1 X) X 'О 1 у эквивалентна оценке обыкновенного метода наименьших квадратов, если последний применить к преобразованным данным уы - су с а = 1 -Vв2 .
Действительно, ст£2 О-1 = Ж + в2 В = (¡т - В + в2 В) = ¡1ТТ - (1 - в2 ) В =
= (^-(1 -в) В )(/„- (1 -в) В) ^
Ьомнк = (X 'О-1 X)-1 X 'О-1 у =
= ( X'(-(1 -в) В)(1М-(1 -в) В) X )-1 X '(1М-(1 -в) В)(1МТ-(1 -в) В) у =
= (X X)-1 X'у, где X = (1№-(1 -в)В)X = X, -X , у = у, - су,..
2.4. Интерпретация параметра д2
Параметр д =- можно интерпретировать как комбинацию «Ъв-
ст2 + Ta
e a
tween» и «within» дисперсий компоненты u.t случайного возмущения u. Поскольку u.t = a + s.t , дисперсия «within» un вычисляется следующим образом:
Dw (u ) = D (uit - u, ) = D (eit - e. ) = S ^ - T),
так как
D(e -e.) = E(e -e.)2 = s + e-±-e j -TE]>> 2 r 1 \ 2 &e
= &2e I 1--j, а дисперсия «between» DB (u.t ) = D (u.^ = D (a ) + D (e. ) = a2a +--,
так как a и e независимы.
2 1 D (uu - ui.)
Следовательно, д =--.
T -1 D (u„)
Таким образом, параметр д2 отражает отношение внутригрупповой дисперсии к межгрупповой, нормированное на Т - 1.
2.5. Оценивание параметра д2
Как обычно, в эконометрике оценки дисперсий случайных возмущений aa и a2e выводятся из анализа остатков u = y - Xb . Существуют методы получения
оценок и2а и a2e из остатков сквозной модели. Эти оценки будут состоятельными,
) 2
но иногда встречаются трудности такого рода, как отрицательные значения aa
или д2 >1 при конечных Т. Поэтому на практике существует более простое решение, которое состоит в использовании остатков, полученных при «between» и «within^-оценивании, что позволяет получать состоятельные оценки.
Рассмотрим остатки «between»-регрессии
uB = By - BXb в
и покажем, что дисперсия компоненты ui4 случайного возмущения Bu может
быть состоятельно оценена с помощью суммы квадратов остатков регрессии «be-tween» следующим образом:
(2.3)
N - K
и„ = By -
By - BXbв = By - BX (X BX)-1 X Ву = (I - BX (X BX)-1 X ') Ву-(I - BX (X BX)-1 X ') в (Xb + и) = (I - BX (X BX)-1 X в) Ви ,
так как В = В . Тогда
Е (иВ ив ) = ЕГт (и В (I - Рвх ) Ви) = Гт (В (I - Рвх ) ВЕ (ии ')) = * (В (I - Рвх ) ВП) = гт ^В (I - РвХ ) Во] ^ W + в в^^ =
= гт
о
В (I - Рх ) В = 0 гт ((- рвх ) в) = 0 той* (в - Pвх )
=в (N - к)=(о] + т°: -к) >
и
где Рвх = Вх (X Вх)-1 X В .
Следовательно, Е (о^ ) = о] + Тога .
Аналогичным образом можно вычислить оценку дисперсии компоненты ии - и■ случайного возмущения Wu
(2.4)
) 2 = uw uw
т - N - к'
о].
анализируя остатки «адй^,т»-регрессии, и показать, что Е(ст^ ) = (
Тогда в качестве оценки параметра в2 может быть использовано отношение 02 к о1в , и можно показать, что при больших значениях N эта оценка будет состоятельна:
Р Ито2
р Ишв2 =
Р 11ш0и2в + Тоа
2
2.6. Реализуемый обобщенный МНК
В заглавие этого параграфа вынесено название метода оценивания параметров регрессии в случае, когда ковариационная матрица случайной ошибки неизвестна. Однако часто пользуются предположением, что известна структура этой матрицы, т.е. форма ее зависимости от одного или нескольких (обычно немногих) параметров, которые полагаются неизвестными и подлежащими оцениванию.
Такая ситуация имеет место в модели со случайным индивидуальным эф-
2 Г 1 ]
фектом. Ковариационная матрица W = s I W +--B I известна с точностью до
Ч дг 0
2 Л2
двух параметров: se и q .
Оценка реализуемого ОМНК (feasible GLS) коэффициентов регрессионной модели со случайным индивидуальным эффектом имеет вид:
Ьромнк =(* W *)-1 * ^ >
где W = S2 fw + — B], = S = SwSw
e { q2 0 e "w NT - N -K
Все эти оценки будут состоятельными.
uw -_2
s„
2
2
Лекция 3.
3. Сравнение оценок 3.1. Декомпозиция оценок
Удобно объединить полученные результаты единым параметрическим представлением и построить класс оценок, который впоследствии будет удобно анализировать.
Оценки класса т Ь (/) = т Ьш + (I - /) Ьв.
(К,1) (К-К) (К,К)
Очевидно, что оценки этого класса представляют собой взвешенную сумму
оценок Ь№ и Ьв , где / - квадратная матрица. Поскольку соу (ъ„ , Ьв ) = 0 (в этом
нетрудно убедиться самостоятельно), мы имеем дело с ортогональным разложением. Последнее обстоятельство служит причиной широкого использования этой формы параметризации оценок.
При
т = 1К, ь (т) = ь№, т = о, ь (т) = ьв, т = (х'х)-1 х ш, ь (т) = ьшк, т = (х'гх+в2 х'вх)-1 х'их, ь (т) = •
Легко показать, что в рамках предположения модели со случайным индивидуальным эффектом все оценки являются несмещенными:
е(ь (т)) = тЕ(ьш )+(/ - т)е(ьв ) = мь + (/ - т)ь = ь •
Такая параметризация позволяет легко анализировать, насколько разные виды оценок хорошо отражают структуру имеющихся данных.
3.2. Асимптотические свойства оценок при Т®¥
Если помимо предположений модели со случайным индивидуальным эффектом сделать дополнительные предположения при N®¥, Т®¥,
хвх
--> Вхх - положительно определенная матрица,
ЫТ
х1тх
--> Wхх - положительно определенная матрица,
ЫТ
то при этих условиях оценки ь , ьв ,ь ь>ОШКК сходятся по вероятности к неизвестному истинному значению ь, и, таким образом, все они являются состоятельными.
Это обстоятельство легко продемонстрировать. Поскольку уже показана несмещенность оценок, для доказательства состоятельности достаточно убедиться в том, что дисперсии оценок стремятся к нулю при N®¥, Т®¥. В самом деле:
/-4/^4-1, ( ^ ГххV Гхш + Т°„. хвхVххТ1 V (ьшк ) = (хх) х 'Ох (хх) =—I -I -+-^--I-I =
ЫТ \ ЫТ 0 ^ ЫТ ае ЫТ ЫТ 0 = Г хх Т-1 а„ Г хх Т-1 хвх Г хх Т-1 ЫТ I ЫТ 0 Ы I ЫТ ) ЫТ I ЫТ )
и при N®¥, Т®¥ ковариационная матрица этой оценки сходится к нулевой матрице. Однако наличие второго слагаемого делает скорость сходимости пропорциональной N.
Совершенно аналогичные выводы можно сделать относительно ковариационной матрицы оценки Ьв :
ч , 2 ч-1 а2 + Та (Х'ВХТ' ст2 (Х'ВХV' а2 (ХВХ
V(ЬВ) = (а2 + Та )(Х'ВХ) = -- I = I - I + -
V е аД } N7 V N7 0 N71 N7 ) N | N7
Ковариационная матрица оценки Ьш
2
а
Ч / ч-1 (Х'WXЛ
V Ь ) = се (Х' WX) = —
N7
V N7 у
тоже сходится к нулевой матрице, но скорость сходимости теперь уже будет пропорциональна ЫТ.
То же самое можно отнести к V \ЬОМНК ):
\ омнк /
V (Ьомнк )=( Х' ^ Х )'= ш
2 (Х' WX а2 Х'ВХ Л
V N7 а + 7а N7 ,
V е а у
При этом следует заметить, что второе слагаемое в скобке при Т®¥ обра-
а2
щается в ноль (так как в2 =—2—е—2—> 0), и V (Ь>ОМНК ) оказывается асимптотиче-
а2 + 7 а2
е а
ски эквивалентной V (). Асимптотически эквивалентными (и это легко показать самостоятельно) при Т®¥ оказываются и сами оценки ЬОШ1К и ЬW. Если учесть еще, что е~ N (0, а2е1), то
^ (ьомнк - ь) ~ n (0,с^хх )
ыт ь - ь) ~ n ().
Итак, все оценки оказались состоятельны, ЬОМНК и ЬW - асимптотически эквивалентны, но ЬМНК и ЬВ являются асимптотически менее эффективными, чем
ьомнк и bw .
Что касается оценки реализуемого обобщенного МНК Ьромнк , то при обсуждаемых условиях Ьромнк ® ЬОМНК , так как в2 сходится по вероятности к в2. В свою очередь, ЬОМНК и ЬW - асимптотически эквивалентны.
Таким образом, оказывается, что удобнее всего использовать оценку ЬW, поскольку ее получение требует менее трудоемких вычислений.
3.3. Асимптотические свойства оценок при и конечных Т
Это типичная практическая ситуация, когда число индивидуумов в выборке значительно превосходит количество временных периодов, в течении которых велись наблюдения.
Пусть выполнены все требования модели со случайным индивидуальным эффектом и следующие предположения:
X' вх Т
--> Вш - положительно определенная матрица,
X 'шх
® Wx - положительно определенная матрица
при N®¥ и конечных значениях T.
При этих предположениях все оценки сходятся по вероятности к теоретическому значению b.
При конечных значениях Т параметр в2 больше не стремится к нулю, поэтому оценка «within» теряет свои хорошие свойства и больше не эквивалентна оценке ОМНК асимптотически. Оценка ОМНК ЬОМНК и сходящаяся к ней оценка
реализуемого ОМНК Ьромнк , напротив, становятся эффективными по сравнению с
bW , ьмнк и bB .
3.4. Свойства оценок при конечных значениях N и T 3.4.1. Сравнительная эффективность оценок
Когда N и T конечны, при условии выполнения предположений модели со случайным индивидуальным эффектом можно установить, что
v ( b омнк )£
V (ь.нк )
V ()) .
V (b W )
Как уже пояснялось, эта запись означает, что, например, разность V (ЬОМНК) - V (Ьв ) является отрицательно полуопределенной матрицей. Можно
что V (Ьмнк )< V (Ьв ) :
также показать,
2
V (К) - V (Ьмнк ) = в {(х'вх Г - (XX Г( XBX+в2 XWX) (XX)-1} >
2 2 {(X'BX)-1 - (XX)-1(XBX + XWX) (XX)-1} = в {(XBX)-1 - (XX)-1} > 0.
s
> —
Последняя строка выкладки есть следствие того, что X'X > X' ВХ (т.е. разность X ' X - X'ВХ = X'(I - В)X = X'ШХ в силу идемпотентности Ш - неотрицательно определенная матрица).
Свойства ЬР К наиболее сложно установить в случае конечных N и Т, так как эта оценка получается в несколько этапов. Но, если случайные возмущения нормально распределены, в работе [32] было показано, что ЬР К несмещена, если
N > К+5 (К - число регрессоров) и Т > 2. Было также показано, что при N > К + 10 и Т > 2
г «л- Ц;; [Ьв).
В случае маленьких выборок предпочтительнее пользоваться Ьроинк .
3.4.2. Сравнение оценок при конечных значениях N и Т в зависимости от структуры дисперсий наблюдений
Выше были сформулированы результаты для случая детерминированных регрессоров X (2.2). Однако все выводы остаются справедливыми и при переходе к случайным регрессорам, если дополнительно потребовать независимость объясняющих переменных X и случайного возмущения и и требования к распределениям переформулировать в терминах условных распределений (при фиксированном Х).
При конечных значениях N и Т в зависимости от структуры ковариационной матрицы объясняющих переменных различные оценки могут быть очень близки между собой. Чтобы это продемонстрировать, рассмотрим модель со случайным эффектом и единственной объясняющей переменной:
у = х Ь + и .
(ж ,1) (т ,1) (1,1)
Воспользуемся /-параметризацией оценок: Ь (/) = /ЬШ +«1 - /)Ьв .
Здесь / будет просто скаляром, и тогда:
(х Шх Л ) х Шх
Ь (Ц = Ь„, Ь (°) = Ьв, Ь j = Ь_. Ь [хшх+лвх.| = Ьо-
Можно рассмотреть два предельных случая:
х ' Вх х' Шх , • если--> 1 (по вероятности) (т.е.--> 0 , так как х х — х Вх + х Шх ),
тогда / =0 и Ь @ЬВ @Ьоишк . Эта ситуация соответствует исчезающе малым различиям между наблюдениями, относящимися к одному и тому же индивидууму;
х' Wx
• если--> 1 (по вероятности) (т.е.
х'х
ХВх
--> 0), тогда т =1 и
х'х
Ьмнк @ЬW @ЬОМНК , что соответствует ситуации, когда межиндивидуальные различия малы.
Итак, подведем итог.
Если гипотеза о независимости объясняющих переменных X и случайного возмущения и выполняется, все полученные оценки состоятельны, и исследователю остается изучать эффективность оценок. В таком случае, при Ы®ж, Т®ж Ь„г, ЬРОМН1К ,ЬОМНК асимптотически эквивалентны и обладают большей эффективно-
^ ' ромнк > омнк ^ 11
стью, чем другие оценки. Когда же только Ы®ж, ЬW теряет свои хорошие свойства, и единственной доступной хорошей оценкой остается ЬРОМНК , которая асимптотически эквивалентна ЬОМНК .
Многообразие методов оценивания моделей панельных данных дает возможность выявить ошибки спецификации путем сравнительного анализа полученных оценок.
Возникновение методики тестирования спецификации связано с именем Мундлака, в 1978 г. подвергшего критике формулировку модели со случайным индивидуальным эффектом. Идеи Мундлака были развиты Хаусманом и впоследствии вылились в создание системы тестов.
Эдвард Мундлак [28], занимаясь сравнительным анализом моделей со случайным и детерминированным индивидуальным эффектом, пришел к выводу о некорректности формулировки модели со случайным эффектом. Основанием к этому послужило то обстоятельство, что эта модель не учитывает возможную корреляцию между индивидуальным эффектом и объясняющими переменными. Есть основания полагать, что обычно такая корреляция существует.
Рассмотрим, например, оценивание производственной функции по данным о
фирмах. Выпуск каждой фирмы уи может определяться ненаблюдаемым качеством менеджмента а ■ Фирма с более эффективным руководством более эффективно использует ресурсы. В такой ситуации а и X. не могут быть независимыми. Игнорирование этого обстоятельства приведет к смещению оценок.
С точки зрения Мундлака, различия в оценках моделей со случайным и детерминированным эффектом часто связаны просто с некорректной формулировкой модели со случайным эффектом.
Сопоставим эти две модели.
омнк
4. Тестирование спецификации
4.1. Критика Мундлаком спецификации модели со случайным индивидуальным эффектом
Модель со случайным эффектом:
у, = X' Ь + и.,
•'г, г, г,
и= а. + е
г, г г,
где а. и е, - случайные возмущения, независимые между собой и не зависящие
от X ,. В этом случае ЬОМНК является наилучшей оценкой в классе линейных и несмещенных оценок.
Модель с детерминированным эффектом:
у, = X ГЬ + а. + е,,
^ г, г, г г, '
где е, случайны, независимы от X,, а. детерминированы. В этом случае ЬЖ является наилучшей оценкой в классе линейных и несмещенных оценок.
При Т®¥ эти модели асимптотически эквивалентны, и также экви-
валентны оценки ЬОМНК и ЬЖ.
^ омнк Ж
Мундлак показал, что если учесть корреляцию а. и X. в модели со случайным эффектом, эта модель становится эквивалентной модели с детерминированным эффектом, а оценка ЬОМНК - эквивалентной оценке ЬЖ, и не только асимптотически. В противном же случае, т.е. при игнорировании имеющейся корреляции а. и X ., оценка ЬОМНК является смещенной. Перефразируя высказывание
Мундлака, можно сказать, что различие между оценками ЬОМНК и ЬЖ является
вымышленным и вызвано некорректной спецификацией, игнорирующей корреляцию между индивидуальным эффектом и объясняющими переменными.
Рассмотрим теперь формулировку модели со случайным индивидуальным эффектом, предложенную Мундлаком:
| у, = КЬ+а +е,
[е(а IX,,, = 1,к,т)ф0,
где а. и е, случайны, и е, не зависит от X,. Налагаются еще некоторые требования:
• X , - нормальны, независимы, одинаково распределены и Е (X ,) = 0 ; •а. и е, тоже нормальны, независимы, одинаково распределены и
Е (а.) = 0, Е (е, ) = 0 для всех t и г;
• Е (а. | X .) есть вспомогательная линейная регрессионная функция:
2 r'ГX¡ а. = X . • у + м>., где ^. ~ М0, ст I) и не зависит от X , и е,, X . =-.
г г» ' г^-^^' г, г, ' г»
(1,К) (К ,1) (1,К) Т
Недостатком этой формулировки является жесткое требование одинаковой распределенности X при любом 1 При нарушении этого требования нельзя гарантировать независимость между V и X , и ставится под сомнение правильность формулировки Мундлака. Можно устранить эту проблему, как показал Чемберлен [14], рассмотрев более общую регрессионную зависимость для условного математического ожидания:
е(а |x¡t,г = 1,...,т) = £Xi у .
1=1 (1,к)(к 1)
Теперь модель сложной ошибки будет содержать 2К объясняющих переменных и случайные компоненты м> . и еи, независимые от X и X . :
\у = X' Ь + X . у + V
(1,К)(к 1 (1,К)(к,1)
V= V . + еч
и . и
т.е. для любого индивидуума будет иметь место регрессия:
у. = X' Ь + I X' у + V . = X'Ь + — X.у + V.,
1 1 ( К1) Т I* ' I I ^ I' . '
(ЫТ1) (ыт к)(к ,1) (Т1) (1,К)(к ,1) (т ,1) т
а общий вид регрессии для всей панели будет:
у = X Ь +[/„ ® — | X У + V
(ЫТ 1) (ыт.к)(к 1) I ы т 0 (ыт.к)(кд) (ыт,1)
(ЫТ ,ЫТ)
или
У = XЬ + BXу + V ,
Е^) = 0, Е (уу' ) = V = а] + \ В0,
2
а
где ...... -........ ■ ■' -........ -
ст2 + Та2
Таким образом, теперь имеются две конкурирующие гипотезы для модели со случайным индивидуальным эффектом:
н . Г У = X + и
0' \е(ии') = п , где и. = а. + е. и а. и X. - независимы, соу (а, X. ) = 0 .
^ и . и . и ' \ . ' й /
Гу=М+BXу+V Нм : [ Е (VV ' ) = V ,
где
V и = V + еи и а и X ы - коррелируют, соу (а., X ы) Ф 0 - это гипотеза Мундлака.
Оценки коэффициентов при гипотезе Нм обобщенным МНК:
1Г Х' ] V - (X BX ) -1 " X V
_ум _ _1 ^ ) XB
После подстановки выражения для
V= -1- (V + Г2 В) а
получаем:
Ьм = (X 'Ш )-1 ХЖу = ) ум = (X'ВХ)-1 X'Ву - (X' VX)-1 XV = Ъв - Ь ш .
Если верна гипотеза Мундлака, то Ъж является несмещенной и эффективной, в то время как ЬМНК , Ьв и ЬОМНК будут смещены. Например, Е (Ьв ) = Ъ + у . Но асимптотически при Ы®ж, Т®¥ ЪОМНК эквивалентна Ъ„ и является состоятельной.
1 ' омнк v
Теперь очевидно, что модель сложной ошибки, где случайный эффект коррелирован с объясняющими переменными, эквивалентна модели с детерминированным эффектом, для которой Ъш является наилучшей в классе линейных несмещенных оценок по теореме Гаусса-Маркова. Отсюда следует, что при отсутствии оснований считать а и X независимыми, лучшая оценка для Ъ
есть Ъш.
4.2. Тесты Хаусмана на ошибки спецификации
Тестируется независимость а. и X и, т.е. Но против Нм или, иначе говоря, гипотеза о том, что у = 0 в модели Мундлака.
4.2.1. Принцип тестов Хаусмана
Рассмотрим общий принцип тестов Хаусмана, поскольку они применяются не только в анализе панельных данных. Эти тесты дают возможность сделать выбор между оценкой состоятельной и эффективной при гипотезе Но (модель правильно специфицирована), но несостоятельной при гипотезе НА (модель неправильно специфицирована) и оценкой, состоятельной при обеих гипотезах.
Итак,
Ь - оценка состоятельная и асимптотически эффективная при Но,
(к д) - оценка асимптотически смещенная при на,
Ъ1 - оценка состоятельная и при Но, и при на..
Если справедлива Но, то при N® ¥
л/ы (ь0 - ь) ~ Ы (0, V (- ))
ТЫ (ь1 - ь) ~ ы (о, V (-))'
т.е. отклонения оценок ьо и ь1 от теоретического значения вектора параметров ь подчиняются центрированному нормальному закону. Рассмотрим разность оценок: д = ь1 - ьо.
При Но случайная величина т = Ыд(V (д)) д ~ (асимптотически), где
V (д)= V (Ъ1)- V (ьо). (Последнее равенство действительно справедливо при Но,
это строго доказывается, так как у[Ы (Ео - ь) и у[Ыд асимптотически некоррели-
рованы, а ьо - асимптотически эффективна, но здесь это доказательство приводиться не будет.)
Если т велика, тогда Но отвергается, и в этом случае следует использовать оценку ь. На практике при вычислении т используется оценка V (д), которая
асимптотически стремится к V (д ).
4.2.2. Приложение теста Хаусмана к модели сложной ошибки
Но : модель сложной ошибки с сог( „ , х и) = 0 верно специфицирована. на : модель сложной ошибки неверно специфицирована, так как сог( „, х и) Ф о. Тогда
ь - оценка состоятельная и асимптотически эффективная при Но,
(к ,1) - оценка асимптотически смещенная при на,
- оценка состоятельная и при Но, и при на.. Рассмотрим сразу несколько версий теста Хаусмана, введя
д1 = ^ - ьоМНК ,
д2 = К - Ьв , дз = ьомнк - ьв .
Воспользовавшись т-параметризацией, можно разложить ьомнк на взвешенную сумму ь№ и ьв :
ьомнк = тЪш +(1 - т) ) с т = (х'гх+в2х'вх)-1 х ш.
Следовательно,
¿1 = К - Ьоинк =(I -/)(Ьш - ЬВ ) = (I -/) q2 Ъ = Ьоинк -ЬВ = /(Ьш -ЬВ) = /¿2 .
В силу «пропорциональности» , д2 и ¿3 все они дают одну и ту же статистику: если соответствующие матрицы не вырождены
т = ^ (; (Ъ )) 1 ^ = Ъ (; ()) 1 Ъ = ¿/з (; ()) 1 ^ ,
и если верна Но , то т ~ ^^^ .
Чтобы провести этот тест, достаточно знать ЬШ и ЬВ, так как д2 = ЬШ - ЬВ, и Г (Ъ2 ) = Г (ЬШ ) + Г (ЬВ ) (в последнем легко убедиться, проведя самостоятельно несложные выкладки).
Таким образом, этот тест выявляет значимость различий ЬШ и ЬВ. Чем значимее различия, тем больше оснований принять модель Мундлака:
У = X + BXу + V , где у = ЬВ - ЬШ =-д2, следовательно, это тест на значимость оценки у .
4.3. Тесты на существование и независимость индивидуального эффекта
Во всех эмпирических приложениях вопрос существования индивидуального эффекта предшествует вопросу о его независимости от регрессоров. Рассмотрим простейшую процедуру тестирования наличия индивидуального эффекта.
В модели У = Xb + и , где и ~ N (0,О), 0 = сСТ + \ В'
S + TS
тирование наличия индивидуального эффекта равносильно тестированию гипотезы о том, что s2a = 0 (так как E (a) = 0 уже заложено в модели).
Тест построен на сравнении дисперсий остатков регрессий «within» и «between». Если верна гипотеза нормальности случайного возмущения и, то:
s c s Se + TSa С
uw ~ nt - N - K -N- к ' uB ~ ^ _ к . Остатки являются независимыми, что легко показывается, так как
'BuB = и'(I -PBX)и, PBX = BX(X'BX)-1X' B , •Uw = u' (I - PwX )u, Pwx = WX (X' WX)-1 X'W ,
(I - РВХ )(I - р¥Х ) = ° , а квадратичные формы, матрицы которых удовлетворяют этому соотношению ортогональности, являются статистически независимыми.
Следовательно,
</ (s+s)
XN - К/
(N -К)
XNT - N - К /
= F (N - К, NT - N - К ) .
\ NT - N - К )
Значит, если верна гипотеза Ho: sa = 0 , то
^Т ~ F (N - К, NT - N - К ) .
Этот тест является разновидностью известного теста Бройша-Пагана.
На практике для больших панелей ^ > 150) обычно берут F(¥,¥) = 1, а уровень значимости 5% или 1%. Если а2 > а^ значимо, то гипотеза об отсутствии индивидуального эффекта отвергается.
Для больших выборок этот тест осуществляется также с помощью метода Лагранжа, и тогда в качестве тестовой статистики используется множитель Ла-гранжа:
LM =
NT
2 (T -1)
t 2 К))2
i=i_
NT „
КК) )2
1=1 t=1
-1
распределению с одной степенью
подчиняющийся асимптотически при Ho х свободы.
Здесь под и понимаются остатки сквозной регрессии.
Замечание. Результаты теста существенно зависят от спецификации регрессионного уравнения.
Гипотеза об отсутствии случайного индивидуального эффекта редко отвергается, если модель сформулирована в темпах роста. Если даже этот эффект наблюдался в уровнях, он исчезает в темпах роста. Например, пусть Y и X измеряются в логарифмах: y и = Xub + stt ■ Эта же модель в темпах роста:
уй = У'н - У'¡t-1 = Xttb + ett -eu-1 уже не содержит at. Оценка «within» в темпах роста трудна в интерпретации, поэтому не представляет большого интереса.
4.4. О правомочности теста Хаусмана
Проиллюстрируем применимость теста Хаусмана к модели сложной ошибки следующей обобщающей таблицей:
N®¥, Т-фиксировано I II III
Гипотеза Е (и, | X „ ) = 0 , т.е. e (a | x tt )* о, e (a 1 x t, )* о,
Оценка соу (х„ а ) = 0 ОСУ (X „ е ) = 0 E (e | X t, ) = 0 e (sa | x t, )* 0
ЬМНК состоятельна, несостоятельна несостоятельна
неэффективна
bB состоятельна, несостоятельна несостоятельна
неэффективна
bW состоятельна, состоятельна, несостоятельна
неэффективна эффективна
ЬОМНК состоятельна, эффективна несостоятельна несостоятельна
Ситуация III имеет место, когда модель неверно специфицирована, например, пропущена важная объясняющая переменная. В этом случае тест Хаусмана неприменим. Чтобы уменьшить последствия ошибок спецификации, необходим сравнительный анализ оценок, полученных различными методами.
Лекция 4.
5. Классификация моделей анализа панельных данных 5.1. Схема используемых моделей
Пусть у нас есть выборка наблюдений характеристик N индивидуумов в течении T периодов времени, обозначенная (yt, xkt), где i = 1, N; t = 1, T; k = 1, K .
Y предполагается случайным исходом некоторого эксперимента с распределением вероятности, условным по векторам характеристик x и параметров в f(y\x,6).
Когда применяются панельные данные, одна из поставленных целей - использовать всю имеющуюся информацию, чтобы сделать выводы о в. Если, например, выбрана простая линейная зависимость y от x, чтобы применить сквозное оценивание МНК по всем NT-наблюдениям, необходимо допущение об одинаковости регрессионных параметров в для всех объектов выборки во все периоды времени. Если это допущение не верно, сквозная регрессия приведет к ложным заключениям. Следовательно, первый шаг на пути полной эксплуатации имеющихся данных - тестирование постоянства параметров по всем i и t.
Самая общая спецификация уравнения имеет вид:
K ___
y t = a +Х xut ßut + u и, i = 1> N, t = 1> T.
k =1
Очевидно, что такая модель не поддается оцениванию. Необходимо наложить ограничения на коэффициенты уравнения.
Чтобы уяснить полную картину вариантов моделей анализа панельных данных в зависимости от характера коэффициентов, рассмотрим следующую схему.
5.2. Модель анализа ковариаций
В предыдущих параграфах мы рассматривали модель с индивидуальным эффектом, причем этот эффект отражался только свободным членом регрессии, коэффициент наклона мы полагали постоянным.
В этом параграфе будут изложены общие принципы тестирования постоянства коэффициентов регрессии.
Обычно используемая для того чтобы различить влияние как качественных, так и количественных переменных, линейная модель постулируется так:
Уи = а + 4Р„ + и „, / = цМ, , = 1Т ,
где а, - скаляр,
Рп = (А ,,, А* , А«,) - 1х К, хв = (х1й ,..., х^) - 1х к, Е (и,) = 0, я и) =
где 1х К - ^-мерный вектор.
Тестируются два аспекта:
• гомогенность (однородность) наклона;
• гомогенность (однородность) свободного члена. Процедура состоит из трех основных шагов.
1. Проверка, являются или нет наклон и свободный член одновременно гомогенными для различных индивидуумов в разные моменты времени.
2. Проверка, является или нет наклон регрессии одним и тем же для всех наблюдений.
3. Проверка, является или нет свободный член регрессии одним и тем же для всех наблюдений.
Очевидно, если принята гипотеза об общей гомогенности (1), то дальнейшее тестирование излишне. Если (1) отвергается, то тестируется (2). Если (2) не отвергается, переходят к (3).
Для начала предположим, что параметры не зависят от времени, но различаются между индивидуумами. Следовательно, для г-го индивидуума имеет место регрессия:
(4.1) уа = а + X,Р + и,, ,= ъм, , = 1Т.
Здесь могут быть наложены три типа ограничений: Н1: у, = а + ХдР + и п, т.е. наклоны одинаковы; Н2: у п = а + х А + и ,, , т.е. свободные члены одинаковы; Н3: у, = а + хР + и,, т.е. и наклон, и свободный член одни и те же. Тип ограничений Н2 используется очень редко, поэтому в дальнейшем будет игнорироваться. Гипотеза Н3 соответствует сквозной регрессии. Гипотеза Н1 соответствует модели с детерминированным индивидуальным эффектом.
^ 1 т 1 V-
Пусть у> = т Ъ у,' х.• = т Ъ х". т ,=1 т ,=1
Оценки МНК Р и а в модели без ограничений:
г - , VXX,, = £(X, -х,)(X, -X,,)' = х'( 1Т -£)X
/ , хх,, ху,,
• а = уЛ - Ах где Ку,, = Ъ (х„- х>) (у „- уЛ) = х (1т - Т) у
, = 1м '=' т
1 = Ъ(у, - у>)2 = у;(7т - £) у, •
Это оценки группы «within». Сумма квадратов остатков модели без ограничений: = ¿RSS;, где RSSi = W„, - W^W-W^ ■
i= 1
Регрессия МНК в модели с ограничениями H1 порождает следующие оценки параметров:
bw = WX wxy
a = yt.- p'w x• i = LN
Wxx =X Wxx ,i = x Wx
t=1
где Wxyt =±Wyy . = x ' Wy
t=1
Wyyit = Z Wyy, = У 'Wy.
Оценка bW - это уже известная оценка «within», записанная в несколько
иных, чем в п. 2.2.2 обозначениях.
Сумма квадратов остатков модели с ограничениями: S1 = Wyy - WxyW-Wxy.
МНК - оценивание сквозной регрессии или модели с ограничением H3 порождает оценки параметров:
b = T- T
г xx xy
a = y..- P'x.
1 NT
y** = NT ^^ ^^ y"
NT i=1 t=1
Txx = ZZ( ^ - x")(x« - x")' = x Г x i=1 t=1
N T ,
где Txy = ZZ (x«- x..) (y»- y..) =xT * y'
t=1 »=1
NT
Tyy = ZZ (y«- y--) = y ' T * y /=1 t=1
1 NT
x" = NT ZZ xtt • 1=1 t=1
Сумма квадратов остатков модели с ограничением Н3: 5 = Т' - Т Т-Т. Для проверки ограничения Н1 используется Е-тест:
(- ) / Г(X -1) К] я 1
^ = V 1 ^—~ ^ ((X -1) К, ЫТ - X (К +1)) . 1 50/ Г ЫТ - X (К +1)] и ' у п
Для проверки ограничения Н3 используется Е-тест:
(5з -5о)/Г(X-1)(К +1)] яз
S0/ [NT - N (K +1)]
F ((N -1)(K +1), NT - N (K +1)) .
Логика исследования такова: если гипотеза Н3 отвергается, то проверяется гипотеза Н1, если Н1 отвергается, можно проверить гипотезу Н2 или оценивать регрессию без ограничений. Если же гипотезу Н1 нет оснований отвергнуть, про-
веряется гипотеза о гомогенности свободного члена при условии, что гипотеза о гомогенности наклона выполнена, т.е.
Аналогично можно исследовать модель, где предполагается, что коэффициенты ведут себя одинаково для всех индивидуумов, но изменяются со временем.
В качестве примера практического приложения рассмотренных моделей оценим уравнение заработной платы на основании данных РМЭЗ - Российского мониторинга экономического положения и здоровья населения. РМЭЗ представляет собой единственное в России представительное панельное обследование семей. Особенности данных РМЭЗ для изучения рынка труда см. в [3, 4, 6-9].
Индивидуальная анкета РМЭЗ содержит вопросы, ответы на которые предоставляют широкий спектр информации о заработной плате, в частности о сумме зарплаты, полученный в прошлом месяце, о наличии и величине задолженности и т.д., а также данные о социально-демографических характеристиках респондентов. Сбор данных проводится в последнем квартале каждого года.
Целью нашего исследования будет изучение эффекта инвестиций в человеческий капитал (в данном случае отраженных переменной educit) на заработную плату в экономике переходного периода. Включение остальных переменных призвано предотвратить смещение ошибок спецификации.
В панель, которую мы будем исследовать, вошли данные 1994, 1996, 1998, 2000 гг. Эти годы относятся к периоду высокой инфляции в российской экономике. В отдельные месяцы этого периода месячные темпы роста потребительских цен достигали 10-15% (например, конец 1994 или 1998 гг.). При этом в разных регионах темпы роста номинальной заработной платы могли заметно различаться. Поэтому номинальная заработная плата в нашем исследовании дефлирована с помощью официальных месячных индексов потребительских цен для соответствующих регионов. Деноминация 1996 г. тоже учтена.
Оцениваемое уравнение имеет вид:
lwageit= Ц + b1 educit + b2 ageit + Ьз age2it + b4 stagnait + b5 geni + ^6 marstit + +b7CÍtyü + Ь8 ÍSCO_1it + b9 ÍSCO_2it + ... + b14 ÍSCO_7it + b15 ÍSCO_8it + Sit,
H4: a = a = ... = aN I b = b =... = PN.
Для проверки ограничения H4 используется F-тест:
4
6. Приложение: Оценивание уравнения заработной платы по данным РМЭЗ
6.1. Постановка задачи
где 1шадвц - логарифм месячной заработной платы; вйиец - продолжительность образования (в годах);
адвц - возраст;
age2it - квадрат возраста;
stagnait - стаж на данном месте работы;
geni - пол;
marstit - семейный статус;
cityit - тип места проживания (город=1 или село=0);
isco_1it - isco_8it - дамми-переменные для профессиональных групп по классификации ISCO-88, isco_9 (неквалифицированные рабочие) - референтная группа для сравнений.
Оценивание произведено в пакете «STATA».
5.2. Модель с индивидуальными эффектами
Сквозное оценивание уравнения нашей модели, игнорирующее панельную природу данных, приводит к следующим результатам:
Number of obs F(15, 7989) = Prob > F R-squared Adj R-squared Root MSE lwage = 8005 18.35 = 0.0000 = 0.0333 = 0.0315 = 2.9936 Coef. Std. Err. t P>t
educ .0070401 .0143194 -0 .49 0 .623
age .0839767 .0189821 4 .42 0 .000
age2 -.0010822 .0002239 -4 .83 0 .000
stagna .043348 .0226577 1 .91 0 .056
gen -.3003566 .0811726 -3 .70 0 .000
marst -.2823525 .0393991 -7 .17 0 .000
city .516275 .0777583 6 .64 0 .000
isco 1 -.9586997 .215312 -4 .45 0 .000
isco 2 .6404035 .139976 4 .58 0 .000
isco 3 .4757471 .1342797 3 .54 0 .000
isco 4 .5639411 .1601308 3 .52 0 .000
isco 5 .073882 .1522852 0 .49 0 . 628
isco 6 -.1159434 .4916549 -0 .24 0 .814
isco 7 .5972895 .1347492 4 4 со 0 .000
isco 8 .4241841 .1303195 3 .25 0 .001
cons 8 ¡.071219 .4005636 20 .15 0 .000
Значения коэффициентов детерминации (R-squared и Аф R-squared) невелико, что, во-первых, типично для такого рода данных, а во-вторых, связано с отсутствием данных об отраслях, где заняты респонденты. Однако Е-тест показывает значимость зависимости в целом. Интересующий нас коэффициент оказывается незначим, но это может быть вызвано смещением оценки, связанным с пропуском существенных переменных и неучетом гетерогенности выборки.
Попытаемся исправить ситуацию, оценив регрессию со случайным индивидуальным эффектом, что позволит нам учесть гетерогенность выборки в ковариационной матрице случайных ошибок:
Random-effects GLS regression Group variable (i) : aid_i
R-sq:
within
between
overall
0.1212 0.0023 0.0287
Random effects u_i corr(u i, X)
Gaussian (assumed)
Number of obs 8005
Number of groups = 3538 Obs per group: min = 1 avg = 2.3
Wald chi2(15) Prob > chi2
354.02 0.0000
lwage
Coef.
Std. Err.
P>z
max =
educ -, .0234971 .0177263 -1 33 0. 185
age 061222 .0237307 2 . 58 0. 010
age2 0010815 .0002816 -3 84 0. 000
stagna 0463718 .0259667 1. 79 0. . 074
gen 2052513 .1066411 -1 92 0. . 054
marst -, 3730998 .045139 -8 27 0. 000
city .5546138 .1034034 5 . 36 0. 000
isco 1 -1. 408905 .2413125 -5 84 0. 000
isco 2 7235324 .1675966 4 . 32 0. 000
isco 3 5017355 .1588268 3, 16 0. 002
isco 4 6695941 .1912666 3, 50 0. 000
isco 5 -, 0584244 .1806597 -0 32 0. ,746
isco 6 1134344 .548757 0, 21 0. . 836
isco 7 .7832161 .1590831 4 . 92 0. 000
isco 8 4717575 .1554644 3, 03 0. 002
_cons 9, .226788 .500212 18 . 45 0. 000
sigma_u 1.343514 sigma_e 1.9862585
rho .31390445 (fraction of variance due to u_i)
Прокомментируем особенности, связанные с оцениванием этой модели. В исследуемой нами панели участвует 3538 индивидуумов (Number of groups), но не для всех из них оказывается доступной вся запрашиваемая информация. Если в каком-то году респондентом пропущен ответ хотя бы на один вопрос, программа игнорирует все наблюдения, относящиеся к этому году, поэтому в среднем индивидуумы наблюдаются не 4 года, а около двух с половиной лет. Еще одна особенность - появление трех разных коэффициентов детерминации. В данном случае их нет смысла интерпретировать, поскольку регрессия оценивается с помощью обобщенного МНК, а, значит, R2 не может служить адекватной мерой качества регрессии, но в регрессии с детерминированным эффектом R2 опять приобретает смысл. О том, что регрессия в целом значима, свидетельствует высокое значение статистики Вальда (Wald chi2=354). В регрессии с индивидуальным эффектом F-тест на значимость регрессии в целом заменяется при работе в пакете «STATA» тестом Вальда. Результаты оценивания коэффициентов регрессии несколько отличаются от предыдущего случая, а именно, значимость переменной gen упала. Интересующий нас эффект по-прежнему незначим.
Напомним, что, оценивая последнюю регрессию, мы исходили из предположения о некоррелированности индивидуального эффекта и независимых переменных, но это предположение не очень обосновано. В ненаблюдаемый индивидуальный эффект входят различные компоненты, например способности респондента, которые, как правило, коррелируют с образованием и профессиональной группой. Другая ненаблюдаемая компонента индивидуального эффекта - это отрасль, где занят респондент, может коррелировать и с возрастом, и с образованием, и со стажем, поскольку, например, в прибыльных топливно-энергетических отраслях аккумулируются наиболее молодые и энергичные индивидуумы. Из всего вышесказанного следует, что модель с детерминированным индивидуальным эффектом может более адекватна данным, чем две предыдущие. Оценим теперь ее:
Fixed-effects (within) regression Group variable (i) : aid_i R-sq: within = 0.6454 between = 0.0471 overall = 0.0001
corr(u_i, Xb) = -0.9771
lwage Coef. Std. Err.
Number of obs = 8005 Number of groups = 3538 Obs per group: min = 1 avg = 2.3 max = 4 F(14,4453) = 578.88 Prob > F = 0.0000
P>t
educ .0012534 .0304621 0, 04 0. . 967
age -.945309 .0464557 -20, 35 0. 000
age2 -.0004523 .0005528 -0 82 0. 413
stagna -.0160337 .0271686 -0 59 0. 555
gen (dropped)
marst -.2265007 .0486234 -4 66 0. 000
city (dropped)
isco 1 -.6047924 .255228 -2 37 0. 018
isco 2 -.247772 .2148656 -1 15 0. 249
isco 3 -.0841697 .1913615 -0 44 0. 660
isco 4 .1709404 .2302459 0, 74 0. 458
isco 5 -.231582 .2210071 -1 05 0. 295
isco 6 .5360691 .6245203 0, 86 0. 391
isco 7 .3115733 .1920045 1, 62 0. 105
isco 8 .2398692 .1916611 1, 25 0. 211
_cons 43.50516 1.715893 25 . 35 0. 000
sigma_u 13.4338 68 sigma_e 1.9862585
rho .97860671 (fraction of variance due to u_i)
F test that all u_i=0: F(3537, 4453) = 3.87 Prob > F = 0.0000
Большая часть вариации данных (98%) приходится на индивидуальные эффекты: rho = 0,9786. Велика корреляция индивидуальных эффектов с регрес-сорами: corr(u_i, Xb) = -0,9771, что говорит в пользу этого метода оценивания. Коэффициенты при двух регрессорах geni и cityit не оцениваются. Это происходит оттого, что эти переменные не меняются со временем. Слабо меняется со
временем и большая часть остальных переменных, в том числе и продолжительность образования, поскольку образование люди получают в основном в молодом возрасте. Хотя оценки коэффициентов в этой модели теперь освобождены от смещения гетерогенности, но слабая изменчивость данных по времени не позволяет получить значимые результаты.
6.3. Качество подгонки и выбор наиболее адекватной модели
Теперь уместно прокомментировать смысл трех коэффициентов детерминации. Здесь под R-sq понимаются квадраты выборочных коэффициентов корреляции между наблюдаемыми и оцененными значениями объясняемой переменной, заданными в соответствующей форме, а именно:
Rihn (bw ) = corr2 {% - yW, Л - y.} ,
1 T
где y,y it - усредненные по времени для каждого г-го объекта значения
T t=i
зависимой переменной, yW = X\tbw , yW = X'j4PW .
Rlween (К ) = С0ГГ 2 {yW > y,. } , RlmU (К ) = corr2 {yW, yu} .
О качестве подгонки в этой модели следует судить по коэффициенту детерминации Rltth,„ (Pw ) = corr2 {yWt -yW%, ytt -y,.} =0,6454. Это достаточно высокий показатель. Значимость регрессии в целом тоже велика: F(14,4453)=578,88 и Prob>F=0,0000, но все это достигается учетом индивидуальных эффектов и только. И здесь нам не удалось выявить влияние образования на заработную плату.
В самом конце таблицы результатов оценивания модели с детерминированными индивидуальными эффектами приводится тест на значимость детерминированных индивидуальных эффектов:
F test that all u_i=0: F(3537, 4453)= 3.87 Prob>F = 0.0000.
Это F-тест для проверки гипотезы H4 из п. 5.2 (гипотезы о гомогенности свободного члена при условии, что гипотеза о гомогенности наклона выполнена).
Результаты свидетельствуют в пользу модели с детерминированными индивидуальными эффектами и против модели сквозной регрессии.
Теперь проделаем тест Бройша - Пагана, суть которого была изложена в п. 4.3, для осуществления выбора между сквозной регрессией и регрессией со случайным индивидуальным эффектом.
Breusch and Pagan Lagrangian multiplier test for random effects: lwage[aid_i,t] = Xb + u[aid_i] + e[aid_i,t]
Test: Var(u) = 0
Var
Estimated results: I
---------+------------
lwage | 9.252759 e | 3.945223 u | 1.80503
sd = sqrt(Var)
3.041835 1.986258 1.343514
chi2(1) = 287.60 Prob > chi2 = 0.0000
Значение статистики chi2(1) = 2 8 7, 60 говорит в пользу регрессии со случайным индивидуальным эффектом.
И, наконец, тест Хаусмана убедительно демонстрирует, что обнаруженный случайный эффект сильно коррелирован с регрессорами, т.е. наиболее адекватна данным модель с детерминированными эффектами, что мы и предполагали.
Hausman specification test
lwage | -------+-
---- Coefficients ----
Fixed Random
Effects Effects
Difference
educ | .0012534 -.0234971 .0247505
age | -.945309 .061222 -1.006531
age2 | -.0004523 -.0010815 .0006292
stagna | -.0160337 .0463718 -.0624055
gen | 9.909991 -.2052513 10.11524
marst | -.2265007 -.3730998 .1465992
isco 1 | -.6047924 -1.408905 .804113
isco 2 | -.247772 .7235324 -.9713044
isco 3 | -.0841697 .5017355 -.5859052
isco 4 | .1709404 .6695941 -.4986538
isco 5 | -.231582 -.0584244 -.1731576
isco 6 | .5360691 .1134344 .4226347
isco 7 | .3115733 .7832161 -.4716428
isco 8 | .2398692 .4717575 -.2318883
Ho: difference in coefficients not systematic
chi2(14) = (b-B)'[S- (-1)](b-B), S = ; (Sfe - S re)
8513.46
Prob>chi2
0.0000
6.4. Модель с индивидуальными и временными эффектами
В нашем исследовании мы не учли, что 1990-е годы были очень динамичным периодом в российской экономике, а значит, следует ожидать существенных отличий в регрессионных параметрах, относящихся к разным годам, или, иначе
говоря, существенных временных эффектов. Будем трактовать эти эффекты как детерминированные поправки к свободному члену и оценим нашу модель с их учетом, введя соответствующие дамми-переменные ё96, ¿,98, ¿00:
Random-effects GLS regression Group variable (i) : aid_i
R-sq: within between overall Random effects u_i corr(u i, X)
0.9622 0.8591 0.9151
Gaussian 0 (assumed)
Number of obs = 8005
Number of groups = 3538
Obs per group: min = 1
avg = 2.3
max = 4
Wald chi2(18) Prob > chi2
133668.46 0.0000
lwage |
Coef.
Std. Err.
P>|z|
educ | .037834 .0048219 7 85 0. 000
age | .0597386 .0065354 9 14 0 000
age2 | -.0007217 .0000777 -9 28 0 000
stagna | -.0051972 .0066988 -0 78 0 438
gen | -.433246 .0302027 -14 34 0 000
marst | .010381 .0117268 0 89 0 376
city | .5286354 .0296726 17 82 0 000
isco 1 | .5958171 .0621485 9 59 0 000
isco 2 | .3778088 .0444242 8 50 0 000
isco 3 | .3796478 .0417913 9 08 0 000
isco 4 | .3155396 .0505183 6 25 0 000
isco 5 | .3258878 .047718 6 83 0 000
isco 6 | .3552049 .141719 2 51 0 012
isco 7 | .3109485 .0419713 7 41 0 000
isco 8 | .3803242 .0411601 9 24 0 000
d96 | 1.055731 .0220666 47 84 0 000
d98 | -5.648684 .0222827 -253 50 0 000
d00 | -4.884359 .0217856 -224 20 0 000
_cons | 9.852308 .1380617 71 36 0 000
sigma_u sigma_e rho
. 62073471 64533893 48057385
(fraction of variance due to ui)
Очевидно, что значимость регрессии существенно возросла, о чем свидетельствует значение статистики Вальда: Wald chi2(18) = 133668,46. Временной эффект оказался очень существенным, причем если в 1996 г. заработная плата была значимо выше, чем в 1994, то в 1998 и 2000 гг. она значительно ниже. Это объясняется последствиями дефолта. И наконец, нам удалось получить значимую и положительную оценку эффекта образования. Но вот результаты теста Хаус-мана:
Hausman specification test
chi2( 17) = (b-B)'[S^-1)](b-B), S = (S_fe - S_re) = 90.15
Prob>chi2 = 0.0000.
Они свидетельствуют о том, что эта модель все же не адекватна данным, и нужно опять использовать модель с детерминированными эффектами:
Fixed-effects (within) regression Group variable (i) : aid_i R-sq: within = 0.9626 between = 0.7498 overall = 0.8700
corr(u_i, Xb) = -0.0195
Number of obs =
Number of groups = Obs per group: min = avg =
F(17,4450) Prob > F
8005 3538 1
2.3 = 4
=6735.74 = 0.0000
lwage | Coef. Std. Err. t P>|t|
+ educ | .000039 .0098972 0 00 0. 997
age | .038562 .0395535 0 97 0 330
age2 | -.0010249 .0001796 -5 71 0 000
stagna | -.0017276 .0088323 -0 20 0 845
gen | (dropped)
marst | .0230691 .0158567 1 45 0 146
city | (dropped)
isco 1 | .3033066 .083247 3 64 0 000
isco_2 | .1202153 .0698838 1 72 0 085
isco 3 | .1766294 .0622356 2 84 0 005
isco 4 | .1893502 .0748159 2 53 0 011
isco 5 | .1514229 .0718546 2 11 0 035
isco 6 | .4854903 .2030174 2 39 0 017
isco 7 | .219465 .0624326 3 52 0 000
isco 8 | .2518914 .0622966 4 04 0 000
d96 | 1.102401 .0733646 15 03 0 000
d98 | -5.484452 .1512189 -36 27 0 000
d00 | -4.600193 .2241671 -20 52 0 000
_cons | 11.9032 1.379644 8 63 0 000
+ sigma u | 1.0577206
sigma e | .64533893
rho | .72873059 (fraction of variance due to ui)
F test that all u_i=0: F(3537, 4450) = 3.00 Prob > F = 0.0000
Мы получили, судя no R-sq(within) = 0,9626 и статистике F(17,4450)=6735,74, достаточно качественную модель, оценки которой свободны от гетерогенного смещения и смещения ошибки спецификации, имевшей место пока мы не учли временной эффект. Последнее обстоятельство хорошо отражается коэффициентом корреляции между индивидуальными эффектами и регрессора-ми: corr(u_i, Xb) = -0,0195. Это значение в 50 раз меньше, чем в модели, учитывающей только детерминированные индивидуальные эффекты. Теперь 70% разброса наблюдений приходится на индивидуальные эффекты (вместо бывших 98%) и оставшиеся 30% в основном объясняются временными эффектами. Значимого влияния половины регрессоров по-прежнему не удается выявить из-за их слабой временной динамики. Исключение составляют только переменные, отве-
чающие за принадлежность к профессиональным группам. Интересующий нас эффект образования опять оказывается незначимым.
Еще раз подтверждаются данные о значительном падении уровня заработной платы в 1998 и 2000 гг. по сравнению с 1994 г., но результаты теста Вальда, сопоставляющего коэффициенты при дамми-переменных, соответствующих временным эффектам 1998 и 2000 гг., показывают, что уже в 2000 г. заработная плата стала значимо выше, чем в 1998 г.:
F(1, 4450) = 130,70 Prob > F = 0,0000.
Мы учли временной эффект с помощью аддитивных дамми-переменных, но, может быть, в разные годы коэффициент наклона при образовании тоже был разным. Введение в регрессию дополнительных переменных, элиминирующих временной эффект в коэффициент наклона при переменной educ, приводит нас к такому результату:
Fixed-effects (within) regression Group variable (i) : aid_i R-sq: within = 0.9627 between = 0.7413 overall = 0.8664
corr(u i, Xb)
-0.0282
Number of obs = 8005
Number of groups = 3538
Obs per group: min = 1
avg = 2.3
max = 4
F(20,4447) = 5735.33
Prob > F = 0.0000
lwage | ---------+-
educ |
deduc96 |
deduc98 |
deducOO |
Coef.
Std. Err.
.0095355 .0110487 -.002887 .0078136 .0125607 .0084006
.0225405
.0084271
d96 |
d98 |
d00 |
cons |
1.14552 -5.6317 -4.867094 12.11421
.1242481 .1836601 .2475536 1.380885
--------+------------
sigma_u | 1.0754491 sigma_e | .64480761 rho | .73557272
P>|t|
-0.86 0.388
-0.37 0.712
1.50 0.135
2.67 0.008
9.22 0.000
-30.66 0.000
-19.66 0.000
8.77 0.000
(fraction of variance due to ui)
F test that all u_i=0: F(3537, 4447) = 3.01 Prob > F = 0.0000
Отсюда можно сделать окончательные выводы:
• инвестиции в человеческий капитал, в частности в образование, были обесценены в 1990-е гг., об этом говорят незначимые коэффициенты при переменных educ, deduc96, и deduc98;
• в 2000 г. тенденция начала меняться. Наличие образования вызывает ускоренный рост заработной платы, о чем свидетельствует значимый коэффициент при переменной deduc00. Этот коэффициент показывает, что в 2000 г. у индивидуумов с более высоким уровнем образования уровень заработной платы был значимо выше, чем у остальных;
• значимые коэффициенты при временных дамми-переменных показывают рост уровня заработной платы в 1996 г., существенный его спад в 1998 г. и небольшой подъем в 2000 г.
* * *
СПИСОК ЛИТЕРАТУРЫ
1. Анатольев С. Курс лекций по эконометрике для продолжающих. Российская экономическая школа. 2002. (http://www.nes.ru/Acad-year-2003/5th-module/econometrics-3-rus.htm).
2. Васькович Н., Гурова Е., Поляков К. Регрессионная модель панельных данных с однофакторной случайной составляющей // Математические модели экономики: Сборник научных трудов. М.: МИЭМ, 2002.
3. Гимпельсон В., Капелюшников Р., Ратникова Т. Страх безработицы и гибкость заработной платы в России // Экономический журнал ВШЭ. Т. 7. № 3. 2003.
4. Колеников С. Прикладной эконометрический анализ в статистическом пакете STATA. М.: Российская экономическая школа, 2001.
5. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. 5-е изд., испр. М.: Дело, 2004.
6. Нестерова Д., Сабирьянова К. Инвестиции в человеческий капитал в переходный период в России. Доклад на конференции EERC. 1999.
7. Ратникова Т.А. Анализ панельных данных в пакете STATA. Методические указания к компьютерному практикуму по курсу «Эконометрический анализ панельных данных». М.: ГУ ВШЭ, 2005.
8. Рощин С.Ю. Предложение труда в России: микроэкономический анализ экономической активности населения: Препринт WP3/2003/02. Серия «Проблемы рынка труда». М.: ГУ ВШЭ, 2003.
9. Список публикаций на основе данных Российского мониторинга экономического положения и здоровья населения (РМЭЗ). Материалы конференции «Российский мониторинг экономического положения и здоровья населения», 17 июня 2003 г.
10. Arellano M., Bond S.R. Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations // Review of Economic Studies. 1991. Vol. 58.
11. Baltagi B. Economertic Analysis of Panel Data. John Wiley & Sons, 1995.
12. Baltagi B.H., Raj B. A Survey of Recent Theoretical Developments in the Econo-metrcs of Panel Data // Empirical Economics. 1992. Vol. 17.
13. Chamberlain G. Omitted Variable Bias in Panel Data. Estimating the Return to Schooling // Annales de l'INSEE. 1978. № 30/31.
14. Chamberlain G. Panel Data. Handbook of Econometrics / Ed. by Z. Griliches, M.D. Intriligator. 1984. Vol. II.
15. Cheng H. Analysis of Panel Data: 1st ed. Cambridge University Press, 1986.
16. Cornwell C., Trumbull W.N. Estimating the Economic Model of Crime with Panel Data // The Review of Economics and Statistics. 1994. Vol. 76. № 2.
17. Dormant B. Introduction à l'Econométrie des données de panel. Paris, 1989.
18. Frisch R., Waugh F.V. Partial Time Regressions as Compared with Individual Trends // Econometrica. 1933. Vol. 1.
19. Hausman J.A., Taylor W.E. Panel Data and Unobservable Individual Effects // Econometrica. Vol. 49.
20. Heckman J.J. Micro Data, Heterogeneity and Evaluation of Public Policy. Nobel Lecture // Journal of Political Economy. 2001. Vol. 109. № 4.
21. Heckman J.J., Macurdy T.E. Ihe Review of Economic Studies // Econometrics Issue. 1980. Vol. 47. № 1.
22. Greene W.H. Economertic Analysis. 3rd ed. Prentice Hall, 1997. (Chapter 14.)
23. Griliches Z. Estimating the Return to Schooling: Some Econometric Problems // Econometrica. 1977. Vol. 45.
24. Griliches Z., Hausman J.A Errors in Variables in Panel Data // Econometrica. 1986. Vol. 31.
25. Kiefer N.M. Population Heterogeneity and Inference from Panel Data on the Effects of Vocational Education // Journal of Political Economy. 1979. Vol. 87. № 5.
26. Kim B.S., Maddala G.S. Estimation and Specification Analysis of Models of Devi-dend Behavior Based on Censored Panel Data // Empirical Economics. 1992. Vol. 17.
27. Lovell M.C. Seasonal Adjustment of Economic Time Series // Journal of the American Statistical Association. 1963. № 58.
28. Mundlak Y. On the Pooling of Time Series and Cross-Section Data // Economet-rica. 1978. Vol. 46.
29. Sabirianova K.Z. The Great Human Capital Reallocation: A Study of Occupational Mobility in Transitional Russia // Journal of Comparative Economics. 2002. № 30.
30. Sevestre P., Trognon A. A Note on Autoregressive Error Component Models // Journal of Econometrics. 1985. Vol. 28.
31. Tekin E. Employment, Wages and Alcohol Consumption in Russia: Evidence from Panel Data // IZA Discussion Paper. 2002. № 432.
32. Trognon A. Donnees individuelles temporelles. Polycopie de l'ENSAE. Couurs d'Eonometrie II. 1987. Tomes 2 et 3.
33. Verbeek M. A Guide to Modern Econometrics. John Wiley & Sons, 2003.
34. Verbeek M, Nijman Th. Can Cohot Data Be Treated as Genuine Panel Data? // Empirical Economics. 1992. Vol. 17.
35. Wansbeek T.J., Koning R.H. Measurement Error and Panel Data // Statistica Neer-landica. 1989. Vol. 45.