Научная статья на тему 'Максимально правдоподобные оценки регрессионных параметров при стохастических регрессорах'

Максимально правдоподобные оценки регрессионных параметров при стохастических регрессорах Текст научной статьи по специальности «Математика»

CC BY-NC-ND
95
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Бизнес-информатика
ВАК
RSCI
Область наук

Аннотация научной статьи по математике, автор научной работы — Чураков Е. П.

Строятся максимально правдоподобные оценки регрессионных параметров при неточных измерениях объясняющих переменных

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Максимально правдоподобные оценки регрессионных параметров при стохастических регрессорах»

Максимально правдоподобные оценки регрессионных параметров при стохастических регрессорах

Е.П. Чураков,

д.т.н., профессор, заведующий кафедрой эконометрики и математического моделирования

Рязанского государственного радиотехнического университета

[email protected]

Строятся максимально правдоподобные оценки регрессионных параметров при неточных измерениях объясняющих переменных.

^ *

Введение и постановка задачи

Рассматривается традиционная модель линейной множественной регрессии. Полученные результаты экспериментальных наблюдений задаются соотношениями

где п — объём экспериментальной выборки; т — количество экзогенных переменных; у, Ху — значения эндогенной и у-й экзогенной переменных в г-м наблюдении соответственно; р-Ж(0,52) — гауссовская стохастическая составляющая с присущими методу наименьших квадратов свойствами (центрированность, некоррелированность, гомоскедастичность); а, / = 0,т — подлежащие оцениванию регрессионные параметры.

В матричной форме выражение (1) принимает вид

У = Ха + р, (2)

где Уе Кп — вектор наблюдений;

Хе кпх(т+1)— матрица объясняющих переменных;

"1 *11 *12 ' 2 і

1 *21 Л22 ' . X, 2т

1 *31 *32 ' • *з™

1 *„1 *„2 ■ • хят_

ае Кт+1 — вектор регрессионных параметров; ре К — вектор стохастических составляющих.

Модель (2) определяет объективно сложившиеся результаты наблюдений. Однако на этапе оценивания вектора при формировании матрицы , участвующей в образовании наблюдений (2), допущены ошибки, и вместо матрицы X используется матрица

где е — матрица ошибок.

С учётом X = X*—е это приводит к трансформации выражения (2) к виду

У = Х'а + (р-еа). (3)

Далее, исходя из представления (3), находят обычную МНК-оценку Еа вектора параметров а

и доказывают [1], что оценка (4) не является ни состоятельной, ни несмещённой. Однако в условиях представления (3), когда приведённая стохастическая составляющая явно не соответствует теореме Маркова, использование метода наименьших квадратов для оценивания регрессионных параметров оказывается не совсем оправданным и целесообразно применение альтернативных подходов, например, метода максимального правдоподобия

(5)

где 1пЬ (У/а) — соответствующая модели (3) функция правдоподобия.

Основные теоретические результаты

Пусть матрица є такова, что первый её столбец оказывается нулевым, а последующие элементы равны ____ ___

т.е.

П с с о

\т 2т

в 0 в-2, в -10 ... в Зд

Построим ковариационную матрицу К приведённой стохастической составляющей р - Е«

К = м|(/?-£«)(/;-£ я )Г|= а 2£ + йй7£ 7

где М — символ усреднения;

Е — единичная и-матрица и матрицы £, р принимаются независимыми.

Тогда несложно получить

0 єн Є12 ■ .. Є

0 Є 21 є22 .. Є

0 Є31 £ ,2 • .. £

0 Є„1 Є п2 .. £

гааТе ■

^ і: .у. ..«,(1.

а,а.

1Х£ аа

Xе *• ::а.а: ■ •• Еє $

'.7=1 1,1=1

т ЕЄ 2р ЛаР} • .. £

1.1=1 1.1=1

т :аи ■ 11=і т •• Xе # ',і=і

I

і

І.М

£ .. V. ,(1(1.

I

'■.>1

/Ла,

е є а а.

ПГ уи / у

Пусть ошибки измерений различных экзогенных переменных некоррелированы между собой, а дисперсии ошибок образуют гетероскедастичную последовательность в том смысле, что

где — дисперсия ошибки измерения г-й экзоген-

ной переменой в 5-м эксперименте.

В этом случае матрица К оказывается диагональной

К = сіісщ

°2+£°;«,2

и при гауссовской приведённой стохастической составляющей получаем

(6)

Решение задачи (5) при выполнении (6) приводит к нелинейной оценке &а, поиск и исследование свойств которой в аналитической форме не являются тривиальными процедурами. Чтобы получить определённые представления о целесообразности перехода от (4) к (5), рассмотрим случай парной регрессии (т = 1), при котором функция (6) существенно упрощается. Обозначив о| = О2, х* = х*, для парной регрессии получим

7)

Точность максимально правдоподобных оценок ограничена неравенством Рао-Крамера, в соответствии с которым для ковариационной матрицы Ка несмещённых оценок имеем

Кя>р-\ Р=-М^ЫЬ(Г/а0,а1)\.

Подставив функцию (7) и выполнив необходимые операции дифференцирования и усреднения, получим информационную матрицу Фишера

(8)

Таким образом информационная матрица зависит только от одного регрессионного параметра а1, непосредственно участвующего в формировании дополнительных ошибок измерений. Если в (8) принять 0^ = 0,5 = 1,и, получим хорошо известный для обычной парной регрессии результат

(9)

Результаты вычислительного эксперимента

Для решения нелинейной системы уравнений (11) можно воспользоваться соответствующими встроенными функциями, предусмотренными в большинстве современных пакетов прикладных программ. Так как рассматриваемая задача — стохастическая, целесообразно провести её обширное машинное моделирование, содержащее в себе и процедуру решения системы (11). Приведём соответствующие результаты, полученные в вычислительной среде Mathcad, позволяющей легко решать самые разнообразные эконометрические задачи (например, [2],[3]).

При проведении вычислительного эксперимента использована я-мерная выборка значений экзогенной переменной, формирующих наблюдения (2),

x1 := (66 85 88 139 88 129 142 65 92 112 97 120 109 130 125)T, x2 := (45 68 90 39 123 154 67 145 169 152 97 175 98 100 190)T, x3 := (165 189 105 168 206 230 179 160 201 246 194 165 240 238 180)T, x := stack (x1, x2, x3), z := x, n := 45.

Далее формируется аналог матрицы X из (2), но в машинных обозначениях

1 := 1...п, шНц := 1, шН12 := х;.

Моделирование ошибок при измерении «забытых» значений экзогенных переменных осуществляется следующим образом. Предполагается, что измерение производится с точностью 5, так что результат измерения величины т принадлежит отрезку [-5т, 5т]. Полагая ошибку измерения гауссовской и используя распространённое правило 3о, получаем выражение для дисперсии ошибки измерения

52

а: = —т2.

Величина 5 варьируется в процессе проведения вычислений. В машинных обозначениях вектор дисперсий

Задавшись дисперсией с2 (обозначено как D) компонентов вектора р из (2) и вектором регрессионных параметров а, формируем вектор наблюдений (2):

D:=0.5, а:=

О

.5)

, р :=morm(n,0,D), y:=mH-a + p.

Для моделирования матрицы X используется гауссовский вектор £ с компонентами

Матрица X * образуется из матрицы X добавлением ко второму столбцу матрицы X вектора £

Теперь можно вычислить МНК-оценку (4):

а1 := (тН1Т-тН1^ тН1Ту.

Для сопоставления этой оценки с максимально правдоподобной оценкой составляется и решается система уравнений (11)

VI

Given

Q;

+ D

і=і (ьіН

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

П (уі-Ь,-Ь2Л)|'Ь2Сі(уі-Ь1)+Р-^ в

i = l

-b,S

X.

1

X

і -1 +D ' і -' bfQi *D n

I

і = 1 (Ь2І«І + D cl :=Find^brb2^ .

В качестве начальной точки при решении уравнений используется МНК-оценка (4). Приведём результаты обработки одной из реализаций при 5 = 0.1:

а=

1а-а1

а1=

^183.554Л

V

с1=

747 ^ 182.559, |а-с 11=3.189.

/-3.189Л

5.076

Для этой реализации на рисунке представлены в функции экзогенной переменной наблюдения у и регрессионные прямые, соответствующие максимально правдоподобным оценкам и МНК-оценкам для той же реализации.

2000

1500

Уі

ООО

(тН1 • с1) і юоо

(тН1 ■ а1)

500

о о /г А/ О

О

<3>

100

200

300

400

Для проведения более обширного сопоставления обоих подходов к оцениванию регрессионных параметров уравнения (11) переписываются в удобной для последующего моделирования форме

П у П

——ь-Е

1 = 1 (Ь) -0- + Э ; = 1 Ь(Ь,у,х,д) :=-----------------

П

Х-п 1

X,

1

(Ь)

і = 1

(ЬГ^+Б

и проводятся вычисления в соответствии с программой эксперимента. Общее количество реализаций, используемых при усреднении результатов эксперимента, составило Л=103. Символ и использован для обозначения оценки (4). Максимально правдоподобная оценка (5), т.е. решение системы (11), обозначена как с. Сопоставление оценок проводится по значениям среднеквадратических ошибок

N 1 N

' -с\\

где ||...||г — норма ошибки при обработке г-й реализации.

При моделировании эти величины находятся рекуррентным образом и после обработки всех N

реализаций выводятся на печать. Через N1 обозначено число реализаций из N использованных при проведении эксперимента, в которых МНК-оценка (4) оказывалась хуже максимально правдоподобной оценки из (11) в том смысле, что в этих реализациях наблюдалось ||а-и||>||а-с||. Отношение #/г принимается за основной показатель анализа. Символы ^ и 52 использованы для рекуррентного подсчёта усреднённых по множеству реализаций оценок вектора а, найденных методами максимального правдоподобия и наименьших квадратов соответственно. Обозначения шах(м’) и шт(м’) использованы для регистрации реализаций с наибольшей и наименьшей среднеквадратической ошибкой при применении метода максимального правдоподобия; аналогичную роль играют обозначения шах(у), шт(у), но применительно к методу наименьших квадратов. Результаты вычислительного эксперимента систематизированы в табл. 1.

Таблица 1

5 = 0.01 5 = 0.03 5 = 0.05 5 = 0.1

г 0.296 1.642 4.311 17.013

Я 0.508 4.843 15.656 150.757

2?11 1.029 1.329 1.719 2.317

512 5 4.997 4.992 4.987

521 1.043 2.933 12.918 151.753

522 5 4.986 4.913 3.908

тах(й) 1.066 6.514 18.529 68.802

тіп(№) 6.567*10-4 8.742*10-3 9.283*10-3 0.028

тах(і/) 2.42 19.366 63.065 279.341

тїп(^) 4.667*10-4 6.383*10-3 0.06 16.428

N1 740 868 867 993

ц/г 1.717 2.95 3.632 8.861

Анализ результатов вычислительного эксперимента показывает, что в подавляющем числе реализаций среднеквадратичная ошибка максимально правдоподобных оценок меньше аналогичной ошибки метода наименьших квадратов. С ростом дисперсии ошибок в измерении объясняющей переменной, регулируемой изменением параметра 5, это преимущество возрастает. Аналогичная закономерность обнаруживается и при сопоставлении величин среднеквадратичных ошибок обоих методов: величина г с ростом параметра 5 возрастает медленнее по

сравнению с q, так что отношение среднеквадратических ошибок q/r изменяется от 1.717 при 5 = 10-2 до 8.861 при 5 = 0.1. Сравнение экстремальных значений среднеквадратичных ошибок, выявленных на множестве реализаций, демонстрирует преимущество метода максимального правдоподобия. Смещение максимально правдоподобных оценок существенно меньше аналогичной величины в методе наименьших квадратов. Однако следует отметить, что выявленные преимущества снижаются, если дисперсии ошибок в измерении экзогенной переменной оказываются соизмеримыми с дисперсией

О2 стохастической составляющей в (2). Например, при 5 =0.03 и О2 =10 элементы третьего столбца предыдущей таблицы принимают значения

5.28; 5.62; 0.4; 5; 2.41; 4.99; 23.15; 7.6*10-3; 25.93; 0.019; 528; 1.06.

Несложно найти (табл. 2) нижние границы дисперсий ошибок максимально правдоподобных оценок регрессионных параметров, регламентируемые неравенством Рао-Крамера при информационной матрице (11):

Таблица 2

5 0.01 0.03 0.05 0.1

0,47 —3.87Х10"3 -3.87Х10"3 3.9Х10-5 2.95 -0.026 -0.026 2.8Х10-4 7.84 -0.069 -0.069 7.58Х10-4 30.59 -0.269 -0.269 2.97Х10-3

Ковариационная матрица (10) линейной оценки (4) при прежних значениях параметра 5 оказывается равной:

Таблица 3

5 0.01 0.03 0.05 0.1

Кш 0,912 -7.37Х10-3 -7.37Х10-3 6.67Х10-5 7.479 -0.062 -0.062 5.69Х10-4 20.22 -0.168 -0.168 1.56Х10-3 67.62 -0.561 -0.561 5.4Х10-3

В случае (9), т.е. при идеальной регистрации экзогенной переменной, получаем

Заключение

При измерении объясняющих переменных с ошибками, показано, традиционный метод наимень-

ших квадратов может сопровождаться недопустимо большими погрешностями оценивания регрессионных параметров. В подобных ситуациях предпочтение следует отдавать методу максимального правдоподобия, поиск оценок в соответствии с которым легко организуется средствами современных пакетов прикладных программ. ■

Литература

1. Айвазян С.А. Основы эконометрики, т.2. М.: Юнити, 2001.

2. Чураков Е.П. Математические методы обработки экспериментальных данных в экономике. М.: Финансы и статистика, 2004.

3. Чураков Е.П. Прогнозирование эконометрических временных рядов. М.: Финансы и статистика, 2008.

i Надоели баннеры? Вы всегда можете отключить рекламу.