Научная статья на тему 'Состоятельная оценка параметра однопараметрической парной регрессии'

Состоятельная оценка параметра однопараметрической парной регрессии Текст научной статьи по специальности «Математика»

CC BY
129
27
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Гетманская И. В.

Рассматривается реализация параметра однопараметрической парной регрессии в точке с координатами, соответствующими значениям фактора и отклика. Найдены ее основные числовые характеристики, с помощью которых определена состоятельная оценка регрессионного коэффициента.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Consistent Parameter Estimate for One-parameter Paired Regression

The implementation of a parameter for the one-parameter paired regression in a point with co-ordinates corresponding to values of the factor and response is considered. Its basic numerical characteristics are found using which the consistent estimate of the regression coefficient is determined.

Текст научной работы на тему «Состоятельная оценка параметра однопараметрической парной регрессии»

МАТЕМАТИКА

J

УДК 519.23

И. В. Гетманская

СОСТОЯТЕЛЬНАЯ ОЦЕНКА ПАРАМЕТРА ОДНОПАРАМЕТРИЧЕСКОЙ ПАРНОЙ РЕГРЕССИИ

Рассматривается реализация параметра однопараметрической парной регрессии в точке с координатами, соответствующими значениям фактора и отклика. Найдены ее основные числовые характеристики, с помощью которых определена состоятельная оценка регрессионного коэффициента.

Предположим, требуется построить математическую модель У = = г (X), связывающую независимую переменную X и зависимую переменную У, по результатам п наблюдений значений фактора X» и отклика у% = У + в, г = 1,п, содержащего в себе погрешность в, возникающую либо из-за неучтенных факторов, либо из-за ошибок измерений.

Класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию зависимости У = г (X), можно подобрать по внешнему виду экспериментальной зависимости у от X или исходя из физических соображений, связанных с существом решаемой задачи.

Предположим, 3 — класс допустимых моделей зависимостей. Аппроксимирующая функция г (X) из класса называется линией регрессии. Если класс 3 задается некоторым параметрическим семейством функций {г (X, 9)}, где 9 — свободный параметр, то 9 называется регрессионным коэффициентом, а аппроксимирующие функции У = г (X, 9) € 3 называют парными однопараметрическими регрессиями. В настоящий момент разработаны различные методы оценивания параметра 9. Наибольшее распространение среди них получили алгоритмы итерационного типа [1,2], для которых "... первостепенное значение имеет удачный выбор начального приближения" [1]. Принято в качестве начального приближения использовать одно из значений параметра 9, реализующего зависимость У = г (X, 9) в точках с координатами ^^у^), г = 1,п [1].

В работе приводится доказательство того, что среднее значение ре-

о

ализаций 9% параметра 9 регрессии У = г (X, 9) в экспериментальных данных ^^у») с учетом поправки является состоятельной оценкой регрессионного коэффициента.

Регрессионный коэффициент, реализующий значение фактора и отклика. Пусть

Y = r (X,6) G Y С R1 (1)

— функция регрессии известного вида, определенная с точностью до подлежащего оценке регрессионного коэффициента 6 G в С R1. Здесь X G Н С R1 — независимая переменная. Пусть (X, y) — пара наблюдений значения функции отклика y, полученных при значении объясняющей переменной X. Причем

У = Y + е, (2)

где погрешность е — случайная величина с начальными моментами

Ее = 0, Ее2 =: а2. (3)

Предположим, что в точках области A G Н х Y, A = {(X, y) G G Н х Y : |y — Y| ^ ет}, где |е| < em, существует и единственная заданная неявно уравнением (1) функция 6 = 6 (X, y), отображающая

A ———4 D, где D G в.

Теорема 1. Пусть выполняются условия (1-3), а также а) |е| <1 (ет = 1), кроме того, в области Н х D: b) функция регрессии Y = r (X, 6) строго монотонная по переменной 6; с) существуют г'в, г-'qq , rQ'Qq и постоянная q > 0 : |rQ | > q. Тогда реализация

о

6 параметра 6 функции регрессии Y = r (X, 6) в точке (X, y) G A — смещенная оценка 6 с приближением смещения

w = -а'2 (X,6)

2« (Х,в))3'

Доказательство. По определению [3] оценка в параметра в —

г о"|

несмещенная оценка, если выполняется равенство Ев = в. По постановке задачи в = в (X, У) решенное относительно в уравнение

Я (X, У, в) = 0, где Я (X, У, в) = У - г (X, в). Так как у = г (х, в), то

о

в = в (X, у). Функцию в (X, у) представим как функцию, зависящую от случайного аргумента е: в (X, у) = в (X, У + е) = в (е).

По определению математического ожидания неслучайной функции в от случайного аргумента е имеем

1

E

= в (e)dFe.

-1

Выполнение условий Ь) и с) теоремы означает дифференцируемость функции в (X, У) по У в точке (X, У) С А до третьего порядка

включительно, что позволяет представить функцию 9 (X, У) по формуле Тейлора в е-окрестности точки У с точностью до бесконечно малой о (у — У)2 = о (е2):

(е)2

9 (X, У + е) = 9 (X, У) + е9" (X, У) + ^9"-г (X, У) + о (е2) .

2

В результате получим

Е

0 (X, Y) + е0Г (X, Y) + 0^ (X, Y) + o (е-) 1 =

-i i

0 (X,Y) i +0Г (X,Y) i edF£+fci^^l f e-dF£ + [ o (е-)

i

i

i

-i i

Поскольку у dF£ = 1, у е^ = Ее, у е-^ = Ее-, а J o (е-) =

-1 -1 -1 -1 = Е [o (е-)], кроме того, 0 = 0 (X, Y) —истинное значение 0, а по условию (3) Ее = 0, Ее- =: а-, то

Е

= 0 + а

;0"г (X,Y)

2

+ Е [o(е-)] .

.«гг (X,Y)

Обозначим W = а2 г г 4—-—-. Пренебрегая третьим слагаемым, по-

2

о

лучим Е 9 ~ 9 + W — приближение Е

Выразим смещение W через функцию регрессии г (X, 9). Для этого найдем значение 9" у (X, У) по правилу производной неявно заданной Л (X, У, 9) = У — г (X, 9) = 0 функции 9 (X, У) [4]:

d0- (X, Y) —т^

dY -

(т*)

3 •

В результате получим W = — а2—Г&в (X, 9) ,. Что и требовалось до-

2 (г^ (X, 9))3 Р

казать.

Теорема 2. При выполнении условий теоремы 1 дисперсия Var

о

регрессионного коэффициента 9, реализующего функцию регрессии У = г (X, 9) в точке (X, у), приближенно равна

Var

о

т'в (X, 0)

1

1

1

1

1

1

1

-

Доказательство. Дисперсию Var

' О' / О \ 2 / О

Var в =E вО 2 -E в

найдем по формуле

2

Начальный момент второго порядка E

случайной величины

в можно найти как начальный момент первого порядка неслучайной функции

О \ ^

в) = (в (X, у))2 = (в (X, У + е))2 = (в (е))2 = р (е) от случайного аргумента е [5], а именно:

сю

Е [р (е)] = I р (е) ^

Если

(е)2

в (X, У + е) = в (X, У) + еву (X, У) + ^ву.у (X, У) + о (е2)

2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— приближение функции в (X, У + е) по формуле Тейлора в е-ок-рестности точки У, то

в2 (X, У + е) = в2 (X, У) + 2е в (X, У) ву (X, У) +

+е2 ((ву (X, У))2 + в (X, У) вУу (X, У)) + ф (о (е2)) ,

где ф (о (е2)) включает в себя слагаемые,зависящие от степеней е выше второй. Пренебрегая ф (о (е2)) и интегрируя последнее выражение на интервале (-1, 1), получим

E

В результате

= в2 + а2 (ву (X, Y))2 + в (X, Y)

E

Так как

Var в = E

= в2 + а2 ((ву (X, Y))2 + в вуу (X, Y)) -- (в2 + а2в вуу (X, Y))= а2 (ву (X, Y))2

дУ r'o,

2

2

2

то приближенно

Var

а2

2 •

r'e (Х,вУ

Состоятельная оценка регрессионного коэффициента. Пусть выполняются условия (1)-(3) и имеются результаты п независимых наблюдений значений фактора Хг и отклика

Vi = Y + £г, i = 1,n, (4)

где £i — реализации случайной величины е. Обозначим

где Ог — значения регрессионного коэффициента О, реализующие функ-

__о

цию регрессии У = г (X, О) в точках (Хг,уг), г = 1,п. Получить Ог

можно, решив систему уравнений уг = г уХг,Ог^, г = 1,п, относи-

о

тельно Ог. Необходимо обратить внимание на то, что в общем случае решение каждого из уравнений этой системы является не единственным. На практике получить единственное решение можно, сузив

о

область возможных значений Ог, "... исходя из условий конкретной задачи" [6]. Пусть

о П о

9":= п-1^ О г (5)

г=1

о

— среднее значение ряда О.

Теорема 3. При выполнении условий (1-3), а в каждой точке (Хг, О), г = 1, п, условий (4) и условий теоремы 2

о п

9 = 9 -п-1 ^ Wг (6)

г=1

является состоятельной оценкой регрессионного коэффициента О. Здесь Ж = -<>(ХО)

2 (г'в (Х„О))3'

Доказательство. Для доказательства состоятельности оценки О регрессионного коэффициента О воспользуемся следующей теоремой:

если оценка О параметра О — несмещенная и Р&г то О — состоятельная оценка параметра О.

^ 0 при n ^ ж,

Таким образом, необходимо доказать, что

1) Е Щ = в;

2) Уаг в ^ 0 при п ^ то. Доказательство п. 1.

E

= E

' —n

- Е w

.= 1

= E

n

.=1

1 Е (9.-w.

Исходя из свойств математического ожидания, с учетом того, что — не случайная величина, имеем:

E

n

-1

.=1

-W.

= n

-1

.=1

E

- W

Так как для любого г выполняются все условия теоремы 1, то

E

= 9 + W., откуда следует, что E

= n 1 n9 = 9.

Доказательство п. 2.

Var 9 = Var

n-

1Е (9. - w.

.=1

Величины вг, г = 1,п), — независимые, как значения неслучайной

о

функции в г = в (X», У + ег) независимых случайных аргументов ег. В

результате Var

найдем как дисперсию линейной комбинации неза-

висимых случайных величин:

Var

n-

1Е (9. - w.

.=1

= Var

n

-1

.=1

=n

-2

Е Var

.=1

Обозначим M = max Var

По теореме 2 M = max a2 (r^ (X., 9))

2

Согласно условию с) теоремы 1 V г 3 постоянная д>0: |г^ (X», в) | > д Тогда М < ( — ) < то. Так как 0 < М < то, то 0 < Уаг

< n 2n X 0, что и требовалось

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

х М = п 1М ^ 0, откуда следует Уаг доказать.

Вычислительный эксперимент оценивания регрессионного коэффициента однопараметрической парной регрессии. Вычислительный эксперимент проводился в компьютерной системе

математических символьных вычислений Maple. Модель значений отклика строилась по формуле (2). Регрессия задавалась функцией вида

r (X, в) = ch (X/в)

при значении параметра в = 1, заданной на интервале К = (0,2, 2).

Моделирование погрешности отклика е осуществлялось программой random статистического пакета Stats системы Maple. Значения е строились как элементы выборки объема n равномерного распределения на интервале [-v^a, v^a], а = 0,202. На рис. 1 изображен один из результатов моделирования.

В таблице приведены результаты эксперимента оценивания по формулам (5), (6). Значения первого столбца соответствуют номеру эксперимента. Значения N соответствуют количеству найденных значений вг как решений уравнений уг = r (xi,e^j, i = 1,n в области © = [в/10, 2в] предполагаемых значений в. Уравнения решались численным методом половинного деления, программно реализованным в среде Maple. Значения N' соответствуют количеству зна-

о

чений вг, для которых выполняются условия теоремы 1. Значения

Рис. 1. Модель значений фактора и отклика:

--линия регрессии У = т(Х,9);

о — точки с координатами (Хг,уг), где

Уг = У + £г

£о =

соответствуют абсолютной погрешности оценки по фор-

№ n N £о в N' £в

1 4 3 0,2309 2 0,0199

2 6 5 0,0603 3 0,0408

3 9 7 0,0090 5 0,0029

4 11 8 0,1841 5 0,0462

5 15 13 0,0277 9 0,0135

6 18 14 0,0513 10 0,0246

7 20 17 0,056 10 0,0007

8 26 21 0,0631 13 0,0005

9 31 22 0,0075 18 0,0058

10 41 33 0,0161 23 0,0146

11 51 49 0,0524 30 0,0111

N

муле (5)- 0 = N-1 ^ 0*, а

е 5 =

i=1

в

— оценкам по формуле (6) —

(N')-1 ]Г (°вг - Wi). Величины W* = -а2^ (Х*'0)3, завися-

i=i 2(r^ (Xi'0))3

щие от оцениваемого параметра 0, были заменены их приближенными

значениями W, = — а2

2 r'e Xi'

3

Подробнее остановимся на результатах пятого эксперимента, модель которого приведена на рис. 1. На рис.2 изображена поверхность в (X, У) неявно заданная уравнением У = г (X, 0). Как видно из рис. 2, в точках с координатами (0,3285, 0,8149), (0,7142, 1,0465) уравнение в = в (X, У) в области предполагаемых значений в = (0,1, 2) решений не имеет. Поэтому N = п — 2 = 13. Значение в ячейке N = N — 4 = 9, так как четыре точки с координатами (0,2, 1.2646), (0,4571, 1,2908), (0,5857, 1,0466), (0,8428, 1,6071) были удалены по признаку невыполнения условий теоремы 1, а именно: для них были равны 32,9426; 1,1597; 1,4169; 0,0891, что значительно превышает не только ег? и а2 = 0,0408, но и ег и а = 0,202.

Из результатов оценивания, приведенных в таблице, видно, что при увеличении N ^ N прослеживается неустойчивая сходимость к истинному значению в состоятельной оценки в. При этом она является

о

более точной, чем смещенная оценка в.

Выводы. 1. Предложенная оценка регрессионного коэффициента однофакторной однопараметрической регрессии, ввиду доказанной ее

состоятельности, может служить не только начальным приближением существующих итерационных методов оценивания, но и быть при некоторых условиях самостоятельной оценкой.

2. В процессе доказательства состоятельности оценки получены ее основные характеристики, а именно: математическое ожидание и дисперсия, с помощью которых возможно построение интервальных оценок различной степени надежности.

Рис.2. Поверхность в = 6(X,Y), заданная уравнением Y = r(X, в)

3. Найденное значение дисперсии зависит не только от погрешностей экспериментальных данных, но и от частной производной регрессии. Это делает возможным осуществлять математически обоснованный поиск оптимальной регрессии в рамках не только одного, но и нескольких регрессионных классов.

4. Приведенные результаты получены без принятия допущений о каком-либо законе распределения погрешностей, поэтому предложенная оценка может быть применима для достаточно широкого класса задач обработки данных реальных экспериментов.

СПИСОК ЛИТЕРАТУРЫ

1.Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. - М.: Финансы и статистика, 1985. -487 с.

2. Бард Й. Нелинейное оценивание параметров. - М.: Статистика, 1979. - 349 с.

3. Математическая статистика: Учеб. для вузов / В.Б. Горяинов, И.В. Павлов, Г.М. Цветкова и др. Под ред. В.С. Зарубина, А.П. Крищенко. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2001. - 424 с. (Сер. Математика в техническом университете. Вып. XVII).

4. Кудрявцев Л. Д. Курс математического анализа: Учеб. для студентов ун-тов и вузов. В 3 т. Т. 1. - М.: Высш. школа., 1988. - 712 с.

5. В е н т ц е л ь Е. С. Теория вероятностей. - М.: Гос. изд-во физ.-мат. лит., 1962. - 564 с.

6. Г р е ш и л о в А. А. Математические методы построения прогнозов. - М.: Радио и связь, 1997. - 112 с.

Статья поступила в редакцию 16.01.2006

Ирина Васильевна Гетманская родилась в 1956 г., окончила в 1978 г Казахский государственный университет им. С.М. Кирова. Старший преподаватель кафедры "Высшая математика" Калужского филиала МГТУ им. Н.Э. Баумана. Автор 6 научных работ в области математической физики и прикладной статистики.

I.V. Getmanskaya (b. 1956) graduated from the Kazakh State University n.a. S.M. Kirov in 1978. Senior teacher of "Higher Mathematics" department of the Bauman Moscow State Technical University. Author of 6 publications in the field of mathematical physics and applied statistics.

i Надоели баннеры? Вы всегда можете отключить рекламу.