Научная статья на тему 'О геометрической интерпретации метода наименьших квадратов'

О геометрической интерпретации метода наименьших квадратов Текст научной статьи по специальности «Математика»

CC BY
1757
308
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНЕЙНАЯ РЕГРЕССИЯ / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / ОБЪЕМ СИМПЛЕКСА / LINEAR REGRESSION / METHOD OF THE LEAST SQUARES / SIMPLEX VOLUME

Аннотация научной статьи по математике, автор научной работы — Пономарев Игорь Викторович, Славский Виктор Владимирович

В данной статье рассматриваются два метода построения линейной регрессионной модели. Приводится геометрическая интерпретация функционала качества. Доказывается неравенство, связывающее эти функционалы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About Geometrical Interpretation of the Least Squares Method

In this article two methods of construction linear regression models are considered. Geometrical interpretation functional qualities is resulted. The inequality connecting these functionals is proved.

Текст научной работы на тему «О геометрической интерпретации метода наименьших квадратов»

УДК 514.172

И.В. Пономарев, В.В. Славский

О геометрической интерпретации метода наименьших квадратов*

I. V. Ponomarev, V. V. Slavsky

About Geometrical Interpretation of the Least Squares Method

В данной статье рассматриваются два метода построения линейной регрессионной модели. Приводится геометрическая интерпретация функционала качества. Доказывается неравенство, связывающее эти функционалы.

Ключевые слова: линейная регрессия, метод наименьших квадратов, объем симплекса.

In this article two methods of construction linear regression models are considered. Geometrical interpretation functional qualities is resulted. The inequality connecting these functionals is proved.

Key words: linear regression, method of the least squares, simplex volume.

Пусть Дк+1 - к + 1-мерное арифметическое евклидово пространство. Пусть П - конечное подмножество точек:

П = {(хц,Хг2,...,Хгк ,Уг] : г = 1, . . . , N} ,

которое можно рассматривать как результат N экспериментов. В приложениях часто возникает вопрос о существовании функциональной зависимости между переменными у и Х1, Х2, ... ,Хк.

Наиболее простая зависимость - линейная, которая в классическом случае имеет вид

yi а 1 Хг 1 + ... + акХгк + £i,

где yi - значение зависимой переменной; х^ - значение ^’-й независимой переменной; € Д - параметры модели; £-1 - случайная ошибка; ] = 1,..., к,

г = 1,...^.

Обозначим

yi

,X

yN

xii xi2

xii

xNi xN2 ai

xik

xNk

xNi

є=

І єГ

\^N /

Тогда модель линейной регрессии будет иметь

вид

у — X а + £.

В статистике разработаны мощные методы для анализа множества П на линейную зависимость основанные на Евклидовой норме.

* Работа выполнена при финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг. (гос. контракт №02.740.11.0457).

Классическим подходом к оценке параметров модели является метод наименьших квадратов, суть которого заключается в минимизации функционала

*2 = min(y — Xa)T (y — Xa).

(1)

Теорема 1 (теорема Гаусса-Маркова).

Предположим, что

1. у = X а + £;

2. X - детерминированная N х к матрица, имеющая максимальный ранг к;

3. М(£) =0, Б(£] = а2Ем.

Тогда оценка метода наименьших квадратов наиболее эффективна (в смысле наименьшей дисперсии) в классе линейных (по у) несмещенных оценок.

Уравнение гиперплоскости, на котором достигается (1), назовем уравнением Ь2 регрессии:

yi aixii + ... + akxki ,

(2)

где ау — оценка метода наименьших квадратов для коэффициента а^ уа — прогнозные значения зависимой переменной.

В векторной форме равенство (2) будет иметь вид

у = Ха, (3)

где а — оценка метода наименьших квадратов векторов параметров; уа — прогнозные значения вектора зависимых переменных.

Рассмотрим геометрическую интерпретацию метода наименьших квадратов. Представим у,Х1,...,Хк как векторы в . Эти векторы линейно независимы (в противном случае нет смысла ставить задачу об оценке параметров),

y

x=

a=

т.е. образуют (к + 1)-мерное пространство П. По предположению теоремы Гаусса-Маркова, векторы Х1 , . . . , Хк также линейно независимы и порождают в пространстве П к-мерное подпространство п. Вектор у = Xа - ортогональная проекция вектора у в подпространство п. Соответственно, е = у — у - вектор, ортогональный подпространству п. Следовательно, функционал

2 Т

а2 = еТе равен квадрату расстояния между у и п.

Квадрат этого расстояния может быть вычислен с использованием определителя Грама [1]

С(х1,х2, ■ ■ -,хк,у) С(хь Х2,... ,Хк] ’

(4)

С(хь Х2,... ,Хк ]

i1 ?•••?ik

x1il x2il

ХН2 Х2І2

Х 1i к х2^

Хк^

ХkІ2

хНк

(5)

где г1,..., гк независимо изменяются от 1 до N. Следствие 1.

С(*......= ^....

к!

С(хь... ,Хк,у]

(к!]2

^1 ?•••?ifc

Е

а2 = к

(й+1)! , 2 *1

(6)

(рис.), т.е.

02

^2 _ Д . ________________________ВгВ2Вз_________________

2 (.гч - хо )2 + (х2 - х3)2 + (х3 - .гч)2'

где С(х1, х2, ..., Хк] — определитель Грама системы векторов Х1, Х2,..., Хк.

Теорема 2 [1]. Определитель Грама может быть вычислен по формуле

где и ^••^ — объемы симплексов

с вершинами {А^ (х^,..., х^к]}я=1 к и соответственно {в4а(х4аЬ... ,Х4ак,у*а]}s=1,•••,k+1.

Доказательство непосредственно следует из теоремы 2 и формулы ориентированного объема симплекса [2,3].

Теорема 3. Функционал метода наименьших квадратов может быть вычислен по формуле

Пример парной регрессии

Таким образом, геометрический смысл величины а2 сводится к отношению суммы квадратов объемов к + 1-мерных симплексов (к - число регрессоров) и суммы квадратов проекций гиперграней этих сиплексов на гиперплоскость, образованную регрессорами.

В работе [4] в качестве основы берется Чебы-шевская норма равномерного отклонения.

Определение 1. Минимальной шириной множества П вдоль переменной у назовем число

= 2 • тт { тах |х„ — а^х.;.» — 6| V . аа ,8= ;Ь | І=1,•••,NI ^ ^ " ІS '

(7)

С геометрической точки зрения величина ато равна минимуму ширины «полосы», ограниченной двумя параллельными гиперплоскостями и содержащей множество П, ширина берется вдоль оси У в Дк+1 (т.е. длина пересечения полосы с осью У).

Уравнение гиперплоскости, на котором достигается (7), назовем уравнением Ьж регрессии:

у = Е а°Хя — 6°

(8)

Доказательство. Справедливость теоремы следует из равенства (4) и следствия 1.

Проиллюстрируем результат теоремы 3. Пусть на плоскости ХУ даны три точки В^Х^у!], В2(х2,у2], Вз(Хз,уз]. Функционал качества уравнения для регрессии вида у = ах+6, построенного методом наименьших квадратов, пропорционален частному квадрата площади треугольника и суммы квадратов длин проекций его сторон на ось X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

или уравнением регрессии относительно Чебы-шевской нормы.

Теорема 4. Справедливо неравенство, связывающее а2 и ато

02_ (к + 1)\ ■ N

аоо ~ V 4к2 '

2

а

2

2

1

il

Доказательство. Очевидно, что для произ- Суммируя, получим:

вольных *1,..., гк+1 справедливо неравенство:

V- п2 < V2

1 1 \ - тг / > *1,--->*)о+1 — 4А:2 к\ / > ч,---Лк'

^,•••,^ + 1

к

]1,...,Ік

(к!]2 2

где 1л,... ,1ъ - всевозможные сочетания из номе- —.—'— \ ПА . <

(£• + IV 2^! ии,-,1к+1 -

ров *1, . . ., *к+1. (к + 1]!,

*1,...,*к+1

Возведем последнее равенство в квадрат 2 2

^ аооц, , + т/2

2 - Ак2^ ) /г! (/г+1)!.Е й,-,ч=-

и2 . < . [ у- уч . #

il— ^к2 I _ ^•••, М Воспользовавшись результатами теоремы 3,

К31,...,3к

получаем искомое неравенство:

Согласно неравенству Коши-Буняковского

\2 о с^2 ^ (Л: Н- 1)! * АГ

Е ^ <пТ.4 имеем: -^Г - ^2

1=1 / І=1

1'л....»„<зр-(*+и- Е >5......................*- —<і/№+1);'Л'.

іі,...,ік V 4к2

Библиографический список

1. Шилов Г.Е. Математический анализ (конечномерные линейные пространства). — М., 1969.

2. Берже М. Геометрия: пер. с франц. — М., 1984. - Т. 1.

3. Берже М. Геометрия: пер. с франц. — М.,

1984. - Т. 2.

4. Пономарев И.В., Славский В.В. Равномерно нечеткая модель линейной регрессии // Вестник Новосибирского государственного университета. Сер.: Математика, механика, информатика. — 2010. — Т. 10, №2.

i Надоели баннеры? Вы всегда можете отключить рекламу.