Научная статья на тему 'Действие группы преобразований на показатель качества регрессионной модели'

Действие группы преобразований на показатель качества регрессионной модели Текст научной статьи по специальности «Математика»

CC BY
78
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНЕЙНАЯ РЕГРЕССИЯ / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / ГРУППА ПРЕОБРАЗОВАНИЙ / ВЫПУКЛЫЙ АНАЛИЗ

Аннотация научной статьи по математике, автор научной работы — Пономарев Игорь Викторович

Построение функциональных зависимостей между наблюдаемыми явлениями представляет собой важное направление современной прикладной математики. Основой таких построений зачастую является статистический массив данных. От качества этих данных напрямую зависит адекватность получаемых моделей. В общем случае приходится выбирать одну из возможных моделей, основываясь на некотором показателе. Однако полученные выборки могут быть и тождественными, но построенные модели будут отличаться. Рассматривается один из методов построения линейной регрессии метод наименьших квадратов. Изучается задача об изменении функционала качества регрессионной модели при ортогональном преобразовании исходного множества данных. Дается геометрическая интерпретация самой регрессионной модели и ее функционала качества, а также статистического показателя связи между переменными коэффициента корреляции. В явном виде представлены формулы, показывающие зависимость между функционалами качества при вращении множества относительно одной из осей координат в двуи трехмерном пространствах. Основываясь на полученных формулах, приводится алгоритм, позволяющий получать значение функционала качества при любом собственном движении n-мерного пространства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The Effect of a Transformation Group on the Quality Indicator of a Linear Regression Model

The construction of functional dependencies between the observed phenomena is an important area of modern applied mathematics. The basis of such constructions is often a statistical data array. The adequacy of the models obtained directly depends on the quality of these data. In general, one has to choose one of the possible models, based on a certain indicator. However, the resulting samples may be in some sense identical, but the models constructed will be different. This paper discusses one of the methods for constructing linear regression the method of least squares. The problem of changing the quality functional of a regression model under the orthogonal transformation of the initial data set is studied. A geometric interpretation of the regression model itself and its functional quality, as well as the statistical indicator of the relationship between variables the correlation coefficient, is given. Formulas are shown explicitly showing the relationship between the functionals of quality during rotation of a set relative to one of the axes of coordinates in twoand threedimensional spaces. Based on the formulas obtained, an algorithm is presented that allows one to obtain the value of the quality functional with any proper movement of n-dimensional space.

Текст научной работы на тему «Действие группы преобразований на показатель качества регрессионной модели»

Известия АлтГУ. Математика и механика. 2019. № 4 (108)

УДК 514.172; 519.654

Действие группы преобразований на показатель качества регрессионной модели

И.В. Пономарев

Алтайский государственный университет (Барнаул, Россия)

The Effect of a Transformation Group on the Quality Indicator of a Linear Regression Model

IV. Ponomarev

Altai State University (Barnaul, Russia)

Построение функциональных зависимостей между наблюдаемыми явлениями представляет собой важное направление современной прикладной математики. Основой таких построений зачастую является статистический массив данных. От качества этих данных напрямую зависит адекватность получаемых моделей. В общем случае приходится выбирать одну из возможных моделей, основываясь на некотором показателе. Однако полученные выборки могут быть и тождественными, но построенные модели будут отличаться.

Рассматривается один из методов построения линейной регрессии — метод наименьших квадратов. Изучается задача об изменении функционала качества регрессионной модели при ортогональном преобразовании исходного множества данных. Дается геометрическая интерпретация самой регрессионной модели и ее функционала качества, а также статистического показателя связи между переменными — коэффициента корреляции. В явном виде представлены формулы, показывающие зависимость между функционалами качества при вращении множества относительно одной из осей координат в дву- и трехмерном пространствах. Основываясь на полученных формулах, приводится алгоритм, позволяющий получать значение функционала качества при любом собственном движении п-мерного пространства.

Ключевые слова: линейная регрессия, метод наименьших квадратов, группа преобразований, выпуклый анализ.

DOI 10.14258/izvasu(2019)4-16

The construction of functional dependencies between the observed phenomena is an important area of modern applied mathematics. The basis of such constructions is often a statistical data array. The adequacy of the models obtained directly depends on the quality of these data. In general, one has to choose one of the possible models, based on a certain indicator. However, the resulting samples may be in some sense identical, but the models constructed will be different.

This paper discusses one of the methods for constructing linear regression — the method of least squares. The problem of changing the quality functional of a regression model under the orthogonal transformation of the initial data set is studied. A geometric interpretation of the regression model itself and its functional quality, as well as the statistical indicator of the relationship between variables — the correlation coefficient, is given. Formulas are shown explicitly showing the relationship between the functionals of quality during rotation of a set relative to one of the axes of coordinates in two- and three-dimensional spaces. Based on the formulas obtained, an algorithm is presented that allows one to obtain the value of the quality functional with any proper movement of n-dimensional space.

Key words: linear regression, ordinary least squares, transformation group, convex analysis.

1. Введение, постановка задачи. В настоящее время одним из самых распространенных методов изучения закономерностей, по статистическим данным, является регрессионное моделирование. Наиболее востребованным способом оценки линейных регрессионных зависимостей яв-

ляется метод наименьших квадратов [1-4]. В литературе оцениваемые этим методом регрессии получили обозначение L . Суть метода наименьших квадратов состоит в нахождении минимального значения квадратов отклонения а2. Эта величина в дальнейшем применяется при оценке различ-

ных статистических показателей, например, дисперсии ошибок регрессии, коэффициента детерминации и т.п. Соответственно изменение значения а2 ведет к пересмотру результатов регрессионного моделирования.

Пусть Кк — ^-мерное евклидово пространство. Пусть О — конечное подмножество точек:

О = {Л ) : г =1,...,Щ ,

которое можно рассматривать как результат N экспериментов.

Задача линейной регрессии заключается в составлении уравнения

х1 = ао + а2 ■ х2 + ... + ак ■ хк, (1)

наилучшим образом аппроксимирующее множество О.

Наиболее изученным подходом к решению этой задачи является метод наименьших квадратов, основная идея которого заключается в минимизации функционала

где

N

а2(х1

(х1 - (ao + a2 • x2 + ... + ak ■ xk))2

аргументом х1 будем подчеркивать тот факт, что результирующей переменной является х1.

Поставим задачу найти форму зависимости между значениями функционалов качества регрессий до и после преобразования исходного множества О.

При решении данной задачи будем опираться на геометрический метод нахождения функционала качества (см. работу [5]). Таким образом, для регрессионной модели (1) значение функционала качества может быть найдено по формуле

a2(x1) = (k!)2

V V.2

(k)! Vil ,...,ik ii,...,ik

1 V V2 '

(k-1)! , Vii,...,ik-i

(2)

ii,...,ik-i

где — ориентированный объем симплекса с

вершинами А^(х11 ,...,хк1), ..., ^(х1кхкк).

2. Преобразования плоскости и пространства. Заметим, что при любом значении k параллельный перенос не меняет объемов всевозможных симплексов, полученных из множества О. Следовательно, значения функционалов качества линейной регрессии меняться не будут, т.е.

Ы,...,хк) ^ (х1 + е1,...,хк + ек) ^

^ а2(х1) = а2(х1 + е1). (3)

Подвергнем множество О вращению и получим

Q':

Ы,...,Уi ) = (х

k) ■ O, det(O) = 1.

В случае k = 2 (плоскость) матрица O = SOS в -ОГ/) • Формулы преобразования функционалов качества доказаны в [6] и имеют вид

1

cos2 в sin2 в

sin2e ■ r(X 1,X2) a2(y1) a2(x1) ' a.2(x2) A/a2(x1) ■ a2(x2), 1 sin2 в cos2 в sin 2в ■ r(X 1,X2)

"+ o7 oT +

a2(y2) a2(x1) ' a2(x2K s/a2(x1) ■ a2(x2)' где r(X1 ,X2) — коэффициент корреляции между

Iх Л

векторами X1 = I : I и X2

\ xN )

В случае k = 3 (трехмерное пространство) рассмотрим вращение относительно какой-нибудь оси координат, например, относительно оси x . Тогда матрица вращения O будет иметь вид

(cos в — sin в 0\ sin в cos в 0 I . 0 0 l)

Следовательно, необходимо рассматривать три регрессионные модели на множестве Q

1 2 3

x¿ = a0 + a2x¿ + a3x¿, x2 = bo + ^x1 + b3x3,

3 12

x¿ = Co + C1 x¿ + C2x¿ ,

с функционалами качества a2(x1), a2(x2) и a2(x3) соответственно. На множестве Q' значения функционалов качества аналогичных регрессий от переменных y станут равны a2(y1), a2(y2) и a2(y3).

Рассмотрим один из статистических показателей связи между случайными переменными.

Определение 1. Коэффициент частной корреляции показывает степень взаимосвязи двух переменных относительно друг друга без учета влияния третьей переменной.

Коэффициент частной корреляции между случайными векторами X1 и X2 без учета влияния X3 может быть вычислен по формуле [7]

r (X 1,X2|X3) =

r(X1, X2) — r(X1, X3) ■ r(X2, X3)

V(1 — r2(X 1,X3)) ■ (1 — r2(X2,X3))'

(4)

Q = {Bi (y¡,...,yk) : г = 1,...,N}

Заметим, что коэффициент частной корреляции можно геометрически интерпретировать как проектирование угла между переменными X1 и X2 в исходном пространстве на ортогональное подпространство с фиксированной переменной X3 [8].

1

Известия АлтГУ. Математика имеханика.2019.№4(108)

Теорема 1. Коэффициент частной корреляции на множестве П может быть найден по формуле

г(X 1,Х2|Х3) = . , (5)

Ео2 . S 2

S1;i:j:m • S2;i,j,m

где Sv.

S2

~ площади треугольников, построенных на точках С\(х1,х3), С^ (х1,х3),

Ст (хт ,хт) и ^г(х2,х3), Dj (х2,х^), ^т (хт,хт)

соответственно.

Доказательство. Подставим вместо коэффициента корреляции в (4) формулу для вычисления корреляции (см. [6]):

V (X¡ - х] )(х2 - xj

i<j

Е(х1 - xi)2 •£ (х2 -

,2)2

= r(X j,X2).

i<j

i<j

Перегруппируем полученное выражение с учетом формулы вычисления площади треугольника с вершинами Pi(xj,x2), Pj (xj,x2) и Pm(x1m,x2m)\

Si,j,m 2 I (xi xj )(x2 + x2 ) +

+ (xj — xm)(x2 + xm) + (xm — xj )(xm + xí}\ .

Получим требуемый результат.

Теорема 2. Функционалы качества линейных регрессионных моделей на множествах Q и Q' связаны равенствами

1 cos2 в sin2 /3 sin 2f3 • r( Xj,X2|X3)

«2(y1) a2(xj) a2(x2) \/a2(xj) • a2(x2)

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

sin2 в cos2 в sin • r(Xj,X2| X3)

+ / o \ +

a2(y2) a2(xj) a2(x2) 11

\/a2(xj) • a2(x2)

a2(y3) a2(x3)'

где r(X1 ,X2| X3) — частный коэффициент корреляции между векторами X1 и X2.

Доказательство. Воспользуемся второй геометрической интерпретацией. Заметим, что при повороте Q относительно оси х3 объемы всевозможных тетраэдров меняться не будут.

Докажем первую формулу. Заметим, что на множестве Q' координаты проекций на плоскость регрессоров будут иметь вид (—xj sin в + х2 cos /3; х3). Тогда сумма квадратов площадей всевозможных треугольников равна

cos2 e £ Sli,j,m + sin2 e £ Sli,jm~

i,j,m

- sin2^ ^ Si;i,j,m • S2;,

i,j,m

Рассмотрим обратное значение функционала качества а2(у1) в представлении (2). т. е. разделим последнее выражение на сумму квадратов объемов всевозможных тетраэдров во множестве П. Первые два слагаемых преобразуются к виду

cos2 в sin2 в

а2(х1) а2(х2)'

Для приведения третьего слагаемого используем следствие из (2):

(3!) £ jl

1

= й</£ S2jm • £ S2jmVa2(xj)a2(x2).

i j m

i j m

Применяем к третьему слагаемому результат теоремы 1 и получаем требуемую формулу.

Справедливость вторая формулы доказывается аналогично с учетом того, что точки проекций будут иметь координаты (xj cos (3 + х2 sin /3; x3).

Для доказательства третьей формулы достаточно заметить, что геометрическая картинка для регрессии не изменится.

Доказательство закончено.

Следствие. Для регрессий на множествах Q и Q' справедливо равенство

11

г+

1

1

1

1

а2 (у1) а2(у2) а2 (у3) а2(х1) а2(х2) а2(х3)'

Справедливость этого утверждения доказывается суммированием равенств из теоремы 2.

3. Заключение и выводы. Известно, что любое вращение в п-мерном пространстве может быть представлено как композиция поворотов вокруг осей координат [9, 10]. Следовательно, для получения значения функционала качества при любом преобразовании множества П достаточно несколько раз последовательно воспользоваться формулами теоремы 2. Явное написание общих формул лишено смысла ввиду большого числа слагаемых.

Любое собственное движение пространства может быть представлено как композиция переноса и вращения. Значит, мы установили закон изменения значения функционала при воздействии группы преобразований п-мерного пространства на множество П.

j

Библиографический список

1. Greene WH. Econometric Analysis. 5th edition. N.Y., 2008.

2. Дрейпер Н, Смит Г. Прикладной регрессионный анализ. Множественная регрессия // Applied Regression Analysis. 3-е изд. М., 2007.

3. Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М., 2010.

4. Amiri-Simkooei A.R., Jazaeri S. Weighted total least squares formulated by standard least squares theory // Journal of Geodetic Science. 2012. V. 2(2).

5. Пономарев И.В., Славский В.В. О геометрической интерпретации метода наименьших квадратов // Известия Алт. гос. ун-та. 2012. № 1-1(73).

6. Пономарев И.В. Геометрические преобразования модели линейной регрессии // Труды семинара по геометрии и математическому моделированию. 2018. №4.

7. Лагутин М.Б. Наглядная математическая статистика. В 2-х т. М., 2003.

8. Кендалл М., Стюарт А. Статистические выводы и связи. М., 1973. Т. 2.

9. Берже М. Геометрия. М., 1984. Т. 1.

10. Шафаревич И.Р., Ремизов А.О. Линейная алгебра и геометрия. М., 2009.

i Надоели баннеры? Вы всегда можете отключить рекламу.