Научная статья на тему 'Интерпретация оценок параметров моделей полносвязной линейной регрессии'

Интерпретация оценок параметров моделей полносвязной линейной регрессии Текст научной статьи по специальности «Математика»

CC BY
27
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
регрессионный анализ / модель полносвязной линейной регрессии / ошибки в переменных / интерпретация / метод максимального правдоподобия

Аннотация научной статьи по математике, автор научной работы — Базилевский Михаил Павлович

Данная работа посвящена исследованию вопросов интерпретации оценок параметров моделей полносвязной линейной регрессии. В таких моделях все наблюдаемые переменные содержат ошибки, а истинные переменные связаны между собой линейными функциональными зависимостями. Частным случаем полносвязной регрессии является хорошо изученная регрессия Деминга. Ранее для оценивания полносвязных регрессий применялся взвешенный метод наименьших полных квадратов. В данной статье установлено, что полученные таким методом оценки полносвязной линейной регрессии совпадают с оценками метода максимального правдоподобия. Выявлено, что интерпретировать полносвязные регрессии по аналогии с множественными регрессиями нельзя, поскольку первые строятся в предположении, что все переменные сильно коррелируют между собой. Доказана теорема, согласно которой одновременное увеличение в оцененной модели полносвязной линейной регрессии значений наблюдаемых переменных на определенные величины приводит к увеличению оценок истинных значений переменных на те же самые величины. С использованием этого факта можно интерпретировать любую модель полносвязной линейной регрессии, что продемонстрировано на примере моделирования таких макроэкономических показателей Иркутской области, как оборот оптовой и розничной торговли, а также продукция сельского хозяйства.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Базилевский Михаил Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Интерпретация оценок параметров моделей полносвязной линейной регрессии»

Интерпретация оценок параметров моделей полносвязной линейной регрессии

М. П. Базилевский

Аннотация—Данная работа посвящена исследованию вопросов интерпретации оценок параметров моделей полносвязной линейной регрессии. В таких моделях все наблюдаемые переменные содержат ошибки, а истинные переменные связаны между собой линейными функциональными зависимостями. Частным случаем полносвязной регрессии является хорошо изученная регрессия Деминга. Ранее для оценивания полносвязных регрессий применялся взвешенный метод наименьших полных квадратов. В данной статье установлено, что полученные таким методом оценки полносвязной линейной регрессии совпадают с оценками метода максимального правдоподобия. Выявлено, что интерпретировать полносвязные регрессии по аналогии с множественными регрессиями нельзя, поскольку первые строятся в предположении, что все переменные сильно коррелируют между собой. Доказана теорема, согласно которой одновременное увеличение в оцененной модели полносвязной линейной регрессии значений наблюдаемых переменных на определенные величины приводит к увеличению оценок истинных значений переменных на те же самые величины. С использованием этого факта можно интерпретировать любую модель полносвязной линейной регрессии, что продемонстрировано на примере моделирования таких макроэкономических показателей Иркутской области, как оборот оптовой и розничной торговли, а также продукция сельского хозяйства.

Ключевые слова—регрессионный анализ, модель полносвязной линейной регрессии, ошибки в переменных, интерпретация, метод максимального правдоподобия.

I. Введение

При проведении регрессионного анализа игнорирование ошибок в объясняющих (входных) переменных может приводить к получению неверных выводов, основанных на вычисленных оценках параметров модели [1]. Поэтому вместо так называемой наивной схемы, когда, например, модель множественной линейной регрессии без ошибок в объясняющих переменных оценивается с помощью метода наименьших квадратов или модулей, следует использовать методы оценивания моделей с ошибками во всех переменных (errors-in-variables models, EIV-модели) [2,3]. Зачастую под спецификацией таких моделей понимают зависимость объясняемой (выходной) переменной от одной или нескольких объясняющих переменных. В работах [4,5] автором

Статья получена 14 июля 2023.

Базилевский Михаил Павлович, Иркутский государственный университет путей сообщения, Иркутск, Российская Федерация (е-шай: mik2178@yandex.ru).

* ( x, ) Xj = x* +s}J>,

предложена новая форма Б1У-моделей - модель полносвязной линейной регрессии (МПЛР) вида:

I = 1, п , у = 1, т , (1)

х* = ау + Ьух'т, у = 1,т -1, (2)

где п - объем выборки; т - количество взаимосвязанных переменных; ху - г -е значение у -й

наблюдаемой переменной; х* - неизвестное г -е

значение у -й истинной переменной; ау, Ьу, у = 1, т -1

- неизвестные параметры; е\х' ^ - г -я ошибка у -й

наблюдаемой переменной. МПЛР обобщает часто применяемую в клинической химии регрессию Деминга [6,7].

Таким образом, в полносвязной регрессии (1), (2) все взаимосвязанные переменные содержат ошибки, а все пары истинных переменных связаны между собой линейными функциональными зависимостями. Из этого следует, что модели (1), (2), в отличие от моделей множественной линейной регрессии, целесообразно применять при сильной корреляции всех переменных в выборке.

Возникает вопрос, как оценивать и интерпретировать МПЛР? Можно ли проводить интерпретацию таким же образом, как и в моделях множественной линейной регрессии? Данная статья в первую очередь посвящена поиску ответов на эти вопросы.

II. Оценка МПЛР методом максимального

ПРАВДОПОДОБИЯ

В [4,5] для оценки МПЛР применяется взвешенный метод наименьших полных квадратов. В данной работе применим для оценки МПЛР метод максимального правдоподобия [8,9].

Пусть е\^, г = 1, п , у = 1, т - случайные величины,

распределенные по нормальному закону с нулевыми математическими ожиданиями и постоянными

дисперсиями, т.е.

■N

( СТ

Тогда функция правдоподобия

следующий вид:

(

m -1

*=п

п

=1 ст ,

exp

i = 1, n , j = 1, m . L будет иметь

(Xj - aj - bjx'm )

exp

( Xm - ХШ )

2 Л A

2ст

(xm )

yj

Следовательно, можно записать логарифмическую функцию правдоподобия:

, , т nm, „ n, / 2 2 \

/ = InL = —1п2п-2"1п(сты •...-ст^))-

V1 m-1 (xij - aj - bjxm ) ST (xim - xm )

2ст2,

2ст2

причем, °}xj}=j; ст„Ы

функция (3) будет иметь вид:

nm, „ n l =--1п2п —

m 1пст ы ) +

m-1 1

1n П }

j=1 h)

1 n m-1 2

"CT" YLXJ ( xj - aj - jim ) -

2СГ (x ) ,=1 ,=1

(xm ) <=1 j =1 1

2ст'

Ë( xim - Am )

^ max.

(4)

(xm ) • = 1

оценку параметра ст

1

„(xm )

nm

j1 =1 j2 = j +1 i m-1 \ (m-1

j =1

/

Л

(7)

1 + Т У2рХхх + Кхх ,Р = 1, т-1, V 1 = 1 /V . = 1 /

где символом Ц обозначены дисперсии, а К -ковариации переменных. Численный метод решения

системы (7) подробно описан в [11]. В результате решения будут найдены оценки Ъ1, Ъ2, ..., Ът-1 параметров Ъ1, Ъ2, ..., Ът-1.

'= ' 1 = х.) ' = 1 хт)

Предположим, что известны весовые коэффициенты 2. > 0, у = 1, т -1, для взаимосвязанных переменных,

2. По формулам а. = х -Ъ. ■ хт , у = 1, т -1, определяются оценки параметров а1, а2, ..., ат-1.

3. Вычисляются оценки истинных значений переменной хт по формулам

х1 = А + А1 х,1 + А2х,-2 + ... + АтХт , ' = 1 П , (8)

j = 1, m -1. Тогда целевая

-^Äjajbj

где А0 = ■

j=1

А =-

1

m-1 ' m m-1 ' j m-1

Г2 1 I 1 Ü2 Ii 1 U 2

1

1

Aj=■

1

j=1

j=1

j=1

Вычислив частную производную функции (4) по переменной а2, ) и приравнивая её к нулю, получим

1 = 1, т -1.

Тогда оцененная полносвязная регрессия представляет собой множество взаимосвязей между всеми возможными парами переменных:

х* = + Ъ.хт , у = 1т -1, (9)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где значения переменной х"т находятся по формуле (8). Выражения (9) можно представить в виде:

т. (10)

b1

bm-1

YYx (xv -aj -ЬЛ) +Y(-xim) I. (5)

V '=i j =1 i=1 )

Подставляя оценку (5) в выражение (4), отбрасывая постоянные члены и логарифмы и меняя знак целевой функции, получим:

n m-1 2 n 2

LLÄj (xij - aj - bjx'm ) +L( xim - x*m ) ^ min. (6)

1=1 j=1 i=1

Таким образом, для МПЛР оценки взвешенного метода наименьших полных квадратов, применяемого в [4,5], совпадают с оценками метода максимального правдоподобия.

III. Интерпретация МПЛР Переменная x'm в правой части равенств (2) называется связующей. В [10] доказана теорема, согласно которой выбор связующей переменной в полносвязной регрессии (1), (2) не влияет на решение оптимизационной задачи (6). Если в задаче (6) коэффициенты Xj известны, то

оценки полносвязной регрессии находятся по следующему алгоритму [4]. 1. Численно решается нелинейная система

' m-1

bP Dx. +

V j=1

m-2 m-1 m-1 Л

+2Y Y x. Ä.b.b.K + гУхьх

¿—t ¿—t j1 j2 j1 j2 xлxj2 ¿—t j j x,x,

По в^1ражению (10) можно сделать вывод, что при оценивании полносвязной регрессии строится уравнение прямой в пространстве, в отличие от множественной регрессии, при оценивании которой строится гиперплоскость в пространстве. Этим же объясняется и то, что для построения полносвязной регрессии достаточно всего двух разных точек т -мерного пространства.

В [11] для измерения суммарного аппроксимационного качества полносвязной регрессии введен аддитивный коэффициент детерминации

т

^м =£ К2., (11)

1=1

где - коэффициент детерминации парной линейной

регрессии х* от х.. Чем ближе значение Яш к т , тем меньше разница между всеми наблюдаемыми и оцененными истинными переменными. Если Л^м ^ т, то это означает, что все пары наблюдаемых переменных х1 , х2 , ... , хт связаны между собой практически линейными функциональными зависимостями.

В той же работе установлено, что значение аддитивного коэффициента детерминации (11) будет максимальным тогда, когда коэффициенты 2. в задаче (6) будут назначены как отношения дисперсий переменных, т.е. 2= Бх ¡Б>х , Х2 = Бх /Ц^ , ...,

2т-! = Бхт/Цхт_1.

Очевидно, что при сильной корреляции всех переменных оценки Ъ1, Ъ2, ..., Ът-1 будут близки к МНК-оценкам соответствующих парных регрессий, а значит, знаки этих оценок будут согласованы со знаками соответствующих коэффициентов корреляции, т.е. будут

справедливы неравенства А^ ■ гхх > 0, ] = 1, т _1. На

этой основе в [11] разработан метод выпрямления искаженных коэффициентов (МВИК). Его суть состоит в том, чтобы сначала с использованием сильно коррелирующих переменных х1, х2, ..., хт оценить полносвязную регрессию, а потом с помощью МНК оценить парную регрессию:

у=со+с1хт+&, '=1п, (12)

где с0, с1 - неизвестные параметры; ^ - г -я ошибка аппроксимации.

Пусть оцененная модель (12) имеет вид у = с0 + с1хт. Тогда, используя (8), перепишем это уравнение в виде

У = 00 + 0 Х1 +вгХ2 + ... + втХт , (13)

где 00 = Со + С Ао, 0 = С1 А], ] = 1, т .

В [11] показано, что при сильной корреляции переменных х1, х2, ..., хт с у знаки коэффициентов

0], ] = 1,т, в уравнении (13) согласуются со знаками

коэффициентов корреляции гух , т.е. справедливы

неравенства 0) ■ гух > 0 , ] = 1, т.

С помощью МВИК в работах [10, 11] успешно решены прикладные задачи и построены регрессионные уравнения (13). Но при этом их интерпретация никогда не проводилась.

Оценки а], ] = 1, т, множественной регрессии традиционно интерпретируются следующим образом: при увеличении переменной х ] на 1 единицу (при неизменных значениях остальных переменных) значение переменной у увеличится в среднем на а] единиц. Использовать такую интерпретацию для коэффициентов 0], ] = 1, т, уравнения (13) сомнительно, поскольку оно строилось в предположении, что все пары переменных Х , х2, ..., хт сильно коррелируют между собой. Из-за полносвязности всех переменных изменение любой из них должно приводить к изменениям всех остальных. Используя взаимосвязи (9), можно дать такую интерпретацию: с увеличением переменной хт на 1 единицу переменная Х[ увеличится на Ь1 единиц, переменная х2 - на Ь2 единиц, ..., переменная у - на с1 единиц. Однако такая интерпретация не может быть в полной степени удовлетворительной, поскольку основана на манипуляциях с латентными переменными х1* , х2* , ... , хт* , которые изначально и вовсе не наблюдались. Больший интерес естественно вызывает интерпретация влияния исходных, наблюдаемых переменных х1, х2, ..., хт на истинные. Ответ на вопрос, как можно провести такую интерпретацию, дает следующая теорема.

Теорема. Одновременное увеличение в оцененной модели полносвязной линейной регрессии (2), (3) значений исходных переменных х1, х2, ..., хт-1 и хт на

к■ Ь1, к■ Ь2, ..., к■ Ьт1 и к единиц соответственно, где к - любое отличное от нуля число, приводит к

увеличению оценок истинных значении переменных xl

Доказательство. Пусть переменные х1, х2, ..., хт принимают значения х10 , х20 , ... , хт0 соответственно. Тогда в этой точке оценка истинного значения переменной хт по формуле (8):

хт = А0+А1х1°+А2х:! +...+Атхт.

Теперь увеличим значение переменной х1 с х10 до

(х° + кЬ1) , х2 - с х° до (х° + кЬ2), ..., хт-1 - с х°т-1 до

(х0т_1 + кЬт_1), хт - с х°т до (х0т + к). Тогда в этой точке оценка истинного значения переменной хт по формуле (6):

хт = Л + А, (х0 + Щ) + А2 (х° + кЬ2) +... + Ат (хт + к) =

= А0 + А х0 + А2 х° +... + Атх0т + АЩ + А.Щ +... + Атк =

~*0 , ; = х„ + к

КК

К2Ъ2

-Ъ2 +... +

j=1

j=1

+ Km-lbm-1 Ъ +_

Т m-1 Um-1 Т

1

~*0 . 7

= х + к .

]=1 ]=1 Это означает, что с увеличением значений переменных х, х2, ..., хт-1 и хт на кЬ1, кЬ2, ..., кЬт-1 и к единиц

соответственно оцененная истинная переменная хт увеличится на к единиц. Как следует из (9), такое увеличение приведет к увеличению переменных х1 , х2 , ..., х;_1 на кЬ1, кЬ2, ..., кЬт-1 единиц соответственно.

Теорема доказана.

Из теоремы следует, что если, например, значения исходных переменных х1, х2, ..., хт-1 и хт увеличатся

одновременно на Ь1, Ь2, ..., Ьт-1 и 1 единицу соответственно, то значение переменной у увеличится в среднем на с1 единиц.

IV. Пример

Для демонстрации предложенного способа интерпретации полносвязных регрессий были использованы ежегодные статистические данные за период с 2000 по 2021 годы по следующим показателям Иркутской области: х - продукция сельского хозяйства (млн руб.); х2 - оборот розничной торговли (млн руб.); х3 - оборот оптовой торговли (млн руб.). Коэффициенты корреляции этих переменных составляют г = 0,989, г = 0,9835, г = 0,9868,

х1х2 х1хз х2 хз

что говорит о наличии весьма тесной линейной зависимости между ними. Это значит, что не выполняется условие применимости модели

х2, ..., хm-1, xm на те же самые величины.

x = 12701,131 + 0,0694x3, x* = 54768,88 + 0,428x**,

множественной линейной регрессии, но выполняется условие применимости полносвязной регрессии.

Найденные по формулам 2 = Ц^/Ц^ , 2 = Ц^/Ц^ ,

соотношения дисперсий ошибок переменных составили 2 = 208,032 , 22 = 5,479 . С их помощью численно была оценена МПЛР:

(14)

(15)

хз* = -103743 + 4,8х1 + 0,78х2 + 0,333х3. (16)

Таким образом, произошла связка всех пар переменных, чего невозможно добиться при использовании независимых моделей парной линейной регрессии.

Тогда оцененной модели (14) - (16) можно дать следующую интерпретацию: в регионе одновременно с увеличением оборота оптовой торговли х3 на 1 млн руб. продукция сельского хозяйства х1 увеличивается в среднем на 69400 руб., а оборот розничной торговли х2 - на 428000 руб. Интерпретировать оценки уравнения (16) так, как это делается для уравнения множественной регрессии, нельзя. Даже несмотря на то, что знаки этих оценок согласуются со знаками соответствующих коэффициентов корреляции.

[6] Ciccione L., Dehaene S. Can humans perform mental regression on a graph? Accuracy and bias in the perception of scatterplots // Cognitive Psychology. 2021. Vol. 128. P. 101406.

[7] Vicente F.B., Lin D.C., Haymond S. Automation of chromatographic peak review and order to result data transfer in a clinical mass spectrometry laboratory // Clinica Chimica Acta. 2019. Vol. 498. P. 84-89.

[8] Karvonen T., Oates C.J. Maximum likelihood estimation in Gaussian process regression is ill-posed // Journal of Machine Learning Research. 2023. Vol. 24. No. 120. P. 1-47.

[9] Correia S., Guimaraes P., Zylkin T. Verifying the existence of maximum likelihood estimates for generalized linear models // arXiv preprint arXiv:1903.01633. 2019.

[10] Базилевский М.П. Исследование поведения относительных вкладов переменных в общую детерминацию в оцененном на основе метода выпрямления искаженных коэффициентов регрессионном уравнении // Вестник СибГУТИ. 2022. № 1 (57). С. 89-96.

[11] Базилевский М.П. Метод выпрямления искаженных из-за мультиколлинеарности коэффициентов в регрессионных моделях // Информатика и её применения. 2021. Т. 15. N° 2. С. 60-65.

[12] Molnar C. Interpretable machine learning. - Lulu.com, 2020.

Базилевский Михаил Павлович, к.т.н., доцент кафедры математики

Иркутского государственного университета путей сообщения,

Иркутск, Россия; (e-mail: mik2178@yandex.ru)

V. Заключение

Статья посвящена актуальному научному направлению - интерпретируемому машинному обучению [12]. В работе показано, что оценки моделей полносвязной линейной регрессии, полученные взвешенным методом наименьших квадратов, совпадают с оценками метода максимального правдоподобия. Установлено, что полносвязные регрессии нельзя интерпретировать по аналогии с их множественными аналогами. Доказано, что одновременное увеличение в оцененной модели полносвязной линейной регрессии значений наблюдаемых переменных на к■ Ъ1, к■ Ъ2, ..., к■ Ът-1 и к единиц соответственно приводит к увеличению оценок истинных значений переменных на те же самые величины. Тем самым можно интерпретировать любую полносвязную регрессию.

Библиография

[1] Carrasco J.M., Figueroa-Zuniga J.I., Leiva V., Riquelme M., Aykroyd R.G. An errors-in-variables model based on the Birnbaum-Saunders distribution and its diagnostics with an application to earthquake data // Stochastic Environmental Research and Risk Assessment. 2020. Vol. 34. No. 2. P. 369-380.

[2] Nghiem L.H., Byrd M.C., Potgieter C.J. Estimation in linear errors-in-variables models with unknown error distribution // Biometrika. 2020. Vol. 107. No. 4. P. 841-856.

[3] Han J., Zhang S., Li Y., Zhang X. A general partial errors-in-variables model and a corresponding weighted total least-squares algorithm // Survey Review. 2020. Vol.52. No. 371. P. 126-133.

[4] Базилевский М.П. Методы построения регрессионных моделей с ошибками во всех переменных. Иркутск : ИрГУПС, 2019. 208 с.

[5] Базилевский М.П. Многофакторные модели полносвязной линейной регрессии без ограничений на соотношения дисперсий ошибок переменных // Информатика и её применения. 2020. Т. 14. № 2. С. 92-97.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Interpretation of Parameter Estimates for Fully connected Linear Regression Models

M. P. Bazilevskiy

Abstract— This article is devoted to the study of interpretation questions of parameter estimates for fully connected linear regression models. In such models, all observed variables contain errors, and true variables are interconnected by linear functional dependencies. A special case of fully connected regression is the well-studied Deming regression. Previously, a weighted total least squares method was used to estimate fully connected regressions. In this article, it is established that the estimates of fully connected linear regression obtained by this method coincide with the estimates of the maximum likelihood method. It was found that it is impossible to interpret fully connected regressions by analogy with multiple regressions, since the former are construct on the assumption that all variables are strongly correlated with each other. A theorem is proved according to which a simultaneous increase in the values of the observed variables in the estimated model of a fully connected linear regression by certain values leads to an increase in the estimates of the true values of the variables by the same values. Using this fact, any model of fully connected linear regression can be interpreted, which is demonstrated by the example of modeling such macroeconomic indicators of the Irkutsk region as the turnover of wholesale and retail trade, as well as agricultural products.

Keywords—regression analysis, fully connected linear regression model, errors in variables, interpretation, maximum likelihood method.

References

[1] Carrasco J.M., Figueroa-Zuniga J.I., Leiva V., Riquelme M., Aykroyd R.G. An errors-in-variables model based on the Birnbaum-Saunders distribution and its diagnostics with an application to earthquake data // Stochastic Environmental Research and Risk Assessment. 2020. Vol. 34. No. 2. P. 369-380.

[2] Nghiem L.H., Byrd M.C., Potgieter C.J. Estimation in linear errors-in-variables models with unknown error distribution // Biometrika. 2020. Vol. 107. No. 4. P. 841-856.

[3] Han J., Zhang S., Li Y., Zhang X. A general partial errors-in-variables model and a corresponding weighted total least-squares algorithm // Survey Review. 2020. Vol.52. No. 371. P. 126-133.

[4] Bazilevskiy M.P. Metody postroeniya regressionnykh modeley s oshibkami vo vsekh peremennykh. Irkutsk : IrGUPS, 2019. 208 p.

[5] Bazilevskiy M.P. Mnogofaktornye modeli polnosvyaznoy lineynoy regressii bez ogranicheniy na sootnosheniya dispersiy oshibok peremennykh // Informatika i ee primeneniya. 2020. Vol. 14. No. 2. P. 9297.

[6] Ciccione L., Dehaene S. Can humans perform mental regression on a graph? Accuracy and bias in the perception of scatterplots // Cognitive Psychology. 2021. Vol. 128. P. 101406.

[7] Vicente F.B., Lin D.C., Haymond S. Automation of chromatographic peak review and order to result data transfer in a clinical mass spectrometry laboratory // Clinica Chimica Acta. 2019. Vol. 498. P. 84-89.

[8] Karvonen T., Oates C.J. Maximum likelihood estimation in Gaussian process regression is ill-posed // Journal of Machine Learning Research. 2023. Vol. 24. No. 120. P. 1-47.

[9] Correia S., Guimaraes P., Zylkin T. Verifying the existence of maximum likelihood estimates for generalized linear models // arXiv preprint arXiv:1903.01633. 2019.

[10] Bazilevskiy M.P. Issledovanie povedeniya otnositel'nykh vkladov peremennykh v obshchuyu determinatsiyu v otsenennom na osnove metoda vypryamleniya iskazhennykh koeffitsientov regressionnom uravnenii // Vestnik SibGUTI. 2022. No. 1 (57). P. 89-96.

[11] Bazilevskiy M.P. Metod vypryamleniya iskazhennykh iz-za mul'tikollinearnosti koeffitsientov v regressionnykh modelyakh // Informatika i ee primeneniya. 2021. Vol. 15. No. 2. P. 60-65.

[12] Molnar C. Interpretable machine learning. - Lulu.com, 2020.

Bazilevskiy Mikhail Pavlovich, Ph.D., Associate Professor of the Department of Mathematics, Irkutsk State Transport University, Irkutsk, Russia; (e-mail: mik2178@yandex.ru)

i Надоели баннеры? Вы всегда можете отключить рекламу.