ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
Научная статья
УДК 519.654:519.2:519.862.6
doi: 10.34822/1999-7604-2022-4-69-76
ОЦЕНКА МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ ПРОСТЕЙШИХ НЕЭЛЕМЕНТАРНЫХ ЛИНЕЙНЫХ РЕГРЕССИЙ С ЛИНЕЙНЫМ АРГУМЕНТОМ
В БИНАРНОЙ ОПЕРАЦИИ
Михаил Павлович Базилевский
Иркутский государственный университет путей сообщения, Иркутск, Россия [email protected], https://orcid.org/0000-0002-3253-5697
Аннотация. Простейшая неэлементарная линейная регрессионная модель содержит две объясняющие переменные, преобразованные с помощью бинарной операции минимум или максимум, и один из аргументов бинарной операции в таких моделях содержит только угловой коэффициент. Проведено исследование неэлементарных линейных регрессий, в которых аргумент бинарной операции содержит как единичный угловой коэффициент, так и свободный член. На основе алгоритма приближенной оценки методом наименьших квадратов неэлементарных линейных регрессий разработан алгоритм оценки неэлементарной линейной регрессии, содержащей в аргументе бинарной операции и угловой коэффициент, и свободный член. Предложенные алгоритмы были реализованы на языке программирования hansl пакета gretl в виде программы, с помощью которой решена задача моделирования железнодорожных грузовых перевозок в Тюменской области. Построены традиционная линейная регрессия и три разновидности неэлементарной линейной регрессии: с угловым коэффициентом в аргументе бинарной операции, с единичным угловым коэффициентом и свободным членом, с угловым коэффициентом и свободным членом. Предложенные в работе неэлементарные модели со свободным членом в бинарной операции на практике оказались лучше, чем их известный аналог.
Ключевые слова: неэлементарная линейная регрессия, метод наименьших квадратов, угловой коэффициент, свободный член, бинарная операция, интерпретация
Для цитирования: Базилевский М. П. Оценка методом наименьших квадратов простейших неэлементарных линейных регрессий с линейным аргументом в бинарной операции // Вестник кибернетики. 2022. № 4 (48). С. 69-76. DOI 10.34822/1999-7604-2022-4-69-76.
Original article
ORDINARY LEAST SQUARES ESTIMATION OF SIMPLE NON-ELEMENTARY LINEAR REGRESSIONS WITH A LINEAR ARGUMENT
IN A BINARY OPERATION
Mikhail P. Bazilevsky
Irkutsk State Transport University, Irkutsk, Russia [email protected], https://orcid.org/0000-0002-3253-5697
Abstract. The simple non-elementary linear regression model contains two explanatory variables transformed by a minimum or maximum binary operation. One of the arguments of a binary operation in such models contains only the slope. Non-elementary linear regressions, in which the argument of a binary operation contains both the unit slope and intercept, are studied. Based on the algorithm of approximate estimation by ordinary least squares for non-elementary linear regressions, an algorithm for estimating a non-elementary linear regression, in which the argument of a binary operation contains the slope and intercept,
is developed. The proposed algorithms were implemented as a program that solves the modeling problem for railway freight traffic in Tyumen Oblast using hansl, a scripting language from the gretl package. A classical linear regression and three options of non-elementary linear regression (with the slope in the argument of a binary operation, the unit slope and intercept, and the slope and intercept) were constructed. The proposed non-elementary models with the intercept in a binary operation were found to be more efficient than their well-known alternatives.
Keywords: non-elementary linear regression, ordinary least squares method, slope, intercept, binary operation, interpretation
For citation: Bazilesky M. P. Ordinary Least Squares Estimation of Simple Non-Elementary Linear Regressions with a Linear Argument in a Binary Operation // Proceedings in Cybernetics. 2022. No. 4 (48). P. 69-76. DOI 10.34822/1999-7604-2022-4-69-76.
ВВЕДЕНИЕ
Для проведения регрессионного анализа [1, 2] разработано значительное количество различных известных структурных спецификаций регрессионных моделей [3], применяемых при решении прикладных задач анализа данных. Одновременно идет поиск новых регрессионных зависимостей, более совершенных форм связи между переменными, и актуальным научным направлением сегодня является построение интерпретируемых моделей машинного обучения [4, 5].
Методы построения нечетких регрессионных моделей активно развиваются, например: в [6] представлен новый подход для оценки параметров модели нечеткой регрессии; в [7] рассмотрена нечеткая регрессия с интервальными значениями и предложена новая унифицированная методология работы с моделями нечеткой регрессии, в [8] представлен нечеткий линейный метод наименьших квадратов (МНК); в [9] исследуются вопросы оценивания нечетких регрессионных моделей с помощью метода наименьших модулей (МНМ).
Широкое распространение получили так называемые кусочно-линейные регрессионные модели [10], оценка которых осуществляется с помощью МНМ, например, для моделирования объемов перевозок пассажиров железнодорожным транспортом [11]. В [12] предложена кусочно-линейная авторегрессионная модель произвольного порядка для расчета обеспеченности жильем в Иркутской области. В [13] исследована кусочно-линейная регрессия с интервальной неопределенностью для зависимой переменной.
В [14] рассмотрены простейшие неэлементарные линейные регрессии (НЛР), состоя-
щие из двух объясняющих переменных, оцениваемых с помощью МНК, а в [15] понятие НЛР было обобщено на случай многих переменных. В общем случае, НЛР содержит в себе не только объясняющие переменные, но и все возможные комбинации их пар, преобразованные с помощью бинарных операций минимум и максимум. Тем самым НЛР есть обобщение линейных регрессий. Для выбора наиболее информативных регрессоров в НЛР было предложено две стратегии, требующие реализации переборных процедур [16], а в [17] задача выбора оптимальной структуры НЛР сведена к задаче частично-бу-левого линейного программирования и продемонстрированы высокие интерпретационные способности НЛР. В работах [14-17] в НЛР один из аргументов бинарных операций содержит только угловой коэффициент при объясняющей переменной.
Цель данной работы заключается в разработке алгоритма оценки МНК обобщенных простейших НЛР, в которых один из аргументов бинарной операции представляет собой линейную функцию, т. е. содержит как угловой коэффициент, так и свободный член.
МАТЕРИАЛЫ И МЕТОДЫ
В работе [14] рассмотрена простейшая НЛР вида:
yt = а0 + а1 min {xü, kxi2} + ег, i = 1, n,
(1)
где п - объем выборки; у, / = 1, п - значения зависимой (объясняемой) переменной у; хл > 0, хп > 0, I = 1, п - значения независимых (объясняющих) переменных х и х2; а0,
а, к - неизвестные параметры; е., / = 1,п -ошибки аппроксимации.
Модель (1) нелинейна по параметрам. Но если придать параметру к определенное значение, то она становится линейной, и оценки параметров а0 и а можно легко идентифицировать, например, по известным формулам для МНК.
В [1] установлена область возможных значений параметра к. Для этого сначала определяется область его значений, при которых НЛР (1) трансформируется в обычную парную линейную регрессию у от х1. В этом случае нужно решить систему линейных неравенств:
— кхп,
Х21 — кх22, Хп1 — кхп 2-
Решение этой системы можно записать в виде:
к > ктх,
где ктах = тах {^ Х21,..., ^} .
[ Х12 Х22 Хп 2 ]
Аналогично для определения области значений параметра к , при которых НЛР (1) трансформируется в парную линейную регрессию у от х2, решается система неравенств:
Х11 — кХ12, Х21 — kx22,
Xn1 — kxn 2 •
Она имеет решение:
к <
где ктт = min ^ ^ \.
x„
„ Х12 Х22
п2 ,
Разбивая этот отрезок достаточно большим числом точек, вычисляя в каждой точке МНК-оценки параметров а0, а и выбирая уравнение, для которого сумма квадратов ошибок минимальна, можно получить НЛР, МНК-оценки которой практически не отличаются от оптимальных.
Модель (1) можно назвать НЛР только с угловым коэффициентом к в бинарной операции. Стоит отметить, что вместо бинарной операции min в НЛР (1) можно использовать бинарную операцию max.
Введем в рассмотрение НЛР со свободным членом b и единичным угловым коэффициентом в бинарной операции:
а + а min {Xi, xi2 + b} + S;, i = 1, n. (2)
МНК-оценки неизвестных параметров НЛР (2) можно найти точно по такому же алгоритму, что и для НЛР (1). Для этого сначала определим область возможных значений параметра Ь.
Если НЛР (2) трансформируется в обычную парную регрессию у от х, то справедливы условия:
Xjj < Х^ 2 Ь, Х21 < Х22 + Ь,
Тогда оптимальная оценка параметра к в НЛР (1) принадлежит отрезку [kmin, kmax ].
Хп 1 < Хп2 + b
Решением такой системы линейных неравенств будет промежуток:
b > b ,
max 5
где bmax = maX {X11 - X12. X21 - X22 — X„1 - X„2 } .
Если же НЛР (2) трансформируется в парную регрессию y от x2, то выполняются условия:
Х11 — Х12 + b, Х21 — Х22 + Ь,
Хп 1 — Хп 2 + К
<
<
откуда:
где ¿min = min{xu -xu,x2l -x22,...,xnl -xn2}.
Из этого следует, что оптимальная оценка параметра b в НЛР (2) принадлежит отрезку [bmin, bmax ]. Тогда для нахождения близких
к оптимальным МНК-оценкам параметров НЛР (2) можно воспользоваться следующим алгоритмом:
1. Разбить отрезок [bmin, bmax ] максимальным количеством точек.
2. В каждой точке и на концах отрезка с помощью МНК определить оценки параметров а0 и а НЛР (2).
3. Выбрать точку, в которой сумма квадратов ошибок НЛР (2) минимальна.
Теперь введем в рассмотрение НЛР со свободным членом b и угловым коэффициентом к в бинарной операции:
у = а0 + а1 min {xn, kxl2 + b} + sl, i = 1, n. (3)
Понятно, что если b = 0, то НЛР (3) вырождается в НЛР (1), а если к = 1, то в НЛР (2). К сожалению, из-за того что степень нелинейности НЛР (3) выше, чем у моделей (1) и (2), определить аналитически в какую область попадают оптимальные оценки ее параметров к и b не представляется возможным. Однако можно сформулировать следующий алгоритм МНК-оценивания НЛР (3), гарантирующий получение модели с величиной суммы квадратов ошибок, не большей, а зачастую меньшей, чем у НЛР (1) и (2):
1. Выбрать область изменения параметра к так, чтобы она включала в себя и промежуток [kmin,kmax], и единицу. Разбить получен-
ный отрезок , к2 ] максимальным количеством точек.
2. В каждой ^ -й точке и на концах отрезка [кх, к2 ] определить границы возможных значений параметра Ь по формулам
Ьз,тп = тЦхп - к^г, Х21 - КХ22> Хп1 - КХп2 } и Ьз,тах = тах{х11 - каХ12, Х21 - киХ22, •", Хп1 - киХп2} .
В результате для каждой з -й точки отрезка [ктп, ктах ] будет сформирован отрезок
^Ь5,тт , Ьз,тах ] .
3. Разбить з -й отрезок [Ьзт]п, Ьзтах ] максимальным количеством точек.
4. В каждой точке и на концах отрезков
[Ьз>т1п, Ьзтах ] с помощью МНК определить оценки параметров а0 и а НЛР (3).
5. Выбрать оценки параметров к и Ь , при которых сумма квадратов ошибок НЛР (3) минимальна.
РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ
Предложенные в работе алгоритмы МНК-оценивания НЛР были реализованы на языке программирования Ьапв1 эконометрического пакета §ге1;1 в виде программы для решения задачи моделирования железнодорожных грузовых перевозок в Тюменской области. Для этого были использованы ежегодные статистические данные (источник -https://rosstat.gov.ru/) за период с 2011 по 2020 гг. по следующим переменным:
у - отправление грузов железнодорожным транспортом общего пользования (млн т);
Х - производство электроэнергии (млрд кВт*ч);
х2 - продукция сельского хозяйства (млн руб.).
Данные приведены в табл. 1.
Таблица 1
Статистические данные
Год У Х1 Х2
2011 24,5 101,0 58 660,2
2012 26,4 102,7 56 125,2
2013 30,5 108,1 58 853,2
2014 34,2 109,8 67 110,7
2015 40,6 109,2 70 657
Окончание табл. 1
Год У Х1 Х2
2016 40,2 110,6 74 486,2
2017 38,4 108,2 76 715,6
2018 37,7 108,79 77 793
2019 37,7 110,63 8 3037
2020 38,2 101,2 87 514
Примечание: составлено автором.
Оцененная по этим данным с помощью МНК традиционная модель множественной линейной регрессии имеет вид:
у = -63,8402 + 0,6724х1 + 0,0003758х2. (4)
Коэффициент детерминации Я2 модели (4) составил 0,848594, что подтверждает ее адекватность.
Затем с помощью МНК численно оценивалась НЛР (1). Область возможных значений параметра к составила [0,001156, 0,001837]. Число разбиений этого отрезка задавалось равным 100. График зависимости коэффициента детерминации Я2 оцениваемой модели от величины к представлен на рис. 1.
Рис. 1. График зависимости Я от к для неэлементарной линейной регрессии (1)
Примечание: составлено автором.
Как видно по рис. 1, максимальное значение 0,854667 коэффициент детерминации R2 достигает только в одной точке k = 0,001527, в которой НЛР (1) имеет вид:
v = -21,4316 + 0,5 544 min {xj, 0,001527х2}. (5 )
Таким образом, по величине R2 НЛР (5) оказалась незначительно лучше, чем линейная регрессия (4).
В кусочно-заданной форме НЛР (5) имеет вид:
У =
-21,4316 + 0,5544x, при x < 0,001527,
-21,4316 + 0,000846x2, при -1 > 0,001527.
Из этого следует, что при переключении функций в НЛР (5) угловые коэффициенты при переменных различны, а свободный (-21,4316) постоянен. При этом переключение осуществляется в зависимости от вели-
Х1
чины относительного показателя — .
X,
2
После чего с помощью МНК численно оценивалась НЛР (2). Область возможных значений параметра Ь составила [-87412,8, -56022,5]. Число разбиений этого отрезка задавалось равным 100. График зависимости коэффициента детерминации Я2 оцениваемой модели от величины Ь представлен на рис. 2.
x
2
Рис. 2. График зависимости К от Ь для неэлементарной линейной регрессии (2)
Примечание: составлено автором.
Как видно по рис. 2, максимальное значение 0,906492 коэффициент детерминации Я2 достигает только в одной точке Ь = -70629,87, в которой НЛР (2) имеет вид:
V = 38,5499 + 0,0009тт{х1,х2 -70629,87}. (6)
В результате по величине Я2 НЛР (6) оказалась гораздо лучше как линейной регрессии (4), так и НЛР (5).
В кусочно-заданной форме НЛР (6) имеет вид:
У = '
13 8,5499 + 0,0009Xj, прих2 - х > 70629,87, 1-25,017 +0,0009х2, прих2-х <70629,87.
у = 30,25+ 0,077467 min {x,0,011768x2 -722,3053}.
(7)
По величине Я2 НЛР (7) оказалась лучшей из всех оцененных моделей.
В кусочно-заданной форме НЛР (7) имеет вид:
У =
30,25 + 0,077467x,
прих < 0,011768х -722,3053,
-25,7048 + 0,000911х2,
при х > 0,011768х -722,3053.
Из этого следует, что при переключении функций в НЛР (6) свободные члены различны, а угловой коэффициент при переменных (0,0009) постоянен. При этом переключение осуществляется в зависимости от величины абсолютного показателя х2 - х.
Далее с помощью МНК численно оценивалась НЛР (3). Область возможных значений
параметра к была выбрана [0,001156,2].
Число разбиений отрезков и для параметра к, и для Ь задавалось равным 1 000. В результате работы программы было установлено, что максимальное значение 0,90825 коэффициент детерминации Я2 достигает при к = 0,011768 и Ь = -722,3053 . В этой точке НЛР (3) имеет вид:
Как видно, при переключении функций в НЛР (7) различны как свободные члены, так и угловые коэффициенты.
Стоит отметить, что при использовании бинарной операции максимум оцененные НЛР оказались хуже, чем модели (5)-(7).
ЗАКЛЮЧЕНИЕ
В работе рассмотрены простейшие неэлементарные линейные регрессии с линейным аргументом в бинарной операции. Предложен алгоритм МНК-оценивания для спецификации с единичным угловым коэффициентом и свободным членом, и с произвольным угловым коэффициентом и свободным членом. Разработана реализующая эти алгоритмы программа, с помощью которой решена задача моделирования железнодорожных грузоперевозок в Тюменской области. Предложенные в работе модели на практике оказа-
лись лучше по качеству, чем линейная регрессия и неэлементарная линейная регрессия только с угловым коэффициентом в бинарной операции.
Предложенный алгоритм оценивания неэлементарной линейной регрессии со свободным членом и единичным угловым коэффициентом в бинарной операции гарантирует близость МНК-оценок к оптимальным, а алгоритм для неэлементарных линейных регрес-
Список источников
1. Brook R. J., Arnold G. C. Applied Regression Analysis and Experimental Design. Boca Raton, FL : CRC Press, 2018. 256 p.
2. Montgomery D. C., Peck E. A., Vining G. G. Introduction to Linear Regression Analysis. Hoboken, NJ : John Wiley & Sons, 2021. 704 p.
3. Клейнер Г. Б. Производственные функции: теория, методы, применение. М. : Финансы и статистика, 1986. 240 с.
4. Molnar C. Interpretable Machine Learning. 2020. 312 p.
5. Doshi-Velez F., Kim B. Towards a Rigorous Science of Interpretable Machine Learning // arXiv. 2017. URL: https://arxiv.org/pdf/1702.08608v2.pdf (дата обращения: 15.10.2022).
6. Khammar A. H., Arefi M., Akbari M. G. A General Approach to Fuzzy Regression Models Based on Different Loss Functions // Soft Comput. 2021. Vol. 25, Is. 2. P. 835-849.
7. Boukezzoula R., Coquin D. Interval-Valued Fuzzy Regression: Philosophical and Methodological Issues // Appl Soft Comput. 2021. Vol. 103. P. 107145.
8. Hose D., Hanss M. Fuzzy Linear Least Squares for the Identification of Possibilistic Regression Models // Fuzzy Sets and Systems. 2019. Vol. 367. P. 82-95.
9. Chen L.-H., Nien S.-H. Mathematical Programming Approach to Formulate Intuitionistic Fuzzy Regression Model Based on Least Absolute Deviations // Fuzzy Optim Decis Making. 2020. Vol. 19, Is. 2. P. 191-210.
10. Носков С. И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск : Облин-формпечать, 1996. 320 с.
11. Носков С. И., Хоняков А. А. Кусочно-линейные регрессионные модели объемов перевозки пассажиров железнодорожным транспортом // Модели, системы, сети в экономике, технике, природе и обществе. 2021. № 4. С. 80-89.
12. Носков С. И. Построение кусочно-линейной авторегрессионной модели произвольного порядка // Вестн. Югорск. гос. ун-та. 2022. № 2. С. 89-94.
сий с линейным аргументом в бинарной операции - нет. Однако полученная с его помощью модель гарантировано будет не хуже, чем известные на сегодня неэлементарные зависимости. Поэтому весьма перспективным направлением становится интеграция рассмотренных в данной работе простейших конструкций в обобщенную неэлементарную линейную регрессию [17].
References
1. Brook R. J., Arnold G. C. Applied Regression Analysis and Experimental Design. Boca Raton, FL : CRC Press, 2018. 256 p.
2. Montgomery D. C., Peck E. A., Vining G. G. Introduction to Linear Regression Analysis. Hoboken, NJ : John Wiley & Sons, 2021. 704 p.
3. Kleiner G. B. Proizvodstvennye funktsii: Teoriia, metody, primenenie. Moscow : Finansy i statistika, 1986. 240 р. (In Russian).
4. Molnar C. Interpretable Machine Learning. 2020. 312 p.
5. Doshi-Velez F., Kim B. Towards a Rigorous Science of Interpretable Machine Learning // arXiv. 2017. URL: https://arxiv.org/pdf/1702.08608v2.pdf (accessed: 15.10.2022).
6. Khammar A. H., Arefi M., Akbari M. G. A General Approach to Fuzzy Regression Models Based on Different Loss Functions // Soft Comput. 2021. Vol. 25, Is. 2. P. 835-849.
7. Boukezzoula R., Coquin D. Interval-Valued Fuzzy Regression: Philosophical and Methodological Issues // Appl Soft Comput. 2021. Vol. 103. P. 107145.
8. Hose D., Hanss M. Fuzzy Linear Least Squares for the Identification of Possibilistic Regression Models // Fuzzy Sets and Systems. 2019. Vol. 367. P. 82-95.
9. Chen L.-H., Nien S.-H. Mathematical Programming Approach to Formulate Intuitionistic Fuzzy Regression Model Based on Least Absolute Deviations // Fuzzy Optim Decis Making. 2020. Vol. 19, Is. 2. P. 191-210.
10. Noskov S. I. Tekhnologiia modelirovaniia obektov s nestabilnym funktsionirovaniem i neopredelennos-tiu v dannykh. Irkutsk : Oblinformpechat, 1996. 320 p. (In Russian).
11. Noskov S. I., Khonyakov A. A. Piecewise Linear Regression Models of Passenger Transportation Volumes by Railway // Models, Systems, Networks in Economics, Technology, Nature and Society. 2021. No. 4. P. 80-89. (In Russian).
12. Noskov S. I. Construction of a Piece-Linear Autoregression Model of an Arbitrary Order // Yugra State University Bulletin. 2022. No. 2. P. 89-94. (In Russian).
13. Носков С. И. Построение кусочно-линейной регрессии с интервальной неопределенностью в данных для зависимой переменной // Вестник кибернетики. 2022. № 2. С. 61-65.
14. Базилевский М. П. МНК-оценивание параметров специфицированных на основе функций Леонтьева двухфакторных моделей регрессии // Юж.-Сиб. науч. вестн. 2019. № 2. С. 66-70.
15. Базилевский М. П. Оценивание линейно-неэлементарных регрессионных моделей с помощью метода наименьших квадратов // Моделирование, оптимизация и информационные технологии. 2020. Т. 8, № 4. DOI 10.26102/2310-6018/ 2020.31.4.026.
16. Базилевский М. П. Отбор информативных операций при построении линейно-неэлементарных регрессионных моделей // International Journal of Open Information Technologies. 2021. Т. 9, № 5. С. 30-35.
17. Базилевский М. П. Метод построения неэлементарных линейных регрессий на основе аппарата математического программирования // Проблемы управления. 2022. № 4. С. 3-14.
Информация об авторе
М. П. Базилевский - кандидат технических наук,
доцент.
13. Noskov S. I. Constructing a Data-Driven Piecewise Linear Regression with Interval Uncertainty for the Dependent Variable // Proceedings in Cybernetics. 2022. No. 2. P. 61-65. (In Russian).
14. Bazilevsky M. P. OLS-Estimation of Two-Factor Regression Models Specified on Leontiev Functions // South-Siberian Scientific Bulletin. 2019. No. 2. P. 66-70. (In Russian).
15. Bazilevsky M. P. Estimation Linear Non-Elementary Regression Models Using Ordinary Least Squares // Modeling, Optimization and Information Technology. 2020. Vol. 8, No. 4. DOI 10.26102/ 2310-6018/2020.31.4.026. (In Russian).
16. Bazilevsky M. P. Election of Informative Operations in the Construction of Linear Non-Elementary Regression Models // International Journal of Open Information Technologies. 2021. Vol. 9, No. 5. P. 30-35. (In Russian).
17. Bazilevsky M. P. A Method for Constructing Non-elementary Linear Regressions Based on Mathematical Programming // Control Sciences. 2022. No. 4. P. 3-14. (In Russian).
Information about the author
M. P. Bazilevsky - Candidate of Sciences (Engineering), Associate Professor.