Построение двухфакторных неэлементарных линейных регрессий с логическими
функциями
М. П. Базилевский
Аннотация—Настоящая статья посвящена разработке новых структурных спецификаций регрессионных моделей. Рассмотрена двухфакторная функция Леонтьева, являющаяся составной частью неэлементарных линейных регрессий. На её основе введена логическая функция активации аргумента, которая принимает значения 0 и 1 в зависимости от того, какой из аргументов активирован в бинарной операции min. Сформулирована регрессионная модель с логической функцией активации аргумента. Предложен алгоритм её приближенного оценивания с помощью метода наименьших квадратов. Разработанная регрессия может применяться для построения моделей с бинарной зависимой переменной. Синтезированы две разновидности неэлементарных линейных регрессий с логической функцией активации аргумента. Предложенные модели обобщены на случай многих объясняющих переменных. С помощью регрессии с логической функцией активации аргумента решена задача с бинарной зависимой переменной. Модель точно предсказала значения зависимой переменной в 76 наблюдениях из 100. А с помощью неэлементарной линейной регрессии с логической функцией активации аргумента решена задача моделирования валового регионального продукта Иркутской области. Построенная модель оказалась лучше, чем регрессия без логической функции активации аргумента.
Ключевые слова—регрессионный анализ,
производственная функция Леонтьева, неэлементарная линейная регрессия, метод наименьших квадратов, логическая функция активации аргумента.
I. Введение
С помощью регрессионного анализа [1,2] в настоящее время успешно решается множество различных прикладных задач. При этом экономические задачи часто сопряжены с построением так называемых производственных функций. Например, в [3] построена производственная функция на примере промышленного комплекса Республики Башкортостан, в [4] -макроэкономические производственных функции Российской Федерации, в [5] - производственные функции сельскохозяйственных ресурсов Алматинской области Казахстана. Среди производственных функций
Статья получена 25 марта 2023.
Базилевский Михаил Павлович, Иркутский государственный университет путей сообщения, Иркутск, Российская Федерация (e-mail: [email protected]).
[6] можно выделить линейную, функцию Кобба -Дугласа, Леонтьева, Аллена, CES (с постоянной эластичностью замены факторов), LES (с линейной эластичностью замены факторов), Солоу и т.д.
Двухфакторная производственная функция Леонтьева [6] имеет вид
y = minjA • x, B • x2}, (1)
где y - объем выпускаемой продукции; x, X -факторы производства; min - бинарная операция, возвращающая минимум двух чисел; A, B -неизвестные коэффициенты. С использованием двухфакторных производственных функций Леонтьева (1) в работах [7,8] были введены в рассмотрение неэлементарные линейные регрессии (НЛР) и предложены алгоритмы их численного оценивания с помощью метода наименьших квадратов (МНК).
В бинарной операции min в функции (1) в зависимости от значений переменных x и x всегда активируется либо первый аргумент A • x, либо второй - B • x2. Тогда возникает идея сформировать логическую функцию, которая, например, будет принимать значение 1, если активируется первый аргумент бинарной операции min, и 0 - если второй.
Целью данной работы является разработка новой логической функции и внедрение её в НЛР.
II. Регрессии с логической функцией активации
АРГУМЕНТА
Для поиска неизвестных коэффициентов в (1) составим регрессионную модель
y = min jA • xn, B • xn } + £,, i = 1, n , (2)
где n - количество наблюдений; yt, i = 1, n - значения зависимой переменной y ; xa , xn , i = 1, n - значений независимых переменных x и x ; A , B - неизвестные параметры; et, i = 1, n - ошибки аппроксимации.
В работе [9] модель (2) названа кусочно-линейной регрессией. Там же предложен алгоритм её оценивания с помощью метода наименьших модулей.
В работе [10] для нахождения неизвестных параметров функции Леонтьева (1) со свободным членом предложена регрессионная модель
y = а0+а1 min jx, k • xn } + s,, i = 1, n . (3)
Считается, что в модели (3) объясняющие переменные ^ и х2 положительны, а в бинарной операции min каждый аргумент на выборке должен активироваться (срабатывать, включаться) хотя бы 1 раз. Для нахождения оценок неизвестных параметров регрессии (3) с помощью МНК применяется следующий алгоритм. 1. Находятся нижняя кжжн и верхняя кверхн границы
параметра к :
книжн = min • ^ч..., ^
^ = max] ^Ц...,
IX12 Х22 Xn2
2. Промежуток (k^^, k^^) равномерно разбивается p точками.
3. Для каждой точки находятся МНК-оценки параметров а0 и ах регрессии (3).
4. Выбираются МНК-оценки, при которых величина суммы квадратов остатков минимальна.
Позже в [7] модель (3) была обобщена и названа НЛР.
Введем в рассмотрение логическую функцию следующего вида:
y = act {min{a, b ■ x},i}, (4)
где переменная x > 0, коэффициенты a > 0, b > 0 . Эта функция возвращает значение 1, если в бинарной операции min{a, b ■ x} срабатывает 1-й аргумент a, и значение 0 в противном случае. Например, для функции у = act {min{6,3 • х},1} значение y(1) = 0, а y(3) = 1. При x = 2 аргументы этой функции равны, поэтому y(2) = 1.
Будем называть функцию (4) логической функцией активации (срабатывания, включения) 1 -го аргумента бинарной операции min{a, b ■ x}. Или для краткости просто функцией активации.
Понятно, что функцию активации (4) можно представить в виде:
f 1, если a < b ■ x,
У = -
y = act {min{a,b ■ x},2} = ^
[0, если a > b ■ x.
Аналогично можно ввести логическую функцию активации 2-го аргумента бинарной операции min{a, b ■ x}:
[1, если b ■ x < a, [0, если b ■ x > a.
Тогда можно сформулировать следующую регрессионную модель с логической функцией активации аргумента:
y =а0+ аact {min {x;1, к ■ xi2} ,1} + st, i = 1, n . (5)
Найти МНК-оценки неизвестных параметров регрессии (5) можно по приведенному выше алгоритму, с помощью которого находятся МНК-оценки НЛР (3).
Понятно, что при фиксированном значении к логическая функция act {min {x;1, к ■ xi2} ,1} в (5)
превращается в фиктивную переменную, принимающую значения 0 и 1. Отсюда можно сделать вывод, что модель (5) (при а0= 0 и а = 1) больше подойдет для
моделирования процессов, в которых объясняемая переменная y также принимает значения 0 и 1. Для решения таких задач также применяется логистическая регрессия [11,12].
Очевидно, что если для всех наблюдений то
act {min {хл, к ■ x¡2J ,1J + act {min {хл, к ■ x¡2J, 2 J = 1.
Это означает, что при введении в модель (5) ещё и логической функции активации 2-го аргумента act { min { хл, к ■ x¡2 J, 2 J возникнет совершенная
мультиколлинеарность, которая не позволит найти МНК-оценки. Таким образом, число логических функций активации аргумента в регрессии (5) должно быть на 1 меньше, чем число аргументов в бинарной операции min {хл, к ■ x¡2 J .
Скомбинируем модели (3) и (5) в следующую структуру:
У = ао +«imin {хл,к ■ Xi2 J +
+а2 ■ act {min {хп, к ■ хп J ,lJ + e,, i = 1, n . (6)
Будем называть модель (6) НЛР с логической функцией активации аргумента. Её МНК-оценки находятся так же, как и для регрессий (3) и (5). За счёт дополнительного регрессора аппроксимационное качество модели (6) всегда будет не ниже, чем качество НЛР (3).
Усложним НЛР (6), считая, что в каждый её регрессор входят разные переменные к и к :
y =а0 +«i т^х^ к1 ■ х 2 J + +а2 ■ act {min {хл, к2 ■ х,-2 J ,1J + st., i = 1, n . (7)
Алгоритм МНК-оценивания НЛР (7) станет несколько сложнее в вычислительном плане (потребуется перебирать значения не с одного, а уже с двух промежутков (кжжн, квфхн)), но аппроксимационное
качество модели (7) в любом случае будет не хуже, чем качество регрессии (6).
Представленные в этом разделе двухфакторные модели легко обобщаются на случай l -переменных. Для этого введём логические функции активации j -го аргумента l -арной операции min{bj,b2 • х,...,b ■ хн} :
yj = act {min(b1, b2 ■ х1,..., bi ■ х1_1}, jJ , j = 1, l .
Например, если j = 1, то
y =act{min(bj,b2 ■ х,...,b ■ х«}, jJ =
[1, если b - b ■ х,...,b - b ■ , [о, в противном случае.
Тогда обобщением регрессии (5) будет модель:
i-1
y¡ = a0 +Y,aj ■ act {^{х-И к1 ■ Xi2,..., к1-1 ■ хП }, jJ +
j=1
+£,., i = 1, n . (8)
А обобщением, например, НЛР (6) будет модель:
y =ао +«1min {д^ к1 ■ Xi2,..., к1-1 ■ х J +
i-1 _
+^aj ■act{min{xi-l,к1 ■ х-2,...,к1-1 ■ х„}jJ, i = 1,n . (9)
j=1
НЛР (9) можно считать обобщением многофакторной производственной функции Леонтьева. Алгоритмы её МНК-оценивания будут предложены в будущих работах автора.
III. Моделирование
Для МНК-оценивания предложенных в этой статье регрессий в пакете Gretl был разработан специальный скрипт. Число разбиений промежутка (, )
всегда выбиралось равным 100.
Задача 1. Решалась задача МНК-оценивания регрессии с логической функцией активации аргумента (5) при а0= 0 и а = 1. Для этого была использована выборка данных объема 100 из работы [13] по следующим переменным:
y - эффективность использования Интернет-ресурсов сотрудником (если эффективно, то y = 1, иначе y = 0);
X - возраст (лет);
X - стаж профессиональной деятельности (лет);
X - заработная плата (тыс. ден. ед.);
X - число случаев поступления полезной для фирмы информации от сотрудника (ед.);
X - результат тестирования на предмет оценки навыков работы в Интернет (в баллах).
В работе [13] по этим данным была построена логистическая регрессия, которая корректно предсказывает значения объясняемой переменной y в 96 наблюдениях из 100.
Простым перебором всех возможных комбинаций пар переменных из набора X , X , X , X , X была выбрана модель (5) с наименьшей величиной суммы квадратов остатков. Ею оказалась регрессия следующего вида:
^ in {х3,0.56452 lx5},l}. (10)
Модель (10) точно предсказала значения объясняемой переменной y в 76 наблюдениях из 100. Для такой
компактной модели это очень даже неплохой результат. Но всё же по точности она пока сильно проигрывает логистической регрессии. Повысить качество регрессии (10) можно с использованием в ней таких логических операций, как конъюнкция, дизъюнкция, импликация, отрицание и т.д.
Задача 2. Решалась задача МНК-оценивания НЛР с логической функцией активации аргумента. Для этого были использованы ежегодные данные за период 20002020 гг. (https://rosstat.gov.ru/) по следующим переменным:
y - валовой региональный продукт (ВРП) Иркутской области (млн руб.);
X - инвестиции в основной капитал (млн руб.);
X - стоимость основных фондов (млн руб.).
Моделирование ВРП регионов Российской Федерации является актуальной научной задачей (см., например, [14,15]).
Сначала по этим данным была оценена НЛР без функции активации:
, 703+ 4,04396min {х,0.105384-х2}. (11)
Коэффициент детерминации R2 модели (11) составил 0,983455.
Затем была оценена НЛР с логической функцией активации аргумента (6):
28 + 4,024 min jx, 0.1066 • х2} +
+58165,32 • act {min {x ,0.1066 • x2} ,1} . (12)
Для (12) R2 = 0,984518.
После чего оценивалась НЛР с логической функцией активации аргумента (7):
,47 + 3,995min {xj,0. 1042-х2}-
-41761,94 • act {min {x ,0.0914 • x2} ,1} . (13)
Для (13) R2 = 0,984944 .
Как видно, модели (11) - (13) ожидаемо выстроились в порядке возрастания их аппроксимационного качества.
Представим лучшую по качеству аппроксимации НЛР (13) в кусочно-заданном виде:
58010,53 + 3,995x, при Х- < 0,0914,
Х2
2,47 + 3,995хр при 0,0914 < < 0,1042,
99772,47 + 0,416х„
при > 0,1042.
X
Тогда можно дать следующую интерпретацию. Если отношение инвестиций в основной капитал x} к стоимости основных фондов x2 не превосходит 0,0914, то на ВРП Иркутской области y влияет только x}. Причем, с увеличением x} на 1 млн руб. y увеличивается примерно на 3,995 млн руб. Если отношение x} к x2 попадает в промежуток (0,0914;0,1042], то на y также влияет только x}. И, по-прежнему, с увеличением x} на 1 млн руб. y увеличивается примерно на 3,995 млн руб. Но в этом случае свободный член в уравнении больше и составляет 99772,47, поэтому и результирующее ВРП будет выше. Если отношение x} к x2 больше 0,1042, то на y влияет только x2. Причем, с увеличением x2 на 1 млн руб. y увеличивается примерно на 0,416 млн руб.
IV. Заключение
В работе предложена логическая функция активации аргумента бинарной операции min. Cформулированы двухфакторные регрессионные модели с функцией активации аргумента бинарной операции min. Рассмотрен алгоритм их приближенного МНК-оценивания. Решенная с помощью таких моделей задача с бинарной зависимой переменной y демонстрирует их высокий потенциал. В дальнейшем планируется расширить предложенную спецификацию модели за счет использования таких логических операций, как конъюнкция, дизъюнкция и т.д.
Введена двухфакторная неэлементарная линейная регрессия с логической функцией активации аргумента. Такие модели по качеству аппроксимации всегда не хуже, чем неэлементарные линейные регрессии без
X
2
логической функции. С использованием предложенной спецификации решена задача моделирования ВРП Иркутской области и построена точная модель с величиной коэффициента детерминации 0,985. Предложенные логические функции могут быть использованы для улучшения качества многофакторных производственных функций Леонтьева и многофакторных неэлементарных линейных регрессий.
Библиография
[1] Arkes J. Regression analysis: a practical introduction. Taylor & Francis, 2023.
[2] Montgomery D.C., Peck E.A., Vining G.G. Introduction to linear regression analysis. John Wiley & Sons, 2021.
[3] Суворов Н.В., Ахунов Р.Р., Губарев Р.В., Дзюба Е.И., Файзуллин Ф.С. Применение производственной функции Кобба-Дугласа для анализа промышленного комплекса региона // Экономика региона. 2020. Т. 16. № 1. С. 187-200.
[4] Афанасьев А.А., Пономарева О.С. Народнохозяйственная производственная функция России в 1990-2017 гг // Экономика и математические методы. 2020. Т. 56. № 1. С. 67-78.
[5] Ахметов К.А., Мадиев Г.Р., Бекбосынова А.Б. Системная оценка ресурсного потенциала сельского хозяйства на основе корреляционно-регрессионного анализа и моделирования производственными функциями // Проблемы агрорынка. 2019. № 3. С. 58-67.
[6] Клейнер Г.Б. Производственные функции: теория, методы, применение. М.: Финансы и статистика, 1986. 239 с.
[7] Базилевский М.П. Оценивание линейно-неэлементарных регрессионных моделей с помощью метода наименьших квадратов // Моделирование, оптимизация и информационные технологии. 2020. Т. 8. № 4 (31).
[8] Базилевский М.П. Метод построения неэлементарных линейных регрессий на основе аппарата математического программирования // Проблемы управления. 2022. № 4. С. 3-14.
[9] Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск: РИЦ ГП «Облинформпечать», 1996. 321 с.
[10] Базилевский М.П. МНК-оценивание параметров специфицированной на основе функций Леонтьева двухфакторных моделей регрессии // Южно-Сибирский научный вестник. 2019. № 2 (26). С. 66-70.
[11] Boateng E.Y., Abaye D.A. A review of the logistic regression model with emphasis on medical research // Journal of data analysis and information processing. 2019. Vol. 7. No. 4. P. 190-207.
[12] Zabor E.C., Reddy C.A., Tendulkar R.D., Patil S. Logistic regression in clinical studies // International Journal of Radiation Oncology* Biology* Physics. 2022. Vol. 112. No. 2. P. 271-277.
[13] Исмагилов И.И., Кадочникова Е.И. Специальные модели эконометрики в среде Gretl. Казань: Казан. ун-т, 2018. 91 с.
[14] Ивченко Ю.С. Определение основных факторов уровня валового регионального продукта методами эконометрического моделирования по совокупности регионов Российской Федерации // Статистика и экономика. 2019. № 6. С. 4-18.
[15] Козлова Е.И., Новак М.А., Карлова М.Ю. Моделирование взаимосвязи валового регионального продукта, трудовых ресурсов и занятости (на примере Липецкой области) // Региональная экономика: теория и практика. 2020. Т. 18. № 5. С. 870-890.
Базилевский Михаил Павлович, к.т.н., доцент кафедры математики Иркутского государственного университета путей сообщения, Иркутск, Россия; ORCID 0000-0002-3253-5697 (e-mail: [email protected])
[7] Bazilevskiy M.P. Otsenivanie lineyno-neelementarnykh regressionnykh modeley s pomoshch'yu metoda naimen'shikh kvadratov // Modelirovanie, optimizatsiya i informatsionnye tekhnologii. 2020. Vol. 8. No. 4 (31).
[8] Bazilevskiy M.P. Metod postroeniya neelementarnykh lineynykh regressiy na osnove apparata matematicheskogo programmirovaniya // Problemy upravleniya. 2022. No. 4. P. 3-14.
[9] Noskov S.I. Tekhnologiya modelirovaniya ob"ektov s nestabil'nym funktsionirovaniem i neopredelennost'yu v dannykh. Irkutsk: RITs GP «Oblmformpechat'», 1996. 321 p.
[10] Bazilevskiy M.P. MNK-otsenivanie parametrov spetsifitsirovannoy na
Construction of Two-factor Non-elementary Linear Regressions with Boolean Functions
M. P. Bazilevskiy
Abstract—This article is devoted to the development of new structural specifications for regression models. The two-factor Leontief function, which is an integral part of non-elementary linear regressions, is considered. Based on it, a logical function of argument activation is introduced, which takes the values 0 and 1, depending on which of the arguments is activated in the min binary operation. A regression model with a logical function of argument activation is formulated. An algorithm for its approximate estimation using the ordinary least squares method is proposed. The developed regression can be used to construct models with a binary dependent variable. Two varieties of non-elementary linear regressions with a logical function of argument activation are synthesized. The proposed models are generalized to the case of many explanatory variables. With the help of regression with a logical function of argument activation, a problem with a binary dependent variable is solved. The model accurately predicted the values of the dependent variable in 76 observations out of 100. And using a non-elementary linear regression with a logical function of argument activation, the problem of modeling the gross regional product of the Irkutsk region was solved. The constructed model turned out to be better than the regression without the logical function of argument activation.
Keywords— regression analysis, Leontief production function, non-elementary linear regression, ordinary least squares method, logical function of argument activation.
References
[1] Arkes J. Regression analysis: a practical introduction. Taylor & Francis, 2023.
[2] Montgomery D.C., Peck E.A., Vining G.G. Introduction to linear regression analysis. John Wiley & Sons, 2021.
[3] Suvorov N.V., Akhunov R.R., Gubarev R.V., Dzyuba E.I., Fayzullin F.S. Primenenie proizvodstvennoy funktsii Kobba-Duglasa dlya analiza promyshlennogo kompleksa regiona // Ekonomika regiona. 2020. Vol. 16. No. 1. P. 187-200.
[4] Afanas'ev A.A., Ponomareva O.S. Narodnokhozyaystvennaya proizvodstvennaya funktsiya Rossii v 1990-2017 gg // Ekonomika i matematicheskie metody. 2020. Vol. 56. No. 1. P. 67-78.
[5] Akhmetov K.A., Madiev G.R., Bekbosynova A.B. Sistemnaya otsenka resursnogo potentsiala sel'skogo khozyaystva na osnove korrelyatsionno-regressionnogo analiza i modelirovaniya proizvodstvennymi funktsiyami // Problemy agrorynka. 2019. No. 3. P. 58-67.
[6] Kleyner G.B. Proizvodstvennye funktsii: teoriya, metody, primenenie. M.: Finansy i statistika, 1986. 239 p.
osnove funktsiy Leont'eva dvukhfaktornykh modeley regressii // Yuzhno-Sibirskiy nauchnyy vestnik. 2019. No. 2 (26). P. 66-70.
[11] Boateng E.Y., Abaye D.A. A review of the logistic regression model with emphasis on medical research // Journal of data analysis and information processing. 2019. Vol. 7. No. 4. P. 190-207.
[12] Zabor E.C., Reddy C.A., Tendulkar R.D., Patil S. Logistic regression in clinical studies // International Journal of Radiation Oncology* Biology* Physics. 2022. Vol. 112. No. 2. P. 271-277.
[13] Ismagilov I.I., Kadochnikova E.I. Spetsial'nye modeli ekonometriki v srede Gretl. Kazan': Kazan. un-t, 2018. 91 p.
[14] Ivchenko Yu.S. Opredelenie osnovnykh faktorov urovnya valovogo regional'nogo produkta metodami ekonometricheskogo modelirovaniya po sovokupnosti regionov Rossiyskoy Federatsii // Statistika i ekonomika. 2019. No. 6. P. 4-18.
[15] Kozlova E.I., Novak M.A., Karlova M.Yu. Modelirovanie vzaimosvyazi valovogo regional'nogo produkta, trudovykh resursov i zanyatosti (na primere Lipetskoy oblasti) // Regional'naya ekonomika: teoriya i praktika. 2020. Vol. 18. No. 5. P. 870-890.
Bazilevskiy Mikhail Pavlovich, Ph.D., Associate Professor of the
Department of Mathematics, Irkutsk State Transport University, Irkutsk,
Russia; ORCID 0000-0002-3253-5697 (e-mail: [email protected])