Научная статья на тему 'Оценивание регрессионных моделей с мультиарной операцией модуль методом наименьших модулей'

Оценивание регрессионных моделей с мультиарной операцией модуль методом наименьших модулей Текст научной статьи по специальности «Математика»

CC BY
5
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
регрессионный анализ / модульная регрессия / метод наименьших модулей / мультиарная операция модуль / задача частично-булевого линейного программирования

Аннотация научной статьи по математике, автор научной работы — М П. Базилевский

В статье рассмотрена исследованная ранее линейная по факторам и нелинейная по параметрам модель модульной регрессии, содержащая унарные операции модуль. За счёт применения бинарных, тернарных, …, l-арных операций модуль впервые предложено обобщение модульной регрессии. Рассмотрен частный случай обобщения – регрессия с мультиарной операцией модуль. Задача точного оценивания такой модели с помощью метода наименьших модулей сведена к задаче частично-булевого линейного программирования. По встроенным в эконометрический пакет Gretl данным о производительности ферм построена классическая линейная регрессия и модульная регрессия с мультиарной операцией. Качество аппроксимации предложенной модульной регрессии оказалось выше, чем качество линейной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценивание регрессионных моделей с мультиарной операцией модуль методом наименьших модулей»

Оценивание регрессионных моделей с мультиарной операцией модуль

методом наименьших модулей

М. П. Базилевский Иркутский государственный университет путей сообщения, Иркутск

Аннотация: В статье рассмотрена исследованная ранее линейная по факторам и нелинейная по параметрам модель модульной регрессии, содержащая унарные операции модуль. За счёт применения бинарных, тернарных, ..., парных операций модуль впервые предложено обобщение модульной регрессии. Рассмотрен частный случай обобщения -регрессия с мультиарной операцией модуль. Задача точного оценивания такой модели с помощью метода наименьших модулей сведена к задаче частично-булевого линейного программирования. По встроенным в эконометрический пакет Gretl данным о производительности ферм построена классическая линейная регрессия и модульная регрессия с мультиарной операцией. Качество аппроксимации предложенной модульной регрессии оказалось выше, чем качество линейной модели.

Ключевые слова: регрессионный анализ, модульная регрессия, метод наименьших модулей, мультиарная операция модуль, задача частично-булевого линейного программирования.

Методы машинного обучения [1] активно развиваются в настоящее время. Эффективным инструментом обработки статистических данных считается регрессионный анализ [2]. Построению регрессионных моделей за последние годы посвящено много зарубежных научных работ. Так, например, в [3] строилась регрессионная модель для прогнозирования заболеваемости COVID-19 в Индии, в [4] - для прогнозирования уровня инфляции по данным Центрального банка Индонезии, в [5] - для прогнозирования выбросов углекислого газа, связанных с ископаемым топливом, в странах БРИКС, в [6] оценена модель полупараметрической регрессии для исследования распределенных энергетических ресурсов в Китае. Не отстают от зарубежных и отечественные исследования в области регрессионного анализа. Например, в [7] задача отбора информативных регрессоров в линейной регрессии, оцениваемой с помощью метода наименьших квадратов, формализована в виде задачи частично-булевого линейного программирования (далее ЧБЛП), что гораздо эффективнее на

практике метода «всех регрессий» [8]. В [9] исследованы модели полносвязной линейной регрессии, в которых все истинные исходные переменные связаны между собой линейными функциональными зависимостями, что позволяет проводить моделирование в условиях мультиколлинеарности [10]. В [11,12] с помощью регрессионного анализа решены конкретные прикладные задачи технического характера.

В работах [13,14] предложена и исследована линейная по факторам и

нелинейная по параметрам модель модульной регрессии следующего вида:

Уг = 0) "Л

7 =1

+ е.

г'

г = 1, п,

(1)

где у, хг1, ..., хй, г = 1,п - значения объясняемой переменной у и объясняющих переменных х1, х2, ..., хг; п - количество наблюдений; а0,

а, Л ■, 7 = 1,1 - неизвестные параметры; , г = 1, п - ошибки аппроксимации.

В модели (1), например, операцию вида |х1 ~Л назовём унарной операцией модуль. Тогда можно ввести бинарную операцию модуль, например, |х1 - Л х21, тернарную операцию модуль, например,

х - Л- Лх2 — Л х3| и т.д. Из этого следует, что модульная регрессия (1) является частным случаем более сложной конструкции следующего вида:

,(2)

у = ао+Ха(1) х- Л? I+Ха

7=1 7=1

х -л 2) - Л2) • х

и, Ло Л1 хг

+

+Ха

7 =1

(3)

х -Л3)-Л3) • х -Л3) • х

Л, Л о Л1 Л 2 Х^

С)

х

;(/) V ;(')

1 -А0 - ХАк-1

х

гк

к=2

+... +

г = 1, п,

(2)

где ^, (7 = 1, С,2) - элементы у-й строки матрицы М(1) размера С х 2, содержащей по строкам все сочетания индексов объясняющих переменных

2

3

и

по два; ¡у, , ¡у (у = 1, С, ) - элементы_/-й строки матрицы М( } размера

С] х 3, содержащей по строкам все сочетания индексов объясняющих

переменных по три и т.д.; а0, а7(1), у = 1,1, а(2), у = 1,С,2, ..., а\1), Л^, j = 1,1

'] О

Л(^, Л^, у = 1, С2, ., ЛЛ), у = О, I -1 - неизвестные параметры.

Назовём модель (2) модульной регрессией с унарными, бинарными, тернарными, ..., (1-1)-арными, 1-арной операциями модуль.

Рассмотрим упрощенную форму модели (2) - модульную регрессию с

мультиарной (1-арной) операцией модуль следующего вида:

у =ао+а

ХИ Л0 ^Лк-1

х.

л

к=2

+ £<

I = 1, п.

(3)

Оценивание неизвестных параметров модульной регрессии (3) методом наименьших модулей (далее МНМ) предполагает решение оптимизационной задачи вида:

Е

1=\

у -ао -а

х.

1 -Ло -ХЛ-1

х.

к

к=2

Ш1П .

Пусть |а| = к > О. Тогда перепишем выражение (3) в виде:

У =ао +(-1)'

к• х1 -до -^Дк-1

к-1 Хгк

к=2

+ £<

I = 1, п,

(4)

где Д = к •Л, Д = к • Л, ..., Дч = к •Л; а - бинарная переменная, которая равна 0, если а > О, и 1, если а < О.

В соответствии с приёмом, описанным в работе [13], точные МНМ-оценки модульной регрессии (4) можно получить, решив при а = О и а = 1 следующую задачу ЧБЛП:

Х( & + кг Ш1П =

у =1

(5)

и

к • -д-1

' Х-1

'к-1 Хгк = & У :

I = 1, п ,

к=2

г = 1, п,

& < м 3,

М ^(1- ¿г, г = 1Я

Уг = «0 + (-1Г (& + V,) + я, - к,, г = 1, п:

к > 0, &> 0, V > 0, ё > 0, к > 0, г = \П,

3 е {0,1}, г = ~\п,

где М - большое положительное число;

(6)

(7)

(8) (9)

(10) (11)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

&

к=2

кХг1 -Д0 - -1 ^ Хгк , еСлИ кХг1 -Д0 - ХДк-1 • Хгк > 0

к=2

I

0, если кх1 -Д - -1 ^ Хгк < 0

г = 1, п,

V. =

к=2 I

ёг

к

0, если кх,1 -Д - -1 ^ Хгк > 0

к=2

I I '

-кх,1 +Д0 + -1 ^ Хгк , еСли кхХг1 -Д0 - ХДк-1 • Хгк < 0

к=2 к=2

Уг - «О - (-1)" (& + V ), еСли У г -а0 - (-1)" (& + V )> 0 0, если У г - «0 - (-1)СТ (& + V,) < 0,

а если Уг - «0 - (-1)" (& + Vl )> 0,

-Уг + «О + (-1)" (& + V ), если Уг - «О - (-1)" (& + V )< 0,

г = 1, п,

г = 1, п,

г = 1, п,

3 =

0, если кХп -Д0 - ХДк-1 • Хгк < 0,

к=2

I

1 если кХ1Х -Д - ХДк-1 ^ Хгк > 0.

к=2

Решив задачу ЧБЛП (5) - (11) при а = 0 и а = 1, из двух нужно выбрать регрессионную модуль с наименьшей величиной суммы модулей

I

;

<

;

I

остатков.

Для демонстрации работоспособности предложенного способа точного оценивания модульной регрессии (3) были использованы встроенные в эконометрический пакет Gretl статистические данные (файл data9-5.gdt на вкладке Ramanathan) о затратах и объеме произведенной продукции сельского хозяйства в США с 1948 по 1993 годы, т.е. объем выборки n составил 46. В качестве выходной переменной y выступает производительность фермы (output), а входными переменными выбраны следующие:

X - сельскохозяйственный труд (farm labor); x2 - оборудование длительного пользования (machines); X - используемые сельскохозяйственные химикаты (fert). Сначала по этим данным была оценена с помощью МНМ классическая линейная регрессионная модель:

у = 91,684 - ОД 43*! - 0,456*2 + 0,521*3. (12)

Сумма модулей остатков регрессии (12) составляет 183,1978. Затем при М=10000 и <г = 0 с использованием пакета LPSolve IDE была решена задача ЧБЛП (5) - (11). Результатом её решения является следующее оцененное уравнение модульной регрессии:

y = 51,578 + 0,1636 • X - 287,063 + 3,512x2 - 3,554x31. (13)

Сумма модулей остатков регрессии (13) равна 160,8055, что меньше, чем у модели (12). Другими словами, качество аппроксимации предложенной в статье модульной регрессии выше, чем качество классической линейной модели.

После чего задача ЧБЛП (5) - (11) была решена при М=10000 и <т = 1. Оцененное уравнение модульной регрессии в такой ситуации имело вид:

y = 108- 0,1431 • X +113,975 + 3,1847x2 - 3,642x3|. (14)

Сумма модулей остатков регрессии (14) составила 183,1978, т.е. эта характеристика такая же, как и у линейной регрессии (12). Можно заметить, что это происходит потому, что выражение под знаком модуля в уравнении (14) для любого наблюдения выборки неотрицательно, поэтому знак модуля можно просто опустить и прийти к уравнению (12). В любом случае, оцененной с помощью МНМ модульной регрессией (3) признаётся модель (13).

Достоинство модульной регрессии (3) ещё и в том, что задача ЧБЛП для её оценивания с помощью МНМ (5) - (11) содержит существенно меньше булевых переменных, чем задача ЧБЛП для оценивания регрессии (1).

Литература

1. Molnar C. Interpretable machine learning. Lulu. com, 2020. 368 p.

2. Pardoe I. Applied regression modeling. John Wiley & Sons, 2020. 325 p.

3. Pandey G., Chaudhary P., Gupta R., Pal S. SEIR and regression model based COVID-19 outbreak predictions in India // arXiv preprint. arXiv:2004.00958.

2020. URL: arxiv.org/ftp/arxiv/papers/2004/2004.00958.pdf.

4. Dharma F., Shabrina S., Noviana A., Tahir M., Hendrastuty N., Wahyono W. Prediction of Indonesian inflation rate using regression model based on genetic algorithms // Jurnal Online Informatika. 2020. No. 5(1). Pp. 45-52.

5. Karakurt I., Aydin G. Development of regression models to forecast the CO2 emissions from fossil fuels in the BRICS and MINT countries // Energy. 2023. Vol. 263. P. 125650.

6. Xu B., Luo Y., Xu R., Chen J. Exploring the driving forces of distributed energy resources in China: Using a semiparametric regression model // Energy.

2021. Vol. 236. P. 121452.

7. Базилевский М.П. Отбор информативных регрессоров с учётом мультиколлинеарности между ними в регрессионных моделях как задача

частично-булевого линейного программирования // Моделирование, оптимизация и информационные технологии. 2018. Т. 6. № 2 (21). С. 104-118.

8. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1005 с.

9. Базилевский М.П. Исследование двухфакторной модели полносвязной линейной регрессии // Моделирование, оптимизация и информационные технологии. 2019. Т. 7. № 2 (25). С. 80-96.

10. Shrestha N. Detecting multicollinearity in regression analysis // American Journal of Applied Mathematics and Statistics. 2020. Vol. 8. No. 2. Pp. 39-42.

11. Король В.И., Ланкин М.В., Горбатенко Н.И. Регрессионная модель погрешностей аппроксимации кривой тока для измерения магнитных характеристик // Инженерный вестник Дона. 2022. № 7. URL: ivdon.ru/ru/magazine/archive/n7y2022/7825.

12. Баклагин В.Н. Регрессионная модель изменения ледовитости Белого моря // Инженерный вестник Дона. 2018. № 2. URL: ivdon.ru/ru/magazine/archive/N2y2018/4825.

13. Базилевский М.П., Ойдопова А.Б. Оценивание модульных линейных регрессионных моделей с помощью метода наименьших модулей // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. 2023. № 45. С. 130-146.

14. Базилевский М.П. Программное обеспечение для оценивания модульных линейных регрессий // Информационные и математические технологии в науке и управлении. 2023. № 3 (31). С. 136-146.

References

1. Molnar C. Interpretable machine learning. Lulu. com, 2020. 368 p.

2. Pardoe I. Applied regression modeling. John Wiley & Sons, 2020. 325 p.

3. Pandey G., Chaudhary P., Gupta R., Pal S. arXiv preprint arXiv:2004.00958. 2020. URL: arxiv.org/ftp/arxiv/papers/2004/2004.00958.pdf.

4. Dharma F., Shabrina S., Noviana A., Tahir M., Hendrastuty N., Wahyono W. Jurnal Online Informatika. 2020. № 5(1). Pp. 45-52.

5. Karakurt I., Aydin G. Energy. 2023. Vol. 263. P. 125650.

6. Xu B., Luo Y., Xu R., Chen J. Energy. 2021. Vol. 236. P. 121452.

7. Bazilevskiy M.P. Modelirovanie, optimizacija i informacionnye tehnologii.

2018. Vol. 6. No. 2 (21). Pp. 104-118.

8. Ajvazjan S.A., Mhitarjan V.S. Prikladnaja statistika i osnovy jekonometriki. Moscow: JuNITI, 1998. 1005 p.

9. Bazilevskiy M.P. Modelirovanie, optimizacija i informacionnye tehnologii.

2019. Vol. 7. No. 2 (25). Pp. 80-96.

10. Shrestha N. American Journal of Applied Mathematics and Statistics. 2020. Vol. 8. No. 2. Pp. 39-42.

11. Korol' V.I., Lankin M.V., Gorbatenko N.I. Inzhenernyj vestnik Dona. 2022. № 7. URL: ivdon.ru/ru/magazine/archive/n7y2022/7825.

12. Baklagin V.N. Inzhenernyj vestnik Dona. 2018. № 2. URL: ivdon.ru/ru/magazine/archive/N2y2018/4825.

13. Bazilevskiy M.P., Oydopova A.B. Vestnik Permskogo nacional'nogo issledovatel'skogo politehnicheskogo universiteta. Jelektrotehnika, informacionnye tehnologii, sistemy upravlenija. 2023. № 45. Pp. 130-146.

14. Bazilevskiy M.P. Informacionnye i matematicheskie tehnologii v nauke i upravlenii. 2023. № 3 (31). Pp. 136-146.

Дата поступления: 16.03.2024 Дата публикации: 22.04.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.