Научная статья на тему 'ОЦЕНКА ДИНАМИКИ ВКЛАДОВ ФАКТОРОВ В ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ'

ОЦЕНКА ДИНАМИКИ ВКЛАДОВ ФАКТОРОВ В ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ Текст научной статьи по специальности «Математика»

CC BY
98
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННАЯ МОДЕЛЬ / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / ЗНАЧИМОСТЬ ПРЕДИКТОРОВ / ВКЛАДЫ ФАКТОРОВ / ПОГРУЗКА / ЖЕЛЕЗНОДОРОЖНЫЙ ТРАНСПОРТ

Аннотация научной статьи по математике, автор научной работы — Носков С.И.

Разработаны две алгоритмические схемы оценивания параметров линейной регрессии с требованием равенства нулю ошибки аппроксимации для заданного наблюдения и на их основе способы расчета динамических оценок вкладов факторов, входящих в состав правой части линейной регрессионной модели, в значения зависимой переменной. Одна из этих схем основана на решении задачи квадратичного программирования, а вторая предусматривает использование взвешенного метода наименьших квадратов. Организованный при этом итерационный процесс предполагает пересчет матрицы весовых коэффициентов для каждого наблюдения обрабатываемой выборки данных. Рассчитаны вклады следующих факторов для регрессионной модели погрузки на железнодорожном транспорте: объема добычи угля, объема вывезенной древесины, рабочего парка груженых железнодорожных вагонов (в среднем в сутки). Установлено, что наибольшее влияние на выходную переменную оказывает объем добычи угля, хотя это влияние и имеет некоторую общую тенденцию к снижению: почти на 4 пункта за 14 лет. Также несколько ослабевает, на 3 пункта, влияние и второго по значимости фактора - рабочего парка груженых железнодорожных вагонов. А наименее значимый показатель (объем вывезенной древесины) имеет явную тенденцию к усилению своего влияния, которое выросло почти на 7 пунктов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ESTIMATION OF THE DYNAMICS OF FACTOR CONTRIBUTIONS IN A LINEAR REGRESSION MODEL

I developed two algorithmic schemes for estimating the parameters of linear regression with the requirement that the approximation error for a given observation is zero and, on their basis, methods for calculating the dynamic estimates of the contributions of the factors included in the right side of the linear regression model to the values of the dependent variable. One of these schemes is based on solving a quadratic programming problem, and the second involves the use of a weighted least squares method. The iterative process organized in this case involves recalculating the matrix of weighting coefficients for each observation of the processed data sample. I calculated the contributions of the following factors for the regression model of loading on railway transport: the volume of coal production, the volume of exported timber, the working fleet of loaded railway cars (on average per day). I found that the largest influence on the output variable is exerted by the volume of coal production, although this influence has some general tendency to decrease - by almost 4 points over 14 years. Also, the influence of the second most important factor - the working fleet of loaded railway cars, is also weakening by 3 points. But the least significant indicator - the volume of exported timber - has a clear tendency to increase its influence, which has grown by almost 7 points

Текст научной работы на тему «ОЦЕНКА ДИНАМИКИ ВКЛАДОВ ФАКТОРОВ В ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ»

DOI 10.36622/^Ти.2021.15.5.002 УДК 519.852

ОЦЕНКА ДИНАМИКИ ВКЛАДОВ ФАКТОРОВ В ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ

С.И. Носков

Иркутский государственный университет путей сообщения, г. Иркутск, Россия

Аннотация: разработаны две алгоритмические схемы оценивания параметров линейной регрессии с требованием равенства нулю ошибки аппроксимации для заданного наблюдения и на их основе способы расчета динамических оценок вкладов факторов, входящих в состав правой части линейной регрессионной модели, в значения зависимой переменной. Одна из этих схем основана на решении задачи квадратичного программирования, а вторая предусматривает использование взвешенного метода наименьших квадратов. Организованный при этом итерационный процесс предполагает пересчет матрицы весовых коэффициентов для каждого наблюдения обрабатываемой выборки данных. Рассчитаны вклады следующих факторов для регрессионной модели погрузки на железнодорожном транспорте: объема добычи угля, объема вывезенной древесины, рабочего парка груженых железнодорожных вагонов (в среднем в сутки). Установлено, что наибольшее влияние на выходную переменную оказывает объем добычи угля, хотя это влияние и имеет некоторую общую тенденцию к снижению: почти на 4 пункта за 14 лет. Также несколько ослабевает, на 3 пункта, влияние и второго по значимости фактора - рабочего парка груженых железнодорожных вагонов. А наименее значимый показатель (объем вывезенной древесины) имеет явную тенденцию к усилению своего влияния, которое выросло почти на 7 пунктов

Ключевые слова: регрессионная модель, метод наименьших квадратов, значимость предикторов, вклады факторов, погрузка, железнодорожный транспорт

Введение

Одним из важных направлений практического применения регрессионных моделей является выявление с их помощью относительной значимости независимых переменных (предикторов) по отношению к их совместному совокупному влиянию на выходной фактор (зависимую переменную). Этот аспект активно изучается в научной литературе. Так, в работе [1] изучается количественная оценка статистической значимости коэффициентов регрессии при использовании полиномиальной аппроксимации экспериментальных данных о слабых поляризационных откликах магнитных нано-жидкостей. С помощью проверки некоторых статистических гипотез исследована значимость коэффициентов корреляции между объясняющей переменной (в данном случае - значениями магнитного поля) и выходной переменной (поляризационными магнитооптическими откликами). Рассчитана статистическая значимость коэффициентов аппроксимирующих полиномов различных степеней. Приведены результаты оценок ошибок регрессии для наножидкостей разных концентраций. В работе [2] изучалось сравнительное влияние дорожных концентраций вредных веществ, температуры, относительной влажности, времени

© Носков С.И., 2021

суток и настроек вентиляции на концентрацию т.н. твердых частиц в кабине транспортного средства. В [3] рассмотрены модели показателей надежности работы одноковшовых экскаваторов, представлен анализ методов исследования влияния одной или нескольких независимых переменных на выходной фактор. Обработанная статистическая информация позволила построить регрессионные уравнения и определить значимость предикторов моделей. В [4] исследуются математические методы и модели поддержки принятия решений в области обеспечения энергетической эффективности работы котельных установок. Описаны основные этапы отбора значимых независимых переменных множественной линейной регрессионной модели расхода натурального топлива для выработки теплоты в котельных установках. Разработаны адекватные математические модели котельных установок. Оценена применимость моделей.

Некоторые важные аспекты в исследовании уровня значимости предикторов в их влиянии на эндогенные переменные в регрессионных моделях с применением строгого математического аппарата отражены в работах [5-7], в которых исследуются полносвязные, степенно-показательные и линейно-неэлементарные формы связи между предикторами.

В настоящей работе значимость независимых переменных формализуется посред-

ством введения так называемых вкладов факторов в правые части линейных по параметрам регрессионных моделей и последующей динамизации этих вкладов.

Динамизация оценок вкладов предикторов в линейной регрессии

Пусть поведение изучаемого динамического фактора (зависимой переменной) у определяется изменяющимися во времени значениями независимых переменных (предикторов) Х(, г = 1, т и характер этого влияния таков, что оно может быть адекватно описано линейным регрессионным уравнением вида:

Ук = а0 + 1,™1а1хы +£к,к = 1,п, (1)

где — 7-й подлежащий оцениванию параметр, г = 0, т; £к — ошибки аппроксимации, к — номер наблюдения, п — число наблюдений (длина динамических рядов выборки).

Для удобства последующего изложения представим уравнение (1) в векторной форме:

у = Ха + е, (2)

где у = (у1, ■■■,уп)Т, а = (а0, ...,атУ, е = (£1,.,£п)Т, X— (пх(т + 1))- матрица с компонентами хк1, первый столбец которой состоит из единиц в виду присутствия в уравнении (1) свободного члена. Выборка - пара (Х,у) - считается заданной.

Заметим, что в настоящей работе мы будем оставаться в рамках логико-алгебраического (аппроксимационного) (см., например, [8-11]) подхода к анализу данных, то есть считать вектора у, а, £ детерминированными.

Как уже отмечалось выше, важным элементом анализа регрессионной модели (1) является выявление уровней значимости независимых переменных для переменной у. В работе [11] в качестве возможных измерителей этих уровней предложено использовать оценки вклада в значения зависимой переменной каждого фактора, входящего в правую часть описывающей ее модели (1), указывающие на степень влияния каждого из них.

Этот вклад для некоторой >й переменной в (1) можно оценить по формуле:

р(хг) = 100%|а^|/ Г^К-х/!, (3)

где х,* = max xki. 'к

Разумеется, вклады факторов можно оценивать по отношению не ко всем т переменным, а лишь к их выбранной некоторой подсовокупности.

Формула (3) позволяет вычислять вклад каждого фактора в целом по выборке. Однако очевидно, что, если она имеет динамический характер, вклад каждого фактора в общем случае меняется с течением времени. Для того, чтобы это изменение можно было бы учесть, применим следующий подход.

Пусть для оценивания вектора параметров а в модели (2) используется метод наименьших квадратов (МНК). Тогда для того, чтобы рассчитать вклад /-го фактора для к -го наблюдения р&(хг), необходимо вначале решить задачу квадратичного программирования (КП)

ак = arg min (4)

а

при ограничении

Ук = «о + YZiaixki, (5)

а затем вместо (3) воспользоваться формулой Pk(xi) = 100%|afxfc(|/ TJl=1\afxkj\. (6)

Задача (4)-(5) по существу предполагает поиск МНК-оценки параметров модели (2) с требованием равенства нулю k-ой ошибки аппроксимации. Значение pk(xi) представляет собой оценку вклада /-го фактора для к -го наблюдения.

Вместо решения задачи КП (4)-(5) можно воспользоваться взвешенным методом наименьших квадратов (ВМНК), рассчитав вектор ак по формуле:

ак=(ХТПкХ)~1ХТПк у, (7)

где Пк - диагональная матрица размерности nXn, в которой k -й диагональный элемент равен большому положительному числу, а остальные - единице.

Анализ значений pfc(x;), к = 1,п позволяет выявить динамику в изменении вклада каждого / -го фактора на всем периоде наблюдений, что бывает весьма важным при решении различных практических задач, связанных с моделированием.

Динамическая оценка вкладов факторов в регрессионной модели погрузки на железнодорожном транспорте

В работе [12] приведена регрессионная модель погрузки на железнодорожном транспорте в Российской Федерации, параметры которой оценены с помощью МНК и метода смешанного оценивания, а в качестве информационной базы использована статистическая информация за 2005-2018 годы (т.е. п=14).

В модели задействованы следующие переменные:

у - объем погрузки основных видов грузов на железнодорожном транспорте, тыс. тонн; х1 - объем добычи угля, млн. т.; х2 - объем вывезенной древесины, млн. плотн.

3

м;

х3 - рабочий парк груженых железнодорожных вагонов (в среднем в сутки), тыс. шт.

Модель с МНК-оценками параметров имеет вид [12]:

у =391776-32287^ +1996.59хх+420.7х2 + +2082.47х3, Е=2.9. (8)

Здесь t - время ^=5 для 2005 года), Е - средняя относительная ошибка аппроксимации (в %).

Оценим вклады факторов Х; г = 1,3 по формуле (3), исключив при этом фактор времени, поскольку он, как и свободный член, не несет существенной смысловой нагрузки и выполняет в данном случае только сглаживающую функцию: Р(*1) = 61.4; р(х2) = 15.2; р(х3) = 23.4.

Напомним, эти оценки вкладов соответствуют средним тенденциям влияния соответствующих факторов на выходной показатель, которые имеют место на всей выборке данных в целом.

Теперь пересчитаем оценки векторов параметров модели (8), воспользовавшись формулой (7) для первого и последнего наблюдений выборки, и вычислим соответствующие получившимся моделям вклады.

а) Первое наблюдение, t =5, к=1.

а1 = (487839, -24099.8, 1508.4, 341.8, 2349.7), Е=1.4%. р1(х1) = 56.9; Рг(х2) = 11.1; рх(х3) = 32.

б) Последнее наблюдение, t =18, к=14.

а14 = (579208, -28628.2, 1382.5, 444.9, 2217.8), Е=1.5%. Pi4(xi) = 53.1; Ри(х2) = 179;

р14(х3) = 29.

Анализ трех вариантов модели погрузки на железнодорожном транспорте и значений вкладов факторов для них показывает, что наибольшее влияние на выходную переменную оказывает объем добычи угля, хотя это влияние и имеет некоторую общую тенденцию к снижению - почти на 4 пункта за 14 лет. Также несколько ослабевает, на 3 пункта, влияние и второго по значимости фактора - рабочего парка груженых железнодорожных вагонов. А вот наименее значимый показатель -объем вывезенной древесины, - имеет явную тенденцию к усилению своего влияния, которое выросло почти на 7 пунктов.

Отметим также, что все три варианта характеризуются высокой адекватностью, на что указывают значения средней относительной ошибки аппроксимации.

Заключение

В работе рассмотрен способ динамической оценки вкладов факторов, входящих в состав правой части линейной регрессионной модели.

Получены следующие результаты.

1. Разработаны две алгоритмические схемы оценивания параметров линейной регрессии с требованием равенства нулю ошибки аппроксимации для заданного наблюдения.

2. Предложен способ уточнения формулы для расчета динамических оценок вкладов факторов.

3. Рассчитаны вклады факторов для регрессионной модели погрузки на железнодорожном транспорте.

Литература

1. О подобии поляризационно-оптических откликов магнитных наножидкостей. Ч. I. Аппроксимация для слабых полей / Я.А. Фофанов, В.В. Манойлов, И.В. За-руцкий, Б.В. Бардин // Научное приборостроение. 2018. Т. 28. № 1. С. 45-52.

2. Variations in exposure to in-vehicle particle mass and number concentrations in different road environments / Z. Qiu, W. Liu, H.O. Gao, J. Li // Journal of the Air and Waste Management Association. 2019. Т. 69. № 8. Р. 988-1002.

3. Модели технической надежности одноковшовых экскаваторов / С.М. Кузнецов, Н.А. Шипилова, Е.А. Иванова, Ю.О. Заика // Электронный сетевой политематический журнал "Научные труды КубГТУ". 2019. № 5. С. 37-43.

4. Максимюк Е.В., Микшина В.С. Математическое моделирование для поддержки принятия решений в области обеспечения энергетической эффективности // Качество. Инновации. Образование. 2014. № 8 (111). С. 54-63.

5. Базилевский М.П. Многокритериальный подход к построению двухфакторных полносвязных регрессий на примере моделирования ВВП России // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2020. № 1. С. 99-109.

6. Базилевский М.П. Построение степенно-показательных регрессионных моделей и их интерпретация // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2020. № 4. С. 19-28.

7. Базилевский М.П. Оценивание линейно-неэлементарных регрессионных моделей с помощью метода наименьших квадратов // Моделирование, оптимизация и информационные технологии. 2020. Т. 8. № 4 (31). С. 26-27.

8. Айвазян С.А., Енюков И.С, Мешалкий Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 472 с.

9. Айвазян С.А., Енюков И.С, Мешалкий Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985. 488 с.

10. Айвазян С.А., Енюков И.С, Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

11. Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск: Облинформпечать. 1996. 320 с.

12. Носков С.И., Перфильева К.С. Моделирование объема погрузки на железнодорожном транспорте методом смешанного оценивания // Известия Тульского государственного университета. Технические науки. 2021. № 2. С. 148-153.

Поступила 09.08.2021; принята 19.10.2021 Информация об авторах

Носков Сергей Иванович - д-р техн. наук, профессор, профессор кафедры «Информационные системы и защита информации», Иркутский государственный университет путей сообщения (664074, Россия, г. Иркутск, ул. Чернышевского, 15), е-таП: sergey.noskov.57@mail.ru, ORCГО: https://orcid.org/0000-0003-4097-2720

ESTIMATION OF THE DYNAMICS OF FACTOR CONTRIBUTIONS IN A LINEAR

REGRESSION MODEL

S.I. Noskov

Irkutsk State Transport University, Irkutsk, Russia

Abstract: I developed two algorithmic schemes for estimating the parameters of linear regression with the requirement that the approximation error for a given observation is zero and, on their basis, methods for calculating the dynamic estimates of the contributions of the factors included in the right side of the linear regression model to the values of the dependent variable. One of these schemes is based on solving a quadratic programming problem, and the second involves the use of a weighted least squares method. The iterative process organized in this case involves recalculating the matrix of weighting coefficients for each observation of the processed data sample. I calculated the contributions of the following factors for the regression model of loading on railway transport: the volume of coal production, the volume of exported timber, the working fleet of loaded railway cars (on average per day). I found that the largest influence on the output variable is exerted by the volume of coal production, although this influence has some general tendency to decrease - by almost 4 points over 14 years. Also, the influence of the second most important factor - the working fleet of loaded railway cars, is also weakening by 3 points. But the least significant indicator - the volume of exported timber - has a clear tendency to increase its influence, which has grown by almost 7 points

Key words: regression model, least squares method, significance of predictors, contributions of factors, loading, rail transport

References

1. Fofanov Ya.A., Manoylov V.V., Zarutskiy I.V., Bardin B.V. "On the similarity of polarization-optical responses of magnetic nanofluids. Part I. Approximation for weak fields", Scientific Instrument Engineering (Nauchnoe priborostroenie), 2018, vol. 28, no. 1, pp. 45-52.

2. Qiu Z., Liu W., Gao H.O., Li J. "Variations in exposure to in-vehicle particle mass and number concentrations in different road environments", Journal of the Air and Waste Management Association, 2019, vol. 69, no. 8, pp. 988-1002.

3. Kuznetsov S.M., Shipilova N.A., Ivanova E.A., Zaika Yu.O. "Models of technical reliability of single-bucket excavators", Electronic network polythematic journal "Scientific works of KubGTU" (Elektronnyy setevoy politematicheskiy zhurnal "Nauchnye trudy KubGTU"), 2019, no. 5, pp. 37-43.

4. Maksimyuk E.V., Mikshina V.S. "Mathematical modeling to support decision making in the field of energy efficiency", Quality. Innovation. Education (Kachestvo. Innovatsii. Obrazovanie), 2014, no. 8 (111), pp. 54-63.

5. Bazilevskiy M.P. "Multicriteria approach to constructing two-factor fully connected regressions on the example of Russian GDP modeling", Bulletin of Voronezh State University (Vestnik Voronezhskogo gosudarstvennogo universiteta), 2020, no. 1, pp. 99109.

6. Bazilevskiy M.P. "Construction of exponential regression models and their interpretation", Bulletin of Voronezh State University (Vestnik Voronezhskogo gosudarstvennogo universiteta), 2020, no. 4, pp. 19-28.

7. Bazilevskiy M.P. "Estimation of linear non-elementary regression models using the least squares method", Modeling, Optimization and Information Technologies (Modelirovanie, optimizatsiya i informatsionnye tekhnologii), 2020, vol. 8, no. 4 (31), pp. 2627.

8. Ayvazyan S.A., Enyukov I.S., Meshalkiy L.D. "Applied statistics. Basics of modeling and primary data processing" ("Pri-kladnaya statistika. Osnovy modelirovaniya i pervichnaya obrabotka dannykh"), Moscow: Finansy I statistika, 1983, 472 p.

9. Ayvazyan S.A., Enyukov I.S., Meshalkiy L.D. "Applied statistics. Dependency research" ("Prikladnaya statistika. Issledo-vanie zavisimostey"), Moscow: Finansy I statistika, 1985, 488 p.

10. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. "Applied statistics. Classification and dimensionality reduction" ("Prikladnaya statistika. Klassifikatsiya i snizhenie razmernosti"), Moscow: Finansy I statistika, 1989, 607 p.

11. Noskov S.I. "A technology for modeling objects with unstable functioning and uncertainty in the data" ("Tekhnologiya modelirovaniya ob"ektov s nestabil'nym funktsionirovaniem i neopredelennost'yu v dannykh"), Irkutsk: Oblinformpechat, 1996, 320 p.

12. Noskov S.I., Perfil'eva K.S. "Modeling the volume of loading on railway transport by the method of mixed estimation", News of Tula State University (Izvestiya Tul'skogo gosudarstvennogo universiteta), 2021, no. 2, pp. 148-153.

Submitted 09.08.2021; revised 19.10.2021 Information about the author

Sergey I Noskov, Dr. Sc. (Technical), Professor, Irkutsk State Transport University (15 Chernyshevskogo str., Irkutsk 664074, Russia), e-mail: sergey.noskov.57@mail.ru, ORCID: https://orcid.org/0000-0003-4097-2720

i Надоели баннеры? Вы всегда можете отключить рекламу.