Научная статья УДК 519.852
doi: 10.34822/1999-7604-2022-2-61 -65
ПОСТРОЕНИЕ КУСОЧНО-ЛИНЕЙНОЙ РЕГРЕССИИ С ИНТЕРВАЛЬНОЙ НЕОПРЕДЕЛЕННОСТЬЮ В ДАННЫХ ДЛЯ ЗАВИСИМОЙ ПЕРЕМЕННОЙ
Сергей Иванович Носков
Иркутский государственный университет путей сообщения, Иркутск, Россия [email protected], http://orcid.org/0000-0003-4097-2720
Аннотация. В работе рассмотрена задача построения кусочно-линейной регрессионной модели (называемой также производственной функцией Леонтьева, функцией с нулевой эластичностью замены ресурсов, а также функцией с постоянными пропорциями) по данным с интервальной неопределенностью для зависимой переменной. Приведен краткий обзор применения традиционных форм таких моделей, построенных по классическим, точечным данным, для оценки качества воздуха, анализа связи общественного здоровья с сельскохозяйственной деятельностью, оптимизации процессов очистки фрагментов антител, исследования пропускной способности аэропортов и решения некоторых других задач. В качестве функции потерь принята сумма модулей ошибок аппроксимации. Показано, что сформулированная задача сводится к задаче частично-булевого программирования приемлемой размерности. Ее решение не должно вызывать вычислительных трудностей ввиду существующего значительного арсенала соответствующих эффективных программных средств. Результаты работы могут быть полезны при исследовании с помощью методов математического моделирования сложных технических и социально-экономических объектов с интервальной неопределенностью в исходных данных, вызванной сбоями в работе измерительных устройств, ошибками в деятельности статистических служб и другими причинами.
Ключевые слова: кусочно-линейная регрессия, функция Леонтьева, оценивание параметров, линейно-булевое программирование, задача линейного программирования
Для цитирования: Носков С. И. Построение кусочно-линейной регрессии с интервальной неопределенностью в данных для зависимой переменной // Вестник кибернетики. 2022. № 2 (46). С. 61-65. DOI 10.34822/1999-7604-2022-2-61-65.
Original article
CONSTRUCTING A DATA-DRIVEN PIECEWISE LINEAR REGRESSION WITH INTERVAL UNCERTAINTY FOR THE DEPENDENT VARIABLE
Sergey I. Noskov
Irkutsk State Transport University, Irkutsk, Russia [email protected], http://orcid.org/0000-0003-4097-2720
Abstract. The article discusses a problem of constructing a data-driven piecewise linear regression model (also known as Leontief production function, zero elasticity of substitution production function, and fixed proportions production function) with interval uncertainty for the dependent variable. A brief review of application of traditional forms of such models constructed according to the classical point data is given for assessing air quality, analyzing public health's relation to the agricultural activity, optimizing processes of antibodies' fragments purification, studying airport capacity, and solving other problems. A sum of approximation errors mode is taken as a loss function. The formulated problem is reduced to the partially Boolean programming problem of acceptable dimension. There should not emerge any calculating difficulties when solving the problem due to the existing large amount of acceptable effective software tools. The results of the study can be applied in research using methods of mathematical simulation of complicated technical and socially economic objects with interval uncertainty in the initial data caused by failures in the operation of measuring devices, errors in the activities of statistical services and other reasons.
Keywords: piecewise linear regression, Leontief function, parameter estimation, linear Boolean programming, linear programming problem
For citation: Noskov S. I. Constructing a Data-Driven Piecewise Linear Regression with Interval Uncertainty for the Dependent Variable // Proceedings in Cybernetics. 2022. No. 2 (46). P. 61-65. DOI 10.34822/1999-7604-2022-2-61-65.
ВВЕДЕНИЕ
При построении регрессионных моделей объектов различной природы используются как линейные, так и более сложные конструкции. Одной из них, часто применяемой при анализе экономических систем, является кусочно-линейная модель, называемая также производственной функцией Леонтьева, или функцией с нулевой эластичностью замены ресурсов. Так, в работе [1] применяется кусочно-полиномиальная аппроксимация для формирования точных оценок качества воздуха. В [2] с помощью параметрической модели кусочно-линейной регрессии изучается связь мультиметрического индекса общественного здоровья с сельскохозяйственной деятельностью в прилегающих водосборных бассейнах. Работа [3] посвящена масштабной оптимизации процессов очистки фрагментов антител на основе кусочно-линейного регрессионного моделирования. В статье [4] так называемая кусочно-линейная метарегрессия используется при исследовании предвзятости научных публикаций посредством искажения имеющихся эмпирических данных. В работе [5] описывается применение функций Леонтьева и Коб-ба - Дугласа при анализе свойств двумерной задачи факторного назначения технологии с учетом технологического меню, понимаемого как выбор фирмой-производителем степени приращения некоторого конкретного фактора или качества товара, востребованного потребителем. В [6] рассматривается кусочно-вогнутая функция полезности Леонтьева, состоящая из набора сегментов леон-тьевского типа с убывающей отдачей и верхним пределом полезности на каждом сегменте, изучается сложность вычисления равновесий по Фишеру при задействовании модели биржевого рынка. Наконец, в статье [7] с помощью производственной функции Леонтьева исследуется пропускная способность аэропортов. При этом результаты расчетов показывают, что ее применение позво-
ляет достаточно точно прогнозировать заторы, доступность инфраструктуры, выявлять факторы, блокирующие движение на земле, и определять время занятости взлетно-посадочной полосы.
МАТЕРИАЛЫ И МЕТОДЫ
Наиболее часто при регрессионном моделировании сложных систем применяется линейная модель (уравнение) вида:
т -
Ук = £, аХы + ек, к =1 п, (1)
г-1
где у - зависимая переменная;
Xi - г-ая независимая переменная; ai - г-ый оцениваемый параметр; ек - ошибки аппроксимации;
к - номер наблюдения; п - число наблюдений (длина выборки).
Представим уравнение (1) в векторной форме:
у = Ха + е, (2)
где У = ^У^^ Уп )Т , а = (al,■■■, ат )Т , е = (е,,,,, еп)Т, X-(пхт) - матрица
с компонентами Хкг.
Пару (Х, у) будем, в соответствии с принятой терминологией [8, 9], называть выборкой данных.
Несколько менее популярной является кусочно-линейная модель вида:
Ук = а2Хк2 , ■ атХкт } + ек ■ (3)
Ее характерной особенностью является то, что производство продукции системой (переменная у) ограничено объемом лимитирующего ресурса, при этом любое наращивание объемов остальных ресурсов не приводит к росту производства.
В работе [10] исследована задача точной идентификации параметров , г = 1, т уравнения (3) с использованием метода наимень-
ших модулей (далее - МНМ), состоящего в решении задачи:
J(а) = 2 | ек |— шт.
к=1
(4)
Введем в рассмотрение так называемые расчетные (т. е. вычисленные по модели (3)) значения выходной переменной Zk'.
2к = ={^1, а2Хк 2 , ...» ОЛтЬ к = 1 ^ (5) после чего регрессия (3) представима в виде:
Ук = 2к +£к» к =1 п» (6)
или в векторной форме:
У = г + е,
где ^ = )Т.
Следуя стандартному приему раскрытия модулей в выражении (4) [11], введем в рассмотрение переменные щ и ^ по правилу:
Щ =
Ук - 2к»Ук > у I 2к - Ук» % > Ук 0, в пр. случай к 1 0, в пр. случае
Нетрудно видеть, что имеют место тождества:
% + щк - ^к = Ук» к =1 п.
(7)
Из (5) следует справедливость неравенств:
< ахы, к = 1, п, I = 1, т, (8)
причем для каждого k по крайней мере одно из них должно обращаться в равенство. Для достижения этого требования введем тп
булевых переменных <уы, к = 1,п, 1 = 1, т
и сформируем ограничения:
а,хи - гк <(1 - )м, к =1, n, 1 =1 т (9)
т _
2аи = 1, к = 1, п, (10)
1=1 к1
где M - заранее выбранное большое положительное число.
Естественно ввести ограничения неотрицательности переменных:
щ > 0, ^ > 0, к = 1, п.
(11)
Из задания переменных щ и ^ следуют равенства:
\ ^ \= щк + V > иЛ = 0 что позволяет представить функцию (4) в виде:
(а) = 2 (щ + Vк ) — ш1п.
к=1
(12)
Таким образом, задача (4) поиска значений неизвестных параметров а,г = 1, т кусочно-линейной регрессии (3) с помощью МНМ сводится к задаче линейно-булевого программирования (далее - ЛБП) - (7)-(12) с тп + 3п + т переменными (из которых тп - булевы) и 2(тп + п) ограничениями.
Пусть теперь часть выборки - вектор у -задана не точно, а с интервальной неопределенностью, а именно: известен интервальный вектор [у- у+], которому принадлежит у. При этом любые соображения, в том числе вероятностные, уточняющие расположение уь на отрезке [у~ , у+ ], отсутствуют. Вектора у", у+ считаются, таким образом, заданными. Причин проявления интервальной неопределенности в данных может быть несколько (см., например, [12]), основными из них являются погрешность технической измерительной аппаратуры и сбои в работе статистических служб.
Таким образом, по отношению к вычислению неизвестных оценок параметров кусочно-линейной модели (3) задача может быть сформулирована следующим образом: как адаптировать сведение задачи оптимизации (4) к задаче ЛБП (7)-(12) для случая с выборкой данных (X, [у-, у+]) ?
РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ
Для решения поставленной задачи воспользуемся приемом, примененным в работе [13] для оценивания неизвестных параметров линейной модели (1) по выборке (X, [у-, у + ]) в которой данные для зависимой переменной у имеют интервальный характер. В соответствии с этим приемом сначала решается задача линейного программирования (далее - ЛП):
п
п
X(¿-у) + u > у', X(¿-у) -v < y+, u > 0, v > 0, ¿> 0, у > 0,
n
Д u + vk) ^ min
k=1
(13)
(14)
(15)
(16)
после чего вектор параметров а рассчитывается по формуле:
а = ¿-у,
(17)
где / - положительная часть вектора а, у - его отрицательная часть.
Если после решения задачи ЛП (13)-(16) окажется, что и = V = 0, в [13] предлагается максимизировать разрешающую способность ограничений (13), (14) посредством решения задачи ЛП:
X(¿-у) -u > у-, X (¿-у) + v < у+, u > 0, v > 0, ¿> 0, у > 0,
n
Д (uk + vk) ^ min,
k=1
(18)
(19)
(20)
(21)
также с последующим использованием формулы (17).
Займемся теперь анонсируемой выше адаптацией сведения задачи оптимизации (4) к задаче ЛБП (7)-(12) для случая с выборкой данных (X, [у~, у+]) .
Равенства (6) преобразуются в две системы неравенств, аналогичных (13), (14):
z + u > у ,
z - v < у +.
(22) (23)
После этого оценки параметров модели (3) рассчитываются посредством решения задачи ЛБП (22), (23), (8)-(12). Если же,
как и при решении задачи (13)-(16), окажется, что и = V = 0, следует произвести замену ограничений (22), (23) на следующие:
z - u > у ,
z + v < у+
(24)
(25)
и решать задачу ЛП (8)-(12), (24), (25), (21).
Отметим, что необходимость решения задачи линейно-булевого программирования при оценивании параметров кусочно-линейной модели (3) как для точечной (Х, у), так и для интервальной (X, [у~, у+]) выборки не должно вызывать вычислительных трудностей из-за значительного существующего арсенала соответствующих эффективных программных средств (например, размещенной в Интернете в свободном доступе программы LPsolve, использование которой позволяет решать эту задачу за вполне приемлемое время для размерностей, соответствующих реальным объектам моделирования).
ЗАКЛЮЧЕНИЕ
В работе рассмотрена задача оценивания параметров кусочно-линейной регрессии по данным с интервальной неопределенностью для зависимой переменной. Показано, что эта задача сводится к задаче частично-булевого программирования. Ее решение не должно вызывать затруднений ввиду существующего значительного арсенала соответствующих эффективных программных средств (например, размещенной в Интернете в свободном доступе программы ЬРБо1уе и некоторых других разработок [14-16]).
Результаты работы могут быть полезны при исследовании с помощью методов математического моделирования сложных технических и социально-экономических объектов с интервальной неопределенностью в исходных данных, вызванной сбоями в работе измерительных устройств, ошибками в деятельности статистических служб и другими причинами.
Список источников
1. Mo X., Li H., Zhang L., Qu Z. A Novel Air Quality Evaluation Paradigm Based on the Fuzzy Comprehensive Theory // Appl Sci. 2020. Vol. 10, No. 23. Р. 8619.
References
1. Mo X., Li H., Zhang L., Qu Z. A Novel Air Quality Evaluation Paradigm Based on the Fuzzy Comprehensive Theory // Appl Sci. 2020. Vol. 10, No. 23. P. 8619.
2. Tomal J. H., Ciborowski J. J. H. Ecological Models for Estimating Breakpoints and Prediction Intervals // Ecol Evol. 2020. Vol. 10, Is. 23. Р. 13500-13517.
3. Liu S., Papageorgiou L. G. Optimal Antibody Purification Strategies Using Data-Driven Models // Engineering. 2019. Vol. 5, Is. 6. Р. 1077-1092.
4. Bom P. R. D., Rachinger H. A Kinked MetaRegression Model for Publication Bias Correction // Res Synth Methods. 2019. Vol. 10, Is. 4. Р. 497-514.
5. Growiec J. Factor-Specific Technology Choice // Journal of Mathematical Economics. 2018. Vol. 77. Р. 1-14.
6. Garg J. Market Equilibrium under Piecewise Leontief Concave Utilities // Theoretical Computer Science. 2017. Vol. 703. Р. 55-65.
7. Besma H., Riadh H., Rafaa M. Modeling of the Aerial Capacity through a Leontief Production Function: The Case of Tunisian Airports // Journal of Reviews on Global Economics. 2017. Vol. 6. Р. 98-104.
8. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М : Диалектика, 2017. 912 с.
9. Шуметов В. Г, Крюкова О. А. Методология и практика анализа данных в управлении: методы одномерного и двумерного анализа. Орел : ОФ РАНХиГС, 2013. 178 с.
10. Носков С. И. Оценивание параметров аппроксимирующей функции с постоянными пропорциями // Современ. технологии. Систем. анализ. Моделирование. 2013. № 2. С. 135-136.
11. Носков С. И., Хоняков А. А. Программный комплекс построения некоторых типов кусочно-линейных регрессий // Информ. технологии и математ. моделирование в упр. сложными системами. 2019. № 3 (4). С. 47-55.
12. Вощинин А. П., Сотиров Г. Р. Оптимизация в условиях неопределенности. М. : Изд-во МЭИ, 1989. 224 с.
13. Носков С. И. Построение экспертно-статистических моделей по неполным данным // T-Comm: Телекоммуникации и транспорт. 2021. № 6 (15). С. 33-39.
14. Есиков Д. О., Ивутин А. Н., Ларкин Е. В., Новиков А. С. Программа решения задач целочисленного линейного программирования с булевыми переменными : св-во о гос. регистрации программы для ЭВМ № 2015612409 Российская Федерация. EDN UCCUMV.
15. Фильгус Д. И. Программное обеспечение для решения задач булевого программирования : св-во о гос. регистрации программы для ЭВМ № 2019610724 Российская Федерация. EDN OUCAVZ.
16. Есиков Д. О. Программа распределенного решения задач целочисленного программирования с булевыми переменными островным генетическим алгоритмом на кластере : св-во о государственной регистрации программы для ЭВМ № 2018613135 Российская Федерация. EDN DSFWRF.
Информация об авторе
С. И. Носков - доктор технических наук,
профессор, почетный работник сферы образования
Российской Федерации.
2. Tomal J. H., Ciborowski J. J. H. Ecological Models for Estimating Breakpoints and Prediction Intervals // Ecol Evol. 2020. Vol. 10, Is. 23. P. 13500-13517.
3. Liu S., Papageorgiou L. G. Optimal Antibody Purification Strategies Using Data-Driven Models // Engineering. 2019. Vol. 5, Is. 6. P. 1077-1092.
4. Bom P. R. D., Rachinger H. A Kinked MetaRegression Model for Publication Bias Correction // Res Synth Methods. 2019. Vol. 10, Is. 4. P. 497-514.
5. Growiec J. Factor-Specific Technology Choice // Journal of Mathematical Economics. 2018. Vol. 77. P. 1-14.
6. Garg J. Market Equilibrium under Piecewise Leontief Concave Utilities // Theoretical Computer Science. 2017. Vol. 703. P. 55-65.
7. Besma H., Riadh H., Rafaa M. Modeling of the Aerial Capacity through a Leontief Production Function: The Case of Tunisian Airports // Journal of Reviews on Global Economics. 2017. Vol. 6. P. 98-104.
8. Draper N. R., Smith H. Applied Regression Analysis. Moscow : Dialektika, 2017. 912 p. (In Russian).
9. Shumetov V. G., Kryukova 0. A. Metodologiia i praktika analiza dannykh v upravlenii: metody odnomernogo i dvumernogo analiza. Orel : Orel Branch of RANEPA, 2013. 178 p. (In Russian).
10. Noskov S. I. Otsenivanie parametrov approksimi-ruiushchei funktsii s postoiannymi proportsiiami // Modern Technologies. System Analysis. Modeling. 2013. No. 2. P. 135-136. (In Russian).
11. Noskov S. I., Khonyakov A. A. Software Complex for Building Some Types Pieces of Linear Regressions // Information Technology and Mathematical Modeling in the Management of Complex Systems. 2019. No. 3 (4). P. 47-55. (In Russian).
12. Voshchinin A. P., Sotirov G. P. Optimizatsiia v usloviiakh neopredelennosti. Moscow : Publishing House Moscow Power Engineering Institute, 1989. 224 p. (In Russian).
13. Noskov S. I. Construction of Expert-Statistical Models from Incomplete Data // T-Comm. 2021. No. 6 (15). P. 33-39. (In Russian).
14. Esikov D. O., Ivutin A. N., Larkin E. V., Novikov A. S. Program for Problem Solving of Integer Linear Programming with Boolean Variables : Certificate of Registration of a Computer Program No. 2015612409, Russian Federation. EDN UCCUMV. (In Russian).
15. Filgus D. I. Software for Solving Boolean Programming Problems : Certificate of Registration of a Computer Program No. 2019610724, Russian Federation. EDN OUCAVZ. (In Russian).
16. Esikov D. O. Program of Distributed Solution of Problems of Integer Programming with Boolean Variables by Island Genetic Algorithm by Cluster : Certificate of Registration of a Computer Program No. 2018613135, Russian Federation. EDN DSFWRF. (In Russian).
Information about the author
S. I. Noskov - Doctor of Sciences (Engineering),
Professor, Honored Worker of Education of the Russian
Federation.