Научная статья на тему 'МНОГОКРИТЕРИАЛЬНЫЙ ПОДХОД К ПОСТРОЕНИЮ МОДЕЛЕЙ ПАРНО-МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ'

МНОГОКРИТЕРИАЛЬНЫЙ ПОДХОД К ПОСТРОЕНИЮ МОДЕЛЕЙ ПАРНО-МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ Текст научной статьи по специальности «Математика»

CC BY
249
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИЯ ДЕМИНГА / МОДЕЛЬ ПАРНО-МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ / МНОГОКРИТЕРИАЛЬНЫЙ ПОДХОД / АГРЕГИРОВАННЫЙ КРИТЕРИЙ / НЕЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ / DEMING REGRESSION / PAIR-MULTIPLE LINEAR REGRESSION MODEL / MULTI-CRITERIA APPROACH / AGGREGATE CRITERION / NONLINEAR PROGRAMMING

Аннотация научной статьи по математике, автор научной работы — Базилевский Михаил Павлович

Рассматривается модель парно-множественной линейной регрессии, представляющая собой синтез регрессии Деминга и модели множественной линейной регрессии. Показано, что с изменением типа минимизируемого расстояния модель парно-множественной регрессии плавно «трансформируется» из модели парной в модель множественной линейной регрессии. При этом модели парно-множественной регрессии сохраняют возможности интерпретации коэффициентов и прогнозирования значений объясняемой переменной. Предложен агрегированный критерий качества регрессионных моделей, основанный на четырех известных показателях: коэффициенте детерминации, коэффициенте Дарбина – Уотсона, согласованности поведения и средней относительной ошибки аппроксимации. С помощью этого критерия задача многокритериального построения модели парно-множественной линейной регрессии формализована в виде задачи нелинейного программирования. Разработан алгоритм ее приближенного решения. Результаты данной работы могут быть использованы для улучшения суммарных качественных характеристик моделей множественной линейной регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Базилевский Михаил Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTI-CRITERIA APPROACH TO PAIR-MULTIPLE LINEAR REGRESSION MODELS CONSTRUCTING

A pair-multiple linear regression model which is a synthesis of Deming regression and multiple linear regression model is considered. It is shown that with a change in the type of minimized distance, the pair-multiple regression model transforms smoothly from the pair model into the multiple linear regression model. In this case, pair-multiple regression models retain the ability to interpret the coefficients and predict the values of the explained variable. An aggregated quality criterion of regression models based on four well-known indicators: the coefficient of determination, Darbin – Watson, the consistency of behaviour and the average relative error of approximation is proposed. Using this criterion, the problem of multi-criteria construction of a pair-multiple linear regression model is formalized as a nonlinear programming problem. An algorithm for its approximate solution is developed. The results of this work can be used to improve the overall qualitative characteristics of multiple linear regression models.

Текст научной работы на тему «МНОГОКРИТЕРИАЛЬНЫЙ ПОДХОД К ПОСТРОЕНИЮ МОДЕЛЕЙ ПАРНО-МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ»

ИНФОРМАТИКА

Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика. 2021. Т. 21, вып. 1. С. 88-99 Izvestiya of Saratov University. New Series. Series: Mathematics. Mechanics. Informatics, 2021, vol. 21, iss. 1, pp. 88-99

Научная статья УДК 519.862.6

https://doi.org/10.18500/1816-9791-2021-21-1-88-99

Многокритериальный подход к построению моделей парно-множественной линейной регрессии

М. П. Базилевский

Иркутский государственный университет путей сообщения, Россия, 664074, г. Иркутск, ул. Чернышевского, д. 15

Базилевский Михаил Павлович, кандидат технических наук, доцент кафедры математики, mik2178@yandex.ru, https://orcid.org/ 0000-0002-3253-5697

Аннотация. Рассматривается модель парно-множественной линейной регрессии, представляющая собой синтез регрессии Деминга и модели множественной линейной регрессии. Показано, что с изменением типа минимизируемого расстояния модель парно-множественной регрессии плавно «трансформируется» из модели парной в модель множественной линейной регрессии. При этом модели парно-множественной регрессии сохраняют возможности интерпретации коэффициентов и прогнозирования значений объясняемой переменной. Предложен агрегированный критерий качества регрессионных моделей, основанный на четырех известных показателях: коэффициенте детерминации, коэффициенте Дарбина-Уот-сона, согласованности поведения и средней относительной ошибки аппроксимации. С помощью этого критерия задача многокритериального построения модели парно-множественной линейной регрессии формализована в виде задачи нелинейного программирования. Разработан алгоритм ее приближенного решения. Результаты данной работы могут быть использованы для улучшения суммарных качественных характеристик моделей множественной линейной регрессии. Ключевые слова: регрессия Деминга, модель парно-множественной линейной регрессии, многокритериальный подход, агрегированный критерий, нелинейное программирование

Для цитирования: Базилевский М. П. Многокритериальный подход к построению моделей парно-множественной линейной регрессии // Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика. 2021. Т. 21, вып. 1. С. 88-99. https://doi.org/10.18500/1816-9791-2021-21-1-88-99

Статья опубликована на условиях лицензии Creative Commons Attribution License (CC-BY 4.0)

Article

https://doi.org/10.18500/1816-9791-2021-21-1-88-99

Multi-criteria approach to pair-multiple linear regression models

constructing

M. P. Bazilevskiy

Irkutsk State Transport University, 15 Chernyshevskogo St., Irkutsk 664074, Russia Mikhail P. Bazilevskiy, mik2178@yandex.ru, https://orcid.org/0000-0002-3253-5697

Abstract. A pair-multiple linear regression model which is a synthesis of Deming regression and multiple linear regression model is considered. It is shown that with a change in the type of minimized distance, the pair-multiple regression model transforms smoothly from the pair model into the multiple linear regression model. In this case, pair-multiple regression models retain the ability to interpret the coefficients and predict the values of the explained variable. An aggregated quality criterion of regression models based on four well-known indicators: the coefficient of determination, Darbin - Watson, the consistency of behaviour and the average relative error of approximation is proposed. Using this criterion, the problem of multi-criteria construction of a pair-multiple linear regression model is formalized as a nonlinear programming problem. An algorithm for its approximate solution is developed. The results of this work can be used to improve the overall qualitative characteristics of multiple linear regression models. Keywords: Deming regression, pair-multiple linear regression model, multi-criteria approach, aggregate criterion, nonlinear programming

For citation: Bazilevskiy M. P. Multi-criteria approach to pair-multiple linear regression models constructing. Izvestiya of Saratov University. New Series. Series: Mathematics. Mechanics. Informatics, 2021, vol. 21, iss. 1, pp. 88-99 (in Russian). https://doi.org/10.18500/1816-9791-2021-21-1-88-99

This is an open access article distributed under the terms of Creative Commons Attribution License (CC-BY 4.0)

ВВЕДЕНИЕ

Регрессионный анализ [1-4] является признанным инструментом исследования влияния одной или нескольких объясняющих переменных на объясняемую переменную. В большинстве случаев регрессионные модели оцениваются с помощью метода наименьших квадратов (МНК) в предположении, что объясняющие переменные не содержат ошибок. Если же в этих переменных содержатся ошибки, то такие модели в зарубежной литературе принято называть «Errors-In-Variables models» (EIV-модели) или «measurement error models» [5-7]. Для оценивания EIV-моделей к настоящему времени разработан весьма мощный математический аппарат [8-10]. Однако практического применения EIV-модели почти не находят, потому что они не пригодны для точечного прогнозирования и возникают проблемы с их

интерпретацией. Исключением является регрессия Деминга [11,12], которая нашла широкое применение в клинической химии [13,14] и связанных областях.

В работе [15] автор синтезировал регрессию Деминга и модель множественной линейной регрессии. Полученный в результате синтез моделей сохраняет способности интерпретации оценок параметров и прогнозирования значений объясняемой переменной. В работе [16] для разработанного синтеза исследованы зависимости некоторых критериев адекватности от соотношения дисперсий ошибок переменных. При этом экспериментально установлено, что применение предложенного синтеза позволяет существенно повысить некоторые важные характеристики классической модели множественной линейной регрессии за счет незначительного снижения ее аппроксимационного качества. Целью данной работы является формализация многокритериального подхода к построению разработанного синтеза моделей в виде задач нелинейного программирования и разработка приближенных методов их решения.

Стоит отметить, что работа выполнена в рамках логико-алгебраического подхода к обработке статистических данных, при котором предполагается, что никаких априорных сведений об их вероятностной природе нет, поэтому не изучаются традиционные свойства оценок параметров - несмещенность, состоятельность и эффективность.

1. МОДЕЛЬ ПАРНО-МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

Рассмотрим предложенный в работах [15,16] синтез регрессии Деминга и модели множественной линейной регрессии.

Пусть у, хц, г = 1 , п — наблюдаемые значения объясняемой и объясняющей переменной у и х\, а у*, х*х, г = 1 , п — их неизвестные «истинные» значения. Предположим, что между переменными у * и х\ имеет место линейная функциональная зависимость

у* = а + вх*х, г =Т7П, (1)

где а, в — неизвестные параметры.

Наблюдаемые и «истинные» значения переменных у и х\ связаны соотношениями

хц = х*х + е(Х1), у = у* + е(у), г =ТТП, (2)

(у) >1)

где £(У), £( 1 , i = 1,n — ошибки переменных y и жь которые могут быть вызваны, например, неточностями при измерении значений переменных. Никаких априорных сведений об этих ошибках нет.

Совокупность уравнений (1), (2) представляет собой простейшую EIV-модель — регрессию Деминга. Для ее оценивания будем использовать метод наименьших полных квадратов (МНПК), состоящий в минимизации функционала:

n n

F(a,ß,x'n, ...,<1) = 5> - а - ßX1)2 + 1 - x.a)2 ^ min, (3)

i= 1 i=1

где Л = а2(Ж1)/ае2(у) — положительное число, задающее тип расстояния от точек (xi1, yi), i = 1,n до линии регрессии (1) [15]. Так, при Л ^ 0 будет минимизироваться сумма квадратов вертикальных расстояний, при Л ^ 1 — евклидовых расстояний, а при Л ^ то — горизонтальных расстояний.

Задача (3) имеет следующее аналитическое решение:

з Dy - Л-1 DX1 + J(Dy - Л-1 DX1 )2 +4Л-1 KXiу _ ß =-—-, а = y - ,

2KX1 y

-а ß + ßyi + Л1 х^х . _— х* =-=-, i = 1,n, (4)

ix л-1 + в2

где а, в, Xl, i = 1,n — оценки параметров; Dxi, Dy — дисперсии переменных; y — ковариация.

Тогда оценки «истинных» значений объясняемой переменной y находятся по формулам

у* = а + /3X*i, i = 1^. (5)

Рассмотрим, как меняются оценки (5) при варьировании параметра Л.

1. В соответствии с (4), lim ß = вМНК, lim а = аМНК, где /3МНК = Кг1,

аМНК = у —DT^XI — МНК-оценки модели парной линейной регрессии у от хх, а

lim XI = xiX, i = 1,n. Тогда из (5) следует, что lim у* = аМНК + /3МНКxiX, i = 1,n, т.е.

оценки «истинных» значений объясняемой переменной у при Л ^ 0 стремятся к ее расчетным по модели парной линейной регрессии у от хх значениям.

2. Аналогично пределы lim в = -¡ß^-, lim а = у — iß^X1, lim X*, = — f + -iyi,

Л^ж_ Kxi y Л^ж Кх1 У Л^ж 11 р р

i = 1,n. Тогда lim у* = у*, i = 1,n, т.е. оценки «истинных» значений объясняемой

Л^ж

переменной у при Л ^ то стремятся к ее наблюдаемым значениям.

Таким образом, варьирование значений параметра Л от 0 до то приводит к изменению оценок у* от (аМНК + /3МНКх*х) до у*, i = 1,n.

Дополним переменную хх совокупностью объясняющих переменных х2, х3, xm, наблюдаемые значения которых x*j, i = 1,n, j = 2,m. Для исследования влияния переменных хх, х2, х3, xm на переменную у* введем модель множественной линейной регрессии:

m

у** = d0 + ^ djXij + е*, i = 1, n, (6)

j=1

где ¿0, ¿1, ¿т — неизвестные параметры; е, г = 1,п — ошибки модели, присутствие которых в уравнениях (6) означает, что данная связь описывает процесс не точно, а с некоторой погрешностью.

Для оценивания модели (6) с помощью МНК необходимо решить оптимизационную задачу:

G(d0,..., dm) = ^ е2 = - d0 - djx*j)2 ^ min .

i=1 i=1 j=1

Поскольку lim у* = аМНК + /3МНКxi1, i = 1, n, то

Л^0

m

Km G(d0,dm) = МНК + вМНКx*1 - d0 - ^ djXj)2.

^ i=1 j=1

Из этого следует, что задача lim G(d0 ,...,dm) ^ min имеет решение: d0 = а

Л^0

¿1 = вМНК, dj = 0, j = 2Tm. При этом jr е2 = 0.

i=1

МНК

Так как lim y* = yi, i = 1,n, то

А^ж

n / m 4 2

lim G(do,..., dm) = У^ [Vi - do - Y^ dj x,

i = 1 V j=1

Отсюда следует, что задача lim G(d0,dm) ^ min имеет решение при

А^ж

dj = а°МНК, j = 0, m, где аМНК, j = 0,m — МНК-оценки модели множественной линейной регрессии y от x1, x2, ..., xm.

Пусть оцененная с помощью МНК модель (6) имеет вид

m

y *= do + djxj, (7)

j=1

где y*, i = 1,n — расчетные значения переменной y *. Тогда с учетом вышеска-

m

занного lim y* = аМНК + ßMHKxi1, а lim y* = а°НК + Е а°НКx«, i = 1,n, т.е. при

А^0 А^ж j=1 J

Л ^ 0 уравнение (7) принимает вид однофакторной, а при Л ^ то — многофакторной зависимости.

Используем переменную y * в качестве инструмента для получения прогнозных значений объясняемой переменной y. Для этого введем модель парной линейной регрессии:

yi = a + by* + Ui, i = 1,n, (8)

где a, b — неизвестные параметры; ui, i = 1,n — ошибки модели.

МНК-оценки модели (8) являются результатом решения оптимизационной задачи:

nn

Q(a, b) = £ u2 = ^(v, - a - by* )2 ^ min .

i=1 i=1

Рассмотрим МНК-оценки модели (8) при Л ^ 0 и при Л ^ то. 1. Если Л ^ 0, то lim y* = аМНК + ßMHKxi1, i = I~rä. Тогда

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

А^0

lim Q(a, b) = ¿(y< - a - fc(äMHK + ßMHKx„))2.

i=1

Из этого следует, что задача lim Q(a, b) ^ min имеет решение при b(ßMHK) = ßMHK, a + b(aМНК) = аМНК, откуда b = 1, a = 0.

~ m

2. Если Л ^ то, то lim y* = а°НК + Z) аМНКxij, i = 1, п. Тогда

А^ж

j=1

m

Um Q(a, b) = $> - a - b а0МНК + Е ¿М™x«)

i=1 V j=1

Следовательно, задача lim Q(a, b) ^ min имеет решение при b(aМНК) = 0°™, a + b(a°HK) = а°НК, поэтому b =1, a = 0.

2

Таким образом, с увеличением параметра Л от 0 до то оцениваемая с помощью МНК модель (8) плавно «трансформируется» из парной у = аМНК + /3МНКЖ1

т

во множественную у = аМНК + Л аМНКх регрессию. Тогда (8) можно справед-

¿=1

ливо назвать моделью парно-множественной линейной регрессии. Варьируя значения параметра Л, для парно-множественной регрессии можно получить бесчисленное множество различных и не изучавшихся ранее оценок.

С учетом (7) модель (8) представляет собой множественную регрессию вида

у = а + Ь(б0 + 2 б) + и, I = 1,п, т.е. с ограничениями на параметры. Это

7=1

п

означает, что сумма квадратов ее ошибок ^ и2 для любого значения Л не меньше,

«=1

чем сумма квадратов ошибок оцененной с помощью МНК модели множественной линейной регрессии у от х1, х2, хт.

Заметим, что в рассмотренном случае при построении (8) первым шагом было оценивание параметров регрессии Деминга зависимости переменной у от х1. Однако вместо переменной х1 можно использовать любую другую объясняющую переменную из набора х2, х3, хт. Естественно, что при этом будут получены абсолютно другие результаты оценивания парно-множественной линейной регрессии (8).

Отметим также, что модели парно-множественной регрессии для любого значения Л сохраняют возможности интерпретации коэффициентов и прогнозирования значений переменной у.

2. МНОГОКРИТЕРИАЛЬНЫЕ ЗАДАЧИ

Перейдем к формализации многокритериального подхода к построению моделей парно-множественной линейной регрессии (8). Для этого можно использовать, например, следующие известные критерии адекватности [17]:

Я2 — коэффициент детерминации, характеризующий аппроксимационное качество модели и принимающий значения от 0 до 1;

^^ — критерий Дарбина - Уотсона, характеризующий степень автокорреляции ошибок модели, а также уровень коинтеграции во временных рядах и принимающий значения от 0 до 4;

£Р — критерий согласованности поведения (СП-критерий) [17], характеризующий согласованность поведения фактических и расчетных траекторий изменения переменной у и принимающий значения от (1 — п) до (п — 1);

Е — средняя относительная ошибка аппроксимации, так же, как и Я2, характеризующая аппроксимационное качество модели и принимающая значения от 0 до то.

Идеальными значениями для Я2, ^^, £Р и Е являются 1, 2, (п — 1) и 0 соответственно.

Понятно, что для модели (8) эти четыре критерия зависят от параметра Л, поэтому будем обозначать их Я2(Л), ^^(Л), £Р(Л) и Е(Л). Введем их нормированные аналоги:

Ёи2

К (Л) = 1 — Я2 (Л) = п-* , (9)

Е(у< — у )2

К(Л) = 0.512 - DW(Л)| =0.5

2 -

- Ui-i)

i=2

Е «2

i=1

Кз(Л) = 0.5 (l-SpWl=0.5

- — 1

/ n-1 \

Е sign (yi+1 - У)sign (yi+1 - У+«i -«i+1) i=i

1-

1 n

К (Л) = 0.01E (Л) =

i=1

-- 1

(10)

(11)

(12)

где и, г = 1,п — ошибки модели (8) в зависимости от Л.

Очевидно, что область значений каждого из критериев К (Л), К2 (Л), К3 (Л) лежит в интервале от 0 до 1. При этом чем ближе значение К (Л), К2(Л) или К3(Л) к 0, тем выше качество модели. Для критерия К4(Л) наилучшим значением также является 0, однако область его возможных значений не ограничена сверху.

Тогда об общем качестве модели парно-множественной линейной регрессии (8) в зависимости от параметра Л можно судить по значению агрегированного критерия:

5 (Л) = адх К (Л) + ^2 К (Л) + адз К3 (Л) + ^4 К (Л),

где , — некоторые положительные весовые коэффициенты, которые

в случае отсутствия приоритетов критериев можно задать равными. Идеальным значением этого критерия является 0.

Задача 1. Пусть дана объясняемая переменная у и совокупность объясняющих переменных х1, х2, ..., хт. Требуется выбрать такое значение параметра Л модели парно-множественной регрессии (8), оцениваемой на основе регрессии Деминга у от х^, Н £ {1, 2,..., т}, для которого

S(Л) = w1 К1 (Л) + w2К2 (Л) + w3К3(Л) + w4К4(Л) ^ min .

(13)

Формализуем поставленную задачу в виде задачи математического программирования. Первый этап оценивания парно-множественной регрессии предполагает оценивание регрессии Деминга у от х^, поэтому по аналогии с формулами (4), (5) введем ограничения:

D - Л-1^ + ./(D, - Л-1 Dxh)2 + 4Л-1 К

/3 =

Xh У

а = У -

xh У

_ -а/3 + вУ + Л-1 xi,h =

Л-1 + /З2

y* = а + да:

i = 1, -.

(14)

(15)

Так как параметр Л > 0, то введем ограничение

Small ^ Л ^ Large, где Small, Large — малое и большое положительные числа.

(16)

На втором шаге с помощью МНК по формуле (XTX)-1 XTy *, где X — матрица наблюдаемых значений объясняющих переменных, находятся оценки модели (6). Тогда справедливы ограничения

m n m n

d = XI ' zk,j+i , k = 2,m + 1, (17)

j=0 i=1 j=0 i=1

где Zj, i = 1, m + 1, j = 1, m + 1 — элементы матрицы Z = XTX.

На третьем шаге с помощью МНК находятся оценки модели (8), удовлетворяющие условиям

n n n n n

na + /З^У* = £у,,, йХ;у* + = £(18)

i=1 i=1 i=1 i=1 i=1

Ошибки парно-множественной регрессии (8) находятся по формулам

m

и, = у, - (а + ДОо + X]dj)), i = 1,n. (19)

j=1

Тогда решение задачи нелинейного программирования (13) с ограничениями (7), (9)—( 12), (14)—( 19) позволяет определить оптимальное по рассмотренным четырем критериям адекватности значение параметра Л модели парно-множественной линейной регрессии (8). При этом если в функционале (13) w1 = 1, w2 = w3 = w4 = 0, то решением данной задачи будут оценки модели множественной линейной регрессии при Л = Large.

Задача 2. Пусть исследователь не знает, какую именно переменную из набора x1, x2, ..., xm следует включить в спецификацию регрессии Деминга, чтобы обеспечить наилучшее качество модели парно-множественной регрессии по критерию (13). Тогда требуется выбрать из этого набора такую переменную для регрессии Деминга и такое значение параметра Л, чтобы минимизировать критерий (13).

Введем бинарные переменные , j = 1,m, по правилу

I 0, если j-я переменная не входит в регрессию Деминга, Oj = <

11, в противном случае.

Тогда справедливы следующие ограничения:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

m

Oj £ {0,1}, ^ = 1. (20)

j=1

При такой постановке задачи константы , , Xh станут переменными, для которых

m mm

= ^ , = ^ ¿j,y, Xh =^2 jj- (21)

j=1 j=1 j=1

Тогда решение задачи (13) с ограничениями (7), (9)—( 12), (14)-(21) дает ответы сразу на два вопроса: какую переменную из набора x1, x2, ..., xm нужно использовать на первом шаге построения парно-множественной регрессии, и каково при этом значение параметра Л.

3. АЛГОРИТМ ПРИБЛИЖЕННОГО РЕШЕНИЯ ЗАДАЧИ

Для точного решения задачи нелинейного программирования (13), (7), (9)—( 12), (14)-(21) с булевыми переменными можно воспользоваться любым современным оптимизационным программным обеспечением, например программой ЛРМопИог. Вместе с тем существует возможность получения приближенного решения данной задачи. Для этого разработан алгоритм, представленный на рисунке.

Начальные параметры: к - число разбиений; в - точность; Внижн- нижняя граница В2

т

УГ

~=(Dy -DXj /X+J(Dy -DxJX)2+4K2Xjy A, )/2Kxjy, a=y-$Xj,

=—a p/(l/^+p2)+p/(l/^+p2)5~+(l/^)/(l/^+p2)xj5 y *=a+~x *

МНК-оценивание модели множественной линейной регрессии у *

от х 1 2 ,...,хт, определение расчетных значений*

* '

МНК-оценивание модели парной линейной регрессии у от вычисление критериев адекватности (в том числе коэффициента детерминации г)

Вычисление коэффициентов парно-множественной регрессии

Рис. Алгоритм поиска приближенного решения задачи Fig. Algorithm for finding an approximate solution to the problem

Суть алгоритма заключается в том, чтобы разбить интервал Л £ [Small, Large] точками, а затем обычным перебором этих точек и переменных x1, x2, ..., xm определить наилучшее решение задачи. Главной проблемой при разработке алгоритма являлось то, что было не понятно, как нужно разбивать интервал Л £ [Small,Large]. Если это делать равномерно, то, поскольку Large — большое положительное число, в полученных точках оценки парно-множественной регрессии могут быть не представительными, т.е. существенно не отличаться от оценок множественной регрессии. Для решения этой проблемы в алгоритме была реализована следующая последовательность действий. Сначала для регрессии Деминга у от Xj, j £ {1,2,...,m}, значение параметра Л находится по формуле Л^ = , т.е. как для диагональной регрессии [16]. В этой точке оценки парно-множественной регрессии существенно отличаются от оценок множественной регрессии. Затем отрезок Л £ [Small, Лдиаг] равномерно разбивается k точками, нахо-

ддиаг

дится шаг разбиения ДЛ^ = j-. После чего на отрезке Л £ [Лдиаг, Large] в цикле с шагом ДЛ^ продолжают генерироваться новые точки до тех пор, пока на очередной итерации разница между коэффициентами детерминации множественной Rнож и парно-множественной регрессий r не станет меньше наперед заданной точности е.

Стоит отметить, что в алгоритме на рисунке предусмотрено задание ограничения #2ижн на коэффициент детерминации парно-множественной регрессии, т.е. при r < #2ижн модель не будет принимать участия в процедуре выбора наилучших оценок.

ЗАКЛЮЧЕНИЕ

В данной работе рассмотрена модель парно-множественной линейной регрессии, представляющая собой синтез регрессии Деминга и модели множественной линейной регрессии. Задача многокритериального построения парно-множественной регрессии формализована в виде задачи нелинейного программирования. Разработан алгоритм для приближенного решения этой задачи.

Результаты данной работы в дальнейшем будут использованы при реализации методики многокритериального выбора регрессионных моделей, известной в отечественной литературе как «конкурс» моделей.

Список литературы

1. Montgomery D. C, Peck E. A., Vining G. G. Introduction to Linear Regression Analysis. Wiley, 2012. 672 p.

2. Kleinbaum D. G., Kupper L. L., Nizam A., Rosenberg E. S. Applied Regression Analysis and Other Multivariable Methods. Cengage Learning, 2013. 1072 p.

3. Harrell Jr., Frank E. Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis. Springer Series in Statistics, 2015. 582 p.

4. Kuhn M., Johnson K. Applied Predictive Modeling. Springer, 2018. 600 p.

5. Gillard J. An overview of linear structural models in errors in variables regression // REVSTAT - Statistical Journal. 2010. Vol. 8, no. 1. P. 57-80.

6. Xu K., Ma Y., Wang L. Instrument assisted regression for errors in variables models with binary response // Scandinavian Journal of Statistics. 2015. Vol. 42, iss. 1. P. 104-117. https://doi.org/10.1111/sjos.12097

7. Rudelson M., Zhou S. Errors-in-variables models with dependent measurements // Electronic Journal of Statistics. 2017. Vol. 11, № 1. P. 1699-1797. https://doi.org/10.1214/17-EJS1234

8. Gospodinov N., Komunjer I., Ng S. Simulated minimum distance estimation of dynamic models with errors-in-variables // Journal of Econometrics. 2017. Vol. 200, iss. 2. P. 181193. https://doi.org/10.1016/j-.jeconom.2017.06.004

9. Soderstrom T., Soverini U. Errors-in-variables identification using maximum likelihood estimation in the frequency domain // Automatica. 2017. Vol. 79. P. 131-143. https://doi.org/10.1016/j-.automatica.2017.01.016

10. Bianco A. M, Spano P. M. Robust estimation in partially linear errors-in-variables models // Computational Statistics & Data Analysis. 2017. Vol. 106. P. 46-64. https://doi.org/10.1016/j.csda.2016.09.002

11. Deming W. E. Statistical Adjustment of Data. Wiley, 1943. 273 p.

12. Wu C., Yu J. Z. Evaluation of linear regression techniques for atmospheric applications: The importance of appropriate weighting // Atmospheric Measurement Techniques. 2018. Vol. 11. P. 1233-1250. https://doi.org/10.5194/amt-11-1233-2018

13. Henderson C. M, Shulman N. J., MacLean B., MacCoss M. J., Hoofnagle A. N. Skyline performs as well as vendor software in the quantitative analysis of serum 25-hydroxy vitamin D and vitamin D binding globulin // Clinical Chemistry. 2018. Vol. 64, iss. 2. P. 408-410. https://doi.org/10.1373/clinchem.2017.282293

14. Reverter-Branchat G., Bosch J., Vall J., Farre M., Papaseit E., Pichini S., Segura J. Determination of recent growth hormone abuse using a single dried blood spot // Clinical Chemistry. 2016. Vol. 62, iss. 10. P. 1353-1360. https://doi.org/10.1373/clinchem.2016.257592

15. Базилевский М. П. Синтез модели множественной линейной регрессии и регрессии Деминга // Информационные технологии в моделировании и управлении: подходы, методы, решения : материалы II Всероссийской научной конференции с международным участием : в 2 ч. Тольятти, 2019. Ч. 1. С. 64-69.

16. Базилевский М. П. Синтез модели множественной линейной регрессии и регрессии Деминга: исследование зависимостей оценок параметров и критериев адекватности от соотношения дисперсий ошибок переменных // Информационные технологии и математическое моделирование в управлении сложными системами : электрон. науч. журнал. 2019. № 2. С. 18-25. URL: http://ismm-irgups.ru/toma/23-2019 (дата обращения: 19.06.2019).

17. Носков С. И., Базилевский М. П. Построение регрессионных моделей с использованием аппарата линейно-булевого программирования. Иркутск : ИрГУПС, 2018. 176 с.

References

1. Montgomery D. C., Peck E. A., Vining G. G. Introduction to Linear Regression Analysis. Wiley, 2012. 672 p.

2. Kleinbaum D. G., Kupper L. L., Nizam A., Rosenberg E. S. Applied Regression Analysis and Other Multivariable Methods. Cengage Learning, 2013. 1072 p.

3. Harrell Jr., Frank E. Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis. Springer Series in Statistics, 2015. 582 p.

4. Kuhn M., Johnson K. Applied Predictive Modeling. Springer, 2018. 600 p.

5. Gillard J. An overview of linear structural models in errors in variables regression. REVSTAT - Statistical Journal, 2010, vol. 8, no. 1, pp. 57-80.

6. Xu K., Ma Y., Wang L. Instrument assisted regression for errors in variables models with binary response. Scandinavian Journal of Statistics, 2015, vol. 42, iss. 1, pp. 104-117. https://doi.org/10.1111/sjos.12097

7. Rudelson M., Zhou S. Errors-in-variables models with dependent measurements. Electronic Journal of Statistics, 2017, vol. 11, no. 1, pp. 1699-1797. https://doi.org/10.1214/17-EJS1234

8. Gospodinov N., Komunjer I., Ng S. Simulated minimum distance estimation of dynamic models with errors-in-variables. Journal of Econometrics, 2017, vol. 200, iss. 2, pp. 181193. https://doi.org/10.1016/jjeconom.2017.06.004

9. Soderstrom T., Soverini U. Errors-in-variables identification using maximum likelihood estimation in the frequency domain. Automatica, 2017, vol. 79, pp. 131-143. https://doi.org/10.1016/j-.automatica.2017.01.016

10. Bianco A. M., Spano P. M. Robust estimation in partially linear errors-in-variables models. Computational Statistics & Data Analysis, 2017, vol. 106, pp. 46-64. https://doi.org/10.1016/j-.csda.2016.09.002

11. Deming W. E. Statistical Adjustment of Data. Wiley, 1943. 273 p.

12. Wu C., Yu J. Z. Evaluation of linear regression techniques for atmospheric applications: The importance of appropriate weighting. Atmospheric Measurement Techniques, 2018, vol. 11, pp. 1233-1250. https://doi.org/10.5194/amt-11-1233-2018

13. Henderson C. M., Shulman N. J., MacLean B., MacCoss M. J., Hoofnagle A. N. Skyline performs as well as vendor software in the quantitative analysis of serum 25-hydroxy vitamin D and vitamin D binding globulin. Clinical Chemistry, 2018, vol. 64, iss. 2, pp. 408-410. https://doi.org/10.1373/clinchem.2017.282293

14. Reverter-Branchat G., Bosch J., Vall J., Farre M., Papaseit E., Pichini S., Segura J. Determination of recent growth hormone abuse using a single dried blood spot. Clinical Chemistry, 2016, vol. 62, iss. 10, pp. 1353-1360. https://doi.org/10.1373/clinchem.2016.257592

15. Bazilevskiy M. P. Synthesis of the multiple linear regression and deming regression model. Informatsionnye tekhnologii v modelirovanii i upravlenii: podkhody, metody, resheniya: materialy II Vserossiiskoi nauchnoi konferentsii s mezhdunarodnym uchastiem [Information Technologies in Modeling and Management: Approaches, Methods, Solutions: Materials of the II All-Russian Scientific Conference with International Participation: in 2 pt.]. Tolyatti, 2019, pt. 1, pp. 64-69 (in Russian).

16. Bazilevskiy M. P. Synthesis of multiple linear regression and Deming regression model's: investigation the dependences of parameter estimates and adequacy criteria on the ratio of variance error variables. Informacionnye tehnologii i matematicheskoe modelirovanie v upravlenii slozhnymi sistemami: ehlektronnyj nauchnyj zhurnal [Information technology and mathematical modeling in the management of complex systems: electronic scientific journal], 2019, no. 2, pp. 18-25 (in Russian). Available at: http://ismm-irgups.ru/toma/23-2019 (accessed 19 June 2019).

17. Noskov S. I., Bazilevskiy M. P. Postroyenie regressionnykh modeley s ispol'zovaniem apparata lineino-bulevogo programmirovaniya [Construction of Regression Models Using Linear Boolean Programming]. Irkutsk, IrGUPS, 2018. 176 p. (in Russian).

Поступила в редакцию / Received 11.11.2019 Принята к публикации / Accepted 07.10.2020 Опубликована / Published 01.03.2021

i Надоели баннеры? Вы всегда можете отключить рекламу.