Научная статья на тему 'ВЫБОР ОПТИМАЛЬНОГО СООТНОШЕНИЯ МЕЖДУ ТОЧНОСТЬЮ И НЕЛИНЕЙНОСТЬЮ ПРИ ПОСТРОЕНИИ КВАЗИЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ'

ВЫБОР ОПТИМАЛЬНОГО СООТНОШЕНИЯ МЕЖДУ ТОЧНОСТЬЮ И НЕЛИНЕЙНОСТЬЮ ПРИ ПОСТРОЕНИИ КВАЗИЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ Текст научной статьи по специальности «Математика»

CC BY
34
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник кибернетики
ВАК
Область наук
Ключевые слова
КВАЗИЛИНЕЙНАЯ РЕГРЕССИЯ / КРИТЕРИЙ НЕЛИНЕЙНОСТИ ПО ПЛОЩАДИ / КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ / ДВУХКРИТЕРИАЛЬНАЯ ЗАДАЧА / МНОЖЕСТВО ПАРЕТО

Аннотация научной статьи по математике, автор научной работы — Базилевский М. П., Караулова А. В.

При построении квазилинейных регрессионных моделей возникает проблема выбора оптимального соотношения между их точностью и нелинейностью. Цель работы заключается во внедрении разработанных ранее критериев нелинейности по площади в технологию организации «конкурса» моделей. Для этого сформулирована двухкритериальная задача, состоящая в максимизации коэффициента детерминации и одновременной минимизации критерия нелинейности, и предложено два способа ее решения. Первый способ основан на формировании множества Парето, с помощью которого можно визуально выбрать наиболее приемлемую альтернативу. Второй способ более эффективен с вычислительной точки зрения, поскольку на первом его этапе исключаются значительно нелинейные переменные. Затем из возможных спецификаций выбирается регрессия с наибольшим значением коэффициента детерминации. Предложенные способы решения двухкритериальной задачи продемонстрированы на примере моделирования работы выпарного аппарата.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SELECTING THE OPTIMUM RELATIONSHIP BETWEEN ACCURACY AND NON-LINEARITY IN CONSTRUCTING QUASI-LINEAR REGRESSION MODELS

The problem of selecting the optimum relationship between the accuracy and non-linearity is arising when constructing quasi-linear regression models. A two-criterial problem consisting of maximizing the coefficient of determinant and simultaneous minimization of non-linearity criterion was formed to implement the previously developed criteria of non-linearity for area into the technology of arrangement of models “competition”. Two methods were proposed to solve the problem. The first method is based on the Pareto set, which makes it possible to visually select the most suitable alternative. The second method is more efficient from the calculating point of view as it eliminates the highly non-linear variables. After that, the regression with the highest value of the determinant coefficient is being selected out of possible specifications. The proposed methods for solution of two-criterial problem are demonstrated on the example of stimulating the operation of an evaporator.

Текст научной работы на тему «ВЫБОР ОПТИМАЛЬНОГО СООТНОШЕНИЯ МЕЖДУ ТОЧНОСТЬЮ И НЕЛИНЕЙНОСТЬЮ ПРИ ПОСТРОЕНИИ КВАЗИЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ»

УДК 519.237.5

DOI 10.34822/1999-7604-2021 -4-63-70

ВЫБОР ОПТИМАЛЬНОГО СООТНОШЕНИЯ МЕЖДУ ТОЧНОСТЬЮ И НЕЛИНЕЙНОСТЬЮ ПРИ ПОСТРОЕНИИ КВАЗИЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ

М. П. Базилевский А. В. Караулова

Иркутский государственный университет путей сообщения, Иркутск, Россия

м E-mail: mik2178@yandex. ru

При построении квазилинейных регрессионных моделей возникает проблема выбора оптимального соотношения между их точностью и нелинейностью. Цель работы заключается во внедрении разработанных ранее критериев нелинейности по площади в технологию организации «конкурса» моделей. Для этого сформулирована двухкритериальная задача, состоящая в максимизации коэффициента детерминации и одновременной минимизации критерия нелинейности, и предложено два способа ее решения. Первый способ основан на формировании множества Парето, с помощью которого можно визуально выбрать наиболее приемлемую альтернативу. Второй способ более эффективен с вычислительной точки зрения, поскольку на первом его этапе исключаются значительно нелинейные переменные. Затем из возможных спецификаций выбирается регрессия с наибольшим значением коэффициента детерминации. Предложенные способы решения двухкритериальной задачи продемонстрированы на примере моделирования работы выпарного аппарата.

Ключевые слова: квазилинейная регрессия, критерий нелинейности по площади, коэффициент детерминации, двухкритериальная задача, множество Парето.

SELECTING THE OPTIMUM RELATIONSHIP BETWEEN ACCURACY AND NON-LINEARITY IN CONSTRUCTING QUASI-LINEAR REGRESSION MODELS

M. P. Bazilevsky A. V. Karaulova

Irkutsk State Transport University, Irkutsk, Russia B E-mail: [email protected]

The problem of selecting the optimum relationship between the accuracy and non-linearity is arising when constructing quasi-linear regression models. A two-criterial problem consisting of maximizing the coefficient of determinant and simultaneous minimization of non-linearity criterion was formed to implement the previously developed criteria of non-linearity for area into the technology of arrangement of models "competition". Two methods were proposed to solve the problem. The first method is based on the Pareto set, which makes it possible to visually select the most suitable alternative. The second method is more efficient from the calculating point of view as it eliminates the highly non-linear variables. After that, the regression with the highest value of the determinant coefficient is being selected out of possible specifications. The proposed methods for solution of two-criterial problem are demonstrated on the example of stimulating the operation of an evaporator.

Keywords: quasi-linear regression, non-linearity criterion for area, coefficient of determination, two-criteria problem, Pareto set.

Введение

Как известно, методология математического моделирования [1] состоит в замене исходного объекта его «образом» (математической моделью) и его дальнейшем изучении

с помощью компьютерных программ. Среди многочисленных свойств математических моделей можно выделить адекватность и сложность. Под адекватностью модели понимают ее соответствие изучаемому объекту или процессу. Сложная модель характеризуется громоздкостью, большим количеством входящих в нее факторов, нелинейностью и неудобством в обращении, поэтому помимо адекватности к математической модели предъявляется требование достаточной простоты [2]. Но, как правило, простота и адекватность связаны обратной зависимостью: чем более адекватна модель, тем она менее проста и тем труднее ее интерпретировать. Возникает проблема выбора оптимального в некотором смысле соотношения между простотой и адекватностью математической модели.

Распространенным инструментом построения математических моделей статистического типа является регрессионный анализ [3]. При построении регрессионной модели также следует добиваться компромисса между точностью ее оценивания и сложностью. Известный подход к решению этой проблемы состоит в генерации множества альтернативных вариантов регрессий и выборе оптимального из них либо на основе скорректированного критерия детерминации, либо с помощью информационных критериев Акаике и Шварца [4]. Все перечисленные критерии «штрафуют» модель за дополнительно включенные факторы. В работе [5] рассмотрены алгоритмы поиска компромисса между точностью и сложностью при построении нечетких аппроксиматоров. При этом в качестве критериев выступают среднеквадратичная ошибка и число нечетких правил. В [6] предлагается строить множество Парето, из которого конечный пользователь может выбрать модель в зависимости от своих предпочтений. В [7] для достижения баланса между сложностью и точностью регрессионной модели введен функционал, представляющий собой линейную свертку двух критериев - меры соответствия модели измерениям и меры сложности модели

тах

I

Ж2 х Ж2 у

как меры кривизны функции х(?) .

Качественным способом выбора математической формы регрессионной зависимости является технология организации «конкурса» моделей [8], в основе которой лежит многокритериальный подход. С помощью этой технологии успешно решено множество прикладных задач анализа данных (см., например, [9-11]). Часто при организации «конкурса» формирование альтернативных вариантов моделей осуществляется в классе квазилинейных регрессий, которые легко оцениваются с помощью метода наименьших квадратов (МНК). К сожалению, выбранную из этого множества альтернатив наилучшую квазилинейную модель весьма затруднительно интерпретировать из-за входящих в нее нелинейных преобразований. Поэтому в работе [12] специально для таких регрессий были разработаны критерии нелинейности по площади и длине дуги. В [13] эти критерии были обобщены на случай многих переменных. В [14] доказано, что критерии нелинейности по площади не зависят от коэффициентов регрессии. Целью данной работы является «внедрение» критериев нелинейности по площади в технологию организации «конкурса» моделей, что позволит строить квазилинейные регрессии с оптимальным соотношением между их точностью и нелинейностью.

Формулировка двухкритериальной задачи

Рассмотрим квазилинейную модель вида

д т _

У, = ао + (х) + Ъ> , = п> (1)

к=1 ]=1

где , , = 1, п - значения объясняемой переменной у ; х^ > 0, , = 1, п, = 1, т - значения т объясняющих переменных; £1, , = 1, п - ошибки аппроксимации; /к (х) , к = 1, д - элементар-

2

'тт

ные функции; а0, а , к = 1, д, , = 1, т - неизвестные параметры модели; п - количество наблюдений.

Будем считать, что в спецификацию (1) каждая преобразованная объясняющая переменная должна входить только один раз. Тогда модель (1) можно записать в виде

т _

у, = а+Е аЛ(ху)+, ,=^п, (2)

3=1

где 1 <д - элемент вектора 0 = , указывающий номер преобразования для

]-й объясняющей переменной.

Сформулируем следующую однокритериальную задачу. Требуется выбрать такие компоненты вектора О в регрессионной модели (2), которые обеспечивали бы наилучшее качество аппроксимации по величине коэффициента детерминации Я2. Таким образом, целевая функция в этой задаче имеет вид Я2 ^ тах .

Точное решение сформулированной задачи может быть найдено с помощью организации «конкурса» моделей по следующему алгоритму:

1. Генерируется множество всех возможных спецификаций модели (2), общее число которых дт.

2. Каждая регрессия оценивается с помощью МНК.

3. Выбирается наилучшая модель по величине Я2.

К сожалению, построенная в результате проведенного «конкурса» квазилинейная модель может быть в значительной степени нелинейной, а значит, сложной. Возникает проблема, связанная с оценкой степени ее нелинейности. Понятно, что чем выше степень нелинейной квазилинейной регрессии, тем труднее интерпретировать коэффициенты при нелинейно преобразованных переменных.

Для количественной оценки степени нелинейности квазилинейных регрессий в работах [12-14] были разработаны критерии нелинейности «по площади» и «по длине дуги». В основе создания таких критериев лежит идея, согласно которой в экономике вычисляется коэффициент Джини.

Предположим, что в модели (2) в качестве преобразований /ш (х) , , = 1, т выступают непрерывные и монотонные на отрезках [х^п, Хтах ^, = 1, т элементарные функции, где

Хтп = т1П К,, Х2 3Хпз } , Хтах = таХ К , Х2у Хщ } , 3 = ^ .

Пусть оцененная, например, с помощью МНК модель (2) имеет вид:

>> = «о(3)

7=1

где а0, а1, ..., ат - оцененные параметры модели.

Обозначим в (3) gj(л-) = (л'/), / = \,т . Тогда эти функции также будут непрерывными и монотонными на отрезках [х^п, х^ ], , = 1, т . При этом графики функций ^ (х]) проходят через точки М] и • Проведем через пары то-

чек М] и N прямые р(х.), уравнения которых имеют вид:

р (х,) = к,х, + Ь ,, 3 =т . (4)

Критерий нелинейности функции ^ (х.) «по площади» находится по формуле:

НС3 О) = Ба (j)/SA(j), (5)

где (j) - площадь между прямой < (х}) и кривой gJ (х}) на отрезке [х^, х^ ]; ,А( j) -площадь прямоугольного треугольника с гипотенузой М N ■ •

Каждый из критериев нелинейности (5) принимает значение от 0 до 1. Если N0 (j) = 0, то преобразование j -й независимой переменной является линейным. Если ЫС5 (j) ^ 1, то преобразование j -й независимой переменной в значительной степени нелинейно.

В случае слабой нелинейности, т. е. при НС (j)~ 0, можно считать, что кривая gj(Xj) практически не отличается от прямой ф.(ху.) на отрезке , ] • Тогда вместо соответствующего неинтерпретируемого коэффициента ег можно интерпретировать угловой коэффициент к. прямой (4).

В работе [14] установлено, что критерии нелинейности (5) не зависят от оценок квазилинейной регрессии и находятся по формулам

NCS (j) =

Тем самым можно выявлять степень нелинейности спецификаций квазилинейных регрессий еще до этапа их оценивания. Это обстоятельство можно использовать при организации «конкурса» моделей, исключая на начальной стадии значительно нелинейные регрессии, что сократит время построения наилучшей зависимости.

Отметим, что квазилинейная регрессия (3) характеризуется множеством из m критериев нелинейности (5). Для оценки степени ее нелинейности в целом применяется критерий верхней границы нелинейности:

L = max{NC,(1),NCs(2),...,NCS(m)} . (7)

Критерий (7) обладает теми же свойствами, что и его компоненты (5).

Сформулируем следующую двухкритериальную задачу. Требуется выбрать такие компоненты вектора Q в регрессионной модели (2), которые обеспечивали бы как ее высокое качество аппроксимации по величине коэффициента детерминации R2, так и низкую степень нелинейности по критерию L. В таком случае целевые функции имеют вид R2 ^ max, L ^ min.

Решение сформулированной двухкритериальной задачи возможно двумя способами.

Способ 1. Сначала сгенерировать и оценить с помощью МНК все возможные спецификации модели (2), потом для каждого уравнения вычислить значения критериев R2 и L , а затем сформировать множество недоминируемых альтернатив (множество Парето). При небольшом количестве образующих множество Парето альтернатив можно путем визуального просмотра значений критериев выбрать наиболее приемлемую альтернативу.

Способ 2. Сначала исключить преобразованные переменные, для которых величина критерия нелинейности NCS (j) превосходит некоторое наперед заданное значение

fo (XLax ) + fo (Ximn )

•^max

2 j fj(X )dx

fO (Xmax ) fo (Xmin ) (

| X - XJ

max min

) ( fo (X^ax ) fo (^in ) )

j = 1, m

(6)

5 е [0,1; 0,3]. На основе оставшихся переменных сформировать и оценить все возможные

спецификации модели (2), потом для каждого уравнения вычислить значения критерия Я2 и выбрать наилучшую альтернативу.

т

Первый способ требует оценки всех дт регрессионных моделей, а второй - ^ ,

1=1

где q. - количество преобразований ] -й объясняющей переменной, для которых ЫС3 (1) < 5 . Поэтому второй способ с вычислительной точки зрения эффективнее, чем первый.

Моделирование работы выпарного аппарата

Продемонстрируем способы решения сформулированной выше двухкритериальной задачи на примере моделирования работы выпарного аппарата на большом промышленном предприятии. Для этого использовалась известная выборка данных (табл. 1) из монографии [15] по следующим переменным:

у - количество используемого пара в фунтах ежемесячно;

X - средняя температура воздуха по шкале Фаренгейта;

х2 - число рабочих дней в месяце.

Таблица 1

Статистические данные

№ У Х1 Х2

1 10,98 35,3 20

2 11,13 29,7 20

3 12,51 30,8 23

4 8,4 58,8 20

5 9,27 61,4 21

6 8,73 71,3 22

7 6,36 74,4 11

8 8,5 76,7 23

9 7,82 70,7 21

10 9,14 57,5 20

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11 8,24 46,4 20

12 12,19 28,9 21

13 11,88 28,1 21

14 9,57 39,1 19

15 10,94 46,8 23

16 9,58 48,5 20

17 10,09 59,3 22

18 8,11 70 22

19 6,83 70 11

20 8,8 74,5 23

21 7,68 72,1 20

22 8,47 58,1 21

23 8,86 44,6 20

24 10,36 33,4 20

25 11,08 28,6 22

Примечание: составлено авторами по [15].

В качестве элементарных функций выступали / (х) = х, / (х) = х 1, / (х) = х 2,

Л(х) = х-0'5, /5(х) = 4х, /6(х) = х2, /7(х) = х3, /8(х) = 1пх, /9(х) = 20,05х .

Сначала задача R2 ^ max, L ^ min была решена первым способом. Для этого были сгенерированы и с помощью МНК оценены все возможные спецификации модели (2), общее число которых составило qm = 92 = 81. Для каждой такой регрессии были вычислены значения критериев R2 и L , по которым была построена точечная диаграмма (рис.).

Рис. Точечная диаграмма для критериев R и L

Примечание: составлено авторами.

Как видно по рисунку, критерий R2 принимает свое наибольшее значение 0,8979 для регрессии с переменными х~0,5 и х2, для которой L = 0,2459. Для линейной регрессии, у которой L = 0, R2 составляет 0,8505. Понятно, что модель с оптимальным соотношением точности и нелинейности следует искать в нижнем правом углу рисунка.

Далее по значениям критериев R2 и L было сформировано множество Парето:

у = 0,161 + 49,877х~ + 0,000236x2 > & = 8979 > L = 2459> (8)

у = 21,746 - 3,691nXj + 0,000238x2, r2 = 8969, L = 0,2259, (9)

у = 20,996-3,63^^+0,00619x2, =0,8863, L = 0,1646, (10)

у = 14,312-1,047^/д~ + 0,00621х22, R2 =0,8788, ¿ = 0,1176, (11)

v = 10,165-1,041^ + 3,305-2°^, R2 =0,8731, L = 0,082, (12)

v = 6,561-0,073^+3,315• 20Д)5"2, R2 =0,8608, L = 0,069, (13)

y = 9,167-0,0727^+0,201x2, R2 =0,8505, 1 = 0. (14)

Стоит обратить внимание на последовательность трансформации нелинейной регрессии (8) в линейную регрессию (14). Модель (9) получена из (8) путем замены х~0,5 на ln х,

(10) из (9) - х23 на х2, (11) из (10) - ln х на ^, (12) из (11) - х2 на 20 05Х2, (13) из (12) - ^

на х, (14) из (13) - 2005Х2 на х2.

Выбор наилучшей из альтернатив (8) - (14) в этом случае остается за исследователем. Затем задача R2 ^ max, L ^ min была решена вторым способом. Предварительно были найдены значения критериев нелинейности NC (j) для каждой преобразованной переменной. Эти значения приведены в табл. 2.

Таблица 2

Значения критериев нелинейности для преобразованных переменных

NC. x x-2 x-1 x05 yjx x2 x3 ln x 20,05x

xl 0 0,4631 0,3239 0,2459 0,0820 0,1546 0,2885 0,1646 0,2683

x2 0 0,3529 0,2415 0,1823 0,0608 0,1116 0,2259 0,1218 0,0691

Примечание: составлено авторами на основании данных, полученных в ходе вычислительного эксперимента.

После этого были исключены переменные, для которых величина NC (J) превосходит значение ô = 0,1. В результате из 18 преобразованных переменных осталось 5: x, -sfx , x2, и 20'05*2. На основе этих пяти преобразованных переменных нужно оценить всего 6 моделей, а не 81, как в предыдущем случае. Лучшей из этих шести регрессий по критерию R2 оказалась модель (12).

Модель (12) является практически линейной, потому что ее критерий L = 0,082.

Тогда вместо неинтерпретируемых коэффициентов при переменных Jx и 20'05*2, равных 1,041 и 3,305 соответственно, можно интерпретировать соответствующие угловые коэффициенты прямых (4): k = —0,074 и k2 = 0,208. Заметим, что эти значения незначительно отличаются от коэффициентов линейной регрессии (14). Коэффициент k показывает, что с увеличением средней температуры воздуха x на 1 °F количество используемого пара уменьшается в среднем на 0,074 фунта. А коэффициент k показывает, что с ростом числа рабочих дней в месяце x на 1 единицу количество используемого пара увеличивается в среднем на 0,208 фунта.

Заключение

В работе для выбора оптимального соотношения между точностью и нелинейностью при построении квазилинейных регрессионных моделей сформулирована двухкритериальная задача и предложено 2 способа ее решения. В дальнейшем разработанный математический аппарат планируется реализовать в виде универсального программного комплекса, позволяющего исследователю принимать обоснованные решения об оптимальной структурной спецификации регрессионного уравнения, оцениваемого на основе статистических данных из любой предметной области. Кроме того, вызывает интерес исследование проблемы оценки степени нелинейности квазилинейных регрессий, включающих в себя одну и ту же объясняющую переменную с разными преобразованиями.

Литература

1. Самарский А. А., Михайлов А. П. Математическое моделирование: Идеи. Методы. Примеры. М. : Физматлит, 2001. 320 с.

2. Мышкис А. Д. Элементы теории математических моделей. М. : КомКнига, 200l. 192 с.

3. Westfall P. H., Arias A. L. Understanding Regression Analysis: A Conditional Distribution Approach. Chapman and Hall/CRC, 2020. 514 p.

4. Portet S. A Primer on Model Selection Using the Akaike Information Criterion // Infectious Disease Modelling. 2020. Vol. 5. P. 111-128.

5. Ходашинский И. А., Горбунов И. В. Алгоритмы поиска компромисса между точностью и сложностью при построении нечетких аппроксиматоров // Автометрия. 2013. Т. 49, № 6. С. 51-б1.

6. Ходашинский И. А., Горбунов И. В., Синьков Д. С. Алгоритмы генерации структур двухкритериальных Парето-оптимальных нечетких аппроксиматоров // Доклады Томск. гос. ун-та систем управления и радиоэлектроники. 2013. № 1 (27). С. 135-142.

7. Соколов А. В., Волошинов В. В. Выбор математической модели: баланс между сложностью и близостью к измерениям // International Journal of Open Information Technologies. 2018. Т. 6, № 9. С. 33-41.

8. Носков С. И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск : Облинформпечать, 1996. 321 с.

9. Баенхаева А. В., Базилевский М. П., Носков С. И. Моделирование валового регионального продукта Иркутской области на основе применения методики множественного оценивания регрессионных параметров // Фундамент. исслед. 2016. № 10-1. С. 9-14.

10. Носков С. И., Врублевский И. П. Регрессионная модель динамики эксплуатационных показателей функционирования железнодорожного транспорта // Современные технологии. Системный анализ. Моделирование. 2016. № 2 (50). С. 192-197.

11. Глухов Н. И., Носков С. И., Попов П. Ю. Математическая модель динамики компьютерных преступлений // Информ. технологии и матем. моделирование в управлении сложными системами. 2020. № 1 (6). С. 1-8.

12. Базилевский М. П. Критерии нелинейности квазилинейных регрессионных моделей // Моделирование, оптимизация и информ. технологии. 2018. Т. 6, № 4 (23). С. 185-195.

13. Базилевский М. П. Критерии нелинейности многофакторных квазилинейных регрессий // Молодежь и наука: актуальные проблемы фундаментальных и прикладных исследований : материалы II Всерос. национал. науч. конф. студентов, аспирантов и молодых ученых (08-12 апреля 2019 г., г. Комсомольск-на-Амуре). Комсомольск-на-Амуре : Комсомольский-на-Амуре гос. ун-т, 2019. С. 210-213.

14. Базилевский М. П., Караулова А. В. Предварительное оценивание степени нелинейности структурных спецификаций квазилинейных регрессий // Матем. методы в технике и технологиях - ММТТ. 2020. Т. 5. С. 49-52.

15. Draper N. R., Smith H. Applied Regression Analysis. John Wiley & Sons, 1998. 705 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.