Научная статья на тему 'Идентификация смешанных аддитивных регрессионных моделей многоуровневых систем'

Идентификация смешанных аддитивных регрессионных моделей многоуровневых систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
регрессионная модель / многоуровневая система / дисперсия ошибки / метод неопределенных множителей Лагранжа / урожайность зерновых культур / regression model / multilevel system / error variance / Lagrange method of uncertain multipliers / grain yield

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Овчинников Петр Вячеславович, Ткачев Александр Николаевич, Мирославская Мария Дмитриевна, Лобова Татьяна Владимировна

Рассмотрена задача статистического оценивания параметров смешанной регрессионной модели двухуровневой иерархической абстрактной системы, осуществляющей преобразование набора входных переменных в выходную. Считается, что формирование отклика происходит в результате последовательно выполняемых на двух уровнях преобразований. На первом уровне системы определяются промежуточные переменные в виде линейных функций входных параметров. На втором уровне формируется отклик системы в виде смеси переменных первого уровня. Приведено решение задачи идентификации двухуровневой модели, предполагающее нахождение функциональных соотношений, описывающих формирование параметров системы на каждом из уровней. Задача идентификации сведена к минимизации общей дисперсии ошибки приближения отклика системы на множестве линейных регрессий. Показано, что параметры модели можно найти методом неопределенных множителей Лагранжа. Представлены результаты валидации модели с использованием случайно смоделированных данных при заданных функциональных связях между переменными. Разработанная численная процедура идентификации параметров двухуровневой регрессии апробирована при построении модели, описывающей изменения урожайности зерновых и зернобобовых культур в зависимости от климатических характеристик, а также количества используемых для подкормки минеральных и органических удобрений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Овчинников Петр Вячеславович, Ткачев Александр Николаевич, Мирославская Мария Дмитриевна, Лобова Татьяна Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Identification of mixed adaptive regression models of multilevel systems

We consider the problem of statistical estimation of the parameters of a mixed regression model of a two level hierarchical abstract system that transforms a set of input variables into output ones. It is believed that the formation of a response occurs as a result of transformations sequentially performed at two levels. At the first level of the system, intermediate variables are determined in the form of linear functions of the input parameters. At the second level, the system response is formed in the form of a mixture of variables of the first level. A solution to the problem of identifying a two level model is presented, which involves finding functional relationships that describe the formation of system parameters at each level. The identification problem comes down to minimizing the total variance of the system response approximation error on a set of linear regressions. It is shown that the model parameters can be found by the Lagrange multiplier method. The results of model validation using randomly simulated data with given functional relationships between variables are presented. The developed numerical procedure for identifying two level regression parameters was tested in constructing a model that describes changes in the yield of grain and leguminous crops depending on climatic characteristics, as well as the amount of mineral and organic fertilizers used for fertilizing.

Текст научной работы на тему «Идентификация смешанных аддитивных регрессионных моделей многоуровневых систем»

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Научная статья УДК 303.732.3

http://dx.doi.org/10.17213/1560-3644-2024-2-28-39

Идентификация смешанных аддитивных регрессионных моделей многоуровневых систем

П.В. Овчинников, А.Н. Ткачев, М.Д. Мирославская, Т.В. Лобова

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия

Аннотация. Рассмотрена задача статистического оценивания параметров смешанной регрессионной модели двухуровневой иерархической абстрактной системы, осуществляющей преобразование набора входных переменных в выходную. Считается, что формирование отклика происходит в результате последовательно выполняемых на двух уровнях преобразований. На первом уровне системы определяются промежуточные переменные в виде линейных функций входных параметров. На втором уровне формируется отклик системы в виде смеси переменных первого уровня. Приведено решение задачи идентификации двухуровневой модели, предполагающее нахождение функциональных соотношений, описывающих формирование параметров системы на каждом из уровней. Задача идентификации сведена к минимизации общей дисперсии ошибки приближения отклика системы на множестве линейных регрессий. Показано, что параметры модели можно найти методом неопределенных множителей Лагранжа. Представлены результаты валидации модели с использованием случайно смоделированных данных при заданных функциональных связях между переменными. Разработанная численная процедура идентификации параметров двухуровневой регрессии апробирована при построении модели, описывающей изменения урожайности зерновых и зернобобовых культур в зависимости от климатических характеристик, а также количества используемых для подкормки минеральных и органических удобрений.

Ключевые слова: регрессионная модель, многоуровневая система, дисперсия ошибки, метод неопределенных множителей Лагранжа, урожайность зерновых культур

Для цитирования: Идентификация смешанных аддитивных регрессионных моделей многоуровневых систем / П.В. Овчинников, А.Н. Ткачев, М.Д. Мирославская, Т.В. Лобова // Изв. вузов. Сев.-Кавк. регион. Техн. науки. 2024. № 2. С. 28-39. http://dx.doi.org/10.17213/1560-3644-2024-2-28-39.

Original article

Identification of mixed adaptive regression models of multilevel systems

P.V. Ovchinnikov, A.N. Tkachev, M.D. Miroslavskaya, T.V. Lobova

Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia

Abstract. We consider the problem of statistical estimation of the parameters of a mixed regression model of a two-level hierarchical abstract system that transforms a set of input variables into output ones. It is believed that the formation of a response occurs as a result of transformations sequentially performed at two levels. At the first level of the system, intermediate variables are determined in the form of linear functions of the input parameters. At the second level, the system response is formed in the form of a mixture of variables of the first level. A solution to the problem of identifying a two-level model is presented, which involves finding functional relationships that describe the formation of system parameters at each level. The identification problem comes down to minimizing the total variance of the system response approximation error on a set of linear regressions. It is shown that the model parameters can be found by the Lagrange multiplier method. The results of model validation using randomly simulated data with given functional relationships between variables are presented. The developed numerical procedure for identifying two-level regression parameters was tested in constructing a model that describes changes in the yield of grain and leguminous crops depending on climatic characteristics, as well as the amount of mineral and organic fertilizers used for fertilizing.

© ЮРГПУ (НПИ), 2024

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Keywords: regression model, multilevel system, error variance, Lagrange method of uncertain multipliers, grain yield

For citation: Ovchinnikov P.V., Tkachev A.N., Miroslavskaya M.D., Lobova T.V. Identification of mixed adaptive regression models of multilevel systems. Izv. vuzov. Sev.-Kavk. region. Techn. nauki=Bulletin of Higher Educational Institutions. North Caucasus Region. Technical Sciences. 2024;(2):28-39. (In Russ.). http://dx.doi.org/10.17213/1560-3644-2024-2-28-39.

Введение

Регрессионный анализ находит широкое применение для решения задач анализа данных и построения математических моделей объектов различной природы. Стандартный подход при построении регрессии предполагает задание связи между векторами входных и выходной переменными с использованием функционального соотношения, зависящего от набора параметров. Параметры регрессии настраиваются так, чтобы модель наилучшим образом приближала имеющиеся данные о поведении рассматриваемого объекта. В качестве критерия, используемого при построении регрессии, обычно выступает среднеквадратическая ошибка приближения, достигаемая с использованием регрессии. Она определяется в результате сравнения значений выходной переменной, найденной с использованием регрессионной модели, с полученными при анализе функционирования объекта действительными значениями отклика.

Наиболее хорошо разработанными и исследованными регрессионными моделями являются линейные одноуровневые модели, в которых предполагается, что выходная переменная является линейной функцией базисных факторов, в качестве которых выступают заданные функции входных переменных. Параметрами модели здесь являются коэффициенты линейной комбинации базисных факторов, значения которых находятся в результате минимизации среднеквадратичной ошибки приближения методом наименьших квадратов. Различным способам реализации такого подхода посвящено большое количество работ [1-10], а для выполнения регрессионного анализа имеется специализированное программное обеспечение [11, 12].

Разработанный инструментарий обеспечивает возможность построения регрессионных моделей, задающих соответствие между входными и выходной переменными в случае одноуровневых систем, реализующих однократное преобразование входных переменных в выходную. Однако на практике часто возникают

ситуации, когда рассматриваемые объекты являются многоуровневыми. В таких иерархических системах формирование выходного параметра осуществляется в результате многократного последовательного преобразования переменных при переходе от одного уровня к другому. При этом значение каждой из переменных, характеризующих определенный уровень, определяется значениями переменных, описывающих предыдущий уровень. В этом случае для построения регрессионной модели объекта необходимо сначала определить структуру системы, а затем выполнять настройку параметров нескольких регрессий, описывающих переход от одного иерархического уровня к другому.

Существующие подходы и решение такой задачи описаны в работах [13, 14]. Здесь возможно выполнение группировки параметров (метод группового учета аргументов), приближенное представление отдельных параметров базовой регрессии в виде функций входных параметров (модели смешанных многоуровневых регрессий) и т.д. Выбор наилучшей модели выполняется по результатам оценки среднеквадра-тической ошибки нахождения значений выходного параметра с учетом используемых в регрессии для приближения функций входных переменных.

В данной работе предложен новый подход к построению и идентификации параметров регрессионных моделей двухуровневых многофакторных систем по результатам имеющихся данных об их функционировании. Параметры модели найдены в результате минимизации дисперсии общей ошибки на выходе системы при принятых допущениях о распределении ошибок для частных моделей, соответствующих более низким уровням.

Постановка задачи

Рассмотрим двухуровневую иерархическую систему (рис. 1), осуществляющую преобразование вектора входных переменных

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

х = (хо, Xj,&, xm) в выходную переменную, зависящую от входных переменных Х0 = 0% > %>•••> х0щ> )>

xk -( xk1, xk 2>-"> xknk ),k — 1m-

У — f (У1, У2 » ' * '» Ут )•

(2)

Заметим, что в формуле (1) переменные х01,х0по являются аргументами всех функций

Ук = fk (хо,хк), описывающих преобразование

на первом уровне.

Конкретизируем вид функций (1), (2), описывающих преобразование переменных на первом и втором уровнях.

Будем искать функции ук = /к (хо,хк ) в

виде линейных регрессий вида

_ _ п0 пк Ук = /к (х0, хк ) = £%% + £ак]хкз + Ч> (3)

1=1 ]=Х

где aki, akj - подлежащие определению коэффициенты регрессии; Sk - ошибка оценки регрессии.

Функцию (2), задающую преобразование на втором уровне, найдём в виде смеси

у = / (у) = £»к/к (хо,хк) + к =1,т' (4)

к

где Хк - подлежащие определению коэффициенты регрессии; s - ошибка оценки регрессии (4). В дальнейшем будем считать, что

т

0 < »к < 1, £ »к = 1. к=1

Заметим, что в случае независимости ошибок Sk (3) для ковариации случайных величин Sk, ss при кфs выполняется

(5)

cov(sk ,es ) — 0 ; k Ф

s.

Рис. 1. Структура многоуровневой модели

Fig. 1. Structure of the multi-level model

Согласно структуре моделируемой системы (см. рис. 1) вектор x входных переменных преобразуется в вектор у выходных переменных в результате выполнения нескольких преобразований на двух уровнях. На первом

уровне формируются переменные yk, к = 1, m в результате преобразований вида

yk = fk ( X0> xk ) = fk ( x01>---, X0n0 , xk1>-"> xknk )• (1)

На втором уровне определяется выходная переменная y, характеризующая всю систему в целом, согласно равенству

В условиях допущений о том, что регрессии, описывающие преобразования на первом и втором уровне, являются линейными функциями, будем решать задачу идентификации их параметров

а0 = ( а01> ап1, а0г> • • •, а0п0 );

ак =( ак1, —, ак]>•••> акпк );

к = ^ т,» =( »1,» 2т ),

предполагая заданными значения выходной переменной у(^ при различных значениях входных переменных

0 - )=0 )-(*) , х(-))•

x0 — I x01 , x02

0no '

x ( s )—/ x ( s )x ( s ) -( s)

хк =( хк1 ,хк2 >•••,хкп, - = 1, Г,

где г - общее число наблюдаемых значений входных х0, Хк и выходной у переменных.

Отметим, что существенной особенностью сформулированной задачи является то, что одновременной идентификации подлежат регрессии (3), (4). При этом для оценки параметров не используются значения параметров ук, описывающие систему на первом уровне, так как они неизвестны.

Однозначное решение такой задачи, в общем случае, не может быть получено хотя бы потому, что одной и той же линейной регрессии вида (4) может соответствовать сколь угодно много регрессий (3), отличающихся коэффициентами аОднако в результате введения ряда допущений, которые согласуются с имеющимися данными, как это будет показано ниже, регрессии (3), (4) удается идентифицировать с приемлемой точностью. Процедура идентификации регрессионных моделей (3), (4) и результаты их валидации описаны ниже.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Идентификация многоуровневой регрессионной модели

Учитывая формулы (3), (4), запишем уравнение для регрессии (4) в виде

ко т п^ т

у = X %% + X X ск]Ч] + X »к ек > (6)

к=1 м

г=1

к =1

где

с01 - X »какь, ск} = »кЬк/ • (7) к =1

Из формул (6), (7) следует, что общая ошибка в при оценке значений у окажется рав-

т

ной е = Х »/8г , и ее дисперсия при заданных

Ь=1

значениях А; определяется равенством

т т

а2 = ОБ = ХХ»ь »/ а у , (8) ь=1 ]=1

где ау = соу (еь,е у) •

Рассмотрим два случая. Сначала будем считать, что все функции, соответствующие преобразованию (1) на первом уровне, в качестве переменных обязательно содержат наборы

хк =0 хк1, хк 2,..., хкПк ), характерные только для

переменной ук, к = 1, т (в преобразованиях ур=/р(х0,хр), соответствующих другим значениям yp, p Ф к, переменные хц отсутствуют). В этом случае можно выполнить оценку величин Оу, проведя серию расчетов, связанных с идентификацией частных регрессий, соответствующих значениям параметров А;, которые задаются условиями Ащ = 1, полагая при этом Ау = 0, если } Ф к. Найдем оценку вида ко 0к) пк

ук =Х С0Ь ОЬ + Х Ск]х' с использованием

ь=1 у=1

того или иного стандартного программного обеспечения и оценим статически дисперсию полученной ошибки о2 по имеющимся данным. Тогда, согласно формуле (8), получим

_ 2 _ 2 а кк = а к = •

Учитывая найденные ошибки акк = а2,

рассмотрим случай, когда два коэффициента

»к Ф 0, »у Ф 0, »к + »у = 1, »у = 1 - »к. Тогда

из формулы (8), с учетом равенства Ощу = Од, получим для дисперсии ошибки:

а2 = »2 а2 + (1 - »к )2 а 2 + 2»к (1 - »к ) а к/. (9)

Дисперсию (9) можно оценить статически с использованием имеющихся данных для регрессии, связывающей переменные, вида

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

пО пк п]

уц = Е4Р + 12скрхкр + (ю)

г=1

Пусть о ц - выборочная дисперсия ошибки, соответствующая регрессии (10). Тогда из равенства (9) получим

»2<°2 +01 - »к )2 а2 + 2»к 01 - »к) ак/ = ак' • (11)

В уравнении (11) неизвестными являются Ащ и Ощу.

Общее число уравнений (11) при рассмотрении всех пар к,](к Ф], к,] = 1,т) будет равно т2- т. Недостающие т уравнений получим, полагая, что переменные Ащ находятся в результате решения следующей задачи на условный экстремум:

°2 = °(\) = °2 (»1'»2v ,»m ) = m m

= XX»fc»jêkj ^min> к=1 j=1

m

X »к = i.

к=1

(12)

(13)

Задача (12), (13) решается методом неопределенных множителей Лагранжа. При этом функция Лагранжа имеет вид

Ь(»1,»2т ) =

»1,»2 ,--,»m ) + » X »к -1

0 к=1

(14)

где А - множитель Лагранжа.

Из необходимого условия минимума функции (14)получим

ЗЬ

= 2»ко( + 2X » jàkj + » = 0, к = 1, m, (15)

j=1

-= Х »,=1.

Исключая А из уравнения (15), получим окончательно

»к ô2 - »1^2 X » j (0j - ô1 j ) = 0, j=1

j * к, j Ф1,

m

X » j =1-

j=1

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Далее системы нелинейных уравнений (11), (16) решаются совместно. Это позволяет найти оценки ац, к, у = 1, т, к Ф у и параметры

определяющие формирование смеси переменных у\, у2, ..., ym на втором иерархическом уровне.

Идентификация регрессии (4) значительно упрощается в условиях независимости ошибок оценки Sk. При этом ац = соу (бц ) = 0

и значения »ц, к = 1, т, являющиеся решением задачи (12), с учетом равенства (11) находятся из системы линейных алгебраических уравнений:

1 1

а? -а

а? 0

V а1

0

-ач

0

1 Л 0 0

m 0

»1 ö ö1 ö

»2 0

»3 - 0

0

» m v 0 ;

(17)

При этом решение полученной системы (17) задается равенствами

»k - »k

k -1, m .

(18)

m

П а?

i-1

i *k mm

Ъ П а?

p-1 q-1 q* p

Решение нелинейной системы уравнений (11), (16) можно найти методом Ньютона. При этом частные производные левых частей равенств (10), (16) по переменным А,^ являющимися искомыми решениями, находятся в явном виде, а в качестве начальных приближений для этих переменных можно принимать значения Ckk = 0, Xk = X*k (18), что соответствует случаю, когда ошибки Sk оценивания считаются независимыми.

Следующим этапом решения задачи идентификации является оценка параметров aш, Ьу в частных регрессиях вида (13), соответствующих первому уровню, и определяющих формирование переменных yk в системе.

Учитывая равенства (3), (5), введем в рассмотрение функцию

_ _ по пк

ч = ч 0хо > ч)=»ц X%% + X ьк]х], (19) 1=1 ]=1

где величины au, bkj, как коэффициенты линейной регрессии (19), могут быть определены по стандартной схеме для регрессии (3) с использованием имеющихся значений входных

хо05^, хк0S, к — 1, m и выходной _y(s) переменных (5 =1,r). Тогда при каждом наборе входных значений переменных соответствующие значения

0 s)

zk функций (19) можно приближенно рассматривать как оценки значений функции yk при

наборе исходных данных вида Хо0 ^, Х0s^. При этом учитывается приближенно выполняемое равенство

m

У — Z Zk.

к—1

Для каждого набора данных хо0s ^, Хк0s ^,

(s) (s)

_у() соответствующие значения z\ для переменных первого уровня положим равными

Zk0s«к(s ] У0s ], к — im, (20)

( * )

где a k0 s ù - m-, Zk 0 s ù - значение функции (19)

Ъ z

i-1

( s )

на заданном наборе данных.

Принятые в качестве оценок (20) значения

гЦ^ позволяют определить параметры ац/^, Ъ^

для каждой к-й регрессии вида (19) с использованием стандартных процедур, и далее после этого находятся параметры регрессии (3). В результате, после выполнения указанных дей-

- а (*) £ ствий находятся все параметры аыу ', Ьцу многоуровневой регрессионной модели (3), (4).

Рассмотрим еще один возможный случай структуры модели (3), (4). Пусть одна из переменных yk для определенности У1 имеет вид

o

У1 - У (Х0)-Ъa1ix0i +

(21)

i-1

а остальные у, к = 2,т представим в виде (3).

Для идентификации параметров такой модели поступим следующим образом. Введем в рассмотрение новую обобщенную переменную u в виде свертки величину1, у2, ..., ym, задав ее равенством

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

U = U ( Xq, x2,..., xm ) =

= X » к

к=2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

пк

X ак1х01 + X i=1 j=1 0

(22)

62-

Также введем в рассмотрение фиктивную входную переменную хоо и введем переменную У1, выражающуюся через функцию У1 вида (21), равенством

Ух = аоо хоо + Ух. (23)

Пусть у = у + А1аоохоо , где у - значение выходной переменной, соответствующей отклику системы (21). Тогда при аоо = ёоо/А1, где значение ёоо задается произвольно, полагая

у = у + йоохоо, получим задачу оценивания параметров двухуровневой регрессии при условии, что на первом уровне оба параметра содержат, согласно равенствам (22), (23), индивидуальные, характерные только для них, входные переменные.

Далее будем решать задачу оценки двухуровневой регрессии при условии, что на первом уровне формируются два значения у1, и, определяемые равенствами (22), (23), а на втором - значение у, которое задается равенством

у = цу + ц,2и + в, (24)

где 0 < Ц1 < 1, Ц1 + ц,2 = 1.

Решение такой задачи находится описанным выше способом с учетом наличия индивидуальных переменных у обоих показателей первого уровня в свертке (24).

Используя найденное значение параметра Ц2 = Ц, оценим значения регрессий (21), (22), перераспределяя заданные значения выходной переменной между ними. При этом оценку параметров ан, Ь = 1, По в регрессии (21) выполним методом наименьших квадратов путем минимизации невязки в определяющем уравнении вида

«0

X a1iX0i ) = '

W

7V /

i=1

0i M , M

as ; + a2 '

y{s); s = 1,2,

где « =(!- ц) у1 (хо(')), «2 = Vй(хо(^, у^)30) •

В результате статической оценки, согласно описанной процедуре, найдём регрессию (21). После этого определим значения

н1Л| = у1'4 — \{л| функции (22) и далее осуществим оценку весовых коэффициентов Р2, Рз, &, Рт, соответствующих переменным

ук, к = 2, т. Регрессии, соответствующие этим переменным, на первом уровне одновременно содержат слагаемые, содержащие общие и индивидуальные входные переменные х0 и хц, к = 2 , т. Поэтому для нахождения данных регрессий можно использовать описанную выше процедуру. Заметим, что весовые коэффициенты Рк здесь должны удовлетворять условию

_ т

о < вк < 1, к = 2, т; X вк = V- При этом искомые

к=2

значения Ащ, определяющие общую смесь (4), принимаем равными Ащ = Рщ, к = 2, т .

Значения фиктивной переменной

хоо) = 1, г и коэффициента ёоо, как отмечено

выше, можно задавать произвольно, однако следует стремиться задавать их так, чтобы вклад обоих слагаемых в (23) при формировании у1 оказался примерно равным. Это позволяет более точно выполнить разделение смеси.

Рассмотрим особые случаи, когда решение задачи идентификации регрессионной модели получить не удается. Такая ситуация может возникать, если хотя бы два показателя ур, yq, р Ф q выражаются через одни и те же входные переменные. Тогда во взвешенной сумме Арур + Аqyq, входящей в выходной показатель у, они сольются и станут неразличимы. Идентифицировать показатель ур также не удается, если его абсолютное значение значительно меньше остальных, и при этом Ар| ур | << Аq| yq | при р Ф q. Решение задачи также не может быть найдено, если показатели ур, yq имеют разные знаки и при этом выполняется, что Арур + Аqyq = 0. Тогда информацию об индивидуальных значениях таких показателей восстановить не удается.

Валидация многоуровневой модели регрессии

Описанная модель многоуровневой регрессии двух типов и процедура оценки ее параметров проверены с использованием сгенерированных специальным образом исходных данных.

Рассмотрены две модели, в которых переменные первого уровня у г, у2 заданы равенствами

n n

Ук = Zakix0i + Z bkjxj, k = 1,2. (25) ¿=i j=i

Для модели первого типа, содержащей индивидуальные переменные Xj в формуле (25), для каждой из переменных y^, y2, значения коэффициентов aoi, bkj приведены в табл. 1.

Таблица 1 Table 1

Определяющие коэффициенты модели 1 Determining coefficients of model 1

k aki ак2 акз ак4 bki ькг Ькз Ьк4

1 3 4 5 6 1 8 0 0

2 4 3 6 5 0 0 2 7

Согласно табл. 1, переменные y^ y2 выражаются через индивидуальные переменные xi, x2 и x3, x4 соответственно. Модель второго типа также определяется равенствами (21), (22). Но в этом случае переменная _yi выражается только через общие переменные xoi, i = 1 , 4. Коэффициенты a00i, bj для этой модели приведены в табл. 2.

Таблица 2 Table 2

Определяющие коэффициенты модели 2 Determining coefficients of model 2

k aki ак2 акз ак4 bki bk2 bk3 bk4

1 3 4 5 6 0 0 0 0

2 4 3 6 5 0 0 2 7

Для каждой из моделей, задаваемых уравнением (25), случайным образом выбирались

значения переменных х^, х^, I = 1,4,} = 1,4 в

виде целых чисел от нуля до 99. После этого вычислялись значения переменных у1, у2 по формуле (25), которые затем специально искажались внесением 5 %-й ошибки, знак которой чередо-

„ м \—

вался при нахождении значений у , 5 = 1, г .

Было смоделировано г = 100 значений. Значение

переменной второго уровня у, зависящей от пе-

" "(5) - "(5) ременных первого уровня х0 = х0 , хк = хк ',

к = 1,2,5 = 1, г, х1 =(х1,х2), х2 =(х3,х4), найдено по формуле

у = »1У1 + »2У2, »1 + »2 = 1. (26) При этом подлежащие последующей идентификации значения А1, А 2 при вычислении значений выходного параметра у согласно формуле (26), принимались равными А1 = 0,2, А1 = 0,3, &, А1 = 0,8. Идентификация параметров,

ТЕХНИЧЕСКИЕ НАУКИ. 2024. № 2 TECHNICAL SCIENCES. 2024. No 2

определяющих смесь (26), осуществлялась с использованием описанной процедуры в результате введения фиктивной переменной.

Полученные в результате идентификации

*

значения параметра Ai и коэффициенты регрессии для модели 1 при разных задаваемых значениях üi, сведены в табл. 3.

Таблица 3 Table 3

Результаты идентификации модели 1 Model 1 identification results

Xi A.i* к a0i а02 а0з а04 bki bk2 bk3 bk4

0,2 0,17 1 3,57 3,22 5,76 5,06 -0,54 7,94 0 0

2 3,61 3,14 5,8 5,07 0 0 1,66 6,84

0,5 0,52 1 3,28 3,5 5,47 5,36 0,44 7,12 0 0

2 3,34 3,43 5,51 5,38 0 0 1,62 7,52

0,7 0,77 1 3,07 3,72 5,27 5,57 0,57 6,91 0 0

2 3,15 3,64 5,31 5,6 0 0 1,78 9,63

Результаты выполненных расчетов по определению параметров модели в случае, когда одна переменная первого уровня у1 определяется только через общие входные параметры

x0 = ( x1' x2' Хз' x4

), сведены в табл. 4.

Таблица 4 Table 4

Результаты идентификации модели 2 Model 2 identification results

Xi Xi* к а0! а02 а03 а04 bki bk2 bk3 bk4

0,2 0,32 1 3,69 3,14 5,78 5,15 0 0 0 0

2 3,68 3,14 5,76 5,13 0 0 2,32 8,26

0,5 0,49 1 3,94 3,45 5,48 5,44 0 0 0 0

2 3,37 3,45 5,45 5,43 0 0 1,92 6,92

0,7 0,72 1 3,19 3,66 5,27 5,64 0 0 0 0

2 3,15 3,65 5,23 5,61 0 0 2,04 7,53

Сравнение результатов расчетов и исходных данных (см. табл. 1, 3; 2, 4) показывает, что описанная процедура позволяет восстанавливать значение параметров многоуровневой регрессионной модели в пределах точности задания исходных данных. Это подтверждает выполненная оценка точности идентификации общей регрессии, сопоставляющей входные переменные х0, х и выходной параметр у. Такая регрессия имеет вид

4 4

У = Е Ьхт + Е й]х]. (27)

1=1 ]=1

Точные и восстановленные значения коэффициентов регрессии (27), при разных значениях А сведены в табл. 5.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Таблица 5 Table 5

Точные и приближенные значения коэффициентов общей регрессии Exact and approximate values of general regression coefficients

Анализ данных, приведенных в табл. 5, показывает, что средняя абсолютная погрешность А при идентификации коэффициентов общей регрессии равна А = 0,15. Сравнение точных и полученных приближенно для моделей 1, 2 значений коэффициентов регрессии (см. табл. 1-4) показывает, что средняя абсолютная погрешность восстановления построенной многоуровневой регрессии для модели 1 составляет А1 = 0,15, а для модели 2 - А2 = 0,09, что согласуется с величиной погрешности восстановления общей регрессии А.

С использованием найденных параметров регрессий также выполнено сравнение значений

показателей первого уровня yk = yj 0 х0, xk),

к = 1,2, полученных в результате расчетов с их точными значениями. Среднее значение относительной погрешности восстановления этих показателей приведено в табл. 6.

Таблица 6 Table 6

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Погрешность, %, восстановления показателей yi, уг Error, %, of restoration of indicators yi, уг

Высокое значение погрешности при восстановлении показателя у1 объясняется тем, что в этом случае найденные значения оказываются малыми, что приводит к увеличению относительной погрешности.

Пример использования разработанной модели

Описанная процедура построения и идентификации многоуровневой модели смешанной регрессии использована для анализа и оценки урожайности зерновых и зернобобовых культур, выращиваемых в разных условиях.

Рассмотрены три возможных варианта, когда площади не обрабатывались удобрениями, а также когда удобрялись минеральными и органическими удобрениями. Ставилась задача оценки урожайности для трех указанных вариантов в зависимости от различных факторов. В качестве исходных данных для оценки использованы сведения, содержащиеся в отчете Рос-стата [15] за период с 2000 по 2021 гг.

Рассмотрены следующие показатели: у -общая средняя урожайность в стране, ц/га; XI, Х2 -объем вносимых минеральных и органических удобрений, млн т; хз - энергообеспеченность сельскохозяйственных организаций, лс/га; Х4, Х5, Хб - средняя температура по месяцам в вегетативный период (апрель, май, июнь), °С; Х7, Х8, Х9 - средняя сумма осадков по месяцам в вегетативный период, мм. Ставилась задача оценки урожайности в ц/га для двух случаев, когда минеральные и органические удобрения (средняя урожайность у1) вносились, а также тогда, когда поля не удобрялись у2.

При такой постановке задачи показатель средневзвешенной урожайности у задан равенством

2

У = » у + »2 У2 > 0 ^ »к ^ 1 X »к = 1

к=1

где параметры Хк имеют смысл долей площадей, на которых процесс выращивания зерновых и зернобобовых культур осуществляется одним из перечисленных способов.

Урожайность ук найдём в виде

Ук = Х %ег (% ), к = 12, (28) ¿=1

причем значения «21 = «22 = 0 соответствуют случаю, когда поля не удобрялись; е¡(х) - базисные факторы.

Факторы ег'(хг) определены следующим образом. Из исходных данных выделены те, которые соответствуют наиболее урожайным годам и для них найдены средние значения показателей Xi. Пусть найденные таким образом

Значения Cl C2 C3 C4 di d2 d3 d4

0,2 Точные 0,2 1,6 1,6 5,6 3,8 3,2 5,8 5,2

Прибл. -0,09 1,32 1,38 5,7 3,61 3,16 5,8 5,07

0,5 Точные 0,5 4 1 3,5 3,5 3,5 5,5 5,5

Прибл. 0,22 3,72 0,79 3,6 3,3 3,47 5,49 5,37

0,7 Точные 0,7 5,6 0,6 2,1 3,3 3,7 5,3 5,7

Прибл. 0,44 5,33 0,42 2,21 3,08 3,7 5,28 5,58

yk Значения Ай

0,2 0,2 0,2

Модель 1

У1 7,03 5,56 27,84

У2 4,91 4,91 12,08

Модель 2

У1 4,65 3,13 2,30

У2 6,18 2,38 3,94

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

значения равны / = 1,9 . Тогда положим в равенстве (28):

ei{xi) = xi-xi, /=1,3;

ei ( xi ) =

_ (29) + г =4,9.

Выбор базисных факторов е( (х) в (29) при г = 3,9 объясняется тем, что при отклонении климатических показателей Х1 от оптимальных значений как в сторону повышения, так и понижения, происходит снижение урожайности. Функция (29), учитывающая эту тенденцию приближенно, имеет вид, показанный на рис. 2.

Рис. 2. Базисные функции ei(xi) при i = 4,9 Fig. 2. Basis functions ei(xi) at i = 4,9

Модель, описывающая урожайность зерновых и зернобобовых культур, структурно соответствует рассмотренному выше общему случаю. При этом она является смешанной, двухуровневой. Для ее верификации использована описанная выше процедура. В результате ее применения получены регрессионные зависимости вида (28). Коэффициенты детерминации для них превышают 0,9, а сами оценки являются значимыми.

В результате решения задачи получены следующие результаты. Значения ük оказались равными üi = 0,84, Ü2 = 0,16. Заметим, что эти результаты хорошо согласуются со статистическими данными. Так, в данных за 2021 год [15], приведены следующие значения этих показателей: üi = 0,81, Ü2 = 0,19. При этом имеющиеся расхождения в величине Ü2 можно объяснить погрешностью оценки, так как это значение мало по сравнению с üi.

В табл. 7 приведены значения урожайно-стей на удобряемых, неудобряемых полях и средней по стране урожайности (соответственно yi, y2, у) в рассматриваемые годы (с 2000 по 2021 гг.). Анализ данных показывает, что значительное увеличение урожайности в период с 2019 по 2021 гг. достигается за счет роста объемов, используемых для подкормки зерновых культур удобрений.

Таблица 7 Table 7

Влияние на урожайность зерновых и зернобобовых культур подкормки минеральными и органическими удобрениями Effect of fertilizing with mineral and organic fertilizers on the yield of grain and leguminous crops

Год Объем внесенных минеральных и органических удобрений Урожайность Приращение урожайности при внесении удобрений

Х1 Х2 yi У2 У 8, %

2000 1,4 66 15,87 14,17 15,60 12,00

2001 1,3 59,6 19,72 17,74 19,40 11,11

2002 1,5 60,6 19,87 18,16 19,60 9,45

2003 1,3 59,9 18,13 16,09 17,80 12,64

2004 1,4 53,2 18,85 18,52 18,80 1,79

2005 1,4 49,9 18,73 17,30 18,50 8,27

2006 1,5 47,8 18,95 18,63 18,90 1,70

2007 1,7 48,1 20,23 17,54 19,80 15,30

2008 1,9 51,3 24,24 21,50 23,80 12,72

2009 1,9 53,7 23,36 19,25 22,70 21,32

2010 1,9 53,1 18,73 16,04 18,30 16,81

2011 2 52,6 23,14 18,51 22,40 25,04

2012 1,866 54,2 18,69 16,25 18,30 15,02

2013 1,847 55,7 22,71 18,28 22,00 24,21

2014 1,918 61,6 24,71 20,92 24,10 18,11

2015 2,012 64,2 24,58 19,07 23,70 28,88

2016 2,253 65,2 27,21 20,88 26,20 30,34

2017 2,495 66,8 30,58 21,94 29,20 39,43

2018 2,51 68,8 26,58 19,21 25,40 38,40

2019 2,723 70,7 28,34 18,10 26,70 56,58

2020 3 70,5 30,21 20,15 28,60 49,89

2021 3,3 70,2 28,68 16,29 26,70 76,06

На рис. 3 приведены графики изменения урожайности yi, y2, y по годам (точка 0 соответствует 2000 г.)

31,00 29,00 27,00 25,00 23,00 21,00 19,00 17,00 15,00 13,00

0 2 4 6 8 10 12 14 16 18 20

Рис. 3. График изменения урожайности (♦ - урожайность на удобряемых площадях; ■ - урожайность на неудобряе-мых площадях; ▲ - общая средняя урожайность) Fig. 3. Graph of changes in yield (♦ - yield on fertilized areas; ■ - yield on non-fertilized areas; ▲ - overall average yield)

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Также была выполнена оценка влияния подкормки органическими и неорганическими удобрениями на урожайность. В табл. 7 показано увеличение урожайности на удобряемых полях по сравнению со случаем, когда подкормка удобрениями не выполнялась.

По данным табл. 7 получена регрессионная зависимость вида

8 = Н0 + й1х1 + Л2 х2 + И3х1х2,

позволяющая оценить приращение урожайности за счет внесения удобрений. На рис. 4 приведены графики функций, описывающих приращение урожайности в зависимости от объема используемых для подкормки минеральных удобрений при различных объемах вносимых органических удобрений.

Рис. 4. Приращение урожайности в зависимости от объема минеральных удобрений при фиксированных объемах органических (♦ - минимальный объем органических удобрений; ■ - максимальный объем; ▲ - среднестатистическое значение объема внесенных органических удобрений)

Fig. 4. Yield increment depending on the volume of mineral fertilizers at fixed volumes of organic fertilizers (♦ - minimum volume of organic fertilizers; ■ - maximum volume; ▲ - average statistical value of the volume of applied organic fertilizers)

Как следует из рис. 4, применение комбинированной подкормки приводит к существенному росту урожайности зерновых и зернобобовых культур. Полученный результат согласуется с приведенными в литературе данными [16, 17].

Выводы

1. Предложен новый подход к построению регрессионной модели двухуровневой многофакторной системы, позволяющий идентифицировать состав отклика, представляющего собой смесь показателей первого уровня системы, а также разделять и находить их в отдельности по известным входным и выходным показателям.

2. Задача идентификации смеси показателей первого уровня иерархической системы сведена к нахождению условного экстремума квадратичной формы дисперсии ошибки приближения, коэффициенты которой определяются в результате построения частных регрессионных моделей с использованием стандартных методов, специализированного программного обеспечения и статистических данных.

3. Проведенная валидация подтвердила возможность применения предложенного подхода для построения и идентификации смешанных регрессионных моделей сложных многоуровневых иерархических систем.

4. Применение разработанной численной процедуры построения смешанных регрессионных моделей многоуровневых систем с использованием статистических данных проиллюстрировано на примере решения задачи анализа и оценки урожайности зерновых и зернобобовых культур, выращиваемых на удобряемых и неудобряемых площадях.

Список источников

1. Айвазян С.А., МхитарянB.C. Прикладная статистика и основы эконометрии. М.: ЮНИТИ, 1998. 1022 с.

2. Гельман Э., Хилл Д., Вехтари А. Регрессия: теория и практика. C примерами на R и Stan; пер. с англ. В.С. /ценкова. М.: ДМК Пресс, 2022. 748 с.

3. Стрижов В.В. Методы индуктивного порождения регрессионных моделей. М.: Вычислительный центр им. А.А. Дородницына РАН, 2008. 61 с.

4. Ллойд Э., Ледермана У. Справочник по прикладной статистике. В 2-х т. Т. 1; пер. с англ. Ю.Н. Тюрина. М.: Финансы и статистика, 1989. 510 с.

5. Hayfield T., Racine J.S. Nonparametric Econometrics: The np Package // Journal of statistical software 2008;27(5):1-32.

6. Zou H., Hastie T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology). Vol. 67. No. 2. Pp. 301-320.

7. Wang W., et al. Forecasting elections with non-representative polls. International journal of Forecasting (2014), D01:10.1016/j .ijforecast.2014.06/001

8. Ng A. Machine Learning Yearning. URL: http:// www.mlyearning.org/(96)

9. Maulud D.H., Abdulazeez A.M. A Review on Linear Regression Comprehensive in Machine Learning // Journal of Applied Science and Technology Trends. 2020. Vol. 01, no. 04. Pp. 140-147. https://www.resear chgate.net/publication/348111996_A_Review_on_Lin-ear_Regression_Comprehensive_in_Machine_Learning

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

10. Mokkadem A., Pelletler M., Slaoul Y. Revisiting Revesz's stochastic approximation method for the estimation of a regression function. 2009. URL: http://alea.impa.br/articles/v6/06-03.pdf

11. Гуриков С. P. Основы алгоритмизации и программирования наРу^т учеб. пособие. М.: ФОРУМ: ИНФРА-М, 2018. 343 с.

12. Рашка С. Python и машинное обучение; пер. с англ. А.В. Логунова. М.: ДМК Пресс, 2017. 418 с.

13. Волченко О.В., Широканова А.А. Применение многоуровневого регрессионного моделирования к меджстрановым данным (на примере генерализованного доверия) // Социология: 4М. 2016. №43. С. 7-62.

14. Щетинин Е.Ю. Исследование обобщенных смешанно-аддитивных регрессионных моделей с пространственно-структурными факторами рисков // Вестник РУДН. Сер. Математика. Информатика. Физика. 2014. № 3. С. 99-106.

15. Официальный сайт Росстат [Электронный ресурс] Режим доступа: https:// rosstat.gov.ru/ compendium/document/13277

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

16. Агроэкономическая эффективность органических удобрений при возделывании озимой пшеницы на дерново-подзолистой легкосуглинистой почве / Т.М. Серая, E.H. Богатырева, О.М. Бирюкова, Е.Г. Мезенцева // Почвоведение и агрохимия. 2012. №2(49). С. 82-96.

17. Прокина Л.Н., Пугаев С.В. Урожайность озимой пшеницы в зависимости от предшественников, удобрений и известкования // Аграрная наука Евро-Северо-Востока. 2022. №3. URL: https://cyberleninka.ru/article/n/urozhaynost-ozimoy-pshenitsy-v-zavisimosti-ot-predshestvennikov-udo-breniy-i-izvestkovaniya

References

1. Ayvazyan S.A., Mkhitaryan V.S. Applied statistics and fundamentals of econometrics. Moscow: UNITI; 1998. 1022 p. (In Russ.)

2. Andrew Gelman, Jennifer Hill, Aki Vekhtari. Regression: theory and practice. With examples in R and Stan / trans. from English V. S. Yatsenkova. Moscow: DMK Press; 2022. 748 p. (In Russ.)

3. Strizhov V V Methods for inductive generation of regression models. Computing Center named after. A.A. Dorod-nitsyn Russian Academy of Sciences; 2008. 61 p.

4. Lloyd E., Lederman W. Handbook of Applied Statistics. In 2 vol. Vol.1: Trans. from English Yu.N. Tyurin. Moscow: Finance and Statistics; 1989. 510 p.

5. Hayfield T., Racine J.S. Nonparametric Econometrics: The np Package. Journal of statistical software. 2008;27(5):1-32.

6. Zou H., Hastie T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 67(2):301-320.

7. Wang W. et al. Forecasting elections with non-representative polls. International journal of Forecasting. 2014. D0I:10.1016/j .ijforecast.2014.06/001

8. Ng A. Machine Learning Yearning. Available at: http://www.mlyearning.org/(96)

9. Maulud D.H., Abdulazeez A.M. A Review on Linear Regression Comprehensive in Machine Learning. Journal of Applied Science and Technology Trends.2010;01(04):140-147. Available at: https://www.researchgate.net/publica-tion/348111996_A_Review_on_Linear_Regression_Comprehensive_in_Machine_Learning

10. Mokkadem A., Pelletler M., Slaoul Y. Revisiting Revesz's stochastic approximation method for the estimation of a regression function. 2009. Avialable at: http://alea.impa.br/articles/v6/06-03.pdf

11. Gurikov S.R. Fundamentals of algorithmization and programming in Python: textbook. manual. Moscow: FORUM: INFRA-M; 2018. 343 p. (In Russ.)

12. Rashka S. Python and machine learning. From English A.V Logunova. Moscow: DMK Press; 2017. 418 p. (In Russ.)

13. Volchenko O.V., Shirokanova A.A. Application of multi-level regression modeling to cross-country data (using the example of generalized trust). Sociology: 4M. 2016;(43):7-62. (In Russ.)

14. Shchetinin E.Yu. Study of generalized mixed-additive regression models with spatial-structural risk factors. Bulletin of RUDN University. Series Mathematics. Computer science. Physics. 2014;(3):99-106. (In Russ.)

15. Official website of Rosstat. Available at: https://rosstat.gov.ru/compen

16. Seraya T.M., Bogatyreva E.N., Biryukova O.M., Mezentseva E.G. Agroeconomic efficiency of organic fertilizers when cultivating winter wheat on sod-podzolic light loamy soil. Soil Science and Agrochemistry. 2012;2(49):82-96. (In Russ.)

17. Prokina L.N., Pugaev S.V. Yield of winter wheat depending on predecessors, fertilizers and liming. Agricultural Science of the Euro-North-East. 2022;(3). Available at: https://cyberleninka.ru/article/n/urozhaynost-ozimoy-pshe-nitsy-v-zavisimosti-ot-predshestvennikov-udobreniy-i-izvestkovaniya (accessed 15.02.2024)

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Сведения об авторах

Овчинников Петр Вячеславовичя - канд. экон. наук, декан факультета ннноватики и организации производства, pvo78@yandex.ru

Ткачев Александр Николаевич - док. техн. наук, профессор, зав. кафедрой «Прикладная математика», tkachev.an@mail.ru

Мирославская Мария Дмитриевна - аспирант, ассистент, кафедра «Прикладная математика», miroslavsky.marymir @gmail.com

Лобова Татьяна Владимировна - ст. препод., кафедра «Прикладная математика», qwest64@ yandex.ru

Information about the authors

Petеr V. Ovchinnikov - Cand. Sci. (Econ.), Dean ofthe Faculty of Innovation and Production Organization, pvo78@yandex.ru

Alexander N. Tkachev - Dr. Sci. (Eng.), Head of Department «Applied Mathematics», tkachev.an@mail.ru

Maria D. Miroslavskaya - Graduate Student, Associate, Department «Applied Mathematics», miroslavsky.marymir@gmail.com

Tatyana V. Lobova - Senior Lecturer, Department «Applied Mathematics», qwest64@yandex.ru

Статья поступила в редакцию / the article was submitted 20.02.2024; одобрена после рецензирования / approved after reviewing 06.03.2024; принята к публикации / acceptedfor publication 12.03.2024.

i Надоели баннеры? Вы всегда можете отключить рекламу.