персных отходов кремниевого производства / В.В. Кондратьев и др. // Металлургия: технологии, инновации, качество : сб. докл. Новокузнецк, 2015. С. 269-274.
24. Ёлкин К.С., Карлина А.И., Иванчик Н.Н., Шахрай С.Г. Электрическая очистка газов производства кремния // Транспортная инфраструктура Сибирского региона : сб. докл. конфр. Иркутск, 2015. Т. 1. С. 226-232.
25.Автоматическая система управления технологическим процессом (АСУТ11) [Электронный
ресурс]. URL: http://studopedia.ru/15_23797_me-hanizatsiya-protsessov-obsluzhivaniya-elektrolize-rov.html. (Дата обращения 16.10.2016).
26.Пат. № 2204629 Рос. Федерация. Способ управления технологическим процессом в алюминиевом электролизере / А.И. Березин и др. № 2001135488/02 ;заявл. 28.12.2001; опубл. 20.05.2003.
УДК 519.862.6 Базилевский Михаил Павлович,
к. т. н., доцент кафедры «Математика», Иркутский государственный университет путей сообщения,
e-mail: [email protected]
ЧИСЛЕННЫЙ МЕТОД ОЦЕНИВАНИЯ ПАРАМЕТРОВ ЛИНЕЙНОЙ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ СО СТОХАСТИЧЕСКИМИ ПЕРЕМЕННЫМИ
M. P. Bazilevsky
THE NUMERICAL METHOD FOR ESTIMATING PARAMETERS OF LINEAR MULTIPLE REGRESSION MODEL WITH STOCHASTIC VARIABLES
Аннотация. В настоящей статье рассмотрено обобщение регрессии Деминга на случай многих объясняющих переменных, получившее название «линейная модель множественной регрессии со стохастическими переменными». Рассмотрены частные случаи этой модели - ортогональная и диагональная регрессии. Для оценивания параметров модели регрессии со стохастическими переменными предложен численный метод, основанный на методе спуска. Описана методика прогнозирования по регрессионным моделям со стохастическими переменными. С использованием эконометрического пакета Gretl разработана компьютерная программа для оценивания параметров регрессий со стохастическими переменными. Проведен модельный эксперимент по методу Монте-Карло, подтверждающий несмещенность оценок параметров линейных моделей множественной регрессии со стохастическими переменными в случае диагональной регрессии.
Ключевые слова: линейная модель множественной регрессии, стохастические переменные, регрессия Деминга, прогнозирование, численный метод, метод Монте-Карло.
Abstract. In this article the generalization of Deming regression to the case of many of explanatory variables, called "linear multiple regression model with stochastic variables", was considered. Special cases of this model are considered - the diagonal and orthogonal regression. For estimating the parameters of the linear multiple regression model is proposed the numerical method based on the method of descent. The technique offorecasting for regression model with stochastic variables is described. Using econometric package Gretl is developed a computer program to estimating the parameters of regression with stochastic variables. The experiment of Monte Carlo method is conducted, confirming unbiased estimates ofparameters of linear multiple regression model with stochastic variables in the case of diagonal regression.
Keywords: linear multiple regression model, stochastic variables, Deming regression, forecasting, numerical method, Monte Carlo method.
Введение
Регрессионное моделирование является признанным инструментом построения математических зависимостей, позволяющих выявлять ценные и не доступные на первый взгляд знания об объектах исследования и прогнозировать их поведение в будущем. При этом в основе построения регрессионной модели лежит обработка статистической информации, поэтому получить по-настоящему ценные знания можно только в том случае, если эта информация полностью соответствует истинным показателям функционирования объекта исследования. Но, к сожалению, в реальной ситуации статистические данные зачастую
являются «искаженными». Так, например, ученый в ходе эксперимента может допустить неточность при регистрации некоторого значения или погрешность может возникнуть автоматически в результате влияния неконтролируемых помех. В настоящее время немало регрессионных моделей строится отечественными исследователями по экономическим данным, публикуемых Росстатом. Но даже без глубокого анализа понятно, что в этих данных содержится некоторая, возможно даже гигантская, погрешность. Действительно, непростая задача, например, точно измерить значение валового внутреннего продукта в нашей стране. Погрешности в данных размывают картину происхо-
дящего в российской экономике, поэтому властям труднее оценивать глубину экономических кризисов, возникают ошибки в бюджетном планировании. И, естественно, снижается практическая значимость регрессионных моделей, построенных на основе «зашумленных» данных.
Наиболее широкое применение при построении регрессионных моделей получил метод наименьших квадратов (МНК) [1]. В силу теоремы Гаусса - Маркова одной из предпосылок МНК является то, что значения объясняющих переменных должны быть детерминированы, а значения объясняемой переменной - случайны. Однако, как было отмечено выше, значения объясняющих переменных также могут оказаться «зашумленны-ми», т. е. могут иметь стохастическую природу. Поэтому применение МНК для моделей такого типа может приводить к смещенности и неэффективности оценок неизвестных параметров.
Следует отметить, что идея построения регрессионных моделей со стохастическими переменными не нова. Например, в случае одной объясняющей переменной такая регрессия хорошо изучена и носит название «регрессия Деминга» [2-4]. Но для случая множественной регрессии в настоящее время не существует метода оценивания неизвестных параметров. Кроме того, плохо проработаны вопросы практического использования регрессий со стохастическими переменными. Решению двух указанных проблем и посвящена данная статья.
Линейная модель множественной регрессии со стохастическими переменными
Пусть изучается взаимозависимость между зависимой (объясняемой, выходной) переменной У и независимыми (объясняющими, входными) переменными Х1, Х2 , ..., хк . Предположим, что все переменные имеют стохастический характер как результат наличия в данных неконтролируемых ошибок. Это означает, что фактически вместо истинных значений переменных зафиксированы
их «зашумленные» значения
* _
У* = Уц +£у, ' * = 1п '
Х1 = Хг1 + Вх*1 , * = 1 п ,
х*к = х1к + Вхк ' * = 1п
(1)
где п - объем выборки; у* , хц, * = 1, п, j = 1, к -истинные значения зависимой и независимых пе-
ременных, которые неизвестны; Ву. , вх.. , * = 1,п,
j = ТТк - нормально распределенные ошибки аппроксимации с нулевыми математическими ожиданиями и постоянными дисперсиями, т. е.
вУ ~ М 0,ст
у \ ' В
2
вх, ~ NI 0, ст
хк \ в
вх ~ N1 0, ст
х1 \ В
2
х1
хк
Предположим, что связь между истинными значениями переменных задана простейшей линейной зависимостью
* * * *
У* = а0 + а1х* 1 + а2х*2 + ••• + акх*к, * = 1п, (2) где а0, а1, ..., ак - неизвестные параметры.
Тогда, используя равенства (1) и зависимость (2), введем линейную модель множественной регрессии со стохастическими переменными:
У* = а0 + а1х* 1 + а2х*2 +... + акх*к + Ву.,
*
х*1 = х*1 + Вх*1 ,
*
х*2 = х*2 + Вх12 , (3)
*
х*к = х*к + Вх*к,
* = 1, п .
Модель (3) содержит к +1 + кп неизвестных параметров: а*, * = 0,к ; х*, * = 1,п, j = 17к .
По аналогии с регрессией Деминга, для оценивания неизвестных параметров модели (3) будем одновременно минимизировать сумму квадратов ошибок 8,,, 8_ , ..., 8_ . В связи с тем, что эти
у ' Х1 ' ' Ч '
ошибки имеют разные дисперсии ст 2 , ст I , ..., ст2 , оптимизационная задача будет иметь следующий функционал:
1«2, 1-2,1
3 =
*=1
ст
2
- +
*=1
ст
2
- +... +
1-х,
*=1
2
х*к
ст
2
->шп . (4)
У
Введем Я2 =ст- /ст-
Вх2 8 У
с,х1
параметры
хк
л1 =ст- /ст-
Вх1 ВУ
Як =ст- /ст-
-хк 8У
Тогда
функционал (4) можно записать в виде
3 = -
1
ст
8 +■
VI
! =1 1 I =1
1 п 1 п 2 , — / 8 + ...
Ъ ^ х*1
п
п
Информатика, вычислительная техника и управление
1 П •■■+т- е <
2
Л
^ шд
(5)
У
хк
На практике, как правило, дисперсии оши-неизвестны, а, следова-
2 2 2 бок у у у
е,,' е
К1 = °2 /уу'
К = у2/у2
у
1 ^
7 = — (Е (у,. - а0 - -... - акх*к)2 + У, ,=1
1 п
+^ Е(х,1- х*)2+...
у Ч хк
тельно, неизвестны и значения параметров К, ..., К функционала (5). Тем не менее, по аналогии с регрессией Деминга [2-4], можно выделить следующие частные случаи линейной модели множественной регрессии со стохастическими переменными.
1. Если Я-1 ^ 0, Я-2 ^ 0, ..., Л/с ^ 0, то имеем оценки обычной линейной модели множественной регрессии.
2. Если \ = К = ••• = \ = 1, то имеем оценки ортогональной регрессии.
3. Если
К1 i=l 1п
(6)
...Е(х,к- х1)2)
К
*2
,к х1к) ) ^ Ш1П.
к 1=1
К = У2 / У2, то имеем оценки диагональной ре-
xk у
грессии.
Следует отметить, что на практике можно столкнуться с ситуацией, когда одна часть объясняющих переменных будет иметь стохастическую природу, а другая часть - детерминированную. В таком случае параметрам функционала (5), соответствующим детерминированным переменным, необходимо присвоить бесконечно малое положительное значение.
Также отметим, что если К ^ да, К ^ да, ., К ^ да (в регрессии Деминга это случай обратной регрессии), то задача (5) будет иметь бесчисленное множество решений.
Особый практический интерес из трех рассмотренных выше частных случаев оценок модели (3) представляет случай диагональной регрессии. В работах [2, 4] показано, что оценка углового коэффициента диагональной регрессии Деминга является несмещенной. Обобщим это утверждение и на случай множественной регрессии, т. е. будем считать, что оценки параметров al, ., ak модели (3) для диагональной регрессии также являются несмещенными. В конце статьи приведены результаты экспериментов, подтверждающие справедливость этого предположения.
Численный метод
Выразив из уравнений модели (3) ошибки аппроксимации и подставив их в функционал (5), получим:
Для нахождения минимума функции (6) требуется воспользоваться необходимым условием существования экстремума, т. е. продифференцировать эту функцию по каждой неизвестной переменной и приравнять полученные производные к нулю. Однако в результате выполнения такой процедуры будет получена громоздкая система из k +1 + кп нелинейных уравнений, решение которой представляет собой чрезвычайно сложную задачу. Поэтому поступим иначе.
Найдем первые производные функции (6)
только по переменным х*, i = 1, п , j = 1к и приравняем их к нулю. Выполнив необходимые преобразования, получим систему нелинейных уравнений
(
\
2 1
а 2 + —
V 1 К1У
ха + а1а2 Х12 + а1аз хп +... + а1акх1к =
= У/а1 - а0 а1 + Т" х1 К1
а1а2 ха +
^ 2 О
а 2 + —
2 К
х12 + а2 а3 X 3 + ..■ + а2 акх1к =
= У1а2 - а0а2 + Т" х12, К2
а^хц + а2 ахх/2 + а3ахх¿3 +... +
^ 2 О
а 2 + — к К
х1к =
= У1ак - а0ак + — х1к, Кк
i = 1, п . (7)
Как видно, если будут известны оценки параметров а1, ., ах, то система (7) уже окажется линейной. Используя это важное замечание, был разработан численный метод решения задачи (6), основанный на методе спуска. Это значит, что оценивание параметров модели (3) происходит итеративно таким образом, что целевая функция (6) уменьшается на каждой итерации. Процедура метода заключается в следующем.
у
1
Шаг 1. Задаются начальные приближения оценок параметров х *(0), * = 1, п, j = 1к . При этом
удобно использовать исходные значения переменных х*(0) = хи , * = 1, п, j = 1к .
у и
Шаг 2. Обычным МНК оцениваются параметры линейной регрессии
у* = а0 + aтx*(0) + ... + акх^0 +-у„ , * = 1п . Об°-значим эти оценки а(0), а(0), ..., а(0). Подстановкой значений х (0), * = 1,п, / = 1к и а(0), * = 0, к
V 1
в выражение (6) находится значение целевой
функции 3(0).
Шаг 3. Осуществляется подстановка значе-
,(0) у =
Пусть оцененная модель (3) имеет вид
У1 = «О + ОД 1 + xi 2 +... + äkXik,
*
xi1 = xi 1 xi 2 = xi 2,
(8)
xik = xik,
i = 1, n ,
где хц, * = 1,п, j = 1, к и а*, * = 0, к - оценки неизвестных параметров.
По модели (8) требуется получить прогнозное значение объясняемой переменной У , если прогнозные значения объясняющих переменных ний а(0), * = 0к в систему (7). Сформированная равны х^ , х^ , ..., х0 . Для этого автором предла-
система линейных алгебраических уравнений решается для каждого * -го наблюдения, * = 1, п . По-
лучаются уточненные оценки параметров x
*(1)
ij '
гается следующая методика.
Если исследователь на 100 % уверен в том, что в прогнозных значениях объясняющих пере-
менных x0, x0, ..., x0 отсутствуют какие-либо
«зашумления», то для получения прогноза достаточно подставить эти значения в первое уравнение мо* *
дели (8) вместо переменных , ..., x~k , игнорируя оставшиеся уравнения. В результате будет получен точечный прогноз y0 = x0 + x1x°0 + x2x0 +... + Xkx0 •
Если исследователь предполагает, что в прогнозных значениях объясняющих переменных x° ,
x°, ..., x0 содержатся «зашумления», то эти переменные необходимо предварительно «очистить» от влияния ошибок, а уже по «очищенным» значениям осуществлять прогнозирование. В этом случае возможно получение интервального прогноза согласно следующей процедуре.
1. По модели (8) для каждой объясняющей переменной определяется минимальное и максимальное значение ошибки аппроксимации: ex . = min ex^ = min( x j — x j ) ,
sxj = max ex = max( xj — x j) , j = 1,k .
2. Для каждого прогнозного значения объясняющей переменной устраняется влияние ошибок аппроксимации. Согласно равенствам (1), истинное значение переменной есть разность между «зашумленным» значением и ошибкой аппроксимации, т. е. x = x — ex . Следовательно, точечные прогнозные значения x0 , j = Цк , можно заме-
.0
* = 1, п , j = 1, к .
Шаг 4. Вновь оцениваются параметры линейной регрессии У* = а0 + а^1 +... + акх Ц + вУ ,
i = 1, n . Обозначим оценки а^', а
,(1) „(1)
(1) а(1) и 1 , ak . И
Д1)
снова находится значение целевой функции 3(1) .
Процедура продолжается, пока значение целевой функции на очередной (I +1) -й итерации оказывается меньше, чем значение целевой функции на предыдущей I -й итерации, т. е. пока
3(1+1' < з(1'. Как только разность 3(1' - 3(1+1 станет меньше наперед заданного очень малого числа 8 > 0, процедура прекращается.
Предложенный численный метод оценивания линейных моделей множественной регрессии со стохастическими переменными реализован в компьютерной программе, разработанной с использованием эконометрического пакета Оге11 Следует отметить, что хотя вопрос сходимости предложенного метода к некоторому глобальному минимуму пока и остается открытым, но в результате многочисленных экспериментов метод ни разу не давал сбой.
Методика прогнозирования
Как было отмечено выше, в настоящее время плохо проработаны вопросы практической применимости регрессионных моделей со стохастическими переменными, в частности вопросы прогнозирования.
Информатика, вычислительная техника и управление
нить интервалами
х° £ [x j; xj ],
j = 1, k , где
Xj = X°j -Sxj
X j = X ; — S
j -Xj
3. Находится нижняя граница интервального
прогноза y. Для этого в первое уравнение модели * * *
(8) yj = aj + ад + с~2Xf2 + ■■■ + необходимо
* *
вместо переменных ~1 , ..., ~k подставлять найденные на предыдущем шаге значения Xj, Xj, j = Ik по такому правилу: если коэффициент уравнения х . > j, то вместо значения х j подставляется Xj, а если jj < j, то Xj.
4. По аналогии с предыдущим шагом находится верхняя граница интервального прогноза y. При этом подстановка осуществляется по такому правилу: если коэффициент уравнения 5 . > j, то
вместо значения х* подставляется Xj, а если
Xj < j,то Xj.
Следует отметить, что для получения более надежного прогноза на первом шаге вместо минимального и максимального значений ошибки аппроксимации можно для каждой объясняющей переменной определять максимальное из абсолютных значений ошибок, т. е. sabs = max
Xj
j = 1k . Тогда на втором шаге точечные прогнозные значения Xj, j = Ik , можно заменить интер-
о
валами xj £ [Xj;х
Г - 1 __v. v-j ^abs
[Xj; Xj I j = 1k , где Xj = Xj —Sj .
0 , abs
X j — X j + S J J X
j
по каждой объясняющей переменной было сгенерировано 100 наблюдений. Затем по формуле (9) были вычислены значения объясняемой переменной у.
После этого и объясняемая переменная у, и
объясняющие переменные х1, х2, х3 были «за-
шумлены». Значения ошибок е , £х\ , и
генерировались как значения случайных величин, распределенных нормально с нулевым математическим ожиданием и стандартными отклонениями 120, 100, 10 и 1 соответственно.
По сгенерированным данным были найдены обычные МНК-оценки параметров линейной модели множественной регрессии, а также оценки модели (3) в случае диагональной регрессии, т. е.
при л1 = сг2 / с2
Xi
y, ^2 =с2 , % =с23/С
у, К3 =ух3 , уу
Затем по 1000 реализациям были получены средние значения оценок коэффициентов. Результаты показаны в табл. 1.
Т а б л и ц а 1 Результаты эксперимента
. Третий и четвертый шаги остают-
по методу Монте-Ка рло
Параметр Истинные значения МНК- оценки Оценки диагональной регрессии
aj 1jj 362,165 8j,j36
a1 1 j,9j4 1,j12
a2 5 4,446 5,j13
a3 1j 8,j44 9,945
ся прежними. При этом прогнозный интервал станет шире.
Модельный эксперимент
Для демонстрации несмещенности оценок параметров модели (3) в случае диагональной регрессии, с использованием пакета Оге1;1 был проведен искусственный эксперимент по методу Монте-Карло [1]. Истинная модель регрессии была задана в виде
у = 100 + х1 + 5х2 +10 х3, (9)
т. е. истинные значения параметров а0 = 100 , а1 = 1, а2 = 5, а3 = 10 .
Значения переменной х1 генерировались как значения случайной величины, равномерно распределенной между 1000 и 2000, переменной х2 - между 100 и 200, х3 - между 10 и 20. Всего
Как и предполагалось, МНК-оценки оказались смещенными, причем средние оценки параметров а1 , а2 , а3 занижены относительно истинных значений, а средняя оценка параметра а0 существенно завышена. Средние же оценки параметров а1 , а2 , а3 диагональной регрессии практически совпадают с истинными значениями, что подтверждает их несмещенность, как и в случае регрессии Деминга [4]. Правда, при этом средняя оценка параметра а0 оказалась несколько занижена по отношению к истинному значению, но всё равно ближе к нему, чем средняя МНК-оценка.
Стоит также отметить, что описанный в работе численный метод во всех 1000 реализациях оказался сходящимся.
Заключение
Подчеркнем основные результаты этой работы.
1. Введено обобщение регрессии Деминга -линейная модель множественной регрессии со стохастическими переменными.
2. Разработан численный метод для оценивания линейной модели множественной регрессии со стохастическими переменными.
3. Предложена методика прогнозирования по регрессионным моделям со стохастическими переменными.
4. Проведен модельный эксперимент, доказывающий несмещенность оценок параметров линейной модели множественной регрессии со стохастическими переменными.
БИБЛИОГРАФИЧЕСКИИ СПИСОК
1. Доугерти К. Введение в эконометрику. М. : ИНФРА-М, 2009. 465 с.
2. Тимофеев В.С., Щеколдин В.Ю., Тимофеева А.Ю. Идентификация зависимостей признаков стохастической природы на основе регрессии Деминга // Информатика и её применения. 2013. Т. 7. Вып. 2. C. 60-68.
3. Deming W.E. Statistical adjustment of data. New York, Dover Publications. 2011. 288 p.
4. Базилевский М.П. Аналитические зависимости между коэффициентами детерминации и соотношением дисперсий ошибок исследуемых признаков в модели регрессии Деминга // Математическое моделирование и численные методы. 2016. № 2 (10). С. 104-116.
УДК 519.688 Краковский Юрий Мечеславович,
д. т. н., профессор кафедры «Информационные системы и защита информации», Иркутский государственный университет путей сообщения,
e-mail: [email protected] Лузгин Александр Николаевич, к. т. н., заместитель начальника управления специального обеспечения
администрации города Иркутска, тел. +79025159719, e-mail: [email protected]
АЛГОРИТМ ИНТЕРВАЛЬНОГО ПРОГНОЗИРОВАНИЯ ДИНАМИЧЕСКИХ ПОКАЗАТЕЛЕЙ на основе ВЕРОЯТНОСТНОЙ нейросетевой модели
Y. M. Krakovsky, A N. Luzgin
INTERVAL FORECASTING ALGORITHM FOR DYNAMIC INDICATORS BASED ON PROBABILISTIC NEURAL NETWORK MODEL
Аннотация. Апробирован алгоритм интервального прогнозирования динамических показателей на основе вероятностной нейросетевой модели по данным среднесуточной солнечной радиации. Интервальное прогнозирование динамических показателей заключается в определении принадлежности их будущих значений заранее введённым интервалам на основе оценок вероятностей. Так как при таком прогнозировании оценивается не само будущее значение показателя, а то, в каком интервале оно будет находиться, такое прогнозирование названо интервальным. Данные по среднесуточной солнечной радиации были получены из общедоступного научного интернет-проекта Solar Energy Services for Professionals. Для апробации алгоритма был использован ранее разработанный программный комплекс «Интервальное прогнозирование нестационарных динамических показателей», реализованный на языке программирования для статистической обработки данных R. Результаты апробации для выбранного показателя подтвердили состоятельность и практическую значимость разработанного алгоритма.
Ключевые слова: интервальное прогнозирование, динамические показатели, вероятностная модель, нейронная сеть.
Abstract. Interval forecasting algorithm for dynamic indicators based on probabilistic neural network model using the dataset of average values of daily solar radiation was approbated. Given that by the forecasting is estimated not the actual future value, but in which interval the value will be, the forecasting was called an "interval forecasting". The dataset of average values of daily solar radiation was obtained from public scientific Internet-project "Solar Energy Services for Professionals". For approbation the algorithm, the previously created software package "Interval forecasting of non-stationary dynamic indicators" was used. The software package was created using the programming language for statistical analysis "R". The approbation results for selected indicator have proved the possibility ofpractical application the of algorithm.
Keywords: interval forecasting, dynamic indicators, probabilistic model, neural network.
Введение
В настоящее время большинство организаций и предприятий осуществляют свою деятельность в условиях неопределённости, где принятие эффективных решений по управлению производственными, технологическими и финансовыми процессами зависит от точности прогнозирования различных динамических показателей, являющих-
ся по своей природе случайными величинами. Именно для таких показателей разработка новых и совершенствование существующих методов прогнозирования является актуальным исследовательским направлением [1-3].
Существует множество распространённых методов и математических моделей прогнозирования динамических показателей [1]. К наиболее