Том 10. № 4 (58). 2015
И. Ю. Выгодчикова, канд. физ.-мат. наук, доцент Саратовского государственного университета имени Н. Г. Чернышевского, [email protected]; [email protected]
Алгоритм оценки параметров линейной множественной модели регрессии по минимаксному критерию1
При исследовании динамических процессов необходим реалистичный и объективный причинно-следственный анализ событий . Он возможен благодаря применению математических и компьютерных методов моделирования для изучения свойств рассматриваемых объектов, количественной оценки и прогнозирования показателей динамического ряда . Существующие методы анализа требуют достаточно объемной выборки исходных данных, что не всегда возможно, особенно когда моделируемый показатель зависит от нескольких переменных, при этом недооценивается возможность появления экстремально редких событий, которые нарушают картину распределения рассматриваемого показателя . В статье предложен минимаксный метод оценивания ряда динамической структуры для прямоугольной сетки значений независимых переменных, построен эффективный алгоритм и дан пример его применения . В работе содержится математическое обоснование нового метода моделирования оценочных характеристик временных рядов с использованием минимаксного критерия для линейной множественной регрессионной модели . Сформулированы и доказаны свойства решения задачи, представляющей инструментарий реализации методики моделирования, которые позволили разработать алгоритм, легко представимый на любом языке программирования . Приведены примеры реализации алгоритма для оценки динамических тенденций с целью сжатия данных и прогнозирования недостающих значений в выборке . Рассмотрение обобщения задачи Чебышёва на двумерную прямоугольную сетку позволило применить минимаксную модель для учета множественной регрессионной зависимости, а также использовать ее для реализации оценки параметров авторегрессионной зависимости . Математическое обоснование и полученные свойства новой модели позволили разработать эффективный в аспекте доступности аппаратно-программной реализации в реальном режиме времени алгоритм .
Ключевые слова: минимакс, негладкий анализ, оценка, аппроксимация, алгоритм, экономет-рическое моделирование, множественная регрессия, прямоугольная сетка .
Введение
До середины 80-х годов прошлого века среди общепризнанных методов прогнозирования временных рядов наиболее популярными были методы прогноза (или экстраполяции) ARIMA, ARMA (англ. autoregressive integrated moving average, иногда модель Бокса — Дженкинса) [1], ос-
1 Работа выполнена при финансовой поддержке РФФИ (проект 13-01-00175).
нованные на идее выражения следующих значений ряда через предыдущие. Это наиболее распространенный подход, используемый в ситуациях, когда информация о системе исчерпывается предыдущими значениями ряда. Эти методы отлично работают на краткосрочных прогнозах с быстро изменяющимися тенденциями (например, финансовые рынки, новостная финансовая аналитика). Однако для обработки и анализа объемных данных указанные методы дают столько же информации, сколько и в крат-
л 105
Vol. 10. No. 4 (58). 2015
косрочных проектах, этого часто бывает недостаточно ввиду необходимости учета стабильности функционирования бизнеса как основного фактора его успешного развития.
Один из эффективных способов, позволяющих исследовать зашумленные ряды относительно небольшой длины, основан на методе локальной аппроксимации, описанном впервые в статье [2] для прогноза хаотических временных рядов. В оригинальном варианте этот метод имеет ряд преимуществ перед традиционным методом авторегрессии при прогнозировании нерегулярных временных рядов, однако для анализа зашумленных данных он несовершенен.
Специальные методы прогнозирования динамических рядов, основанные на работах Такенса [3], разрабатывались в рамках теории динамических систем. Они ориентированы в первую очередь на прогнозирование нерегулярных (хаотических и квазипериодических) стационарных временных рядов, порождаемых сложными нелинейными системами. Однако с развитием нелинейной динамики задача прогноза стала значительно сложнее и часто не укладывается в схемы, представляемые теорией. В частности, длина обрабатываемого ряда должна быть достаточно большой, а шумовая компонента — малой величиной.
Целью исследования является разработка нового минимаксного метода оценивания ряда динамической структуры для прямоугольной сетки значений независимых переменных, построение эффективного в отношении доступности аппаратно-программной реализации в реальном режиме времени алгоритма и демонстрация его применения.
Известно достаточно много программ эконометрического анализа и прогнозирования (MSExcel, Ма^аЬ, wxmaxima, Gretl и пр.). Для оценки параметров регрессионной модели обычно применяется метод наименьших квадратов и его модификации [4, с. 120-177; 5, с. 78, 89, 162]. В то же
время применение новых инструментов и индикаторов качества прогноза может, наряду с другими методами, подтвердить выводы, полученные с использованием последних, и тем самым повысить надежность прогноза.
Задача о равномерном наилучшем приближении функции алгебраическим полиномом заданной степени была сформулирована П. Л. Чебышёвым в 1854 г. [6]. Несмотря на математическую обоснованность решения и существование эффективных алгоритмов, данная задача не получила применения на практике ввиду сложности программной реализации алгоритма.
При моделировании данных на базе задачи П. Л. Чебышёва максимальная ошибка аппроксимации обусловлена появлением экстремально редких событий [7]. Таким путем можно добиться сильного сжатия данных, что позволяет восстановить полную картину выборки, сохранив качество прогнозирования. При этом за качество точечного прогнозирования недостающих данных в выборке за рассматриваемый период можно не беспокоиться — максимальная ошибка аппроксимации известна заранее.
В статье рассматривается обобщение линейного случая задачи Чебышёва на прямоугольную сетку, позволяющее применять минимаксную модель для учета множественной регрессионной зависимости, а также использовать ее для оценки параметров авторегрессионной зависимости. Приводится математическое обоснование метода и собственно алгоритм.
Предлагаемый метод весьма полезен для моделирования и анализа исследуемого процесса, а также для получения дополнительной информации о качестве модели, полученной с использованием известных методов.
Метод имеет ряд преимуществ, в частности, позволяет построить модель с заранее известной погрешностью аппроксимации, достичь значительного сжатия данных и выявить экстремально редкие события, приведшие к сильным скачкам данных.
Том 10. № 4 (58). 2015
Предварительные сведения
Приведем формулировку задачи П. Л. Чебышёва [6, с. 13, 31]. Пусть в узлах дискретной сетки T = {t0 < t1 <... < tN} заданы значения показателя yk = y(tk ), k = 0, N, pn ( A,t) = a0 + a1t +... + antn — алгебраический полином степени не выше n с вектором коэффициентов A = (a0, a1.....an ) e Rn+1, N и n —
целые неотрицательные числа.
Требуется минимизировать максимальное по всем узлам сетки Т уклонение алгебраического полинома от значений дискретной функции в этих узлах:
y1 - y 0 + 2 • h
Ф(A) = У* - Pn(A,tk)
k =0,N
^ min
A eRn+1
(1)
Данная задача является задачей негладкого выпуклого анализа. Известно [6], что она всегда имеет решение. Более того, в случае N > п решение единственное.
Из наиболее известных эффективных алгоритмов решения задачи (1) укажем алгоритм Валле-Пуссена [6, с. 26]. В некоторых ситуациях достаточно применить более простую процедуру.
Рассмотрим линейный полином (п = 1), Т = {^ < t1 < ... < — моменты времени — начальный момент, возможно, равный «0»), в которые зафиксированы значения показателя ук = у^к), к = 0, N.
Если исходные данные представляют собой динамические ряды, желательно перевести даты в числовую форму.
В линейном случае задача (1) запишется в виде
ф(ао,a) = max \Ук - ao - at
^ min
A=( a0,a1) eR2
(2)
Из [6, с. 14, 31] вытекает, что для отыскания решения задачи достаточно перебирать множества < th < t¡} с Т, каждый раз вычисляя следующие величины:
h = -* + * •
t2 - t1 + У 2
ti - to
a0 =
2 L - L 2 L - L
-h • (t1 + to) + Уо • t1 - У1 • to
t1 - to
t1 - to
и проверяя выполнение равенства Ф(а0,a1) = | h |.
При выполнении данного равенства перебор завершается получением оптимального результата. Для реализации указанной процедуры можно применить, к примеру, программный блок, созданный на базе wxmaxima [8].
Положим, ф* = min ф(A). Решив за-
A=(a0,a1) еЯ2
дачу (2), можно получить следующие показатели зашумленности (абсолютную и относительную ошибку аппроксимации сигнала линейной функцией)
Va = ф*, V = ф*/y,
где y =
N
1N
Tî ^ Ук ■
+ I k=o
Рассмотрим экономические сигналы о численности городского населения [14]. В табл. 1 приведены расчеты по модели (2) с использованием данных о численности населения за все периоды, кроме последнего, по которому производилась оценка качества прогноза.
Прогноз численности городского населения на 2012 г. составил 105 196 тыс. чел. (относительная ошибка, по модулю, 0,52%).
Визуализация альтернансного явления для данных из табл. 1 приведена на рис. 1.
обобщение задачи П. Л. Чебышёва
Приведем обобщение задачи (2) для случая нескольких независимых переменных. В традиционном регрессионном анализе такая модель интерпретируется как модель множественной регрессии. Пусть в результате N + 1 наблюдений получены значения независимых переменных , гк), К е Т,^ е 7, к = 0,N, N > 2. Обозначим
T = . < tN} k, j = o, N, k ф j.
Z = {^o.....ZN }
zk ф Z,
107
a1 =
Vol. 10. No. 4 (58). 2015
Таблица 1. Численность городского населения России по факту и оценка по модели (2) Table 1. The urban population of Russia in fact and assessment of the model (2)
Дата Узел сетки, t (1989 + t) Численность городского населения, тыс. чел. Оценка численности городского населения, тыс. чел.
1 января 2005 16 105 182,1 104 917,05
1 января 2006 17 104 818,6 104 956,9
1 января 2007 18 104 731,7 104 996,75
1 января 2008 19 104 865,1 105 036,6
1 января 2009 20 104 915,5 105 076,45
1 января 2010 21 105 061,4 105 116,3
1 января 2011 22 105 421,2 105 156,15
1 января 2012 23 105 742 105 196 (прогноз)
105600 Jk Численость городского населения
--Городское
население, тыс. чел.
---Оценка
104600 --
104400 --
Узел сетки, t
104200 -I-,-,-,-,-,-,->.
16 17 18 19 20 21 22
Рис. 1. Оценка численности городского населения Fig. 1. Estimation of the urban population
мы, в которых для решения задач линейного программирования, как правило, применяются приближенные методы, характеризующиеся достаточно высокой погрешностью результата.
Чтоб получить точное решение задачи (3), начнем с изучения математических свойств.
Если все точки (tk, zk), к = 0,N лежат на одной прямой, то задача (3) сводится к частному (линейному) случаю задачи П. Л. Чебышёва (2). Будем считать, что это допущение неверно.
В работах [9; 10] и ряде других рассмотрены различные варианты развития задачи (1), в частности рассмотрен вариант обобщения этой задачи на случай многозначного задания исходных данных:
105400 105200 105000 104800
Рассмотрим следующее обобщение задачи (2):
ф(А)=max |/k - а0 - at - a2 zj ^ min (3)
k =0,N k 0 1 k 2 k| A=(a0 ,a1 ,a2)eR
Очевидно, что задача (3), как и задача (2), сводится к задаче линейного программирования:
Ф ^ min,
Ук - a0 - aitk - a2Zk < Ф, a0 + aitk + + a2zk - yk < ф, к = 0, N.
Последняя задача содержит 4 переменных — компоненты вектора А и ф и 2 (N+1) ограничений, с увеличением N объем вычислений возрастает, и прикладные програм-
Том 10. № 4 (58). 2015
Т ах{ у 2 к- а0- ЗА, З0 + чК.- у К } ^ А Т'П ^
к е0,М Л=(а0,а1)еЯ2
где [у1К,у2К] — диапазон значений показателя у, измеренного на момент tК, уК ^ У2К, К = 0, N.
Далее рассматриваем задачу (3), которая позволяет учесть зависимость моделируемого показателя от нескольких независимых переменных и дает дополнительный инструментарий многофакторного регрессионного анализа. Начнем с получения математического аппарата исследования задачи.
свойства решения задачи
Для быстрого и точного решения задачи с использованием современных компьютерных технологий важна алгоритмическая последовательность инструкций, на каждой итерации применяющая доступные средства. Сведение достаточно сложных задач к итерационному решению линейных систем является интересным и важным умением.
Свойства решения задачи (3) позволят свести процесс решения к итерационному отысканию решений систем линейных уравнений.
1. Существование решения
Если существование решения задачи заранее не установлено, то результат можно не получить. Например, сведя задачу к задаче линейного программирования, сделать заключение о существовании решения не удастся. Для практического применения модели вначале необходимо выяснить принципиальную возможность ее применения.
Рассмотрим вопрос о существовании решения задачи (3).
Теорема 1. Пусть Т = < ... < tN},
7 = .....zN} — набор различных между
собой элементов, и пусть ранг матрицы
rank
1 t0 1t
0 tN
= 3.
Тогда задача (3) имеет решение. Доказательство. Не ограничивая общности в рассуждениях, считаем, что определитель
ф 0
N
следовательно, система линеиных уравнении
a0 + aA + a2 Zk = Ук, k = 0,2
имеет решение A = (a0,ä1,a2). Подставим наИденное решение в целевую функцию задачи, получим значение ф(A).
Несложно увидеть, что множество M = {A еЯ3 : ф(А) < ф(A)} не пусто ( A = A ), ограничено и замкнуто.
Поскольку выполняется равенство
min ф( A) = min ф( A),
АеЯ3 ' AeM^ '
и при этом ф() является непрерывной функцией, то по теореме Вейерштрасса функция ф() достигает на множестве M , а следовательно, и на всем пространстве Я3, своего минимального значения. Следовательно, решение задачи (3) существует.
Теорема доказана. _
Если все точки (tk,zk,yk), к = 0,N лежат на одной плоскости, a1t + a2z - y + a0 = 0, имеем тривиальное решение задачи (3) yk = a0 + a1tk + a2zk, к = 0, N и ф(A) = 0, поэтому далее этот случай не рассматривается.
2. Дифференциальные свойства целевой функции
Для получения свойств решения задачи согласно рекомендациям методики негладкого анализа целесообразно воспользоваться условиями оптимальности. Целевая функция задачи (3) является выпуклой, поэтому для получения условий оптимальности достаточно применить классический аппарат субдифференциального исчисления [6; 11; 12].
Обозначим через Эф( A) субдифференциал функции ф( A) [12, с. 72], а через coM — выпуклую оболочку множества M [12, с. 9].
109
-ч ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS
Vol. 10. No. 4 (58). 2015 '
Теорема 2. Функция ф(Л) субдиффе-ренцируема в любой точке Л е Я3. Если ф(Л) > 0, то ее субдифференциал может быть представлен в виде
Эф(Л) = с°%к (1, ^, zk): %к (Ук - а0 - аА - а2zk) =
= ф(Л), к е 0М
где
1, если ук - а0 - a1tk - а2 zk > 0 -1, если ук - а0 - аД - а2 zk < 0' к е .
Sk = ■
Sk =
1, k е I + (/4), -1, k е I-(/4), Ц-1;1], k е I(4)\{I+ (4) иI-(4)}.
математические факты, позволяющие обосновать оптимальность полученного результата. Следующие факты позволяют сделать соответствующие выводы и составить алгоритм, на конечном шаге приводящий к нужному результату.
Как и ранее, считаем, что ф(Л) > 0, для любого Л е Я3. Очевидно, в таком случае N > 3.
Теорема 3. Пусть Т = < ... < tN},
7 = .....zN} — набор различных между
собой элементов, и пусть ранг матрицы
Доказательство. Отметим, что целевая функция задачи (3) как функция дискретного максимума двух гладких (линейных) по А функций является субдифференциру-емой [13, с. 128; 12, с. 117].
Введем следующие обозначения:
/(Л) = [к е : ф(Л) = \ук - а0 - а{к - а2Zk |}, /+ (Л) = [к е /(Л): Ук - а0 - аД - а2Zk > 0}, /-(Л) = [к е /(Л): Ук - а0 - аД - а2Zk < 0},
rank
1 t0 1 t
0 tN
= 3.
-N У
Для того чтобы вектор Л = (а0, а1, а2) е Я3 был решением задачи (3), необходимо и достаточно, чтобы нашлись такие
° = ^ < Ч < к < V с Т и > 0, %к е НЛ
k = 0,3,
Bk < 4:
k=0
I* k = 1, (4)
k=0
I^^k(1,|,zfc) = (0,0,0),
(5)
Вычислим субдифференциал Эф( Л) целевой функции ф( Л) задачи (3) [13, с. 132; 11, с. 60; 12, с. 117]:
Эф(Л) = со[|к(1Л,zk): к е /(Л)}.
Поскольку ф(Л) > 0 , то /(Л) = / + (Л) и /-(Л), поэтому согласно принятым обозначениям имеем выражение
Эф(Л) = с°%к (1, ^, ^): %к (Ук - а0 - a1tk - а2zk) = = ф(Л), к е 0^}.
Теорема доказана. 3. Критерий оптимальности Для алгоритмического обоснования метода решения задачи необходимо получить
чтобы при некотором h выполнялась система равенств
а0++ а2 ^ + ^ = у , к = °з. (6)
lk
При этом имеет место равенство ф(Л) = 1 h I.
(7)
Доказательство
Необходимость. Необходимым условием оптимальности вектора Л = (а0, а1, а2) является принадлежность нулевого элемента (0,0,0) субдифференциалу [13, с. 247]: (0,0,0) е Эф(Л). Это приводит, по теореме 2, к выполнению условий (6) и (7), а с учетом определения выпуклой оболочки также требуется выполнение условий (4) и (5).
ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS /-
' Том 10. № 4 (58). 2015
Наконец, если все Хк имеют один знак, то за счет изменения значения коэффициента а0 в системе (6) можно получить вектор коэффициентов, для которого целевая функция принимает меньшее значение, чем для исходного вектора, что противоречит его оптимальности.
Поскольку среди наборов из элементов Хк нет наборов из одинаковых элементов и, учитывая требования теоремы, система (6) имеет однозначное решение.
Достаточность. По теореме 1 решение задачи существует. Пусть это А. Для него выполняется необходимое условие, а ввиду [11, с. 76] для выпуклой функции Эф( А) условие (0,0,0) е Эф(А) является также достаточным.
Теорема доказана.
Преобразования
для построения алгоритма
Для выполнения алгоритмических вычислений приведем следующие преобразования формальной структуры исходных данных.
Запишем систему (4)-(5) в скалярной форме:
Х0 ^0 + + Х2 ^2 + Х3 = 0
Х0 ^0 Г20 + + Х2 ^2 2 + Х3 ^3 Г23 = 0,
Х0 ^0 ^ + + Х2 ^2 *2г + Х3 ^3 = 0,
^0 + X + ^2 + Х3 = 1 .
Обозначим
А =
^ f ^ t1 t2 ts ^
А, , M = th ttk ts j
А-2 ^ ZA tZ ^ Z2 ts Zs
со I 1 1 1 1 j
e =
0 0
vb
МX = е, отсюда
х = м-е.
Аналогично, обозначив
1 tk Z0 t0 ^ f y f я a0
1 t1 Z1 t1 , Y = У1 , = я
1 tk Z2 t2 Ук a2
1 Zs ts j \ yis j 1 h j
Система (4)-(5) запишется в форме
W =
получаем решение системы (4)-(5): Аи = W "1У.
Основная идея метода решения задачи (3), основанного на применении теоремы 3, состоит в конечном переборе (меняем множества ст и значения Хк) решений системы уравнений (6) относительно компонент а0,а1,а2,h вектора Аь, проверке равенства (7) и в случае его выполнения вычисления соответствующих компонент Хк, к = 0,3 вектора X = М ~1е и проверке их неотрицательности.
Как только условие теоремы выполнено, перебор завершается.
Заметим, что одно из Хк можно взять фиксированным. Для определенности можно взять =1.
Алгоритм решения задачи
Введем некоторые обозначения, применяемые в алгоритмической процедуре. Пусть 2 — множество всех подмножеств
о = {Г, < I < I < I } с Т (назовем их «ба-
1 20 21 22 23 ' 4
зисами»), — множество всех наборов из -1 и 1 длины 3.
Шаг 1. Полагаем = 1. Шаг 2. Произвольно берем осХ . Шаг 3. Произвольно берем {^0, ^2} с 2^. Шаг 4. С выбранными числовыми данными (2, 2, 2, Г23 и ^0, ^1, ^2) выполняем матричные вычисления Аь = и находим а0, а1, а2, h.
Шаг 5. Проверяем (7).
Vol. 10. No. 4 (58). 2015
Если (7) выполняется, переходим к шагу 6.
Если (7) не выполняется, берем новый набор [£0, ^2} с 2^ и возвращаемся к шагу 4. Если наборы уже исчерпаны, берем новый базис и переходим к шагу 3 (в силу теоремы 1 процесс либо завершается получением оптимального результата, либо продолжается).
Шаг 6. Выполняем матричные вычисления X = М~1е и находим Х0, X2, X3.
Если Х0 > 0, Х1 > 0, Х2 > 0, Х3 > 0 , то текущий вектор А = (а0, а1, а2) является решением задачи (3), и в силу теоремы 2 алгоритм заканчивается.
В противном случае, если для текущего базиса не все варианты [£0, ^2} с 2^ исчерпаны на шаге 5, берем новый набор [£0, ^2} с 2^ и возвращаемся к шагу 4. Если наборы уже исчерпаны, берем новый базис и переходим к шагу 3.
Число вариантов выбора базиса (N +1)!
Сы+, = —---— , число вариантов выбора
N+1 24 (N - 3)! к к
[£0, ^2} с [-1,1} на каждом базисе 23 = 8, поэтому максимальное число итераций
(N +1)! 3^ - 3) Г
Экспериментальные результаты
1. Прогнозирование численности населения
Для многих динамических процессов характерно наличие связи между значениями исследуемого показателя в предыдущем и прогнозном периодах. Зависимость от времени проявляется в данном случае через характеристики процесса в предшествующем периоде.
Уравнение, выражающее величину зависимой переменной в момент tчерез значения этой переменной в моменты ^ - 1), ^ - 2),..., ^ - р), называется уравнением авторегрессии. Применение авторегрессионных моделей основано на предварительном экономическом анализе, когда известно, что
изучаемый процесс в значительной степени зависит от его развития в прошлые периоды.
Рассмотрим экономические сигналы о численности городского и сельского населения за период с 2005 по 2012 г. [14] (табл. 2).
1.1. Прогнозирование по модели (2). Перейдем к получению прогноза на 2012 г. (его из рассмотрения убираем, затем будем использовать для тестирования моделей прогнозирования).
Если воспользоваться традиционным методом наименьших квадратов, то, используя данные с 2005 по 2011 г., получаем на 2012 г. прогнозы 105 197,5 тыс. чел. (город, относительная ошибка 0,51%), 37 280,4 тыс. чел. (село, относительная ошибка 0,09%).
Если воспользоваться моделью П. Л. Че-бышёва (2), то, используя данные с 2005 по 2011 г., получаем на 2012 г. прогнозы 105 196 тыс. чел. (город, относительная ошибка 0,52%), 37 319,2 тыс. чел. (село, относительная ошибка 0,01%).
1.2. Прогнозирование численности городского населения по модели (3). Пусть zk = ук-1, к = 0,N , у-1 — численность городского населения в 2005 г., для вычислений используем условно годы tk = 17 + к, к = 0,5, ук — численность городского населения в году (2006 + к) (обозначение tk), к = 0,5. Решением задачи (3) является Л = ( 28789.268,107.7655, 0.70611). Прогноз численности городского населения на 2012 г. 105 707,2 тыс. чел. (город, относительная ошибка по модулю 0,03%).
Как видим, точность прогноза возросла за счет введения авторегрессионной компоненты.
Заметим, что в рассматриваемом случае применение авторегрессионной модели с использованием метода наименьших квадратов (те же данные, с 2005 по 2011 г.) приводит к менее точному прогнозу численности городского населения на 2012 г. — 105 677 тыс. чел. (относительная ошибка по модулю 0,06%).
Том 10. № 4 (58). 2015
Таблица 2. Численность населения России
Table 2. The population of Russia
Дата Узел сетки Численность городского населения, тыс. чел. Численность сельского населения, тыс. чел. Общая численность, тыс. чел.
1 января 2005 16 105 182,1 38 618,9 143 801
1 января 2006 17 104 818,6 38 418 143 236,6
1 января 2007 18 104 731,7 38 131 142 862,7
1 января 2008 19 104 865,1 37 882,4 142 747,5
1 января 2009 20 104 915,5 37 821,7 142 737,2
1 января 2010 21 105 061,4 37 772,1 142 833,5
1 января 2011 22 105 421,2 37 444,2 142 865,4
1 января 2012 23 105 742 37 314,4 143 056,4
Анализ результатов. Проведено исследование следующих аппроксимирующих функций:
у = а0 + at, (8)
у = a0 + a1t + a2 z. (9)
Производя расчеты по модели (2) для данных о численности сельского населения с использованием функции (8), получаем модель у = 41214.45 -169.36 t, которая даёт хороший прогноз на 1 января 2012 г., 37319 тыс. чел., относительная ошибка 0,01%.
Максимальная ошибка аппроксимации 114 тыс. чел. (0,3%). При использовании функции (9) этот показатель понижается незначительно, а прогноз на на 1 января 2012 г. получается гораздо менее точным.
Применение метода наименьших квадратов (МНК) для функции (8), а также для (9) приводит к увеличению максимальной ошибки аппроксимации и ошибки прогноза по сравнению с аналогичными показателями для модели у = 41214.45 -169.36 t.
Прогноз численности городского населения с использованием задачи (3) на на 1 января 2012 года составляет 105709 тыс. чел. (относительная ошибка 0,03%). Максимальная ошибка аппроксимации 0,071%, в то время как по МНК она составляет 0,074%.
Кроме того, в рассматриваемом случае применение МНК для функции (9) приводит к менее точному прогнозу численности
городского населения на 1 января 2012 г., 105677 тыс. чел.
Итак, модель у = 28 789.27 + 107.77Г + + 0.71 у-1 является наиболее удачной для сжатия данных о численности городского населения и прогнозирования.
2. Оценка параметров производственной функции по модели (3)
Рассмотрим производственную функцию (ПФ) Y = F(K,L) (У — стоимость произведенной продукции, К — капитальные ресурсы, L — трудовые ресурсы). Требуется по данным (табл. 3) за три года (ежеквартальные данные по малому предприятию) оценить параметры мультипликативной ПФ Y = ЛКаL|!ехр(е), а,в е (0,1), е — случайная ошибка.
Традиционно для этих целей производится логарифмирование исходных данных:
^ = 1пр0 +р11п К + в21п L + е
и оцениваются параметры линейной регрессионной модели методом наименьших квадратов.
Параметры производственной функции оценены двумя способами: методом наименьших квадратов (результат оценки У = 1,96К05^3,42) и с использованием модели (3) (результат оценки 9 = 1,65 К037 ^59).
Решение по модели (3) получено при
= 1, ^ = -1, = 1, ^з = -1 на базисе 1, 2, 5, 10 (табл. 4).
Vol. 10. No. 4 (58). 2015
Таблица 3. Затраты капитала (K), трудовые ресурсы (L) и выпуск (Y) Table 3. The cost of capital (K), labour (L) and output (Y)
T K L Y
1 2,4 8 7
2 4,0 9 11
3 7,0 11 15
4 10,0 14 18
5 12,0 16 19
6 12,0 21 23
7 13,0 24 25
8 13,0 26 27
9 21,0 28 39
10 21,0 30 41
11 22,0 33 40
12 22,0 36 42
С практических позиций экстремальный базис показывает те значения узлов сетки, в которых достигаются максимальные по модулю «выхлопы» или «провалы» рассматриваемого показателя от линейной функции. Такие события являются ключевыми позициями в развитии рассматриваемого показателя, не связаны с шумовыми всплесками [15] и хаотическими процессами [16]. Их можно считать событием типа «черный лебедь» [7], или «экстремально редкими событиями».
Модель У = 1,65К0 37^0 59 является более удачной по сравнению с моделью У = 1,96К05^042, с точки зрения максимальной ошибки аппроксимации и дает более высокий коэффициент корреляции между
расчетными и фактическими значениями стоимости произведенной продукции У (более 0,9). Анализируя экстремально редкие события, можно сделать вывод о том, что наиболее сильный вклад в производственный процесс оказывают первые два квартала первого года, первый квартал второго года и третий квартал третьего года. Отсюда можно сделать вывод о необходимости тщательного анализа сбыта продукции в октябре — декабре текущего года и принятия мер по обеспечению достаточного уровня конкурентоспособности.
Заключение
В статье приводится обобщение минимаксной задачи П. Л. Чебышёва на случай множественной регрессионной зависимости. Ввиду достаточно высокой сложности и особой алгоритмической простоты с учетом доказанных свойств предложенное решение задачи может применяться для получения дополнительных оценок качества моделирования на основе минимаксного критерия. Предложенный пошаговый алгоритм вычислений легко представляется на любом языке программирования. Выполненные вычислительные эксперименты показали целесообразность применения предлагаемого инструмента в анализе и прогнозировании динамических рядов.
Список литературы
1. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Сан-Франциско, 1970.
Таблица 4. Экстремальный базис Table 4. Extreme basis
T K L Y InK InL InF (ВВП) P InF - p
1 2,4 8 7 0,87547 2,07944 1,94591 2,04337 -0,0975
2 4 9 11 1,38629 2,19722 2,3979 2,30043 0,09746
5 12 16 19 2,48491 2,77259 2,94444 3,0419 -0,0975
10 21 30 41 3,04452 3,4012 3,71357 3,61611 0,09746
Том 10. № 4 (58). 2015
2. Истомин И. А., Котляров О. Л., Лоскутов А. Ю. К проблеме обработки временных рядов: расширение возможностей метода локальной аппроксимации посредством сингулярного спектрального анализа. ТМФ, 142:1 (2005), 148-159.
3. Tokens F. Detecting strange attractors In turbulence. In: Dynamical Systems and Turbulence. Lect. Notes In Math. Vol. 898. Eds. D. A. Rand, L. S. Young. Berlin: Springer, 1981. P. 336-381.
4. Магнус В. С., Архипова М. Ю., Балаш В. А., Ба-лаш О. С., Дуброва Т. А., Сиротин В. П. Эконометрика. М.: Проспект, 2008. — 384 с.
5. Клейнер Г. Б. Производственные функции. Теория, методы, применение. М.: Финансы и статистика, 1986 г. — 239 с.
6. Демьянов В. Ф., Малоземов В. Н. Введение в ми-нимакс. М.: Наука, 1972. — 368 с.
7. Нассим Н Т. Черный лебедь. Под знаком непредсказуемости. N. Y.: ИД «Рэндом Хаус», 2007. — 401 с.
8. Свидетельство о государственной регистрации программы для ЭВМ № 2015613108. Программа для визуализации альтернанса и анализа вариантов сглаживания // И. Ю. Выгодчико-ва, В. А. Крысько. Зарегистрировано в Реестре программ для ЭВМ 05 марта 2015 г.
9. Выгодчикова И. Ю. Об аппроксимации многозначного отображения алгебраическим полиномом с ограничениями // Известия вузов. Математика. 2015. № 2. С. 30-34.
10. Выгодчикова И. Ю. О методе аппроксимации экономических данных, основанном на задаче П. Л. Чебышёва и ее обобщении // Известия Саратовского ун-та. Новая серия. 2012. Т. 12. Выпуск 1. Серия: Экономика. Управление. Право. С. 77-80.
11. Демьянов В. Ф., Васильев Л. В. Недифферен-цируемая оптимизация. М.: Наука, 1981. — 384 с.
12. Пшеничный Б. Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1981. — 320 с.
13. Демьянов В. Ф., Рубинов А. М. Основы негладкого анализа и квазидифференциальное исчисление. М.: Наука, 1990. — 432 с.
14. Демографический ежегодник России «ДЕМО-СКОП Weekly» № 583-584. 27 января — 9 февраля 2014. Институт демографии Национальный исследовательский университет «Высшая
школа экономики». URL: httpY/www.demoscope. ru/weekly/2014/0583/biblio04.php
15. Каламбет Ю. А., Мальцев С. А, Козьмин Ю. П. Фильтрация шумов: окончательное решение проблемы // Аналитика. 2011. № 1 (1). С. 50-55.
16. Krysko V. A, Awrejcewicz J. E, KutepovI., Vygod-chikova I. Yu, Krysko A. V. Quantifying chaos of curvilinear beam via exponents // Communications in Non-linear Science and Numerical Simulation. Vol. 27. Issues 1-3. October 2015. P. 81-92.
References
1. Box G, Jenkins G. Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day, 1970.
2. Istomin I. A., Kotlyarov О. L., Losku-tov А. Yu. K probleme obrabotki vremennykh ry-adov: rasshirenie vozmozhnostei metoda lokal'noi approksimatsii posredstvom singulyarnogo spektral'nogo analiza [To problem processing time-series: advancing of method of local approximation by singular spectrum analysis]. TMF, 142:1 (2005), 148-159.
3. Tokens F. Detecting strange attractors In turbulence. In: Dynamical Systems and Turbulence. Lect. Notes In Math, vol. 898. Eds. D. A. Rand, L. S. Young. Berlin: Springer, 1981, pp. 336-381.
4. Magnus V. S., Arhipova M. Yu., Balash V. A., Bal-ash O. S., Dubrova T. A., Sirotin V. P. Ekonometri-ka [Econometrics]. Moscow, Prospekt Publ., 2008. 384 p.
5. Kleiner G. B. Proizvodstvennye funktsii [Production functions]. Theory, methods, application. Moscow, Finansy i statistika Publ., 1986. 239 p.
6. Dem'yanov V. F., Malozemov V. N. Vvedenie vmin-imaks [Introduction to minimax]. Moscow, Nauka Publ., 1972. 368 p.
7. Taleb N. N. The Black Swan: The Impact of the Highly Improbable. New York: Random House, 2007.
8. The certificate of state registration of computer programs № 2015613108. Programma dlya vizual-izatsii al'ternansa i analiza variantov sglazhivaniya [Program for visualization of alternans and analysis of smoothing options]. I. Yu. Vygodchikova, V. A. Krysko. Registered in the FIPS 05 mart 2015 г.
9. Vygodchikova I. Yu. On approximation of multivalued mapping by algebraic polynomial with constraints. Russian Mathematics (Izvestiya VUZ.
Vol. 10. No. 4 (58). 2015
Matematika). February 2015, vol. 59, issue 2, pp. 25-28 (in Russian).
10. Vygodchikova I. Y. About the Economic Indicator's Approximation by Method Based at the P. L. Che-byshev's Investigations and it's Generalizing. Proceedings of Saratov University. The new series, 2012, vol. 12, issue 1. Series: Economics. Management. Right, pp. 77 -80. ISSN 1814-733X, ISSN 1994-2540 (in Russian).
11. Dem'yanov V. F., Vasil'ev L. V. Nedifferentsirue-maya optimizatsiya [Non-differential optimization]. Moscow, Nauka Publ., 1981. 384 p.
12. Pshenichnyi B. N. Vypuklyi analiz i ekstremal'nye zadachi [Convex analysis and extremal problems]. Moscow, Nauka Publ., 1981. 320 p.
13. Dem'yanov V. F., Rubinov A. M. Osnovynegladko-go analiza ikvazidifferentsial'noe ischislenie [Funda-
mentals of nonsmooth analysis and calculus quasi-differentiable]. Moscow, Nauka Publ., 1990. 432 p.
14. Demograficheskii ezhegodnik Rossii «DEMOSKOP Weekly», no. 583-584, 27 jen. — 9 feb. 2014. Institut demografii Natsional'nyi issledovatel'skii uni-versitet «Vysshaya shkola ekonomiki». Available at: http://www.demoscope.ru/weekly/2014/0583/ biblio04.php
15. Kalambet Yu. A., Mal'tsev S. A., Koz'min Yu. P. Fil'tratsiya shumov: okonchatel'noe reshenie prob-lemy [Noise filtering: the final solution]. Analitika, 1/2011 (1), pp. 50-55.
16. Krysko V. A., Awrejcewicz J., Kutepov I. E., Vygodchikova I. Yu., Krysko A. V. Quantifying chaos of curvilinear beam via exponents. Communications in Non-linear Science and Numerical Simulation, vol. 27, issues 1-3, October 2015, pp. 81-92.
I. Vygodchikova, Saratov State University named after N. G. Chernyshevsky, Saratov, Russia, [email protected], [email protected]
Estimating the parameters of a multiple linear regression model according to the minimax criterion1
In the study of dynamic processes is necessary realistic and objective causal analysis of events. Such analysis is possible due to application of mathematical and computer simulation methods. Existing methods of modelling, quantification and forecasting typically require large volume of the original data, which is not always available, especially when the simulated indicator depends on several variables, and they underestimate the possibility of extremely rare events that violate distribution pattern of this indicator. The purpose of this paper — development of a new minimax method estimating of dynamic patterns for rectangular grid of values of independent variables, mathematical study of a new method of modeling, the establishment of an effective algorithm, demonstration of application. Are stated and proved the properties of the solution of the problem which is implementation of tools modeling technique, that allowed develop an algorithm in the form of step by step instructions, which is easily implemented in any software environment. In the article demonstrated examples of implementation of the algorithm, in particular, reviewed its application to assess the dynamic trends for the purpose of data compression and prediction of missing values in the sample. Proposed a minimax model of multiple regression and its realization for estimation of parameters of autoregressive depending. Mathematical justification and obtained the properties of the new model allowed to develop effective, from the viewpoint of availability of the software implementation in real-time, algorithm.
Keywords: minimax, no smooth analysis, estimation, approximation, algorithm, econometric modeling, multiple regression model, rectangular grid.
About author: I. Vygodchikova, PhD in Physics & Mathematics, Associate Professor For citation: Vygodchikova I. Estimating the parameters of a multiple linear regression model according to the minimax criterion. Prikladnaya Informatika — Journal of Applied Informatics, 2015, vol. 10, no. 4 (58), pp. 105-116 (in Russian).
1 Research was supported by grant RFBR 13-01-00175. 116 i