Научная статья на тему 'Модифицированный регрессионный анализ в структурном моделировании'

Модифицированный регрессионный анализ в структурном моделировании Текст научной статьи по специальности «Математика»

CC BY
73
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТРУКТУРНЕ МОДЕЛЮВАННЯ / РЕГРЕСіЙНИЙ АНАЛіЗ / STRUCTURAL MODELING / REGRESSION ANALYSIS / СТРУКТУРНОЕ МОДЕЛИРОВАНИЕ / РЕГРЕССИОННЫЙ АНАЛИЗ

Аннотация научной статьи по математике, автор научной работы — Босов А.А., Мухина Н.А.

Рассмотрена задача структурного моделирования с помощью специальным образом организованного регрессионного анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A MODIFIED REGRESSION ANALYSIS IN STRUCTURAL MODELING

The problem of structural modelling with the help of specially organized regression analysis has been considered.

Текст научной работы на тему «Модифицированный регрессионный анализ в структурном моделировании»

УДК 511.342.2

А. А. БОСОВ, Н. А. МУХИНА (ДИИТ)

МОДИФИЦИРОВАННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ В СТРУКТУРНОМ МОДЕЛИРОВАНИИ

Розглянуто задачу структурного моделювання за допомогою певним чином побудованого регресшного arnni3y.

Рассмотрена задача структурного моделирования с помощью специальным образом организованного регрессионного анализа.

The problem of structural modelling with the help of specially organized regression analysis has been considered.

Проблема выбора лучших предикторов для заданного отклика остается актуальной при моделировании сложных систем. Прежде всего это связано с большим числом взаимосвязанных элементов, при этом взаимосвязи, как правило, заранее неизвестны. Если исследователь не имеет предварительной информации о порядке предикторов по их важности для предсказания отклика, то решение проблемы, как правило, сводится к регрессии отклика по всем возможным подмножествам показателей и выбору среди них наилучшего набора предикторов. Если при этом число показателей велико, то задача становится практически неразрешимой. Так, если необходимо у раскрыть как функцию от М переменных, то для выбора лучшей необходимо построить 2м -1 моделей. Например, если число показателей равно М = 20, возникает необходимость построения 2м -1 = 1048575 моделей, что становится труднообозримым при анализе. Одним из путей преодоления этих трудностей является пошаговая регрессия [1; 2]. В этом случае проблема состоит в том, какие именно показатели и в какой последовательности необходимо включать в структуру математической модели.

В работе [3] подробно рассматривается метод структурного моделирования, основанный на применении отношения толерантности т . Этот метод обладает определенными преимуществами, так как при заданной доверительной вероятности позволяет определить структуру математической модели, не решая задачи параметрической идентификации.

Несмотря на отмеченные преимущества данного подхода, он существенно зависит от объема опытных данных, что требует применения и других методов для окончательного выбора предикторных переменных.

Исходная информация и ее преобразование

Пусть исследуемый объект определяется системой показателей 0 = {х1, х2,...,хы }, информация о которых задана в виде матрицы экспериментальных значений.

Обозначим через у один из элементов множества О, а именно тот, для которого необходимо определить лучшие предикторы, и в дальнейшем будем называть его откликом модели. В этом случае матрицу экспериментальных значений можно представить в виде

у хи х12 ... хм 1

У 2 Х12 Х22 ••• ХМ 2 [УХ ] = ,

_ ум ХШ Х2 N ••• Хмм _

где N - число периодов наблюдений или число однотипных объектов наблюдений.

Относительно числа наблюдений предположим, что N > М .

Для удобства столбцы матрицы [УХ ] обозначим через Х1, Х2,..., Хм, причем в дальнейшем будем считать, что Хг, г = 1, М - ор-тонормированные векторы, принадлежащие евклидовому пространству размерности N .

Необходимо отметить, что, как правило, это требование на практике не выполняется, поэтому матрицу экспериментальных значений [УХ ] необходимо преобразовать в матрицу X,

столбцы которой являются ортонормирован-ными векторами.

Для замкнутости изложения кратко опишем процедуру ортогонализации системы векторов.

Положим

2 = X71XI,

где — ^^ х2 - длина вектора Х1.

Ортонормируем второй столбец, положив

22 = а22 ' Х2 — а21 ' 21 . Коэффициенты а 22, а 21 определим из условий:

< 2 2,21 > = 0;

< 2 2, 22 > = 1,

где < 22, 21 > - скалярное произведение векторов 22 и 21, которое будем вычислять по формуле

N

<22,21 > —£22,- • 2и .

I=1

Таким образом, в результате решения системы

I а22 <Х2 , 21 >а21 = 0

22 2 1 21 а 22 <Х2'Х2 >-2а 22 а 21 <X2, 21 > + а 21 = 1 имеем:

а = <Х2,21 >

7< Х 2, Х 2 >-< Х 2, 21 > 2

Требование, чтобы вектор 23 имел единичную длину, приводит к необходимости решения уравнения

зз < Хз, з > 21 ^х ^ 2 2 ^х 3 3 ^х 31 < , г2 2 >

2а33а32

< Х3, 2 2 > = 1,

подставив в которое рассчитанные а31 и а32 , приходим к уравнению

а23 ( <Х3, Х3 > - <Х3,21 > - <Х3,22 >) = 1,

откуда следует, что

1

33 у1<Х3,Х3>-<Х3,21 >-<Х3,22> '

В общем виде процесс ортогонализации описывается следующими рекуррентными соотношениями:

к-1

2к =акк 'Хк -Хакг' '2- ,

где

а„„ — -

V

к-1

< Хк, Хк >-£< Хк, 2, > , =1

акг =а кк < Хк , 21 > ,

22 7<Х2,Х2>-<Х2,21 >2 '

Для определения 23 получим соотношение вида

23 — ^х 3 3 3 ^х 31 ^х 3 2 '2 2,

где коэффициенты а33 , а31 , а32 определим таким образом, чтобы вектор 23 имел единичную длину и при этом был бы ортогонален векторам 21 и 22 т. е.

< 23,23 > — 1;

< 23,21 > — 0;

< 23,2 2 > — 0.

Из ортогональности следует

{а31 = а33 <Х3Л >;

а32 = а33 <Х3,22 >.

I — 1, к -1.

Модель с минимальной погрешностью

Математическую модель будем строить в классе линейных моделей в следующем виде:

У — <¿0 + <^1 + а2¿2 +...+ ам^м . (1) где ¿0 - фиктивная переменная, равная единице во

всех опытах, коэффициенты а^, 7 — 0,М определим по методу наименьших квадратов (МНК). Погрешность модели (1) представляет собой:

1<к < N

М

Ук

(2)

Пусть V ей - перечень показателей, которые мы не будем включать в математическую модель типа (1) в качестве предикторов, и пусть VI - число элементов в этом перечне, тогда от-

г—1

1

1

клик У будет определяться с помощью показателей из множества О/V в следующем виде:

У = Е °г2г .

Хг еО/ V

Очевидно, что погрешность модели существенно будет зависеть от множества V и ее можно представить в виде

f

;(Q/ V ) = max

v ' \<k<N

Ук -Z

aZ;,

q v

\

или

s(Q/ V ) = max

v ' \<k < N

M

Ук -Z a'z'k+Z a'z'k

max

\<k < N

Г Л

Z a.zik

V igv /

г л

Z a.zik

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V i<=V /

Таким образом, оценка имеет вид 8(0/ V )<8о или, обозначив через

5 (V) = max

v ' \<k < N

можно утверждать, что

s(Q/ V )<s0 +5(V ).

Таким образом, возникает задача для заданного отклика y определить такой набор предикторов,

чтобы погрешность 5(V) была бы как можно меньше, при этом число исключаемых из набора показателей |V| было бы как можно больше.

В математическом плане сформулированная задача представляет собой задачу векторной оптимизации, и может быть представлена в виде

5(V )

|V| ^ max V cQ.

• min,

(3)

Сформулируем основные свойства решения задачи (3).

Исходя из определения функции 5 (V), следует 5(( и V)<5(() + 5(),

т. е. она является полуаддитивной функцией множества.

Построим функцию

5(V ) = 15(.}),

для которой выполняется

5(V )<5^).

Рассмотрим задачу векторной оптимизации для аддитивной вектор-функции множества V :

f5(V )

V

min .

(4)

Определим, что будем понимать под решением задачи (4) и сформулируем его основные свойства.

1. Множество элементов V. сА будем называть эффективным, если любая его вариация приводит к увеличению или 5 (V) , или V , или

5^) и V одновременно.

2. Под решением задачи (3) будем понимать множество А, содержащее все эффективные наборы типа V,, т. е. элементами множества А являются подмножества множества О, причем каждый из элементов представляет собой эффективное решение задачи (4).

Множество А называется множеством несравнимых вариантов по Парето. В рассматриваемой задаче это множество состоит из М элементов, представляющих собой структуры моделей, которые могут быть выбраны, исходя из заданной точности и числа предикторных переменных.

Пример. Рассмотрим задачу структурного моделирования для Приднепровской железной дороги, где в качестве исходной информации о деятельности дороги рассматриваются данные, приведенные в работе [5]. Деятельность предприятия будем определять по следующим показателям:

Х - грузооборот (млн т-км);

Х2 - пассажирооборот (млн пас-км);

Х3 - количество погруженных вагонов (тыс.);

Х4 - количество разгруженных вагонов (тыс.);

Х5 - производительность локомотивов (тыс. т-км брутто);

Х6 - вагонооборот (сутки).

В качестве отклика У рассмотрим Х1 - грузооборот. В соответствии с изложенной процедурой вычислим погрешности моделей

5({х }), где г = 2,6.

Результаты сведем в табл. 1.

Таблица 1

Xi 5({Xi}) s %

x2 4,698 2,4989

X3 5,030 2,6755

X4 8,820 9,4231

X5 10,740 9,6931

X6 5,010 2,6649

Таким образом, если допустимая максимальная погрешность должна быть не больше 10 %, то структура математической модели с минимальным числом предикторов будет иметь вид

Х1 = / ( Х4, Х5 ) ,

в этом случае математическую модель можно представить в следующем виде

X1 — a0 a4 X4 a5 X5,

(5)

где параметры модели ai - определяются по

п методу наименьших квадратов и равны:

Заметим, что если включить в математиче-

а0 = -73,570;

a4 — 21,213;

a5 — 0,097 ,

скую модель в качестве предикторов все переменные, получим

X =-63,459 -0,346х2 -6,249х3 +

+27,083х4 + 0,113х5 -3,512х6.

при этом максимальная погрешность состав-Максимальная погрешность данной модели при ляет 2,2 %.

этом составила 80 = 2,2872 %% отметим что она Таким образом, грузооборот (х ) определя-

оказалась меньше всех погрешностей 8 % из табл. 1. ется количеством разгруженных вагонов

Результаты решения задачи (4) представим в (х4 ) (тыс. сут.), и производительностью локо-виде табл. 2.

Таблица 2

№ п. п Q/ V V S(V) %

1 {X3 X4 , X5, X6 } X2 } 2,4989

2 {X3 X4, X5 } X2 X6 } 5,1638

3 {X4 X5 } { X3 X6 } 7,8393

4 {x5 } {x2 , X3 X4 X6 } 17,2624

5 {} {{ Xз, X4 X5 X6 } 26,9555

мотива ( х5 ) (тыс. т-км брутто/сут.).

На рис. 1 представлены наблюдаемые и рассчитанные по модели (5) значения грузооборота (х1 ) .

Для сравнения приведем математическую модель (6), когда в качестве предикторов взяты все показатели х2, х3, х4, х5, х6 .

X =-63,459 -0,346х2 -6,250х3 +

+27,083х4 + 0,113х5 -3,512х6 . (6)

240 220 200

From: Predicted & Residual Values (dnepr3.sta) Dependent variable: X1

3'

i

i........ P-... "■■С з......... ...Е i"" ï'

> • •• : ............. '-"С Г''

о Observed Value Predictd Value

Рис. 1. Сравнение наблюдаемых и рассчитанных по модели (5) значений грузооборота

80

На рис. 2 представлены наблюдаемые и рас- погруженных и разгруженных вагонов, произво-считанные по модели (6) значения грузооборота дительности локомотива и вагонооборота. в зависимости от пассажирооборота, количества

From: Predicted & Residual Values (dnepr3.sta) Dependent variable: X1

240 220 200 180 160 140 120 100 80

i 2

■i S

Е i

}........ 3.....t Л Г'" i

.......~!-'Е ±........ 3......-, и"*

1 23456789 10 11

о Observed Value ■■■□■■■■ Predictd Value

Рис. 2

Выводы

1. Предложена методика выбора предик-торных переменных с определенным порядком применения регрессионного анализа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Получена возможность выбора предик-торных переменных по заданной точности математической модели.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн. 1. - М.: Финансы и статистика,

1986. - 366 с.

2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн. 2. - М.: Финансы и статистика,

1987. - 352 с.

3. Босов А. А., Мухина Н. А. Основные задачи моделирования по экспериментальным данным // Пи-тання прикладно! математики та математичного моделювання: Зб. наук. праць ДДУ. - Д., 1999. -С. 7-12.

4. Боровиков В. П., Боровиков И. П. STATISTICA, Статистический анализ и обработка данных в среде WINDOWS. - М.: Филин.

5. Пасечкш В. I. Аналiз динамiки показнишв заль зниць Укра!ни (за результатами мониторингу за перюд 1991-2001 рр.). // Залiзничний транспорт Укра!ни № 5, 2002. - С. 2-6.

Поступила в редколлегию 22.10.03.

i Надоели баннеры? Вы всегда можете отключить рекламу.