Научная статья на тему 'О влиянии ошибок независимых переменных на выбор состава факторов и структуры уравнения регрессии'

О влиянии ошибок независимых переменных на выбор состава факторов и структуры уравнения регрессии Текст научной статьи по специальности «Математика»

CC BY
168
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / КОЭФФИЦИЕНТ ВАРИАЦИИ И ОШИБКА ФУНКЦИИ ОТКЛИКА / ОШИБКИ НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ / ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ ЗНАЧЕНИЙ ФУНКЦИИ ОТКЛИКА / IMITATION MODELING / COEFFICIENT OF VARIATION AND RESPONSE FUNCTION ERROR / COVARIATES ERRORS / CONFIDENCE LIMITS OF RESPONSE FUNCTION VALUE

Аннотация научной статьи по математике, автор научной работы — Хубаев Георгий Николаевич

Исследуется влияние ошибок независимых переменных на статистические характеристики функции отклика. Предложены процедура и инструментарий (программные системы автоматизированного синтеза имитационной модели) выбора состава факторов и структуры регрессионной модели, позволяющие с минимальными трудозатратами получать оценку статистических характеристик (математического ожидания, дисперсии, коэффициента вариации, эксцесса, асимметрии) и распределение (гистограмму) функции отклика при различных значениях ошибок независимых переменных (т.е. при различной точности измерения значений факторов) и разной структуре регрессионной модели. Зная характер распределения функции отклика, можно оценить вероятность того, что значение функции отклика будет находиться заданных пределах. На конкретных примерах показано, что ошибки измерения факторов и структура регрессионной модели оказывают существенное влияние на статистические характеристики функции отклика

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Хубаев Георгий Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The influence of covariates errors on the statistic performance of the response function are being analyzed. There are presented the procedure and instruments (program systems of automated synthesis of imitation model) of composition choice of factors and structure of regression model, that allows at minimum efforts getting the estimation of the statistical characteristics (expectation value, dispersion, coefficient of variation of excess and unbalance) and the allocation of response function (bar chart) at various values of errors of covariates (that is at different precision of factor scores measurements) and at different structure of regression model. Knowing the type of allocation of response function, we can estimate the probability of that the response function may be founded within the prescribed limits. It is demonstrated with specific references that errors of factors measurements and the structure of regression model have a significant impact on the statistical characteristics of the response functions.

Текст научной работы на тему «О влиянии ошибок независимых переменных на выбор состава факторов и структуры уравнения регрессии»

О влиянии ошибок независимых переменных на выбор состава факторов и структуры

уравнения регрессии Дата: 01/08/2010 Номер: (23) УЭкС, 3/2010

Аннотация: Исследуется влияние ошибок независимых переменных на статистические характеристики функции отклика. Предложены процедура и инструментарий (программные системы автоматизированного синтеза имитационной модели) выбора состава факторов и структуры регрессионной модели, позволяющие с минимальными трудозатратами получать оценку статистических характеристик (математического ожидания, дисперсии, коэффициента вариации, эксцесса, асимметрии) и распределение (гистограмму) функции отклика при различных значениях ошибок независимых переменных (т.е. при различной точности измерения значений факторов) и разной структуре регрессионной модели. Зная характер распределения функции отклика, можно оценить вероятность того, что значение функции отклика будет находиться заданных пределах. На конкретных примерах показано, что ошибки измерения факторов и структура регрессионной модели оказывают существенное влияние на статистические характеристики функции отклика

Ключевые слова: Имитационное моделирование. Коэффициент вариации и ошибка функции отклика. Ошибки независимых переменных. Доверительные границы значений функции отклика.

Abstract: The influence of covariates errors on the statistic performance of the response function are being analyzed. There are presented the procedure and instruments (program systems of automated synthesis of imitation model) of composition choice of factors and structure of regression model, that allows at minimum efforts getting the estimation of the statistical characteristics (expectation value, dispersion, coefficient of variation of excess and unbalance) and the allocation of response function (bar chart) at various values of errors of covariates (that is at different precision of factor scores measurements) and at different structure of regression model. Knowing the type of allocation of response function, we can estimate the probability of that the response function may be founded within the prescribed limits. It is demonstrated with specific references that errors of factors measurements and the structure of regression model have a significant impact on the statistical characteristics of the response functions.

Key words: Imitation modeling. Coefficient of variation and response function error. Covariates errors. Confidence limits of response function value.

Хубаев Г еоргий Николаевич

доктор экономических наук, профессор Ростовский государственный экономический университет (РИНХ)

[email protected]

Выходные данные статьи: Хубаев Г.Н. О влиянии ошибок независимых переменных на выбор состава факторов и структуры уравнения регрессии // Управление экономическими системами: электронный научный журнал, 2010. - № 3 (23). - № гос. рег. статьи

0421000034/0059. - Режим доступа к журн.: http://uecs.mcnip.ru.

Постановка задачи. В процессе идентификации систем различной природы -экономических, технических, информационны« и др. - достаточно часто приходится сталкиваться с проблемой выбора лучшей регрессионной модели из нескольких сопоставимых. Так, при использовании метода всех возможный регрессий обычно получают несколько серий различнык уравнений - однофакторнык, двухфакторных, трехфакторных и т.д., а затем, руководствуясь величиной коэффициента детерминации R2 и F-критерия, упорядочивают варианты внутри серий. Выбирая среди «лидеров» лучшее уравнение, также ориентируются на прирост коэффициента R2 при переходе от серии к серии и на зависимость среднего квадрата остатков от числа включенных независимых переменный (факторов) XI, Однако, если независимые переменные XI измерены с

ошибками, то ухудшается качество построенного уравнения, возрастают ошибки прогноза функции отклика Y. При этом описанные в литературе весьма трудоемкие аналитические методы оценки величины ошибки Y, обусловленные ошибками независимых переменных, не позволяют определять доверительные границы и закон распределения ошибок функции отклика. Проблема становится неразрешимой при включении в модель различных сочетаний факторов XI (так назытаемык производнык факторов). При этом очевидно, что если независимые переменные измерены с одинаковыми относительными ошибками, то ошибка функции отклика Y будет, в основном, зависеть от структуры уравнения, т.е. от степени полинома, от вида связи между независимыми переменными и знака при них. Если же относительные ошибки измерения XI различны, то величина ошибки У будет определяться и составом включенных факторов, и структурой самого уравнения.

Особенности предлагаемого подхода к выбору состава факторов и структуры регрессионных моделей поясним на примерах, связанных с решением реальных прикладных задач. Считаем, что ошибки XI и Ь-коэффициентов распределены нормально.

Пример 1. Дана таблица значений исходнык даннык - факторов XI, Необходимо

построить регрессионную модель для прогнозирования функции отклика Y. Содержательный анализ матрицы исходных данных и анализ матрицы корреляций позволил выделить группу из семи факторов X1-X7, по предположению влияющих на функцию отклика Y. Дальнейший анализ показал, что, по-видимому, целесообразно рассмотреть возможность включения в регрессионную модель смешанных произведений и других сочетаний факторов: X1*X6 ^1), X3*X7 ^2), X2*X4 ^3), Ш/Ж ^4), X12 ^5), и X3 ^6).

Матрица корреляций г^1^5, Y) имеет вид:

г^1^5, Y) Z2 Z3 Z4 Z5 Y

Z1 -0,67 -0,61 0,964 0,966 0,8

Z2 0,967 -0,74 -0,48 -0,8

Z3 -0,65 -0,39 -0,8

Z4 0,92 0,77

Z5 0,68

Чтобы установить состав определяющих факторов и структуру прогнозной модели, воспользуемся методом всех возможный регрессий. В данном случае мы ограничимся серией, состоящей из всех трехфакторных уравнений.

Результаты вычислений представлены в таблице 1.

Таблица 1 - Результаты реализации метода всех возможный регрессий.

Номера включаемых переменных R2 F-критерий Сумма квадратов, обусловленная регрессией Сумма квадратов остатков

1 0,64 12,5 18,6 2,3

2 0,58 9,56 18,16 2,71

3 0,66 1,36 18,7 2,17

4 0,59 10,22 18,27 2,6

5 0,47 6,16 17,46 3,41

6 0,4 4,59 17,0 3,87

16 0,78 10,85 19,49 1,39

15 0,76 9,53 19,34 1,53

14 0,64 5,35 18,57 2,3

13 0,81 12,83 19,67 1,21

12 0,73 8,09 19,14 1,73

26 0,58 4,14 18,18 2,69

25 0,71 7,27 19,0 1,87

24 0,67 6,21 18,79 2,09

23 0,67 6,15 18,77 2,1

36 0,74 8,46 19,19 1,52

35 0,82 13,64 19,72 1,15

34 0,76 9,65 19,85 1,52

46 0,7 6,93 18,94 1,93

45 0,6 4,45 18,29 2,58

56 0,77 10,29 19,43 1,45

156 0,78 6,05 19,49 1,38

146 0,82 7,65 19,73 1,15

145 0,76 5,45 19,37 1,5

136 0,81 7,18 19,67 1,21

135 0,83 8,49 19,82 1,05

134 0,83 8,12 19,78 1,09

126 0,79 6,46 19,56 1,31

125 0,76 5,3 19,34 1,53

124 0,75 5,09 19,29 1,58

123 0,9 15,32 20,24 0,65

256 0,78 5,83 19,45 1,42

246 0,7 3,85 18,94 1,93

245 0,72 4,25 19,07 1,8

236 0,77 5,48 19,38 1,49

235 0,92 20,01 20,38 0,49

234 0,88 12,43 20,12 0,76

356 0,82 7,63 19,72 1,15

346 0,78 5,99 19,48 1,39

345 0,86 10,01 19,96 0,91

456 0,82 7,63 19,73 1,15

Руководствуясь величиной R2, упорядочим варианты внутри серий и включим «лидеров» в нижеследующую таблицу 2.

Таблица 2 - Статистические характеристики лучших уравнений регрессии в 3-х сериях (значения коэффициента детерминации R2 и F-критерия)

Серия (число переменных в уравнении регрессии) Переменные в уравнении Коэффициент детерминации R2 F-критерий значимости уравнения

I Y11=f(Z1) 0,64 12,5

Y12=f(Z3) 0,66 13,65

II Y21=f(Z1, Z3) 0,81 12,82

Y23=f(Z3, Z5) 0,82 13,64

III Y31=f(Z1, Z2, Z3) 0,9 15,3

Y32=f(Z2, Z3, г5) 0,92 20,0

Y33=f(Z2, Z3, Z4) 0,88 12,4

В таблице 3 представлена динамика среднего квадрата остатков при переходе от серии к серии.

Таблица 3 - Зависимость величины среднего квадрата остатков от числа факторов в уравнении регрессии

Число переменных в уравнении регрессии I II Ш

Средний квадрат остатков, 82 2,95 1,9 1,15

Как следует из даннык таблицы 3, в модель следует включать не менее трех переменных. Но, спрашивается, каких? Ведь анализ данных таблиц 1 и 2 показывает, что внутри серий значения статистических характеристик «лидеров» достаточно близки. Поэтому однозначный выбор состава факторов и структуры регрессионной модели весьма затруднителен.

В описанной ситуации единственно возможной процедурой для реализации оптимального выбора состава факторов и структуры регрессионной модели (по критерию минимума среднеквадратической ошибки функции отклика Y) является имитационное моделирование [1]. В качестве инструментальных средств для реализации имитационного моделирования могут быть использованы программные продукты [2, 3], позволяющие с минимальными трудозатратами (в автоматизированном режиме) строить имитационную модель.

Построение имитационной модели для рассматриваемого примера и реализацию моделирования выполним с использованием системы [3]. Система СИМ-ЦМЪ ориентирована на интеграцию визуального и имитационного моделирования при анализе и реинжиниринге процессов в экономике и управлении [4]. Интеграция визуального и имитационного моделирования, во-первых, позволяет сократить затраты труда на построение имитационнык моделей; во-вторык, дает возможность моделирования изучаемой системы на качественном и количественном уровне; в-третьих, позволяет снизить семантический разрыв между предметной областью и средствами ее представления в модели. Реализация концепции интеграции визуального и имитационного моделирования потребовала формирования конкретной совокупности визуальных и количественных

компонентов, используемых для моделирования. На основе сформированных компонентов осуществляется синтез программного кода имитационной модели. Модель процесса включает множество переменных - переменных-аргументов и переменных-функций. Переменные представляют некоторые параметры изучаемой системы, например, частотные или временные. Переменная модели идентифицируется с помощью уникального, в рамках модели, имени переменной. В модели используются различные виды переменных. Переменные-аргументы представляют в модели действие случайный факторов, оказывающих влияние на изучаемую систему, таких, как: время выполнения единичной операции, число позиций в поступившем заказе на производство конкретной продукции и т.д. Переменная-функция зависит от переменных-аргументов, в том числе и от других

переменнык-функций.

< IDi, VALUEj > ще

Переменная-аргумент

ID,

описывается

парой

вида

идентификатор переменной; получения значения переменной.

VALUE,

где

количество который определяется законом распределения

part ti

табличного способа задания распределения:

1 определяет способ вектор параметров, При исполызовании

вектор пар

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вида

? Где х/д - значение, //£/ - соответствующая вероятносты, О/ - число значений для /-ой переменной. Если используется непрерывный закон распределения:

УА1иЕг {<гпц^1ц >}><?-1>(2г _ векх0р пар вида < > ,где гя - интервал,

соответствующая вероятность, Q/ - число интервалов для ьой переменной. Переменная-

_

f

V ■

функция -1

переменной;

описывается тройкой вида

где - идентификатор

v/

выражение, задающее взаимосвязы переменной

J

с другими

переменными; J ' ' - выфажение, описывающее верхний предел суммирования. Причем при построении программного кода производится определение переменный, участвующих в формировании значения целевой переменной, затем осуществляется рекурсивный вызов алгоритма генерации программного кода для каждой из этих переменных.

В резулытате имитационного моделирования получаем статистические характеристики (математическое ожидание, дисперсию, коэффициент вариации, эксцесс, асимметрию) и распределение (гистограмму) функции отклика при различнык значениях ошибок независимых переменный (т.е. при различной точности измерения значений факторов) и разной структуре регрессионной модели. При известном характере распределения функции отклика можно оценить вероятность того, что значение функции отклика будет находитыся заданных пределах.

Зная величину ошибки измерения (фиксации) независимы« переменных Xi , значения b-коэффициентов и их средние квадратические отклонения obi и выполнив имитационное моделирование по всем сравниваемым моделям (разным по составу факторов и структуре), легко оцениты ошибку Y, обусловленную ошибками Xi и b-коэффициентов. Так, в резулытате имитационного моделирования по каждому из представленный в таблице 2 трехфакторных уравнений оказалосы, что при одинаковой величине относителыной ошибки независимых переменных Xi лучшим по критерию минимума ошибки Y (разумеется, и по критерию минимума коэффициента вариации) является уравнение Y31., а не уравнение Y32, как можно было предположиты, исходя из значений R2 и F-критерия.

Пример 2. Рассмотрим теперы процедуру оценки влияния структуры регрессионной модели на характеристики функции отклика. Покажем, что степены влияния ошибки измерения фактора на статистические характеристики функции отклика существенно

зависит от структуры регрессионной модели.

Регрессионная модель, построенная с использованием шагового регрессионного метода, имеет вид:

Y5=366•072-0•8321*X2*X3-22•2407*X4/X6-15•661*X6•

(R2cкoppeкт=0.96; F-кр=70.24; Ь-коэффициенты статистически значимы)

Имитационное моделирование (10000 итераций) с учетом ошибок измерений факторов (при условии, что ошибка измерений всех факторов одинакова и равна 3%) дало следующие результаты:

Ycp=15.95; ^=7.04; коэффициент вариации ^аг=0.44; асимметрия А=-0.04; эксцесс -0.036; Размах 58.3.

В таблице 4 представлены значения накопленной вероятности для функции отклика.

Таблица 4 - Фрагмент доверительнык границ для значений функции отклика

Ymin Ymax Вepoятнocть попадания функции отклика в указанный диапазoн значeний Hакoплeнная вepoятнocть

. • . . . . . . .

-1.15 4.82 0.104 0.177

4.82 10.79 0.150 0.327

10.79 16.77 0.201 0.528

16.77 22.74 0.184 0.712

22.74 28.71 0.152 0.864

28.71 34.68 0.083 0.947

34.68 40.66 0.038 0.985

40.66 46.63 0.012 0.997

46.63 52.60 0.002 0.999

52.60 58.57 0.001 1.000

Если ошибка Х2 и Х4 приблизится к 5%, то результаты моделирования заметно изменятся:

Ycp=15.95; ^=7.34; коэффициент вариации ^аг=0.46; асимметрия А=-0.002; эксцесс -0.02; Размах 60.2.

Влияние ошибок независимых переменных и структуры регрессионной модели на статистические характеристики функции отклика будет еще заметнее, если до 5% возрастет ошибка фактора Х6:

Ycp=15.93; ^=11.7; коэффициент вариации ^аг=0.73; асимметрия А=-0.06 эксцесс -0.085; Размах 83.8.

ВЫВОДЫ.

1.Пpeдлoжeны пpoцeдypа и инcтpyмeнтаpий (программныге системыг

автоматизированного синтеза имитационной модели) выбopа состава факторов и структуры регрессионной модели, позволяющие получать оценку статистических характеристик (математического ожидания, дисперсии, коэффициента вариации, эксцесса, асимметрии) и распределение (гистограмму) функции отклика при различных значениях ошибок независимыгх переменныгх (т.е. при различной точности измерения значений факторов) и разной структуре регрессионной модели. Зная характер распределения функции отклика, можно также оценить вероятность того, что значение функции отклика будет находиться заданных пределах.

2. На конкретных примерах показано, что ошибки измерения факторов и структура регрессионной модели оказывают существенное влияние на статистические характеристики функции отклика

3. Трудозатраты на реализацию процедуры выбора состава факторов и структуры

регрессионной модели с использованием предложенного инструментария - системы автоматизированного построения имитационной модели - ничтожно малы. Так, для описанных примеров затраты времени на синтез имитационной модели и имитационное моделирование при использовании системы [3] составляли в среднем несколько секунд.

СПИСОК ЛИТЕРАТУРЫ

1. Хубаев Г.Н. Имитационное моделирование при выборе структуры уравнений регрессии//Обозрение прикладной и промышленной математики. Т.7. Вып.2. Первый Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия). М.: Науч. изд-во «ТВП», 2000, с.435-436.

2. Хубаев Г.Н., Щербаков С.М., Шибаев A.A. Конструктор имитационных моделей деловых процессов // Свидетельство об официальной регистрации программы для ЭВМ. - №2005612262. - М.: РОСПАТЕНТ, 2005.

3. Хубаев Г.Н., Щербаков С.М., Рванцов Ю.А. Система автоматизированного синтеза имитационных моделей на основе языка UML «СИМ-UML» // Свидетельство об официальной регистрации программы для ЭВМ. - №2009610414. - М.: РОСПАТЕНТ, 2009.

4. Хубаев Г.Н., Широбокова С.Н., Щербаков С.М. Автоматизированный синтез имитационных моделей деловых процессов // Известия вузов. Северо-кавказский регион. Технические науки. - 2008. - №4. -С. 73-79.

№ гос. рег. статьи 0421000034/0059

Это статья Журнал ВАК :: Управление экономическими системами: электронный научный журнал

http://uecs.mcnip.ru

ИЯЬ этой статьи: http://uecs.mcnip.ru/modules.php?name=News&file=article&sid=177

i Надоели баннеры? Вы всегда можете отключить рекламу.