Научная статья на тему 'Имитационное моделирование при выборе состава факторов и структуры уравнения регрессии'

Имитационное моделирование при выборе состава факторов и структуры уравнения регрессии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
233
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / КОЭФФИЦИЕНТ ВАРИАЦИИ / COEFFICIENT OF VARIATION / ОШИБКА ФУНКЦИИ ОТКЛИКА / RESPONSE FUNCTION ERROR / ОШИБКИ НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ / COVARIATES ERRORS / ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ ЗНАЧЕНИЙ ФУНКЦИИ ОТКЛИКА / CONFIDENCE LIMITS OF RESPONSE FUNCTION VALUE / IMITATION MODELING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хубаев Георгий

Автором предложены процедура и инструментарий (программные системы автоматизированного синтеза имитационной модели) выбора состава факторов и структуры регрессионной модели, позволяющие с минимальными трудозатратами получать оценку статистических характеристик (математического ожидания, дисперсии, коэффициента вариации, эксцесса, асимметрии) и распределение (гистограмму) функции отклика при различных значениях ошибок независимых переменных (при различной точности измерения значений факторов) и разной структуре регрессионной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хубаев Георгий

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMITATION MODELING AT THE CHOICE OF COMPOSITION OF FACTORS AND STRUCTURE OF REGRESSION EQUATION

It was demonstrated that at the choice of the best of the built variants of regression model the orientation is only to the value of coefficient of determination and Fcriterion cant warrant obtaining of minimal error of forecast of response function. For comparative assessment of quality of obtained variants of regression equation was demonstrated the opportunity of usage of developed program systems which allow at minimum labour costs to build imitation models, to carry out imitation modeling, to estimate statistic characteristics of response function (expectation value, dispersion, coefficient of variation of excess, unbalance and character of distribution) at various values of errors of covariates and different structure of regression model. Knowing the character of allocation of response function, we can estimate the probability of that the response function will be found within the prescribed limits. As an example related to the solution of real applied problem it is demonstrated that depending on the structure of regression equation and accuracy of measurement or fixation of covariates the value of response function error can vary over a wide range.

Текст научной работы на тему «Имитационное моделирование при выборе состава факторов и структуры уравнения регрессии»

№ 6(30) 2010

Г.Н.Хубаев

Имитационное моделирование при выборе состава факторов и структуры уравнения регрессии

Автором предложены процедура и инструментарий (программные системы автоматизированного синтеза имитационной модели) выбора состава факторов и структуры регрессионной модели, позволяющие с минимальными трудозатратами получать оценку статистических характеристик (математического ожидания, дисперсии, коэффициента вариации, эксцесса, асимметрии) и распределение (гистограмму) функции отклика при различных значениях ошибок независимых переменных (при различной точности измерения значений факторов) и разной структуре регрессионной модели.

Регрессионные модели широко применяются при прогнозировании производственных процессов, идентификации и описании динамики систем различного назначения. Качество построенного уравнения обычно оценивают по величине коэффициента детерминации и Р-критерия. Однако при использовании, например, метода всех возможных регрессий или шагового регрессионного метода часто оказывается, что состав независимых переменных и структура уравнения у нескольких вариантов регрессионной модели одного назначения существенно различаются, а значения коэффициента детерминации и Р-критерия достаточно близки. Какой из построенных вариантов регрессионной модели следует выбрать в качестве основного? Как оценить влияние ошибок независимых переменных на статистические характеристики функции отклика, какие факторы и в какой взаимосвязи уменьшают ошибку прогнозируемого показателя? При нелинейной структуре полученных вариантов уравнения регрессии и различной точности измерения независимых переменных корректный выбор модели, имеющей минимальную ошибку функции отклика, аналитическими методами осуществить невозможно. Далее на кон-

кретном примере автор продемонстрирует возможность использования разработанных программных продуктов для автоматизированного синтеза имитационной модели и получения статистических характеристик функции отклика.

Особенности предлагаемого подхода к выбору состава факторов и структуры регрессионных моделей поясним на примерах, связанных с решением реальных прикладных задач. Считаем, что ошибки X, и Ь-коэффициентов распределены нормально.

Пример 1. Пусть необходимо построить регрессионную модель для прогнозирования функции отклика У. Содержательный анализ матрицы исходных данных и матрицы корреляций позволил выделить группу из семи факторов Х1-Х7, по предположению влияющих на функцию отклика У. Дальнейший анализ показал, что целесообразно рассмотреть возможность включения в регрессионную модель смешанных произведений и других сочетаний факторов: хХ6 ), Х3 хХ7 ), Х2 хХ4 ), г4), х,2), хз).

Матрица корреляций г- ) имеет вид:

№ 6(30) 2010

Г (Z1-Z5,y) 4 ¿4 У

-0,67 -0,61 0,964 0,966 0,8

0,967 -0,74 -0,48 -0,8

-0,65 -0,39 -0,8

¿4 0,92 0,77

¿5 0,68

Чтобы установить состав определяющих факторов и структуру прогнозной модели,

воспользуемся методом всех возможных регрессий. В данном случае ограничимся серией, состоящей из трехфакторных уравнений.

Результаты вычислений представлены в табл. 1.

Руководствуясь величиной Я2, упорядочим варианты внутри серий и включим «лидеров» в табл. 2.

В таблице 3 представлена динамика среднего квадрата остатков при переходе от серии к серии.

Таблица 1

Результаты реализации метода всех возможных регрессии

I

I

£

1

I

!

I

(о =а со о

!

*

S

is

U

0 (о

!

-а со

!

1

S

i

<u

о £

0

и

is

Номера включаемых переменных Я2 F-критерий Сумма квадратов, обусловленная регрессией Сумма квадратов остатков

1 0,64 12,5 18,6 2,3

2 0,58 9,56 18,16 2,71

3 0,66 1,36 18,7 2,17

4 0,59 10,22 18,27 2,6

5 0,47 6,16 17,46 3,41

6 0,4 4,59 17,0 3,87

16 0,78 10,85 19,49 1,39

15 0,76 9,53 19,34 1,53

14 0,64 5,35 18,57 2,3

13 0,81 12,83 19,67 1,21

12 0,73 8,09 19,14 1,73

26 0,58 4,14 18,18 2,69

25 0,71 7,27 19,0 1,87

24 0,67 6,21 18,79 2,09

23 0,67 6,15 18,77 2,1

36 0,74 8,46 19,19 1,52

35 0,82 13,64 19,72 1,15

34 0,76 9,65 19,85 1,52

46 0,7 6,93 18,94 1,93

45 0,6 4,45 18,29 2,58

56 0,77 10,29 19,43 1,45

156 0,78 6,05 19,49 1,38

146 0,82 7,65 19,73 1,15

145 0,76 5,45 19,37 1,5

№ 6(30) 2010

Окончание табл. 1

Номера включаемых переменных Я2 F-критерий Сумма квадратов, обусловленная регрессией Сумма квадратов остатков

136 0,81 7,18 19,67 1,21

135 0,83 8,49 19,82 1,05

134 0,83 8,12 19,78 1,09

126 0,79 6,46 19,56 1,31

125 0,76 5,3 19,34 1,53

124 0,75 5,09 19,29 1,58

123 0,9 15,32 20,24 0,65

256 0,78 5,83 19,45 1,42

246 0,7 3,85 18,94 1,93

245 0,72 4,25 19,07 1,8

236 0,77 5,48 19,38 1,49

235 0,92 20,01 20,38 0,49

234 0,88 12,43 20,12 0,76

356 0,82 7,63 19,72 1,15

346 0,78 5,99 19,48 1,39

345 0,86 10,01 19,96 0,91

456 0,82 7,63 19,73 1,15

Таблица 2 Статистические характеристики лучших уравнений регрессии в 3-х сериях (значения коэффициента детерминации Й2 и Р-критерия)

Серия (число переменных вуравнении регрессии) Переменные в уравнении Коэффициент детерминации Я2 ^-критерий значимости уравнения

I II II JN !N 0,64 0,66 12,5 13,65

II Y23 = f( Z3,Z5) 0,81 0,82 12,82 13,64

III „-< jc jc и и и ^N^N JN JN JN J41 JN„N JN 0,9 0,92 0,88 15.3 20,0 12.4

Таблица 3

Зависимость величины среднего квадрата остатков от числа факторов

в уравнении регрессии

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Число переменных в уравнении регрессии I II III

Средний квадрат остатков, в2 2,95 1,9 1,15

№ 6(30) 2010

Как следует из данных табл. 3, в модель нужно включать не менее трех переменных. Анализ данных табл. 1 и 2 показывает, что внутри серий значения статистических характеристик «лидеров» достаточно близки. Поэтому однозначный выбор состава факторов и структуры регрессионной модели весьма затруднителен.

В описанной ситуации единственно возможной процедурой для реализации оптимального выбора состава факторов и структуры регрессионной модели (по критерию минимума среднеквадратической ошибки функции отклика У, а в общем случае по критерию минимума коэффициента вариации функции отклика) является имитационное моделирование [1]. В качестве инструментальных средств для его реализации могут быть использованы программные продукты [2-4], позволяющие с минимальными трудозатратами (в автоматизированном режиме) строить имитационную модель.

Построение имитационной модели для рассматриваемого примера и реализацию моделирования выполним с использованием системы СИМ-11М1_ [4]. Она ориентирована на интеграцию визуального и имитационного моделирования при анализе и реинжиниринге процессов в экономике, технике и управлении [5], что, во-первых, позволяет сократить затраты труда на построение имитационных моделей; во-вторых, дает возможность моделирования изучаемой системы на качественном и количественном уровне; в-третьих, способствует снижению семантического разрыва между предметной областью и средствами ее представления в модели. Реализация концепции интеграции визуального и имитационного моделирования потребовала формирования конкретной совокупности визуальных и количественных компонентов, на основе которых осуществляется синтез программного кода имитационной модели, причем для каждого компонента формируется соответствующий фрагмент программного кода. Модель процесса включает множество переменных:

86 J-

1) переменных-аргументов;

2) переменных-функций.

Переменные представляют некоторые

параметры изучаемой системы, например, частотные или временные. Переменная модели идентифицируется с помощью уникального в рамках модели имени. Переменные-аргументы представляют в модели действие случайных факторов, оказывающих влияние на изучаемую систему, таких как время выполнения единичной операции, число позиций в поступившем заказе на производство конкретной продукции и т. д. Переменная-функция зависит от разных переменных, в том числе от других переменных-функций.

Переменная-аргумент vf описывается парой вида(IDj ,VALUEi), где IDj — идентификатор переменной; VALUEi определяет способ получения значения переменной:

VALUEi = (£/ > РЩ) > гДе Pari — вектор параметров, количество которых определяется законом распределения £

Используя табличный способ задания распределения, получим:

VALUEi = {{xiq 4)},

где q = 1,Q, — вектор пар вида(xiq,fiq); xiq — значение; f. —соответствующая вероятность; Q( — число значений для /'-ой переменной.

Если используется непрерывный закон распределения, то:

VALUE, = {(iniq 4)},

где q = 1,Q, — вектор пар вида(iniq,fiq); ¡njq — интервал; f, — соответствующая вероятность; Q( — число интервалов для /'-ой переменной.

Переменная — функция vfj описывается тройкой вида(Юу.,F] (V),G] (V)\, где Ю] — идентификатор переменной; Fy (V) — выражение, задающее взаимосвязь переменной v1- с другими переменными; Gy (I/)—выра-

№ 6(30) 2010

жение, описывающее верхний предел суммирования.

Автоматизированный синтез имитационных моделей предполагает реализацию следующих шагов:

1) обеспечение соответствия между количественными компонентами модели и фрагментами программного кода. Каждый такой фрагмент зависит от вида компонента, его атрибутов и связей с другими компонентами;

2) отображение элементов имитационной модели в виде синтаксических конструкций программного кода. Так, переменным модели соответствуют переменные в формируемой программе. Зависимости между элементами отражаются в виде вызовов функций и операторов в синтаксисе выбранного языка программирования;

3) формирование структуры программного кода на основе структуры компонентов модели;

4) рекурсивное построение программного кода имитационной модели, начиная с целевой переменной (представляющей выходной параметр модели).

Одним из преимуществ рассматриваемого варианта формирования программного кода имитационной модели является способность изменять содержимое каждого фрагмента кода без изменения алгоритмов его реализации. Это позволяет расширять функциональные возможности имитационной модели. Генерация программного кода по переменной зависит от вида переменной и ее атрибутов. При построении программного кода производится определение переменных, участвующих в формировании значения целевой переменной, затем осуществляется рекурсивный вызов алгоритма генерации программного кода для каждой из этих переменных.

Зная величину ошибки измерения (фиксации) независимых переменных Хп значения Ь-коэффициентов и их средние квадра-тические отклонения аы и выполнив имитационное моделирование по всем сравниваемым моделям (разным по составу факторов

и структуре), легко оценить ошибку У, обусловленную ошибками Х1 и Ь-коэффициен-тов.

Так, в результате имитационного моделирования по каждому из представленных в табл. 2 трехфакторных уравнений было установлено, что при одинаковой величине относительной ошибки независимых переменных Х( лучшим по критерию минимума ошибки У (разумеется, и по критерию минимума коэффициента вариации) является уравнение У3 а не У3г, как можно было предположить, исходя из значений Я2 и Р-критерия.

Пример 2. Теперь рассмотрим процедуру оценки влияния структуры регрессионной модели на характеристики функции отклика. Покажем, что степень влияния ошибки измерения фактора на статистические характеристики функции отклика существенно зависит от структуры регрессионной модели.

Регрессионная модель, построенная с использованием шагового регрессионного метода, имеет вид:

У5 = 366,072 - 0,8321 х Х2 х Х3 --22,2407 х _ 15,661 х Хв,

где Р-критерий равен 70,24; Ь-коэффициен-ты статистически значимы.

Имитационное моделирование (10000 итераций) с учетом ошибок измерений факторов (при условии, что ошибка измерений всех факторов одинакова и равна 3%) дало следующие результаты:

оу = 7,04; коэффициент вариации Куаг = 0,44; асимметрия А = -0,04; эксцесс — 0,036; размах — 58,3.

Гистограмма распределения функции отклика представлена на рис. 1. Фрагмент доверительных границ для значений функции отклика приведен в табл. 4.

Если ошибки Х2 и Х4 приблизятся к 5%, то результаты моделирования заметно изменятся:

№ 6(30) 2010

Y5

-12,79 -8,98 -5,17 -1,37 -2,44 -6,25 10,05 13,86 17,67 21,48 25,28 29,09 32,90 36,70 -8,98 -5,17 -1,37 2,44 6,25 10,05 13,86 17,67 21,48 25,28 29,09 32,90 36,70 40,51 Рис. 1. Гистограмма распределения функции отклика У5

Таблица 4

Фрагмент доверительных границ для значений функции отклика

у. mm у тах Вероятность попадания функции отклика в указанный диапазон значений Накопленная вероятность

-1,15 4,82 0,104 0,177

4,82 10,79 0,150 0,327

10,79 16,77 0,201 0,528

16,77 22,74 0,184 0,712

22,74 28,71 0,152 0,864

28,71 34,68 0,083 0,947

34,68 40,66 0,038 0,985

40,66 46,63 0,012 0,997

46,63 52,60 0,002 0,999

52,60 58,57 0,001 1,000

оу = 7,34; коэффициент вариации Куаг = 0,46; асимметрия А = -0,002; эксцесс — 0,02; размах — 60,2.

Влияние ошибок независимых переменных и структуры регрессионной модели на

статистические характеристики функции отклика будет еще заметнее, если до 5% возрастет ошибка фактора Х6:

оу = 11,7; коэффициент вариации Куаг = 0,73; асимметрия А = -0,06; эксцесс — 0,085; размах — 83,8.

№ 6(30) 2010

Заключение

В результате проведенного исследования установлено, что при выборе лучшего из построенных вариантов регрессионной модели ориентация только на величину коэффициента детерминации и Р-критерий не может гарантировать получение минимальной ошибки прогноза функции отклика. Продемонстрирована возможность использования для сравнительной оценки качества полученных вариантов уравнения регрессии разработанных программных систем, позволяющих с минимальными трудозатратами строить имитационные модели, выполнять имитационное моделирование, оценивать статистические характеристики функции отклика (математическое ожидание, дисперсию, коэффициент вариации, эксцесс, асимметрию и характер распределения) при различных значениях ошибок независимых переменных и разной структуре регрессионной модели. Зная характер распределения функции отклика, можно оценить вероятность того, что значение функции отклика будет находиться в заданных пределах. На примере решения реальной прикладной задачи показано, что в зависимости от структуры уравнения регрессии и точности измерения или фиксации независимых переменных величина ошибки функции отклика может изменяться в широком диапазоне.

От редакции. В своей фундаментальной статье профессор Г. Н. Хубаев затронул весьма актуальную научную проблему, имеющую огромное значение для управления научным экспериментом, независимо от предметной области. Действительно, анализ факторов, их погрешностей влияет на точность регрессионной модели, предназначенной для описания поверхности отклика, вид которой зачастую неизвестен на начальных стадиях эксперимента.

Важность представленной разработки, доведенной до практической методики, продемонстрированной в статье, крайне вели-

ка. Авторский оригинальный подход может ^ быть применен как в экономико-математических, так и в производственно-техниче- ^ ских моделях.

Редакционный совет рекомендует обратить внимание на данную статью представителей заводских лабораторий при планировании активных экспериментов (в смысле терминологии: Налимов В. В., Чернова Н. А. Статистические методы планирования экстремальных экспериментов. М.: Наука, 1965. — 340 е.).

Описок литературы

1. Хубаев Г. Н. Имитационное моделирование при выборе структуры уравнений регрессии // Обозрение прикладной и промышленной математики. Т. 7. Вып. 2. Первый Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия). М.: Науч. изд-во «ТВП», 2000, с. 435-436.

2. Хубаев Г. Н., Щербаков С. М., Латыпов Р. Р. Система имитационного моделирования «НОВЫЙ» // Свидетельство о государственной регистрации программы и включении в отраслевой фонд алгоритмов и программ (ОФАП). №50200 100 441. М.: ГКЦ ИТ, 2001.

3. Хубаев Г. Н., Щербаков С. М., Шибаев А. А. Конструктор имитационных моделей деловых процессов // Свидетельство об официальной регистрации программы для ЭВМ. №2005612 262. М.: РОСПАТЕНТ, 2005.

4. Хубаев Г. Н., Щербаков С. М., Рванцов Ю. А. Система автоматизированного синтеза имитационных моделей на основе языка 11М1_ «СИМ-11М1_» // Свидетельство об официальной регистрации программы для ЭВМ. №2009610 414. М.: РОСПАТЕНТ, 2009.

5. Хубаев Г. Н., Широбокова С. Н., Щербаков С. М. Автоматизированный синтез имитационных моделей деловых процессов // Известия вузов. Северо-кавказский регион. Технические науки. 2008. №4. С. 73-79.

6. Хубаев Г. Н. О влиянии ошибок независимых переменных на выбор состава факторов и структуры уравнения регрессии //Управление экономическими системами. 2010. №3 (23). [Электронный ресурс], http://uecs.mcnip.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.