Научная статья на тему 'Некоторые особенности, возникающие при изучении нелинейной регрессии с использованием Excel и других программ'

Некоторые особенности, возникающие при изучении нелинейной регрессии с использованием Excel и других программ Текст научной статьи по специальности «Математика»

CC BY
467
95
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
НЕЛИНЕЙНАЯ РЕГРЕССИЯ / NONLINEAR REGRESSION / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / LEAST-SQUARES METHOD / СТЕПЕННАЯ МОДЕЛЬ / EXPONENTIAL MODEL / ЛИНЕАРИЗАЦИЯ / LINEARIZATION

Аннотация научной статьи по математике, автор научной работы — Орлова Ирина Владленовна, Турундаевский Виктор Борисович

В статье излагаются методические и алгоритмические особенности, возникающие при моделировании экономических процессов с помощью моделей нелинейной регрессии. Обсуждается вопросы, связанные с разными подходами к оценке параметров нелинейной регрессии. Даются рекомендации для построения более качественных моделей нелинейной регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOME PECULIARITIES ARISING IN THE STUDY OF NONLINEAR REGRESSION USING EXCEL AND OTHER PROGRAMS

The article considers the methodological and algorithmic features arising in modeling economic processes with the help of nonlinear regression models. Questions related to different approaches to estimation of nonlinear regression parameters are discussed in the article. Recommendations to build better models of non-linear regression are made.

Текст научной работы на тему «Некоторые особенности, возникающие при изучении нелинейной регрессии с использованием Excel и других программ»

НЕКОТОРЫЕ ОСОБЕННОСТИ^ ВОЗНИКАЮЩИЕ ПРИ ИЗУЧЕНИИ НЕЛИНЕЙНОЙ РЕГРЕССИИ С ИСПОЛЬЗОВАНИЕМ EXCEL И ДРУГИХ ПРОГРАММ

УДК 330.43 ВАК 08.00.13 РИНЦ 1818-4243

Ирина Владленовна Орлова,

к.э.н., профессор, профессор каф. Моделирование экономических и информационных систем Финансового университета при Правительстве РФ Тел. (499) 277-21-44 Эл. почта: [email protected]

Виктор Борисович Турундаевский,

к.э.н., доцент, профессор, каф. Прикладной математики Московского государственного университета экономики, статистики и информатики (МЭСИ) Тел. (495) 442-60-98 Эл. почта: [email protected]

В статье излагаются методические и алгоритмические особенности, возникающие при моделировании экономических процессов с помощью моделей нелинейной регрессии. Обсуждается вопросы, связанные с разными подходами к оценке параметров нелинейной регрессии. Даются рекомендации для построения более качественных моделей нелинейной регрессии.

Ключевые слова: нелинейная регрессия, метод наименьших квадратов, степенная модель, линеаризация.

Irina Vladlenovna Orlova,

PhD in Economics, Professor, Professor, the Department of Modeling of economic and informational systems, the Financial University under the Government of the Russian Federation Tel. (499) 277-21-44 E-mail: [email protected]

Viktor Borisovich Turundaevskiy,

PhD in Economics, Associate Professor, Professor, the Department of Applied mathematics, the Moscow state University of Economics, statistics and Informatics (MESI) Tel. (495) 442-60-98 E-mail: [email protected]

SOME PECULIARITIES ARISING IN THE STUDY OF NONLINEAR REGRESSION USING EXCEL AND OTHER PROGRAMS

The article considers the methodological and algorithmic features arising in modeling economic processes with the help of nonlinear regression models. Questions related to different approaches to estimation of nonlinear regression parameters are discussed in the article. Recommendations to build better models of non-linear regression are made.

Keywords: nonlinear regression, least-squares method, exponential model, linearization.

1. При рассмотрении зависимости экономических показателей на основе реальных статистических данных с использованием аппарата теории вероятности и математической статистики можно сделать выводы, что линейные зависимости не всегда адекватно описывают исследуемые процессы. Линейные зависимости рассматриваются лишь как частный случай для удобства и наглядности рассмотрения изучаемого экономического процесса. Чаще встречаются модели, которые отражают экономические процессы в виде нелинейной зависимости.

Например: затухающие гармонические и не гармонические колебания, которые могут характеризовать объемы продаж сезонного товара на этапе ухода с рынка. Или зависимости, характеризующие с экономической точки зрения жизненный цикл товара, ремаркетинг или конверсию товара.

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Изучение нелинейных моделей регрессии является обязательной частью программы дисциплины эконометрика. Как известно, преподавание дисциплины «Эконометрика» ведется исходя из требований, установленных в федеральном государственном образовательном стандарте высшего профессионального образования (ФГОС ВПО) и обязательных при реализации основных образовательных программ бакалавриата и магистратуры по направлению подготовки 080100 «Экономика» с использованием современного программного обеспечения. Рассмотрим некоторые проблемы, возникающие при изучении нелинейной регрессии с использованием Excel и других программных продуктов, и наметим пути их решения.

2. Рассмотрим статистическую связь между зависимой переменной y (случайная функция) и независимой переменной x (фактор) в следующем виде

V(y) = A + B ■ U(x) + 8, (1)

где V(y), U(x) - известные монотонные функции,

А и В - неизвестные параметры (постоянные);

8 - случайная функция, M8 = 0, D(8) = о2.

В точках: xb x2, ..., xn известны значения зависимой переменнойyb y2, ..., yn, а следовательно, можно вычислить

U = U(xj), U2 = U(x2), ..., Un = U(xn);

Vi = V(yi), V2 = V(y2), ..., Vn = V(yn).

и записать

V = A + BU + 8, i = 1, 2, ..., n.

Предположим, что M(8i8j) = 0, т.е. 8i, 8j - некоррелированные и одинаково распределенные случайные величины. Тогда методом наименьших квадратов (МНК) можно получить оценки А и В точных значений коэффициентов А и В

уравнения (1): . VU-V-U . - —

В = _ _2 , A = U-BU,

и2-и

где VU, V, U, U2 - средние значения соответствующих функций, например,

u^tu^vu^tv^pix,).

п ,=1 п /=1

Функция (линейная регрессия)

V{y) = A + BU(x)

будет оценкой среднего значения (математического ожидания) случайной функции V(y).

При сделанных предположениях относительно 8 можно найти несмещенную оценку S8 дисперсии о2 = D(8i):

2 =

n - 2

i (V (Л)-V (Л ))2

Оценки А, В, а также V (у) являются случайными величинами, причем

М (А) = А, М(В) = В, М (V (у, )) = М (V (у,)).

Оценки &А, $з, &У, их дисперсий В(А), Б(В), Б(У) находятся по формулам

с 2 Ss _1

SB ---

U2 - U

(

—2 S - и2 s2B,

S 2

С2 _ SS SV(y) -

n

(и ( x )-U )

1 + __r^

— \2 Л

U2 -U

Оценки средних квадратических отклонений Бв, БА, Буу) характеризуют ошибки определения истинных значений соответствующих величин А, В, У(у).

Предположим дополнительно, что случайные величины дь д2, ..., дп имеют нормальное распределение, тогда можно построить интервальные оценки А, В, У (у), а именно, с вероятностью 1 - а (а - уровень значимости) будут выполняться неравенства

А - ^А < А < А + (а?А, В - ^в < В < В + ^в, (2)

У(у) - ¿а^А < У(у) < У(у) + ^А

где

А =

(

1+1 2

(и (X)-и р

1 + — -2 и2 - и

и ¿а - критическое значение t - распределения Стьюдента для уровня значимости а и числа степеней свободы п - 2.

Для проверки значимости параметров А и В вычисляются статистики

¿А = А / Ба, ¿в = В/Sв.

Если |гА | < а, то коэффициент А не значим, аналогичное правило действует для параметра В.

Регрессионную модель в виде (1) обычно получают при линеаризации нелинейных моделей [1], [2], [3]. Если исходная модель нелинейная по независимой переменной х

У = а + Ь/х) + е, то принимаем У(у)= у, и(х) = /(х), д = е, находим непосредственно коэффициенты а = А, Ь = В; они являются несмещенными, наилучшими линей-

ными оценками истинных значении параметров а и в.

Для некоторых моделеИ, нелинейных по параметрам, удается с помощью соответствующих преобразований привести их к виду (1). Например, для мультипликативных степенной и показательной моделей

y = axb ■ е, y = abx ■ е путем логарифмирования получаем модели

lny = lna + blnx + lne,

lny = lna + lnb ■ x + lne,

совпадающие с (1). Для степенной модели будут найдены коэффициенты Ä = lna, B = b. Имеем: Mb = MB = b, т.е. b - несмещенная оценка b. Далее MÄ = A = lna, Ä - несмещенная оценка lna, но a = exp(Ä) не будет несмещенной оценкой а и найденные оценки a и b не дают возможности построить точное уравнение регрессии у и х.

Если рассматривается, например, аддитивная степенная модель

y = axb + е, y. = axb + е., i = 1, 2, ..., n, то необходимо применять прямой метод вычисления параметров, т.е. находить минимум функции Q(a, b):

Q (*>b ) = ! (y - )

(3)

уравнению, т.е. как минимум функции

Qi(a, b):

Qi (a,b) = £(lny, - A - blnX,. )2,

i=l ,

могут заметно отличаться от оценок, найденных по первому способу. Покажем это на примере.

Рассматривалась модель y, = 1,5хР + е„ i = 1, 2, ..., 16.

Величины eb s2, ..., en моделировались как элементы случайной выборки из нормального распределения: Me, = 0, De, = 4. Найденные значения у, представлены в таб. 1.

Построение степенной модели с помощью Мастера диаграмм в Excel дает следующие результаты (рис. 1).

Используя для построения степенной модели прологарифмированные данные, методом наименьших квадратов (Анализ данных в Excel) получим: lna = -0,3005 b = 1,6904, после операции потенцирования получаются те же параметры: а = 0,5006, b = 1,6904. Однако анализируя ряд остатков (табл. 2), приходим к выводу, что коэффициент детерминации в Мастере диаграмм для степенной модели выдается неверно.

±4

численным методом. Оценки а, b, найденные по линеаризированному

R1 = 1 —

±(и - у )2

508,866 2311,854

= 0,7799.

Таблица 1

xi 1 2 3 4 5 6 7 8

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

у, 0,1 5,09 4,64 9,25 9,93 14,58 17,14 19,7

xi 9 10 11 12 13 14 15 16

у, 20,29 20,2 25,34 26,36 33,87 32,7 38,78 40,68

♦ У

^—Степенная (у)

0 5 10 15 20

Рис. 1. График степенной модели y = 0,5006л;1'6904, R2 = 0,8425

Таблица 2

Предсказанное 0,501 1,616 3,206 5,214 7,603 10,347 13,428 16,828

Остатки -0,401 3,474 1,434 4,036 2,327 4,233 3,712 2,872

20,535 24,538 28,827 33,395 38,233 43,336 48,696 54,309

-0,245 -4,338 -3,487 -7,035 -4,363 -10,636 -9,916 -13,629

1

n

i=1

i=1

Таблица 3

Предсказанное 1,667 3,691 5,876 8,172 10,554 13,007 15,522 18,090

Остатки -1,567 1,399 -1,236 1,078 -0,624 1,573 1,618 1,610

20,705 23,363 26,061 28,795 31,562 34,361 37,189 40,045

-0,415 -3,163 -0,721 -2,435 2,308 -1,661 1,591 0,635

45 40 35 30 25 20 15 10 5 0

Рис. 1. График степенной модели y = 1,673л;1'145, R2 = 0,916

Прямым методом наименьших квадратов, реализуя формулу (3) в Excel в Поиске решения было найдено: а = 1,673, b = 1,145. В табл. 3 приведены значения, предсказанные по модели y = 1,673x1145 и остатки. Коэффициент детерминации, вычисленный, на основании остатков (табл. 3), равен R2 = 0,916. Как видим, качество модели хорошее, Me = 0, критерий Дарбина-Уотсона равен 2,3. График модели, приведенный на рис. 2 подтверждает наши выводы относительно этой модели.

Сделаем вывод, что при построении моделей нелинейной регрессии с помощью программных продуктов, полезно знать, каким способом выполняется оценка параметров модели.

Например, в SPSS [5] применяется прямой метод вычисления параметров, т.е. определяется минимум функции

Q(a,¿) = ^(y, -axb) . В программе

i=1

VSTAT [6] оценки а, b, находятся по линеаризированному уравнению, т.е. как минимум функции

Q (a, b) = £ (ln y, - A - b ln X,. )2.

3. При исследовании реальных нелинейных моделей возникают как аддитивные, так и мультипликативные модели.

Рассмотрим нелинейную мультипликативную модель в виде

у = еф(а, Ь, х), (у = еф(а, Ь, х) Ме, = 1),

где ф(а, Ь, х) - известная функция своих аргументов. Для построения критерия метода наименьших квадратов запишем эти уравнения следующим образом:

Уг = ф(а, Ь, х) + (ег- - 1)ф(а, Ь, х) Муг = ф(а, Ь, хг-),

а затем

У1

a, b, xi)

-1 = £,-1,

отсюда получаем

Q (а, ь ) = X

r

y, -((a,b,Xi)

v (( a, b, xt =i (*,-1)2-

)

(4)

Q (а, ь) = Ё

f b\2 yt - axt

(5)

Значения случайной величины е{ получены программой, описанной в [4], вычисленные значения yi для заданных xi представлены в таб. 4.

Путем минимизации критерия (5) было найдено: а = 1,622, b = 1,157, по линеаризированной модели получилось: а = 1,554, b = 1,168; оба результата практически совпадают и близки к истинным значениям этих коэффициентов. Таким образом, для оценки параметров нелинейных мультипликативных моделей, не поддающихся линеаризации, можно использовать метод оптимизации по критерию (4). Заметим, что при оптимизации по критерию (3) получились более грубые оценки: а = 2,154, b = 1,024. Однако именно этот подход реализован в программе SPSS.

При линеаризации модели возникает проблема восстановления исходной модели. Возьмем, например, обратную модель:

1

У = -

записывая

a + bx + s

1

V ( у ) = — = а + Ьх + £

получаем линейную модель, оценки а, Ь параметров которой, полученные методом наименьших квадратов, являются несмещенными оценками параметров а, Ь исходной модели. Но уравнение

1

а + Ьх

не является уравнением регрессии для

случайной функции у, т.к. 1 1

■ Ф М

a + bx

a + bx + s,

Для определения оценок а и Ь надо найти минимум этого критерия, например, численным методом. Так, для степенной модели будем иметь

Возьмем степенную модель в виде у, = 1,5хР + ег, I = 1, 2, ..., 16, где еI - случайная величина, имеющая равномерное распределение на отрезке [0,8;1,2].

Пусть для линеаризированной модели построен доверительный интервал (2). Считая У(у) монотонно возрастающей функцией у, можем записать эквивалентное неравенство

у-1(у(у) - /АД) < у < Уч(У(у) + /АД) (6)

т.е. доверительный интервал с уровнем значимости а для величины у. В качестве среднего значения у можно взять полусумму границ доверительного интервала:

Таблица 4

x, 1 2 3 4 5 6 7 8

У, 1,267 3,668 5,232 9,316 12,360 12,858 17,250 19,905

x, 9 10 11 12 13 14 15 16

у, 17,974 23,619 23,070 27,824 34,578 28,634 31,753 39,018

2

i=1

ъ

ax

i=1

У =

V-l (v (У)- ^А)< y: < V-1 (V (У) + ^а)

Если У(у) - монотонно убывающая функция, то в (6) знаки неравенств следует поменять на обратные. Для обратной модели, например, будем иметь:

1

У = -

(а + bx)

1 -

tJA а+bx

4.

В заключении следует отметить, что теоретический материал дисциплины «Эконометрика», читаемый в вузах, уменьшается, но его надо не только знать, но и обязательно понимать, чтобы грамотно строить и оценивать модели. Предполагается, что изучивший этот курс сможет решать практические задачи с использованием компьютера (тем более, что спектр эконометрических программных продуктов велик), ему не обязательно знать детально используемый в программе математический аппарат. Задачи решаются на компьютерах, но грамотное построение модели, понимание выдаваемых компьютером

результатов и принятие на их основе решений остаётся за человеком, принимающим решение.

Литература

1. Эконометрика: учебник / под ред. В.С. Мхитаряна. - М.: Проспект, 2008. - 384 с.

2. Эконометрика: Учебник для магистров / Под. ред. И.И. Елисеевой. -М.: Издательство Юрайт, 2012. 453 с.

3. Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: Учебное пособие - 3-е изд., перераб. и доп. aaa

4. Козлов А.Ю., Шишов В.Ф. Применение пакета анализа MS Excel в экономико-статистических расчетах. -М.: ЮНИТИ-ДАНА, 2003. - 139 с.

5. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей: Пер. с нем./Ахим Бююль, Петер Цефель. - СПб.:ООО «Диа-СофтЮП»,2002. - 608 с.

6. http://www.v-stat.ru/(дата обращения 18.09.2013).

7. Дрейпер, Норман, Смит, Гарри. Прикладной регрессионный анализ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3-у изд. : Пер с англ. - М.: Издательский дом «Вильямс», 2007. - 912 с.

References:

1. Econometrics: textbook. /edited by VS. Mhitaryan. - M.: Prospekt, 2008. -384 s.

2. Econometrics: textbook for masters. / edited by Eliseeva I.I. - M.: Izdatelstvo Yurajt, 2012. 453 s.

3. Orlova I.V., Polovnikov V.A. Economic and mathematical methods and models: computer modeling. Textbook. M.: Vuzovskij uchebnik: INFRA-M, 2012. - 389 s.

4. Kozlov A.Yu., Shishov V.F. The use of Excel analysis package for economic-statistical estimation. M.: YuNITI-DANA, 2003.-139 s.

5. Byuyul A., Cefel P. SPSS: the art of information processing. Analysis of the statistic data and recovery of the latent consistencies. Per. s nem./ Ahim Byuyul, Peter Cefel. - SPb.:OOO «DiaSoftYuP»,2002. - 608 s.

6. http://www.v-stat.ru/(дата обращения 18.09.2013).

7. Drejper, Norman, Smith, Harry. Applied regression analysis. Per s angl. -M.: Izdatelskij dom «Vilyams», 2007. -912 s.

2

i Надоели баннеры? Вы всегда можете отключить рекламу.