Научная статья на тему 'Mathcad в руках экономиста: бокс-кокс преобразование и иллюзия «Нормальности» макроэкономического ряда'

Mathcad в руках экономиста: бокс-кокс преобразование и иллюзия «Нормальности» макроэкономического ряда Текст научной статьи по специальности «Математика»

CC BY-NC-ND
834
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Бизнес-информатика
ВАК
RSCI
Область наук
Ключевые слова
ПРЕОБРАЗОВАНИЕ БОКСА-КОКСА / МАКРОЭКОНОМИЧЕСКИЙ РЯД / НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ / РОБУСТНЫЕ МЕТОДЫ / BOX-COX TRANSFORMATION / MACROECONOMIC SERIES / NONPARAMETRIC METHODS / PARAMETRICAL METHODS / ROBUST METHODS

Аннотация научной статьи по математике, автор научной работы — Порунов А. Н.

В статье рассматривается методика преобразования в среде Mathcad ненормально распределенного ряда макроэкономического ряда к нормально распределенному на основе преобразования Бокса-Кокса и возникающие при этом ошибки в оценке нормальности распределения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHCAD IN HANDS OF THE ECONOMIST: BOX-

The article is dedicated to the techniques of Box-Cox transformation method especially in the mission of bringing of abnormally distributed macroeconomic series to the normally distributed view. The normalization of errors emerging in the estimation of affinity of distributions is also considered in the general scope of assessment procedures.

Текст научной работы на тему «Mathcad в руках экономиста: бокс-кокс преобразование и иллюзия «Нормальности» макроэкономического ряда»

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

MATHCAD В РУКАХ ЭКОНОМИСТА: БОКС-КОКС ПРЕОБРАЗОВАНИЕ И ИЛЛЮЗИЯ «НОРМАЛЬНОСТИ» МАКРОЭКОНОМИЧЕСКОГО РЯДА

А.Н. Порунов,

кандидат экономических наук, научный сотрудник лаборатории стратегических исследований и операционного проектирования Самарского государственного технического университета, е-mail: rameno@rambler.ru.

Адрес: г. Рамено, Сызранскийрайон, Самарская область, ул. Пионерская, д. 5.

г \

В статье рассматривается методика преобразования в среде Mathcad ненормально распределенного ряда макроэкономического ряда к нормально распределенному на основе преобразования Бокса-Кокса и возникающие при этом ошибки в оценке нормальности распределения.

у J

Ключевые слова: преобразование Бокса-Кокса, макроэкономический ряд, непараметрические методы, параметрические методы, робустные методы.

Введение

Очень часто1 экономисту-аналитику приходиться иметь дело со статистическими данными, которые по тем или иным причинам не проходят тест на нормальность. В этой ситуации есть два выхода: либо обратиться к непараметрическим методам, что весьма проблематично для экономиста, поскольку требует изрядной математической подготовки, либо воспользоваться специальными методами, позволяющими преобразовать исходную «ненормальную статистику» в «нормальную», что само по себе так же непросто.

Широко распространено мнение, что если же данных много (например, n > 100), или исследуются переменные, значения которых определяются бесконечным числом независимых факторов, то не имеет смысла использовать непараметрические статистики и в этой ситуации лучше обратиться к методам трансформации ненормально распределенных данных в нормально распределенные. Среди множества таких методов преобразований одним из лучших (при неизвестном типе распределения) считается Бокс-Кокс преобразование.

Авторы этого преобразования известные статистики — Джордж Эдвард Пелхэм Бокс (George

1 Математики-экономисты считают, что «очень часто» мягко сказано, здесь следовало бы сказать «в абсолютном большинстве случаев».

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

3

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

Edward Pelham Box), профессор Висконсинского университета в городе Мэдисон (США) и сэр Дэвид Роксби Кокс (Sir David Roxbee Cox) — профессор колледжа Бирбека лондонского университета. Впервые, суть предлагаемого метода была изложена ими в 1964 году, в Журнале Королевского статистического общества (GB) [1]. Практические аспекты Бокс-Кокс преобразования (БК), сегодня достаточно подробно рассмотрены в специальной англоязычной литературе [2—7], чего нельзя сказать об отечественной. Рассмотрим, так ли всемогуще БК преобразование в борьбе с «ненормально» распределенным макроэкономическим рядом и какие иллюзии могут возникнуть у исследователя-экономиста, в зависимости от степени его «статистической испорченности» при оценке согласия функций эмпирического и теоретического распределений.

Бокс-Кокс

преобразование

Пусть некоторая, непрерывная во времени, функция X представлена вектором её значений х, i е 1, ...N. Бокс-Кокс преобразование определяется следующим образом:

хД) = -

1п(х) Д = О

(1)

Выражение (1) представляет собой универсальное параметрическое семейство преобразований, которое экономисты часто используют в алгоритмах сезонной (циклической) корректировки, для того чтобы сезонная составляющая преобразованного динамического ряда стала (хотя бы в первом приближении) не эволюционирующей по амплитуде, что упрощает ее последующую идентификацию [3]. Тиражируемые в литературе по экономической статистике и по этой причине популярные среди экономистов, логарифмическое и степенное преобразования, представляют лишь частный случай преобразования БК. Так, например, в зависимости от значений X получаем: при Х=0 — логарифмическое, при Х<>2 — степенное преобразование.

Один из способов выбрать оптимальное значение X, — это использование значения X, максимизирующего логарифм функции правдоподобия.

Логарифм функции правдоподобия:

N

f(x,X) = -—-\a

j^(Xi(X)-x(X)f

N

+ Д-1)-£1п(х,.) (2)

где * Д( = ■ х *, (А) -

rv i=1

есть среднеарифметическая БК преобразованных данных.

Поскольку изначально БК преобразование было ориентировано только на положительные величины, проблему учета отрицательных значений данных снимают, добавляя к исходным значениям некоторое смещение, переводящее все отрицательные величины в положительную область2:

х Д) = •

(x+cf-1

X

Д*0

1п(х+с), А, = 0

(3)

где: с — величина смещения.

При этом должно выполняться условие:

(х+с)>0 Vx; е X

Доверительная оценка X (с использованием статистики отношения правдоподобия) может быть произведена следующим образом:

f(x,X)> f(x,X)-0.5%l,i , (4)

где X — оценка максимального правдоподобия

для X;

2

ла,1 — верхняя 100(1—а) процентиль хи-квадрат распределения с 1-ой степенью свободы.

Практическая

реализация

Для иллюстрации процедуры БК преобразования в среде Mathcad3 использовался таблично заданный, макроэкономический ряд ВВП РФ — ряд X (табл.1).

2 таким образом получается двухпараматрическое семейство преобразований которое сегодня называется преобразованием Бокса-Кокса

3 В большинстве современных математических пакетов сдвиг на константу (смещение) не предусмотрен, т.е. используется алгоритм более простого однопараметрического преобразования.

4

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

Таблица 1.

Динамика уровней ВВП РФ за период 1885—2009 гг.4

Для нахождения уравнения тренда (в случае экспоненциальной зависимости) воспользуемся стандартной, встроенной в Mathcad5 функцией expfit(t,X,g). Эта функция возвращает вектор, содержащий три коэффициента экспоненциальной кривой вида: a ■ exp(b ■ x) + c, которая наилучшим образом аппроксимирует данные в векторах t и X. Необязательный вектор g содержит начальное приближение для этих трех коэффициентов:

g =

'o.oof

0.001

^0.001,

c = expfit(t,X,g)

с =

0.00000000075 '

0.0143518673 k-508.15140440551,

Xtrend — (cj ■ exp (c2-1) + c3

Для приведения ряда к стационарному виду из ряда Xвычитают найденный тренд — Xtrend и определяют ряд остатков AR (рис. 2):

AR =Х-Xtrend

Для проверки близости распределения ряда остатков к нормальному распределению, построим гистограмму распределения H (рис.3), используя функцию

max(X)

min(X)

XTrend -------------X

Рис.1. Динамический ряд X и тренд

4 в современных границах РФ, составлен автором по источникам [8-12]

5 Использовалась последняя модифицированная версия пакета Mathcad-14 M-035

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

5

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

AR

Рис.2. Динамика ряда остатков AR

max (Нl'i})

Н{2)

Рис.3. Гистограмма распределения ряда остатков

Н = histogram (trunc (4n, A R),

где: histogram (trunc (4~N, A R) — функция, возвращающая матрицу H из двух столбцов, содержащую средние точки trunc4~N подинтервалов. Результирующая матрица содержит trunc 4~Nстрок, где trunc — функция, возвращающая целую часть аргумента.

Как видно из гистограммы, характер распределения ряда остатков далёк от нормального. Как показывает практика, может оказаться, «...что преобразование квадратного корня еще слабовато (не поджимает справа хвост распределения), а логарифмическое — уже слишком сильное (хвостик появляется слева). Раньше пришлось бы выбирать из этих двух, но преобразование Бокса-Кокса в этом случае (А, между 0 и 0,5) найдет промежуточное решение. Поэтому, если истинное нормализующее преобразование неизвестно, преобразование Бокса-Кокса считается лучшим» [13].

Поскольку БК преобразование применяется только к положительным уровням ряда, выберем величину смещения так, чтобы (AR + с) > 0при лю-

бых значениях ряда остатков AR. Примем величину смещения несколько большей (для наглядности, — на 20%) минимального значения в ряду остатков AR: с = 1.2min (AR).

Тогда новый ряд остатков ARg, с учетом смещения, будет равен:

ARg = AR -1.2 • min (AR)

где: min(AR) — функция, возвращающая наименьшее из значений AR.

Пусть показатель степени изменяется в пределах: X = -1,-1 + 0.1...15 с шагом 0.1, тогда лог-функцию правдоподобия FP(ARg,X) можно определить следующим образом:

(ARgi)x -1 1 y (ARgj)x-1

~N 7 In 2 N 1 i=l . X N ы X

N

+

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(А,-1)-5>(Аф,)

6

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

0 5 10

--------- FP(ARg,X)

Рис.4. График логарифмической функции правдоподобия

min (Н{Г Н{1), ВС max (Н{Г)

------------ 0.45 NNn(BC)

Рис. 5. Гистограмма ряда остатков после BK преобразования

Для того чтобы найти оптимальное значение Xopt, итеративно подставляем значения X при которых логарифмическая функция правдоподобия FP(ARg,X) достигает максимума. Ориентируясь по графику логарифмической функции правдоподобия, возьмем «вилку» из значений:

№(Д^,1.48) = -682.903 FP(ARg ,1.49) = -682.902 FP(ARg,1.50) = -682.903

где: sort(BC) — функция, возвращающая вектор со значениями из ВС, упорядоченными по возрастанию.

Это позволит нам отразить кривую плотности нормального распределения на гистограмме (рис.5):

Н = histogram (trunc(\In~ - I,ВС)

Классическая форма функции плотности нормального распределения (гаусиан) в принятых обозначениях будет иметь следующий вид:

Промежуточное значение FP(ARg, 1.49) соответствует максимуму функции FP(ARg, X) т.е. в данном случае X0pt = 1.49

Тогда преобразованный ряд остатков ВС, будет определяться по формуле:

ВС =

A Rg1A9 -1 1.49

Определим еще один ряд ARn, получаемый в результате сортировки ряда остатков BC:

ARn - sort(BC) ,

Nn(ARn) = ----• exp

V 2-л

-1 f ARn - mean(ARn) 2 v Stdev(ARn)

где: mean(ARn) — функция, возвращающая арифметическое среднее (среднее значение) элементов ARn; Stdev(ARn) — функция, возвращающая среднеквадратическое отклонение совокупности элементов ARn.

Гистограмма (рис.5) показывает, что характер распределения остатков, после преобразования по методу Бокса-Кокса, близок к нормальному. «За-

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

7

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

быв» о критериях согласия, оценим ряд остатков на нормальность распределения, на основе показателей эксцесса и асимметрии. Коэффициент асимметрии: skew(BC) - -0.0334 , где: skew(BC) -функция, возвращающая асимметрию элементов BC. Эксцесса: киП(ВС) = -0.01163 , где: kurt(BC) функция, возвращающая асимметрию элементов BC.

Рассчитаем вспомогательные величины ъА и аЕ:

а А =

' 6(N-2)

(N+l)-(N+3)

= 0.2123

Для ряда с распределением близким к нормальному должны выполняться следующие условия [12]:

\skew(BC)\ = 0.0334 < 1.5 о А = 0.3185

и

kurt(BC)-

6

N+1

= 0Л6<1.5аЕ =0.6149 .

В данном случае эти условия выполняются. Продолжим проверку. С этой целью проведем, очень популярный сегодня у экономистов, визуальный анализ нормальности. Стандартизируем, сортированный ранее ряд остатков AR, предполагая, что справедлива гипотеза о нормальности ряда:

аЕ =

1 24 N- (N-2) ■ (N-3) (N+l)2-(N+3)-(N+5)

0.4099

BSn = AR-mean(AR) Stdev(AR)

- 3 - 2 - 1 0 12 3

i

N

cnorm(BSn)

Рис. 6. Графики эмпирической и теоретической функций распределения

Nrl oooBSnl

Рис. 7. Графики обратных кумулятивных распределений эмпирической и теоретической функций

8

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

Построим эмпирическую функцию распреде-i ..

ления — и сравним ее с теоретическим распределением (рис. 6), используя встроенную mathcad-функцию cnorm(BSn). Эта функция возвращает кумулятивное распределение вероятностей со средним, равным 0 и дисперсией, равной 1:

тк=(-2.2 -1.71 -1.18 -0.51 -0.04 0.56 1.02 2 2.48 2.97)

Рассчитаем теоретические частоты fk.

Л= h-N-

___1_

42-п

е

-1

2

(щ)1

График (рис. 6) показывает близость кривых распределения — и cnorm(BSn). На основе mathcad-N

функции, gnorm(F, р, а) возвращающую обратное кумулятивное нормальное распределение ряда F с заданными средним р и среднеквадратическим отклонением а, построим еще один график зависимости BSn(Nrt)t (рис. 7). Предварительно определим.

1=1...N-1, F, = -^,Щ =qnorm(Fl, Q,\)

На первый взгляд может показаться, что и рис.7не дает оснований для беспокойства, — большая часть точек стандартизированного ряда остатков BSn располагаются очень близко к прямой, и, поэтому, распределение ряда можно считать нормальным. Подобные заключения не редки в работах, посвященных исследованию макроэкономических рядов. Но самое печально то, что множатся случаи, когда этим и ограничивается процедура проверки гипотезы о нормальности распределения. Тем временем использование уже старого, «доброго» критерия согласия Пирсона (в данном случае, при N=127 его использование оправдано), критерия Колмогорова или омега-квадрат говорит, что «не все спокойно в датском королевстве». Покажем, так ли это? Тем более, что Mathcad позволяет это сделать достаточно просто (для понимания) и наглядно.

Для начала рассчитаем критерий Пирсона. С этой целью определим размах вариации стандартизированного ряда остатков.

fk =(2 5 11 20 23 20 14 3 1 0),

и эмпирические частоты (используем определенные ранее данные для построения гистограммы (рис. 5).

H(2) = (5 2 10 16 25 23 6 8 10),

тогда расчетный критерий Пирсона X2 будет равен.

X2 =Х

к

[/.-(ПТ

зо.з.

При уровне значимости а=0.05 и числе степеней свободы s = K - 3 = 7, табличное значение критической точки правосторонней критической области хК = 14.2 . Таким образом, эмпирические и теоретические частоты отличаются значимо.

Далее определим значения статистики Колмогорова.

KBSn, =

i

~N

-cnorm(BSni)

где. cnormfBSnJ — mathcad функция возвращающая кумулятивное распределение вероятностей со средним, равным 0, и дисперсией, равной 1. Статистика Колмогорова

D = max(KBSn) = 0.06 .

Расчетное значение статистики.

R = BSnN - BSrij = 4.5 .

Kt = 4n D = 0.71,

Проведем группировку ряда, число групп.

K=trunc(4N-l)=10, к=1...К .

Величина интервала .

h = —= 0.45.

К

Середины интервалов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

mk = BSnk + (^ + (к - 1) ■ h

при выбранном уровне значимости а=0.05 превышает табличное значение

1.36

4n

= 0.12 ,

это означает, что нулевую гипотезу следует отвергнуть, т.е. характер распределения ряда остатков далек от нормального, несмотря на проведенное ранее его БК преобразование.

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

9

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ ЗАДАЧ БИЗНЕС-ИНФОРМАТИКИ

Заключение

Практика статистических исследований показывает, «...что распределения реальных данных никогда не входят в какое-либо параметрическое семейство» [14]. Сегодня в статистической литературе есть немало примеров, показывающих, что распределения ошибок измерений почти всегда отличаются от нормальных» [15]. Эти семейства — лишь возможные приближения, которые далеко не всегда являются адекватными. Приведенный выше

анализ конкретных данных приводит к аналогичному заключению.

В этой связи нельзя не согласиться с мнением одного из авторитетных отечественных статистиков — профессора А.И. Орлова, о том, что не умаляя значимости методов параметрической статистики, необходимо переходить к непараметрическим и робастным методам [14]. И, в первую очередь, по мнению автора, это относится к исследованию макроэкономических рядов. Экономистам об этом надо помнить. ■

Литература

1. Box, G. E. P.; Cox, D. R. An analysis of transformations. (With discussion) J. Roy. Statist. Soc. Ser. B 26 1964 211—252. http://www.ams.org/mathscinet-getitem?mr=192611

2. Box-Cox Transformations: An Overview. Pengfei Li. Department of Statistics, University of Connecticut. Apr 11, 2005 http://www.stat.uconn.edu/~studentjournal/index_files/pengfi_s05.pdf

3. Carroll, RJ and Ruppert, D. On prediction and the power transformation family. Biometrika 68: 609—615.

4. Box-Cox Transformation. http://www-stat.stanford.du/~olshen/manuscripts/selenite/node6.html

5. Davidson, Russell, and James G. MacKinnon. 1993. Estimation and Inference in Econometrics. Oxford University Press.

6. Definition of Box-Cox Transformation http://economics.about.com/cs/economicsglossary/g/box_cox.htm

7. Федосеев В.В. Экономико-математические методы и прикладные модели : учеб. Пособие для вузов / В.В. Федосеев [и др.]. — М. : ЮНИТИ, 2002.

8. A.Maddison, 2001. The World Economy. A Millennial Perspective, Paris, OECD. P. 264

9. The World Economy: Historical Statistics. Paris, OECD, 2003, P. 288

10. Грегори П. Экономический рост Российской империи (конец XIX — начало XX в.). Новые подсчеты и оценки. Перевод с английского И.Кузнецова и А. и Н.Тихоновых. М. Росспэн. 2003г. 256с.

11. Мельянцев В. А. Россия за три века. Указ. соч. С. 90.

12. Лященко П. И. История народного хозяйства СССР. Т. 2. М. 1956. С.406.

13. Приведение данных к нормальному распределению: преобразование Бокса-Кокса. Тематический форум. http://molbiol.ru/forums/index.php?showtopic=201368

14.Орлов А.И. О критериях согласия с параметрическим семейством http://www.newtech.ru/~orlov/kritsogl.htm

15.Мирвалиев М., Никулин М.С. / Заводская лаборатория. 1992. Т.58. № 3. С.52—58.

10

БИЗНЕС-ИНФОРМАТИКА №2(12)-2010 г

i Надоели баннеры? Вы всегда можете отключить рекламу.