Научная статья на тему 'Анализ и обработка исходных данных для прогнозирования результатов инвестиционного проектирования'

Анализ и обработка исходных данных для прогнозирования результатов инвестиционного проектирования Текст научной статьи по специальности «Математика»

CC BY
591
92
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Journal of new economy
ВАК
Область наук
Ключевые слова
ПРОГНОЗИРОВАНИЕ / ИНВЕСТИЦИОННОЕ ПРОЕКТИРОВАНИЕ / ВОССТАНОВЛЕНИЕ ПРОПУЩЕННЫХ ДАННЫХ / АНАЛИЗ СУЩЕСТВЕННО ОТЛИЧАЮЩИХСЯ ЗНАЧЕНИЙ ДАННЫХ / АНАЛИЗ ИСХОДНЫХ ДАННЫХ

Аннотация научной статьи по математике, автор научной работы — Буценко Елена Владимировна

Указывается необходимость анализа исходных данных для прогнозирования основных параметров инвестиционного проектирования. Рассматриваются такие задачи анализа и обработки данных для построения прогноза, как восстановление пропущенных данных и анализ значительно отличающихся значений данных. Также предлагаются пути решения этих задач и приводятся примеры их решения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ и обработка исходных данных для прогнозирования результатов инвестиционного проектирования»

© Буценко Е. В., 2009

БУЦЕНКО Елена Владимировна

Кандидат экономических наук, доцент кафедры информационных систем в экономике

Уральский государственный экономический университет

620144, РФ, г. Екатеринбург, ул. 8 Марта/Народной воли, 62/45 Контактный телефон: (343) 251-96-61 e-mail: [email protected]

Анализ и обработка исходных данных для прогнозирования результатов инвестиционного проектирования

Ключевые слова: прогнозирование; инвестиционное проектирование; восстановление пропущенных данных; анализ существенно отличающихся значений данных; анализ исходных данных.

Аннотация. Указывается необходимость анализа исходных данных для прогнозирования основных параметров инвестиционного проектирования. Рассматриваются такие задачи анализа и обработки данных для построения прогноза, как восстановление пропущенных данных и анализ значительно отличающихся значений данных. Также предлагаются пути решения этих задач и приводятся примеры их решения.

Для получения качественного прогноза основных параметров инвестиционного проектирования необходим полный и объективный анализ имеющихся данных. На стадии подготовки данных к прогнозированию результатов инвестиционной деятельности необходимо решать такие задачи, как восстановление пропущенных данных, анализ значительно отличающихся значений данных («случайных выбросов»), отбор значимых факторов и добавление в модель новых факторов. На основе работ [1-5] в данной статье рассмотрены предлагаемые схемы анализа и обработки исходных данных для реализации прогнозирования результатов инвестиционного проектирования.

Рассмотрим первую из перечисленных задач. Часто среди реальных данных, по которым выполняется прогнозирование, в силу различных причин, имеются пропуски значений некоторых факторов. Именно пропуски значений факторов, а не значений времени или значений параметров прогнозируемой функции. Значения времени легко восстанавливаются, а при отсутствии значений параметров прогнозируемой функции их восстанавливают различными методами теории прогнозирования.

Отметим, что не рекомендуется удалять те значения факторов, для которых имеются пропуски соответствующих им значений прогнозируемой переменной. Необходимо восстанавливать эти значения, так как на их основе выполняется прогнозирование, для которого требуется построить модель данных. Известно, что чем больше имеется исходных данных, тем точнее будет расчет параметров функции прогнозирования и, следовательно, тем более качественный прогноз будет сформирован. С другой стороны, методы восстановления данных не гарантируют, что на основе данных, в составе которых присутствуют восстановленные значения, будут получены более точные значения параметров функции прогнозирования. Поэтому при достаточно большом количестве значений данных (например, больше ста) можно удалять те данные, у которых отсутствуют значения факторов, при условии, что количество удаляемых данных невелико. В других случаях восстанавливать данные необходимо. Например, если имеется набор данных, содержащий 40 значений, из которых 10 значений пропущено, то исключать их нерационально.

Самый простой способ восстановления пропущенных значений фактора - замена отсутствующих значений средними арифметическими значениями рядом стоящих значений этого фактора. Например, если отсутствует і-е значение фактора х, то принимается х. = (х + хі+1)/2, где х - значение данного фактора в предыдущем периоде; х - значение фактора в следующем периоде. Такой способ восстановления данных имеет ряд существенных недостатков. Во-первых, он не работает, если отсутствует подряд несколько значений фактора. Во-вторых, если данные упорядочены по времени, то здесь неявно подразумевается линейная зависимость фактора от времени, что не всегда соответствует действительности. В-третьих, если предполагается линейная зависимость фактора от времени, то расчет среднего арифметического ближайших значений рассматриваемого фактора является неточным способом аппроксимации. Кроме того, данный способ восстановления пропущенных значений имеет еще один недостаток -теоретически доказано, что он не способен улучшить статистические характеристики вычисляемых параметров функции прогнозирования [1].

Во втором способе восстановления значений конкретного фактора сначала строится функция регрессии для этого фактора с пропущенными значениями или с учетом данных нескольких факторов, если они присутствуют в рассматриваемом наборе данных. Затем пропущенные значения заменяются вычисленными значениями построенной функции регрессии. Основная проблема здесь заключается в выборе факторов, по которым будет строиться функция регрессии. Во-первых, они должны коррелировать с фактором, для которого строится функция регрессии. Во-вторых, их значения должны быть детерминированными, т. е. не зависеть от случайных воздействий, особенно от тех, которые влияют на параметры функции прогнозирования у. Данное условие на практике трудно проверить, поэтому в качестве инструмента часто берут временной фактор. Но, как уже было отмечено, изменения фактора не всегда определяются только фактором времени. Выходом из этой ситуации является построение нескольких моделей данных, где пропущенные значения восстанавливаются на основе разных методов и инструментальных средств. Рассмотрим пример восстановления пропущенных значений данных конкретных факторов. В примере, данные для которого приведены в табл. 1, имеются пропуски некоторых значений производственных затрат и затрат на рекламу, которые представлены в табл. 2. Исключать из набора данных 6 точек из 30 нерационально, поэтому будем восстанавливать пропущенные значения.

Таблица 1

Объемы продаж компании «Интраст»

Месяц и год (время Ґ) Производственные затраты, тыс. р. (фактор х1) Затраты на рекламу, тыс. р. (фактор х2) Объемы продаж, тыс. р. (переменная у)

янв.06 1 290,6 289,8 1 865,7

фев.06 1 288,3 302,5 1 800,9

мар.06 1 289,8 302,7 1 720,6

апр.06 1 282,5 312,1 1 761,7

май.06 1 285,3 333,6 1 783,4

июн.06 1 284,1 327,1 1 811,0

июл.06 1 279,0 329,3 1 831,6

авг.06 1 274,7 325,5 1 865,4

сен.06 1 272,4 330,2 1 895,3

окт.06 1 266,8 342,7 1 912,8

ноя.06 1 265,3 336,3 1 918,4

дек.06 1 262,5 351,6 1 908,9

янв.07 1 270,8 353,8 1 913,0

Окончание табл. 1

Месяц и год (время Ґ) Производственные затраты, тыс. р. (фактор х1) Затраты на рекламу, тыс. р. (фактор х2) Объемы продаж, тыс. р. (переменная у)

фев.07 1 260,7 346,7 1 924,5

мар.07 1 263,6 361,7 1 936,1

апр.07 1 268,3 350,4 1 917,2

май.07 1 264,2 356,3 1 924,8

июн.07 1 257,6 359,8 2 312,6

июл.07 1 249,1 368,4 2 530,3

авг.07 1 240,0 366,2 2 671,9

сен.07 1 237,5 372,4 2 816,4

окт.07 1 234,8 382,7 3 430,5

ноя.07 1 238,3 380,5 3 376,3

дек.07 1 229,2 379,6 3 129,8

янв.08 1 226,3 376,8 3 586,2

фев.08 1 221,7 378,3 3 167,3

мар.08 1 224,3 383,2 2 979,1

апр.08 1 217,8 389,7 3 092,9

май.08 1 213,7 394,6 3 263,7

июн.08 1 215,9 397,2 3 467,1

Таблица 2

Исходные данные для прогнозирования с пропусками значений двух факторов

Период Время Производственные затраты Затраты на рекламу Объем продаж

1 янв.06 1 290,6 289,8 1 865,7

2 фев.06 1 288,3 302,5 1 800,9

3 мар.06 302,7 1 720,6

4 апр.06 1 282,5 312,1 1 761,7

5 май.06 1 285,3 1 783,4

6 июн.06 1 284,1 327,1 1 811,0

7 июл.06 1 279,0 329,3 1 831,6

8 авг.06 1 274,7 325,5 1 865,4

9 сен.06 1 272,4 330,2 1 895,3

10 окт.06 1 266,8 342,7 1 912,8

11 ноя.06 1 918,4

12 дек.06 1 262,5 1 908,9

13 янв.07 1 270,8 353,8 1 913,0

14 фев.07 1 260,7 346,7 1 924,5

15 мар.07 1 263,6 361,7 1 936,1

16 апр.07 1 268,3 350,4 1 917,2

17 май.07 1 264,2 356,3 1 924,8

18 июн.07 1 257,6 359,8 2 312,6

19 июл.07 1 249,1 368,4 2 530,3

20 авг.07 1 240,0 366,2 2 671,9

21 сен.07 1 237,5 372,4 2 816,4

22 окт.07 1 234,8 382,7 3 430,5

23 ноя.07 380,5 3 376,3

24 дек.07 1 229,2 379,6 3 129,8

Окончание табл. 2

Период Время Производственные затраты Затраты на рекламу Объем продаж

25 янв.08 1 226,3 376,8 3 586,2

26 фев.08 1 221,7 3 167,3

27 мар.08 1 224,3 383,2 2 979,1

28 апр.08 1 217,8 389,7 3 092,9

29 май.08 1 213,7 394,6 3 263,7

30 июн.08 1 215,9 397,2 3 467,1

Здесь для восстановления значений каждого фактора наилучшим образом подойдет построение уравнения регрессии в зависимости от времени. Тем более что с помощью построения уравнения регрессии фактора в зависимости от другого фактора не удастся восстановить значения факторов для 11-го периода, где отсутствуют значения обоих факторов.

В качестве примера восстановим значения фактора производственных затрат с помощью построения уравнения регрессии в зависимости от времени, а значения фактора затрат на рекламу - с помощью построения уравнения регрессии в зависимости от фактора производственных затрат. График зависимости фактора производственных затрат от времени представлен на рис. 1. Из него видно, что эта зависимость должна достаточно хорошо описываться линейной функцией.

1 300 -| 1 290 -1 280 -1 270 -1 260 -1 250 -1 240 -1 230 1 220 1 210 1 200

. ♦ ♦

♦ ♦

10

15

20

25

30 35

Периоды

Рис. 1. График зависимости производственных затрат от времени

Сформируем линейную функцию, соответствующую уравнению регрессии, как линию тренда к имеющемуся графику. Линия тренда, уравнение линии тренда и значение коэффициента детерминации К2 представлены на рис. 2. Высокое значение коэффициента детерминации 0,9525 говорит о приемлемости использования линейной функции тренда.

По уравнению линии тренда вычисляются недостающие значения производственных затрат (рис. 3).

Далее восстановим пропущенные значения затрат на рекламу. Для этого построим функцию регрессии затрат на рекламу в зависимости от фактора производственных затрат. Сначала построим график зависимости этих двух факторов, для того чтобы выяснить, есть ли между ними корреляция (рис. 4).

Из рис. 4 видно, что между рассматриваемыми факторами существует зависимость, которую можно аппроксимировать линейной функцией. Строим линейную функцию тренда с отображением ее уравнения и значения коэффициента детерминации. Затем по уравнению линии тренда вычисляем пропущенные значения фактора затрат на рекламу. На этом заканчивается процесс восстановления пропущенных значений данного фактора, все этапы которого показаны на рис. 4.

0

5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Периоды

♦ Производственные затраты ---- Регрессия

Рис. 2. Линия тренда и ее уравнение для графика зависимости производственных затрат от времени

Таким образом, в качестве основных этапов восстановления пропущенных значений факторов для прогнозирования результатов инвестиционной деятельности можно выделить следующие: 1) построение функции регрессии фактора с пропущенными значениями в зависимости от одного или нескольких факторов, входящих в набор исходных данных; 2) вычисление функции регрессии для пропущенных значений рассматриваемого фактора; 3) принятие полученных значений функции регрессии за искомые значения фактора.

При анализе исходных данных, предназначенных для прогнозирования, необходимо обратить внимание на слишком большие или слишком малые значения, резко отличающиеся от ряда других значений. Такие критические значения называют «выбросами». Причем имеются в виду не ошибочные данные, вызванные, например, описками или ошибками при регистрации информации, а достоверные данные, которые на фоне остальных данных кажутся критически большими или критически малыми.

Задача анализа выбросов состоит в том, чтобы выяснить, являются ли эти данные колебаниями «естественного» происхождения, т. е. обусловленными стохастической природой исходных данных, и, если они являются аномальными, то не выходят ли за рамки возможных вариаций прогнозируемой переменной у. В противном случае - выбросы обусловлены какими-то неучтенными факторами, что влечет за собой необходимость дальнейшего совершенствования модели анализируемых данных. Таким образом, необходимо определить, являются выбросы случайными или нет. Схема решения этой задачи может быть следующей.

1. Из исходного набора данных удалить данные, соответствующие выбросам х..

2. По оставшимся данным построить функцию регрессии /(х) и вычислить ее стандартную ошибку (стандартное отклонение регрессии) 5.

3. Найти значение функции регрессии в точках выбросов /(х.).

4. Вычислить разницу значений в точках выбросов по формуле е. = у. -/(х.), где у. -значение -го выброса.

5. Найти так называемые нормированные остатки в точках выбросов по формуле е* = е{ / 5.

6. Если абсолютная величина какого-либо нормированного остатка превосходит число 3, то считается, что с вероятностью 95% этот выброс не является случайным [2].

Рассмотрим применение этой схемы для приведенного выше примера. Допустим, у нас возникли сомнения относительно 22-го и 25-го значений переменной у - не являются ли они выбросами? Эти значения выделены в табл. 3 и показаны на рис. 5 стрелками на графике функции у.

Период Производственные затраты

1 1290,6

2 1288,3

3 1290,4

4 1282,5

5 1285,3

6 1284,1

7 1279,0

8 1274,7

9 1272,4

10 1266,8

11 1268,3

12 1262,5

13 1270,8

14 1260,7

15 1263,6

16 1268,3

22 1234,8

23 1235,2

24 1229,2

310 -І 300 - ,

290 - ♦5' 280 -270 -260 -250 -240 -230 -220 -210-

200----------

0

у = -2,7627* + 1298,7

К2 = 0,9573

5

10

15

20

25

30

35

Периоды

♦ Производственные затраты

---- Регрессия

1

1

1

1

1

1

1

1

1

1

1

1

Рис. 3. Вычисление пропущенных значений производственных затрат

Производственные затраты Затраты на рекламу

1 290,6 289,8

1 288,3 302,5

1 290,4 302,7

1 282,5 312,1

1 285,3

1 284,1 327,1

1 279,0 329,3

1 274,7 325,5

1 272,4 330,2

1 266,8 342,7

1 268,3

1 262,5

1 270,8 353,8

1 260,7 346,7

1 263,6 361,7

1 268,3 350,4

1 264,2 356,3

1 257,6 359,8

1 249,1 368,4

1 240,0 366,2

1237,5 372,4

1 226,3 376,8

1 221,7

1 224,3 383,2

318,7

338,2

344,9

391,8

Производственные затраты

♦ Затраты на рекламу — Регрессия

= - 1,1505 х 1221,7 + 1797,4

Рис. 4. Вычисление пропущенных значений затрат на рекламу

Таблица 3

Возможные выбросы

Период Производственные затраты, тыс. р. Затраты на рекламу, тыс. р. Объем продаж, тыс. р.

1 1 290,6 289,8 1 865,7

2 1 288,3 302,5 1 800,9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 1 289,8 302,7 1 720,6

4 1 282,5 312,1 1 761,7

5 1 285,3 333,6 1 783,4

6 1 284,1 327,1 1 811,0

7 1 279,0 329,3 1 831,6

8 1 274,7 325,5 1 865,4

9 1 272,4 330,2 1 895,3

10 1 266,8 342,7 1 912,8

11 1 265,3 336,3 1 918,4

12 1 262,5 351,6 1 908,9

13 1 270,8 353,8 1 913,0

14 1 260,7 346,7 1 924,5

15 1 263,6 361,7 1 936,1

Окончание табл. 3

Период Производственные затраты, тыс. р. Затраты на рекламу, тыс. р. Объем продаж, тыс. р.

16 1 268,3 350,4 1 917,2

17 1 264,2 356,3 1 924,8

18 1 257,6 359,8 2 312,6

19 1 249,1 368,4 2 530,3

20 1 240,0 366,2 2 671,9

21 1 237,5 372,4 2 816,4

22 1 234,8 382,7 3 430,5

23 1 238,3 380,5 3 376,3

24 1 229,2 379,6 3 129,8

25 1 226,3 376,8 3 586,2

26 1 221,7 378,3 3 167,3

27 1 224,3 383,2 2 979,1

28 1 217,8 389,7 3 092,9

29 1 213,7 394,6 3 263,7

30 1 215,9 397,2 3 467,1

Месяцы

Рис. 5. Возможные выбросы

Повторим по пунктам всю схему определения выбросов.

1. Из исходного набора данных удаляем значения данных, «похожих» на выбросы. Тогда остается набор данных, представленный на рис. 6.

2. Строим линейную функцию регрессии вида у = Ь0 + Ь х t + Ь2 х х1 + Ь3 х х . Коэффициенты Ь0, Ь , Ь , Ь3 вычисляем методом наименьших квадратов и далее вычисляем стандартное отклонение регрессии 5. Значения, полученные в результате расчетов, представлены на рис. 6.

3. Вычисляем значения функции регрессии /(х) для 22-го и 25-го периодов времени (соответствующие формулы приведены на рис. 6).

4. Вычисляем разницу значений для этих периодов.

5. Вычисляем нормированную разницу значений для этих периодов.

Полученные результаты (3,2 для 22-го периода и 2,5 для 25-го периода) показывают,

что значение переменной у для 22-го периода можно считать выбросом, а значение этой переменной для 25-го периода выбросом не является.

После выявления выбросов в наборе исходных данных необходимо разобраться в причине появления этих выбросов. Наличие выбросов является признаком того, что такие данные порождены неучтенным фактором. Если трудно установить природу этого фактора, если количество факторов мало (1-3 фактора) и если есть уверенность, что

Период Производственные затраты, тыс. р. Затраты на рекламу, тыс. р. Объем продаж, тыс. р.

1 1290,6 289,8 1865,7

2 1288,3 302,5 1800,9

3 1289,8 302,7 1720,6

4 1282,5 312,1 1761,7

5 1285,3 333,6 1783,4

6 1284,1 327,1 1811,0

7 1279,0 329,3 1831,6

8 1274,7 325,5 1865,4

9 1272,4 330,2 1895,3

10 1266,8 342,7 1912,8

11 1265,3 336,3 1918,4

12 1262,5 351,6 1908,9

13 1270,8 353,8 1913,0

14 1260,7 346,7 1924,5

15 1263,6 361,7 1936,1

16 1268,3 350,4 1917,2

17 1264,2 356,3 1924,8

18 1257,6 359,8 2312,6

19 1249,1 368,4 2530,3

20 1240,0 366,2 2671,9

21 1237,5 372,4 2816,4

23 1238,3 380,5 3376,3

24 1229,2 379,6 3129,8

26 1221,7 378,3 3167,3

27 1224,3 383,2 2979,1

28 1217,8 389,7 3092,9

29 1213,7 394,6 3263,7

30 1215,9 397,2 3467,1

Расчетные данные

Коэффициенты

Ь0 39433,71522

Ь1 5,341734135

Ь2 -27,89812506

К -6,055017731

Стандартная ошибка (стандартное отклонение регрессии)

5 = 204,7325738

Значение функции для 22-го периода: 2772,415006 = 39433,7 + 5,3 х 22 - 27,9 х 1237,5 -

- 6,1 х 372,4

Остаток для 22-го периода:

658,084994 = 3430,5 - 2772,415006 Нормированный остаток для 22-го периода: 3,214363898 = 658,084994/204,7325738 Значение функции для 25-го периода: 3074,257131 = 39433,7 + 5,3 х 25 - 27,9 х 1226,3 -

- 6,1 х 376,8

Остаток для 25-го периода:

511,943 = 3586,2 - 3074,257 Нормированный остаток для 25-го периода: 2,500544933 = 511,943/204,7325738

Рис. 6. Определение выбросов

этот фактор не проявит себя в периоды, для которых будут рассчитываться прогнозы, то данные с выбросами можно удалить из исходного набора. Если выбросы регулярно повторяются в одни и те же периоды времени, то их можно отнести к сезонным изменениям и они могут быть учтены при выделении сезонной составляющей. Если причины выбросов установлены (например, очень большие объемы продаж обусловлены проведением специальных рекламных акций) и не исключается возможность проявления этих причин в будущем, то в прогнозную модель данных вводится еще один фактор. Чтобы ввести такой фактор в исходные данные, в таблицу данных добавляется еще один столбец, содержащий значения этого фактора. Полагается, что значения этого фактора равны 0 для всех данных, где нет выбросов, и равны 1 для всех данных, имеющих выбросы. В дальнейшем с новым фактором обращаются так же, как с любым другим фактором, участвующим в процессе построения функции прогнозирования. Отметим, что рассчитывать прогнозные значения в случае добавления значений нового фактора необходимо в двух вариантах - при нулевом значении этого фактора и при его равенстве единице. При этом для интерпретации полученных прогнозных значений надо знать

«содержание» фактора, т. е. что он означает в рассматриваемом процессе. В итоге мы получаем два набора прогнозных значений: без учета нового фактора и с его учетом.

В заключение отметим, что для получения качественного прогноза результатов инвестиционного проектирования необходим анализ всех этапов подготовки исходных данных к прогнозированию, два из которых рассмотрены в данной статье, а также требуется соответствующая обработка данных.

Источники

1. Айвазян С. А. и др. Прикладная статистика: исследование зависимостей. М. : Финансы и статистика, 1985.

2. Минько А. А. Прогнозирование в бизнесе с помощью Excel. М. : Эксмо, 2007.

3. Городничев П. Н. и др. Финансовое и инвестиционное прогнозирование. М. : Экзамен, 2005.

4. Тейл Г. Экономические прогнозы и принятие решений. М. : Статистика, 1977.

5. Шориков А. Ф., Буценко Е. В. Проблема выбора метода прогнозирования результатов инвестиционного проектирования // Известия Урал. гос. экон. ун-та. 2006. № 5(17).

i Надоели баннеры? Вы всегда можете отключить рекламу.