Использование метода главных компонент при отборе факторов для прогнозирования фондового рынка России

Галустян Микаел Жирайрович

УДК 332.145

ИСПОЛЬЗОВАНИЕ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ

ПРИ ОТБОРЕ ФАКТОРОВ ДЛЯ ПРОГНОЗИРОВАНИЯ ФОНДОВОГО РЫНКА РОССИИ

М.Ж. Галустян

Рассматривается использование метода главных компонент при подготовке входных данных для модели искусственной нейронной сети. Выполнена сравнительная характеристика моделей с обработкой входных данных и без таковой на примере оценки влияния ряда макроэкономических факторов на фондовый рынок России

Ключевые слова: метод главных компонент, фондовый рынок, нейронные сети.

Вопрос обработки входных данных важен потому, что при составлении прогнозов финансовым аналитикам приходится работать с огромными массивами информации. Несмотря на очевидный прогресс в развитии информационных технологий, далеко не всегда в распоряжении исследователя есть вычислительные машины, способные в сжатые временные рамки обработать неограниченные объёмы информации. Ведь если подходить к анализу фондовых рынков с максималисткой позиции, то влияние на цену актива может оказать всё, что угодно. При этом уместно напомнить о возросшей взаимозависимости мировых экономических процессов в эпоху глобализации и известный «эффект бабочки», когда незначительное событие может коренным и непредсказуемым образом повлиять на поведение всей динамической системы, к числу которых, безусловно, следует отнести финансовые рынки.

С другой стороны, развитие постиндустриального общества порождает и негативные эффекты: сегодня информационные потоки содержат в себе значительную шумовую компоненту, то есть многие данные нереле-ванты, несущественны, а иногда и вовсе оказываются «мусором». Обнаружение важной информации в больших массивах данных активно изучается в последние годы и выделилось в отдельное научное направление - «глубинный анализ данных» (data mining). [5]

Рассмотрим для выполнения этой задачи метод главных компонент (principal component analysis, PCA). Суть PCA заключается в нахождении собственных векторов и собственных значений ковариационной матрицы, полученной непосредственно из эмпирических данных об интересующем нас процессе. Задача анализа главных компонент включает в себя:

• нахождение подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален;

• нахождение такого подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально;

• аппроксимизация данных с помощью линейных многообразий меньшей размерности;

• для данной многомерной случайной величины построить такое ортогональное преобразование координат, в результате которого корреляции между отдельными координатами обратятся в нуль.

Первые три задачи оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвёртая же оперирует случайными величинами. Конечные множества рассматриваются здесь как выборки из указанного распределения, а решение трёх первых задач — как приближение к разложению по теореме Кархунена -Лоэва. При этом возникает дополнительный вопрос о точности этого приближения

В случае обработки фондовых рядов мы можем с помощью метода главных компонент реконструировать исходный эмпирический вектор по новым координатным осям, которые задаются его ковариационной матрицей:

A=QT X

где X - исходный эмпирический вектор, Q - матрица, состоящая из собственных векторов ковариационной матрицы X, A - проекция X в новом пространстве. Пусть имеется матрица переменных X размерностью (IXJ), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1).

В методе главных компонент используются новые, формальные переменные ta(a=1,...A), являющиеся линейной комбинацией исходных переменных Xj (j=1,.. J).

ta =Pa1x1 +■■■ + PaJxJ

С помощью этих новых переменных матрица X разлагается в произведение двух матриц T и P:

А

X = TPt + Е = taPi

а=1

Матрица T называется матрицей счетов (scores). Ее размерность

(IxA).

Матрица P называется матрицей нагрузок (loadings). Ее размерность (JxA). E - это матрица остатков, размерностью (IxJ).

Новые переменные ta называются главными компонентами (Principal Components), поэтому и сам метод называется методом главных компонент (PCA). Число столбцов - ta в матрице T, и pa в матрице P,

равно А, которое называется числом главных компонент (РС). Эта величина заведомо меньше числа переменных I и числа образцов I. [3]

Для дальнейшего анализа будут рассматриваться макроэкономические и финансовые показатели России за период 2014-2015гг. В качестве рассчитываемого (прогнозируемого) показателя будет взят индекс ММВБ.

Оценивать степень воздействия факторов и тесноту связи будем с помощью искусственных нейронных сетей Левенберга-Марквардта[3].

Суть модели заключается в том, что в качестве входящих данных используются показатели периода 1-1, а в качестве итоговой функции - индекс ММБВ за период 1. Таким образом, объем выборки в 1200 случайных величин сопоставляются с реальным курсом индекса ММВБ, а далее механизм искусственной нейронной сети, архитектура которой представлена на рис.1, автоматически тренирует 5 моделей, каждая из которых пытается осуществить прогноз будущих значений индекса.

Бксгнсй СЗОС-К I

снгшп 2

Желаемый сигнал 3

щ I

Рис.1. Архитектура сети обратного распространения

После этого прогнозные значения модели сравниваются с реальными и рассчитывается точность прогноза и величина отклонений. Основной характеристикой качества модели выступает выполнение теста и валида-ции, величина которой должна быть максимально близка к 1. Кроме того, важным фактором является минимальная величина ошибок обучения, теста и валидации (табл.1). Для более наглядного представления структуры модели, изобразим ее графически в виде схемы (рис.2).

В данной схеме 25 макроэкономических факторов России за период 2014-2015гг., выраженные как {хь..хП}, вводятся в модель с изначальными весами без обработки и дают на выходе 5 сетей, результаты которых представлены в табл. 1.

Факторы

/ \ Веса / », \ факторов

Рис.2. Схематическое представление модели

Таблица 1

Параметры нейронной сети до использования РСА

№ Имя сети Выполнение обучения Выполнение теста Выполнение ва-лидации Ошибка обучения Ошибка теста Ошибка валидации

1 МЬР 2-3-1 0,868264 0,815931 0,905725 25,05065 30,3677 22,27608

2 МЬР 2-4-1 0,863265 0,812934 0,900343 25,93455 31,76233 23,49644

3 МЬР 2-6-1 0,877674 0,846028 0,909934 23,38036 25,75014 21,43307

4 МЬР 2-7-1 0,861792 0,797989 0,904073 26,21670 33,56442 23,11754

5 МЬР 2-5-1 0,861491 0,798347 0,901073 26,25650 33,24468 23,51671

Качество выполнения данной сети выше среднего, однако величина ошибок слишком велика. Такая сеть допускает высокий уровень шума, что в конечном итоге неблагоприятно отразится на качестве прогнозирования.

Далее используем метод главных компонент для отбора наиболее весомых факторов в модель. Это поможет выявить факторы, наиболее существенно влияющие на исходный результат. Параметры проведенного анализа выглядят следующим образом (табл.2).

Таблица 2

Параметры проведенного РСА

R2X 2 R X (сумм.) Собственное значение О2 Лимит 2 О ( сумм.) Итерации

0,367560 0,367560 22,88412 0,321402 0,061164 0,321402 5

0,166032 0,533593 10,24502 0,103695 0,063579 0,391769 13

0,105562 0,639155 6,51765 0,068599 0,066220 0,433493 11

0,070331 0,709486 4,39995 0,048315 0,069120 0,460864 7

0,050254 0,759740 3,10984 0,012858 0,072324 0,467796 13

0,040543 0,800283 2,50839 -0,005709 0,075884 0,464758 13

0,033117 0,833400 2,04763 -0,033845 0,079865 0,446643 12

0,029011 0,862410 1,79015 -0,029672 0,084352 0,430224 17

В ходе выполнения было выявлено 7 главных компонент для 25

2 2 факторов. В данной таблице RX - это доля объясненной вариации, а О -

доля предсказанной вариации. Я2Х измеряется по всей обучающей выборке, используя формулу:

_ 2 -у _ 1 остаточная сумма квадратов

А Л — 1--.

сумма квадратов

л

Совокупный R X определяется по формуле:

71

К2Х _ ХЧ ~ ХИ 1.) хч

где Ху - это предсказание модели (с п компонентами) для ьго наблюдения _]-й переменной.

л

Чем более значителен основной компонент, тем больше его Я X. В целом, модель с достаточным количеством компонентов имеет значение

л

R X (сумм.) близко к 1.

Предсказательная вариации Q2 математически идентична RX за исключением того, что она измеряется с использованием выборки наблюдений, которые не использовались для построения модели:

прогнозируемая остаточная сумма квадратов ^ ^ остаточная сумма квадратов предыдущего компонента

л

Рассмотренная модель с п основных компонентов Q (сумм.) определяется как

@ 2 (сумм.)

п

прогнозируемая остаточная сумма квадратов остаточная сумма квадратов предыдущего компонента'

П=1

2 2 2

В отличие от RX, Q и Q (сумм.) увеличивается, по мере добавления компонентов модели. Однако, эта тенденция идет к снижению по мере добавления компонентов после определенного момента.

Использование метода главных компонент имеет смысл лишь в случае значимости главного компонента. Основной компонент считается значимым, если выполнено правило: значение Q (сумм) должно превышать значение Лимита. Данное правило выполняется для всех компонентов, следовательно, 7 компонентов из 7 значимы, исследование может быть продолжено.

После проведенного анализа факторы были проранжированы в соответствии со степенью влияния на итоговую переменную, которую они имеют в прогнозном анализе (табл.3).

Таблица 3

Ранжирование факторов в соответствии с весом на основании PCA

Ранг Название фактора Вес в модели

1 2 3

1 Объем кредитования частного сектора 0,990573

2 Индекс потребительских цен 0,989441

3 Международные резервы 0,988955

4 Импорт 0,988557

5 Продовольственная инфляция 0,987577

6 Индекс опережающих индикаторов 0,986743

7 Процент по кредиту 0,985198

8 Экспорт 0,984641

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9 Производство цемента 0,982025

Окончание табл.3

1 2 3

10 Уровень безработицы 0,977532

11 Агрегат М0 0,976506

12 Розничные продажи 0,974842

12 Курс доллара к рублю 0,974293

13 Межбанковская процентная ставка 0,974293

14 Основные потребительские цены 0,972235

15 Индекс цен производителя 0,971885

16 Заработная плата 0,970074

17 Промышленное производство (м) 0,970074

18 Заработная плата в обрабатывающей промышленности 0,967957

19 Объём строительства новых домов 0,967952

20 Агрегат М2 0,965330

21 Агрегат М1 0,964554

22 Уровень занятости 0,963983

23 Уровень инфляции 0,962934

24 Обрабатывающая промышленность 0,961449

25 Российский индекс волатильности Московской Биржи 0,959713

Оставим для дальнейшего исследования наилучшие 10 факторов: объем кредитования частного сектора, индекс потребительских цен международные резервы, импорт, продовольственная инфляция, индекс опережающих индикаторов, процент по кредиту, экспорт, производство цемента, уровень безработицы. После этого в очередной раз построим модель нейронной сети с сокращенным числом факторов. Параметры проведенного анализа выглядят следующим образом (табл.3).

Таблица 4

Параметры нейронной сети после использования РСА

№ Имя сети Выполнение обучения Выполнение теста Выполнение вали-дации Ошибка обучения Ошибка теста Ошибка валидации.

1 МЬР 4-7-1 0,996658 0,997141 0,995890 3,135542 2,105349 2,020176

2 МЬР 4-10-1 0,999380 0,999648 0,998994 0,556743 0,441115 0,407009

3 МЬР 4-8-1 0,998976 0,999454 0,999435 0,915364 0,424587 0,518115

4 МЬР 4-7-1 0,993865 0,994603 0,996347 6,169085 3,252237 2,041713

5 МЬР 4-5-1 0,997894 0,997728 0,995595 1,881122 1,358316 1,750243

Таким образом, параметры новой нейронной сети заметно улучшились по сравнению с изначальной, увеличилась точность модели и теснота связей. Значительно сократились величины ошибок обучения, теста и ва-лидации, что говорит об уменьшении шума в модели. Можно сделать вывод, что использование метода главных компонент в качестве способа обработки входных данных является весьма эффективным и увеличивает качественные характеристики модели искусственной нейронной сети.

Список литературы

1. Фондовый рынок: учеб. пособие // Н.И.Берзон, А.Ю. Аршавский, Е.А.Буянова, А.С. Красильщиков. Под ред. Н.И.Берзона. 4-е изд., перераб. и доп. М.: ВИТА-ПРЕСС, 2009. 624 с.

2. Евстигнеев В.Р. Прогнозирование доходности на рынке акций. М.: Маросейка, 2009. 192 с.

3. Хайкин С. Нейронные сети: полный курс, 2e изд. : пер. с англ. М.: Издательский дом Вильямс", 2006. 1104 с.

4. Григорьев Р. Взаимодействие между фондовыми рынками БРИК и развитых стран и влияние цен на нефть на данную взаимозави-симость//Электронный экономический вестник Татарстана. №2-3. 2012, 55 с.

5. Назариев П. Р. Зависимость фондового рынка от роста ВВП в развивающихся рынках// Современные научные исследования и инновации 2014.№ 12-2 (44). 154-156с.

Галустян Микаел Жирайрович, аспирант, [email protected], Россия, Тула, Тульский государственный университет

ABOUT THE SHORT-TERM MICEX INDEX FORECASTING PROBLEMS

M.G. Galustyan

Discusses the principal components analyze in the preparation of input data for the neural networks model, comparative characteristic of the models with the processing of input data and without it in cace of assessing the impact of several macroeconomic factors on the stock market.

Key words: the stock market, forecasting. principal component, neural nets

Galustyan Mikael Girairovich, postgraduate, mikael.galustyan@,gmail. com, Russia, Tula, Tula State University

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Галустян Микаел Жирайрович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Галустян Микаел Жирайрович

ABOUT THE SHORT-TERM MICEX INDEX FORECASTING PROBLEMS

Текст научной работы на тему «Использование метода главных компонент при отборе факторов для прогнозирования фондового рынка России»