Научная статья на тему 'НЕЙРОННЫЕ СЕТИ В АНАЛИЗЕ ВРЕМЕННЫХ РЯДОВ'

НЕЙРОННЫЕ СЕТИ В АНАЛИЗЕ ВРЕМЕННЫХ РЯДОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
689
177
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВРЕМЕННОЙ РЯД / НЕЙРОННЫЕ СЕТИ / ОБУЧЕНИЕ ИНС / ИНТЕРПОЛЯЦИЯ / СКОРОСТЬ ОБУЧЕНИЯ / TIME SERIES / NEURAL NETWORKS / TRAINING / INTERPOLATION / LEARNING RATE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Губарева Е.А.

Обсуждается возможность использования искусственных нейронных сетей для анализа временных рядов, который проводится с целью прогнозирования поведения динамической системы. Ряд теорем математики (Такенса, Горбаня, Колмогорова и др.) позволяют свести задачу прогноза временных рядов к задаче аппроксимации непрерывной функции нескольких переменных. На основе проведенного анализа нейронных сетей и современных методов их обучения предложена схема поэтапного построения ИНС, которая определяет основные характеристики ИНС, правильный выбор которых позволит качественно решить поставленную задачу прогнозирования временного ряда. Основной этап рассматриваемой схемы - это подбор и обучение нейронной сети, который требует оценки всех возможных архитектур и всестороннего анализа существующих алгоритмов обучения нейронных сетей, чтобы выбрать оптимальный. Искусственные нейронные сети (ИНС) предлагается в основном использовать для решения таких задач экономики и управления, где формализация этапов решения или достаточно сложная, или вообще является невозможной.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Губарева Е.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEURAL NETWORKS IN THE ANALYSIS OF TIME SERIES

The possibility of using artificial neural networks for time series analysis, which is carried out in order to predict the behavior of a dynamic system, is discussed. A number of mathematical theorems (Takens, Gorban, Kolmogorov, etc.) allow us to reduce the problem of time series prediction to the problem of approximation of a continuous function of several variables. The analysis of neural networks and modern methods of their training is carried out. A step-by-step construction of an artificial neural network is proposed, which determines the main characteristics of artificial neural networks, the correct choice of which will solve the problem of time series forecasting. The main stage of the scheme under consideration is the selection and training of a neural network, which requires an assessment of all possible architectures and a comprehensive analysis of existing neural network training algorithms in order to choose the optimal one. Artificial neural networks are proposed to be mainly used for solving such problems of Economics and management, where the formalization of the solution stages is either quite complex, or even impossible.

Текст научной работы на тему «НЕЙРОННЫЕ СЕТИ В АНАЛИЗЕ ВРЕМЕННЫХ РЯДОВ»

Нейронные сети в анализе временных рядов

о см о см

о ш т

X

<

т О X X

Губарева Елена Алексеевна

кандидат физико-математических наук, доцент, кафедра математики и информатики, ФГБОУ ВО «Государственный университет управления», gubel@inbox.ru

Обсуждается возможность использования искусственных нейронных сетей для анализа временных рядов, который проводится с целью прогнозирования поведения динамической системы. Ряд теорем математики (Такенса, Горбаня, Колмогорова и др.) позволяют свести задачу прогноза временных рядов к задаче аппроксимации непрерывной функции нескольких переменных. На основе проведенного анализа нейронных сетей и современных методов их обучения предложена схема поэтапного построения ИНС, которая определяет основные характеристики ИНС, правильный выбор которых позволит качественно решить поставленную задачу прогнозирования временного ряда. Основной этап рассматриваемой схемы - это подбор и обучение нейронной сети, который требует оценки всех возможных архитектур и всестороннего анализа существующих алгоритмов обучения нейронных сетей, чтобы выбрать оптимальный. Искусственные нейронные сети (ИНС) предлагается в основном использовать для решения таких задач экономики и управления, где формализация этапов решения или достаточно сложная, или вообще является невозможной. Ключевые слова: временной ряд, нейронные сети, обучение ИНС, интерполяция, скорость обучения.

За последние годы искусственные нейронные сети (ИНС), которые представляют собой перспективную вычислительную технологию, становятся важным инструментом исследований в самых разных областях жизнедеятельности [1, 2, 3]. Значительная часть новых результатов в таких областях исследований, как компьютерная графика, распознавание речи и образов получена с использованием нейронных сетей [4, 5, 6]. Современное развитие математики и информационных технологий дает широкий спектр возможностей и для решения различных задач в области экономики и управления. Для решения таких задач, где формализация этапов решения либо достаточно сложная, либо вообще является невозможной, предлагается использовать искусственные нейронные сети. В частности, на основе нейронных сетей разрабатываются новые подходы к исследованию динамических задач в области экономики и управления [2]. Хорошо обученная на ограниченном числе данных иНс может показывать вполне достоверные результаты для данных, которые не использовались в процессе обучения. При этом большое число межнейронных связей и использование графического процессора позволяют не только значительно ускорить процесс обучения за счет параллельной обработки информации, но и обеспечить обработку новых данных за время, близкое к реальному.

Анализ временного ряда, порожденного некоторой динамической системой, проводится с целью предсказания значений его последующих состояний хк на основе

имеющихся данных о его предшествующих состояниях. Возможность использования ИНС для решения задачи прогнозирования временных рядов определяется несколькими теоремами математики: теорема Такенса, теорема Горбаня, теорема Колмогорова и её уточнения.

Доказано (теорема Такенса) [7], что существует так называемая «глубина погружения» П, которая на основании некоторой функции нескольких переменных обеспечивает однозначность такого предсказания. То есть существует такая функция ф() , которая явно не зависит от к ,что

хк+1 хк>•••>хк-„+1) . (1)

Согласно этой теореме задачу прогнозирования временного ряда можно свести к задаче аппроксимации (наилучшей) нелинейной функции $>(■) от нескольких

переменных. Для аппроксимации используются наборы данных, которые получают в результате проведения тех или иных измерений (анализа истории временного ряда).

Нелинейная модель, которую используют для решения задачи прогнозирования временного ряда хк , к = 0,1,... имеет вид

Ч+1

= /(хк ,•••, Хк-и+1) .

(2)

Здесь функция / (•) - некоторая нелинейная функция нескольких переменных, Хш - прогнозируемое значение ряда, хк,...,хк-п+1 - наблюдаемые значения, а

п - порядок модели.

Теорема Горбаня [8] показывает, что если в качестве функции активации нейронов выбрана нелинейная дважды непрерывно дифференцируемая функция, то любая непрерывная на замкнутом ограниченном множестве функция /(•) может быть равномерно приближена функциями, которые вычисляет ИНС.

Одной из наиболее часто используемой функцией активации нейронов является логистическая функция (сигмоид)

1

8(2) = 1-~ ■ (3)

1 + е

Выбор этой нелинейной функции обуславливается следующими её свойствами: во-первых, слабые сигналы она усиливает сильнее, чем большие, что предотвращает насыщение от больших сигналов (пологий наклон логистической кривой), во-вторых, имеет простое выражение для своей производной

8'(2) = а-8(2)-(1-8(2)). (4)

В качестве функции активации нейронов, рассматриваются и другие функции, например гиперболический

тангенс

Ж( ¿) =

е22 -1 е2 г +1'

(5)

грешности, то значения внутренних параметров подстраиваются за счет применения алгоритма минимизации функции ошибки £ (Ж) . Так как внутренние параметры ИНС настраиваются таким образом, чтобы ошибка по всему обучающему массиву X соответствовала требуемому уровню, то один и тот же входной вектор X, может с некоторой периодичностью подаваться

на вход столько раз, сколько потребуется для работы алгоритма минимизации.

Для минимизации функции ошибки применяются различные методы. Например, в известном пакете нейросетевых вычислений TensorFlow [9] стандартно используются десять методов

(tf.train.GradientDescentOptimizer,

tf.train.AdadeltaOptimizer , tf.train.FtrЮptimizer и др.), которые все являются разновидностями или модификациями градиентного метода. Девять из них можно считать оптимизаторами базового алгоритма градиентного спуска (GradientDescentЮptimizer), они были созданы с целью увеличения эффективности обучения.

Если рассматривать базовый метод градиентного спуска (GradientDescentЮptimizer), то один его шаг с данной скоростью обучения (LR) означает переход от вектора внутренних параметров Ж0 к :

Ж ^ ж = Ж - ья

У£ |У£|

(8)

ИНС, которая будет использоваться для прогнозирования временных рядов, должна представлять собой некоторую функцию / от двух векторных аргументов:

/(X,Ж) , где X е Кп - входные параметры, и

Ж е Кт - внутренние параметры (веса).

В процесс обучения нейронной сети проводимого с наличием известного для каждого входного вектора X,

целевого вектора у,, который ожидается получить на выходе, вектор внутренних параметров Ж подбирается таким образом, чтобы для всех векторов-строк X, обучающей матрицы X выполнялось условие

у, - /(X, Ж). (6)

Мерой погрешности приближения чаще всего служит функция

£(Ж) = ,Ж) - у )2, (7)

I

которая должна принимать наименьшее возможное значение.

Векторы X, обучающей матрицы X последовательно подаются на вход ИНС, которая вычисляет соответствующий выходной вектор f (X,,Ж) , сравнивает

его с целевым вектором у, и вычисляет ошибку. Если ошибка не удовлетворяет выбранному критерию по-

где У£ - градиент функции £ (Ж) .

Существует большое число вариантов выбора меры погрешности и способов ее минимизации [2]. Наряду с функцией (6) широко используется функция, построенная на основе критерия максимума правдоподобия, так называемое расстояние Кульбака-Лейблера. Выбор меры погрешности во многом зависит от сложности задачи, для решения которой требуется обучение ИНС, и от особенностей архитектуры ИНС, которая будет использована для обучения.

На этапе обучения могут возникать различного рода проблемы: обучение длится очень долго или останавливается, не достигнув результата; в результате обучения был достигнут локальный, а не глобальный минимум функции ошибки и др. Чтобы избежать подобных ситуаций, необходимо уделять особое внимание выбору начального значения внутренних параметров (весов)

, применять случайное упорядочивание обучающей

последовательности векторов, обратить внимание на выбор скорости обучения. Так же можно управлять величиной шага обучения, использовать метод импульса, то есть изменять величину производной функции активации нейронов.

Одним из важнейших показателей при обучении ИНС является скорость сходимости выбранного метода. Если параметр (скорость обучения) выбран не слишком большим, то можно рассчитывать, что величина погрешности (целевая функция Б) будет равномерно уменьшаться при каждом шаге метода. Для измерения эффективности шага можно использовать величину

, £1

д = 1 , (9)

£п

х х О го А С.

X

го т

о

м о м о

о

CN О

сч

О Ш

m

X

<

m о х

X

где Бо - значение целевой функции в начале шага,

- в конце. Отрицательная эффективность будет означать, что целевая функция на данном шаге увеличилась, и возможно, что в процессе обучения мы проскочили глобальный минимум.

Предлагается следующая схема поэтапного построения ИНС, которая определяет основные характеристики ИНС, правильный выбор которых позволит качественно решить поставленную задачу прогнозирования временного ряда.

- Проведение анализа истории изучаемого ряда. Целью такого анализа является сбор данных, которые будут использоваться для обучения, и их нормализация.

- Подготовка собранных данных, а именно их случайное упорядочивание, разбиение при необходимости на блоки и др., то есть проведение процедур, которые могли бы улучшить (и ускорить) процесс обучения.

- Выбор архитектуры нейронной сети (количество входных нейронов, обусловленное в частности «глубиной погружения», многослойность, количество нейронов в слое, прямое распространение или двунаправленное распространение, связность и др.).

- Подбор качественных характеристик нейронной сети и параметров обучения. На этом этапе необходимо таким образом выбрать функцию активации нейронов, функцию ошибки и алгоритм, который будет использоваться для её минимизации, подобрать начальное значение внутренних параметров Ж0 и (скорость обучения НС), чтобы было максимально обеспечено качество обучения нейронной сети.

- Непосредственное обучение нейтронной сети и дальнейшая проверка её соответствия исследуемому временному ряду на данных, которые не использовались для обучения, с последующей корректировкой параметров, если результаты обучения оказались неудовлетворительными.

- Окончательное обучение и построение модели (запоминание ИНС) с целью дальнейшего её использования для прогнозирования изучаемого временного ряда.

Обращает на себя внимание тот факт, что основные части процедуры - это подбор и обучение нейронной сети, что требует оценки всех возможных архитектур нейронных сетей и способов их обучения, так как до сих пор нет общих критериев, позволяющих уверенно выбирать оптимальную «методику» обучения нейронной сети, несмотря на активное их использование.

В случае обучения нейронной сети по блокам правильный выбор размера блока и величины скорости обучения позволит улучшить качество обучения. Может быть рекомендована следующая тактика. На начальном этапе обучения нейронной сети и случайном выборе начального приближения, можно выбрать блок небольшого размера, но слишком маленький размер блока будет неэффективен, так как вычисления в каждом блоке связаны с определёнными накладными расходами. Начальная скорость обучения при этом должна быть как можно больше. В процессе обучения размер блока должен возрастать, а скорость обучения уменьшаться. Если за несколько последовательных шагов обучения целевая функция не будет уменьшаться, то скорость обучения следует понизить.

Для обучения ИНС обычно используются итерационные алгоритмы локальной оптимизации. Можно использовать алгоритмы, вычисляющие частные производные

только первого порядка, а можно использовать алгоритмы, вычисляющие частные производные первого и второго порядков. Использование стохастических методов (поиск в случайном направлении, метод Монте-Карло) так же даёт в отдельных случаях неплохие результаты обучения ИНС. Реже используются алгоритмы глобальной оптимизации, основанные на переборе значений внутренних параметров, от которых зависит целевая функция (функция ошибки) [1, 2, 3].

Тот факт, что выбор важнейших свойств нейронной сети: её архитектура, размер блоков, скорость обучения и др., - остаётся в основном эмпирическим, сдерживает использование ИНС для решения практических задач экономики. Качественное решение поставленной задачи в области экономики с использованием ИНС возможно только при условии привлечения экономистами определенных знаний в области математики.

Однако, нет смысла пытаться решение всех задач в области экономики и управления свести к нейронным сетям, даже если они хорошо обучены. При выборе метода решения необходимо учитывать различные факторы. Так, для прогнозирования хорошо структурированных временных рядов, которые можно задать разностными уравнениями (системами разностных уравнений), существуют различные математические методы, которые не требуют специально обустроенной вычислительной системы. Следует так же отметить, что использование нейронной сети является чисто количественным методом. Он может дать верный прогноз, если сеть хорошо обучена, но при этом не предполагает качественного анализа влияния изменения параметров модели на динамику процесса (здесь речь идет не о весах, а о различных факторах процесса, изменение которых может существенно повлиять на его динамику). Сегодня нейронные сети можно эффективно использовать для предсказания событий, если эти события порождены эндогенными факторами. Если же в данных, используемых для обучения, не нашли отражения изменения, обусловленные экзогенными факторами, то нейронная сеть будет бессильна в предсказании изменений в будущем.

Важно понимать, что цель использования искусственных нейронных сетей заключается не в том, чтобы вытеснить традиционные методы, а чтобы расширить круг решаемых задач. Дальнейшее изучение нейронных сетей и разработка критериев выбора обучающего метода приведет к более совершенным методам обучения ИНС, и как следствие, к более широкому их использованию в области экономики.

Литература

1. Гафаров Ф.М., Галимянов А.Ф. Искусственные нейронные сети и приложения: учеб. пособие /- Казань: Изд-во Казан. ун-та, 2018. - 121 с.

2. В.И.Ширяев. Финансовые рынки. Нейронные сети. Хаос и нелинейная динамика.М.: Книжный дом «ЛИБРО-КОМ», -2009. -232 с.

3. Николенко С., Кадурин А., Архангельская Е.. Глубокое обучение. Погружение в мир нейронных сетей / -СПб, Питер, 2018, 480 с.

4. Plaziac N. Image interpolation using neural networks // IEEE Transactions on Image Processing. -1999. Vol. 8 (11), -P. 1647-1651.

5. Hao Hu, P. M. Holman, G. de Haan. Image interpolation using classification-based neural networks // IEEE International Symposium on Consumer Electronics. -2004. -P. 133-137.

6. Nasonov A.V., Krylov A.S., Petrova X., Rychagov M.N. Edge-directional interpolation algorithm using structure tensor// Electronic Imaging, Image Processing: Algorithms and Systems XIV -Society for Imaging Science and Technology, -2016, -P. 1-4.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Takens, Т. Detecting strang attractors in turbulence / Т. Takens // Lec. Notes in Math., 1981.

8. Горбань А.Н., Дунин-Барковский В.Л., Курдин А.Н. и др. Нейроинформатика. - Новосибирск: Наука, 1998. -296 с.

9. Пакет нейросетевых вычислений TensorFlow. [Электронный ресурс] https://www.tensorflow.org.

Neural networks in the analysis of time series Gubareva E.A.

State University of management

The possibility of using artificial neural networks for time series analysis, which is carried out in order to predict the behavior of a dynamic system, is discussed. A number of mathematical theorems (Takens, Gorban, Kolmogorov, etc.) allow us to reduce the problem of time series prediction to the problem of approximation of a continuous function of several variables. The analysis of neural networks and modern methods of their training is carried out. A step-by-step construction of an artificial neural network is proposed, which determines the main characteristics of artificial neural networks, the correct choice of which will solve the problem of time series forecasting. The main stage of the scheme under consideration is the selection and training of a neural network, which requires an assessment of all possible architectures and a comprehensive analysis of existing neural network training algorithms in order to choose the optimal one. Artificial neural networks are proposed to be mainly used for solving such problems of Economics and management, where the formalization of the solution stages is either quite complex, or even impossible. Keywords: time series, neural networks, training, interpolation, learning rate

References

1. Gafarov F. M., Galimyanov F.M. Artificial neural networks and

applications: studies. manual - Kazan: Kazan publishing House. UN-TA, 2018. - 121 p.

2. V. I. Shiryaev. Financial market. Neural network. Chaos and

nonlinear dynamics. -Moscow: book house "LIBROKOM", -2009. -232 p. 9. Plaziac N. Image interpolation using neural networks // IEEE Transactions on Image Processing. -1999. Vol. 8 (11), -P. 1647-1651.

3. Nikolenko S, Kadurin A, Arkhangelskaya E. Deep learning. Immersion in the world of neural networks - St. Petersburg, Peter, 2018, 480 p.

4. Plaziac N. Image interpolation using neural networks // IEEE

Transactions on Image Processing. -1999. Vol. 8 (11), -P. 1647-1651.

5. Hao Hu, P. M. Holman, G. de Haan. Image interpolation using

classification-based neural networks // IEEE International Symposium on Consumer Electronics. -2004. -P. 133-137.

6. Nasonov A.V., Krylov A.S., Petrova X., Rychagov M.N. Edge-

directional interpolation algorithm using structure tensor// Electronic Imaging, Image Processing: Algorithms and Systems XIV -Society for Imaging Science and Technology, -2016, -P. 1-4.

7. Takens, T. Detecting strang attractors in turbulence / T. Takens

// Lec. Notes in Math., 1981.

8. Gorban A. N., Dunin-Barkovsky V. L., Kurdin A. N., and others.

Neuroinformatics. - Novosibirsk: Nauka, 1998. - 296 p.

9. The package of neural network computing TensorFlow. [Electronic resource] - https://www.tensorflow.org.

X X

О

го А

с.

X

го m

о

to о to о

i Надоели баннеры? Вы всегда можете отключить рекламу.