ИСПОЛЬЗОВАНИЕ РЕКУРРЕНТНЫХ СЕТЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ПОТРЕБЛЕНИЯ ЭЛЕКТРОЭНЕРГИИ

Подвальный С.Л.; Лихотин М.А.; Михайлусов А.В.; Донских А.К.

DOI 10.36622/VSTU.2022.18.3.005 УДК 004.942

ИСПОЛЬЗОВАНИЕ РЕКУРРЕНТНЫХ СЕТЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ПОТРЕБЛЕНИЯ

ЭЛЕКТРОЭНЕРГИИ

С.Л. Подвальный, М.А. Лихотин, А.В. Михайлусов, А.К. Донских Воронежский государственный технический университет, г. Воронеж, Россия

Аннотация: продемонстрирована возможность предсказания почасового потребления электроэнергии по данным независимого системного оператора региона PJM Interconnection LLC с применением рекуррентных нейронных сетей. Представлено краткое описание коэффициента детерминации, который является разновидностью версии среднеквадратичной ошибки. Продемонстрирована структура исходных данных, устранён ошибочный порядок следования записей и проведена нормализация для последующего обучения моделей, а также весь набор имеющихся данных был разделён на тестовую и обучающую выборки. Кратко описаны используемые архитектуры рекуррентных нейронных сетей: рекуррентная нейронная сеть (recurrent neural network) и долгая краткосрочная память (long short-term memory). Представлены основные параметры архитектур для нейронных сетей, значения одной части которых приняты по умолчанию, так как подбирались экспериментально в ходе исследования, а прочие подбирались для получения оптимальной модели. Производится сравнительный анализ качества работы моделей в зависимости от различных оптимизаторов обучения и активационных функций в нейронных слоях и представлен результат этого анализа. Получены оптимальные параметры для рекуррентной нейронной сети и долгой краткосрочной памяти моделей, которые давали максимальные значения коэффициента детерминации

Ключевые слова: рекуррентная нейронная сеть, долгая краткосрочная память, прогнозирование, временной ряд, коэффициент детерминации

Введение

Бурное развитие машинного обучения связано с широким спектром областей применения в различных сферах человеческой деятельности, таких как автоматика, управление, экономика, социология, медицина, геология, астрономия, ядерная физика и т.д. Сами методы машинного обучения подразумевают способы обработки и анализа данных, что позволяет решать следующие задачи:

- задачи регрессии;

- задачи классификации и кластеризации; задачи уменьшения размерности; задачи выявления аномалий.

В данной работе продемонстрировано решение задачи регрессии на основе данных по почасовому потреблению электроэнергии. Они были получены с веб-сайта PJM Interconnection LLC (региональная передающая организация в США) и указаны в мегаваттах (МВт).

1. Постановка задачи

Необходимо построить модель искусственной нейронной сети (ИНС), которая при подаче определённой эталонной последова-

тельности на свой вход выдаст на выходе значение, максимально приближенное к следующему часу эталонного потребления электроэнергии. Для лучшей интерпретации эффективности модели было решено использовать коэффициент детерминации R2, который является разновидностью версии среднеквадратичной ошибки. Он представляет собой долю дисперсии ответа, которая захватывается моделью [1]. Формула для расчёта коэффициента детерминации R2 представлена ниже.

р2 _ т - У\)2 т

* 2г(уг-у)2' ^ (1)

где у! - эталонное значение, у1 - значение, предсказанное моделью, у - среднее арифметическое эталонной последовательности.

Коэффициент детерминации R2 ограничивается диапазоном от 0 до 1. Если R2 = 1, то модель обучилась с наивысшей точностью, что соответствует среднеквадратичной ошибки равной 0. Но на реальных данных это может означать, что модель с большой долей вероятности была переобучена и не сможет показать такой же результат на других исходных данных.

Соответственно, для оценки точности разрабатываемых моделей необходимо, чтобы R2 был максимально приближен к единице.

2. Предварительная обработка данных

После того как данные были загружены, оказалось, что имеющаяся выборка имеет 2 основных набора данных: дату со временем и значение в МВт. Было замечено, что время располагается не в нужном порядке, например, если рассматривать выборку, то можно заметить, что между 23 и 24 декабря 2005 года есть запись за 25 число, что приведено на рис. 1.

Datetime

2005 -12- 24 1В:00:00 9775.0

2005 -12- 24 14:00:00 9303.0

2005 -12- 24 15:00:00 906S.0

2005 -12- 24 16:00:00 S931.0

2005 -12- 24 17:00:00 9240.0

2005 -12- 24 1S:00:00 10312.0

2005 -12- 24 19:00:00 10491.0

2005 -12- 24 20:00:00 10444.0

2005 -12- 24 21:00:00 10472.0

2005 -12- 24 22:00:00 1044S.0

2005 -12- 24 23:00:00 101S2.0

25 00:00:00 9722.0

2005 -12- 23 01:00:00 11152.0

2005 -12- 23 02:00:00 10S42.0

2005 -12- 23 03:00:00 10S27.0

2005 -12- 23 04:00:00 10S97.0

2005 -12- 23 05:00:00 11231.0

2005 -12- 23 06:00:00 11SS4.0

2005 -12- 23 07:00:00 12S71.0

2005 -12- 23 0S:00:00 13393.0

2005 -12- 23 09:00:00 13353.0

2005 -12- 23 10:00:00 12762.0

2005 -12- 23 11:00:00 12022.0

Рис. 1. Пример необработанных данных

Следовательно, нужно отсортировать полученный набор и удостовериться, что нет пропущенных данных. После этого необходимо провести нормализацию значений. Для этого было выбрано стандартное масштабирование от 0 до 1. Далее необходимо разбить загруженные данные на выборки: обучающие наборы и тестовые. Первый из них будет содержать около 110000 значений (часов) для обучения, а второй 6,5 тысяч. На рис. 2 приведён пример 1000 значений (часов) на графике.

Предполагается, что в модель будет поступать определённое количество входных значений, а результатом её работы будет являться будущее значение, которое должно соответствовать следующему часу потребления электроэнергии. Для того чтобы проанализировать обучаемые модели, необходимо условиться, что размер входного набора данных будет состоять из 20 значений.

[MET]

№ Щ \t ?) » № ЧиглоиЕглца

Рис. 2. Пример исходных данных

3. Обзор и выбор архитектуры моделей прогнозирования

В сфере прогнозирования временных рядов существует большое количество моделей, которые позволяют решать эту задачу, но в каждом конкретном случае требуется осуществить выбор наиболее подходящих, так как различные исходные данные требуют разных подходов к прогнозированию.

Существует много подходов, основанных как на нейронных сетях, так и на классических детерминированных алгоритмах.

Но из всего спектра базовых моделей были выбраны рекуррентные нейронные сети (RNN -Recurrent neural network) и модель с названием «Долгая краткосрочная память» (LSTM - Long short-term memory).

Рекуррентные нейронные сети одна из разновидностей ИНС (ввести термин), в которых линии соединения элементов сети создают

направленную последовательность [2]. Это дает возможность заниматься прогнозированием временных рядов или последовательных пространственных цепочек. За счет того, что RNN позволяют использовать свою внутреннюю память для обработки последовательностей данных любой длины, сети такого типа получаются значительное преимущество перед многослойными перцептронами.

LSTM, в свою очередь, является частным случаем рекуррентных нейронных сетей. Если сравнивать типовые RNN- и LSTM-сети, последние имеют преимущество, так как они хорошо приспособлены для решения разнообразных задач прогнозирования серий событий во времени, задач классификации и обработки данных в ситуациях, когда данные исходного временного ряда имеют промежутки с неопределёнными границами и продолжительностью.

Меньшая восприимчивость к неоднородным временным пробелам даёт LSTM значительный выигрыш по отношению к скрытым марковским моделям, прочим типам RNN-сетей и другим подходам прогнозирования временных рядов в самых разных прикладных сферах

[3].

После выбора конкретных моделей следующим шагом является настройка их архитектуры. Это не менее важная задача, так как от настройки полностью зависит последующее качество прогнозирования.

У моделей существует большое количество параметров, поэтому имеет смысл перечислить только самые важные.

В список основных параметров архитектур для нейронных сетей входят следующие пункты:

- активационная функция;

- оптимизатор;

- функция оценки результатов обучения;

- количество эпох.

В качестве активационной функции для обеих архитектур были выбраны следующие функции: tanh, sigmoid, relu.

При обучении сетей были использованы различные оптимизаторы: adam, rmsprop, sgd и adagrad.

Зачастую Adam дает более высокое качество обучения при малом количестве эпох, но SGD имеет меньшую ошибку прогнозирования при большом количестве эпох [4].

Для оценки качества работы модели в процессе обучения была использована среднеквадратичная ошибка (MSE), так как она является стандартной для подобного рода задач.

Количество эпох подбиралось экспериментально по результатам обучения. При этом избыточное количество эпох может привести к переобучению и, как следствие, к снижению обобщающей способности, а при недостаточном количестве эпох сеть может недообучиться и качество прогнозирования будет слишком низким.

Опуская промежуточные результаты исследования обоих моделей, можно заключить, что оптимальной архитектурой является трехслойная нейронная сеть, и обучение на десяти эпохах оказалось наиболее эффективным.

4. Анализ работы выбранных моделей 4.1. RNN

Для более полного исследования возможностей ИМК-сетей было решено произвести обучение на различных активационных функциях и оптимизаторах. Остальные параметры обучения были статические, такие как количество эпох, функция потерь и т.д. В данном исследовании больше интересует проанализировать качество обучаемых моделей на различных оптимизаторах в зависимости от активацион-ных функций. Результаты сведены в табл. 1.

Таблица 1

Обучение RNN-сети, используя различные оп-

тимизаторы и активационные ф )ункции

tanh sigmoid relu

adam 0.96083 -0.1329 0.9292

rmsprop 0.9511 0.7164 0.9083

sgd 0.8511 -0.1074 0.7604

adagrad 0.946 -0.1421 0.8448

Обучая рекуррентную нейронную сеть на десяти эпохах, используя оптимизатор SGD и relu активационную функцию, коэффициент детерминации R2 составил 0.76. Пример предсказания в сравнении с исходными данными можно увидеть на рис. 3.

Отрицательное значение R2 означает, что модели совсем не удалось обучиться и, соответственно, показать приемлемый результат.

Рении П^СГИ JlLipîiSML'a

с m 2» m vQ ею jw

Часы

Рис. 3. RNN предсказания с оптимизатором SGD

PtlKLIMttptjJheiKpeÎSHM

01-,-,-,-,-I-,-,-f-

о ttt Hg » ю ю и

Часы

Рис. 4. RNN предсказания с оптимизатором Adam

Р езчнм прогнознроЕЭ h+кн

Часы

Рис. 5. LSTM предсказания с оптимизатором Adam

Но при обучении с оптимизатором Adam, и используя тангенциальную активационную функцию, результаты были лучше. R2 = 0.96. Для сравнения результатов приведем график прогнозирования на рис. 4. Как можно заметить, второй вариант визуально намного ближе к эталонному графику.

4.2. LSTM

Были проведены аналогичные эксперименты с моделью LSTM. При использовании оптимизатора Adam (рис. 5) и тангенциальной активационной функции R2= 0.97. Эта комби-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

нация параметров обучения дала лучший результат. Остальные результаты экспериментов сведены в табл. 2.

Таблица 2

Обучение LSTM сети, используя различные оптимизаторы и активационные функции

tanh sigmoid relu

adam 0.9737 -0.1269 0.9259

rmsprop 0.9521 0.6321 0.8316

sgd 0.1128 -0.1198 0.2566

adagrad 0.7923 -0.1439 0.9035

Заключение

В представленной работе проводилось исследование возможности предсказания почасового потребления электроэнергии на протяжении всего года на основе данных предыдущих лет.

Был проведён анализ качества предсказания двух типов нейронных сетей: RNN и LSTM. В каждой модели применялись различные активационные функции и оптимизаторы при обучении для поиска максимально эффективной их комбинации.

Лучшим показателем у RNN-сети было обучение с оптимизатором adam и тангенциальной активационной функцией с Я2 = 0.9608, а у LSTM-сети лучший результат дало применение тех же параметров и максимальное Я2 при этом составило 0.9737.

По результатам исследования можно сделать вывод, что для решения поставленной задачи максимально эффективным оказалось

применение LSTM-модели с оптимизатором Adam и тангенциальной активационной функцией.

Работу модели можно считать успешной, так как она обеспечивает R2 > 0.8 на различных выборках после обучения.

Литература

1. Рашка С., Мирджалили В. Python и машинное обучение. 3-е изд. СПб.: ООО "Диалектика", 2020. С. 294297

2. Miljanovic M. Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Predictions// Indian Journal of Computer Science and Engineering. 2012. Vol. 3. No. 1. pp. 180-191

3. Rue H., Held L. Gaussian Markov Random Fields. 1st ed. New York: Taylor & Francis Group, 2005. 280 p.

4. Быстро сходящиеся современные алгоритмы обучения нейронных сетей совсем не гарантируют достижения наилучшей обобщающей способности [Электронный ресурс]: Режим доступа: World Wide Web. URL: http://neuropro.ru/memo346.shtml

Поступила 15.04.2022; принята к публикации 10.06.2022 Информация об авторах

Подвальный Семён Леонидович - д-р техн. наук, профессор, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: spodvalny@yandex.ru, ORCID: http://orcid.org/0000-0003-1260-4883

Лихотин Максим Андреевич - аспирант, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: maximus-lihotin@mail.ru

Михайлусов Алексей Вячеславович - аспирант, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: swampdok@gmail.com

Донских Андрей Константинович - аспирант, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: ak_donskikh@mail.ru

USING RECURRENT NETWORKS TO PREDICT ELECTRICITY CONSUMPTION S.L. Podval'ny, M.A. Likhotin, A.V. Mikhaylusov, A.K. Donskikh Voronezh State Technical University, Voronezh, Russia

Abstract: the paper demonstrates the possibility of predicting hourly electricity consumption according to the independent system operator of the PJM Interconnection LLC region using recurrent neural networks. We present a brief description of the coefficient of determination, which is a version of the root mean square error. We demonstrated the structure of the initial data, eliminated the erroneous order of the records and carried out normalization for the subsequent training of the models, and divided the entire set of available data into test and training samples. We briefly described the used architectures of recurrent neural networks: recurrent neural network (RNN) and long short-term memory (LSTM). We present the main parameters of architectures for neural networks, the values of one part of which are taken by default, as they were selected experimentally during the study, and the rest were selected to obtain the optimal model. We carried out a comparative analysis of the performance quality of the models depending on various learning optimizers and activation functions in neural layers, and presented the result of this analysis. We obtained optimal parameters for a recurrent neural network and long short-term memory of models, which gave the maximum values of the coefficient of determination

Key words: recurrent neural network, long short-term memory, prediction, time series, coefficient of determination

References

1. Raschka S., Mirjalili V. "Python and machine learning" ("Python i mashinnoe obuchenie"), St. Petersburg: Dialektika, 2020, pp. 294-297.

2. Miljanovic M. "Comparative analysis of recurrent and finite impulse response neural networks in time series predictions", paper, Indian Journal of Computer Science and Engineering, Feb-Mar 2012, vol. 3, no. 1, pp. 180-191.

3. Rue H., Held L. "Gaussian markov random fields", February 2005, 280 p.

4. "Rapidly converging modern learning algorithms for neural networks do not guarantee the achievement of the best generalizing ability", available at: http://neuropro.ru/memo346.shtml.

Submitted 15.04.2022; revised 10.06.2022 Information about the authors

Semyen L. Podval'ny, Dr. Sc. (Technical), Professor, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: spodvalny@yandex.ru, ORCID: http://orcid.org/0000-0003-1260-4883

Maksim A. Likhotin, graduate student, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: maximus-lihotin@mail.ru

Aleksey V. Mikhailusov, graduate student, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: swampdok@gmail.com

Andrey K. Donskikh, graduate student, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: ak_donskikh@mail.ru

ИСПОЛЬЗОВАНИЕ РЕКУРРЕНТНЫХ СЕТЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ПОТРЕБЛЕНИЯ ЭЛЕКТРОЭНЕРГИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Подвальный С.Л., Лихотин М.А., Михайлусов А.В., Донских А.К.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Подвальный С.Л., Лихотин М.А., Михайлусов А.В., Донских А.К.

USING RECURRENT NETWORKS TO PREDICT ELECTRICITY CONSUMPTION

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ РЕКУРРЕНТНЫХ СЕТЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ПОТРЕБЛЕНИЯ ЭЛЕКТРОЭНЕРГИИ»