Научная статья на тему 'Размер обучающей выборки и ее влияние на архитектуру искусственной нейронной сети в энергосистеме'

Размер обучающей выборки и ее влияние на архитектуру искусственной нейронной сети в энергосистеме Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2234
223
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ / ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / ОБУЧЕНИЕ / FORECASTING / ARTIFICIAL NEURAL NETWORK / TRAINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Манусов Вадим Зиновьевич, Макаров Илья Сергеевич, Дмитриев Степан Александрович, Кокин Сергей Евгеньевич, Ерошенко Станислав Андреевич

Представлен подход, использующий теорию искусственных нейронных сетей для прогнозирования потребления электрической энергии, при условии минимизации ошибки прогнозирования на длительном интервале упреждения. Одновременное выполнение условий небольшого отклонения прогнозируемых значений от реальных значений и сохранение квадрата ошибки в заданных пределах на предопределенном интервале достигается за счет сбалансированного выбора архитектуры нейронной сети. Испытания метода проводились с использованием реальных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Манусов Вадим Зиновьевич, Макаров Илья Сергеевич, Дмитриев Степан Александрович, Кокин Сергей Евгеньевич, Ерошенко Станислав Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SAMPLE SIZE OF TRAINING AND ITS IMPACT ON ARCHITECTURE OF ARTIFICIAL NEURAL NETWORKS IN POWER SYSTEMS

An approach that uses the theory of artificial neural networks to predict the consumption of electric energy, while minimizing the prediction error on long range preemption is presented. The simultaneous fulfillment of the conditions of a small deviation of the predicted values from the actual values and the preservation of squared errors in the set limits at a predetermined interval is achieved through well-balanced select of architecture of the neural network. The tests were conducted using the method of real data.

Текст научной работы на тему «Размер обучающей выборки и ее влияние на архитектуру искусственной нейронной сети в энергосистеме»

УДК 621.311

РАЗМЕР ОБУЧАЮЩЕЙ ВЫБОРКИ И ЕЕ ВЛИЯНИЕ НА АРХИТЕКТУРУ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ В ЭНЕРГОСИСТЕМЕ

© В.З. Манусов, И.С. Макаров, С.А. Дмитриев, С.Е. Кокин, С.А. Ерошенко

Ключевые слова: прогнозирование; искусственные нейронные сети; обучение.

Представлен подход, использующий теорию искусственных нейронных сетей для прогнозирования потребления электрической энергии, при условии минимизации ошибки прогнозирования на длительном интервале упреждения. Одновременное выполнение условий небольшого отклонения прогнозируемых значений от реальных значений и сохранение квадрата ошибки в заданных пределах на предопределенном интервале достигается за счет сбалансированного выбора архитектуры нейронной сети. Испытания метода проводились с использованием реальных данных.

ВВЕДЕНИЕ

Реформирование энергетической отрасли повлекло введение новых принципов функционирования рынков электроэнергии (ЭЭ) и существенное изменение договоров энергоснабжения и купли продажи. Энергоснабжающие организации и потребители (субъекты розничного рынка электроэнергии) в сложившихся на данный момент условиях заинтересованы в достоверном планировании (прогнозировании) потребностей в ЭЭ и проведении эффективного анализа по ее использованию. Вследствие этого положения существенно возрастает ответственность в достоверном решении задач анализа и прогнозирования режимных параметров (в первую очередь, электрической нагрузки потребителей, перетоков мощности и т. д.) и характеристик (потерь электроэнергии, температуры наружного воздуха и т. д.) для каждой конкретной энергоснабжающей организации (ЭСО) [1].

Технологии искусственного интеллекта (ТИИ) -одна из возможностей повышения качества решения задач прогнозирования, среди которых наибольший интерес представляют искусственные нейронные сети (ИНС).

1. ПОСТАНОВКА ЗАДАЧИ

Решение задач прогнозирования, как правило, осуществляется с помощью регрессионных моделей, позволяющих связать известное суммарное потребление электроэнергии с шин питающей подстанции с потреблением электроэнергии исследуемым потребителем. Однако в настоящее время большое распространение получили системы, базирующиеся на принципах работы живых организмов, в частности, моделирующие их нервную деятельность. Такие системы получили название ИНС.

В литературе имеется большое число публикаций по использованию ИНС для прогнозирования. Эти публикации охватывают широкий спектр прогностиче-

ских применений, варьируя от финансово-экономических до физических явлений) [2].

Рассмотрим следующую задачу: крупный промышленный потребитель электрической энергии (Риссл), питающийся с шин подстанции (ПС), в целях обеспечения процесса планирования производства и поставок электрической энергии подает заявку на предполагаемый объем электрической энергии своему поставщику электрической энергии. Кроме того, с шин ПС питается жилой сектор и ряд мелкопромышленных потребителей, эквивалентированных как Рст.

Учет суммарного расхода ЭЭ осуществляется вручную лишь раз в месяц. В этом случае при выполнении прогноза мы сталкиваемся с ситуацией, когда последний достоверно известный член временного ряда датируется последним числом предыдущего месяца. Поэтому при выполнении прогноза следует опираться на данные, поступающие онлайн, получаемые с шин питающей подстанции.

Целью работы является разработка комплекса оперативного прогнозирования на основе ИНС, отвечающего следующим требованиям:

- прогнозирование потребления ЭЭ на каждый час суток;

- выполнение прогноза на 2-е, 3-е и 4-е сутки вперед;

- минимизация ручных манипуляций при получении прогноза;

- удобная форма предоставления прогноза;

- небольшое отклонение прогноза от реальных значений.

2. АНАЛИЗ ЗАВИСИМОСТИ ОШИБКИ ОТ ДЛИНЫ ОБУЧАЮЩЕЙ ВЫБОРКИ

В данном случае прогнозирование сводится к задаче, в которой некоторому входному вектору X, составленному из последних известных данных по общему потреблению с шин ПС, посредством преобразования с

помощью ИНС ставится в соответствие некоторый выходной вектор Г, представляющий прогнозные значения потребления ЭЭ. Для этого нужно выбрать архитектуру ИНС и обучить ее, решая при этом две противоречивые задачи: уменьшение среднего квадрата ошибки и сохранение квадрата ошибки в заданных пределах на предопределенном интервале.

Обучить ИНС значит минимизировать следующую функцию [3]:

(1)

Минимум правой части выражения (3) (если он су*

ществует) достигается на векторе АЖк , доставляющем минимум квадратичной форме:

Ф(Ж) = g-T АЖ +1 АЖтИк АЖ.

(6)

Будучи стационарной точкой, этот вектор должен удовлетворять равенству:

і=1

И к АЖ- =- gk

(7)

где У^ - выходной прогноз сети при подаче примера г;

- соответствующее истинное значение потребления ЭЭ; N - общее количество примеров в множестве обучения. Стоит отметить, что обучение производится на «обучающей выборке», и значения известны заранее.

Отклик сети Г получается в результате нелинейного преобразования вектора X:

(

У = ф

(

( (

V V і

(2)

где ф(-) - функция активации общего вида; w0к -синаптический вес связи между нейроном к последнего скрытого слоя и единственным выходным нейроном 0 и т. д. для всех остальных синаптических весов; -элемент г входного вектора X.

Таким образом, значение Г есть функция от входного вектора X и вектора синаптических весов Ш.

Располагая первыми и вторыми производными целевой функции Е(Ж, X) , в качестве ее квадратной модели можно взять сумму первых трех членов тейлоровского разложения Е(Ж, X) в окрестности текущей

точки Жк , т. е. воспользоваться соответствием:

АЖ* =-И-^ к.

В итоге, на итерации к имеем АЖ- = Ж--і + АЖ* = Ж--і - И-^-

(8)

(9)

Итерации повторяются до тех пор, пока не будет достигнут некий наперед заданный критерий сходимости, например:

2 |Е(Ж-,X)-Е(Ж--і,X)| ^

' Е(Ж-, X) + Е(Жк-1, X) а

(10)

В ходе обучения для выбранной архитектуры сети вектор Ж примет значение Жор{, близкое к оптимальному Жор(, в котором функция Е(Ж, X) достигает глобального минимума.

Оптимальный результат Ж0 зависит от количества примеров в обучающей выборке. Действительно, компонент ] вектора равен:

gkj

дм

(11)

Е(Ж- + АЖ, X) * Е(Ж-,X) + g-1 АЖ +

1 т

+ -АЖтИАЖ,

2

где gk - вектор локального градиента в точке Ж- : дЕ (Ж, X )|

(3)

g = -

дм

(4)

И- - матрица Гессиана в точке Ж- :

д 2 Е (Ж, X) I _

- дм2 ^=Ж- •

а элемент (д, ^ гессиана И- равен:

" д2((Г(Ж, xl)- 4)2)

И- =

ІҐ1

(12)

где N - общее число примеров в обучающей выборке.

*

На каждой из итераций вектор АЖ- , равный произведению матрицы, обратной гессиану, на вектор локального градиента также будет функцией от общего числа примеров.

Вектор Жорі также будет зависеть от числа примеров, поскольку

і,і

к

V

і=1

•м=Ж

к

Рис. 1. Изменение средней ошибки на обучающей выборке в зависимости от длины обучающей выборки

Рис. 2. Изменение ошибки в контрольной группе и ошибки на обучающей выборке в зависимости от длины обучающей выборки (М = 168)

%t (N) = W + £ A W (N) ,

(13)

к=1

где Ж0 - начальное приближение; S - номер итерации, на которой выполняется критерий сходимости.

Исследуем зависимость значения целевой функции

в точке Жор{ от длины обучающей выборки.

Ошибка на обучающей выборке рассчитывается следующим образом:

Err =

train

1 N

11

N £

I =1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\Yi~d,\

■100%,

(14)

где У, - выходной прогноз сети при подаче примера г;

- соответствующее истинное значение потребления ЭЭ; N - общее количество примеров в множестве обучения.

Следует обратить внимание на то, что при расчете средней ошибки используется функция модуля, а не квадратичная функция, т. к. в большинстве практических приложений прогнозирования в энергетике более важным является модуль отклонения.

Графически зависимость средней ошибки на обучающей выборке от длины выборки при фиксированной архитектуре сети и одинаковом алгоритме обучения имеет следующий вид (рис. 1).

С ростом длины выборки можно наблюдать тенденцию к росту средней ошибки. Это связано с тем, что также как и в задаче описания случайного процесса, заданного во времени N точками, полиномом степени

М, при увеличении числа Р, равного М - N + 1, ошибка описания будет увеличиваться.

Действительно, известно, что для набора, состоящего из N точек (Хо, Уо),(Х1, У\),-,(Хг, У, ),■■■, (хы, уы) , существует интерполяционный полином Лагранжа степени N - 1, для которого Ь(х^) = у,. То есть такой полином абсолютно точно проходит через точки данного набора или, по аналогии с нашим случаем, для него Еттшы = 0. Однако описать абсолютно точно полиномом степени М набор из N точек при условии, что М < N + 1 и что ординаты точек выбираются с некоторой степенью случайности, можно только с очень малой вероятностью. И чем больше разность между количеством точек и степенью полинома, тем меньше эта вероятность и тем больше математическое ожидание среднего отклонения значения интерполяционного полинома от значений ординат точек заданного набора:

1 N

Err=n £ \L(xiь у

i=1

(15)

Несмотря на то, что Е(Ж) - это трансцендентная функция, а не полином, изложенные выше соображения о связи ошибки на обучающей выборке с разностью между количеством примеров и числом переменных (весов синапсов) применимы также и для нее.

Весь процесс обучения сети построен на минимизации ошибки на обучающей выборке, для того чтобы на дистанции упреждения ошибка была приблизительно также мала. Однако уменьшить ошибку можно, сократив длину выборки (рис. 1). Зачастую решение о сокращении обучающей выборки выглядит очень привлекательным. Но при чрезмерном сокращении обучающей выборки разработчик будет сталкиваться с ситуацией, когда значение ошибки при прогнозировании будет сильно отличаться от ошибки на обучающей выборке.

Для исследования этого аспекта из обучающей выборки выделяется т. н. «контрольная группа». Элементы этой группы известны, но не участвуют в обучении, поэтому выделение контрольной группы позволяет получить более точное представление о средней ошибке прогнозирования, которая будет допускаться ИНС.

ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ

Построим зависимость средней ошибки в контрольной группе от длины обучающей выборки.

После процесса обучения сеть тестируется на неизвестных для нее примерах контрольной группы, после чего вычисляется ошибка:

Егг

control

1 с

- £ с £

\Yi~d,\

d,

(16)

где У, - выходной прогноз сети при подаче примера г; - соответствующее истинное значение потребления

2.5

0.5

О

330 380 430 480 530

14, шт

-“обучающая выборка -“контрольная группа

Рис. 3. Изменение ошибки в контрольной группе и ошибки на обучающей выборке в зависимости от длины обучающей выборки (М = 120)

ЭЭ; C - общее количество примеров в контрольной группе. В представленном случае C = 30.

Полученные результаты показывают, что минимум ошибки ЕггсопГЫт^ = 1,088% для сети с 168 синапсами и пороговыми значениями достигается при обучении на выборке длиной около 660 примеров.

На практике нередки ситуации, когда разработчик сталкивается с некоторым недостатком данных для обучения. Так, рассмотрим ситуацию, когда доступны лишь 500 обучающих примеров. Минимальная ошибка в контрольной группе сети с 168 синапсами и пороговыми значениями в этом случае будет равна ЕггсопШ\м = 470 = 1,693 % ^ = 30, N = 500 - 30 = 470)

(рис. 2), что больше минимального значения почти на 0,6 %. Исходя из вышеизложенных соображений, можно предположить, что ИНС с меньшим количеством настраиваемых параметров может показать меньшую минимальную ошибку в контрольной группе. За счет сокращения количества синапсов во входном слое облегчим предыдущую сеть до 120 настраиваемых параметров.

После тестирования получаем следующие результаты (рис. 3).

Минимум ошибки ЕгТсопГо1 т;п = 1,23 % для сети с

120 синапсами и пороговыми значениями достигается при обучении на выборке длиной около 460 примеров. Минимуму ошибки в контрольной группе соответствует ошибка на обучающей выборке Егг1тп\м=460 = = 0,83 %. При N = 460 ошибка на обучающей выборке сети со 168 настраиваемыми параметрами равна 0,608 %, т. е. меньше, чем у сети со 120 параметрами. Однако в

контрольной группе при N = 460 большая сеть имеет

ошибку Errcontrol | N=460 = 1,661 % пРотив

Errcontroi min = 1,23 % у меньшей сети, поэтому облегченный вариант сети стоит признать лучшим. Данные рассуждения показывают важность контроля ошибки не только на обучающей выборке, но и в контрольной группе.

ЗАКЛЮЧЕНИЕ

При разработке ИНС необходимо производить проверку качества прогнозирования на примерах контрольной группы, в противном случае, разработчик рискует выбрать вариант сети, далекий от оптимального варианта.

При выборе архитектуры ИНС, количества нейронов и прилегающих синапсов необходимо отталкиваться от общего количества известных примеров, которые можно использовать для обучения.

Зависимость ошибки в контрольной группе от длины обучающей выборки при фиксированной архитектуре ИНС имеет ярко выраженный экстремум. Увеличение числа синаптических весов в ИНС ведет к смещению экстремума в сторону большего числа элементов в обучающей выборке.

ЛИТЕРАТУРА

1. Томин Н.В. Анализ и прогнозирование режимных параметров и характеристик для субъектов розничного рынка электроэнергии на базе технологий искусственного интеллекта: автореф. дис. ... канд. тех. наук. Иркутск, 2007.

2. Weizhong Y. Toward automatic time-series forecasting using neural networks // IEEE Transaction on neural networks and learning systems. 2012. V. 23. № 7. Р. 1028-1039.

3. Haykin S. Neural Networks: A Comprehensive Foundation. Prentice Hall, 1999. P. 842.

Поступила в редакцию 8 апреля 2013 г.

Manusov V.Z., Makarov I.S., Dmitriyev S.A., Kokin S.E., Eroshenko S.A. SAMPLE SIZE OF TRAINING AND ITS IMPACT ON ARCHITECTURE OF ARTIFICIAL NEURAL NETWORKS IN POWER SYSTEMS

An approach that uses the theory of artificial neural networks to predict the consumption of electric energy, while minimizing the prediction error on long range preemption is presented. The simultaneous fulfillment of the conditions of a small deviation of the predicted values from the actual values and the preservation of squared errors in the set limits at a predetermined interval is achieved through well-balanced select of architecture of the neural network. The tests were conducted using the method of real data.

Key words: forecasting; artificial neural network; training.

i Надоели баннеры? Вы всегда можете отключить рекламу.