УДК 519.6
НЕПАРАМЕТРИЧЕСКАЯ МОДЕЛЬ В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ МОЩНОСТИ ВЕТРЯНЫХ ЭЛЕКТРИЧЕСКИХ УСТАНОВОК
Е. Д. Агафонов, Е. С. Мангалова, О. В. Шестернева
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: [email protected], [email protected], [email protected]
Статья посвящена решению практической задачи прогнозирования относительной мощности ветряных электрических установок в зависимости от сезонных и погодных факторов. Описаны следующие этапы решения задачи прогнозирования: выбор значимых факторов, предварительная обработка данных, построение непараметрической модели k ближайших соседей, ее проверка и интерпретация результатов. Качество построенной модели подтверждено результатами открытого международного конкурса, на котором по критерию среднеквадратической ошибки модель показала второй по точности результат. Построенная модель позволит оптимизировать работу ветряных электрических установок в зависимости от погодных условий и нагрузки в энергетической системе.
Ключевые слова: метод k ближайших соседей, прогнозирование, дерево регрессии.
A NONPARAMETRIC MODEL IN THE TASK OF PREDICTIVE MODELING
OF WIND POWER PLANTS
E. D. Agafonov, E. S. Mangalova, O. V. Shestemeva
Siberian State Aerospace University named after academician M. F. Reshetnev 31 “Krasnoyarskiy Rabochiy” prosp., Krasnoyarsk, 660014, Russia E-mail: [email protected], [email protected], [email protected]
The work is devoted to solution of the problem of predictive modeling of relative capacity of wind power plants in relation to season and weather factors. It contains step-by-step description of the following steps of modeling: factor selection, raw data pretreatment, model evaluation and optimization. Both heuristic and formal methods were combined to construct the model. The basic modeling approach here is the k-nearest neighbors method. The model has been verified with the use of test sample. The developed model allows to optimize the wind power plant operation in relation to weather factors and network load.
Keywords: k-nearest neighbors, forecasting, regression tree.
Энергоэффективность и энергосбережение входят в пятерку приоритетных направлений технологического развития в России. Развивающиеся технологии использования альтернативных источников энергии способствуют рациональному использованию ресурсов и сокращению выбросов парниковых газов [1].
Одним из активно развивающихся направлений в энергетике в настоящее время являются ветряные электрические установки (ВЭУ). Россия обладает колоссальными возможностями для развития ветроэнергетики. В настоящее время на территории России экономически оправдано строительство ветряных электростанций суммарной мощностью до 250 млрд кВт/ч в год. Наиболее перспективными районами являются Дальневосточный регион, Сибирь, Крайний Север, а также территории Алтая, Нижней и Средней Волги, Каспийское побережье и Республика Карелия [2].
Эффективная эксплуатация ветряных электрических установок требует решения проблем, связанных с необходимостью оптимизации режимов их работы в рамках единой энергетической системы. В частности,
возникает необходимость прогнозировать мощность, генерируемую ветряной электрической установкой. Постановка задачи и исходные данные взяты из открытого конкурса Global Energy Forecasting Competition 2012 [3]. Для прогноза выходной мощности семи ветряных электростанций используется следующий набор факторов: метеорологический прогноз, содержащий меридиональную и зональную компоненты скорости ветра (проекции скорости на меридиан и параллель, проходящие через ВЭУ), направление ветра, скорость ветра, и соответствующая прогнозу дата. Исходные данные представляют собой выборку, состоящую из 26 197 наблюдений за четырехлетний период. Прогнозы ветра поступают два раза в сутки, каждый прогноз представляет собой данные о ветре на ближайшие двое суток. По этой причине обучающая выборка содержит многократные прогнозы различной точности. Функционирование ВЭУ сопровождается длительными промежутками отключения или работы на пониженной мощности, связанными как с регламентными работами на станциях, так и с особыми
метеорологическими условиями (например, обледенением). Причины каждого конкретного отклонения режима функционирования ВЭУ от нормального неизвестны, поэтому работа с выборкой крайне затруднительна.
Мощность воздушного потока зависит не только от скорости, но и от плотности воздуха [4]. Мы не располагаем данными о параметрах, связанных с плотностью (температура, влажность и т. д.). Однако косвенно они могут быть связаны с порядковым номером дня в году (временем года) и временем суток [5].
Применим деревья регрессии [6] для принятия решения о включении факторов в модель. Построение бинарного дерева представляет собой пошаговую процедуру разбиения подмножеств обучающей выборки на две части гиперплоскостью, перпендикулярной оси выбранного фактора и проходящей через точку разбиения так, чтобы сумма дисперсий выходных значений в получаемых подмножествах была минимальна. Дерево регрессии позволяет последовательно разбивать имеющийся набор данных на подмножества с различными выборочными средними. Таким образом, разбиение по какому-либо фактору свидетельствует об изменении выборочной средней, а следовательно, о наличии некоторой зависимости выходной
величины от этого фактора. По этой причине факторы, по которым проводились разбиения, будем считать значимыми.
При построении дерева регрессии определяем следующее правило остановки: любое из полученных в результате разбиения подмножеств должно содержать не менее 500 выборочных значений. Данное правило предотвращает выбор факторов, существенных лишь для небольших подмножеств данных (менее 5 % обучающей выборки).
Дерево регрессии для ветряной станции 1 изображено на рис. 1. В узлах дерева находятся условия, в соответствии с которыми осуществляется бинарное разделение выборки. В конечных узлах дерева указаны значения средних мощностей - выходных величин, соответствующих областей кусочно-постоянных аппроксимаций, которые представляют собой дерево. Первое разбиение было произведено по скорости ветра: для всех первого подмножества скорость ветра меньше 4,9 м/с (верхняя альтернатива), для всех точек второго - больше 4,9 м/с. Каждое из полученных подмножеств было в свою очередь разбито на два подмножества. Процесс продолжается, пока не нарушается требование к размеру минимального листа дерева.
Рис. 1. Дерево регрессии для первой из семи ВЭУ: верхняя альтернатива - соблюдение неравенств, нижняя - нарушение; мя - скорость ветра; И - час; йУ - порядковый номер дня в году; V - зональная компонента скорости ветра
Значимость факторов
Фактор ВЭУ
1 2 3 4 5 6 7
Зональная компонента скорости ветра - + + + - + +
Меридиональная компонента скорости ветра + + + + + + +
Направление ветра - + - - + - +
Скорость ветра + + + + + + +
Год - - - - + - -
Месяц - - - - - - -
День месяца - - - - - - -
Час + + + + + + +
День в году + + - - + + +
Для каждого подмножества итогового разбиения была вычислена средняя выходная мощность. Например, при условиях «скорость ветра меньше 2.1 м/с» и «порядковый номер часа в сутках меньше 12» средняя относительная мощность составляет 0,03, а при условиях «скорость ветра меньше 2,1 м/с» и «порядковый номер часа в сутках больше или равен 12» - 0,1.
В табл. знаком «+» отмечены факторы, по которым производились разбиения при построении деревьев для соответствующих ветряных установок (значимые факторы).
Факторы, значимость которых была установлена в процессе построения деревьев регрессий для пяти и более ветряных установок, были включены в модель: x1 - зональная компонента скорости ветра; x2 -меридиональная компонента скорости ветра; x3 - скорость ветра; x4 - порядковый номер часа в сутках; x5 -порядковый номер дня в году. К этому набору факторов последовательно добавлялись скорости ветра в районах соседних установок: сначала фактор x6 должен в наибольшей степени улучшать качество модели, затем фактор x7 выбирается с тем же условием.
После выбора значимых факторов необходимо провести предварительную обработку данных. Электрические генераторы характеризуются монотонно возрастающей зависимостью выходной мощности от скорости ветра. Отдельные фрагменты в обучающей выборке противоречат этому теоретическому результату. Следовательно, предполагается наличие аномалий в измерениях соответствующих величин. Другое предположение заключается в том, что данные в этих областях получены во время нештатного функционирования ВЭУ. Были замечены два типичных случая аномальных данных:
- высокая мощность при слабом ветре;
- низкая мощность при сильном ветре.
Первый случай может быть связан с ошибками в прогнозе погоды; второй - как с ошибками в прогнозах, так и с аномальным функционированием ветряной электростанции. Измерения, соответствующие перечисленным случаям, были исключены.
Прогнозируемую величину (выходную мощность ВЭУ) обозначим у, объем выборки - п. Для предска-
зания выходной мощности использован непараметрический алгоритм k ближайших соседей [7; 8]. Выбор алгоритма обусловлен следующими причинами:
- интерпретируемостью модели. Алгоритм k ближайших соседей позволяет осуществлять прогноз, основываясь на наиболее похожих ситуациях (ближайших соседях) в прошлом в соответствии с выбранным расстоянием. Прогнозирование выполняется простым или взвешенным усреднением выходных значений k ближайших соседей;
- циклическим характером некоторых факторов. Среди факторов, включенных в модель, есть циклические (час и порядковый номер дня в году). Алгоритм k ближайших соседей может работать с ними (в отличии, например, от деревьев регрессии);
- алгоритм не требует повторного обучения при поступлении новых данных.
Поиск ближайших соседей будем осуществлять в соответствии со следующими метриками:
1. Метрика в пространстве одного фактора:
I хр, хд) хр х^
У = 1, 2, 3, 6, 7,
Р = 1, 2,
' = 1, 2,
где у - порядковые номера признаков, для которых метрика применима; р и q - порядковые номера наблюдений, упорядоченных по времени их поступления.
2. Метрика в пространстве одного циклического фактора:
- порядковый номер часа в сутках:
4 4
хр - х?
(24 - хр - х4
р = 1,2,..., п, q = 1,2,..., п;
- порядковый номер дня в году:
■ -5 )=•
К - 4
365 - Х - х5|
К - Х5 > 365 - Х1 - хд\
р = 1,2,...,п, q = 1,2,..., п.
3. Метрика в пространстве всех факторов взвешенную сумму метрик в пространстве одного фактора:
7
D(,xq,w) = XwJdJ (,xJq),
j=1
p = 1,2,...,n, q = 1,2,..., n,
где w3 - соответствующие различным признакам веса, подлежащие оптимизации в соответствии с критерием качества, который будет рассмотрен ниже. Модель к ближайших соседей имеет вид [7]:
П
ХФ(Х, Xq , W)yq
У (x, w) = ^---------------
Sф(, xq , w)
q=1
где
ф(Х, Xq , W) =
D (x, к, W) - D (x, xq, w), D (x, xq, w) < X(x,к),
0, D (x, xq, w) >X (x, к),
здесь к - количество соседей, X(X, к) - расстояние
между X и к-м ближайшим соседом, yq - выходная
мощность ВЭУ для выборочного элемента с индексом q.
Анализ выборочных данных показал, что встречаются ситуации, когда метеорологические прогнозы слабо отличаются друг от друга в течение некоторого промежутка времени. Ближайшие по времени наблюдения, таким образом, будут являться заведомо «хорошими» соседями. Данный эффект приводит к занижению количества ближайших соседей и переобучению при оптимизации модели с использованием критерия Q-кратной кросс-проверки. Идея Q-кратной кросспроверки состоит в выделении в обучающей выборки (V) на Q непересекающихся подмножеств случайным
Q Q
образом (Vt, l = 1,2,..., Q, Qv, = V, ^V, = 0), по-
i=i i=i
строении модели Q раз, при этом каждый раз одно из подмножеств не участвует в построении модели, а используется как тестовая выборка, ошибки Q моделей суммируются [9]:
Q 2
XX(- у ( ,w,V\Vl)) ^min, (2)
1=1 ieV, W,k
где
n
X ф( , xq , w) Уq
у (, w, V \ V, )= ^----------------.
X ф(, Xq , w)
q=1
xq «Vl
Модель, оптимизированная по критерию (2), будет демонстрировать высокое качество краткосрочного
прогнозирования (1.. .2 ч), однако она будет иметь большие ошибки при долгосрочных прогнозах (до A = 48 ч).
При настройке параметров w и к исключаем A ближайших по времени к проверочному множеству наблюдений из обучающей выборки. Для оптимизации параметров модели (1) был использован следующий критерий:
XX( Уг- у (, w, Т, ))2 ^ mi1,
l ieV, W,k
Vl = (((l), Ул(,) ), (X^(l)+!, Ул(,)+! ),..., (X}-(l)+B-1, Ух(,)+B-1)), l = 1, 2,..., S - проверочные множества, S - количест-(1) во проверочных множеств, X(l ) = n - S (A + B) + + (A + B)(l -1), к ближайших соседей отыскиваются из тестовых множеств: Т, =((q,yq):v(Xp,yp)е
е Vj\q - p| > a) , q = 1, 2,..., n , p = 1, 2,..., n .
Были использованы следующие параметры алгоритма кросс-проверки: B = 36; S = 155.
Для любого w количество соседей к выбиралось методом полного перебора в диапазоне от 1 до 250. Оптимизация по параметрам w выполнялось с помощью модифицированного покоординатного спуска.
С целью улучшения качества модели применялось сглаживание результатов прогнозирования по времени с использованием скользящего среднего:
С
X y (+г,w)
y (xp ) = ^-----------. (3)
v p! 2c+1
Ширина окна сглаживания c = 2 была выбрана из условия минимума критерия:
XX(- y (x ))2 ^ min.
l ieV, С
Если известны значения мощности ветряной установки в моменты времени p - 2 и p - 1 (yp-2 и yp-1),
тогда будем использовать их вместо y (xp-2) и y (Xp-1)
в выражение (2). Процедура скользящего среднего приводит к уменьшению ошибок в модели, связанных с временными сдвигами прогноза погоды.
Модель (3) была проверена на тестовой выборке [2]. Среднеквадратическая ошибка приняла значение 0,147 2. Так как прогнозируемая величина является нормированной, в процентном отношении ошибка составляет 14,72 %. Фрагмент сравнения выборочных значений мощности и выхода модели (3) представлен на рис. 2.
При построении модели были последовательно использованы две процедуры усреднения: вначале -в пространстве факторов, затем - по времени, что привело к сглаживанию прогноза. Тем не менее модель позволяет определить положение практически всех экстремумов функции мощности от времени, а по значению среднеквадратической ошибки предложенная модель на конкурсе [3] заняла второе место.
Проверочное множество
Рис. 2. Сравнение выборки (пунктирная линия) и выхода модели (сплошная линия) для последних двадцати проверочных множеств
Таким образом, построена непараметрическая модель к ближайших соседей. С использованием построенной модели решена задача прогнозирования мощности ветряных электрических установок.
С использованием полученной модели могут быть решены задачи прогнозирования выходной мощности для индивидуальных ВЭУ. Качественный прогноз производства электроэнергии ветряными станциями совместно с прогнозом суточного потребления позволяет минимизировать расходы, связанные с использованием резервных мощностей: снизить сжигание органического топлива, уменьшить общее число вынужденных дорогостоящих запусков и остановок резервных тепловых электростанций. Резервным электростанциям требуется значительное время от запуска до начала генерации энергии. Прогнозирование выходной мощности ВЭУ позволит выводить резервные электростанции на требуемые мощности в случае необходимости заранее.
Библиографические ссылки
1. Энергоэффективные технологии «Сименс» в России [Электронный ресурс]. URL: http://w3.siemens.ru/ energy-efficiency/energy-efficiency.html (дата обращения: 08.02.2013).
2. РБК Исследования рынков. Совокупная мощность
ветряных электростанций России составила 15,4 МВт. [Электронный ресурс]. URL: http://marketing.rbc.ru/ news_research/24/10/2012/562949984996362.shtml (дата
обращения: 08.02.2013).
3. Global Energy Forecasting Competition 2012, wind forecasting [Electronic resource]. URL: http://www.kaggle.com/c/GEF2012-wind-forecasting (date of visit: 08.02.2013).
4. Crogg K. Harvesting the Wind: The Physics of Wind Turbines [Electronic resource]. URL: https://dspace. lasrworks.org/bitstream/handle/10349/145/fulltext.pdf. Retrieved 2013-01-11 (date of visit: 08.02.2013).
5. Global Energy Forecasting Competition 2012, Load Forecasting. Data files [Electronic resource]. URL: http://www.kaggle.com/c/global-energy-forecasting-competition-2012-load-forecasting/data (date of visit: 08.02.2013).
6. Classification and Regression Trees / L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone. Wadsworth Inc., 1984.
7. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993.
8. Зайцева Е. А., Бурулев Е. В., Медведев A. B. Непараметрические модели и алгоритмы принятия решений // Вестник СибГАУ. 2005. Вып. 6. С. 17-22.
9. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики / под ред. О. Б. Лупанова. М. : Физматлит, 2004. T. 13. С. 5-36.
References
1. Energoeffectivnye technologii “Siemens" v Rossii (Energy-efficient technologies “Siemens” in Russia). Available at: http://w3.siemens.ru/energy-efficiency/energy-efficiency.html (accessed 15 april 2013).
2. RBK Issledovaniya rynkov. Sovokupnaya moshnost vetryanyh elektrostancii Rossii sostavila 15.4 MVt (RBC Market Research. The aggregate capacity of wind power plants in Russia amounted to 15.4 MW.). Available at: http://marketing.rbc.ru/news_research/24/10/2012/562949 984996362.shtml (accessed 15 april 2013).
3. Global Energy Forecasting Competition 2012, wind
forecasting. Available at: http://www.kaggle.com/cZ
GEF2012-wind-forecasting (accessed 15 april 2013).
4. Crogg. K. Harvesting the Wind: The Physics of Wind Turbines. Available at: https://dspace.lasrworks.org/ bitstream/handle/10349/145/fulltext.pdf. Retrieved 201301-11 (accessed 15 april 2013).
5. Global Energy Forecasting Competition 2012 - Load Forecasting. Data files. Available at: http://www.kaggle.com/
c/global-energy-forecasting-competition-2012-load-forecasting/data (accessed 15 april 2013).
6. Breiman L., Friedman J. H., Olshen R. A., Stone C. J. Classification and Regression Trees. Wadsworth Inc, 1984.
7. Hardle V. Prikladnaya neparametricheskaya regressiya (Applied nonparametric regression). Moscow, 1993. 349 p.
8. Zaytceva Е. А., Burulev E. B., Medvedev A.V. VestnikSibGAU. 2005, no. 6, pp. 17-22.
9. Vorontcov K. V. Matematicheskie voprosy kibernetiki, 2004, vol. 13, pp. 5-36.
© Агафонов Е. Д., Мангалова Е. С., Шестернева О. В., 2013
УДК 658.5.011.56:002.6
ПОДДЕРЖКА ДАННЫХ ТЕХНОЛОГИЧЕСКИХ ПРОЦЕССОВ В ИНТЕГРИРОВАННОЙ ИНФОРМАЦИОННОЙ СРЕДЕ ПРЕДПРИЯТИЯ
А. А. Бикчентаев
ОАО «Информационные спутниковые системы» имени академика М. Ф. Решетнева»
Россия, 662972, Железногорск Красноярского края, ул. Ленина, 52. E-mail: [email protected]
Рассматривается задача поддержки данных технологических процессов, необходимых для автоматизированных систем, входящих в состав интегрированной информационной среды предприятия. Подчеркивается, что суть данной задачи заключается в переориентации процесса технологического проектирования с выпуска и сопровождения документации на работу с электронными данными. Рассматривается способ ее решения с использованием современных средств автоматизации технологического проектирования. Указывается, что этот способ требует дополнительных затрат на обеспечение надежной работы с данными. Предлагается новый способ решения обозначенной проблемы, имеющий ряд преимуществ. Указывается, что предлагаемый способ обеспечивает надежность данных ТП и имеет ряд преимуществ, таких как более высокая скорость обработки данных и использование пользователем интерфейса одной программы.
Ключевые слова: автоматизация, технологический процесс, интеграция, данные.
SUPPORT OF DATA OF TECHNOLOGICAL PROCESSES IN INTEGRATED INFORMATION ENVIRONMENT OF AN ENTERPRISE
А. А. Bikchentaev
JSC “Information Satellite Systems” named after academician M. F. Reshetnev”
52 Lenin st., Zhelenogorsk, Krasnoyarsk region, 662972, Russia. E-mail: [email protected]
In the work the author considers the problem of support of technological processes necessary for automation systems that are included in entire information environment of an enterprise. The author points out that the truth of the matter is in reorientation of the process of technological design from release and support of the documentation to electronic data management. The way of its solution, with the use of the modern facilities for automation of technological design, is under consideration. The author points out that this way requires extra costs to provide safe dealing with data and offers a new way for this problem solution, which has number of advantages. The author emphasizes that the introduced way provides safety of data of technological processes and has several advantages, such as higher speed of data processing and usage of single interface by the user.
Keywords: automation, technological process, integration, data.
В основе эффективной автоматизации предприятия лежит построение интегрированной информационной среды [1; 2]. Интегрированная информационная среда - совокупность распределенных баз данных, содержащих сведения об изделиях, производственной среде, ресурсах и процессах предприятия, обеспечивающая корректность, актуальность, сохранность и доступность данных для тех субъектов производственно-хозяйственной деятельности, участвующих
в осуществлении жизненного цикла изделий, кому это необходимо и разрешено [3].
Одним из препятствий на пути создания интегрированной информационной среды является ориентация части бизнес-процессов предприятия на выпуск и сопровождение документов. При этом могут требоваться дополнительные организационные усилия и временные затраты на получение и поддержку данных, содержащихся в этих документах, в базах