УДК 004.738
А. А. Атаян, Д.Ю. Tum,oe, В.Н. Логинов
Московский физико-технический институт (национальный исследовательский университет)
Анализ нейросетевых моделей для решения задачи дезагрегации энергии в промышленных объектах
и домохозяйствах
В данном исследовании осуществляется анализ архитектур нейронных сетей на основе рекуррентных, сверточных сетей, а также на основе архитектуры трансформер, VAE, диффузионых моделей в контексте задачи дезагрегации данных о потреблении электроэнергии в промышленных объектах и домохозяйствах.
Ключевые слова: дезагрегация данных о потреблении энергии, трансформеры, автоэнкодеры, диффузионные модели
A. A. Atayan, D. Y. Titov, V. N. Loginov Moscow Institute of Physics and Technology
Analysis of neural network models for solving the problem of energy disaggregation in industrial facilities and
households
This study analyzes neural network architectures based on recurrent, convolutional networks, as well as networks based on transformer architecture, VAE, and diffusion models in the context of the task of disaggregating data on electricity consumption in industrial facilities and households.
Key words: energy consumption dcitci diss. ggregation, transformers, autoencoders, diffusion models
1. Введение
Одна из основных задач повышения энергоэффективности в современном обществе связана с необходимостью мониторинга и учета энергопотребления в домашних хозяйствах и на промышленных объектах. Обычно для этой цели используются счетчики, которые автоматически передают данные об объемах потреблении ресурсов в специализированные центры обработки информации. Эта информация используется для расчета и выставления счетов за использованные ресурсы, однако ее ценность заключается также в том, что в случае адекватного анализа данных можно сформировать достаточно точную модель поведения потребителя и предложить рекомендации по оптимизации использования энергии.
Стремление к минимизации затрат энергии на проведение мониторинга, к снижению нагрузки на каналы передачи данных, при одновременном обеспечении возможности управления уровнем детализации данных, повышении системной безопасности и упрощении работы счетчиков привело, в частности, к разработке технологии Smart Monitoring [1].
Одной из ключевых задач, требующих решения при построении моделей потребителей, является задача выделения данных об энергопотреблении отдельных устройств на основе
© Атаян А. А., Титов Д. Ю., Логинов В. Н., 2023
(с) Федеральное государственное автономное образовательное учреждение высшего образования
«Московский физико-технический институт (национальный исследовательский университет)», 2023
информации, полученной от единственного счетчика, который измеряет общее энергопотребление всех устройств на объекте. Эта задача называется неинвазивным мониторингом нагрузки (XII.М) и широко обсуждается в научной литературе.
Наборы данных для задач XII.М. опубликованные в общем доступе, обычно содержат данные о совокупной потребляемой мощности электроприборов домохозяйства, а также информацию о потреблении отдельных приборов. Поэтому задача регрессии формулируется как прогнозирование потребления мощности отдельным устройством по суммарной нагрузке. Данные для задач XII.М. как правило, не содержат информацию о состоянии прибора, однако эту информацию можно извлечь из временного ряда и в дальнейшем решать задачу классификации, которая будет заключаться в этом случае в определении статуса прибора.
Успехи применения искусственных нейронных сетей в задачах обработки изображений, аудио и естественного языка подталкивают к проведению исследований в направлении их применения для решения задачи дезагрегации энергии. В связи с этим в данной работе представлены результаты выполненного авторами обзора и анализа современных подходов и нейросетевых архитектур применительно к задаче дезагрегации данных об энергопотреблении, выделены их преимущества и недостатки.
Также в ходе исследования с целью получения объективных оценок эффективности сравниваемых подходов и архитектур были проведены численные эксперименты, результаты которых представлены в данной работе, а также даны рекомендации по подбору гиперпараметров нейросетевых моделей.
2. Постановка задачи
В классической постановке задачи NILM в момент времени t общая совокупная потребляемая мощность определяется следующим образом:
L
pt = Е pt+ 1=1
где L - общее количество приборов в домохозяйстве, Р/ - мощность ¿-го прибора, а et — это некоторая неопределенная остаточная нагрузка. На вход нейронной сети обычно поступает некоторое конечное количество последовательных измерений в количестве п штук:
Pi = (рз, 1 >рз,2,. ..рз,п),
где j - это индекс сегмента поеледовательнтети. По этому временному ряду нейронная сеть предсказывает последовательность (Pljt1, Р]>2,... Р]^ в случае, если речь идет о задаче регрессии. Для задачи классификации мы предполагаем, что в момент времени t устройство I может находиться в одном из двух состояний: s{ = 0 (состояние ВЫКЛ) или же s{ = 1 (состояние ВКЛ). Тогда по данным совокупной мощности модель нейронной сети предсказывает оценку этого статуса st- Важно отметить, что часто исследователи ограничиваются предсказанием двух статусов, т.к. работа с приборами, которые могут находиться в большем количестве состояний, осложнена.
В качестве целевых метрик обычно используются широко применяемые метрики для задачи регрессии, такие как МАЕ и MRE, а также метрики бинарной классификации, среди которых отметим классические Accuracy и Fi-меру.
Таким образом, для обработки данных NILM, которые в целом представляют собой просто набор временных рядов, применимы классические нейросетевые модели на основе RNN и CNN. С другой стороны, в последнее время для задачи дезагрегации было предложено сразу несколько современных нейросетевых архитектур, заимствованных из других областей. К сожалению, в соответствующих работах предложенные подходы не всегда сравниваются друг с другом. Важным оказывается понимание особенностей каждой из современных архитектур.
В следующем разделе рассматриваются работы, которые посвящены как классическим нейросетевым моделям для задачи дезагрегации на основе рекуррентных и сверточных сетей, так и более продвинутым моделям: на основе архитектуры трансформер, вариационных автоэнкодеров и диффузионных моделей, производится сравнение описанных моделей с помощью численного эксперимента на общеизвестных наборах данных, а также оценивается важность процедуры подбора гиперпараметров.
3. Нейросетевые модели для задач NILM
3.1. NeuralNILM
Работу [3] можно считать одной из первых, которая посвящена именно нейросетевому подходу для задачи дезагрегации. В данной статье авторы исследуют несколько классических типов нейронных сетей. В работе рассмотрены архитектуры на основе рекуррентных нейронных сетей, а именно LSTM, а также одномерных или временных сверток ConvlD, которые хорошо себя показали в задачах обработки различных последовательностей и сигналов. Авторы использовали двухслойную и двунаправленную ячейку LSTM, а также в статье был рассмотрен широко используемый датасет UK-DALE [1]. Набор данных включает в себя измерения для пяти домохозяйств. Авторы использовали данные пяти приборов: Kettle, Fridge, Washing machine, Microwave, Dish washer. Для тестирования брались измерения из отложенного дома. Хочется отметить, что в работе также предложили методы для получения синтетических данных, которые затем применялись для обучения. По словам авторов, такой подход можно рассматривать как некоторую регуляризацию.
Каждая нейронная сеть обучалась на свой прибор, размерность входных данных так же менялась в зависимости от устройства. Так, например, для чайника бралось 128 измерений, а для посудомечной машины — 1536. Отметим, что такой подход осложняет применение модели в реальной жизни. Однако авторы замечают, что использование одинакового окна большого размера плохо сказывается на целевых метриках для приборов, предназначенных для кратковременного применения.
3.2. Трансформерные модели
Для задач обработки естественного языка широко используемыми решениями являются нейросетевые модели на основе архитектуры трансформер. Эта архитектура впервые введена в 2017 г. в статье [4] и в целом предназначена для обработки последовательностей. Ключевой особенностью архитектуры является применение механизма Multi-Head Self Attention. Изначально модель задумывалась для решения seq2seq задач и состояла из двух частей: энкодера и декодера. При этом сегодня активно используют как полноценную архитектуру, так и энкодер или декодер по отдельности.
BERT4NILM
В статье [5] авторы предлагают воспользоваться моделью BERT (англ. Bidirectional Encoder Représentations from Transformers) для задачи дезагрегации энергии. Модели на основе энкодера трансформера активно применяются в задачах обработки естественного языка. В работе предлагают использовать успешный опыт обучения таких моделей и применить их для задач NILM. Предложенная архитектура имеет ряд особенностей, среди которых можно отметить следующие:
1) Использование одномерных сверток для получения векторного представления или эмбеддинга очередного измерения.
2) Оптимизация нетривиальной функции потерь, которая представлена в формуле
г=1 Т
+
Т
(1)
где ж, ж £ [0,1] — предсказанное и истинное значение энергии, 's, s - оценка статуса и сам статус, полученный методом из [6], Dkl — расхождение Кульбака — Лейблера, softmax — многопеременная логистическая функция. Рассматривая предложенную функцию потерь более подробно, можно отметить следующие составляющие:
• Привычный MSE между предсказанным и истинным значением потребления электроэнергии.
• Так называемый margin loss для более точного предсказания статуса.
• KL — дивергенцию для распределений, полученных после применения softmax с низкой температурой для потребления, чтобы лучше учитывать редко используемые при-
• МАЕ для множества меток О, где истинный статус прибора определен как включен или предсказан моделью неверно.
При этом хочется отметить, что авторы не проводят исследование, направленное на изучение влияния каждой из компонент целевой функции потерь, а значит, сложно говорить о необходимости дополнительных слагаемых.
Авторы остановились на достаточно простой модели, в которой всего два трансформер-ных блока и две головы механизма внимания. Гиперпараметры архитектуры не подбирались. Важно отметить использование процедуры предварительного обучения или претрей-нинга на задачу предсказания замаскированного наблюдения аналогично задачи MLM [7].
В качестве наборов данных использовался ранее упомнятый датасет UK-DALE, а также REDD. Для REDD брались низкочастотные данные и четыре прибора: холодильник, стиральная машина и сушилка, микроволновая печь и посудомоечная машина. Для UK-DALE дополнительно еще и чайник. На вход поступали последовательности длины 480, сделана процедура ресемплинга через каждые шесть секунд. В качестве целевых метрик применялись ранее упомянутые МАЕ и MRE для регрессии, а также Accuracy и Fi-мера для классификации.
ELECTRIcity
Работа в некоторой степени является продолжением статьи с BERT4NILM. В ней также авторами используются некоторые идеи из области обработки естественного языка. Предложенная модель ELECTRIcity архитектурно представляет собой модель BERT4NILM, которая применяется для обработки входного сигнала. Основное нововведение — это предложенная схема обучения из двух этапов, которая в свою очередь напоминает подход из статьи [8]:
1) На этапе предварительного обучения обучаются две модели, называемые генератором и дискриминатором. Генератор принимает на вход частино испорченный случайным шумом сигнал и предсказывает исходный. Дескриминатор же по сигналу от генератора пытается предсказать, какая часть полученных входных данных принадлежит исходному сигналу, а какая является оценкой от генератора.
боры.
2) На втором этапе остается модель дескриминатора, которая инициализируется весами модели первого этапа, после чего нейросеть обучается по классической схеме предсказывать сигнал интересующего прибора.
Функции потерь генератора и дескриминатора выглядят соотвественно следующим образом:
£gen = ^ ^ (xi - х)2 + Dkl(softmax i || softmax (X) j , (2)
i=1 \ \ / /
-gen _
X i=1
N
¿disc = -N l°gPi + (1 -mi)log(l - Pi)) , (3)
N
i=i
где mi — маска, pi — предсказания для измерения г, было оно замаскировано или нет. В качестве наборов данных использовали UK-DALE [1], REDD [9] и Refit [10].
3.3. Диффузионные модели и вариационный автоэнкодер
Диффузионные модели — это вероятностные генеративные модели, в основе которых лежат процессы прямой и обратной диффузии. Прямой процесс зашумления итеративно добавляет шум к исходном данным, а обратный процесс, который обычно моделируется нейросетью, постепенно удаляет шум, добавленный в прямом процессе. Такой подход позволяет генерировать новые данные из исходного распределения.
Применительно к задаче дезагрегации авторы статьи [11] предлагают моделировать обратный процесс с помощью нейросети, обуславливаясь не только на агрегированный сигнал, но и на закодированные специальным образом временные метки. Схема работы модели предсталвена на рис. 1.
The reverse process
Рис. 1. Диффузионная модель
В итоге нейросеть с помощью процесса диффузии способна восстанавливать значение целевого сигнала для прибора по агрегированному сигналу. Из особенностей архитектуры нейросети, которая предсказывает целевой шум, тем самым моделируя обратный процесс, хочется отметить:
• наличие Bi-directional Dilated Convolution;
• SiLU-функции активации;
• синусоидальные эмбеддинги для кодирования временных меток из архитектуры трансформер.
Процесс обучения при этом полностью повторяет процедуру обучению классических диффузионных моделей.
4. VAE
Возможность обобщения методов дезагрегации энергии на разные дома, а также дезагрегирование приборов с несколькими состояниями по-прежнему остаются серьезными проблемами. В статье [12] рассматриваются эти проблемы и предлагается подход энергетической дезагрегации, основанный на структуре вариационных автоэнкодеров.
Вся сеть состоит из двух компонентов: энкодер извлекает соответствующую информацию о целевом устройстве из совокупного сигнала х в скрытое пространство z, а декодер реконструирует только сигнал мощности целевого устройства из z.
Входными данными модели являются последовательности извлеченной совокупной мощности, содержащие Т временных шагов. Последовательности получаются с использованием скользящего окна.
Предлагаемая сетевая архитектура состоит из IBN-сетей. Архитектура подсети IBN-Net сочетает в себе batch и instance нормализацию. Batch нормализация экземпляров на мелких уровнях сети улучшает производительность обобщения, что остается одним из слабых мест многих подходов NILM. IBN-Net состоит из трех последовательных слоев свертки в сочетании с batch нормализацией и функцией активации ReLU. Residual connection соединяет входные данные IBN-Net со слоем instance нормализации, чтобы облегчить поток градиента через всю модель во время обучения, а также предотвратить проблему исчезновения градиента. Архитектура энкодера состоит из семи IBN-сетей, за каждой из которых следует max-pooling слой для уменьшения временной размерности. Это стимулирует изучение признаков высокого уровня, описывающих целевое устройство. Архитектура декодера аналогична архитектуре кодера. Он состоит из семи сетей IBN, за которыми следуют слои деконволюции (обратной свертки) для постепенного увеличения временной размерности и восстановления сигнала целевого устройства. Объединение происходит посредством skip connections выхода соответствующей IBN-Net от кодера к декодеру.
Предложенная модель с использованием VAE сравнивается с современными подходами NILM на наборах данных UK-DALE и REFIT и дает конкурентоспособные результаты. Средняя абсолютная погрешность снижается в среднем на 18% для всех приборов по сравнению с современными устройствами. Показатель F1 увеличивается более чем на 11 %, демонстрируя улучшение обнаружения целевого устройства в совокупных измерениях.
5. Эксперименты
Несмотря на кажущееся разнообразие данных NILM, почти во всех работах используется повторяющийся набор классических датасетов: UK-DALE, REDD, REFIT.
Набор данных UK-DALE содержит данные из пяти домов в Соединенном Королевстве и включает в себя сигналы для приборов, записанные каждые шесть секунд, а также сигнал общего потребления домохозяйства на уровне вплоть до 16 kHz. Для валиданной выборки использовались данные с домохозяйства под номером 1, а для тестовой - номером 2. Набор данных REDD также содержит данные шести домохозяйств,
Предобработка данных включается в себя ресэмплинг по шесть секунд, применение forward filling для заполнения отсутствующих данных короче трех минут, а также стандартизацию входного сигнала путем вычитания среднего и деления на стандартное отклонение. Для определения статуса использовались значения из работы [6]. В каком состоянии находится устройство, является установление порога А(1) для каждого прибора, то есть
где I(х > а) — индикаторная функция.
В качестве целевых метрик брались МАЕ, МИЕ для регрессии, а также ^-мера для классификации.
Как было сказано ранее, авторы [5] использовали небольшое количество слоев энкодера и голов внимания, гиперпараметры модели не подбирались. Однако их подбор может
(4)
заметно сказаться на качестве получаемых моделей. В данной работе используется библиотека ОрШпа [3] для подбора гиперпараметров модели ВКНТ 1X11.М. В табл. 1 указаны рассматриваемые гипепараметры и применяемое распределение. Качество оценивалось на валидационной части выборки.
Таблица!
Доля маек, измерений [0.05; 0.45]
Кол-во слоев [1;8]
Кол-во голов [1;8]
Скрытая размерность [32; 768]
Dropout [0.05 - 0.4]
Модели LSTM, CNN брались из [2], [5]. В табл. 2 представлены результаты проведенного эксперимента для набора данных REDD.
Таблица2
Прибор Модель MAE MRE Fi-мера
LSTM 35.73 0.023 0.389
CNN 36.12 0.020 0.257
BERT4NILM 34.96 0.021 0.559
Waching Machine BERT4-NILM Optuna 30.04 0.022 0.570
ELECTRIcitv 23.07 0.016 0.603
DiffNILM 26.44 0.019 0.569
VAE-NILM 24.85 0.017 0.581
LSTM 18.47 0.058 0.306
CNN 17.79 0.060 0.368
BERT4NILM 16.97 0.055 0.474
Microwave BERT4-NILM Optuna 16.88 0.055 0.489
ELECTRIcitv 16.41 0.057 0.610
DiffNILM 17.13 0.057 0.430
VAE-NILM 16.39 0.056 0.395
LSTM 25.10 0.056 0.423
CNN 25.28 0.049 0.278
BERT4NILM 19.87 0.038 0.580
Dishwasher BERT4-NILM Optuna 20.07 0.043 0.561
ELECTRIcitv 24.06 0.051 0.601
DiffNILM 18.16 0.037 0.593
VAE-NILM 19.15 0.041 0.833
В табл. 3 приведениы результаты экспериметов для набора данных UK-DALE.
По результатам экспериментов можно сделать несколько выводов. Последние предложенные модели действительно улучшают результат, но очень часто заимствуют идеи из других областей. Не всегда по экспериментам понятно, насколько критичны предложенные улучшения.
6. Заключение
В статье был представлен обзор возможных нейросетевых подходов и архитектур к решению задачи дезагрегации энергии. Было показано, что грамотный подбор гиперпараметров позволяет улучшить целевые метрики, и поэтому в ходе дальнейших исследований важно уделить этому вопросу должное внимание.
ТаблицаЗ
Прибор Модель MAE MRE Fi-мера
LSTM 14.89 0.084 0.218
CNN 12.34 0.067 0.221
BERT4NILM 6.17 0.040 0.325
Wacher Machine BERT4-NILM Optuna 6.89 0.053 0.313
ELECTRIcitv 3.65 0.011 0.518
DifTNILM 5.74 0.058 0.390
VAE-NILM 4.44 0.037 0.412
LSTM 12.18 0.004 0.817
CNN 11.76 0.004 0.868
BERT4NILM 9.80 0.003 0.912
Kettle BERT4-NILM Optuna 8.86 0.003 0.923
ELECTRIcitv 9.26 0.003 0.939
DifTNILM 7.59 0.002 0.938
VAE-NILM 6.53 0.003 0.940
LSTM 32.16 0.797 0.673
CNN 29.29 0.758 0.687
BERT4NILM 20.17 0.683 0.859
Fridge/Refrigerator BERT4-NILM Optuna 19.79 0.664 0.867
ELECTRIcitv 22.61 0.706 0.843
DifTNILM 22.82 0.699 0.857
VAE-NILM 21.59 0.685 0.841
Кроме того, в дальнейшем целесообразно сосредоточиться на разработке нейросетевых моделей, не привязанных жестко к типу прибора, а являющихся универсальными для различных энергопотребителей, а также на разработке и анализе нейросетевых моделей для асинхронных систем мониторинга типа SmartMonitoring, структура временных рядов в которых принципиально отличается от аналогичной структуры синхронных систем.
Список литературы
1. Логинов В.Н., Бычковский И.А., Сурнов Г. С., Сурнов С.И. Smart Monitoring - технология дистанционного мониторинга потребления электроэнергии, воды, тепловой энергии и газа в Smart City // Труды МФТИ. 2020. Т. 12, № 1. С. 90-99.
2. Атаян А.А., Титов Д.Ю., Логинов В.Н. О построении нейронных сетей для решения задачи дезагрегации данных о потреблении электроэнергии в домохозяийствах // Труды МФТИ. 2023. Т. 15, № 2. С. 6-12.
3. Takuya A., Shotaro S., Toshihiko Y., Takeru О., Masanori К. Optuna: A Next-generation Hvperparameter Optimization Framework. 2019.
4. Kelly J., Knottenbelt W. The UK-DALE dataset, domestic appliance-level electricity demand from five uk homes. 2015.
5. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. Attention Is All You Need. 2017.
6. Yue Z., Jorde D., Witzig C., Jacobsen H. BERT4NILM: A Bidirectional Transformer Model for Non-Intrusive Load Monitoring. 2020.
7. Sinha K., Jia R., Hupkes D., Pineau J., Williams A., Kiela D. Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little. 2021.
8. Sykiotis S., Kaselimi M., Witzig C., Doulamis A., Doulamis N. ELECTRIcitv: An Efficient Transformer for Non-Intrusive Load Monitoring. 2022.
9. Kolter Z., Johnson J. REDD: A Public Data Set for Energy Disaggregation Research. 2015.
10. Murray, D., Stankovic, L. REFIT: Electrical Load Measurements. 2016.
11. Sun R., Dong K., Zhao J. DiffNILM: A Novel Framework for Non-Intrusive Load Monitoring Based on the Conditional Diffusion Model. 2023.
12. Langevin A., Carbonneau M., Cheriet M., Gagnon G. Energy disaggregation using variational autoencoders. 2021.
13. Kejuiu /J., KHommeH6eAt>m Y. Neural nilm: Deep neural networks applied to energy disaggregation. 2015.
References
1. Loginov V.N., Bychkovskiy I.A., Surnov G.S.,Su,rnov S.I. Smart Monitoring technology for the remote monitoring of power, gas, water and thermal energy consumption in Smart City. Proceedings of MIPT. 2020. V. 12, № 1. P. 90-99.
2. Ataian A.A., Titov D.Y., loginov V.N. On construction of neural networks for solving the problem of data disaggregation on electricity consumption in households. Proceedings of MIPT. 2023. V. 15, № 2. P. 6-12.
3. Takuya A., Shotaro S., Toshihiko Y., Takeru O., Masanori K. Optuna: A Next-generation Hvperparameter Optimization Framework. 2019.
4. Kelly J., Knottenbelt W. The UK-DALE dataset, domestic appliance-level electricity demand from five uk homes. 2015.
5. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. Attention Is All You Need. 2017.
6. Yue Z., Jorde D., Witzig C., Jacobsen H. BERT4NILM: A Bidirectional Transformer Model for Non-Intrusive Load Monitoring. 2020.
7. Sinha K., Jia R., Hupkes D., Pineau J., Williams A., Kiela D. Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little. 2021.
8. Sykiotis S., Kaselimi M., Witzig C., Doulamis A., Doulamis N. ELECTRIcitv: An Efficient Transformer for Non-Intrusive Load Monitoring. 2022.
9. Kolter Z., Johnson J. REDD: A Public Data Set for Energy Disaggregation Research. 2015.
10. Murray, D., Stankovic, L. REFIT: Electrical Load Measurements. 2016.
11. Sun R., Dong K., Zhao J. DiffNILM: A Novel Framework for Non-Intrusive Load Monitoring Based on the Conditional Diffusion Model. 2023.
12. Langevin A., Carbonneau M., Cheriet M., Gagnon G. Energy disaggregation using variational autoencoders. 2021.
13. Kejuiu /J., KHommenSeAbm Y. Neural nilm: Deep neural networks applied to energy disaggregation. 2015.
Поступим в редакцию 28.10.2023