Научная статья на тему 'РЕШЕНИЕ ПРОБЛЕМ РЕДУКЦИИ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ КОММЕРЧЕСКОГО УЧЁТА ПОТРЕБЛЕНИЯ ТЕПЛОВОЙ ЭНЕРГИИ ДЛЯ СОЗДАНИЯ РОБАСТНОЙ МОДЕЛИ'

РЕШЕНИЕ ПРОБЛЕМ РЕДУКЦИИ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ КОММЕРЧЕСКОГО УЧЁТА ПОТРЕБЛЕНИЯ ТЕПЛОВОЙ ЭНЕРГИИ ДЛЯ СОЗДАНИЯ РОБАСТНОЙ МОДЕЛИ Текст научной статьи по специальности «Строительство и архитектура»

CC BY
44
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГИСТОГРАММНАЯ ОЦЕНКА / ЭНЕРГОСБЕРЕЖЕНИЕ / МОДЕЛЬ ТЕПЛОПОТРЕБЛЕНИЯ / КЛАСС ЭНЕРГОЭФФЕКТИВНОСТИ / ВРЕМЕННОЙ РЯД

Аннотация научной статьи по строительству и архитектуре, автор научной работы — Стукач Олег Владимирович, Зорин Павел Александрович, Чашкин Леонид Борисович, Семенюк Александр Вадимович

Одной из тенденций развития современного городского хозяйства является энергосбережение. В жилых домах, потребляется более 40 % энергоресурсов, а большая часть расходуемой энергии используется для отопления. Актуальной проблемой является повышение энергоэффективности жилых многоэтажных зданий, что связано с уменьшением теплопотерь и организацией регулирования подачи тепловой энергии в зависимости от погодных условий. Построение модели такого регулирования представляет коммерческий и академический интерес, но проблемная ситуация в моделировании зачастую связана с качественным сбором данных: они содержат ошибки, данные не стратифицируются с учётом схемы теплоснабжения, а объём ежесуточных данных не позволяет создать модель минимального порядка, которая должна быть робастной, но правильно отражать динамику изменения теплопотребления от температуры наружного воздуха. В статье предложены подходы к преобразованию данных, которые могут быть использованы для построения робастной модели теплопотребления минимального порядка. Они основаны на спектральном анализе и гистограммных оценках статистического распределения данных, взятых за большой период времени. Найден способ сравнения домов с разными схемами теплопотребления, рассчитано среднее значение потребления ГВС и показано, что возможна стратификация данных при совместном учёте горячего водоснабжения и отопления. В результате спектрального анализа рядов теплопотребления обнаружено, что погодозависимость в основном определяется первыми десяти низкочастотными гармоническими составляющими рядов теплопотребления. Предложен алгоритм редукции рядов, что делает возможным построение робастной модели потребления тепла в размерах всего города.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по строительству и архитектуре , автор научной работы — Стукач Олег Владимирович, Зорин Павел Александрович, Чашкин Леонид Борисович, Семенюк Александр Вадимович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REDUCTION OF DATASET IN THE AUTOMATED SYSTEMS FOR COMMERCIAL METERING OF THE THERMAL ENERGY CONSUMPTION TO CREATE A ROBUST MODEL

Energy saving is one of the trends in the development of modern urban economics. More than 40% of energy resources are consumed in residential buildings, and most of the consumed energy is used for heating. An urgent problem is increasing the energy efficiency of residential multi-floor buildings. It is associated with a decrease in heat loss and regulation of the heat energy supply depending on weather conditions. The design of the regulation model is in a framework of commercial and academic interest. Nevertheless, situation in modeling is often associated with high-quality data mining: it contains errors, the data are not stratified by concerning the heat supply scheme, and the size of daily data does not allow to create a model of the minimum order that should be robust but correctly reflect the dynamics of changes in heat consumption from the outside temperature. We propose approaches to data transformation that can be used to carry out a robust model of minimum order heat consumption based on spectral analysis and histogram estimates of the statistical distribution of data collected for a long time. The method for comparison houses with different heat consumption schemes was found. The average value of hot water consumption was calculated, and it was shown that data stratification is possible with the combined accounting of hot water supply and heating. As a result of the spectral analysis of the heat consumption series, it was found that the weather dependence is mainly determined by the first ten low-frequency harmonics of the heat consumption series. An algorithm for the reduction of rows is proposed. It makes it possible to design a robust model of heat consumption in all city dimension.

Текст научной работы на тему «РЕШЕНИЕ ПРОБЛЕМ РЕДУКЦИИ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ КОММЕРЧЕСКОГО УЧЁТА ПОТРЕБЛЕНИЯ ТЕПЛОВОЙ ЭНЕРГИИ ДЛЯ СОЗДАНИЯ РОБАСТНОЙ МОДЕЛИ»

Решение проблем редукции данных в автоматизированных системах коммерческого учёта потребления тепловой энергии для создания робастной

модели

О.В. Стукач, П.А. Зорин, Л.Б. Чашкин, А.В. Семенюк

Национальный исследовательский университет "Высшая школа экономики ", Москва,

Россия

Новосибирский государственный технический университет, Новосибирск, Россия

ООО "ЦСО", Томск, Россия

Аннотация: Одной из тенденций развития современного городского хозяйства является энергосбережение. В жилых домах, потребляется более 40 % энергоресурсов, а большая часть расходуемой энергии используется для отопления. Актуальной проблемой является повышение энергоэффективности жилых многоэтажных зданий, что связано с уменьшением теплопотерь и организацией регулирования подачи тепловой энергии в зависимости от погодных условий. Построение модели такого регулирования представляет коммерческий и академический интерес, но проблемная ситуация в моделировании зачастую связана с качественным сбором данных: они содержат ошибки, данные не стратифицируются с учётом схемы теплоснабжения, а объём ежесуточных данных не позволяет создать модель минимального порядка, которая должна быть робастной, но правильно отражать динамику изменения теплопотребления от температуры наружного воздуха. В статье предложены подходы к преобразованию данных, которые могут быть использованы для построения робастной модели теплопотребления минимального порядка. Они основаны на спектральном анализе и гистограммных оценках статистического распределения данных, взятых за большой период времени. Найден способ сравнения домов с разными схемами теплопотребления, рассчитано среднее значение потребления ГВС и показано, что возможна стратификация данных при совместном учёте горячего водоснабжения и отопления. В результате спектрального анализа рядов теплопотребления обнаружено, что погодозависимость в основном определяется первыми десяти низкочастотными гармоническими составляющими рядов теплопотребления. Предложен алгоритм редукции рядов, что делает возможным построение робастной модели потребления тепла в размерах всего города.

Ключевые слова: гистограммная оценка, энергосбережение, модель теплопотребления, класс энергоэффективности, временной ряд.

Введение

Энергосбережение постепенно приобретает важное значение в жилищно-коммунальном хозяйстве городов, хотя в экономии тепловой энергии в большей степени заинтересованы сами жители многоэтажных домов, чем ресурсоснабжающие организации. Для организации системы мер по энергосбережению и выработки управленческих решений очень важно иметь простую модель, которая даёт понимание, как потребление тепловой энергии зависит от характеристик жилых зданий, их общего состояния и, конечно, от погодных условий (температуры наружного воздуха и ветра). Ресурсоснабжающие и сервисные организации ведут учёт потребления тепловой энергии в каждом доме, но статистический анализ таких данных в масштабах всего города или его части кроме авторов никто не проводил [1]. Тем более нет модели потребления тепловой энергии в городских масштабах. В работе [2] приведены статистические данные по затратам на теплопотребление по Европейским странам, но Россия вообще не упоминается ввиду отсутствия надёжных данных. России в статье [3] по распределению удельного расхода

энергии в жилых зданиях отведено предпоследнее место.

Для построения некоторой робастной статистической модели необходимо иметь набор данных, учитывающий основную динамику теплопотребления, но свободный от факторов, не оказывающих существенного влияния на рассматриваемые процессы. Рассмотрим два основных подхода, которые могут использоваться для решения поставленной задачи - спектральный анализ рядов теплопо-требления и гистограммную стратификацию.

Исходной информацией для исследования являются данные протоколов коммерческого учёта тепловой энергии в г. Томске, опубликованные в IEEE Dataport [4-5]. Информация о характеристиках домов взята с сайта "Реформа ЖКХ" https://www.reformagkh.ru.

Спектральный анализ данных

Программа анализа написана на языке Python 3.8 и содержит блоки инициализации, импорта библиотек, чтения базы, спектрального анализа и графического представления информации (Приложение 1).

Для всех содержащихся в наборе данных домов были взяты значения наружной температуры и ежесуточные записи с устройств сбора и передачи данных (УСПД), математически представляющие собой временные ряды. Каждый ряд q нормализовывался по формуле Qнopм = (4 - 4")/ 5, где # - среднее

арифметическое значение членов ряда, 5 -среднеквадратическое отклонение (СКО). Над рядом теплопотребления проводилось прямое быстрое преобразование Фурье и создавался модельный ряд, в который последовательно включались гармоники, начиная с самой низкочастотной. В качестве примера приведём графики исходного и модельного рядов, температуры наружного воздуха для УСПД 1529 (рис. 1 - ул. Бела Куна, 12, г. Томск) и 3066 (рис. 2 - ул. Смирнова, 21, г. Томск).

Рис. 1. Пример нормализованных исходного и модельного рядов для УСПД 1529

Рис. 3. СКО ст в зависимости от количества включаемых гармоник для УСПД 1529

Рис. 2. Пример нормализованных исходного и модельного рядов для УСПД 3066

Рис. 4. СКО ст в зависимости от количества включаемых гармоник для УСПД 3066

Для всех УСПД, как в примерах на рис. 3, 4 проявляется точка перегиба, то есть минимальное количество гармоник, которое необходимо и достаточно для воспроизведения исходного ряда для функции теплопотребления с достаточной для моделирования точностью. Это значение практически всегда равно 10-12, и на рис. 1, 2 показаны модельные ряды для восстановленных по первым десяти гармоникам рядов.

Теорема Котельникова позволяет рассчитать минимальное количество отсчётов в восстановленных по гармоникам рядах, определив верхнюю частоту гармоники с наибольшим номером. Установлено, что для получения модельного ряда достаточно не более сотни отсчётов.

Стратификация данных в открытой

СХЕМЕ ТЕПЛОПОТРЕБЛЕНИЯ

Для каждой гармоники, включаемой в общую сумму, рассчитывалось СКО разности исходного и синтезированного по гармоникам

ряда по формуле

1

n i=1

=J1X (е, - * )2, где n -

количество отсчётов, ^ - 1-й отсчёт исходного

ряда, х - '-й отсчёт синтезированного по гармоникам ряда (рис. 3, 4).

При построении модели важен корректный учёт схемы теплоснабжения. В открытой схеме расход теплоносителя на горячее водоснабжение (ГВС) учитывается совместно с отоплением, что делает неточными расчёты по энергоэффективности: потребление горячей воды не зависит от теплопотребления дома. Открытая схема отопления усложняет статистический анализ и вносит дополнительную неопределённость, так как напрямую не позволяет сравнить динамику

теплопотребления домов, вызванную одним лишь расходом теплоносителя на нужды отопления. Полностью отказаться от данных, где схема открытая, не позволяет их объём: большинство домов в базе именно с открытой схемой.

«По России нет систематизированных данных по потреблению горячей воды на объектах сферы услуг» [3]. Для разделения отопления и ГВС предположим, что на одинаковой площади живёт в среднем примерно одинаковое число человек, и каждый из них в среднем тратит одинаковое количество горячей воды. На ГВС действует много случайных факторов, оно подпадает под условие центральной предельной теоремы с приближённо нормальным законом

распределения вероятностей. Следовательно, если построить функции распределения теплопотребления раздельно для закрытой и открытой схемы, а затем убрать из распределения для открытой схемы распределение для закрытой схемы, мы получим распределение потребления ГВС. Рассчитав среднее значение данного распределения, и убрав его из данных для открытой схемы, получаем исправленные значения ГВС.

Аналогичный подход использовал математик С. Шпилькин, исследуя проблему

фальсификации выборов по данным электоральной статистики [6, 7]. Его подход заключается в том, что он строит распределение избирательных участков по явке. В честных выборах это должно быть практически нормальное распределение. Всякая

фальсификация приводит к подъёму правого хвоста в распределении и появлению «пилы Чурова», то есть преобладания «круглых» значений явки, нацело делящихся на пять.

Для оценки объема потребления горячей воды на человека из набора данных [5] были выбраны все дома с закрытой схемой теплоснабжения и близкие к ним по площади и количеству жителей дома с открытой схемой (Приложение 2). Затем была построена функция распределения теплопотребления в зависимости от типа регистрации показаний (рис. 5), гистограммы теплопотребления без учёта ГВС (рис. 6) и с ГВС (рис. 7).

ГВС несколько размывает функцию распределения, в меньшей степени в диапазонах вероятностей [0; 0,1] и [0,95; 1]. Максимальная разница будет равна примерно 0,2.

Распределения на рис. 7 отчётливо имеют два максимума. Сравнение гистограмм по площади (см. рис. 8) и значимая интерпретация этого статистического подарка даёт основание считать, что распределение слева на рис. 7, 8 есть не что иное, как ГВС.

Empirical cumulative distribution functions

- Heating

- Heating + Hot water

0,2

/ г Отопление

// Отоппение+ГВС

Рис. 5. Функция распределения вероятностей для различного учёта теплопотребления

Рис. 6. Гистограмма теплопотребления для закрытой схемы теплоснабжения

Рис. 7. Гистограмма теплопотребления для открытой схемы теплоснабжения

Поскольку потребление горячей воды не зависит от теплопотребления дома, можно считать, что среднее значение для ГВС равно разности среднего значения для учитываемого одновременно значения отопления плюс ГВС и отопления, а дисперсия - соответственно разности квадратов этих величин.

Рис. 8. Сравнение гистограмм для рис. 6, 7

По расчёту потребление горячей воды составило в среднем 9,16 10-03 Гкал/чел с СКО 6,11 10-03 Гкал/чел. Большое значение СКО обусловлено предположением об одинаковости в среднем потребления ГВС одинаковым количеством жителей на одной и той же площади в домах с закрытой и открытой схемы теплоснабжения.

Заключение

Итак, вслед за авторами работы [8] отметим в заключение, что в проведённом исследовании «Автор прибегает к теоретическому уровню научного познания, который связан с преобладанием мыслительной деятельности, с осмыслением эмпирических материалов и их сравнением». Спектральный анализ реальных данных учёта теплопотребления показывает, что для построения феноменологической модели потребления тепловой энергии на нужды ГВС и отопления в масштабах города существует возможность значительного сокращения объёма данных, что достижимо при использовании только низкочастотных гармонических составляющих функции теплопотребления. Мыслительная деятельность в дальнейшем изучении вопроса о правомерности средних оценок учёта потребления ГВС будет определённым шагом к созданию поведенческой модели теплопотребления. Авторы считают интересным исследование статистических характеристик потребления тепловой энергии не только для датасета г. Томска, но и других городов и приглашают к совместной работе.

Благодарности

Работа выполнена по проектам МИЭМ ВШЭ 231, 526 (https://cabinet.miem.hse.ru/#/project/231, https://cabinet.miem.hse.ru/#/project/526). Авторы благодарят ООО «ЦСО» за предоставленные данные.

ЛИТЕРАТУРА

[1] Зорин П.А., Стукач О.В. Статистическое моделирование тепловых характеристик жилых домов на основе данных теплосчетчиков / Новые информационные технологии в исследовании

сложных структур: материалы Тринадцатой Межд. конф. ТГУ. Томск, 07-09 сентября 2020. -С. 11.

[2] Canale L., Dell'Isola M. et al. A comprehensive review on heat accounting and cost allocation in residential buildings in EU // Energy & Buildings. -2019. - Т. 202. - P. 109398.

[3] Башмаков И.А. Сравнение уровней энергоэффективности зданий в России и зарубежных странах [Электронный ресурс]. -Режим доступа: http://www.cenef.ru/file/ComparisonEEfBuilding.pdf (дата обращения: 12.04.21).

[4] Pavel Zorin, Oleg Stukach, "Data of heating meters from residential buildings in Tomsk (Russia) for statistical modeling of the thermal characteristics of buildings", IEEE Dataport, 2020. [Online]. Available: http://dx.doi.org/10.21227/3r4e-ch18.

[5] Oleg Stukach, Pavel Zorin. Long-Term Data from the Heat Meters in Residential Buildings Depending on the Outside Temperature and Characteristics of Buildings // IEEE Dataport. - April 13, 2021. - doi: 10.21227/cw53-rr81. - http://ieee-dataport.org/4034.

[6] Kobak D., Shpilkin S., Pshenichnikov M.S. Statistical anomalies in 2011-2012 Russian elections revealed by 2D correlation analysis // arXiv:1205.0741v2 [physics.soc-ph] 17 May 2012.

[7] Kobak D., Shpilkin S., Pshenichnikov M.S. Integer Percentages as Electoral Falsification Fingerprints // arXiv:1410.6059v4 [stat.AP] 29 Jun 2016.

[8] Коуркин С.В., Чулков В.О. Рациональный выбор ограждающих конструкций жилого строения, как киберфизических систем, по критерию энергоэффективности // Вестник Евразийской науки. - 2020. - № 5. - ISSN 2588-0101, https://esj.today/PDF/32SAVN520.pdf (свободн). -DOI: 10.15862/32SAVN520.

ПРИЛОЖЕНИЕ 1. Программа спектрального анализа данных теплопотребления

^Инициализация

Импорт библиотек и чтение базы данных из файла

import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy.fft import fft, ifft, fftfreq base = pd.read_csv('database.csv', sep=';', decimal=',')

%matplotlib inline def get_data(base, uspd):

#Получение данных о теплопотреблении с температурой из базы по USPD (УСПД -устройство сбора и передачи данных) base - база данных uspd - номер USPD vector = base['USPD'] == uspd base['Q'] = pd.to_numeric(base['Q']) base['temp'] = pd.to_numeric(base['temp']) return base[['Q', 'temp']][vector] def norm2(data):

#Нормализация ряда по формуле

Q = (q - q)/S,

data - ряд для нормализации

return (data - np.mean(data)) / np.std(data) def sko_furie(data, n, uspd, point = None):

#Прямое быстрое преобразование Фурье Построение графика СКО n - максимальное количество гармоник

y = np.array(norm2(data)) #ряд

yf = list(fft(y)) #частоты, полученные из

БПФ

std = [] #Среднеквадратичные отклонения для каждого числа отсчётов

for i in range(1, n + 1): #В цикле поочерёдно берём первые i частот и считаем СКО

yff = np.array(yf[:])

yff[i:len(yff) - i] = 0 + 0j #Обнуление частот std.append(np.std(y - np.real(ifft(yff)))) #СКО fig, ax = plt.subplots() #Построение графика

ax.plot(np.arange(1, len(std) + 1), std) if point: #Установка точки перегиба ax.scatter(point, std[point-1], c='red', s=80) ax.tick_params(axis='both', which='major', labelsize=14)

ax.set_xlabel('Номер гармоники',

fontsize=14)

ax.set_ylabel('CKO', fontsize=14)

#Построение исходного и

восстановленного из БПФ графиков

:param base: база данных, которая имеет поля Date и Q (pd.DataFrame)

:param k: количество гармоник (int) :param uspd: номер USPD (int)

def furie_graph(base: pd.DataFrame, k: int, uspd: int) -> plt.Figure:

temps = norm2(np.array(base['temp'])) #Ряд температур

data = np.array(base['Q']) #Ряд теплопотребления

n = len(data) #длина ряда x = np.arange(1, n + 1) #номера отсчётов от 1 до n

y = np.array(norm2(data))

#нормированный ряд

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

#Построение графика fig, ax = plt.subplots()

ax.plot(x, y, label='Исходный ряд', c='blue') ax. set_xlabel('Oтсчёт', fontsize=14) ax.set_ylabel('Q (norm)', fontsize=14) ax.set_title(fГрафик Q для USPD {uspd} ({point} гармоник)', fontsize=14)

x1 = [] #Ряд с номерами отсчётов для сокращённого графика

y1 = [] #Сокращённый ряд теплопотребления

new_temps = [] #Сокращённый ряд температур

freqs = fftfreq(len(y), 1) #частоты

duration = int(1 / (8*freqs[k - 1])) #частота взятия отсчётов по т. Котельникова

max_j = ((len(y) - 1) // duration) * duration #максимальный номер отсчёта for j in range(len(y)):

#Берём данные каждые duration шагов и после максимального номера (остаток от деления на частоту взятия отсчётов)

if (j % duration == 0) or (j > max_j): new_temps. append(temps [j] ) y1.append(y[j]) x1.append(j) #Добавление сокращённого графика ax.plot(x1, y1, кЬеММодельный ряд', c='red')

procent = round(100*(len(y)-len(y1))/len(y), 2) #Расчёт процента сокращения размерности

ax.tick_params(axis='both', which='major', labelsize=14)

ax.text(0.2, -0.2, f{len(y)} -> {len(y1)} отсчётов (сокращение в {round(len(y)/len(y1), 2)} раз)', fontsize=14, transform=ax.transAxes) ax.legend(fontsize=12) #График с температурой fig, ax = plt.subplots()

ax.plot(x, y, label-Исходный ряд', c='blue') ax.plot(x1, y1, label='Модельный ряд', c='red')

ax.plot(x1, new_temps,

label-Температура', c='darkgreen')

ax. set_xlabel('Отсчёт', fontsize=14) ax.set_ylabel('Q (norm), T (norm)', fontsize=14)

ax.set_title(fГрафики Q и T для USPD {uspd} ({point} гармоник)', fontsize=14)

ax.tick_params(axis='both', which='major', labelsize=14)

ax.legend(fontsize=12)

uspd = 1529 #Номер USPD (1529 или

3066)

point = 10 #Точка перегиба sko_furie(get_data(base, uspd)['Q'], 30, uspd, point) #Расчёт СКО от количества взятых гармоник

furie_graph(get_data(base, uspd), point, uspd) #Графики теплопотребления и даты отсчётов

ПРИЛОЖЕНИЕ 2. Программа стратификации данных теплопотребления

Инициализация

Импорт библиотек и чтение базы данных из файла

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

import scipy.stats as stats

data = pd.read_csv('dataset_3_mod.csv', sep=';',

parse_dates=['Date'], decimal=',', encoding='cp1251') data.head()

def split(data, area_left_edge, width):

Функция разделяет измерения по типу регистрируемых данных в указанном площадном интервале и делит соответствующие измерения на количество жильцов в доме data: pandas DataFrame - исходные данные area_left_edge: float - левая граница площадного интервала

width: float - площадного интервала data_h: pandas Series - теплопотребление на человека домов, где регистрируется только отопление

data_hh: pandas Series - теплопотребление на человека домов, где регистрируется отопление и ГВС

data_h = data[(data['registrated'] == 'Heating') &

(data['area'] >= area_left_edge) & (data['area'] <= area_left_edge+width)]

data_h = data_h['Q'] / data_h['Number_of_inhabitants']

data_hh = data[(data['registrated'] == 'Heating + Hot water') & (data['area'] >= area_left_edge) & (data['area'] <= area_left_edge+width)]

data_hh = data_hh['Q'] / data_hh['Number_of_inhabitants'] return data_h, data_hh

# Расчёт мат. ожидания и СКО величины ГВС/чел

hh = data[data['registrated'] == 'Heating + Hot water']

hh = hh['Q'] / hh['Number_of_inhabitants'] h = data[data['registrated'] == 'Heating'] h = h['Q'] / h['Number_of_inhabitants'] pop_mean = hh.mean() - h.mean() pop_std = np.sqrt((hh. std()**2 - h.std()**2)) print(fПотребление горячей воды на человека\n' ГСреднее: {pop_mean:.2e} Гкал/чел\n' ГСКО: {pop_std:.2e} Гкал/чел')

#Разобьем генеральную совокупность имеющихся данных на выборки одинаковой площади: будем брать измерения для домов в интервалах с шагом 200 кв. м, разбивать по типу регистрируемых данных и считать статистики ГВС/чел аналогично тому, как считали для ген. совокупности

step = 200 start = 0 end = 19000 n = (end-start)//step sample_means = [] sample_stds = [] sample_sizes = []

for i in range(n):

data_h, data_hh = split(data, start+step*i, step) sample_size = min(len(data_hh), len(data_h)) if sample_size > 0:

sample_sizes.append(sample_size) data_h = data_h[:sample_size] data_hh = data_hh[:sample_size]

sample_means.append(data_hh.mean() -data_h.mean())

sample_stds.append(data_hh.std() -data_h.std())

#Построим 95%-e доверительные интервалы для величины ГВС/чел для каждой полученной выше выборки

intervais = []

for i in range(len(sample_sizes)): intervals.append(stats.t.interval( alpha=0.95, df=sample_sizes[i]-1, loc=sample_means[i], scale=pop_std))

plt.figure(figsize=(9, 9))

plt.hlines(xmin=0, xmax=len(sample_sizes), y=pop_mean, linewidth=2.0,

color="red", label='Population mean')

plt.errorbar(x=np.arange(0, len(sample_sizes), 1), y=sample_means,

yerr=[(top-bot)/2 for top, bot in intervals], fmt='o', label='95% condifence interval')

plt.xlabel('Number of interval', fontsize=12) plt.ylabel('Q, Gcal', fontsize=12) plt.legend(fontsize=12) plt.title('Доверительные интервалы для потребления горячей воды (на человека) \n для площадных интервалов с шагом 200') plt.show()

#Добавим в датасет новый столбец потребления тепла без учета ГВС: для показаний с типом измерения "Heating" он равен столбцу "Q" общего теплопотребления, а для показаний с типом измерения "Heating+Hot Water" он равен столбцу "Q" минус среднее значение ГВС/чел, рассчитанное ранее, умноженное на число жильцов в доме

data['Q_without_HW'] = np.where(data['registrated'] == 'Heating + Hot water', data['Q'] -

pop_mean*data['Number_of_inhabitants'],

data['Q'])

data.head()

#Визуализируем полученный результат: построим гистограммы теплопотребления без учета ГВС (по новому столбцу)

uspd_list = data['USPD'].drop_duplicates()

uspd_dict = {}

for uspd in uspd_list:

uspd_dict.update({uspd: len(data.loc[data['USPD'] == uspd].index)})

def hist_mod(data, area_left_edge, width):

#Эта функция разделяет измерения по типу регистрируемых данных в указанном интервале площадей, при этом делая количество измерений сравнимым. Строит гистограммы для обоих типов по столбцу пересчитанного

теплопотребления, строит сравнительный график для полученных гистограмм. data: pandas DataFrame - исходные данные area_left_edge: float - левая граница площадного интервала width: float - ширина площадного интервала

uspd_h = list(set(data[(data['registrated'] == 'Heating') & (data['area'] >= area_left_edge)

& (data['area'] <= area_left_edge+width)]['USPD']))

uspd_hh = list(set(data[(data['registrated'] == 'Heating + Hot water') & (data['area'] >= area_left_edge) & (data['area'] <= area_left_edge+width)]['USPD']))

# Делаем количество измерений разных типов сравнимым

uspd_hh.sort(key=lambda x: uspd_dict[x], reverse=True) readings_count = 0 new_uspd_hh = []

for uspd in uspd_hh:

if (readings_count > (stop := sum([uspd_dict[x] for x in uspd_h]))): break

new_uspd_hh.append(uspd) readings_count += uspd_dict[uspd] uspd_hh = new_uspd_hh

data_h =

data[data['USPD'].isin(uspd_h)]['Q_without_HW'] data_hh =

data[data['USPD'].isin(uspd_hh)]['Q_without_HW']

# Строим гистограммы bin_width = 0.2

n_bins_h = int(np.ceil((max(data_h) -min(data_h))/bin_width))

n_bins_hh = int(np.ceil((max(data_hh) -min(data_hh))/bin_width)) fig = plt.figure(figsize=(16, 14)) fig.suptitle( fArea in [{area_left_edge}, { area_left_edge+width}], bin_width= {bin_width}', y=0.925, fontsize=16)

ax1 = plt. subplot2grid(( 15, 2), (0, 0), rowspan=5) ax1.hist(data_h, bins=n_bins_h, color='olive', label='Heating', density=True, edgecolor='black')

ax1.legend(loc=1, fontsize=12) ax1.set_xlim(-0.5, 12.5) ax1.set_ylim(0, 0.8) ax1.set_xlabel('Q, Gcal', fontsize=14) ax1.set_ylabel('Probability density', fontsize=14) ax2 = plt. subplot2grid(( 15, 2), (0, 1), rowspan=5) ax2.hist(data_hh, bins=n_bins_hh,

color='crimson', label='Heating + Hot water w/o Hot water', density=True, edgecolor='black') ax2.legend(loc=1, fontsize=12) ax2.set_xlim(-10, 12.5) ax2.set_ylim(0, 0.8) ax2.set_xlabel('Q, Gcal', fontsize=14) ax2.set_ylabel('Probability density', fontsize=14)

# Строим сравнительный график для гистограмм

ax4 = plt.subplot2grid(( 15, 2), (8, 0), rowspan=7, colspan=2)

ax4.hist(data_h, bins=n_bins_h, label='Heating', density=True, alpha=1, color='olive', histtype='step')

ax4.hist(data_hh, bins=n_bins_hh, label='Heating + Hot water',

density=True, alpha=1, color='crimson', histtype='step') ax4.set_xlim(-10, 12.5) ax4.set_ylim(0, 0.8) ax4.set_title( ГРазница между гистограммами = {sum(data_hh)-sum(data_h):.2f}', fontsize=14) ax4.legend(fontsize= 12) ax 1 .xaxis.set_tick_params(labelsize=14) ax2.xaxis.set_tick_params(labelsize=14) ax2.set_xticks([x for x in range(-9, 12, 2)]) ax 1 .yaxis.set_tick_params(labelsize=14) ax2 .yaxis.set_tick_params(labelsize=14) ax4.xaxis.set_tick_params(labelsize=14) ax4 .yaxis.set_tick_params(labelsize=14) plt.show()

Олег Владимирович Стукач-

доктор технических наук, профессор Московского института электроники и математики Национального исследовательского университета «Высшая школа экономики» и Новосибирского государственного технического университета, основатель Томской группы Института инженеров по электротехнике и радиоэлектронике IEEE.

E-mail: tomsk@ieee.org

Павел Александрович Зорин-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

главный метролог, заместитель директора ООО «Центр сервисного обслуживания», г. Томск, cso.tom.ru.

E-mail: zpa@cso.tom.ru

Леонид Борисович Чашкин-

студент Московского института электроники и математики Национального исследовательского университета «Высшая школа экономики», г. Москва, E-mail: lbchashkin@edu.hse.ru

Александр Вадимович

Семенюк - студент Московского института электроники и математики Национального

исследовательского университета «Высшая школа экономики», г. Москва, E-mail: avsemenyuk@edu.hse.ru

Статья получена 20.04.2021.

Reduction of Dataset in the Automated Systems for Commercial Metering of the Thermal Energy Consumption to Create a Robust

Model

O.V. Stukach, P.A. Zorin, L.B. Chashkin, A.V. Semenyuk National Research University Higher School of Economics, Moscow, Russia Novosibirsk State Technical University, Novosibirsk, Russia LLC "CSO", Tomsk, Russia

Abstract: Energy saving is one of the trends in the development of modern urban economics. More than 40% of energy resources are consumed in residential buildings, and most of the consumed energy is used for heating. An urgent problem is increasing the energy efficiency of residential multi-floor buildings. It is associated with a decrease in heat loss and regulation of the heat energy supply depending on weather conditions. The design of the regulation model is in a framework of commercial and academic interest. Nevertheless, situation in modeling is often associated with high-quality data mining: it contains errors, the data are not stratified by concerning the heat supply scheme, and the size of daily data does not allow to create a model of the minimum order that should be robust but correctly reflect the dynamics of changes in heat consumption from the outside temperature. We propose approaches to data transformation that can be used to carry out a robust model of minimum order heat consumption based on spectral analysis and histogram estimates of the statistical distribution of data collected for a long time. The method for comparison houses with different heat consumption schemes was found. The average value of hot water consumption was calculated, and it was shown that data stratification is possible with the combined accounting of hot water supply and heating. As a result of the spectral analysis of the heat consumption series, it was found that the weather dependence is mainly determined by the first ten low-frequency harmonics of the heat consumption series. An algorithm for the reduction of rows is proposed. It makes it possible to design a robust model of heat consumption in all city dimension.

Keywords: histogram evaluation, energy saving, heat consumption model, energy efficiency class, time series.

References

[1] Zorin P.A., Stukach O.V. Statistical modeling of the thermal characteristics of households based on the thermal meter dataset / 13 International conference on New information technologies in the investigation of complex structures. Tomsk State University, Tomsk, September 07-09, 2020, p. 11.

[2] Canale L., Dell'Isola M. et al. A comprehensive review on heat accounting and cost allocation in residential buildings in EU // Energy & Buildings. -2019. - Vol. 202. - P. 109398.

[3] Bashmakov I.A. Comparison of energy efficiency levels of buildings in Russia and foreign countries. (Bashmakov I.A. Sravnenie urovnei energoeffektivnosti zdanii v Rossi i zarubezhnykh stranakh) - http://www.cenef.ru/file/ComparisonEEf Building.pdf

[4] Pavel Zorin, Oleg Stukach, "Data of heating meters from residential buildings in Tomsk (Russia) for statistical modeling of the thermal characteristics of buildings", IEEE Dataport, 2020. [Online]. Available: http://dx.doi.org/10.21227/3r4e-ch18.

[5] Oleg Stukach, Pavel Zorin. Long-Term Data from the Heat Meters in Residential Buildings Depending on

the Outside Temperature and Characteristics of Buildings // IEEE Dataport. - April 13, 2021. - doi: 10.21227/cw53-rr81. - http://ieee-dataport.org/4034.

[6] Kobak D., Shpilkin S., Pshenichnikov M.S. Statistical anomalies in 2011-2012 Russian elections revealed by 2D correlation analysis // arXiv:1205.0741v2 [physics.soc-ph] 17 May 2012.

[7] Kobak D., Shpilkin S., Pshenichnikov M.S. Integer Percentages as Electoral Falsification Fingerprints // arXiv:1410.6059v4 [stat.AP] 29 Jun 2016.

[8] Kourkin S.V., Chulkov V.O. Racionalnui vibor ograzhdayushchikh konstrukcii zhilogo stroeniya, kak kiberfizicheskikh sistem, po kriteriyu energoeffektivnosti (Rational selection of the fence for a residential building as cyber-physical systems according to the energy efficiency criterion) // The Eurasian Scientific Journal. - 2020. - № 5. - ISSN 2588-0101, https://esj. today/PDF/32SAVN520. pdf (open). - DOI: 10.15862/32SAVN520

Oleg V. Stukach is the founder of the Tomsk IEEE Chapter, Dr. of Sci., Professor of Moscow Institute Electronics and Mathematics of National Research University Higher School of Economics and Novosibirsk State Technical University.

E-mail: tomsk@ieee.org Pavel A. Zorin is general metrologist, vice-director of LLC "CSO", Tomsk cso.tom.ru. E-mail: zpa@cso.tom.ru

Leonid B. Chashkin is student of Moscow Institute Electronics and Mathematics of National Research University Higher School of Economics, Moscow, E-mail: lbchashkin@edu.hse.ru

Alexander V. Semenyuk is student of Moscow Institute Electronics and Mathematics of National Research University Higher School of Economics, Moscow, E-mail: avsemenyuk@edu.hse.ru

The paper has been received on 20/04/2021.

i Надоели баннеры? Вы всегда можете отключить рекламу.