Научная статья на тему 'ОБНАРУЖЕНИЕ И ИНТЕРПРЕТАЦИЯ ОШИБОЧНЫХ ДАННЫХ ПРИ СТАТИСТИЧЕСКОМ АНАЛИЗЕ ПОТРЕБЛЕНИЯ ЭНЕРГОРЕСУРСОВ.'

ОБНАРУЖЕНИЕ И ИНТЕРПРЕТАЦИЯ ОШИБОЧНЫХ ДАННЫХ ПРИ СТАТИСТИЧЕСКОМ АНАЛИЗЕ ПОТРЕБЛЕНИЯ ЭНЕРГОРЕСУРСОВ. Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC
35
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ АНАЛИЗ / ПОИСК АНОМАЛИЙ / ЭНЕРГОПОТРЕБЛЕНИЕ / ГАЗОПОТРЕБЛЕНИЕ / МУНИЦИПАЛЬНОЕ ОБРАЗОВАНИЕ / СГЛАЖИВАНИЕ / СРЕДНЕЕ ЗНАЧЕНИЕ / НЕСАНКЦИОНИРОВАННОЕ ПОТРЕБЛЕНИЕ / УЧЕТ ГАЗА / ОПТИМИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Макарова Ирина Леонидовна, Игнатенко Анна Михайловна, Копырин Андрей Сергеевич

Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений. Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Макарова Ирина Леонидовна, Игнатенко Анна Михайловна, Копырин Андрей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETECTION AND INTERPRETATION OF ERRONEOUS DATA IN STATISTICAL ANALYSIS OF CONSUMPTION OF ENERGY RESOURCES

Monitoring and analysis of consumption of energy resources in various contexts, as well as measuring of parameters (indicators) in time are of utmost importance for the modern economy. This work is dedicated to examination and interpretation of the anomalies of collecting data on consumption of energy resources (on the example of gas consumption) in the municipal formation. Gas consumption is important for the socioeconomic sphere of cities. Unauthorized connections are the key reason for non-technological waste of the resource. The traditional methods of detection of stealing of gas are ineffective and time-consuming. The modern technologies of data analysis would allow detecting and interpreting the anomalies of consumption, as well as forming the lists for checking the objects for unauthorized connections. The author’s special contribution lies in application of the set of statistical methods aimed at processing and identification of anomalies in energy consumption of a municipal formation. It is worth noting that the use of such technologies requires the development of effective algorithms and implementation of automation and machine learning algorithms. The new perspective upon time-series data facilitates identification of anomalies, optimization of decision-making, etc. These processes can be automated. The presented methodology tested on time-series data that describes the consumption of gas can be used for a broader range of tasks. The research can be combined with the methods of knowledge discovery and deep learning algorithms.

Текст научной работы на тему «ОБНАРУЖЕНИЕ И ИНТЕРПРЕТАЦИЯ ОШИБОЧНЫХ ДАННЫХ ПРИ СТАТИСТИЧЕСКОМ АНАЛИЗЕ ПОТРЕБЛЕНИЯ ЭНЕРГОРЕСУРСОВ.»

Программные системы и вычислительные методы

Правильная ссылка на статью:

Макарова И.Л., Игнатенко А.М., Копырин А.С. — Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов // Программные системы и вычислительные методы. -2021. - № 3. Ш1: 10.7256/2454-0714.2021.3.36564 URL: https://nbpuЫish.com'lIЪrary_read_article.p^p?id=36564

Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов

Макарова Ирина Леонидовна

кандидат технических наук

заведующий кафедрой, кафедра прикладной математики и информатики, ФГБОУ ВО Сочинский

государственный университет

354000, Россия, Краснодарский край, г. Сочи, уп. Пластунская, 94

И ratton@mail.ru И"натенко Анна Михайловна

старший преподаватель, кафедра прикладной математики и информатики, ФГБОУ ВО Сочинский

государственный университет

354000, Россия, Краснодарский край, г. Сочи, уп. Пластунская, 94

И allrededor@mail.ru

Копырин Андрей Сергеевич

кандидат экономических наук

заведующий кафедрой, кафедра информационных технологий, ФГБОУ ВО Сочинский государственный

университет

354000, Россия, Краснодарский край, г. Сочи, уп. Пластунская, 94

ЕЗ kopyrin_a@maii.ru

Статья из рубрики "Системный анализ, поиск, анализ и фильтрация информации"

DOI:

10.7256/2454-0714.2021.3.36564

Дата направления статьи в редакцию:

01-10-2021

Аннотация: Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образованииПотребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. Традиционные методы проверки

на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений. Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.

Ключевые слова: статистический анализ, поиск аномалий, энергопотребление, газопотребление, муниципальное образование, сглаживание, среднее значение, несанкционированное потребление, учет газа, оптимизация

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта No 19-01-00370.

Введение

Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Собранные банки данных можно представить в виде временных рядов, которые нуждаются в исследовании для получения характерных признаков, коррелирующих с исследуемыми свойствами.

Для решения подобного класса задач в литературе были предложены различные методы, которые имеют применение в широком спектре предметных областей, например, в

медицине 2], энергопотреблении [3, 4] и т.д. В целом рассматриваются три класса задач обработки полученных временных рядов: обнаружение аномалий, получение паттернов поведения (извлечение поведенческих признаков) и прогнозирование будущего поведения.

Во многих приложениях целесообразно выполнять аддитивную или мультипликативную декомпозицию временных рядов. Например, сезонные и трендовые компоненты получены

в работе

Обычно анализ временных рядов выполняется во временной, частотной и амплитудной областях. Более того, он может быть одномерным или многомерным (включая корреляции с другими временными рядами). Как правило, анализ временных рядов фокусируется на отслеживании аномалий и оценке свойств устросистемы которые могут быть использованы для последующей оптимизации.

Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании

Потребление газа имеет важное значение для социально-экономической сферы городов.

Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса.

В течение длительного времени незаконное хищение газа не было искоренено и, не только наносит огромный экономический ущерб, но и влияет на надежность энергобаланса муниципалитетов. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени.

Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений.

Материалы и методы

Описание данных

Исходные данные представлены в виде таблицы в Excel. При подготовке набора данных использовались методы из работы ^

Они имеют следующее содержание и обозначение:

- месяц проведения измерения - DT;

- идентификационный номер пользователя - ID;

- количество газовых плит - PG;

- количество водонагревательных колонок - BPG;

- количество приборов отопления - OT;

- количество приборов учета - PU;

- количество проживающих - PR;

- площадь помещения - S;

- объём потребляемого газа - V.

Месяц проведения измерения - DT - содержит стандартное обозначение даты: число, месяц, год. Данные охватывают период, состоящий из 22 последовательных месяцев наблюдений, однако, не все пользователи имеют полный набор таких данных. Другими словами, есть пользователи, которые имеют, например, только три или четыре месяца наблюдений. Это необходимо учитывать при дальнейшем анализе данных.

Идентификационный номер пользователя - ID - целые числа в диапазоне от 1 до 16000. Будем считать, что при записи идентификационного номера ошибки не совершаются.

Количество газовых плит - PG - целые числа. В нашем наборе эта величина принимает значения в диапазоне от 0 до 16. Следует отметить, что имеется норматив установки газовых плит в помещении. Опуская подробности, будем считать, что для установки газовой плиты необходима минимальная площадь помещения, например, не менее 4 м2. Таким образом, если на площади 20 м2 размещено 6 газовых плит, будем считать это ошибочными данными.

Количество водонагревательных колонок - BPG - целые числа в диапазоне от 0 до 6. Для размещения водонагревательных колонок также существуют нормативные

требования. Общая площадь помещения для установки такой колонки должна быть не менее 12 м2. Значит, если в нашем наборе встретится запись с 2 колонками на площади 20 м2, будем считать это ошибкой в данных.

Количество приборов отопления - ОТ - целые числа в диапазоне от 0 до 5.

ОТ 0 1 2 3 4 5

ю 147 1046788 1506 123 8 4

Количество приборов учета - Ри - целые числа в диапазоне от 1 до 2.

Количество проживающих - РЯ - целые числа в диапазоне от 0 до 90. Надо помнить, что если в помещении никто не зарегистрирован, т.е. РЯ = 0 то при расчете коммунальных услуг будет считаться РЯ=1 [7].

Площадь помещения - S - целые числа в диапазоне от 0 до 4000. Ошибочным будет считаться значение 5 = 0, т.к. при отсутствии площади на неё нельзя разместить никакие приборы, тем более её отапливать.

Объём потребляемого газа - V - целые числа. В имеющемся наборе данных эти значения изменяются в диапазоне от -1000 до 100000. Естественно, что отрицательные и «слишком» большие значения требуют пояснения.

Можно предположить, что отрицательные значения могут появиться в показаниях тогда, когда в предыдущие моменты наблюдался перерасход. «Слишком» большие значения получаются в том случае, когда показания долгое время отсутствовали, а потом выставлялись суммарно за несколько периодов. Будем считать ошибочными или аномальными значения V, которые превышают суммарное годовое потребление газа или являются отрицательными при том, что предыдущие показания были меньше нормативного потребления.

Алгоритм подготовки данных к анализу

1. Для каждого Ю проверить равенство 5=0 по всем наблюдениям. Если 5^0

по всем наблюдениям, переходим к следующему пункту. Если 5=0 для некоторого наблюдения, а в других случаях имеет ненулевое значение, то заменить нулевое значение 5 ненулевым и перейти к следующему пункту. Если 5=0 для всех наблюдений, то фиксируется ошибка в данных и все наблюдения для этого Ш исключаются из дальнейшего рассмотрения.

2. Для каждого Ш по всем наблюдениям проверяется значение РЯ. Если РЯ = 0, то это значение заменяется на РЯ=1.

3. Для каждого Ш по всем наблюдениям проверяется значение PG, которое, во-первых, должно быть целым неотрицательным числом и, во-вторых, не должно превышать установленный норматив для соответствующего значения площади 5. Если требования выполняются, то переходим к следующему пункту. Если норматив превышен, то фиксируется ошибка в данных, но наблюдения не исключаются из дальнейшего анализа.

4. Аналогично для каждого Ш по всем наблюдениям проверяется значение BPG, которое

также должно быть целым неотрицательным числом и не превышающим установленный

норматив для соответствующего значения площади 5. Если требования выполняются, то

переходим к следующему пункту. Если норматив превышен, то фиксируется ошибка в

данных, но наблюдения не исключаются из дальнейшего анализа.

5 . Значения показателей ОТ и Ри также могут быть проверены на соответствие нормативным значениям, но в нашем исследовании такая проверка не проводилась.

6. Рассчитываются нормативные значения потребления газа для каждого Ш и каждого наблюдения, а также суммарное годовое потребление газа для данного Ю. С 1 октября по 30 апреля нормативное потребление газа рассчитывается по следующей формуле

91:

7= {РС- 11,3+ ВРС ■ 16,6)РД + 10,286- 5 ■ 0,55;

а с 1 мая по 30 сентября не учитывается отопление, поэтому: V = (РС ■ 11,3 + ВРС ■ 16,6)РЯ.

7 . Проводится проверка адекватности наблюдаемых значений V. Если значение V неотрицательно и не превышает нормативного значения, то переходим к следующему пункту. Если значение V отрицательно, а предыдущие значения не превышают нормативного значения, то фиксируется ошибка в данных и наблюдения исключаются из дальнейшего рассмотрения. Если значение V отрицательно, а предыдущие значения превышают нормативные значения, то проводится процедура сглаживания данных перед проведением статистического анализа. Если значение V не существенно превышает нормативное значение, а предыдущие значения были меньше нормативного значения, то проводится процедура сглаживания данных. Если значение V существенно превышает нормативное значение, а предыдущие значения не требуют корректировки, то фиксируется ошибка в данных и наблюдения исключаются из дальнейшего рассмотрения. Существенным превышением нормативного значения можно, будем считать превышение суммарного нормативного годового значения потребления газа.

8 . Для всех Ю, требующих проведения сглаживания данных, такая процедура пров одитс я .

9. Формируются определенные массивы данных для проведения статистического анализа данных по всем наблюдениям в целом или для конкретного месяца.

10. 10. Проводится стандартный статистический анализ данных. Результаты и обсуждение

Процедура сглаживания данных

1. 1. Для конкретного Ю выбирается весь набор наблюдений.

2 . Если имеются значения У<0, то проверяется наличие предыдущих превышающих нормативные значения показаний V. Если таких нет, то фиксируется ошибка в данных. Данное наблюдение для этого Ю исключается из дальнейшего рассмотрения. Если предыдущее значение превышает норматив, то эти показания складываются и распределяются по месяцам следующим образом: для одинаковых по нормативной оплате месяцам берётся среднее арифметическое, а для различных - определяется в процентном отношении. Например, суммарно за 7 месяцев с отоплением по нормативу объём составляет 4229, а по остальным 5 месяцам, соответственно, 418, то процентное соотношение составит 91:9. Если в результате такого сглаживания оказываются отрицательные показания, то процедура по аналогии охватывает больший диапазон

значений. Если отрицательные значения не удается исключить, то фиксируется ошибка в данных, данное наблюдение исключается из рассмотрения.

3 . Если имеются значения V, превышающие суммарное годовое нормативное потребление газа, а предыдущие значения были меньше нормативного, то определяются все такие показания и суммируются. Сумма распределяется аналогично предыдущему пункту.

4 . Если имеются значения V, превышающие нормативное потребления, но не превышающие суммарное годовое нормативное потребление газа, то при наличии предыдущих малых показаниях проводится перераспределение значений в соответствии с п.2.

Результаты обработки набора данных

Исходный набор данных содержал 1048576 наблюдений (56156 пользователей), представленных таблицей Excel (Таблица 1).

Таблица 1. Выборка из набора данных

Month ID PG BPG OT PU PR S V

01.01.2014 463 1 1 1 1 1 100 500

01.01.2014 466 1 1 1 1 1 80 0

01.01.2014 467 1 1 1 120 2 084

01.01.2014 474 1 1 1 1 3 55 1 800

01.01.2014 479 0 1 1 1 3 290 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

01.01.2014 480 5 1 1 3 600 1 600

01.01.2014 481 1 1 1 1 1 42 484

01.01.2014 488 1 1 1 1 1 30 83

01.01.2014 496 1 1 1 1 2 75 1 667

01.01.2014 497 1 1 1 1 2 109 -1 022

01.01.2014 498 2 1 1 1 1 120 0

01.01.2014 209 1 0 0 1 1 0 196

01.01.2014 115004 1 2 1 1 0 73 900

Следуя алгоритму подготовки данных к анализу, были исключены наблюдения с нулевой площадью, это привело к исключению 9497 пользователей. Нулевое количество прож ив а ющих о бна руж е но у 207 по л ьз о в а те ле й, и б ыло з а ме не но на 1. О шиб о ч ные значения PG и BPG, были обнаружены, соответственно в 59239 и 57254 записях, что составило 5,77 % и 5,58 % от общего количества записей.

В результате обработки данных значение объёма потребления V оказалось неотрицательным и не превышающим нормативного значения в 13236 записей Ш польз ов а те ле й, ч то с о ста в ило 28,37% .

Отрицательные значения объёма потребления V, вместе с предыдущими значениями, не превышающими нормативного значения, исключались из дальнейшего рассмотрения -11266 записей Ш пользователей, что составило 24,15%. При этом фиксировалась ошибка в данных.

Не существенное превышение нормативного значения V, вместе с предыдущими значениями, которые были меньше нормативного значения, наблюдались в 19110 записях Ш пользователей, что составило 40,96%. Для этих пользователей могла быть

проведена процедура сглаживания данных.

Существенное превышение нормативного значения V обнаружено в 3047 записях Ш пользователей, что составило 6,52%.

Некоторые результаты анализа проведённой обработки представлены в Таблице 2, а также на рис. 1-3.

Таблица 2. Выборочные результаты анализа

Показатель, 5 Площадь,

Мес у < 100 100- 500 501- 1000

до после до после до после

Среднее 82,545 89,801 386,45 370,58 953,69 1054,7

1 Минимум -3900 0 -5500 0 -5212 0

Максимум 13100 100 99999 1069 6049 1306

Среднее 94,604 104,3 403,19 388,08 1028,8 1227,5

2 Минимум -6313 0 -7600 0 0 0

Максимум 10601 106 25622 2066 7245 10609

Среднее 105,23 120,4 472,54 476,31 1705,8 1286

3 Минимум -18915 0 -9530 0 0 0

Максимум 19547 193 24231 2077 14848 2614

Среднее 125,59 149,28 655,19 624,53 1039 1228

4 Минимум -5437 0 -8064 0 0 0

Максимум 13665 1034 28614 3271 9200 9742

Среднее 88,744 104,54 368,27 353,96 629,4 619,93

5 Минимум -5232 0 -9900 0 0 0

Максимум 29762 1214 35850 3585 5924 8977

Среднее 97,704 109,41 381,51 392,58 560,58 804,12

6 Минимум -7650 0 -7401 0 -3753 0

Максимум 12015 2983 38168 3816 3998 2765

Среднее 21,662 23,676 83,14 85,536 298,24 111,77

7 Минимум -12400 0 -8666 0 0 0

Максимум 11369 967 23916 2003 6395 1041

Среднее 38,233 44,04 168,16 170,76 511,35 470,53

8 Минимум -9268 0 -12200 0 0 0

Максимум 20556 2055 42177 5343 3000 3672

Среднее 29,1 34,703 136,3 129,64 411,48 311,81

9 Минимум -6485 0 -7445 0 0 0

Максимум 11220 1633 26449 3905 9232 2200

Среднее 53,397 66,13 181,58 175,18 464,8 370,68

10 Минимум -8901 0 -8072 0 0 0

Максимум 13526 1352 13115 4183 8223 8425

Среднее 60,623 81,689 285,26 279,64 764,42 600,85

11 Минимум -4240 0 -12150 0 0 0

Максимум 11795 1179 46430 1061 3161 3161

Среднее 100,17 117,24 547,04 528,21 1178,7 990,97

12 Минимум -2999 0 -5863 0 0 0

Максимум 10149 1014 15769 2487 4153 9353

Среднее значений объема при площади <100

мл

1 2 3 4 Ь 6 7 8 9 10 11 1Î

Qдо □после

Рис. 1. Среднее потребление небольших домовладений

Из графического отображения данных расчетов видно (рис.1), что после очистки и проведения процедуры сглаживания данных средние значения объёма потребления газа выше. Однако противоположная тенденция видна на рисунке 2, где представлена гистограмма средних значений объёмов газа до и после проведения преобразований.

Среднее значений объема при площади от 100

до 500

ÎÎ34S478 9 10 11

■ до D после

Рис.2. Среднее потребление средних домовладений

Среднее значений объема при площади от 501

- ШШЁлЛмЛяыЁЯЁк

Рис.3. Среднее потребление больших домовладений

При площади объекта потребления свыше 500 и до 1000 (рис.3), в среднем значении объема потребления газа нет четко выраженной тенденции или различий после проведения очистки и сглаживания.

Работу сглаживания данных можно продемонстрировать на следующих двух примерах (таблица 3 и рис. 4 и 5).

Таблица 3. Сглаживание данных

t Пример 1 Пример 2

Объём V Норматив N Вариант сглаживания Объём V Норма тив N Вариант сглаживания

1 1765 1113,213 1765 520 604,1514 773,3333

2 1418 1113,213 1418 420 604,1514 248,8889

3 0 1113,213 1267,277 1380 604,1514 248,8889

4 1511 1113,213 1267,277 -800 604,1514 248,8889

5 1311 151,5 287,4451 100 83,7 100

6 1314 151,5 1314 50 83,7 50

7 529 151,5 529 0 83,7 0

8 648 151,5 648 50 83,7 50

9 0 151,5 407,7401 0 83,7 0

10 710 1113,213 1198,42 50 604,1514 50

11 986 1113,213 1198,42 250 604,1514 250

12 2307 1113,213 1198,42 350 604,1514 350

13 1645 1113,213 1645 450 604,1514 450

14 0 1113,213 1613,96 380 604,1514 380

15 0 1113,213 1613,96 400 604,1514 400

16 0 1113,213 1613,96 300 604,1514 300

17 5391 151,5 549,1199 120 83,7 120

18 780 151,5 780 0 83,7 0

19 540 151,5 540 0 83,7 0

20 680 151,5 680 0 83,7 0

21 0 151,5 0 0 83,7 0

22 0 1113,213 0 0 604,1514 0

Рис.4. График сглаживаения объема в примере 1

Пример 2 использования процедуры сглаживания

1 2 3 и /5 6 7 е 9 10 11 12 13 14 15 16 17 10 19 20 21 22

1000

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Объём V * Норматив ГД * Вариант ртиашнминн

Рис.5. График сглаживаения объема в примере 1

Исходя из представленного анализа можно сделать вывод, что аномалии на исследуемом наборе данных делятся на 3 типа:

1 . Выбросы, связанные с ошибками сбора данных (отрицательная площадь, отсутствие проживающих и т.п.)

2 . Выбросы, связанные с неравномерностью сбора данных (перенос объёмов потребления в следующие месяцы при непредставлении показаний приборов учёта)

3. Выбросы, выбивающиеся из тенденций кластера потребления.

Именно последний класс аномалий и представляет значительный интерес в плане, формирование заданий на обход домовладений и выявлении нарушений учета газа. Причем следует отметить, что данные нарушения могут влиять на потребление в обе стороны: сокрытие приборов учета и проживающих вызывает повышение фиксируемого потребления, а несанкционированный учет - понижение.

Заключение

Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы.

Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Представленное исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.

Следует отметить, что наши экстраполяции учитывают только потребление при прочих равных условиях. Например, не учитываются изменения в поведении, предпочтениях потребителей и технологические измененияа при изменении климатических показателей (температуры и влажности воздуха) и внедрении технически более совершенных приборов, которые влияют на потребление энергии с течением времени.

Библиография

1. Chen H., Liu H. A remote electrocardiogram monitoring system with good swiftness and high reliablility //Computers & Electrical Engineering. - 2016. - Т. 53. - С. 191202.

2. Katircioglu-Ozturk D. et al. A window-based time series feature extraction method //Computers in biology and medicine. - 2017. - Т. 89. - С. 466-486.

3. Koztowski A., Sosnowski J. Energy efficiency trade-off between duty-cycling and wake-up radio techniques in IoT networks //Wireless Personal Communications. - 2019. - Т. 107. - №4 - С. 1951-1971.

4. Martinez B. et al. The power of models: Modeling power consumption for IoT devices //IEEE Sensors Journal. - 2015. - Т. 15. - №. 10. - С. 5777-5789.

5. Johnpaul C. I. et al. Trendlets: A novel probabilistic representational structures for clustering the time series data //Expert Systems with Applications. - 2020. - Т. 145. -С. 113119.

6. Игнатенко А.М., Макарова И.Л., Копырин А.С. — Методы подготовки данных к анализу слабоструктурированных временных рядов // Программные системы и вычислительные методы. - 2019. - № 4. - С. 87 - 94. DOI: 10.7256/24540714.2019.4.31797

7. Постановление Правительства РФ от 06.05.2011 N 354 (ред. от 31.07.2021) "О предоставлении коммунальных услуг собственникам и пользователям помещений в многоквартирных домах и жилых домов" // www.consultant.ru

8. Приказ Минэнерго России от 30.12.2013 N 961 (ред. от 26.12.2014) "Об утверждении Правил учета газа" // www.consultant.ru

9. Приказ Региональной энергетической комиссии - департамента цен и тарифов Краснодарского края от 31.08.2012 №2/2012-нп «Об утверждении нормативов потребления коммунальных услуг в Краснодарском крае (при отсутствии приборов учета)»

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.

Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья посвящена работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании.

Методология исследования основана на проверке с использованием статистических методов и информационных технологий обработки данных выдвинутой рабочей гипотезы о том, что современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и сформировать списки на проверку объектов на предмет несанкционированных подключений.

Научная новизна представленного исследования, по мнению рецензента, заключается применении совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования, а также выводах о том, что применение подобных технологий требует разработки эффективных алгоритмов, внедрения автоматизации и алгоритмов машинного обучения.

В структуре статьи выделены следующие разделы: Введение, Материалы и методы.

Описание данных; Алгоритм подготовки данных к анализу; Результаты и обсуждение. Процедура сглаживания данных; Заключение; Библиография.

Во введении отмечено важное значение потребления газа для социально-экономической сферы, указано, что несанкционированные подключения являются основной причиной нетехнологических потерь ресурса и выдвинуто предположение о том, аномалии потребления могут интерпретированы на основе проведения анализа данных для выявления несанкционированных подключений. Используемый автором алгоритм подготовки данных к анализу включает 10 пунктов, которые доступно изложены в тексте, а применяемая процедура сглаживания данных содержит четыре позиции. В результате расчетов на исследуемом наборе данных выделены 3 типа аномалий - выбросы, связанные с ошибками сбора данных, с неравномерностью сбора данных и выбросы, выбивающиеся из тенденций кластера потребления. К достоинствам рецензируемой статьи можно отнести стремление использовать наглядные средства представления информации, иллюстрацию материала графиками и диаграммами, представлением информации в таблицах.

Библиография статьи включает 9 источников, среди которых публикации в зарубежных и отечественных периодических научных журналах за 2015-2020 годы, а также Постановления Правительства РФ, приказы Министерств и региональных комиссий. Рецензируемая статья не лишена недоработок.

Во-первых, наименования структурных частей статьи не выделены, каким-либо образом, например, полужирным шрифтом или курсивом. Это затрудняет визуальное разграничение текста на разделы.

Во-вторых, ни в одной из трех таблиц и ни на одном из пяти рисунков не приведены единицы измерения рассматриваемых показателей, что затрудняет восприятие информации.

В-третьих, в статье указано, что «исходные данные представлены в виде таблицы в Excel», но не отмечено с использованием каких инструментальных средств проводился анализ данных.

В-четвертых, оформление библиографического описания источника под номерами 3 и 4 нуждается в корректировке ввиду технической оплошности в разграничении их между собой.

В-пятых, отсутствует нумерация приводимых формул.

Рецензируемый материал подготовлен на актуальную тему, соответствует тематике журнала «Программные системы и вычислительные методы», содержит оригинальные подходы к решению поставленных в исследовании задач, может быть интересен широкому кругу читателей, интересующихся проблемами проведения анализа данных и совершенствования управления потребления газа на муниципальном уровне, содержит значимые для практики результаты и может быть рекомендован к опубликованию в журнале после устранения недочетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.