Научная статья на тему 'АНАЛИЗ ДАННЫХ ПОВЕРКИ ТРЕХФАЗНЫХ СЧЕТЧИКОВ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИИ'

АНАЛИЗ ДАННЫХ ПОВЕРКИ ТРЕХФАЗНЫХ СЧЕТЧИКОВ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
45
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ / АНАЛИЗ ДАННЫХ / ВИЗУАЛИЗАЦИЯ ДАННЫХ / МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ / relative error / data analysis / data visualization / machine learning models

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вязникова Н. В.

Анализируются данные, полученные в результате поверки трехфазных счетчиков электрической энергии с помощью среды визуального программирования Orange. Для визуализации данных и их взаимосвязей построены диаграммы рассеивания, «ящик с усами» и гистограммы. Использованы модели машинного обучения, описывающие зависимости исходных параметров, выполнена оценка качества моделей

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF VERIFICATION DATA FOR THREE-PHASE ELECTRICITY METERS

As you know, the metrological service of the power company constantly verifies electric energy meters. A series of measurements is carried out with one device in the mode of active and reactive power. As a result, the relative error of the working meter is determined, which is compared with the permissible error. Based on the results of the comparison, a conclusion is made about the suitability or unsuitability of this measuring instrument for use.I analyzed the data obtained as a result of checking three-phase electric energy meters using the Orange visual programming environment. To visualize the data and their relationships, scatter diagrams, a box with a mustache and histograms were constructed. Machine learning models describing the dependencies of the initial parameters were also used, and the quality of the models was evaluated. The tests were carried out for several months. A sample was used for the analysis, which included the results of 9854 measurements on 170 samples of nine types of meters from two manufacturers.

Текст научной работы на тему «АНАЛИЗ ДАННЫХ ПОВЕРКИ ТРЕХФАЗНЫХ СЧЕТЧИКОВ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИИ»

МЕТРОЛОГИЯ 53

Анализ данных поверки трехфазных счетчиков электрическом энергии1

Анализируются данные, полученные в результате поверки трехфазных счетчиков электрической энергии с помощью среды визуального программирования Orange. Для визуализации данных и их взаимосвязей построены диаграммы рассеивания, «ящик с усами» и гистограммы. Использованы модели машинного обучения, описывающие зависимости исходных параметров, выполнена оценка качества моделей

Н.В. Вязникова1

Вологодский техникум железнодорожного транспорта — филиал ФГБОУ ВО «Петербургский государственный университет путей сообщения императора Александра I», vtgt2014@mail.ru

1 Окончание. Начало см. в № 9-10/2022

1 преподаватель, г. Вологда, Россия

Для цитирования: Вязникова Н.В. Анализ данных поверки трехфазных счетчиков электрической энергии // Компетентность / Competency (Russia). — 2023. — № 1. DOI: 10.24412/1993-8780-2023-1-53-56

ключевые слова

относительная погрешность, анализ данных, визуализация данных, модели машинного обучения

уществует и другая диаграмма, которая может обобщить большое количество данных, дает некоторое представление об их симметрии и разбросе, показывает наличие выбросов, подходит для сравнения нескольких переменных — это так называемый ящик с усами (Boxplot). На рис. 5 изображен ящик с усами для переменной error (наблюдаемые минимум и максимум не показаны), линия в середине ящика — медиана, ее значение 0,04500, среднее арифметическое по выборке составляет 0,01955 ± 0,34599. Таким образом, относительная погрешность в целом по данной выборке близка к нулю и имеет положительный знак.

Чтобы определить знак (плюс или минус) относительной погрешности не по всей выборке, а отдельно по классам точности, надо в таблице Excel с исходными данными (рис. 1) поменять местами значения ячеек А2 и А3 на В2 и В3 соответственно. Но в этом случае на гистограммах не будет отображаться переменная model. Поэтому было принято другое решение: таблица с исходными данными была разделена на три таблицы по классам точности, для этого использовалось условное форматирование данных по столбцу class. Таблица для класса 0,5 содержит ре-

Рис. 5. Диаграмма «ящик с усами»

для переменной error

[Boxplot diagram for the error variable]

зультаты 1872 измерений, таблица для класса 1 — результаты 4927 измерений, для класса 2 — результаты 3055 измерений. Затем для каждого класса был создан свой проект и получены свои диаграммы рассеивания и гистограммы.

На рис. 6 а приводится гистограмма относительной погрешности для класса 0,5. Для данного класса в большей степени характерна положительная погрешность (модель AS3500), но есть приборы с отрицательной погрешностью (модель М230).

Гистограмма относительной погрешности для класса 2 (рис. 6 б) показывает, что среди приборов этого класса присутствуют только три модели, модель М230 имеет отрицательную погрешность, а модели AS1440 и AS3500 — положительную.

Гистограмма для 1 класса не приводится, так как она аналогична гистограмме на рис. 4 в, среди 1 класса модели AS3500 и AS100 имеют положительную погрешность, а модели М230 и AS300 — отрицательную.

Диаграммы «ящик с усами» для относительной погрешности по классам 0,5 и 1 приводятся на рис. 7 а. Есть возможность эту диаграмму вывести отдельно для каждой модели, диаграмма «ящик с усами» для класса 2 по моделям приводится на рис. 7 б.

Приведенные графики показывают, что исходные данные, полученные в результате поверки счетчиков, могут находиться между собой в определенной зависимости. Среда Orange дает возможность выявить эти зависимости, используя различные модели для целевой переменной. Далее в качестве целевой переменной был выбран параметр degree и созданы модели kNN, Random Forest, Neural Network, Linear Regression.

54 МЕТРОЛОГИЯ

а)

Рис. 6. Гистограмма error для класса 0,5 (а) и 2 (б) [Error histogram for 0,5 class (a) and 2 (b)]

а)

0.03449 ±0.17252

-0.04160

0.05000

0.13350

0.05701 ±0.31554 I_

I I 1

-0.08530 0.06330 0.20040

-0.0

0.2

0.0

Рис. 7. Диаграмма «ящик с усами»: а — для класса 0,5 (слева) и 1 (справа); б — для класса 2 по моделям [Boxplot diagram: a — for 0,5 class (left) and 1 (right); b — for 2 class by models]

Модель kNN — метод ближайших соседей, он применяется как базовый алгоритм для любой задачи кластеризации, но иногда и для регрессии. Сначала определяют расстояние от объекта до всех остальных известных объектов, затем выбирают k самых ближайших объектов и объявляют класс объекта как самый частый класс среди его k соседей. В данном случае было выбрано число ближайших соседей 10.

Модель Random Forest («случайный лес») — это алгоритм, при котором

строятся модели одинаковой сложности на некоем лимитированном количестве признаков. Если одно из «деревьев» ошиблось, то другое может не ошибиться, поэтому усреднение двух таких деревьев будет работать хорошо. Если признаки, которые используют деревья, разные, то усреднение работает еще лучше. Таким образом, случайный лес — отличный алгоритм для достижения хорошей точности предсказаний, но у него есть ограничение: интерпретация модели становится сложной из-за огромного количества подвыборок объектов и признаков. В данном случае было выбрано число деревьев 10 и глубина дерева 5.

Модель Neural Network — это нейронная сеть с выбранным числом нейронов в слое 100, функцией активации выходного слоя ReLu, методом оптимизации L-BFGS-B, максимальным числом итераций 200 (возможен выбор других значений указанных параметров).

Модель Linear Regression (линейная регрессия) — это статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную, применяется для предсказания какого-то

МЕТРОЛОГИЯ 55

Рис. 8. Результаты тестирования моделей [Model testing results]

degree Selected Random Forest Linear Regression '..NN Neural Network

0.24439999999. No 02« 0.169 0.228 0232

0.15779999999- 3 No 0.159 0.165 0145 0.147

0.03109999999... No 0.026 0.176 0.083 Ü027

021360000000... ¡No 0.214 0.168 D.099 0225

0.41489999999- No 0.415 0.193 0252 0.409

0 20849999999 !No 0211 0.185 0208 0211

0.11450000000.. a No 0:122 0.186 0.097 0.116

0,11680000000 No 0.117 0.172 0.117 0.109

0.01039999999.. 1 No 0.022 0.176 ООП 0.008

0.00500000000.. Ono 0.022 0.17S 0006 -0LDO2

0.12153333333— | No 0.123 0.165 0.096 0.121

0.01239999999. j No 0.022 0.179 0.012 0.007

0.09450000000.- No 0.093 0.176 0.095 0.090

0.02960000000- ¡No 0.026 0.164 0.030 0.015

year const Uf_V UI_V 1.A errore

2018.0 3200.0 230,0 39837 5.0 -0.3666

20180 3200.0 2300 39837 5.0 -0.2367

20180 3200.0 230.0 39837 5J0 -0.0311

20180 3200.0 230.0 398.37 5.0 0.2136

2020.0 2500.0 230.0 39837 5.0 -0.4149

20180 SOOO.O 2300 39837 5.0 0.1251

20180 5000.0 230.0 39837 5.0 0.0687

2018.0 5000.0 230.0 39837 *0 0.1168

2018.0 5000.0 230.0 39837 5.0 -0.0104

20180 5000.0 230.0 398.37 50 0.0050

20180 5000.0 230.0 39837 5-0 -0.1823

2019.0 SOOO.O 230.0 39837 5.0 -0.0124

2019.0 5000.0 230.0 39837 5.0 (X0945

2019.0 5000.0 230.0 39837 5.0 ■0.0444

вещественного числа. При этом необходимо подобрать коэффициенты a и b таким образом, чтобы прямая y = ax + b в среднем лежала ближе к этому набору точек, чем любая другая прямая, для этого используется метод наименьших квадратов.

Результаты тестирования созданных моделей можно увидеть в окне Test & Score (рис. 8), в столбцах таблицы указываются следующие параметры:

► Method — название модели;

► MSE (Mean Square Error) — дисперсия;

► RMSE (Root Mean Squared Error) — стандартное отклонение (квадратный корень из MSE);

► MAE (Mean Absolute Error) — абсолютное отклонение;

► R2 — доля объясненного разброса в общем разбросе.

По этим результатам можно сделать

вывод, что модель Random Forest лучше объясняет зависимость переменной degree от прочих переменных, так как дисперсия и стандартное отклонение меньше, чем у других моделей, а R2 выше.

Далее можно посмотреть предсказания по созданным моделям (рис. 9), модель Random Forest выдает значение, ближайшее к истинному в данной выборке.

Таким образом, данные, полученные в результате поверки счетчиков электрической энергии и других измерительных приборов, можно использовать для анализа с целью выявления, в первую очередь, знака относительной погрешности, запаса точности, доминирующего класса точности и года выпуска приборов, а также проблемных моделей с наибольшим разбросом относительных погрешностей. ■

Рис. 9. Прогноз переменной degree [Prediction of the degree variable]

Статья поступила в редакцию 14.07.2022

Список литературы

1. Введение

в искусственный интеллект;

https://openedu.ru/course/hse/

INTRAI/.

2. Getting Started with Orange 01-20. Orange Data Mining. Видеоуроки;

https://www.youtube.com/.

3. Orange — Data Mining Fruitful and Fun; https://orange.biolab.si/.

56 METROLOGY

Kompetentnost / Competency (Russia) 1/2023 ISSN 1993-8780. DOI: 10.24412/1993-8780-2023-1-53-56

Analysis of Verification Data for Three-Phase Electricity Meters

N.V. Vyaznikova1, Vologda College of Railway Transport — Branch of FSBEI HE Emperor Alexander I St. Petersburg State Transport University, vtgt2014@mail.ru

1 Teacher, Vologda, Russia

Citation: Vyaznikova N.V. Analysis of Verification Data for Three-Phase Electricity Meters, Kompetentnost'/ Competency (Russia), 2023, no. 1, pp. 53-56. DOI: 10.24412/1993-8780-2023-1-53-56

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

As you know, the metrological service of the power company constantly verifies electric energy meters. A series of measurements is carried out with one device in the mode of active and reactive power. As a result, the relative error of the working meter is determined, which is compared with the permissible error. Based on the results of the comparison, a conclusion is made about the suitability or unsuitability of this measuring instrument for use.

I analyzed the data obtained as a result of checking three-phase electric energy meters using the Orange visual programming environment. To visualize the data and their relationships, scatter diagrams, a box with a mustache and histograms were constructed. Machine learning models describing the dependencies of the initial parameters were also used, and the quality of the models was evaluated. The tests were carried out for several months. A sample was used for the analysis, which included the results of 9854 measurements on 170 samples of nine types of meters from two manufacturers.

1. Introduction to artificial intelligence; https://openedu.ru/course/hse/INTRAI/.

2. Getting Started with Orange 01-20. Orange Data Mining. Video lessons; https://www.youtube.com/.

3. Orange — Data Mining Fruitful and Fun; https://orange.biolab.si/.

key words

relative error, data analysis, data visualization, machine learning models

References

ВЫСТАВКА

Cabex 2023 — ведущее бизнес-мероприятие кабельной отрасли

14-16 марта 2023 г. в Москве (Экспоцентр, павильон № 1) пройдет 21-я Международная выставка кабельно-проводниковой продукции, оборудования и материалов для ее производства

150 российских и зарубежных производителей и поставщиков кабельно-проводниковой продукции впервые представят всю технологическую цепочку: от материалов до готовых изделий. Также впервые будет показана продукция известных компаний, среди которых Кавказкабель, Энергосила, Трансэнерго, MIKRON MAKINE, РИКА Групп и еще не менее сорока организаций.

Выставка представляет наибольший интерес для специалистов топливно-энергетического комплекса, ВПК, транспорта, машиностроения, ЖКХ, строительно-монтажных организаций, связи и телекоммуникаций. В рамках деловой программы пройдут две конференции:

► Кабельная промышленность для отраслей российской экономики, 14 марта;

► Проектирование и монтаж кабельных сетей. Актуальные вызовы, развитие нормативной базы и эффективные решения, 15 марта.

Кроме того, будет проведен круглый стол «Актуальные

вопросы индустрии производства кабельно-проводниковой продукции», 16 марта. Перспективы бизнес-сотрудничества, индивидуальные условия поставок, качественное оборудование, надежных поставщиков и широкую номенклатуру — все это можно найти на выставке.

i Надоели баннеры? Вы всегда можете отключить рекламу.