DOI 10.36622/VSTU.2022.18.5.012 УДК 004.942
О ПРИМЕНЕНИИ РЕГУЛЯРИЗАЦИИ СТРУКТУРЫ БОЛЬШИХ ДАННЫХ ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ СБОРА И ПРОГНОЗИРОВАНИЯ ПАРАМЕТРОВ
ОБЪЕКТОВ НАБЛЮДЕНИЙ
С.С. Колмогорова1, Н.О. Голубятникова2
1 Санкт-Петербургский государственный лесотехнический университет имени С.М. Кирова,
г. Санкт-Петербург, Россия 2 Омский государственный технический университет, г. Омск, Россия
Аннотация: за последнее десятилетие значительно увеличилось число методов машинного обучения, а также областей их применения и подходов в связи с необходимостью разработки более точных и надежных моделей прогнозирования. Рассмотрен подход прогнозирования параметров электромагнитного поля на основе распределенной среды Apache Spark Streaming. Первоначально данные с различных датчиков электромагнитного поля в реальном времени обрабатываются до уровня структурированных данных, являющихся входными данными в модели прогнозирования, которая фокусируется на прогнозировании типа значения с учетом нескольких классов. Кроме того, для повышения эффективности прогнозирования был использован метод регуляризации для выбора признаков, чтобы уменьшить переобучение. Описанная архитектура представляет собой интеграцию Apache Kafka, Spark и Cassandra и рекомендуется к применению для прикладного мониторинга и прогнозирования состояния систем различного профиля. Экспериментальный анализ показывает, что использование метода регуляризации повышает эффективность рекуррентной нейронной сети при прогнозировании параметров электромагнитного поля. Предложенная модель способна эффективно использовать смешанные прикладные данные, уменьшает вероятность переобучения модели и снижает вычислительные затраты
Ключевые слова: электромагнитное поле, потоковые данные, машинное обучение, Apache Cassandra, Apache Kafka, Apache Spark, большие данные, электрометрия, прогнозирование, распределенная система сбора данных
Введение
В связи с ускоренным
совершенствованием производственных
процессов своевременное получение необходимой информации о среде стало основной тенденцией развития систем сбора и обработки данных. Н Например, полевая система мониторинга параметров
электромагнитных полей (ЭМП) на базе сенсорной сети, построенная на основе концептуальной модели Интернета вещей и теории нечеткого управления [1, 2]. Модель состоит из системы сбора данных, системы передачи и хранения данных и платформы визуализации для анализа больших данных. Система сбора данных тесно интегрирована с системой передачи и хранения данных для получения в реальном времени данных о среде в различных областях мониторинга. Система передачи данных реализует предоставление данных в реальном времени через сеть на платформу анализа больших данных.
Развитие всех отраслей производства и глобальная цифровизация общества порождает
© Колмогорова С.С., Голубятникова Н.О., 2022
ряд проблем, связанных с возникновением электромагнитных полей техногенной природы, их воздействием на технические и биологические объекты. Все устройства автоматики, в определенной мере, подвержены влиянию помех. Помехи могут быть связаны с электропитанием, наводками в измерительных цепях, механическим воздействием, а также воздействием электромагнитных полей. Выход из строя элемента системы управления взрывоопасным производством, например, нефтеперерабатывающий завод, может нести масштабные последствия, вплоть до уровня техногенной катастрофы. Поэтому контроль электромагнитных полей влияет на промышленную безопасность [1].
Медицинское оборудование,
использующее статические поля (например, магнитно-резонансный томограф),
электрические приборы, использующие низкочастотные электрические и магнитные поля (50/60 Гц), а также различное беспроводное, телекоммуникационное и радиовещательное оборудование,
использующее высокочастотные
электромагнитные поля (100 кГц - 300 ГГц), значительно улучшают качество жизни.
Однако при превышении определенных уровней возникающие электромагнитные поля могут быть вредными для здоровья и по-разному влиять на организм человека в зависимости от их частоты.
В [3] реализован автоматизированный программно-технический комплекс системы сбора и интеллектуальной обработки данных. Разработанный интеллектуальный набор устройств системы раннего предупреждения основан на бесконтактном измерении электромагнитных полей, для обеспечения безопасности персонала и стабильной работы оборудования. Автоматизация обработки сигналов датчиков напряженности
электрического поля, входящих в информационно измерительную систему [4], позволяет получать данные об изменяющихся параметрах поля с реализацией алгоритмов коррекции и позволяет системе быстро адаптироваться к изменениям
технологических условий. Распределённая система контроля техногенных
электромагнитных полей с применением инновационных датчиков [2] рассматривает измерение параметров полей в рамках практической задачи децентрализованной «облачной» информационно-аналитической системы и представлена программной реализацией сбора данных с сенсоров новой формы, автоматической оценкой и прогнозированием.
Для получения больших данных о показателях распределения электромагнитных полей в мониторинговой области используется платформа анализа и сбора данных [1]. В результате её применения получается ряд реляционных баз данных, представляющих набор результатов измерения параметров ЭМП — представление форм временных характеристик различных параметров. Все они являются достаточно информативными для кодирования, идентификации и дальнейшей интеллектуальной обработки больших данных нейросетевыми технологиями в составе информационно-измерительного 1оТ
комплекса по оценке ЭМП на соответствие нормам и правилам промышленной безопасности.
Платформа анализа больших данных получает данные опрашиваемого участка и анализирует их благодаря установленным закономерностям по накопленным ранее данным с помощью технологии сбора больших данных и визуализации, осуществляет раннее
предупреждение и прогноз аварийных ситуаций, а также предоставляет необходимую сервисную информацию для принятия решений.
Предлагаемая в статье модель использует распределенную среду Apache Spark Streaming для получения, хранения и обработки данных с различных датчиков ЭМП в режиме реального времени.
Постановка задачи
В реальных условиях технической эксплуатации при работе с большими данными возникает необходимость в использовании специализированных платформ, в которых применяются различные подходы к извлечению, хранению и индексированию данных.
Одним из хорошо известных методов для поддержки выполнения
крупномасштабных распределенных
прикладных программ является MapReduce [5]. Для решения актуальных вопросов по работе с большими данными в настоящее время известно множество фреймворков и распределенных хранилищ данных, таких как Hadoop, Spark, Storm, Flink, Cassandra и HBase, которые могут быть использованы. Они эффективно обрабатывают огромные объемы данных.
Кроме того, существуют библиотеки, такие как MLlib от Spark, которые позволяют использовать методы машинного обучения в облаке. Существуют также две различные категории обработки больших данных, а именно пакетные и потоковые механизмы. Первая связана с управлением огромным объемом данных, а вторая - с обработкой высокоскоростных данных. При этом наиболее распространенной платформой, управляющей средами больших данных для пакетной обработки MapReduce, является Hadoop. Стоит отметить, что современные приложения требуют анализа в режиме реального времени, которые эффективно и оперативно обеспечивают работу с потоковыми механизмами, такими как Spark и Storm Streaming [6].
Важно отметить также, что при работе с большими данными необходимо сделать акцент на системах обработки данных в реальном времени, потоковой передаче, базах данных NoSQL, инфраструктурах облачных вычислений [7].
Для отображения эффективности предложенной схемы авторами реализован метод регуляризации для выбора признаков, чтобы избежать переобучения модели. Задача экспериментального анализа предполагает, что
Продолжение таблицы
регуляризации эффективность
инфраструктуры в которой
использование метода значительно повысит прогнозирования.
Задача внедрения облачных вычислений, использовались технологии больших данных, таких как Kafka, Spark Streaming и Cassandra, важна для разработки эффективной схемы хранения и обработки данных о постоянно изменяющихся параметрах ЭМП в зоне мониторинга.
Агрегирование данных о параметрах ЭМП. Наборы данных
Набор данных состоит из переменных, связанных с микрофизикой ЭМП, и представлен характеристиками в таблице. В этом наборе данных применяется контролируемое обучение с помощью нескольких моделей классификации потоковых данных. Используемый набор данных, состоит из огромного количества экземпляров, что необходимо для корректной оценки алгоритмов в контексте потоков данных и регуляризации структуры данных.
Описание данных, несущих информацию о характеристиках ЭМП
Переменная Описание
Е(В/м) суммарная напряженность ЭМП
Ех(В/м) составляющая напряженности ЭМП по оси X
Еу(В/м) составляющая напряженности ЭМП по оси у
Еп(В/м) нормальная составляющая напряженности ЭМП
ЩВ/м) тангенциальная составляющая напряженности ЭМП
Gxx^/м2) градиент напряженности по оси хх
Gyy^/м2) градиент напряженности по оси уу
Gxy^/м2) градиент напряженности по оси ху
D(K^2) смещение ЭМП
D^Kn/м2) смещение ЭМП по оси х
D^K^2) смещение ЭМП по оси у
D^Kn/м2) нормальное смещение ЭМП
ЩКл/м2) тангенциальное смещение ЭМП
w(Дж/м ) плотность энергии ЭМП
Имитационное моделирование на рис. 1 дает наглядную картину графической формы распределения эквипотенциальных линий ЭМП при взаимодействии точечного источника ЭМП и датчика для различных степеней неоднородности реальных условий эксплуатации. На рис. 2 представлен пример полученных расчетных данных различных характеристик ЭМП, согласно таблице. Расчет степени неоднородности ЭМП [8] предполагает оценку, необходимую для определения типа поля для дальнейшей типологической классификации.
Классификация и количественная оценка степени неоднородности позволит выявить информативные параметры о состоянии мониторинговой области для обеспечения безопасности.
Рис. 1. Графическое моделирование распределения эквипотенциальных линий при взаимодействии точечного источника ЭМП
Е(В/м) Ех(В/м) Еу(В/м) |Еп(В/м) Et(В/м) Gxx(B/m2) Gw(B/m2) 1бху(В/м2) ÍG1(B/m2) |G2(B/m2) Р(Кя/м2) 7.01665е-13 -6.69747e-i: -2.09218е-1:6.69747е-1В 2.09218е-13 1.78453е-11 -3.79544е-1:2.18539е-11 2.53855е-11 -4.54945e-lí 1:49104е-23 ■13 2.26466е-13 1,76847е-11 -3,23732е-112.20150е-11 2.598906-11 -4.06776e-lj 1.47586e-2Í _13 2.43713е-13 1.75241е-11 -2.67921е-12.21761е-11 2,67150е-11-3,59830e-l11.46198е-23 13 2.60960е-13 1.73635е-11-2.12109e-112.23372e-ll 2.75880е-11 -3.14355е-1!1.44943е-23
6.94521е-13 -6,56561е-1; -2.264€6е-1:6.56561е 6.87988е-13 -6.43376е-1: -2.43713е-116.43376е 6.82085е-13 -6.30190е-1; -2.60960e-i: 6.30190е
6,76826е-13 -6.17004е-1: -2.78208е-1; 6,17004е-13 2.78208е-13 1.72028е-11 -1.56298e-l¡2.24983e-ll 2.86373е-11 -2.70643е-1 1.43826е-23
6.85634е-13 -6.29325е-1 -2.72110е-1:6.29325е 6,98202е-13 -6.47854е-1: -2,60329е-1; б.47854е 7.11227е-13 -6.66384e-i: -2.48548е-116.66384е 7,24684е-13 -6.84914е-1: -2,36768б-1; 6.84914е 7.38548e-13 -7,03444e-i:-2.24987e-i: 7.034446
13 2.72110е-13 2.02331е-11 -1.20607e-i:2.21827e-ll 3.15233е-11 -2.33509е-111.45697е-23 13 2,60329е-13 2.4040Ы1 -8.981406-1; 2.17512е-11 3.48372е-11 -1.97785e-i: 1.48368е-23 13 2.48548е-13 2.78471е-11 -5.90208e-i;2.13197e-ll 3.81622е-11 -1.62172e-lS1.51136e-23 13 2,36768е-13 3,16541е-11 -2,82276e-i;2,0888le-ll 4,14985е-11 -1,26671е-1:1,53996е-23 13 2,24987е-13 3,54611е-11 2.56551е-13 2.04566е-11 4.4846Ы1 -9.12845е-1Л.56942е-23
7.52797е-13 -7.21974е-1:-2.13206е-1-7.21974е-13 2.13206е-13192681е-11 3.33587е-12 2.00251е-Ц 4.82052е-11 -5.60127е-1 ШМ 7,67410е-13 -7.40504М-2.014266-1 7.40504МЗ 2.01426е-13 4,307516-116.41518е-12 1.95935е-11 5.15760e-ll,-2.08570e-i;i.63075e-23
7.82366е-13 -7.59033е-1: -1.89645е-1! 7.59033е-13 1.89645е-13 4.68821е-11 9.49450е-12 1.91620е-11 5.49584е-111.41816е-12 1.66253е-23
7,976476-13 -7.77563М:-1.77864e-i: 7,775636 8.13233е-13 -7.96093e-i:-1.66083e-i:7.96093e 8.29108e-13 -8.14623e-i;-1.54303e-i;8.14623e
13 1,778646-13 5,06891е-11 1,257386-11 1.87305М1 5.83527М1 4,910226-12 1,69500е-23 13 1.66083е-13 5.44961е-11 1.56531е-11 1.82989е-11 6.17588е-11 8.39044е-12 1.72812е-23 13 1.54303е-13 5.83031е-11 1.87324е-11 1.78674е-11 6.51768е-11 1,18588е-11 1.76186е-23
8.45255е-13 -УЗШе-1М.42522е-1-8.33153е-13 1.42522е-13 6.21101е-112,18118е-11 1.74359е-11 6,86067е-111.53151е-11 1.79617е-23
8.95181е-13 -8.88742e-i:-1.07180e-l!8.88742e
9.29570e-13 -9.25802e-i:-8.36186e-l'9.25802e 9.470606-13 -9.44331е-1: -7.183806-1' 9.44331е 9,64732е-13 -9,62861е-1; -6,00573е-1' 9,62861е
9.82578е-13 -9.81391е-1! -4.82766е-1' 9.81391е
8.61659б-13 -8.51682е-1!-1.30741е-118.51682е-13 1.30741е-13 6.59171е-11 2.48911е-11 1.70043е-11 7.20486e-llj 1.87596е-11 1.83103е-23 8,78306е-13 -8.70212e-i:-1.18961e-i:8.70212e-13 1.18961е-13 6.97241е-11 2,79704е-11 1,65728е-11 7,55025е-11 2,21920е-11 1.86640е-23
13 1.07180е-13 7.35311е-11 3.10497е-111.61413е-11 7.89682е-11 2.56126е-11 1.90227е-23
9,122746-13 -9,07272e-i;-9,53993e-l'9,07272e-13 9.53993е-14 7,73381е-11 3,41290е-11 1,570976-11 8.24459е-11 2,90212е-11 1,938596-23
13 8,36186е-14 8.11451е-11 3.72083е-11 1.52782е-11 8.59355е-11 3.24179е-11 1.97534е-23 13 7.18380е-14 8.49521е-11 4.0287бе-11 1.48467е-11 8.94369е-11 3.58029е-112.01251е-23 13 6,00573е-14 8,87591е-11 4.33670е-111,44151е-11 9,29500е-113,91761е-11 2,05006е-23
1е-13 4.82766е-14 9.25661*11 4.64463е-11 1.39836е-11 9.64747е-11 4.25377е-11 2.08798е-23 1,00059е-12 -9,99921е-1;-3,64959е-1'9,99921е-13 3,64959е-14 9.63731е-11 4,95256е-11 1,35521е41 l.OOOlle-lO 4.58877е-11 2.12625е-23 1.018756-12 -1,01845е-1 -2.47152е-1 1.018456-12 2.47152е-14 1.00180е-10 5.26049е-11 1.31205е-11 1.03559е-10 4.92264е-11 2,16485е-23 1.03706е-12 -l,03698e-li-l,29345e-l 1.03698е-12 1.29345е-14 1.03987е-10 5.56842е-11 1.26890е-111.07118е-10 5.25538е-11 2.20376е-23 l,05551e-12-l,05551e-i;-1.15379e-l!1.05551e-12 1.15379e-15 1.07794e-105.87635e-11 1.22575e-ll 1.10688е-10 5,58700е-11 2.24297е-23 1.074096-12 -1.07404e-i;i.06269e-141.074046-12 4.06269е-11.116Qlé-lo16.18429е-11 1.18259е-11 1.14269е-10 5.91752e-ll' 2.28245е-23 1,09280е-12 -l,09257e-_i; 2.24076е-14 1,09257е-12 -2.24076е-1' 1.15408е-10 б.49222е-11 1,13944е-11 1,17861е-10 6,24697е-11 2.32220е-23 1.111636-12 -1.11110e-l¡3.41883e-141.11110е-12 -3.41883е-11.19215е-10 6.№5e-lí 1.09628е-11 1.21463е-10 6.57534е-11 2.36221е-23 1.134206-12 -1.13317e-i;4.82210e-141.13317e-12 -4,82210е-1'1,23750е-10 7.16695е-11 1,04488е-11 1.25768е-10 6.96513е-112.41017е-23 1.12026е-12 -1,11924е-1/4.76284е-М 1.11924е-12 -4.76284e-lJl.21815e-107.10077e-ll' 9.43105е-12 1.23509е-10 6.93135е-11 2.38055е-23 1.103026-12 -1.10202e-lÍi68956e-14 1.102026-12 -4.689566-1 1.194236-10 7.01895е-11 8.17274е-12 1.207456-10 6.88683е-11 2.34393е-23'
Dx (Кл/м2) |Ру(Кл/м2) Dn (Кл/м2) П(Ю|/и2) w (Дж/мЗ) -1.423226-2:-4.44590е-2'1.42322е-23 4.445906-24 5.23106е-36 -1,395206-2;-4,81240е-2'1,39520е-23 4,812406-24 5,125086-36 -1.36718е-2:-5.17891е-2'1.36718е-23 5.17891е-24 5.02912е-36 -1.339166-2:-5.545426-2'1.339166-23 5.545426-24 4.94318е-36 -1.31114е-2:-5.91193е-2'1.31114е-23 5.91193е-24 4.86725е-36 -1.33732е-2:-5.78235е-2'1.33732е-23 5.782356-24 4.99475е-36 -1,37669е-2:-5,53201е-2'1.37669е-23 5,53201е-24 5,17956е-36 -1.416076-2:-5.28167е-2'1.41607е-23 5.281676-24 5.37461е-36 -1,455456-2:-5,031336-2'1,455456-23 5,03133е-24 5,57991е-36 -1.49482е-2:-4.78098е-2'1,49482е-23 4.78098е-24 5.79545е-36 -1.534206-2:-4.53064е-2'1.534206-23 4.530646-24 6.02123е-36 -1,57357е-2:-4.28030е-2'1.57357е-23 4,28030е-24 6.25727е-36 -1.612956-2:-4.02996e-2¿ 1.61295е-23 4.02996е-24 6.50354е-36 -1,65233е-2:-3.77962е-2'1.65233е-23 3,77962е-24 6,76007е-36 -1.69170е-2:-3.52928е-2'1.69170е-23 3.52928е-24 7.02684е-36 -1.73108е-2:-3.278946-2'1.731086-23 3.27894е-24 7.30385е-36 -1.77045е-2:-3.02860е-2'1.77045е-23 3.02860е-24 7.59111е-36 -1.809836-2:-2.77826е-2'1.80983е-23 2.77826е-24 7.88862е-36 -1,84921е-2; -2,52792е-2' 1,84921е-23 2,52792е-24 8,19637е-36 -1.888586-2:-2.27758е-2' 1.88858е-23 2.27758е-24 8.51436е-36 -1,92796е-2:-2.02724е-2'1.927966-23 2,02724е-24 8,842606-36 -1.96733е-2:-1.77690е-2'1.96733е-23 1.77690е-24 9.18109е-36 -2.00671е-2:-1.52656е-2'2.006716-23 152656*24 9.52982е-36 -2.04608е-2:-1,27622е-2'2,04608е-23 1.27622е-24 9,88880е-36 -2.08546е-2:-1.02588е-2'2.08546е-23 1.02588е-24 1.02580е-35 •2,12484е-2: -7,75539e-2í 2.12484е-23 7.75539е-25 1,06375е-35 -2.16421е-2:-5.25199е-2!2,16421е-23 5.25199е-25 1.10272е-35 -2.20359е-2:-2.74858е-2! 2.203596-23 2.74858е-25 1.14272е-35 -2.24296е-2:-2.45182е-2(2.24296е-23 2.45182е-26 1.18374е-35 -2.282346-2:2.25822е-25 2.28234е-23 -2.25822е-2!1.22578е-35 -2.32172е-2 4,76163е-25 2.32172е-23 -4,76163е-2! 1,26885е-35 -2.361096-2:7.26503е-25 2.36109е-23 -7.26503е-2!1.31295е-35 -2.408006-2:1.02470е-24 2,40800е-23 -1.02470е-2' 1,36681е-35 -2.37840е-2:1.01211е-24 2.37840е-23 -1,01211е-2 1,33342е-35 -2.341816-2:9.96534е-25 2.341816-23 -9.96534е-2!1.29270е-35
Рис. 2. Фрагмент набора расчетн^1х данн^1х для численного анализа оценки ЭМП
Подходы и методы
В статье представлена комплексная архитектура системы регуляризации структуры больших данных в анализе и прогнозировании характеристик ЭМП, представляющая собой интеграцию Apache Kafka, Spark и Cassandra.
Apache Spark Streaming. Потоковые данные рассматриваются как большое число данных, полученных от огромного количества датчиков с одновременной отправкой записей этих данных. Для извлечения необходимой информации эти данные требуют подготовки на предварительной стадии. Более того, аналитика может быть выборочной, отфильтрованной, коррелированной или даже агрегированной, и этот анализ может происходить как в структуре, связанной с учетом интересов пользователя, так и в другом секторе частного. Со временем используются алгоритмы потоковой обработки с целью дальнейшего уточнения полученных данных. Apache Spark Streaming преобразует входной поток в режиме реального времени в пакеты, которыми впоследствии манипулирует движок Spark для получения выходных данных в виде последующих пакетов. Таким образом, дискретизированные потоки D-потоки (DStream) представляют собой
высокоуровневую абстракцию, предлагаемую Spark Streaming, в то время как последний предоставляет возможность параллельной
обработки потоков данных путем подключения к многочисленным потокам данных [9].
Apache Cassandra представляет собой широко масштабируемую базу данных NoSQL с открытым исходным кодом. Поэтому она идеально подходит для обработки огромных объемов данных в различных центрах обработки данных и облачной инфраструктуре. К ее достоинствам можно отнести следующие характеристики: постоянная доступность, прямая
масштабируемость, а также простота работы на разных серверах без единой точки отказа [10]. Проект Cassandra основан на допущении, что системные и аппаратные сбои происходят постоянно, и этот факт приводит к созданию одноранговой распределенной системы. Информация распределяется между всеми узлами кластера, а стратегии репликации и обмена информацией являются
автоматическими и прозрачными. Более того, обеспечивается прогрессивная
пользовательская репликация, которая сохраняет дубликаты данных на всех узлах, участвующих в кольце Cassandra. Если узел отключается, то по крайней мере одна копия данных узла будет доступна с другого узла кластера. Наконец, Cassandra обеспечивает линейное масштабирование [11], что означает, что общие возможности системы могут быть немедленно расширены путем включения в сеть дополнительных узлов.
Apache Kafka - это система распределенного обмена сообщениями с открытым исходным кодом, предназначенная для обработки огромных объемов данных. Это распределенная система обмена сообщениями для сбора и передачи логов, интегрированная в Apache в 2011 году. Это система, которая передает данные от одного приложения к другому, используя обобщение моделей систем обмена сообщениями. Так, на основе модели очереди обработка данных разделяется на набор процессов. В отличие от этого, с помощью модели publish/subscribe Kafka позволяет передавать сообщения множеству групп пользователей [12].
Система основана на модели Producer-Consumer [13], хранит события, сгруппированные в отдельные темы. Producer публикует сообщения в теме, а пользователи,
зарегистрированные в этой области, получают опубликованное сообщение. Kafka реализует четыре типа API для связи с другими приложениями. Первые два называются Producer и Consumer и используются для публикации сообщений в одной или нескольких областях, а также для отображения активности в областях и обработки данных, соответственно. Последние два — это API Streams и Connector. Первый используется для приложений, выступающих в качестве обработчиков данных, а второй - для создания повторно используемых потребителей или производителей и соединения тем с другими приложениями или компьютерными системами. По этим причинам Apache Kafka является идеальным решением для создания каналов реального времени и разработки приложений, обрабатывающих потоки данных.
Техника регуляризации
В процессе обучения модели машинного обучения важно исключать переобучение [14]. Если модель избыточно обучена, она будет иметь низкую точность, поскольку будет пытаться уловить шум обучающего набора данных. Понятие шума относится к тем моментам данных, которые не отражают реальные свойства данных, а являются случайными. Модель более гибко реагирует на риск чрезмерного смещения, предварительно изучив такие точки данных. Основная сложность такого подхода заключается в нахождении оптимального баланса. Поэтому были предложены различные методы выбора параметров регуляризации [15].
Сложной темой в классификации является выбор признаков, поскольку признаки с минимальной степенью важности редко известны заранее. Добавление большего числа признаков в набор улучшает заданную метрику эффективности классификации и точно описывает заданный набор данных. Однако слишком большое количество признаков может помешать классификатору.
Регуляризация Li или регрессия Лассо (оператор наименьшего абсолютного сокращения и выбора) добавляет «абсолютное значение величины» коэффициента в качестве штрафного члена к функции потерь (L) и сокращает коэффициент менее важного признака до нуля, тем самым удаляя некоторый признак вообще [16]. Согласно
Лассо, регрессия наименьших квадратов с функцией штрафа L1 записывается как
Loss = YJjl=1(yi - w0 - 2f=i w^n)2 + +AZf=1|w;L
где y= Wo + Wi Xi+ W2 X2+ ... +wn хп-прогнозируемое значение. Характеристики, определяющие ценность у, это х1, х2, .. хп; w0 это смещение, wi, w2, .. wn; это коэффициенты к х1, х2, .. хп. В уравнении X - параметр регуляризации, который контролирует важность члена регуляризации. В заключение отметим, что при наличии коллинеарности во входных значениях метод регрессии Лассо может работать эффективно, в отличие от метода обыкновенных наименьших квадратов (OLS), который чрезмерно подгоняет данные, что является распространенным методом оценки параметров. По сравнению с регрессией Риджа, также называемой нормой L2 или регуляризацией [17], Лассо уменьшает коэффициенты менее важных признаков до нуля, тем самым полностью удаляя некоторые признаки. Таким образом, это хорошо работает для отбора признаков [18] в случае, если у нас есть огромное количество признаков.
Архитектура и схема обработки больших данных
В систему входит ряд данных, получаемых с различных датчиков ЭМП, а также модель численного прогнозирования (рис. 2 и рис. 3). Представленный принцип основан в том числе на предложенной в [19] процедуре обнаружения знаний. Процесс обнаружения знаний в базах данных («обнаружение знаний в данных» или KDD) включает в себя использование базы данных вместе с требуемым подбором, предварительной обработкой, выборкой и преобразованием; применение методов обработки данных (алгоритмов ИИ) для перечисления закономерностей из БД; и оценку результатов анализа данных для определения подмножества перечисленных моделей, которые считаются знаниями. Обработка данных, составляющая процесса KDD, связана с алгоритмическими средствами, с помощью которых из данных извлекаются и фиксируются закономерности. Общий процесс KDD включает в себя оценку и возможную интерпретацию найденных закономерностей,
для определения того, какие закономерности можно считать новыми знаниями. Понятие общего процесса, управляемого
пользователем, разработано не только для KDD: схожие предложения были выдвинуты и в статистике [20], и в машинном обучении [21].
Рассмотрим структуру на рис. 3, в которой проводятся вычисления. Общая архитектура предлагаемой системы
представлена таким образом, что учитывает соответствующие модули прикладного подхода оценки параметров ЭМП. В частности, используется этап предварительной обработки, а затем процедура классификации.
Схема прикладной архитектуры следующая. В данной работе предлагается оригинальная система, состоящая из двух важных компонентов, а именно - сбора и обработки данных. Модуль сбора данных, использующий Apache Kafka, разработан для получения данных с различных датчиков и последующего хранения этих данных в Cassandra, базе данных NoSQL, которая не имеет конкретных структур и идеально подходит для масштабирования. После процедуры хранения система в основном выполняет обработку в реальном времени, используя потоковую обработку Apache Spark Streaming. В частности, это обработка данных, связанных с параметрами ЭМП, которая инициируется датчиками, собирающими данные. Затем эти данные обрабатываются, сохраняются и анализируются. Более конкретно потоковый конвейер можно
Модуль сбора данных
^ kafka
* SpQ$
Streaming
Модуль обработки
данных
рассмотреть с точки зрения следующих особенностей.
Датчики ЭМП агрегируют следующие характеристики: Е(В/м), Ех(В/м), Еу(В/м), Еп(В/м), Е^В/м); градиент напряженности: Gxx(B/м2), Gyy^2), Gxy^2), ^(В/м2), G2(B/м2); смещение: D^/tf2), Dx^^2), Dy(Kл/м2), Dn(Kл/м2), Dt(Kл/м2); плотность энергии: w(Дж/м3).
Apache Kafka и Apache Spark Streaming: эти службы больших данных отвечают за потоковую передачу и обработку данных с датчиков; Cassandra: данные хранятся в этой конкретной базе данных NoSQL в необработанном виде, а на более позднем этапе, как в [22], преобразуются до уровня структурированных данных, удобных для дальнейшей передачи и обработки.
Техника регуляризации применяется для выделения признаков, чтобы избежать переобучения, например, регуляризация L1.
Предложенная схема была реализована с использованием облачной инфраструктуры Apache Spark. В состав единого центра, используемого для наших экспериментов, входят 6 вычислительных узлов, т.е. виртуальные машины, каждая из которых имеет четыре процессора CPU 2,5 ГГц, 8 Гб памяти и жесткий диск объемом 50 Гб. Одна из виртуальных машин считается ведущей, а пять других используются в качестве ведомых узлов.
Модуль хранения массивов данных
Предварительная обработка данных
Регуляризация
Тестовые 1 Тренировочные
данные данные
Модель классификации
Графики
Инфограммы
Функционал
Прогнозирование
Программная оценка
□
□
А t
Контроль объектов
Потоковая передача данных
Модуль обработки данных
Модуль экспертной оценки и визуализации данных
Рис. 3. Комплексная архитектура системы регуляризации структуры больших данных в анализе и прогнозировании
характеристик ЭМП
Вывод и заключение
В представленной статье на прикладной задаче анализа характеристик ЭМП рассматривается подход обработки больших данных, связанный со сценариями потоковой передачи данных с сенсорных датчиков в мониторинговую область и последующей их регуляризацией.
В наборе данных применяется контролируемое обучение с помощью нескольких моделей классификации потоковых данных. Авторы полагают, что использование алгоритмов классификации совместно со стратегией регуляризации работает лучше, чем классификаторы без использования какой-либо стратегии регуляризации, с точки зрения метрики точности [3]. Более того, по мере увеличения набора данных все классификаторы работают лучше, и это свидетельствует о том, что предложенная схема может быть эффективно использована в системе реального времени, обрабатывающей потоковые данные о характеристиках ЭМП.
Стоит отметить, что с точки зрения алгоритмического подхода, использование гибридных архитектур, основанных на технике регуляризации, может быть более эффективным именно при рассмотрении распределенной инфраструктуры, и, следовательно, производительность системы в конечном итоге будет увеличена. Для дальнейших экспериментов по проверке производительности предложенной стратегии будут использованы алгоритмы
классификации на наборах данных для корректной оценки алгоритмов в контексте потоков данных.
Литература
1. Платформа контроля электромагнитного поля для обеспечения безопасности труда и промышленных объектов / С.С. Колмогорова, А.С. Колмогоров, Д.С. Баранов, А.В. Мокряк // Безопасность труда в промышленности. 2022. № 2. С. 58-63. DOI 10.24000/0409-2961-2022-2-58-63. - EDN WZTIWM.
2. Распределённая система контроля техногенных электромагнитных полей с применением инновационных датчиков / С.С. Колмогорова, А.С. Колмогоров, Д.С. Баранов и др. // Проблемы машиноведения: материалы VI Междунар. науч.-техн. конф. Омск: Омский государственный технический университет, 2022. С. 102-112. DOI 10.25206/978-5-8149-3453-6-2022-102-112. - EDN СМОТКБ.
3. Автоматизированный программно-технический комплекс системы сбора и
интеллектуальной обработки данных / С.С. Колмогорова, С.В. Бирюков, А.С. Колмогоров, Д.С. Баранов // Приборы. 2022. № 7(265). С. 48-55.
4. Автоматизация обработки сигналов датчиков напряженности электрического поля, входящих в информационно-измерительную систему / С.С. Колмогорова, Д.С. Баранов, А.С. Колмогоров, С.В. Бирюков // Омский научный вестник. 2019. № 4(166). С. 66-70. DOI 10.25206/1813-8225-2019-166-66-70. EDN IBOAUG.
5. Dean J., Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters. In Proceedings of the Symposium on Operating System Design and Implementation (OSDI). San Francisco, CA, USA, 2004. P. 137-150.
6. Franciscus N., Milosevic Z., Stantic B. Influence of Parallelism Property of Streaming Engines on Their Performance. In Proceedings of the New Trends in Databases and Information Systems (ADBIS). Prague, Czech Republic, 2016. P. 104-111
7. A Regularization-Based Big Data Framework for Winter Precipitation Forecasting on Streaming Data/ Kanavos Andreas, Maria Trigka, Elias Dritsas, Gerasimos Vonitsanos and Phivos Mylonas// Electronics 10. 2021. No. 16. Р. 1872. URL: https://doi. org/10.3390/electronics 10161872
8. Колмогорова С.С., Колмогоров А.С., Бирюков
C.В. Измерение степени неоднородности электрического поля // Омский научный вестник. 2018. № 2(158). С. 4547. DOI 10.25206/1813-8225-2018-158-45-48. EDN XMRQFF.
9. In-situ MapReduce for Log Processing/ D. Logothetis, C. Trezzo, K.C. Webb, К. Yocum// In Proceedings of the USENIX Annual Technical Conference. Portland, OR, USA, 2011. Vol. 11. P. 115.
10. Survey on NoSQL database/ J. Han, E. Haihong, G. Le, J. Du// In Proceedings of the 6th International Conference on Pervasive Computing and Applications. Port Elizabeth, South Africa, 2011. P. 363-366.
11. Chebotko A., Kashlev A., Lu S. A Big Data Modeling Methodology for Apache Cassandra// In Proceedings of the 2015 IEEE International Congress on Big Data. IEEE Computer Society. New York, NY, USA, 2015. P. 238-245.
12. Wu H., Shang Z., Wolter K. Learning to Reliably Deliver Streaming Data with Apache Kafka// In Proceedings of the 50th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN). Valencia, Spain, 2020. P. 564-571.
13. Garg N. Apache Kafka. Packt Publishing: Birmingham, UK, 2013. P. 74.
14. An Introduction to Statistical Learning/G. James,
D. Witten, T. Hastie, R. Tibshirani. Springer: Berlin, Germany, 2013. P. 426.
15. Bauer F., Lukas M.A. Comparing Parameter Choice Methods for Regularization of Ill-Posed Problems// Math. Comput. Simul. 2011. № 81. Р. 1795-1841.
16. Muthukrishnan R., Rohini R. LASSO: A Feature Selection Technique in Predictive Modeling for Machine Learning// In Proceedings of the International Conference on Advances in Computer Applications (ICACA), Coimbatore, Tamil Nadu. India, 2016. P. 18-20.
17. McDonald G.C. Ridge Regression. Wiley Interdiscip. Rev. Comput. Stat. 2009. № 1. P. 93-100.
18. Tang J., Alelyani S., Liu H. Feature Selection for Classification: A Review. In Data Classification: Algorithms
and Applications; CRC Press: Boca Raton, FL, USA, 2014. P. 37-64.
19. Fayyad U.M., Piatetsky-Shapiro G., Smyth P. From Data Mining to Knowledge Discovery in Databases. AI Mag. 1996. № 17. P. 37-54.
20. Hand D.J. Deconstructing Statistical Questions. Journal of the Royal Statistical Society A. 1994. №157(3). P. 317-356.
21. Brodley C.E., Smyth P. Applying classification algorithms in practice. Statistics and Computing. Forthcoming. 1997 №7. P. 45-56.
22. A NoSQL Approach for Aspect Mining of Cultural Heritage Streaming Data/ G. Vonitsanos, A. Kanavos, A. Mohasseb, D. Tsolis// In Proceedings of the 10th International Conference on Information, Intelligence, Systems and Applications (IISA). Patras, Greece, 2019. P. 14.
Поступила 15.08.2022; принята к публикации 17.10.2022 Информация об авторах
Колмогорова Светлана Сергеевна - канд. техн. наук, доцент кафедры информационных систем и технологий, Санкт-Петербургский государственный лесотехнический университет имени С.М. Кирова (194021, Россия, Санкт-Петербург, Институтский пер., д. 5, Литер У), e-mail: [email protected], тел.: 8(960)985-14-14, ORCID: https://orcid.org/0000-0001-8032-0095
Голубятникова Наталия Олеговна - старший преподаватель кафедры «Радиотехнические устройства и системы диагностики», Омский государственный технический университет (644050, Россия, Омск, ул. Мира, д. 11), e-mail: [email protected], тел.: 8(913)973-26-27, ORCID: https://orcid.org/0000-0003-1879-4550
ON THE APPLICATION OF BIG DATA STRUCTURE REGULARIZATION IN A DISTRIBUTED EVALUATION SYSTEM FOR EMERGENCY PARAMETERS
S.S. Kolmogorova1, N.O. Golubyatnikova2
1 Saint-Petersburg State Forest Engineering University named after S.M. Kirov, Saint-Petersburg,
Russia
2 Omsk State Technical University, Omsk, Russia
Abstract: over the past decade, the number of machine learning methods, as well as their areas of application and approaches, has increased significantly due to the need to develop more accurate and reliable forecasting models. An approach to predicting the parameters of an electromagnetic field based on the Apache Spark Streaming distributed environment is considered. Initially, data from various real-time electromagnetic field sensors are processed to the level of structured data, which is the input to the prediction model, which focuses on predicting the type of value given several classes. In addition, in order to improve the prediction performance, a regularization method was used for feature selection to reduce overfitting. The described architecture is an integration of Apache Kafka, Spark and Cassandra and is recommended for application monitoring and predicting the state of systems of various profiles. Experimental analysis shows that the use of the regularization method increases the efficiency of the recurrent neural network in predicting the parameters of the electromagnetic field. The proposed model is able to effectively use mixed applied data, reduces the likelihood of model overfitting and reduces computational costs
Key words: electromagnetic field, streaming data, machine learning, Apache Cassandra, Apache Kafka, Apache Spark, big data, electrometry, prediction, distributed data collection system
References
1. Kolmogorova S.S., Kolmogorov A.S., Baranov D.S., Mokryak A.V. "Platform for monitoring the electromagnetic field to ensure the safety of labor and industrial facilities", Labor Safety in Industry (Bezopasnost' truda v promyshlennosti), 2022, no. 2, pp. 58-63. DOI 10.24000/0409-2961-2022-2-58-63. - EDN WZTIWM.
2. Kolmogorova S.S., Kolmogorov A.S., Baranov D.S. et al. "Distributed control system of technogenic electromagnetic fields using innovative sensors", Problems of Mechanical Engineering: Proc. of the VI Int. Sci.-Tech. Conf. (Problemy mashinovedeniya), Omsk State Technical University, 2022, pp. 102-112. DOI 10.25206/978-5-8149-3453-6-2022-102-112. - EDN CMDTRF.
3. Kolmogorova S.S., Biryukov S.V., Kolmogorov A.S., Baranov D.S. "Automated software and hardware complex of the system for collecting and intelligent data processing", Devices (Pribory), 2022, no. 7(265), pp. 48-55.
4. Kolmogorova S.S., Baranov D.S., Kolmogorov A.S., Biryukov S.V. "Automation of signal processing of electric field intensity sensors included in the information-measuring system", Omsk Scientific Bulletin (Omskiy nauchnyy vestnik), 2019, no. 4(166), pp. 66-70. DOI 10.25206/1813-8225-2019-166-66-70. EDN IBOAUG.
5. Dean J., Ghemawat S. "MapReduce: simplified data processing on large clusters", Proceedings of the Symposium on Operating System Design and Implementation (OSDI), San Francisco, CA, USA, 2004, pp. 137-150.
6. Franciscus N., Milosevic Z., Stantic B. "Influence of parallelism property of streaming engines on their performance", Proceedings of the New Trends in Databases and Information Systems (ADBIS), Prague, Czech Republic, 2016, pp. 104-111
7. Kanavos Andreas, Maria Trigka, Elias Dritsas, Gerasimos Vonitsanos, Phivos Mylonas "A regularization-based big data framework for winter precipitation forecasting on streaming data", Electronics 10, 2021, no. 16, pp. 1872. URL: https://doi. org/10.3390/electronics 10161872
8. Kolmogorova S.S., Kolmogorov A.S., Biryukov S.V. "Measurement of the degree of inhomogeneity of the electric field", Omsk Scientific Bulletin (Omskiy nauchnyy vestnik), 2018, no. 2(158), pp. 45-47. DOI 10.25206/1813-8225-2018-158-45-48. EDN XMRQFF.
9. Logothetis D., Trezzo C., Webb K.C., Yocum K. "In-situ mapreduce for log processing", Proceedings of the USENIX Annual Technical Conference. Portland, OR, USA, 2011, vol. 11, pp. 115.
10. Han J., Haihong E., Le G., Du J. "Survey on NoSQL database", Proceedings of the 6th International Conference on Pervasive Computing and Applications, Port Elizabeth, South Africa, 2011, pp. 363-366.
11. Chebotko A., Kashlev A., Lu S. "A big data modeling methodology for Apache Cassandra", Proceedings of the 2015 IEEE International Congress on Big Data. IEEE Computer Society, New York, NY, USA, 2015, pp. 238-245.
12. Wu H., Shang Z., Wolter K. "Learning to reliably deliver streaming data with Apache Kafka", Proceedings of the 50th Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), Valencia, Spain, 2020, pp. 564-571.
13. Garg N. "Apache Kafka", Birmingham: Packt Publishing, UK, 2013, 74 p.
14. James G., Witten D., Hastie T., Tibshirani R. "An introduction to statistical learning", Berlin: Springer, Germany, 2013,
426 p.
15. Bauer F., Lukas M.A. "Comparing parameter choice methods for regularization of ill-posed problems", Math. Comput. Simul, 2011, no. 81, pp. 1795-1841.
16. Muthukrishnan R., Rohini R. "LASSO: a feature selection technique in predictive modeling for machine learning", Proceedings of the International Conference on Advances in Computer Applications (ICACA), Coimbatore, Tamil Nadu. India, 2016, pp. 18-20.
17. McDonald G.C. "Ridge Regression", Wiley Interdiscip. Rev. Comput. Stat., 2009, no. 1, pp. 93-100.
18. Tang J., Alelyani S., Liu H. "Feature selection for classification: a review", Data Classification: Algorithms and Applications, Boca Raton: CRC Press, FL, USA, 2014, pp. 37-64.
19. Fayyad U.M., Piatetsky-Shapiro G., Smyth P. "From data mining to knowledge discovery in databases", AI Mag, 1996, no. 17, pp. 37-54.
20. Hand D.J. "Deconstructing statistical questions", Journal of the Royal Statistical Society A, 1994, no. 157(3), pp. 317356.
21. Brodley C.E., Smyth P. "Applying classification algorithms in practice", Statistics and Computing. Forthcoming, 1997, no. 7, pp. 45-56.
22. Vonitsanos G., Kanavos A., Mohasseb A., Tsolis D. "A NoSQL approach for aspect mining of cultural heritage streaming data", Proceedings of the 10th International Conference on Information, Intelligence, Systems and Applications (IISA), Patras, Greece, 2019, pp. 1-4.
Submitted 15.08.2022; revised 17.10.2022 Information about the authors
Svetlana S. Kolmogorova, Cand. Sci. (Technical), Associate Professor, St. Petersburg State Forest Engineering University named after S.M. Kirov (5 Institutskiy per., Liter U, St. Petersburg 194021, Russia), e-mail: [email protected], tel.: +7(960)985-14-14, ORCID: https http://orcid.org/0000-0001-8032-0095
Nataliya O. Golubyatnikova, Assistant Professor, Omsk State Technical University (11 Mira St., Omsk 644050, Russia), e-mail: [email protected], tel.: +7(913) 973-26-27, ORCID: https://orcid.org/0000-0003-1879-4550