Научная статья на тему 'ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ ИНДЕКСА КАЧЕСТВА ГРУНТОВЫХ ВОД С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИОННЫХ МОДЕЛЕЙ ОБУЧЕНИЯ'

ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ ИНДЕКСА КАЧЕСТВА ГРУНТОВЫХ ВОД С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИОННЫХ МОДЕЛЕЙ ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
92
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАЧЕСТВО ВОДЫ / МОДЕЛИ ИССКУСТВЕННОГО ИЕТЕЛЕКТА / ПРОГНОЗИРОВАНИЕ / ИНДЕКС КАЧЕСТВА ВОДЫ / КЛАССИФИКАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мери А., Джонсон И., Субраманиам К., Кертикеян М., Рошан Д.

Грунтовые воды - жизненно важный природный ресурс для бытового использования, в том числе и для питья, а также в сельском хозяйстве и промышленном секторе. Качество и количество грунтовых вод сильно меняется с течением времени и зависит от географической локации. Индекс качества воды зависит от множества параметров и остается главным индикатором качества воды, приводящим к эффективному управлению водными ресурсами. Автоматизированная система для прогнозирования качества воды позволила бы улучшить жизнь населения с точки зрения государственного управления. Основной целью исследования является разработка модели для прогнозирования качества воды в разных районах штата Тамилнад в Индии с помощью методов машинного обучения (МО). Базовые данные включают в себя физические и химические показатели грунтовых вод, такие как pH, электропроводность, жесткость воды, содержание Ca2+, Mg2+, Na+, HCO -, NO -, SO 2- и 3 3 4 Cl- наряду с их пригодностью для орошения и питьевых целей. В этом исследовании проведено сравнение нескольких алгоритмов машинного обучения. Результаты этого исследования могут быть усилены путем сравнения производительности различных моделей с учетом множества входных гидрохимических параметров.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мери А., Джонсон И., Субраманиам К., Кертикеян М., Рошан Д.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PREDICTION AND CLASSIFICATION OF GROUNDWATER QUALITY INDEX (WQI) USING REGRESSION LEARNING MODELS

Groundwater has developed into a vital natural resource as a result of its significant use in home applications, particularly for drinking, as well as in the agricultural and industrial sectors. The quality and quantity of groundwater have varied greatly across time and space. Water Quality Index (WQI) which depends on many parameters, remains a critical indicator of the quality of water, which leads to effective water management. The administrators will be benefitted if an automatic system for predicting water quality exists. The primary aim of this study is to design a model to predict the groundwater quality in different districts of Tamil Nadu (TN), India, using Machine Learning (ML) techniques. The available data constitutes the physical and chemical characteristics of groundwater such as pH, electrical conductivity (EC), TH, Ca2+, Mg2+, Na+, HCO3-, NO3-, SO42-, and Cl- along with its suitability for irrigation and drinking purposes. In this study, many ML algorithms were implemented, and the results were compared.

Текст научной работы на тему «ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ ИНДЕКСА КАЧЕСТВА ГРУНТОВЫХ ВОД С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИОННЫХ МОДЕЛЕЙ ОБУЧЕНИЯ»

Мери А., Джонсон И., Субраманиам К., Кертикеян М., Рошан Дж. Прогнозирование и классификация индекса качества грунтовых вод с использованием регрессионных моделей обучения. Российский журнал биомеханики, 2023, № 2, С. 55-66. БО!: 10.15593/Я7ЬВютеЬ/2023.2.05

РОССИИСКИИ ЖУРНАЛ БИОМЕХАНИКИ № 2,2023

RUSSIAN JOURNAL OF BIOMECHANICS

https ://ered.pstu. ru/index.php/rjb

Научная статья

DOI: 10.15593/RZhBiomeh/2023.2.05 УДК 531/534: [57+61]

ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ ИНДЕКСА КАЧЕСТВА ГРУНТОВЫХ ВОД С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИОННЫХ МОДЕЛЕЙ ОБУЧЕНИЯ

А. Мери1, И. Джонсон2, К. Субраманиам3, М. Кертикеян1, Дж. Рошан1

1 Институт технологий и наук Каруньи, Коимбатур, Индия

2 Сельскохозяйственный университет Тамилнада, Коимбатур, Индия

3 Карпагамская академия высшего образования, Коимбатур, Индия

О СТАТЬЕ

АННОТАЦИЯ

Получена: 12 апреля 2023 Одобрена: 15 июня 2023 Принята к публикации: 17 июня 2023

Ключевые слова:

качество воды, модели исскуствен-ного иетелекта, прогнозирование, индекс качества воды, классификация.

Грунтовые воды - жизненно важный природный ресурс для бытового использования, в том числе и для питья, а также в сельском хозяйстве и промышленном секторе. Качество и количество грунтовых вод сильно меняется с течением времени и зависит от географической локации. Индекс качества воды зависит от множества параметров и остается главным индикатором качества воды, приводящим к эффективному управлению водными ресурсами. Автоматизированная система для прогнозирования качества воды позволила бы улучшить жизнь населения с точки зрения государственного управления. Основной целью исследования является разработка модели для прогнозирования качества воды в разных районах штата Тамилнад в Индии с помощью методов машинного обучения (МО). Базовые данные включают в себя физические и химические показатели грунтовых вод, такие как рН, электропроводность, жесткость воды, содержание Са2+, Мд2+, Ыа+, НС03", Ы03", в042" и С!" наряду с их пригодностью для орошения и питьевых целей. В этом исследовании проведено сравнение нескольких алгоритмов машинного обучения. Результаты этого исследования могут быть усилены путем сравнения производительности различных моделей с учетом множества входных гидрохимических параметров.

©ПНИПУ

Введение

Наличие воды, необходимой для орошения, бытовых и промышленных целей, обеспечивается за счет грунтовых вод во всем мире. Из-за демографического бума и высоких темпов индустриализации спрос на пресную воду значительно вырос за последние не-

сколько десятилетий. Поставки и качество грунтовых вод в большей степени страдают из-за быстрой урбанизации, чрезмерного использования и ненадлежащего удаления мусора, особенно в городских районах развивающихся стран, таких как Индия. По оценкам ВОЗ качество воды является основной причиной 80% болезней человека [5]. После загрязнения качество грун-

© Мери Анита-доцент, e-mail: anithamarv@karunva.edu : 0000-0002-7284-1541 © Джонсон Ирутаясами - доцент, e-mail: iohnsonpath@amail.com : 0000-0003-1631-9246 © Субраманиам Камапрадж - профессор, e-mail: bme.hod@kahedu.edu.in : 0000-0002-8517-2578 © Кертикеян Махамуни - научный сотрудник кафедры вычислительной техники © Рошан Джеймс - научный сотрудник кафедры вычислительной техники

Эта статья доступна в соответствии с условиями лицензии Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)

товых вод невозможно восстановить путем удаления загрязняющих веществ из источника. Таким образом становится крайне важным регулярно проверять состояние грунтовых вод и сохранять их с соблюдением достаточных мер предосторожности.

Одной из практических альтернатив управления является внедрение показателей качества воды для обеспечения полной оценки параметров качества воды как в поверхностных, так и в грунтовых водах. Состояние качества воды можно изучить с помощью математического инструмента, известного как индекс качества воды, который основан на важных факторах качества воды, таких как мутность, содержание органических веществ, температура, электропроводность, рН и следы металлов. Индекс качества воды показывает, является ли вода чистой, немного загрязненной или сильно загрязненной по шкале от 0 до 100. Алиас и соавт. [2] обнаружили, что антропогенная деятельность частично загрязнила реку. Пробы воды, взятые в восьми точках вдоль реки Семеных, также были сильно загрязнены фосфатами и фекальной кишечной палочкой [4]. Сложность задачи измерения каждого из этих параметров грунтовых вод связана с большими затратами и трудоемкостью процесса.

В течение последних трех десятилетий для оценки качества грунтовых вод для питьевых целей применялись различные подходы с использованием моделей искусственного интеллекта (ИИ), что повышало эффективность по сравнению с статистическими методами [1; 2; 4; 11; 12; 15; 23]. Моделирование на основе искусственного интелекта быстро генерирует значения индекса качества воды и исключает расчеты субиндексов. Кроме того, методы машинного обучения успешно использовались в Индии для определения параметров качества воды.

Джалори и соавт. [17] использовали модель дерева решений для прогнозирования пяти показателей качества воды. В другом исследовании [20] для построения точной стратегии прогнозирования качества воды для «умного сельского хозяйства» была рекомендована глубокая двунаправленная простая рекуррентная единица. Для прогнозирования качества воды Шафи и соавт. [29] предложили четыре алгоритма машинного обучения для классификации качества воды, 25 параметров использовались в качестве входных параметров в одинарной упреждающей нейронной сети [6]. Tyagi и соавт. использовали четыре различные модели машинного обучения для прогнозирования индекса качества воды иранской реки Карун. Автор использовал модель регрессии опорных векторов с различными ядрами.

Методы искусственного интеллекта, такие как метод опорных векторов (МОВ), метод наименьших квадратов (МНК) и искусственная нейросеть (ИНС)

[16; 22], также использовались для прогнозирования индекса качества воды в реке. Хотя метод опорных векторов представил отличный прогноз, недостатком было то, что требовалось протестировать четыре функции ядра, прежде чем определить лучшую. Также требуется множество параметров, каждому из которых необходимо присвоить оптимальные значения. Среди алгоритмов искусственного интелекта у искусственной нейросети есть несколько недостатков, включая низкую мощность прогнозирования, когда тестовые данные находятся за пределами диапазонов обучающих данных в небольшом наборе данных. Для решения этих проблем был разработан АЫЕ1Б [9].

В [24], поскольку для сбора данных требуется больше датчиков, авторы использовали только 10 факторов, что дорого обходится. Другие доступные регрессионные модели в статье тоже игнорируются. Модель, на которую приходится более 99,5% изменчивости данных, была разработана Газзазом и соавт. [14] для прогнозирования индекса качества воды. Они использовали 23 характеристики для прогнозирования индекса качества воды с использованием датчиков интернет-вещей. Однако они не могут предсказать растворенный кислород (РК) в реальном времени.

Для прогнозирования индекса качества воды используются лабораторные тесты и модели искусственного интелекта. Однако каждая модель имеет некоторые ограничения и работает с разными наборами данных [26; 27]. Анализ временных рядов или статистические методы используются в обычных процедурах моделирования качества грунтовых вод. Эти методы работают на предположении, что зависимые и независимые переменные также связаны между собой. Им часто требуются данные для удовлетворения определенных статистических требований, таких как нормализация и т.д.. С другой стороны, модели, основанные на искусственном интелекте, не должны делать никаких предположений о данных. Азад и соавт. [8] использовали адаптивную нейро-нечеткую систему вывода (АЫПБ) для прогнозирования параметров качества воды. Согласно их исследованиям, модель АЫПБ имела наилучшую точность в прогнозировании электропроводности и жесткости воды на этапе тестирования с Я2 = 0,98, ЯМБЕ = 73,03 и МАРЕ = 5,16. Гибридная искусственная нейронная сеть (ГИНС) с моделью генетического алгоритма была разработана Жан-гом и соавт. [32] для водоочистных сооружений в Китае, которые использовали 45 местоположений. Прогнозируется, что за счет увеличения предоставленных обучающих данных производительность модели гибридной искусственной нейронной сети увеличится с 0,71 до 0,93 по параметру Я2.

Основная цель данного исследования - спрогнозировать индекс качества воды для штата Тамилнад с ис-

Набор данных Исследование и

ЦСГВ -► нормализация

(2001-2018) данных

Классфикция качества воды

Показатели оценки

(ЯМБЕ, Я2, МАЕ, МАРЕ, МБЕ, МБАРЕ)

Точность, прецезионность, ^/-оценка, отзыв

Рис. 1. Огруктура модели прогнозирования индекса качества воды с использованием методов машинного обучения

Рис. 2. Исследуемые районы штата Тамилнад

пользованием данных Центрального совета по грунтовым водам (ЦСГВ) и определить качество грунтовых вод в нескольких районах.

Материалы и методы

Целью данного исследования является внедрение различных моделей машинного обучения для прогнозирования показателей качества грунтовых вод. На рис. 1 показана структура моделей машинного обучения для базы данных ЦСГВ.

Область исследования

Значения параметров качества грунтовых вод для районов штата Тамилнад (рис. 2), соответствующие 2001-2018 годам, были получены от Центральной комиссии по грунтовым водам Индии. ЦКГВ собрала эти образцы в конце засушливого сезона, перед началом сезона дождей. В зависимости от штата это будет либо

в апреле, либо в мае. Всего по районам Тамилнада было собрано 3619 единиц данных.

Подготовка данных и расчет индкса качества воды

Отсутствие данных в наборе данных было устранено и была применена нормализация. Чтобы поместить набор данных в пространство меньшей размерности с отличной разделимостью по классам и свести к минимуму чрезмерную подгонку, используется анализ главных компонент (АГК), который является «неконтролируемым» методом. Он игнорирует метки классов и стремится определить основные направления, которые максимизируют дисперсию в наборе данных. Результаты анализа главных компонент используются для выбора индексных скважин с целью долгосрочного мониторинга качества грунтовых вод. Основываясь на нескольких параметрах качества воды, индекс качества воды выдает единое значение, которое выражает общее качество воды в определенном месте и в определенное время. Здесь для расчета индекса качества воды использовались 10 переменных, таких

Таблица 1

Щ и ЯЩпо параметрам качества воды

Параметры Весовой коэффициент (Щ) Относительный вес (ЯЩ)

рН, электропроводность, жесткость воды 4 0,091

Са2+, Мя2+ 3 0,068

№+ 4 0,091

НСОэ- 1 0,023

Шэ-, 8042-, С1- 5 0,11

Рис. 3. Предлагаемая структура для прогнозирования индекса качества воды

как электропроводность, жесткость воды, Са2+, М^2+, НСО3-, N03', 8042- и С1-. Для расчета индекса ка-частва воды, который измеряет качество грунтовых вод для орошения и потребления человеком используется уравнение

ЕИ

= Я,™,

ИКВ = ■

1=11

(1)

где Щ - это весовой коэффициент, представляющий собой отношение между константой пропорциональности и стандартным значением параметра качества воды ^ [13; 31]. Относительный вес (КЩ) показан в уравнении:

RW =■

1

1=1

(2)

1

где - стандартное значение /'-го параметра качества воды по данным ВОЗ [3]. Табл. 1 показывает вес и относительный вес (КЩ) параметров качества воды.

Модели машинного обучения

Мы внедрили различные алгоритмы регрессии для прогнозирования индекса качества воды, как показано на рис. 3. В регрессионном анализе используются независимые переменные для описания взаимосвязи между целевыми и предикторными переменными.

Рис. 4. Модель дерева решений для прогнозирования индекса качества воды

Линейная регрессия (ЛР)

Метод статистической регрессии, называемый линейной регрессией, используется в прогнозном анализе. Это один из простых алгоритмов, использующих регрессию для иллюстрации связи между непрерывными переменными. Алгоритм линейной регрессии использует независимую переменную V и зависимую переменную [28]:

V = Ро +РУК +...+РД, (3)

где значение точки пересечения ро и р,. (/-1, 2, ..., п) представляет собой коэффициенты параметров индекса качества воды; п - количество параметров равное 10.

Регрессия опорных векторов (РОВ)

В регрессии опорных векторов входной вектор для пространства х проецируется на многомерное пространство. Этот метод выполняется с соответствующей нелинейной функцией ядра, представленной символом /(х). Благодаря улучшенным методам оптимизации, которые можно использовать с различными переменными и ядрами, регрессия опорных векторов имеет положительную репутацию в плане эффективности прогнозирования.

Следующее уравнение представляет собой оценщик регрессии опорных векторов, где V действует как вектор весов, а Ь представляет смещения оценщика:

f РОВ = w( x) + b.

(4)

Регрессия XG Boost (XGB)

являются член регуляризации в его целевой функции, который делает ее менее склонной к переобучению, и использование целевой функции с уравнением Тейлора, которое позволяет XGB более точно определять функцию потерь [32].

Регрессор наименьшего угла (РНУ)

Регрессор наименьшего угла определяет связь между двумя атрибутами и движется в направлении, перпендикулярном атрибутам.

Регрессия Байесовского хребта (РБХ)

Регрессия Байесовского хребта, одна из наиболее практичных форм байесовской регрессии, вычисляет вероятностную модель проблемы регрессии. Формула коэффициента гребневой регрессии определяется с помощью квадрата величины коэффициента [24]:

р^ = min| y - X рц2 +Х|р|2 (5)

с настраиваемым параметром X .

Алгоритм XG Boost основан на алгоритме повышения градиента. Двумя значительными улучшениями

Случайный древовидный регрессор (СДР)

Древовидный регрессор использует несколько деревьев решений для выполнения задач регрессии и классификации, как показано на рис. 4.

Эластичный чистый регрессор (ЭЧР)

Лассо и хребет используются в линейной эластичной чистой регрессии для упорядочивания регрессионных моделей. Эта тактика сочетает в себе процедуры регрессии и лассо для улучшения регуляризации статистических моделей.

Рис. 5. Ансамблевая модель для прогнозирования индекса качества воды

Таблица 2

Методы МО С анализом главных компонент

RMSE R2 MAE MAPE MSE MDAPE

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Линейная регрессия 0,87 0,9984 0,1739 0,0029 0,7605 0,1152

Регрессия опорных векторов 21,21 0,0757 9,4664 0,2475 450,14 10,0573

Регрессия XG Boost 2,08 0,991 1,5108 0,0345 4,3509 1,8831

Регрессор наименьшего угла 0,87 0,9984 0,1739 0,0295 0,7605 0,1152

Регрессия Байесовского хребта 0,87 0,9984 0,174 0,0029 0,7605 0,1151

Случайный древовидный регрессор 3,16 0,9794 2,4404 0,0587 10,0126 3,1838

Эластичный чистый регрессор 21,57 0,0444 17,5259 0,813 465,39 22,5727

Ансамблевая модель 0,31 0,9980 2,771 0,09 9,7687 4,878

Ансамблевая модель (АМ)

Еще одним популярным алгоритмом машинного обучения является ансамблевая модель. В ней различные модели машинного обучения объединяются для прогнозирования результата. В нашем исследовании байесовская и логическая регрессия (рис. 5) объединены для прогнозирования индекса качества воды, поскольку может оказаться, что две модели будут иметь более низкие значения RMSE.

Результаты и обсуждение

Результативность различных моделей

Различные модели машинного обучения, такие как линейная регрессия, регрессия опорных векторов, регрессия XG Boost, регрессия наименьшего угла, регрессия Байесовского хребта, случайный древовидный регрессор, элестичный чистый регрессор и ансамблевая модель, были применены к набору данных. Производительность каждой модели оценивается с использованием следующих показателей:

Корень от средней квадратичной ошибки (RMSE) =

_v

V^N И 2

У измер. - i прогноз.

(6)

^И (I прогноз. — Iизмер.)2

R = -N-'

^ (г измер. — г прогноз.)2

Средне — квадратичная ошибка (MSE) =

ЕИ II ||2

г измер.—г прогноз,||

= N '

Средняя абсолютная погрешность (МАЕ) =

^ ^Цг прогноз. — г измер,|| (9)

(7)

(8)

N

Средняя абсолютная погрешность в %(МАРЕ) =

ZN II и

измер. - прогноз.||

= N '

Средняя абсолютная погрешность производительности (MDAPE) =

(10)

(11)

= средн.

N (измер. - прогноз.)^ измеренное

•100.

Показатели производительности, включая RMSE, R2, MAE, MAPE, MSE и MDAPE, были рассчитаны с использованием и без использования анализа главных компонент, соответственно, как показано в табл. 2 и 3. Ансамблевая модель превзошла другие модели и аналогичные исследования с точки зрения ошибки RMSE. Анализ главных компонент помогает в ин-

N

д е

Рис. 6. Показатели производительности с анализом главных компонент: a - RMSE; б - R2; в -MAE;

г - MAPE; д - MSE; е - MDAP

Таблица 3

Показатели производительности без анализа главных компонент

Методы машинного обучения Без анализа главных компонент

RMSE R2 MAE MAPE MSE MDAPE

Линейная регрессия 0,0000030 0,9999 0,0000024 0,00000004 9ел-12 0,0005

Регрессия опорных векторов 1,71 0,9936 0,9918 0,0513 2,92 0,79

Регрессия XG Boost 1,85 0,9925 1,3413 0,02543 3,42 1,46

Регрессор наименьшего угла 0,0000035 0,9666 0,0000026 0,00000004 8,41еЛ-12 0,0035

Регрессия Байесовского хребта 0,0000028 0,9999 0,0000024 0,00000004 7,84еЛ-12 0,0035

Случайный древовидный регрессор 3,6585 0,9708 2,4907 0,04974 13,38 2,7

Эластичный чистый регрессор 21,1777 0,0238 17,3209 0,05363 448,49 21,17

Ансамблевая модель 0,0000024 0,9999 0,0000022 0,00000004 0,0000033 0,0001

Таблица 4

Сравнительный анализ различных моделей машинного обучения для прогнозирования индекса качества воды

Ссылка Модель Параметры Прогноз ЯМ8Б

Лам Цуен, Гонконг [7] Дополнительная древовидная регрессия Биологическая потребность в кислороде, мутность, фосфаты ИКВ 3,74

Водосбор Талара, Иран [9; 10] Байесовские деревья аддитивной регрессии Биологическая потребность в кислороде, мутность, фосфаты, рН, нитраты, электропроводность, растворенный кослород, химическая потребность в кислороде ИКВ 2,71

Варта [19] Искусственная нейросеть Общая минерализация, жесткость воды, нитраты, марганец ИКВ 0,62450

Деревня Сычик (17 вырытых колодцев) [28] Искусственная нейросеть ОО, рН, Оа, и К, 8042- ИКВ 0,651258

Район Райпур, Чхаттисгарх, Индия [30] Глубокое обучение Общая минерализация, Оа2+, Mg2+, N03" и РО43- ИКВ 1,254

Предлагаемая работа Ансамблевая модель (логическая и байесовская регрессия) рН, электропроводимость, жесткость воды, Оа2+, Mg2+, №+, НОО3-, Шэ-, 8042- и О1- ИКВ 0,00000286

терпретации данных, хотя и не всегда выявляет значимые закономерности. На рис. 6 и 7 изображены показатели производительности в графическом виде.

Для преобразования многомерных данных в низкоразмерные данные часто используется анализ основных компонент (АОК). Многие коррелированные переменные в исходном наборе данных часто могут быть преобразованы в небольшое количество некоррелированных переменных [21; 25]. Хотя анализ основных показателей упрощает сложные многомерные данные, в этом исследовании все параметры качества грунтовых вод важны для определения индекса качества воды, и, следовательно, анализ основных показателей не дает лучших результатов.

В табл. 4 показан сравнительный анализ различных моделей машинного обучения для прогнозирования индекса качества воды. В [7] авторы исследовали эффективность дополнительной регрессии деревьев (ДРД) для прогнозирования индекса качества воды для реки Лам Тьюз и предложили среднеквадратичное отклонение 3,74 для комбинации входных параметров, таких как биологическая потребность в кислороде (БПК), мутность и концентрация фосфатов. Судхакару и соавт. [30] был сделан прогноз индекса качества воды на основе глубокого обучения для 226 проб грунтовых вод, взятых из Аранга округа Раджпур, Чхаттис-гарх, Индия, и получено значение ЯМБЕ 1,254. В [18] модель искуственной нейросети применена к 17 вырытым колодцам, и получено значение ЯМБЕ 0,651258. Авторы [9] предложили гибридную модель байесовских деревьев аддитивной регрессии и получили ЯМБЕ 2,71. Авторы [19] использовались пять параметров, вместе с искусственной нейросетью для реки Варта в Польше. ЯМБЕ модели 0,62450. На рис. 8 показано значение ЯМБЕ, полученное исследователями с ис-

пользованием различных моделей машинного обучения.

Классификация индекса качества грунтовых вод для штата Тамилнад

Ансамблевые модели в дальнейшем используются для классификации областей качества грунтовых вод в штате Тамилнад на основе индекса качества воды. В табл. 5 показан диапазон индекса качества воды и соответствующая ему отметка класса.

На рис. 9 показаны районы, в которых качество грунтовых вод находится в отличном и умеренном состоянии. Отмечено, что в некоторых частях Ченнаи грунтовые воды отличного качества с индексом качества воды ниже 25, а такие районы, как Кришнагири, Салем, Дхармапури, Тируваннамалай, Тричи, Динди-гул и Нагапаттинам, попадают под категорию умеренного качества. На рис. 10 показано, что Канчипурам, Намаккал, Каньякумари и Мадурай относятся к категории хороших по индексу качества воды, а такие районы, как Тутикорин, Раманатхапурам, Куддалор и Ченгалпатту, относятся к категории плохих соответственно. Это показатели качества грунтовых вод с использованием индекса качества воды в различных местах штата Тамилнад.

На рис. 11 показаны районы, попадающие в категорию «очень плохо» по индексу качества воды. К этой категории относятся районы Тирунвелели, Тен-каси, Вирудхунагар, Тени, Шивагангай, Пудукоттай, Коимбатур, Нилгирис, Эроде и Виллупурам.

В табл. 6 показаны показатели производительности для ансамблевой модели. Замечено, что для графика, соответствующего категории «отлично», получена точность 96%. Значение точности составляет 96% и для классификации округа «хорошо», обнаружено, что

д е

Рис. 7. Показатели производительности без анализа главных компонент: a - RMSE; б - R2; в - MAE; г - MAPE; д - MSE; е - MDAPE

Диапазон значений и отметок индекса качества воды

Таблица 5

Рис. 8. Значения RMSE, заданные различными моделями машинного обучения

№ п/п Оценка ИКВ Качество грунтовых вод

1 <25 отлично

2 26-50 хорошо

3 51-60 умеренно

4 61-75 плохо

5 76-100 очень плохо

а б

Рис. 9. Районы, относящиеся к категориям: а - отлично; б - умеренно по качеству грунтовых вод

-

} г-» \ Намаккал ?

У Ариялто/л 1

/ / Мадурай ^

\ ¿Г с

\ п \ т

« Каньякумари i

а б

Рис. 10. Районы, относящиеся к категориям: а - хорошо; б - плохо по качеству грунтовых вод

Определение метрик для классификации ансамблевой модели

Таблица 6

Категория Точность Прецизионость Отзыв Л-оценка

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отлично 0,96 0,96 1,00 0,98

Хорошо 0,96 0,97 0,92 0,94

Умеренно 0,96 0,94 0,96 0,95

Плохо 0,96 0,94 0,94 0,94

Очень плохо 0,96 0,96 0,95 0,95

отзыв и оценка F1 максимальны для классификации «отлично».

Заключение

В этом исследовании восемь моделей машинного обучения использовались для прогнозирования качества грунтовых вод на основе индекса качества воды. Модели проверяются с использованием показателей качества, таких как RMSE, R2, MAE, MAPE, MSE и MDAPE. Замечено, что ансамблевая модель дала наименьшую среднеквадратичную ошибку порядка 2,8 10-6 во время тестирования. Отмечено, что ошибка меньше по, сравнению с другими моделями и другими предыдущими исследованиями. Модель будет полезна для прогнозирования ряда дополнительных биохимических и физико-химических характеристик грунтовых вод используемых для питья. Результаты этого исследования могут быть усилены путем сравнения производительности моделей машинного обучения с моделью Deep с учетом различных входных гидрохимических параметров. Далее ансамблевая модель используется для классификации областей на основе значений индекса качества воды.

Список литературы

1. Abyaneh H.Z. Evaluation of multivariate linear regression and artificial neural networks in prediction of ground quality parameters // Journal of Environmental Science and Health. -2014. - Vol. 12, No. 40. - P. 12-23.

2. Alias Ecosystem Health Assessment of Sungai Pengkalan Chepa Basin: Water Quality and Heavy Metal Analysis. Saint Malays // S.W.A.N. - 2020. - Vol. 49, No. 1. - P. 179-187.

3. Al-Othman A. A. Evaluation of the suitability of surface water from riyadh mainstream saudi arabia for a variety of uses // Arabian Journal of Chemistry. - 2019. - Vol. 12, No. 8. -Р. 2104-2110.

4. Al-Badaii F., Shuhaimi-Othman M., Gasim M.B. Water quality assessment of the Semenyih river, Selangor, Malaysia // Journal of Chemistry. - 2013. - Vol. 46, No. 4. -P. 34-46.

5. Agrawal P., Sinha A., Kumar S., Agarwal A., Banerjee A., Villuri V.G.K., Annavarapu C.S.R., Dwivedi R., Dera V.V.R., Sinha J., Pasupuleti S. Exploring artificial intelligence techniques for groundwater quality assessment // Water. -2021. - Vol. 13, No. 117. - P. 98-114.

6. Ahmad Z., Rahim N., Bahadori A., Zhang J. Improving water quality index prediction in the Perak River basin Malaysia through a combination of multiple neural networks // International Journal of River Basin Management. - 2017. -Vol. 15, No. 2. - Р. 79-87.

7. Asadollah S.B.H.S., Sharafati A., Motta D., Yaseen Z.M. River water quality index prediction and uncertainty analysis: A comparative study of machine learning models // Journal of Environmental Chemical. - 2021. - Vol. 9, No. 3 -P. 105-109.

— \y \—

^-vT^-T J ВнлпупурамУ

Эроде J __ Ннлгнрис < Ли J

Коимбатдо S -ЛрПудукотмйГ —

tL. / Тени J г^Сивагангаи^? /

i у Внрудханагар 7—— / ^S^NS*.

\ / ТенкасиС, 1 9 -/ щ

\ (Тирунвелели f Л (

Рис. 11. Районы, относящиеся к категории «очень плохо» по качеству грунтовых вод

8. Azad A., Karami H., Farzin S., Saeedian A., Kashi H., Sayyahi F. Prediction of water quality parameters using ANFIS optimized by intelligence algorithms (case study: Gorganrood river) // KSCE Journal of Civil Engineering. -2018. - Vol. 22. - P. 2206-2213.

9. Bui X.N., Nguyen H, Le H.A., Bui H.B., Do N.H. Prediction of Blast-induced Air Overpressure in Open-Pit Mine: Assessment of Different Artificial Intelligence Techniques Natural Resources Research. - 2019. doi: 10.1007/s11053-019-09461-0

10. Bui D.T., Khosravi K., Tiefenbacher J., Nguyen H., Kazakis N. Improving prediction of water quality indices using novel hybrid machine-learning algorithms // Science of the Total Environment. - 2020. - Vol. 721. - No. 137612. - P. 1-14.

11. Chou J.S., Ho C.C., Hoang H.S. Determining the quality of water in a reservoir using machine learning // Ecological Informatics. - 2018. - Vol. 44. - P. 57-75.

12. Danades A., Pratama D., Anggraini D., Anggriani D. Comparison of accuracy level K-nearest neighbor algorithm and support vector machine algorithm in classification water quality status // 6th International Conference on System Engineering and Technology (ICSET). - 2016. - P. 137-141.

13. Das Kangabam, Bhoominathan S.D., Kanagaraj S., Govindaraju M. Development of a water quality index (WQI) for the Loktak Lake in India // Applied Water Science. -2017. - Vol. 7, No. 6. - P. 2907-2918.

14. Gazzaz N.M., Yusoff M.K., Aris A.Z., Juahir H., Ramli M.F. Artificial neural network modeling of the water quality index for Kinta River (Malaysia) using water quality variables as predictors // The Marine Pollution Bulletin. - 2012. -Vol. 64. - P. 2409-2420.

15. Haghiabi A.H., Nasrolahi A.H., Parsaie A. Water quality prediction using machine learning methods // Water Quality Research Journal. - 2018. - Vol. 53. - P. 3-12.

16. Hamzeh Haghibi A., Nasrolahi A., Parsaie A. Water quality prediction using machine learning methods // Water Quality Research Journal. - 2018. - Vol. 53, No. 1. - P. 3-13.

17. Jaloree S., Rajput A., Sanjeev G. Decision tree approach to build a model for water quality // Binary Journal of Data Mining & Networking. - 2014. - Vol. 4. - P. 25-28.

18. Kulisz M., Kujawska J., Przysucha B., Cel W. Forecasting water quality index in groundwater using artificial neural network // Energies. - 2021. - Vol. 14, No. 5875.

19. Kulisz M., Kujawska J. Application of artificial neural network (ANN) for water quality index (WQI) prediction for the river Warta, Poland // Journal of Physics: Conference Series. - 2021.

20. Liu J., Yu C., Hu Z. et al. Accurate prediction scheme of water quality in smart mariculture with deep Bi-S-SRU learning network // IEEE Access. - 2020. - Vol. 8. - P. 24784-24798.

21. Leong W.C., Bahadori A., Zhang J, Ahmad H. Prediction of water quality index (WQI) using support vector machine (SVM) and least square-support vector machine (LS-SVM) // International Journal of River Basin Management. - 2019.

22. Machiwal D., Cloutier V., Guler C., Kazakis N. A Review of GIS - Integrated Statistical Techniques for Groundwater Quality Evaluation and Protection // Environmental Earth Science. - 2018. - Vol. 77, No. 681.

23. Nayan A.A., Kibria M.G., Rahman M.O., Saha J. River Water Quality Analysis and Prediction Using GBM. - 2021. -No. 11. P. 219-224.

24. Ogutu J.O., Schulz-Streeck T., Piepho H.P. Genomic selection using regularized linear regression models: Ridge regression, lasso, elastic net, and their extensions // BMC Proc. - 2012. -Vol. 6, No. 10. - P. 34-46.

PREDICTION AND CLASSIFICATION OF GROUNDWATER QUALITY INDEX (WQI) USING REGRESSION LEARNING MODELS

X. Anitha Mary1, I. Johnson2, K. Subramaniam3, M. Karthikeyan1, J. Roshan1

1 Karunya Institute of Technology and Sciences, Coimbatore, India

2 Tamil Nadu Agricultural University, Coimbatore, India

3 Karpagam Academy of Higher Education, Coimbatore, India

ABSTRACT

Groundwater has developed into a vital natural resource as a result of its significant use in home applications, particularly for drinking, as well as in the agricultural and industrial sectors. The quality and quantity of groundwater have varied greatly across time and space. Water Quality Index (WQI) which depends on many parameters, remains a critical indicator of the quality of water, which leads to effective water management. The administrators will be benefitted if an automatic system for predicting water quality exists. The primary aim of this study is to design a model to predict the groundwater quality in different districts of Tamil Nadu (TN), India, using Machine Learning (ML) techniques. The available data constitutes the physical and chemical characteristics of groundwater such as pH, electrical conductivity (EC), TH, Ca2+, Mg2+, Na+, HCO3-, NO3-, SO42-, and Cl- along with its suitability for irrigation and drinking purposes. In this study, many ML algorithms were implemented, and the results were compared.

©PNRPU

25. Rankovic V., Radulovic J., Radojevic I., Ostojic A., Comic L. Neural network modeling of dissolved oxygen in the Gruza reservoir, Serbia // Ecological Modelling. - 2010. -Vol. 221. - P. 1239-1244.

26. Rose L., Mary X.A., Johnson I. et al. Polyaza functionalized graphene oxide nanomaterial based sensor for Escherichia coli detection in water matrices // Scientific Reports. - 2021. -No. 11. https://doi.org/10.1038/s41598-021-96539-6

27. Rose L., Mary X.A., Karthik C. Integration of sensors for dam water quality analysis - a prototype // Water Science and Technology. - 2021. - No. 11. doi: 10.2166/wst.2021.246.

28. Schneider A., Hommel G., Blettner M. Linear regression analysis: Part 14 of a series on evaluation of scientific publications // Deutsches Arzteblatt International. - 2010. -Vol. 107. - No. 776-78.

29. Shafi U., Mumtaz R., Anwar H., Qamar A.M., Khurshid H. Surface water pollution detection using internet of things // 15th International Conference on Smart Cities: Improving Quality of Life Using ICT & IoT (HONET-ICT). - 2018. -P. 92-96.

30. Sudhakar S., Pasupuleti S., Singha S.S., Singh R., Kumar S. Prediction of groundwater quality using efficient machine learning technique // Chemosphere. - 2021. - Vol. 276. -No. 130265.

31. Tyagi S., Sharma B., Singh P., Dobhal R. Water quality assessment in terms of water quality index // American Journal of Water Resources. - 2013. - Vol. 1, No. 3. - P. 34-38.

32. Zhang W., Wu C., Zhong H., Li Y., Wang L. Prediction of undrained shear strength using extreme gradient boosting and random forest based on Bayesian optimization // Geoscience Frontiers. - 2021. - Vol. 12, No. 1. - P. 469-477.

ARTICLE INFO

Received: 12 April 2023 Approved: 15 June 2023 Accepted for publication: 17 June 2023

Key words:

water quality, AI models, prediction, water quality index, classification.

i Надоели баннеры? Вы всегда можете отключить рекламу.