УДК 504.064.36
Султан Н.А.
магистрант кафедры геодезии и картографии Евразийский национальный университет им. Л.Н. Гумилева
(г. Астана, Казахстан)
МАШИННОЕ ОБУЧЕНИЕ В ОБНАРУЖЕНИИ ЗАГРЯЗНЕНИЯ ЗЕМЕЛЬ: ПРЕИМУЩЕСТВА ПЕРЕД ОЦЕНКОЙ ЧЕЛОВЕКОМ - ОБЗОРНАЯ СТАТЬЯ
Аннотация: загрязнение земель является серьезной экологической проблемой, оказывающей пагубное воздействие на экосистемы и здоровье человека. Традиционным методам мониторинга и регулирования загрязнения земель часто не хватает эффективности и масштабируемости [1]. В то время как традиционные методы часто основаны на наблюдении со стороны человека и ручной оценке, методы машинного обучения (МО) обладают потенциальными преимуществами с точки зрения точности, эффективности и масштабируемости. Цель данной обзорной статьи - дать всесторонний обзор применения методов МО в контексте обнаружения загрязнения земель, мониторинга и управления им. В нем обобщаются результаты существующих исследований, обсуждаются методологии, выявляются проблемы и намечаются будущие направления использования МО для эффективного решения проблем загрязнения земель.
Ключевые слова: загрязнение земель, машинное обучение, мониторинг окружающей среды, обнаружение загрязнения, анализ данных.
Вступление.
Загрязнение земель, характеризующееся накоплением вредных веществ в почве и воде, представляет серьезную угрозу экологической устойчивости, здоровью человека и целостности экосистемы. Они возникают из-за различных источников, включая промышленную деятельность, методы ведения сельского хозяйства, удаление отходов и урбанизацию, что приводит к деградации почв, загрязнению подземных вод и разрушению среды обитания [2]. Своевременное
и точное обнаружение загрязнения земель имеет важное значение для смягчения его негативных последствий и сохранения качества окружающей среды.
Традиционные методы обнаружения загрязнения земель часто основаны на наблюдении человека и ручной оценке, которые являются трудоемкими, субъективными и ограниченными по масштабу. Во многих работах подчеркивается, что на оценку человеком очагов загрязнения могут влиять предубеждения, опыт и доступность ресурсов, что приводит к несоответствиям и неточностям в идентификации и характеристике источников загрязнения [3]. Кроме того, ручные методы с трудом поддаются анализу крупномасштабных и сложных наборов экологических данных, что затрудняет усилия по мониторингу тенденций загрязнения и эффективной оценке долгосрочного воздействия на окружающую среду.
В последние годы методы машинного обучения (МО) стали многообещающими инструментами для улучшения обнаружения загрязнения земель и борьбы с ним. Алгоритмы МО могут анализировать огромные объемы экологических данных с беспрецедентной скоростью, точностью и эффективностью, позволяя автоматически обнаруживать очаги загрязнения, идентифицировать источники загрязнения и прогнозировать тенденции загрязнения [4]. Используя передовые методы анализа данных и автоматизации, МО предлагает ряд преимуществ по сравнению с человеческими методами обнаружения загрязнения земель.
Эта обзорная статья направлена на изучение и анализ преимуществ использования МО для обнаружения загрязнения земель по сравнению с традиционной оценкой воздействия человека. Обобщая результаты существующих исследований, обсуждая методологии, выделяя тематические исследования, а также рассматривая проблемы и направления на будущее, этот обзор призван дать представление о потенциале МО для революционизирования практики экологического мониторинга и продвижения стратегий устойчивого управления земельными ресурсами. Благодаря междисциплинарному сотрудничеству и инновациям подходы, основанные на МО, могут значительно
улучшить нашу способность выявлять, смягчать и предотвращать загрязнение земель, способствуя сохранению здоровья окружающей среды и благополучию нынешнего и будущих поколений.
Методологии.
Контролируемое Обучение.
Методы контролируемого обучения предполагают обучение моделей МО на основе маркированных наборов данных, где каждая точка данных связана с известным результатом или меткой класса. В контексте обнаружения загрязнения земель алгоритмы контролируемого обучения могут быть обучены классифицировать образцы окружающей среды (например, почвы, воды) как загрязненные или незагрязненные на основе таких характеристик, как химический состав, физические свойства и местоположение. Распространенные алгоритмы контролируемого обучения включают деревья решений, методы опорных векторов (SVM), случайные леса и нейронные сети. Эти алгоритмы извлекают уроки из исторических данных, чтобы делать прогнозы об уровнях загрязнения и с высокой точностью определять источники загрязнения [5].
Неконтролируемое Обучение.
Методы неконтролируемого обучения направлены на выявление закономерностей и структур в немаркированных наборах данных без предварительного знания меток классов. Алгоритмы кластеризации, такие как кластеризация по методу ^средних и иерархическая кластеризация, могут группировать образцы окружающей среды в кластеры на основе сходства в их пространстве признаков. Методы обнаружения аномалий, такие как изолирующие леса и одноклассовая SVM, позволяют идентифицировать необычные или аномальные точки данных, которые отклоняются от ожидаемых закономерностей. Методы обучения без контроля ценны для выявления очагов загрязнения, чрезвычайных ситуаций и возникающих угроз загрязнения в наборах экологических данных [6].
Глубокое Обучение.
Методы глубокого обучения, в частности сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), показали значительный успех в обработке крупномасштабных и многомерных наборов экологических данных. CNN превосходно извлекает пространственные характеристики из изображений и данных дистанционного зондирования, что делает их подходящими для таких задач, как классификация растительного покрова и картирование загрязнения. RNN, с другой стороны, эффективны для анализа последовательных данных, таких как временные ряды данных из сенсорных сетей или спутниковых снимков. Модели глубокого обучения могут автоматически изучать иерархические представления характеристик окружающей среды, что позволяет точно прогнозировать уровни загрязнения и идентифицировать источники загрязнения [7].
Ансамблевое обучение.
Ансамблевое обучение сочетает в себе несколько моделей МО для повышения точности и надежности прогнозирования. Ансамблевые методы, такие как объединение в пакеты, бустинг и стек, позволяют обучать нескольких базовых учащихся различным подмножествам данных и объединять их прогнозы для получения конечного результата. В контексте обнаружения загрязнения земель комплексное обучение может повысить надежность и эффективность обобщения моделей МО за счет уменьшения дисперсии и смещений. Комплексные методы особенно полезны при работе с зашумленными или несбалансированными наборами данных и могут помочь снизить риск переобучения [8].
Слияние Данных.
Методы слияния данных объединяют информацию из множества разнородных источников данных, таких как спутниковые снимки, сенсорные сети и географические информационные системы (ГИС), для повышения точности и полноты систем экологического мониторинга. Методы синтеза, такие как синтез на уровне признаков, синтез на уровне принятия решений и синтез
датчиков, объединяют дополнительные источники данных для обеспечения более полного понимания динамики загрязнения. Методы слияния данных могут повысить пространственную и временную разрешающую способность систем обнаружения загрязнения и обеспечить возможность принятия более обоснованных решений по управлению окружающей средой [9].
Объяснимый искусственный интеллект.
Методы объяснимого искусственного интеллекта (XAI) направлены на повышение интерпретируемости и прозрачности моделей МО, особенно моделей глубокого обучения, которые часто рассматриваются как системы "черного ящика". Методы XAI, такие как анализ важности признаков, визуализация модели и извлечение правил, дают представление о процессе принятия решений в рамках моделей МО и помогают заинтересованным сторонам понять факторы, влияющие на результаты обнаружения загрязнения. Поддающиеся объяснению методы искусственного интеллекта необходимы для укрепления доверия к системам обнаружения загрязнения, основанным на МО, особенно в контексте регулирования и принятия решений [10].
Эти методологии могут быть адаптированы и скомбинированы в зависимости от конкретных целей, характеристик данных и ограничений проектов по обнаружению загрязнения земель. Используя разнообразный набор методов и методологий МО, исследователи-экологи и практики могут разрабатывать надежные и эффективные системы обнаружения загрязнения, которые улучшают практику экологического мониторинга и способствуют разработке стратегий устойчивого управления земельными ресурсами.
Преимущества.
Обнаружение загрязнения земель представляет значительные трудности из-за сложного характера экологических данных и разнообразных источников загрязнения [11]. В то время как традиционные методы основаны на ручном наблюдении и субъективной оценке, методы машинного обучения (МО) обладают рядом преимуществ перед человеческим подходом к обнаружению
загрязнения земель [12]. В этом разделе подробно рассматриваются эти преимущества, подчеркивается преобразующий потенциал МО в повышении точности, эффективности и масштабируемости усилий по обнаружению загрязнения земель.
Точность и Последовательность.
Алгоритмы МО позволяют анализировать огромные объемы данных об окружающей среде с высокой точностью и согласованностью, сводя к минимуму ошибки и предвзятость, связанные с человеческими суждениями. В отличие от наблюдателей - людей, на модели МО не влияют субъективные факторы, такие как опыт, усталость или когнитивные искажения, что приводит к более надежным и воспроизводимым результатам при обнаружении загрязнения земель [13]. Используя маркированные наборы данных для обучения, контролируемые алгоритмы МО могут научиться с высокой точностью определять закономерности загрязнения, обеспечивая точную классификацию и прогнозирование очагов загрязнения. Кроме того, методы МО позволяют автоматизировать проверку данных и обнаружение выбросов, повышая надежность систем обнаружения загрязнения.
Эффективность и Автоматизация.
Подходы, основанные на МО, упрощают процесс обнаружения загрязнения земель за счет автоматизации обработки, анализа и интерпретации данных. В отличие от ручных методов, которые требуют значительного времени и ресурсов для сбора и анализа данных, алгоритмы МО позволяют быстро и эффективно анализировать крупномасштабные наборы экологических данных. Используя передовые методы анализа данных, модели МО могут выявлять сложные закономерности и взаимосвязи в данных об окружающей среде, которые могут быть незаметны для наблюдателей - людей [14]. Такая автоматизация не только повышает скорость и эффективность обнаружения загрязнений, но и высвобождает человеческие ресурсы для решения более стратегических задач, таких как принятие решений и разработка политики.
Масштабируемость и Адаптивность.
Методы МО обладают масштабируемостью и адаптивностью, что делает их хорошо подходящими для мониторинга загрязнения земель в различных географических регионах и временных масштабах. Модели МО могут масштабироваться для обработки больших и разнородных наборов данных, что позволяет осуществлять всесторонний мониторинг тенденций загрязнения и пространственных закономерностей с течением времени. Более того, алгоритмы МО могут адаптироваться к изменяющимся условиям окружающей среды и возникающим угрозам загрязнения, постоянно извлекая уроки из новых данных. Такая адаптивность гарантирует, что системы обнаружения загрязнения на основе МО остаются эффективными и актуальными в динамичных экологических условиях, позволяя осуществлять проактивное вмешательство и стратегии смягчения последствий [15].
Мониторинг и Раннее предупреждение в режиме реального времени.
Подходы, основанные на МО, позволяют осуществлять мониторинг загрязнения земель в режиме реального времени и раннее выявление инцидентов, связанных с загрязнением, способствуя своевременному вмешательству и реагированию. Благодаря интеграции сенсорных сетей, спутниковых снимков и других источников данных с алгоритмами МО природоохранные органы могут отслеживать уровни загрязнения практически в режиме реального времени и выявлять потенциальные очаги загрязнения до того, как они перерастут в более масштабные экологические катастрофы. Модели МО могут анализировать потоковые данные, поступающие с датчиков и платформ дистанционного зондирования, что позволяет быстро обнаруживать аномалии и отклонения от базовых уровней загрязнения. Такая возможность мониторинга в режиме реального времени повышает устойчивость систем экологического мониторинга и снижает риск длительного ущерба окружающей среде [16].
Говоря кратко, машинное обучение дает значительные преимущества по сравнению с решениями человека при обнаружении загрязнения земель, включая
повышенную точность, эффективность, масштабируемость и возможности мониторинга в режиме реального времени. Благодаря использованию передовых методов анализа данных и автоматизации подходы, основанные на МО, могут революционизировать практику экологического мониторинга и способствовать внедрению более эффективных стратегий борьбы с загрязнением земель. Однако решение проблем, связанных с качеством данных, интерпретируемостью моделей и нормативными соображениями, имеет важное значение для реализации всего потенциала МО в области обнаружения загрязнения земель и смягчения его последствий.
Недостатки и Недочеты.
Несмотря на то, что методы машинного обучения (МО) обладают значительными преимуществами по сравнению с методами, используемыми человеком при обнаружении загрязнения земель, они также имеют определенные недостатки, которые необходимо тщательно учитывать. Понимание этих ограничений имеет решающее значение для разработки надежных и эффективных систем обнаружения загрязнения и устранения потенциальных проблем. Ниже приведены некоторые из недостатков МО в обнаружении загрязнения земель:
• Качество и Доступность Данных: Проблемы с получением высококачественных и достаточных данных для обучения моделям МО могут препятствовать их эффективности [17].
• Интерпретируемость моделей: модели МО, особенно с глубоким обучением, часто не поддаются интерпретации, что затрудняет понимание того, как они принимают решения [17].
• Предубеждение и справедливость: модели МО могут увековечить предвзятость, присутствующую в данных обучения, что потенциально может привести к несправедливым или дискриминационным результатам.
• Сложность вычислений и требования к ресурсам: Некоторые алгоритмы МО требуют больших вычислительных затрат и требуют значительных ресурсов для обучения и внедрения [17].
• Человеческий опыт и суждения: методам МО может не хватать тонкого понимания нюансов и контекстуальных знаний, которыми обладают эксперты - люди при интерпретации экологических данных [17].
Признавая и смягчая эти ограничения, мы можем использовать возможности МО для разработки надежных и эффективных систем обнаружения загрязнения, которые способствуют экологической устойчивости и охране здоровья населения.
Заключение.
Машинное обучение обладает огромным потенциалом для революционного выявления загрязнения земель и борьбы с ним, позволяя принимать решения на основе данных и разрабатывать стратегии активного вмешательства. Однако решение проблем, связанных с качеством данных, интерпретируемостью моделей и масштабируемостью, имеет решающее значение для реализации всех преимуществ МО в экологических приложениях. Для совершенствования методов МО и содействия их интеграции в практику экологического мониторинга и управления окружающей средой необходимы постоянные исследования и междисциплинарное сотрудничество.
В области обнаружения загрязнения земель интеграция методов машинного обучения представляет собой многообещающий способ революционизировать практику экологического мониторинга. На протяжении всего этого обзора мы изучали преимущества МО перед решениями человека, вникая в его потенциал повышения точности, эффективности, масштабируемости и возможностей мониторинга в режиме реального времени. Однако, наряду с этими преимуществами, важно признать недостатки и проблемы, связанные с подходами, основанными на МО.
Точность моделей МО при обнаружении загрязнения земель не имеет себе равных, они используют огромные объемы данных для получения надежных и последовательных результатов. Автоматизируя обработку и анализ данных, методы МО упрощают работу по обнаружению, позволяя быстро выявлять очаги загрязнения и своевременно принимать меры. Кроме того, масштабируемость алгоритмов МО позволяет осуществлять всесторонний мониторинг тенденций загрязнения в различных географических регионах и временных масштабах, предоставляя бесценную информацию о динамике загрязнения окружающей среды.
Возможности мониторинга в режиме реального времени, предоставляемые системами на базе МО, особенно важны для раннего обнаружения инцидентов, связанных с загрязнением, и разработки стратегий оперативного реагирования. Благодаря интеграции сенсорных сетей, спутниковых снимков и других источников данных алгоритмы МО могут анализировать потоковые данные для выявления аномалий и отклонений от базовых уровней загрязнения. Такой упреждающий подход к обнаружению загрязнения снижает риск длительного ущерба окружающей среде и способствует принятию более эффективных мер по смягчению последствий загрязнения.
Однако, несмотря на эти преимущества, подходы, основанные на МО, также сталкиваются с проблемами, которые необходимо решить, чтобы максимально повысить их эффективность. Качество и доступность данных по-прежнему вызывают серьезные опасения, поскольку наборы экологических данных часто страдают от зашумленности, необъективности и неполноты. Интерпретируемость моделей - еще одна область, вызывающая озабоченность, поскольку модели МО, основанные на "черном ящике", могут быть непрозрачными, что затрудняет понимание того, как они принимают свои решения. Более того, искажения, присутствующие в обучающих данных, могут привести к несправедливым или дискриминационным результатам, что
подчеркивает важность справедливости и подотчетности в системах обнаружения загрязнения, основанных на МО.
Преодоление этих проблем требует междисциплинарного сотрудничества и инноваций, когда заинтересованные стороны из академических кругов, промышленности и правительства работают сообща над разработкой надежных и этичных решений на основе МО. Решение проблем с качеством данных, внедрение мер прозрачности и подотчетности, а также обеспечение справедливости при принятии алгоритмических решений являются важными шагами на пути к созданию надежных систем обнаружения загрязнения.
Повышение интерпретируемости моделей машинного обучения имеет решающее значение для укрепления доверия к их результатам. В будущих исследованиях приоритетное внимание должно быть уделено разработке понятных методов искусственного интеллекта, которые дают представление о процессе принятия решений с помощью алгоритмов машинного обучения, позволяя заинтересованным сторонам более эффективно понимать и интерпретировать предсказания моделей.
В заключение, несмотря на то что машинное обучение дает значительные преимущества по сравнению с решимостью человека в обнаружении загрязнения земель, важно осознавать связанные с этим проблемы и решать их. Используя сильные стороны методов МО и устраняя их ограничения, мы можем разрабатывать более точные, эффективные и масштабируемые системы обнаружения загрязнений, которые способствуют экологической устойчивости и здоровью населения.
Благодаря постоянным исследованиям, сотрудничеству и инновациям мы можем использовать весь потенциал машинного обучения для решения сложных проблем, связанных с загрязнением земель, и проложить путь к более устойчивому будущему.
СПИСОК ЛИТЕРАТУРЫ:
1. Thessen, A. Adoption of Machine Learning Techniques in Ecology and Earth Science // One Ecosystem. 2016. С. 1-38;
2. Land Pollution: Causes, Effects and Prevention // Texas Disposal Systems, официальный сайт [Электронный ресурс]. URL: https://link.springer.com/article/10.1007/s13199-021-00778-0 (Дата обращения: 03.04.2024);
3. Goyal P., Gulia S., Goyal S.K. Identification of air pollution hotspots in urban areas - An innovative approach using monitored concentrations data // Science of the Total Environment. 2021. Т. 798;
4. Wu, J., & Zhao, F. Machine learning: An effective technical method for future use in assessing the effectiveness of phosphorus-dissolving microbial agroremediation // Frontiers in Bioengineering and Biotechnology. 2023. С. 1-11;
5. Cunningham P., Cord M., Delany S. J. Supervised learning // Machine learning techniques for multimedia: case studies on organization and retrieval. - Berlin, Heidelberg : Springer Berlin Heidelberg, 2008. С. 21-49;
6. Ghahramani Z. Unsupervised learning // Summer school on machine learning. - Berlin, Heidelberg : Springer Berlin Heidelberg, 2003. С. 72-112;
7. Abdulrahman M. L. et al. A review on deep learning with focus on deep recurrent neural network for electricity forecasting in residential building // Procedia Computer Science. 2021. Т. 193. С. 141-154;
8. Dong X. et al. A survey on ensemble learning // Frontiers of Computer Science. 2020. Т. 14. С. 241-258;
9. Zhang J. Multi-source remote sensing data fusion: status and trends // International Journal of Image and Data Fusion. 2010. №. 1. С. 5-24;
10. Xu F. et al. Explainable AI: A brief survey on history, research areas, approaches and challenges // Natural Language Processing and Chinese Computing: 8th CCF International Conference, NLPCC 2019, Dunhuang, China, October 9-14, 2019, Proceedings, Part II 8. - Springer International Publishing, 2019. С. 563-574;
11. Sharma V. et al. Application of geographic information system and remote sensing in heavy metal assessment // Heavy Metals in the Environment: Impact, Assessment, and Remediation. 2020. С. 191 - 204;
12. Peng Z. et al. Application of machine learning in atmospheric pollution research: A state-of-art review // Science of the Total Environment. 2024. Т. 910;
13. Liu X. et al. Data-Driven Machine Learning in Environmental Pollution: Gains and Problems // Environmental Science and Technology. 2022. C 2124 - 2133;
14. Kalra A. et al. Machine learning for automation of radiology protocols for quality and efficiency improvement // Journal of the American College of Radiology. 2020. L 17. №. 9. C 11491158;
15. Wang M. et al. A survey on large-scale machine learning //I E E E Transactions on Knowledge and Data Engineering. 2020. L 34. №. 6. C 2574-2594;
16. Li Z. et al. Machine learning seismic wave discrimination: Application to earthquake early warning // Geophysical Research Letters. 2018. L 45. №. 10. C 4773-4779;
17. Moshayedi A. J. et al. Deep learning application pros and cons over algorithm deep learning application pros and cons over algorithm // EAI Endorsed Transactions on AI and Robotics. 2022. L 1. №. 1
Sultan N.A.
L.N. Gumilyov Eurasian National University (Astana, Kazakhstan)
MACHINE LEARNING IN DETECTION OF LAND POLLUTION: ADVANTAGES OVER HUMAN EVALUATION - REVIEW ARTICLE
Abstract: land pollution is a serious environmental problem that has a detrimental effect on ecosystems and human health. Traditional methods of monitoring and regulating land pollution often lack efficiency and scalability [1]. While traditional methods are often based on human observation and manual evaluation, machine learning (MO) methods have potential advantages in terms of accuracy, efficiency and scalability. The purpose of this review article is to provide a comprehensive overview of the application of MO methods in the context of land pollution detection, monitoring and management. It summarizes the results of existing research, discusses methodologies, identifies problems and outlines future directions for using MO to effectively solve land pollution problems.
Keywords: landpollution, machine learning, environmental monitoring, pollution detection, data analysis.