УДК 004.9:574.5
ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ ОЦЕНКИ КАЧЕСТВА ВОДЫ
РЕКИ ЕНИСЕЙ
1 2 1* 1 О.В. Пашковская , А.В. Андрианова , И.А. Потапенко , В.А. Сучков
1Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнёва Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 2 Красноярский филиал «Всероссийского научно-исследовательского института рыбного хозяйства и
океанографии» («НИИЭРВ») Российская Федерация, 660097, г. Красноярск, ул. Парижской Коммуны, 33 E-mail: potapenkorra@yandex.ru
Рассматривается использование кластерного анализа в оценке проб воды реки Енисей. Данные проб воды были приведены к однородному виду, после чего с использованием выбранной метрики проведена кластеризация совокупности наблюдений.
Ключевые слова: анализ данных, кластерный анализ, кластеризация, оценка состояния экосистем.
APPLICATION OF CLUSTER ANALYSIS TO ASSESS WATER QUALITY
OF THE YENISEI RIVER
O.V. Pashkovskaya1, A.V. Andrianova2, I.A. Potapenko1*, V.A. Suchkov1
:Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation 2Krasnoyarsk branch of VNIRO («NIIERV») 33, Parizhskaya Kommuny Str., Krasnoyarsk, 660049, Russian Federation *E-mail: potapenkorra@yandex.ru
The use of cluster analysis in the evaluation of water samples of the Yenisei River is considered. The water sample data were brought to a homogeneous form, after which, using the selected metric, a clustering of the set of observations was carried out.
Keywords: data analysis, cluster analysis, clustering, ecosystem assessment.
Ежегодно влияние деятельности человечества на природные ресурсы увеличивается, в частности на поверхностные воды. В связи с чем, крайне актуальной становится проблема мониторинга и контроля состояния поверхностных вод. Для эффективного контроля важно использовать объективные критерии и комплексные показатели качества воды. Перспективными индикаторами для оценки состояния речных экосистем являются организмы зообентоса. Они широко применяются для оценки состояния экосистем, как в отечественных, так и в зарубежных исследованиях. Разные показатели могут показывать разный класс воды в одной точке, что может вызвать проблемы в её классификации.
Проблема оценки состояния экосистем становиться особенно актуальной, когда приходиться использовать зарубежные биоиндикационные показатели. В отличие от отечественных их можно использовать также для оценки вод рек и притоков. Это было необходимо в исследованиях, изложенных в [1]. Тогда и была обнаружена проблема связи получившегося результата с российскими стандартами.
Актуальные проблемы авиации и космонавтики - 2022. Том 2
Зообентос включает в себя совокупность организмов, обитающих на дне или в грунте водоемов. По размерному признаку различают нанобентос, микро-, мезо-, мейо- и макробентос [2]. В качестве исследуемых данных были взяты пробы зообентоса, собранные в реке Енисей и ее притоках. Всего было собрано и исследовано 286 проб воды на содержание организмов зообентоса по различным параметрам. Оценка качества воды производилась с использованием пяти биоиндикационных показателей: индекс видового разнообразия Шеннона (Н); Рамочной Водной Директивой: EPT Index (суммарное число видов - EPTn или суммарная относительная численность - EPTN поденок, веснянок и ручейников); BMWP (Biological Monitoring Working Party Index) и его производное ASPT (Average Score Per Taxon Index).
Для проведения анализа имеющихся данных был выбран кластерный анализ данных. Кластеризация данных, то есть разделение данных на подгруппы, относится к методам многомерной статистики, которые отражают черты многомерности процедуры классификации каких-либо объектов. Кластерный анализ отличается от многих других математико-статистических способов разбиения, позволяя не накладывать ограничения на изучаемые объекты и рассматривать большое количество исходных данных различного природного происхождения [3].
Перед началом проведения кластерного анализа, данные проб воды были приведены к удобному для анализа виду, путем приведения показателей проб к однородному виду. Для этого в программе Microsoft Excel были объединены таблицы с точками реки Енисей и её притоками с индексами H, %-N-EPT, FBI, BMWP, ASPT.
Для кластеризации обработанных данных использовались программы статистической обработки данных. Перед группировкой точек был использован «Метод ближайшего сходства», чтобы визуализировать, как группируются точки. Полученные модели приведены на рис. 1 и 2. Для наглядного изображения одновременно брали только 3 показателя.
Рис. 1. Модели, полученные методом ближайшего сходства
Убедившись, что точки группируются в кластеры, был проведен кластерный анализ с использованием метода «Быстрая кластеризация» с настройкой на евклидовое расстояние и совершено несколько разделений с разным количеством кластеров. В результате были
получено разделение имеющихся точек на 5, 7 и 10 кластеров. Исходя из сформированных кластеров, был сделан вывод о том, что при настройке более 5 кластеров число наблюдений в отдельных группах или очень мало или равно единице. В связи с чем, наиболее оптимально разделить имеющиеся данные на 5 кластеров. В результате кластеризации получили конечные центры кластеров (табл. 1), которые характеризуют типичного представителя каждого кластера по индексам. Используя их, возможно найти пределы кластеров по каждому индексу.
Таблица 1
Конечные центры кластеров_
Индексы Кластеры
1 2 3 4 5
Н 1,11 -1,20 -0,24 0,65 -0,09
%]Ч-БРТ 1,23 -0,66 -0,77 -0,12 1,57
В]^Р -1,00 -0,09 0,96 -0,09 -1,08
А8РТ 1,77 -0,59 -0,79 0,39 0,11
БВТ 1,18 -0,32 -1,02 0,58 0,85
В итоге была получена таблица, определяющая принадлежность точки к определенному классу. Разработанный алгоритм позволяет обрабатывать большое количество данных за короткий промежуток времени и характеризовать выделенные кластеры. В дальнейших исследованиях предполагается использовать апробированные методы для кластеризации и дальнейшего анализа данных в созданной геоинформационной системе [4,5].
Библиографические ссылки
1. Андрианова А.В., Шанько Ю.В. Биотические индексы и метрики зообентоса в оценке экологического состояния крупной реки смешанного типа // Экология. Екатеринбург, 2022. №2. С. 145-152. Б01: 10.31857/80367059722020032
2. Безматерных Д.М. Зообентос как индикатор экологического состояния водных экосистем Западной Сибири: аналитический обзор // Гос. публич. науч.-техн. б-ка СО РАН, Ин-т вод. и экол. проблем. Сер. Экология. Новосибирск, 2007. Вып. 85. С. 87.
3. Клименко А.В., Слащев И.С. Кластерный анализ данных // Вестник науки. 2019. №1 (10). С. 159-163.
4. Мустыгина Е.С., Пашковская О.В. Использование географических информационных систем в экологических исследованиях // Материалы XXV Международной научно-практической конференции, посвящ. памяти генерального конструктора ракетно-космических систем академика М.Ф.Решетнева (10-12 ноября 2021, г. Красноярск) : В 2 ч. / под общ. ред. Ю.Ю. Логинова ; СибГУ им. М.Ф.Решетнева - Красноярск, 2021. - Ч.2. - С. 314-315. - Режим доступа: https://reshetnev.sibsau.ru/page/materialy-konferentsii.
5. Сучков В.А., Пашковская О.В., Андрианова А.В. Особенности формирования базы эко-данных в геоинформационной системе // Материалы XXV Международной научно-практической конференции, посвящ. памяти генерального конструктора ракетно-космических систем академика М.Ф.Решетнева (10-12 ноября 2021, г. Красноярск) : В 2 ч. / под общ. ред. Ю.Ю. Логинова ; СибГУ им. М.Ф.Решетнева - Красноярск, 2021. - Ч.2. - С. 328-329. - Режим доступа: https://reshetnev.sibsau.ru/page/materialy-konferentsii.
© Пашковская О.В., Андрианова А.В., Потапенко И.А., Сучков В. А., 2022