УДК 614.8
МОДЕЛЬ И АЛГОРИТМ ПРОВЕДЕНИЯ КЛАСТЕРНОГО АНАЛИЗА ЧРЕЗВЫЧАЙНЫХ СИТУАЦИЙ ТЕХНОГЕННОГО ХАРАКТЕРА
Ш. К. КАДИЕВ, Р. Ш. ХАБИБУЛИН
Академия Государственной противопожарной службы МЧС России, Российская Федерация, г. Москва E-mail: [email protected], [email protected]
В статье авторами представлен поэтапный кластерный анализ чрезвычайных ситуаций (ЧС) техногенного характера. Кластерный анализ необходим для разбиения исходных элементов на определенное количество кластеров. Такой подход поможет решить задачу определения необходимого количества сил и средств для реагирования на чрезвычайную ситуацию. В представленной работе показаны результаты кластерного анализа по трем видам алгоритмов классификации. В рамках первого этапа проведения кластерного анализа разработана база данных ЧС, с нормированием показателей реагирования и весовыми коэффициентами критериев ЧС. На втором этапе проведен кластерный анализ с использованием иерархического кластерного анализа, методом k-среднее, методом DBSCAN. На заключительном этапе проведена оценка эффективности полученных результатов. Дальнейшее исследование будет направлено на дополнительное расширение и исследование базы данных ЧС для получения большей плотности внутри полученных кластеров.
Ключевые слова: управление, организационные системы, кластерный анализ, чрезвычайная ситуация, машинное обучение.
MODEL AND ALGORITHM FOR CLUSTER ANALYSIS MAN-MADE EMERGENCIES
Sh. K. KADIEV, R. Sh. HABIBULIN
Federal State Budget Educational Establishment of Higher Education «State Fire Academy of State Firefighting Service of Ministry of Russian Federation for Civil Defense,
Emergencies and Elimination of Consequences of Natural Disasters», Russian Federation, Moscow E-mail: [email protected], [email protected]
In the article, the authors present a phased cluster analysis of man-made emergencies. Cluster analysis is necessary for splitting the original elements into a certain number of clusters. This approach will help solve the problem of figuring out the amount of forces and means needed to respond to an emergency. The presented work shows the results of cluster analysis for three types of classification algorithms. As part of the first stage of the cluster analysis, an emergency database was developed, with normalization of response indicators and weighting coefficients of emergency criteria. At the second stage, cluster analysis was carried out using hierarchical cluster analysis, k-means method, DBSCAN method. At the final stage, the effectiveness of the obtained results was evaluated. Further research will be aimed at increasing the database to obtain a high density within the resulting clusters.
Key words: management, organizational systems, cluster analysis, emergency, machine learning.
Введение
Для решения задачи своевременного реагирования на ЧС требуется комплексный подход, который включает в себя разработку баз данных (БД) и баз знаний (БЗ) по характеристикам (признакам) ЧС, разработку моделей их классификации на основе методов машинного обучения [1-5].
В период с 2017 по 2021 гг. на территории Российской Федерации произошло 1506 чрезвычайных ситуаций (рис. 1), из них [6]:
- техногенного характера - 925, погибло - 2544 человека;
- природного - 349, погибло - 104 человека;
- биолого-социального - 232, погибших
нет.
© Кадиев Ш. К., Хабибулин Р. Ш., 2023
В настоящем исследовании рассматриваются вопросы кластерного анализа применительно для трех видов ЧС техногенного характера. Так за рассматриваемый период произошло 503 крупных автомобильных аварий, 71 взрыв в зданиях жилого и социально-бытового назначения, 56 аварий на коммунальных системах жизнеобеспечения (рис. 2).
За отчетный период произошло 640 чрезвычайных ситуаций по выбранным видам, на которых погибло 1615 человек, ма-
териальный ущерб составил 2,541 млн. рублей. Силы и средства на эти ЧС были затрачены в количестве 36184 человек и 10231 единицы техники. Таким образом, для ликвидации одной ЧС, в среднем, необходимо 56 людей и 16 единиц техники, но расхождение от среднего для отдельно взятой ЧС большое, поэтому ниже приведено распределение по чрезвычайным ситуациям за отчетный период с указанием количества привлеченных людей и техники.
' Техногенного характера Биолого-социального ■ Природного характера Рис. 1. Количество ЧС в период 2017-2021 гг.
Рис. 2. Количество ЧС техногенного характера за отчетный период
На основании рис. 3 можно сделать вывод, что определение количества необходимых для реагирования ресурсов нельзя считать по среднему значению и требует изучения с использованием современных методов и инструментов.
Таким образом, актуальность проводимой работы обусловлена необходимостью со-
вершенствования системы управления реагированием на ЧС, за счет применения моделей и алгоритмов машинного обучения, в том числе кластерного анализа (обучение без учителя), для определения ресурсов для реагирования, которые позволят снизить время принятия решений в условиях большого количества исходной информации.
40000 35000 0 30000 ь 25000
Р 20000
| 15000 * 10000 5000 0
34691
19181
15510
6349
3535
503 I- 71
Крупные автомобильные катастрофы
66
Аварии на коммунальных системах жизнеобеспечения
Взрывы в зданиях и сооружениях жилого и социально-бытового и культурного назначения
Вид ЧС
■ Количество личного состава ■ Количество техники ■ Всего ЧС Рис. 3. Показатели реагирования на выбранные ЧС
Цель и задачи
Цель исследования - провести кластерный анализ ЧС техногенного характера различными методами и формирование базы знаний ЧС для дальнейшего их поиска по методу прецедентов с целью определения сил и средств для реагирования на ЧС.
Задачи исследования:
1. Подготовить базу данных ЧС для обработки с применением кластерного анализа.
2. Определить параметры (критерии) ЧС для выявления кластеров.
3. Провести нормирование (стандартизацию) критериев ЧС.
4. Выбрать методы кластерного анализа.
5. Разработать программный код (скрипт) на языке высокого уровня для обработки базы данных с применением методов кластерного анализа.
6. Провести кластерный анализ для выявления групп (кластеров) с учетом выбранных критериев ЧС.
7. Сформулировать выводы по итогам проведенного кластерного анализа.
Исходные данные
Исходными данными является массив оперативных донесений о ЧС (5 ЧС) из 15 субъектов РФ за период 2013-2022 гг. в виде нередактируемых текстовых файлов в формате pdf. Полученные данные были обработаны на предмет полноты информации, отсутствия некорректных данных и сведены в электронную базу данных СУБД MS Access. С учетом анализа разработанной базы данных для последующей обработки выделены и сгруппированы три вида ЧС:
- пожары, взрывы, угроза взрывов (пожары (взрывы) в зданиях и сооружениях жилого, социально-бытового, культурного назначения) - 45 ЧС;
- транспортные аварии (аварии (катастрофы) на автодорогах (крупные автомобильные катастрофы)) - 78 ЧС;
- аварии на коммунальных системах жизнеобеспечения - 40 ЧС;
Проведена предобработка (нормирование) числовых признаков в рассматриваемой выборке с целью приведения их к общей шкале без потери информации о различии диапазонов. Необходимость нормализации вызвана тем, что рассматриваемые признаки представлены в разных масштабах и изменяются в разных диапазонах.
Для повышения качества обработки данных проведено нормирование показателей в соответствии с нормализацией средним по формуле:
X; = (х£ - Х)/Ох ,
где: хI - значение критерия, X - среднее значение, ах - дисперсия.
Методика проведения кластерного анализа
Кластерный анализ является одним из методов машинного обучения («обучение без учителя»). Результатом кластерного анализа является разбиение имеющихся в исходной базе объектов на определенное количество кластеров. Кластерный анализ является одним из способов решения задачи классификации в целях получения гипотез о структуре изучаемой статистической совокупности объектов. Результатом такой классификации является
разбиение исходной совокупности объектов на определенное число классов (кластеров). Каждый кластер, состоящий из набора объектов, таким образом, характеризуется своими закономерностями.
Рассматриваются три метода кластеризации - метод ^-среднее (fr-means), иерархическая агломеративная ассоциация, метод DBSCAN.
Алгоритм иерархической агломера-тивной ассоциации
Каждый объект рассматривается как отдельный элемент или кластер. С каждой итерацией два наиболее вероятных кластера объединяются в большой кластер. Этот процесс повторяется до тех пор, пока каждая точка не попадет в один большой кластер. Эта иерархия кластеров представляется в виде дерева (дендрограммы). Функции алгоритма:
- Оценка степени сходства между каждыми двумя объектами в наборе данных.
- Группировка объектов в иерархическое дерево кластеров на основе расстояния.
- Разделение иерархического дерева на кластеры.
Алгоритм К-среднее
В этом алгоритме данные разделяются на «K отдельных кластеров». Работа алгоритма [9]:
- Определение центров кластеров (центроидов) и количества кластеров.
- Определение каждой точки (параметра) к ближайшему центру кластера на основе вычисления Евклидового расстояния.
- Оптимизация центров кластеров на основе среднего значения точек, отнесенных к данному кластеру.
- Оценка перемещения центроидов и сходимости каждого кластера.
Алгоритм DBSCAN (Density-based spatial clustering of applications with noise) Переводится на русский язык как плотностной алгоритм пространственной кластеризации с присутствием шума. Этот метод кластеризации основан на соединении некоторых групп, плотность объектов внутри которых превышает некоторый заданный порог.
С учетом анализа обзора научных трудов по вопросам кластерного анализа [7-9] принято решение проводить кластер-анализ в четыре этапа:
1. Проведение иерархического кластерного анализа с построением дендрограм-мы для визуального выявления количества кластеров с самым близким расстоянием.
2. Проведение кластерного анализа методом fr-средних с указанием количества
кластеров по результатам иерархического кластерного анализа.
3. Проведение кластерного анализа методом DBSCAN для уточнения контуров кластеров и определения самых плотных кластеров.
4. Оценка качества кластеризации с использованием коэффициентов Силуэта, Ка-лински-Харабаса, Дэвиса-Болдуина.
Следующие два этапа проводимого исследования направлены на получение практических результатов по итогам проведения кластерного анализа с целью определения сил и средств для реагирования на ЧС на основе ретроспективных данных:
1. Построение на основе выделенных кластеров уравнений парной регрессии.
2. Выявление групп ЧС каждого кластера для формирования базы знаний для дальнейшего их поиска по методу прецедентов.
Разработка программного кода
Для проведения кластерного анализа проведен обзор существующих методов и инструментальных средств для реализации с учетом современных информационных технологий.
Для программной реализации кластерного анализа выбран язык программирования Python, обладающий широкими возможностями для проведения интеллектуального анализа данных. На этом языке программирования созданы многочисленные библиотеки (Mat-plotlib, Pandas и др.). В качестве инструментальной среды выбрана программа PyCharm 2021.3.3 (Community Edition) компании Jet-Brains.
Программный код (скрипты) написан для двух рассматриваемых методов кластерного анализа (k-средний, иерархический, DBSCAN) с использованием следующих библиотек:
Matplotlib - библиотека для визуализации данных двумерной и трёхмерной графикой.
NumPy - библиотека для поддержки многомерных массивов (включая матрицы) и высокоуровневых математических функций, предназначенных для работы с многомерными массивами.
Pandas - библиотека для обработки и анализа данных, предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами.
Scikit-learn (sklearn) - библиотека c моделями машинного обучения. Включает в себя различные алгоритмы классификации, регрессии и кластеризации и предназначена для взаимодействия с другими числовыми и научными библиотеками.
Результаты компьютерного моделирования при ЧС
Последовательно рассмотрим кластерный анализ для всех выбранных методов в срезе «количество пострадавших - привлекаемый личный состав». На первом этапе проведен иерархический кластерный анализ с построением дендрограммы (рис. 4).
Анализ дендрограммы показывает, что можно построить линию отсечения и выделить 3 основных кластера для дальнейшего исследования и уточнения контуров. Далее прове-
ден кластерный анализ по методу ^-среднее, результаты которого показаны на рис. 5.
Анализ разбиения на группы показывает, что визуально можно определить границы каждого из 3 кластеров. По количеству объектов кластер № 1 самый многочисленный и имеет достаточно четкий контур и диапазон значений. Для дополнительного уточнения границ кластеров применен алгоритм DBSCAN (рис. 6), который показывает группы с высокой плотностью значений признаков (кластер № 1).
Рис. 4. Дендрограмма по результатам иерархического кластерного анализа
Рис. 5. Результаты кластерного анализа по методу ^-среднее
Оцеминаемор количество кластеров: 1
Рис. 6. Результаты кластерного анализа по методу DBSCAN
Проведена оценка качества кластеризации по всем трем методам с использованием коэффициентов Силуэта, Калински-Харабаса, Дэвиса-Болдуина. Результаты показаны в таблице.
Результаты расчета коэффициентов при переборе количества кластеров (2 и 3) для каждого рассмотренного метода кластеризации показывают, что в целом рассмотренные методы дают достаточно хорошие значения для трех кластеров (коэффициенты Калински-Харабаса и Дэвиса-Болдуина принимают максимальные значения).
Применение метода ОББСАМ, в свою очередь, показывает, что кластер № 1 является самым плотным по значению признаков (параметров ЧС). С учетом этого, в дальнейшем, на основе кластера № 1 могут быть построены уравнения парной регрессии для определения сил и средств для реагирования на ЧС. Параметры из кластеров № 1-3 будут являться источником для базы знаний ЧС с целью дальнейшего их поиска по методу прецедентов для определения сил и средств для реагирования на ЧС. Алгоритм кластерного анализа чрезвычайных ситуаций техногенного характера представлен на рис. 7.
Таблица. Значения коэффициентов для оценки качества кластеризации
Коэффициенты точности Коэффициент Силуэта Коэффициент Калински-Харабаса Коэффициент Дэвиса-Болдуина
Алгоритм кластерного анализа (количество кластеров)
Иерархический (2 кластера) 0.86 62.43 0.08
^-среднее (2 кластера) 0.86 62.43 0.08
Иерархический (3 кластера) 0.73 154.55 0.30
^-среднее (3 кластера) 0.73 154.55 0.30
ОББСАМ (1 кластер) 0.64 32.20 1.10
ОББСАМ (2 кластера) 0.27 6.87 1.96
ОББСАМ (3 кластера) 0.32 6.92 2.30
Рис. 7. Алгоритм кластерного анализа чрезвычайных ситуаций техногенного характера
Выводы
1. Разработана база данных ЧС техногенного характера (178 ЧС по трем видам) на основе массива оперативных донесений из 15 субъектов РФ за период 2013-2022 гг. для дальнейшей обработки с применением кластерного анализа.
2. Проведена предобработка (нормирование средним) числовых признаков (параметров ЧС) с целью приведения их к общей шкале без потери информации о различии диапазонов.
3. Разработан программный код (скрипт) на языке высокого уровня Python для обработки базы данных ЧС с применением рассмотренных методов кластерного анализа.
4. В три этапа проведен кластерный анализ с последовательным применением трех методов (иерархическая агломеративная ассоциация, ^-среднее, DBSCAN). Все полученные разбиения визуализированы в срезе «количество пострадавших при ЧС - привлекаемый личный состав». Визуально определены 3 кластера.
5. Проведена оценка качества кластеризации с использованием коэффициентов Силуэта, Калински-Харабаса, Дэвиса-Болдуина с учетом перебора количества возможных кластеров (2 и 3). Значения коэффициентов подтвердили выявление 3 кластеров. Применение метода DBSCAN показало, что кластер № 1 является самым плотным по значению признаков (параметров ЧС).
6. На основе данных кластера № 1 предложено в дальнейшем построить уравнение парной регрессии в срезе «количество пострадавших - привлекаемый личный состав» для определения сил и средств для реагирования на ЧС. Данные кластеров № 1 -3 сформируют базу знаний ЧС для дальнейшего их поиска по методу прецедентов для определения сил и средств для реагирования на ЧС.
В рамках дальнейших исследований планируется увеличить разработанную базу данных по учёту ЧС с целью проведения более масштабного кластерного анализа с учетом рассмотренных методов и увеличением плотности полученных кластеров для их последующей обработки.
Список литературы
1. Обзор исследований в области классификации для машинного обучения при разработке интеллектуальных систем поддержки принятия управленческих решений / Ш. К. Кадиев, Р. Ш. Хабибулин, П. П. Годлевский [и др.] // Технологии техносферной безопасности. 2020. № 3 (89). С. 20-29. DOI 10.25257/TTБ.2020.3.89.
2. Кадиев Ш. К., Хабибулин Р. Ш. Проблемы классификации для машинного обучения при разработке интеллектуальных систем поддержки принятия управленческих решений при ликвидации ЧС // Проблемы техносферной безопасности: материалы Международной научно-практической конференции молодых учёных и специалистов. 2020. № 9. С. 194-198.
3. Мусайбеков А. Г., Хабибулин Р. Ш. Решение задачи классификации для определения ранга пожара на основе дискриминант-ного анализа // Пожарная безопасность: современные вызовы. Проблемы и пути решения: материалы Международной научно-практической конференции. СПб: Санкт-Петербургский университет Государственной противопожарной службы Министерства Российской Федерации по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий, 2020. С. 48-51.
4. Кадиев Ш. К., Хабибулин Р. Ш. Применение методов машинного обучения для классификации чрезвычайных ситуаций природного и техногенного характера // Информатика: проблемы, методы, технологии: материалы XXI Международной научно-методической конференции. Воронеж: Общество с ограниченной ответственностью «Вэлборн», 2021. С.1402-1406.
5. Применение машинообучаемых цепей Маркова для определения ранга пожара и прогнозирования фаз его развития / Н. Г. То-польский, В. Я. Вилисов, Р. Ш. Хабибулин [и др.] // Пожаровзрывобезопасность. 2021. Т. 30. № 6. С. 39-51. 001 10.22227/08697493.2021.30.06.39-51.
6. Чрезвычайные ситуации и их последствия в 2021 г.: статистический сборник. М.: ВНИИПО, 2022. 70 с.
7. Степанов Е. В., Вилисов В. Я., То-польский Н. Г. Кластерный анализ однородности статистических данных о пожарах // Проблемы техносферной безопасности: материалы Международной научно-практической конференции молодых учёных и специалистов. 2021. № 10. С. 151-158.
8. Пранов Б. М. Вопросы применения кластерного анализа в пожарной статистике //
Технологии техносферной безопасности. 2021. № 4 (94). С. 117-124.
9. Хабибулин Р. Ш. Кластерный анализ в области предупреждения и ликвидации пожаров и чрезвычайных ситуаций // Технологии техносферной безопасности. 2022. № 3 (97). С.202-214.
10.Третьяков Н. П. Применение кластерного анализа к мировой статистике пожаров // Технологии техносферной безопасности. 2009. № 2 (24). С. 1-7.
References
1. Obzor issledovanij v oblasti klassifikacii dlya mashinnogo obucheniya pri razrabotke intel-lektual'nyh sistem podderzhki prinyatiya uprav-lencheskih reshenij [Review of research in the field of classification for machine learning in the development of intelligent management decision support systems] / Sh. K. Kadiev, R. Sh. Khabibu-lin, P. P. Godlevsky [et al.]. Tekhnologii tekhnosfernoy bezopasnosti, 2020, vol. 3 (89), pp. 20-29. DOI 10.25257/TTS.2020.3.89.
2. Kadiev Sh. K., Khabibulin R. Sh. Prob-lemy klassifikacii dlya mashinnogo obucheniya pri razrabotke intellektual'nyh sistem podderzhki prinyatiya upravlencheskih reshenij pri likvidacii ChS [Problems of classification for machine learning in the development of intelligent systems for supporting management decisions in emergency response]. Problemy tekhnosfernoy bezopasnosti: materialy mezhdunarodnoy nauchno-prakticheskoy konferentsii molodykh uchonykh i spetsialistov, 2020, issue 9, pp. 194-198.
3. Musaibekov A. G., Khabibulin R. Sh. Reshenie zadachi klassifikacii dlya opredeleniya ranga pozhara na osnove diskriminantnogo analiza [Classification problem solution for figuring out the fire rank based on discriminant analysis]. Pozharnaya bezopasnost': sovremennyye vyzovy. Problemy i puti resheniya: materialy Mezhdunarodnoy nauchno-prakticheskoy konferentsii. SPb: Sankt-Peterburgskiy universitet Gosudar-stvennoy protivopozharnoy sluzhby Ministerstva Rossiyskoy Federatsii po delam grazhdanskoy oborony, chrezvychaynym situatsiyam i likvidatsii posledstviy stikhiynykh bedstviy, 2020. pp. 48-51.
4. Kadiev Sh. K., Khabibulin R. Sh. Primenenie metodov mashinnogo obucheniya dlya klassifikacii chrezvychajnyh situacij prirod-nogo i tekhnogennogo haraktera [Application of machine learning methods for the classification of natural and man-made emergencies]. Informatika: problemy, metody, tekhnologii: materialy XXI Mezhdunarodnoy nauchno-metodicheskoy kon-ferentsii. Voronezh: Obshchestvo s ogranichen-noy otvetstvennost'yu «Velborn», 2021, pp. 14021406.
5. Primenenie mashinoobuchaemyh cepej Markova dlya opredeleniya ranga pozhara i prognozirovaniya faz ego razvitiya [Application of machine learning Markov chains for figuring out the fire rank and predicting the phases of its development] / N. G. Topolsky, V. Ya. Vilisov, R. Sh. Khabibulin [et al.]. Pozharovzryvobezopas-nost', 2021, vol. 30, issue 6, pp. 39-51. DOI 10.22227/0869-7493.2021.30.06.39-51.
6. Chrezvychaynyye situatsii i ikh posledstviya v 2021 g.: statisticheskiy sbornik [Emergencies and their consequences in 2021: statistical compendium]. M.: VNIIPO, 2022. 70 p.
7. Stepanov E. V., Vilisov V. Ya., Topol-sky N. G. Klasternyj analiz odnorodnosti statis-ticheskih dannyh o pozharah [Cluster analysis of the homogeneity of statistical data on fires]. Prob-lemy tekhnosfernoy bezopasnosti: materialy mezhdunarodnoy nauchno-prakticheskoy konfer-
entsii molodykh uchonykh i spetsialistov, 2021, issue 10, pp. 151-158.
8. Pranov B. M. Voprosy primeneniya klasternogo analiza v pozharnoj statistike [Application of cluster analysis in fire statistics]. Tekhnologii tekhnosfernoi bezopasnosti, 2021, vol. 4 (94), pp. 117-124.
9. Khabibulin R. Sh. Klasternyj analiz v oblasti preduprezhdeniya i likvidacii pozharov i chrezvychajnyh situacij [Cluster analysis in the field of prevention and elimination of fires and emergency situations]. Tekhnologii tekhnosfernoi bezopasnosti, 2022, vol. 3 (97), pp. 202-214.
10. Tretyakov N. P. Primenenie klasternogo analiza k mirovoj statistike pozharov [Application of cluster analysis to global fire statistics]. Tekhnologii tekhnosfernoi bezopasnosti, 2009, vol. 2 (24), pp. 1-7.
Кадиев Шамиль Кудрудинович
Академия Государственной противопожарной службы МЧС России,
Российская Федерация, г. Москва
Преподаватель
E-mail: [email protected]
Kadiev Shamil Kudrudinovich
Federal State Budget Educational Establishment of Higher Education
«State Fire Academy of State Firefighting Service of Ministry of Russian Federation for Civil Defense, Emergencies and Elimination of Consequences of Natural Disasters», Russian Federation, Moscow Lecturer
E-mail: [email protected] Хабибулин Ренат Шамильевич
Академия Государственной противопожарной службы МЧС России,
Российская Федерация, г. Москва
Начальник УНК АСИТ
E-mail: [email protected]
Khabibulin Renat Shamilevich
Federal State Budget Educational Establishment of Higher Education
«State Fire Academy of State Firefighting Service of Ministry of Russian Federation for Civil Defense,
Emergencies and Elimination of Consequences of Natural Disasters»,
Russian Federation, Moscow
Head of the educational and scientific complex
E-mail: [email protected]