Научная статья на тему 'ИССЛЕДОВАНИЕ ВОЗМОЖНОСТИ ПОВЫШЕНИЯ ТОЧНОСТИ ГЕОЭКОЛОГИЧЕСКОГО МОНИТОРИНГА ОКРУЖАЮЩЕЙ СРЕДЫ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ДЕРЕВЬЕВ КЛАССИФИКАЦИИ'

ИССЛЕДОВАНИЕ ВОЗМОЖНОСТИ ПОВЫШЕНИЯ ТОЧНОСТИ ГЕОЭКОЛОГИЧЕСКОГО МОНИТОРИНГА ОКРУЖАЮЩЕЙ СРЕДЫ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ДЕРЕВЬЕВ КЛАССИФИКАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
29
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД ДЕРЕВЬЕВ КЛАССИФИКАЦИИ / ЭКОЛОГИЧЕСКИЕ ПРОБЛЕМЫ / ИСТОЧНИКИ ИНФОРМАЦИИ / ОЦЕНКА ЭКОЛОГИЧЕСКОГО СОСТОЯНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воробьев Андрей Анатольевич

Рассмотрены результаты разведывательного анализа экологических проблем, выявленных в различных источниках информации об экологической ситуации в регионах, обеспечивающих повышение точности геоэкологического мониторинга окружающей среды с использованием метода деревьев классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Воробьев Андрей Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF THE POSSIBILITY OF INCREASING THE ACCURACY OF GEOECOLOGICAL MONITORING OF THE ENVIRONMENT USING THE CLASSIFICATION TREE METHOD

The results of the reconnaissance analysis of environmental problems identified in various sources of information about the environmental situation in the regions, which provide an increase in the accuracy of geoecological monitoring of the environment using the method of classification trees, are considered.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ВОЗМОЖНОСТИ ПОВЫШЕНИЯ ТОЧНОСТИ ГЕОЭКОЛОГИЧЕСКОГО МОНИТОРИНГА ОКРУЖАЮЩЕЙ СРЕДЫ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ДЕРЕВЬЕВ КЛАССИФИКАЦИИ»

Горшков Алексей Анатольевич, канд. техн. наук, исследователь, Dobrithin@ya.ru, Россия, Орел, Академия ФСО России

THE MODEL OF THE COMPUTER NETWORK FUNCTIONING IN THE CONDITIONS OF DESTRUCTIVE PROGRAM INFLUENCES AND CONSIDERING THE REQUIRED

RESTORABILITY LEVEL

A.S. Belov, M.M. Dobryshin, A.A. Struyev, A.A. Gorshkov

The model considering definition of increase in time and cost expenditure at restoration of elements of a network taking into account consequences of destructive program influences, risk that time expenditure on restoration of the KS elements will not exceed the required value, modeling of risk that cost costs of restoration of the KS elements will not exceed the required value which to increase validity of administrative decisions is presented in article and to provide rational costs of maintenance of a network.

Key words: computer networks, destructive program influences, restoration.

Belov Andrey Sergeyevich candidate of technical sciences, employee, an-drej2442016@yandex.ru, Russia, Oryol, The Academy of FSO of Russia,

Dobryshin Michael Mihajlovich, candidate of technical sciences, employee, Do-brithin@ya.ru, Russia, Oryol, The Academy of FSO of Russia,

Struyev Alexander Anatolyevich candidate of technical sciences, employee, Do-brithin@ya.ru, Russia, Oryol, The Academy of FSO of Russia,

Gorshkov Alexey Anatolevich, candidate of technical sciences, employee, Dobrithin@ya.ru, Russia, Oryol, The Academy of FSO of Russia

УДК 004.85

DOI: 10.24412/2071-6168-2022-2-89-94

ИССЛЕДОВАНИЕ ВОЗМОЖНОСТИ ПОВЫШЕНИЯ ТОЧНОСТИ

ГЕОЭКОЛОГИЧЕСКОГО МОНИТОРИНГА ОКРУЖАЮЩЕЙ СРЕДЫ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ДЕРЕВЬЕВ КЛАССИФИКАЦИИ

А.А. Воробьев

Рассмотрены результаты разведывательного анализа экологических проблем, выявленных в различных источниках информации об экологической ситуации в регионах, обеспечивающих повышение точности геоэкологического мониторинга окружающей среды с использованием метода деревьев классификации.

Ключевые слова: метод деревьев классификации, экологические проблемы, источники информации, оценка экологического состояния.

Для оценки экологического состояния регионов Российской Федерации на постоянной основе проводится геоэкологический мониторинг окружающей среды. На основе собранных данных из различных источников, включая социальные сети, СМИ, телевидение и др. формируется экологический рейтинг субъектов РФ [1] по трем сферам (индексам): экосфера (природоохранный индекс), техносфера (промышленно-экологический индекс) и социум (социально-экологический индекс). Для каждого индекса рассматриваются ряд индикаторов, например: атмосфера, водные ресурсы, земельные ресурсы, среда обитания, промышленная среда, твердые бытовые отходы и др. Для расчета индикаторов экспертами используется шкала, измеряемая цифровыми значениями +1/0/-1 (положительно, нейтрально, отрицательно) и методика, представленная в [1]. Анализ используемых источников информации и методики расчета

89

национального экологического рейтинга регионов выявил возможность снижения точности геоэкологического мониторинга при извлечении полезной информации из разных источников данных, за счет того, что СМИ и социальные сети редко используются как источники информации одними и теми же людьми [2].

Для решения этой проблемы проводились теоретические и экспериментальные исследования, включающие сравнительный анализ математических методов, выбранных для решения задачи анализа экологических проблем, выявленных в различных источниках и возможности повышения точности оценок экологической ситуации в регионах.

В качестве источника данных в работе рассматривались результаты социологического исследования ВЦИОМ [3] по теме «Экологическая ситуация в регионах России». Анализ результатов социологического исследования показал, что на вопрос: «Оцените, пожалуйста, экологическую ситуацию в Вашем регионе» - оценка респондентами идет в порядковой шкале (в баллах от одного до пяти, где пять - очень хорошая, а один - очень плохая.). Для поддержки экспертов при формировании индикаторов социально-экологического индекса необходимо предварительно преобразовать порядковую переменную в дихомическую (выбранной в качестве зависимой переменой) путем перекодировки баллов 5, 4 и 3 в значение «1» - «положительная» оценка, а баллы 2 и 1 в значение «0» - «отрицательная» оценка. В качестве независимых переменных с учетом особенностей исследования выбраны вопросы «Откуда Вы получаете большую часть информации о состоянии окружающей среды в Вашем регионе?» и «Оцените, пожалуйста, какие из представленных экологических проблем наиболее актуальны для Вашего региона, а какие — неактуальны?».

Для анализа влияния на зависимую переменную выбранных в работе независимых переменных предложено использовать метод деревьев классификации (CHAID), реализованного в IBM SPSS Statistics. Этот выбор основан на анализе работ [4,5], позволяющий по сравнению с методом логистической регрессии использовать категориальные предикторы без преобразований (отсутствие необходимости в дихотомизации и создании многомерных эффектов взаимодействия), возможностей более глубокого рассмотрения сочетаний значений категориальных предикторов, а также в удобстве использовании при большом количестве предикторов (категорий переменных), которые сложно анализировать посредством таблиц сопряженности, из-за их большого количества. Необходимо также отметить, что базовым отличием CHAID анализа от регрессионного заключается в том, что взаимосвязь между значением зависимой переменной и значениями независимых переменных представлена не в виде общего прогнозного уравнения, а в виде древовидной структуры, которую получают с помощью иерархической сегментации данных.

Известно, что для получения качественных результатов с помощью метода деревьев классификации необходимо выполнять ряд итераций с его параметрами, например метод (CHAID, ECHAID), целевая категория, минимальное количество наблюдений в родительском узле и дочерних узлах, глубина дерева, вид проверки и ряд других. В ходе первой итерации были выбраны следующие параметры: метод CHAID, целевая категория - «отрицательно» как категория с меньшей долей, отсутствие корректировки значимости с использованием поправки Бонферрони, минимальное количество наблюдений в родительском узле - 100, минимальное количество наблюдений в дочернем узле - 50, глубина дерева - 3, вид проверки - перекрестная) и результатом работы метода деревьев классификации стало дерево, фрагмент которого представлено на рис. 1, диаграмма выигрышей (рис.2) и табл. 1-3.

Интерпретацию результатов работы метода деревьев классификации можно выполнять как с помощью графического представления, так и при помощи таблиц. Так, анализ рис. 1 и табл.1 показывает, что для целевой категории «отрицательно» наилучшим узлом является 6, содержательная интерпретация которого можно охарактеризовать следующим образом: респонденты считающие проблему загрязнения воздуха промышленным предприятиями очень актуальной и получающих информацию об экологической ситуации в регионе из интернета, электронных СМИ, сайтов различных ведомств оценивают экологическую ситуацию в регионах в основном отрицательно. Это связано, с тем, что:

в 6 узел попадало 115 (6,8 %) наблюдений из всей выборки;

из колонки «отклик» видно, что 66,1% наблюдений из узла 6 относятся к категории «отрицательно».

индекс показывает, что, выбирая 6 узел, ожидается найти в нем более чем в 2,6 раза больше наблюдений, относящихся к категории «отрицательно», чем в целом по выборке.

а а а

У«л 2 Категория % п

■ Положительно 47,4 52,6 225 250

Всего 28,0 475

Ы

И Откуда в и получаете Большую часть

информации о С+СТ41ННН ОЦДО ДП ВДЙ

средн I Вашем регионе"? побеге от одного до трёхотает« 1*0,000, Ап-М1арат-31.#[>/. СТ.С».

Уз«п в

Категория_Ч

Отрицательно вв,1 70

I Положительно 33-9 39

• • •

Интернет^? другого); Региональные и городски« глеты и их сайты: Личные н лбпю дчми л (ИЭ другого); Другое; С дмты р«личных »«домсте (Роспотребнадзора,

Миноколсгнн и других)

Рис. 1. Фрагмент дерева классификации для первой итерации Категория назначения Отрицательно

Процентиль

Метод построения: СНАЮ Зависимая переменная:Оценка экологического состояния

Рис. 2. Диаграмма выигрышей для первой итерации

Анализ диаграммы выигрышей (рис.2) показывает в графическом виде выигрыш модели по сравнению со случайным отбором (диагональная линия). Анализ табл.2 и табл.3 показал, что полученная модель является достаточно качественной, так как в ней пропорции верно предсказанных категорий зависимой переменной превышают исходные доли категорий зависимой переменной (41,2 % и 89.8 %), а также устойчивой, так как общий процент неверно предсказанных наблюдений (0,225 и 0,242) близки в общей модели и в модели при проверке.

91

Таблица 1

Выбранные узлы методом деревья классификации для целевой категория «Отрицательно»

Узел Узел Выигрыш Отклик Индекс

N Проценты N Проценты

6 115 6,8% 76 17,8% 66,1% 262,6%

14 191 11,3% 100 23,4% 52,4% 208,1%

5 89 5,2% 44 10,3% 49,4% 196,5%

12 96 5,7% 31 7,3% 32,3% 128,3%

13 96 5,7% 31 7,3% 32,3% 128,3%

16 72 4,2% 23 5,4% 31,9% 127,0%

7 73 4,3% 18 4,2% 24,7% 98,0%

18 63 3,7% 10 2,3% 15,9% 63,1%

15 61 3,6% 8 1,9% 13,1% 52,1%

11 602 35,5% 77 18,0% 12,8% 50,8%

17 239 14,1% 9 2,1% 3,8% 15,0%

Таблица 2

Оценка устойчивости дерева классификации для первой итерации

Метод Оценка Стандартная ошибка

Повторная подстановка Перекрестная проверка ,225 ,242 ,010 ,010

Таблица 3

Оценка качества классификации для первой итерации

Наблюденные Предсказанные

Отрицательно Положительно Процент правильных

Отрицательно 176 251 41,2%

Положительно 130 1140 89,8%

Общая процентная доля 18,0% 82,0% 77,5%

Известно, что при выборе между разными моделями следует стремиться к соблюдению баланса между этими двумя показателями: качеством предсказаний и устойчивостью, а также возможностью адекватной содержательной интерпретации результатов моделирования [6]. С учетом возможности повышения точности классификации итерационный процесс проводился путем выбора между методами СНАГО и ЕСНАГО, различным количеством минимальных наблюдений в родительском и дочернем узле, а также глубины дерева. Изменение глубины дерева до 10 позволило повысить точность классификации для целевой категории «отрицательно» до 72 процентов, однако адекватной содержательной интерпретации такое дерево не позволит выполнить, поэтому в работе глубина дерева была оставлена равной 3. Метод ЕСНАГО по сравнению с СНАГО позволил увеличить качество классификации на нескольких десятых процента. Таким образом, исследование свелось только к выбору минимального количества наблюдений в родительском и дочернем узле. В итоге исследование привело к созданию более качественной модели, основными параметрами которой стали следующие: метод ЕСНАГО, целевая категория - «отрицательно», отсутствие корректировки значимости с использованием поправки Бонферрони, минимальное количество наблюдений в родительском узле - 50, минимальное количество наблюдений в дочернем узле - 25, глубина дерева - 3, вид проверки - перекрестная. В результате метод деревьев решений позволил повысить точность классификации до 48,5 % для целевой категории «отрицательно» (табл. 4) при достаточной устойчивости модели (0,212-0,236) и при возможности адекватной содержательной интерпретации.

Таблица 4

Оценка качества классификации для заключительной итерации_

Наблюденные Предсказанные

Отрицательно Положительно Процент правильных

Отрицательно 207 220 48,5%

Положительно 139 1131 89,1%

Общая процентная доля 20,4% 79,6% 78,8%

Таким образом, разведочный анализ, проведенный с использованием метода деревьев классификации позволил выявить статистическую связь между различными экологическими проблемами и источниками информации о них, с целью возможности населению обеспечить

оценивание экологической ситуации в регионах. Эти оценки позволяют экспертам более качественно осуществлять расчет индикаторов и соответственно повышать точность геоэкологического мониторинга окружающей среды.

Другим вариантом применения полученных в работе результатов является возможность повышения точности оценок экологической ситуации в регионах за счет перераспределения неопределившихся респондентов (в случае если процент неопределившихся респондентов превышает 5 процентов) с использованием методики восстановления пропусков в социологических данных на базе метода деревьев классификации [7]. Так с использованием построенной модели дерева необходимо сформировать таблицу сопряженности по отобранным независимым переменным. В качестве исходных данным выбираются только те строки массива, которые содержат неопределившихся респондентов. Далее, путем перебора всех комбинаций вариантов ответов независимых переменных отбираются комбинации, имеющие наибольшее число неопределившихся респондентов. После нахождения этих комбинаций и соотнесения с нужным узлом модели дерева классификации полученное количество неопределившихся респондентов перераспределяется в процентном соотношении по категориям узла (зависимой переменной).

Список литературы

1. О национальном экологическом рейтинге [Электронный ресурс] URL: https://greenpatrol.ru/sites/default/files/default_images/ner_prezentaciya_3mb.pdf (дата обращения: 13.01.2022).

2. Экологическая повестка. Обзор [Электронный ресурс] URL: https://wciom.ru/analytical-reports/analiticheskii-doklad/ehkologicheskaja-povestka-za-desj at-mesjacev-do-vyborov-v-gosdumu (дата обращения: 13.01.2022).

3. Экологическая повестка. Материалы [Электронный ресурс] URL: https://wciom.ru/fileadmin/user upload/analytics/massiv/massiv 4387.zip (дата обращения: 13.01.2022).

4. Ротмистров А.Н., Жидкова П.А. Логистическая регрессия с категориальными предикторами и эффектами взаимодействия и CHAID: сравнительный анализ на эмпирическом примере // Социология: методология, методы, математическое моделирование. 2016. № 43. С. 63-99.

5. Фомина Е.Е. Методы анализа категориальных переменных в социологических исследованиях // Известия высших учебных заведений. Социология. Экономика. Политика. 2019. №. 2. С. 39-51.

6. Бослаф С. Статистика для всех / Пер. с англ. П.А. Волкова, И. М. Флямер, М.В. Ли-берман, А.А. Галицына. М.: ДМК Пресс, 2015. 586 с.

7. Воробьев А.А., Великих А.С., Кладова Е.А., Рыбак А.М. Исследование возможностей метода деревьев классификации по перераспределению неопределившихся респондентов // Гуманитарные, социально-экономические и общественные науки. 2021. № 4-1. С. 55-58.

Воробьев Андрей Анатольевич, канд. техн. наук, доцент, сотрудник, awa@mail.ru, Россия, Орел, Федеральное государственное казённое военное образовательное учреждение высшего образования «Академия Федеральной службы охраны Российской Федерации»

RESEARCH OF THE POSSIBILITY OF INCREASING THE ACCURACY OF GEOECOLOGICAL MONITORING OF THE ENVIRONMENT USING THE CLASSIFICATION TREE METHOD

A.A. Vorobyov

The results of the reconnaissance analysis of environmental problems identified in various sources of information about the environmental situation in the regions, which provide an increase in the accuracy of geoecological monitoring of the environment using the method of classification trees, are considered.

Key words: method of classification trees, environmental problems, sources of information, assessment of the ecological state.

Vorobyov Andrey Anatolievich, candidate of technical sciences, assistant professor, researcher, awa@,mail.ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation

i Надоели баннеры? Вы всегда можете отключить рекламу.