Научная статья на тему 'Визуализация и классификация показателей экологии Самарского региона'

Визуализация и классификация показателей экологии Самарского региона Текст научной статьи по специальности «Математика»

CC BY
89
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ / MULTIDIMENSIONAL STATISTICAL ANALYSIS / ФАКТОРНЫЙ И КОМПОНЕНТНЫЙ АНАЛИЗЫ / FACTOR AND COMPONENT ANALYSIS / КЛАСТЕРНЫЙ АНАЛИЗ / CLUSTER ANALYSIS / МЕТОД К-СРЕДНИХ / K-MEANS METHOD

Аннотация научной статьи по математике, автор научной работы — Трусова А.Ю., Ильина А.И.

В работе средствами многомерного статистического анализа изучены показатели экологии Самарского региона. Визуализация данных проводилась с помощью компонентного анализа. Классификация проводилась методом к средних

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VISUALIZATION AND CLASSIFICATION OF INDICATORS ECOLOGY OF THE SAMARA REGION

In the work of multidimensional statistical analysis, the environmental indicators of the Samara region were studied. Data visualization was carried out using component analysis. Classification was carried out by the method of kmeans.

Текст научной работы на тему «Визуализация и классификация показателей экологии Самарского региона»

УДК 348

£

А.Ю. Трусова, А.И. Ильина

ВИЗУАЛИЗАЦИЯ И КЛАССИФИКАЦИЯ ПОКАЗАТЕЛЕЙ ЭКОЛОГИИ САМАРСКОГО РЕГИОНА

В работе средствами многомерного статистического анализа изучены показатели экологии Самарского региона. Визуализация данных проводилась с помощью компонентного анализа. Классификация проводилась методом к-средних.

Ключевые слова: многомерный статистический анализ, факторный и компонентный анализы, кластерный анализ, метод к-средних.

В настоящее время показатели экологии изучаются и анализируются многопланово различными методами химии, физики, биологии. Особое место в анализе данных занимают методы визуализации и классификации показателей. Широкий математический инструментарий в сочетании с информационными технологиями позволяет комплексно рассматривать проблемы экологии в их связи с техническими и экономическими проблемами.

Самарская область исторически является зоной промышленного производства. В Самарской области находится значительное количество предприятий, которые оказывают сильное экологическое воздействие на окружающую атмосферу. Экономическое развитие Самарской области предполагает развитие нефтеперерабатывающей отрасли, которое также способствует ухудшению экологической обстановки в регионе. Комплексное решение проблемы экономического развития региона и решения экологических проблем, связанных с развитием нефтеперерабатывающей отрасли является актуальным и практически значимым. Для решения перечисленных проблем необходимо сочетание и комплексное применение наук: биологии, химии, физики, математики, экономики и других для поддержания стабильности экологической ситуации в Самарском регионе. В этой связи, в данной работе рассматриваются математические и информационные подходы к изучению проблемы анализа существующих в настоящее время показателей, описывающих экологическую ситуацию в регионе. В работе средствами многомерного анализа изучены показатели, характеризующие количество и качество выбросов в атмосферу. Министерством лесного хозяйства, охраны окружающей среды и природопользования Самарской области ведется контроль за экологической ситуацией в Самарском регионе. Исходные данные для анализа представлены на сайте данного министерства.

Многообразие многомерных статистических методов позволяет, в первую очередь, их визуализировать и классифицировать. Для визуализации данных в работе используются методы факторного анализа и многомерного шкалирования, классификация проводилась методами кластерного анализа. Математический аппарат данных методов широко представлен в научной литературе. Ниже представлен краткий обзор используемых методов.

Многомерное шкалирование (МШ) позволяет решать различные проблемы в научных исследованиях самого широкого спектра. Независимо от типа решаемой задачи МШ используется как инструмент наглядного представления (визуализации) исходных данных. Поиск координатного пространства в МШ осуществляется не по значениям самих характеризующих объекты признаков, а по данным, представляющим различия или сходство этих объектов. Анализ индивидуальных различий является мощным математическим инструментом среди разнообразных методов многомерного шкалирования.

В работе методом МШ изучается модель индивидуальных различий. Основополагающим является предположение, что полученные в ходе подгонки модели оценки ее параметров хорошо воспроизводят скалярные произведения:

* © Трусова А.Ю., Ильина А.И., 2017

Трусова Алла Юрьевна (a_yu_ssu@mail.ru), Ильина Алла Ивановна (iai.62@mail.ru), кафедра математики и бизнес-информатики, Самарский национальный исследовательский университет имени академика С.П. Королева, 443086, Российская Федерация, г. Самара, Московское шоссе, 34.

= £ XkXjkWt = Е

2

- > V- x

iks jks

k k

или в матричном виде: А^ — ХШ^ХТ .

Стартовая конфигурация матрицы координат стимулов формируется методом главных компонент, который является частью факторного анализа.

В современной трактовке факторный анализ - это совокупность методов, в которых на основе реально существующих связей признаков, осуществляется выявление неявных обобщающих характеристик. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических корреляций между наблюдаемыми переменными. Таким образом, факторный анализ позволяет определить взаимосвязи между переменными и сократить число переменных, необходимых для описания данных.

В факторном анализе латентные факторы объединяют тесно связанные между собой переменные. В результате перераспределения дисперсии между компонентами получается максимально простая и наглядная структура факторов. В целом факторный анализ позволяет выделить из всей совокупности переменных небольшое число латентных независимых друг от друга группировок, внутри которых переменные связаны сильнее, чем переменные, относящиеся к разным группировкам. В частности, метод главных компонент - один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений корреляционной матрицы исходных данных. Формирование однородных групп осуществляется в работе средствами кластерного анализа, а именно методом к-средних.

Министерством лесного хозяйства, охраны окружающей среды и природопользования Самарской области ведется комплексное изучение хозяйственной деятельности предприятий на экологию региона, регулярно осуществляются измерения показателей, данная деятельность находит свое отражение в данных федеральной службы государственной статистики. Исходный массив для анализа представлен в таблице 1.

Таблица 1

Исходный массив данных

t X: X2 X3 X4 X5 Y1 Y2

2004 739 31997 23027 853 342 4021 372

2005 716 31707 22697 807 310 5019 679

2006 725 33573 22943 906 322 5648 986

2007 751 34787 23657 782 311 224 1426

2008 830 38044 26081 599 296 5330 2300

2009 878 39901 26898 595 278 5312 1249

2010 879 40809 27195 675 298 5902 1230

2011 909 41821 28251 747 283 7294 2298

2012 965 43055 28861 724 265 7249 2851

2013 1197 46682 30923 695 252 8307 3551

2014 1249 52048 31101 769 257 8796 5916

В качестве показателей в анализе выбраны следующие: Х1 - количество объектов, имеющих выбросы загрязняющих веществ (единиц); Х2 - количество источников выбросов загрязняющих ве-

ществ, всего; Х3 - количество организованных источников выбросов загрязняющих веществ; Х4 - количество загрязняющих веществ, отходящих от всех источников выделения (Выбросы и улавливание загрязняющих атмосферу веществ, отходящих от стационарных 1)1 (тысяч тонн); Х5 - количество загрязняющих веществ, отходящих от всех источников выделения без очистки; У] - всего текущих затрат на охрану окружающей природы (в фактически действовавших ценах; миллионов рублей); У2 -инвестиции в основной капитал, направленные на охрану окружающей среды. Все данные указаны за период с 2004-2014 года. Матрица корреляций представлена в таблице 2.

Таблица 2

Матрица корреляций

Я Х1 Х2 Х3 Х4 Х5 У1 У2

Х1 1 0,966 0,9489 -0,313 -0,88 0,754 0,917335

Х2 0,966 1 0,9751 -0,401 -0,91 0,747 0,919611

Хз 0,949 0,975 1 -0,491 -0,93 0,773 0,849888

Х4 -0,31 -0,4 -0,491 1 0,541 -0,18 -0,20384

Х5 -0,88 -0,91 -0,934 0,5406 1 -0,7 -0,80848

У1 0,754 0,747 0,7729 -0,184 -0,7 1 0,662494

У2 0,917 0,92 0,8499 -0,204 -0,81 0,662 1

Используя пакет SPSSStatistika, мы провели факторный анализ, многомерное шкалирование и кластерный анализ. В результате использования метода главных компонент были выделены два главных фактора, методом варимаксного вращения были получены улучшенные компоненты матрицы факторного отображения, представленные в таблице 3.

Таблица 3

Метод выделения: Анализ методом главных компонент, метод вращения: Варимакс с нормализацией Кайзера

Матрицы Матрица компонент Матрица повернутых компонент

Компонента Компонента

Я Я

Х1 0,968 0,139 Х1 0,959 -0,188

Х2 0,983 0,047 Х2 0,944 -0,28

Х3 0,985 -0,057 Х3 0,911 -0,379

Х4 -0,456 0,881 Х4 -0,14 0,982

Х5 -0,947 0,152 Х5 -0,844 0,456

У1 0,805 0,252 У1 0,843 -0,027

У2 0,905 0,241 У2 0,934 -0,071

В таблице 4 представлена статистика меры адекватности выделения двух компонент, которая свидетельствует о достаточности выделенных двух главных компонент. В таблице 5 представлены общности выделенных компонент и полная объясненная дисперсия.

Таблица 4

Мера адекватности и критерий Бартлетта

Наименование Мера выборочной адекватности Кайзера-Мейера-Олкина 0,835

Критерий сферичности Бартлетта Прибл. хи-квадрат 82,816

Ст. св. 21

Знач. 0,000

Таблица 5

Общности выделенных двух компонент. Полная объясненная дисперсия

Общности Полная объясненная дисперсия

Я Начальные Извлеченные Компонента Итого % дисперсии Кумулятивный %

Х1 1 0,956 ^ 5,444 77,775 -

Х2 1 0,969 0,946 13,511 -

Хз 1 0,973 Р3 0,381 5,436 96,723

Х4 1 0,984 Р4 0,104 1,491 98,213

Х5 1 0,921 Р5 0,082 1,173 99,386

У: 1 0,711 Рб 0,033 0,474 99,86

У2 1 0,877 0,01 0,14 100

На рис. 1 представлены изучаемые показатели в пространстве двух главных компонент после ва-римаксного вращения.

График компонент в повернутом пространстве

1,0-

0,5-

сч га

0,0-

УАГОООО О

\ZAR00005 О

удстоооео '■■аиоооов

УАРШОООЮ УАИоооого о

Ч'АРООООЗ

£

о

-0,5-

—I—

-1,0

I

1,0

0,0

Компонента 1

Рис. 1. Изучаемые показатели в пространстве латентных факторов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. 2 представлены временные периоды в пространстве латентных факторов без вращения.

Таким образом, средствами факторного анализа многомерные данные представлены в двумерном пространстве латентных факторов. Данное представление позволяет глубже проследить изменение в экологических показателях Самарского региона.

Классификация данных осуществлялась методом к-средних кластерного анализа. Временной промежуток от 2004 до 2009 года характеризуется схожестью показателей. В таблице 6 представлены данные о принадлежности к кластерам изучаемые временные промежутки.

Следующий период выделяется по однородным показателям с 2009 по 2013 год. В этот период наблюдается изменение показателей экологии в сторону их улучшения. Особо выделяется 2014 год, который можно представить как отдельный кластер. Центрами классов являются 2005 и 2013 годы, показатели этих периодов можно рассматривать в качестве основных для принятия взвешенных решений. В таблицах 7 и 8 представлены характеристики кластеров и расстояние между кластерами.

Временные периоды в пространстве латентных факторов

А 2006 _ „„„„

■ ■ 2014

♦ ♦ 2004

2005 - - 2011

2012 ♦ ♦ 2013

►И 2007

:: 2010

«8 2008

• • 2009

Рис. 2. Временные периоды в пространстве латентных факторов без вращения

Таблица 6

Принадлежность к кластерам

Год Кластер Расстояние

2004 2 1134,906

2005 2 0

2006 2 2020,791

2007 2 5835,024

2008 2 7383,974

2009 3 8755,173

2010 3 7738,405

2011 3 5812,256

2012 3 4399,826

2013 3 0

2014 1 0

Таблица 7

Конечные центры кластеров

Я Кластер

1 2 3

Х1 1249 752,2 965,6

Х2 52048 34022 42454

Х3 31101 23681 28426

Х4 769 789,4 687,2

Х5 257 316,2 275,2

Х6 8796 4048,4 6812,8

У1 1070 1587,6 1312,8

У2 5916 1152,6 2235,8

Таблица 8

Расстояния между конечными центрами кластеров

Кластер 1 2 3

1 0 20634 10809

2 20634 0 10127

3 10809 10127 0

Как видно из таблиц, характеризующих параметры кластеров и расстояния между ними, изучаемые временные промежутки можно рассматривать как однородные структурные объекты.

В результате визуализации средствами многомерного шкалирования получен график расположения годов с 2004 по 2014 год в двумерном шкальном пространстве. Номер на рисунке 3 соответствует номеру года: 1 - 2004, 2 - 2005 и т. д. Умеренное распределение показателей экологии в двумерном пространстве латентных факторов позволяет сделать вывод об определенной стабильности этих показателей или их незначительное изменение.

Размерность 1

Нормализация с главенством переменной. Рис. 3. Временные периоды в двумерном шкальном пространстве

Таким образом, в результате визуализации многомерных данных средствами компонентного анализа и многомерного шкалирования имеется возможность более детального изучения показателей экологии. Кластеризация временных периодов позволяется глубже анализировать однородные по структуре показатели экологии.

Библиографический список

1. Дубров А.М., Мхитарян В.С. Многомерные статистические методы. М.: Финансы и статистика, 1998. 338 с.

2. Наследов А.Д. SPSS 15: профессиональный статистический анализ данных. СПб: Питер, 2008. 320 с.

3. Сошникова Л. А., Тамашевич П. А. Многомерный статистический анализ в экономике. М.: Юнити, 1999. 320 с.

4. Трусова А.Ю., Сизова, Орлова И.С. Факторный анализ как средство визуализации многомерных данных // Вычислительные системы и информационные технологии: межвуз. сб. Самара. 2009, С. 60-65.

5. Сошникова Л.А., Тимашевич В.Н., Уебе Г., Шефер М. Многомерный статистический анализ в экономике: учеб. пособие для вузов. М.: ЮНИТИ-ДАНА, 1999.

6. Айвазян С.А., Мхитарян В.С. Прикладная статистика. Основы эконометрики: в 2 т.: учебник для вузов. М.: ЮНИТИ-ДАНА, 2001.

7. Трусова А.Ю., Тетерин А.Е. Сжатие социологической информации средствами факторного анализа // Труды Второй Всероссийской ФАМ'2003 конференции (Красноярск, 28 февраля - 2 марта, 2003 г.). Красноярск, 2003. С. 230-233.

8. Трусова А.Ю., Макарова И.С. Математическое моделирование социальных процессов // Образовательные технологии: межвуз. сб. науч. тр. Вып. 10. Воронеж, 2003. С. 87-91.

References

1. Dubrov A.M., Mkhitaryan V.S. Mnogomernyye statisticheskiye metody [Multivariate statistical methods]. M.: Finansy i statistika, 1998, 338 p.

2. Nasledov A.D. SPSS 15: professional'nyy statisticheskiy analiz dannykh [SPSS 15: professional statistical analysis of data]. SPb: Piter, 2008, 320 p.

3. Soshnikova L. A., Tamashevich P. A. Mnogomernyy statisticheskiy analiz v ekonomike [Multidimensional statistical analysis in economics]. M.: Yuniti, 1999. 320 р.

4. Trusova A.Yu., Sizova, Orlova I.S. Faktornyy analiz kak sredstvo vizualizatsii mnogomernykh dannykh [Factor analysis as a means of visualization of multidimensional data]. In: Vychislitel'nyye sistemy i informatsionnyye tekhnologii: mezhvuz. sb. [Computational systems and information technologies]. Samara. 2009, рр. 60-65.

5. Soshnikova L.A., Timashevich V.N., Uyebe G., Shefer M. Mnogomernyy statisticheskiy analiz v ekonomike: ucheb. posobiye dlya vuzov [Multivariate statistical analysis in economics: textbook. manual for universities]. M.: YUNITI-DANA, 1999.

6. Ayvazyan S.A., Mkhitaryan V.S. Prikladnaya statistika. Osnovy ekonometriki: v 2 t.: uchebnik dlya vuzov [Applied statistics. Fundamentals of econometrics: in 2 t: a textbook for universities]. M.: YUNITI-DANA, 2001.

7. Trusova A.Yu., Teterin A£. Szhatiye sotsiologicheskoy informatsii sredstvami faktornogo analiza [Compression of sociological information by means of factor analysis]. In: Trudy Vtoroy Vserossiyskoy FAM'2003 konferentsii (Krasnoyarsk, 28 fevralya - 2 marta, 2003 g.) [Proceedings of the Second All-Russian FAM'2003 conference (Krasnoyarsk, February 28 - March 2, 2003)]. Krasnoyarsk, 2003, pp. 230-233.

8. Trusova A.Yu., Makarova I.S. Matematicheskoye modelirovaniye sotsial'nykh protsessov [Mathematical modeling of social processes]. In: Obrazovatel'nyye tekhnologii: mezhvuz. sb. nauch. tr. [Educational technologies: interuniversity. Sat. sci. tr.]. Issue. 10. Voronezh, 2003, рр. 87-91.

A.Yu. Trusova, A.I. Ilyina*

VISUALIZATION AND CLASSIFICATION OF INDICATORSECOLOGY

OF THE SAMARA REGION

In the work of multidimensional statistical analysis, the environmental indicators of the Samara region were studied. Data visualization was carried out using component analysis. Classification was carried out by the method of k-means.

Key words: multidimensional statistical analysis, factor and component analysis, cluster analysis, k-means method.

Статья поступила в редакцию 14/IX/2016.

The article received 14/IX/2016.

* Trusova Alla Yuriyevna (a_yu_ssu@mail.ru), Ilyina Elena Alekseevna (elenaalex.ilyina@yandex.ru), Department of Mathematics and Business Informatics, Samara National Research University, 34, Moskovskoye shosse, Samara, 443086, Russian Federation.

i Надоели баннеры? Вы всегда можете отключить рекламу.