Научная статья на тему 'ВИЗУАЛИЗАЦИЯ ДАННЫХ ПРИ ОЦЕНКЕ ИЗМЕНЕНИЯ КАЧЕСТВА СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМ'

ВИЗУАЛИЗАЦИЯ ДАННЫХ ПРИ ОЦЕНКЕ ИЗМЕНЕНИЯ КАЧЕСТВА СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
103
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
визуализация данных / тепловые карты / логарифмическая коррекция / качество системы / интегральный индикатор / комплексный индикатор качества жизни / data visualization / heat maps / logarithmic correction / system quality / complex index / quality of life indicator

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жгун Татьяна Валентиновна, Проузи Давид Кристофер

Рассматривается выявление особенностей данных при построении интегрального индикатора изменения качества системы по ряду регистрируемых измерений. Использование для визуализации данных тепловых карт позволяет выявить переменные, имеющие аномальных особенности. Применение логарифмической коррекции для таких переменных в авторской модификации метода главных компонент, учитывающей наличие шума в данных, устраняет коллизии с отрицательными весами переменных, имеющих очевидный характер зависимости с показателем качества системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жгун Татьяна Валентиновна, Проузи Давид Кристофер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA VISUALIZATION IN THE EVALUATION OF THE CHANGE OF QUALITY OF SOCIO-ECONOMIC SYSTEMS

The paper considers the use of heat maps to identify the features of data that characterize the quality of life of the population of the subjects of the Russian Federation and to determine the necessary data transformations. The integral indicators of the quality of life of the population of the subjects of the Russian Federation is determined for the period 2010-2017 based on statistical data. Using logarithmic data correction for identified variables with atypical behavior allows building a reliable composite indicator of a system’s quality.

Текст научной работы на тему «ВИЗУАЛИЗАЦИЯ ДАННЫХ ПРИ ОЦЕНКЕ ИЗМЕНЕНИЯ КАЧЕСТВА СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМ»

5. Сидорова Л.Е. Сидоров С.В., Шарафутдинов Р.Я. О системном анализе динамики человеческого капитала национальной экономики // Системный анализ в проектировании и управлении: Сборник научный трудов XXIII Международной научно-практической конференции 10-11 июня 2019 г. СПб.: Изд-во Политех-Пресс, 2019. С. 34-44.

УДК 519.24

doi:10.18720/SPBPU/2/id20-130

Жгун Татьяна Валентиновна1,

канд. физ.-мат. наук, доцент, доцент;

Проузи Давид Кристофер ,

студент

ВИЗУАЛИЗАЦИЯ ДАННЫХ ПРИ ОЦЕНКЕ ИЗМЕНЕНИЯ

КАЧЕСТВА СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМ

1 2

' ФГБОУ ВО «Новгородский государственный университет имени Ярослава Мудрого», Великий Новгород, Россия

1 Tatyana.Zhgun@novsu.ru 2 prowsedavid@yandex.ru

Аннотация. Рассматривается выявление особенностей данных при построении интегрального индикатора изменения качества системы по ряду регистрируемых измерений. Использование для визуализации данных тепловых карт позволяет выявить переменные, имеющие аномальных особенности. Применение логарифмической коррекции для таких переменных в авторской модификации метода главных компонент, учитывающей наличие шума в данных, устраняет коллизии с отрицательными весами переменных, имеющих очевидный характер зависимости с показателем качества системы.

Ключевые слова: визуализация данных, тепловые карты, логарифмическая коррекция, качество системы, интегральный индикатор, комплексный индикатор качества жизни.

Tatyana V.Zhgun\

Candidate of Physical and Mathematical Sciences, Associate Professor;

David C. Prowse , Student

DATA VISUALIZATION IN THE EVALUATION OF THE CHANGE OF QUALITY OF SOCIO-ECONOMIC SYSTEMS

12 Novgorod State University a Yaroslav the Wise, Velikiy Novgorod, Russia,

1 Tatyana.Zhgun@novsu.ru 2 prowsedavid@yandex.ru

Abstract. The paper considers the use of heat maps to identify the features of data that characterize the quality of life of the population of the subjects of the Russian Federation and to determine the necessary data transformations. The integral indicators of the quality of life of the population of the subjects of the Russian Federation is determined for the

period 2010-2017 based on statistical data. Using logarithmic data correction for identified variables with atypical behavior allows building a reliable composite indicator of a system's quality.

Keywords, data visualization, heat maps, logarithmic correction, system quality, complex index, quality of life indicator.

Введение

Задачу определения качества сложной системы можно рассматривать как завершающую фазу задачи анализа данных. Для успешного выполнения этой фазы исследования данных необходимо качественное выполнение задач визуализации и преобразования данных.

Главным аспектом задачи визуализации данных является облегчение восприятия данных для их последующего анализа. В этом смысле визуализация по существу является инструментом системы поддержки принятия решения. В частности, визуализация данных оказывается полезной при формировании представления о состоянии системы. Однако при большом количестве параметров визуализация становится весьма проблематичной. При этом успех во многом зависит от выбранной формы представления данных. Поэтому актуальным является решение задачи эффективной визуализации многомерных данных, описывающих качество системы. В частности, визуализация данных может дать подсказку об особенностях методов дальнейшей работы с данными и о необходимых преобразованиях данных.

Преобразование данных является одним из важнейших процессов при вычислении показателя качества систем. Преобразование данных заключается в оптимизации их представлений с точки зрения достижения целей решаемых задач. В контексте задачи вычисления показателя качества систем преобразование данных имеет вполне конкретные цели и задачи. Для преобразования данных обычно используют достаточно стабильный набор методов. К основным методам относится масштабирование, при котором значения входных переменных приводятся к некоторому заданному диапазону, обычно к интервалу [0, 1] с учетом характера зависимости параметра от вычисляемого показателя качества.

Особенности распределения данных могут влиять на результат вычисления интегрального показателя качества. Для некоторых данных характерно распределение, когда большая часть значений сосредоточена вблизи среднего значения, но имеется небольшое количество аномально больших значений или аномально малых значений. Многие социальные и экономические явления проявляют такое поведение, например доходы населения или величины валового регионального продукта на душу населения. При вычислении интегрального показателя качества системы показатели на верхнем уровне значений показателя нивелируют все ос-

тальные значения, а наличие малых и небольших значений игнорируется. Логарифмическое преобразование данных для распределения такого типа позволяет избежать потери информативности, уменьшая (сжимая) большие значения в наборе данных и растягивая меньшие значения. Визуально логарифмическое преобразованных данных позволяет человеческому глазу более четко визуализировать слабые сигналы (значения серого), поэтому логарифмическое преобразование стало стандартной процедурой обработки сигналов оптической когерентной томографии в [8].

Следует отметить, что нелинейные методы преобразования данных вносят в данные свойства, которых не было в исходных данных. Например, неравномерно распределенные данные становятся равномерно распределенными, редко встречающиеся значения становятся равноправными с часто встречающимися значениями. Поэтому нелинейные методы преобразования данных следует применять осторожно и только в том случае, когда это целесообразно.

Целью исследования является обоснование эффективности использования тепловых карт для анализа и оценки качества социально-экономических систем на примере исследования качества жизни населения РФ. Визуализация с помощью тепловых карт служит для наглядного сравнения множества показателей при оценке изменения качества жизни и выявления особенностей данных, требующих нестандартных методов дальнейшей работы с данными и необходимых преобразований данных.

1. Применение тепловых карт при исследовании изменении качества систем

Tепловые карты (НвШшар) являются одним из инструментов представления многомерных данных. При представлении данных с помощью тепловых карт цвет выступает в качестве дополнительного измерения. При представлении матрицы данных с помощью тепловых карт табличное представление информации сохраняется, но числа в ячейках заменяются на заливку этих ячеек цветом по определенному принципу. История тепловых карт приведена в [9].

Исследователи в разных областях используют тепловые карты, чтобы представить многомерные данные [4]. Например, тепловые карты широко используется для визуализации данных в генетике и медицине [7].

Обычно тепловые карты применяют для визуализации двумерных массивов данных. Визуализация данных более высоких размерностей является значительно более сложной задачей. В частности, при анализе функционирования систем во времени, когда нужно рассматривать данные в трех измерениях: объект-показатель-время.

Рассмотрим в качестве многомерного набора данных, отражающих изменение качества жизни населения субъектов Российской Федерации, данные государственной статистики. Выбор переменных, описывающих эту систему, представлен в [3]. Рассматриваются значения 37 переменных для 83 субъектов Российской Федерации при наблюдении за 8 лет. При исследовании изменения качества систем главной задачей исследования является мониторинг изменения качества жизни за рассматриваемой период с разных точек зрения. Для этого нужно визуализировать различные проекции трехмерного куба данных.

Численные значения величин предварительно приведены в единую шкалу [0, 1].Большее значение параметра соответствует более высокому качеству системы и изображается более светлым оттенком. При последовательном просмотре по годам отчетливо видно, как светлеет общий тон картинки. На рисунке 1 представлены данные для начала наблюдения и конца рассматриваемого периода.

I 1 *

I

■Г.

Рис. 1. Фрагмент тепловых карты переменных, характеризующих качество жизни для субъектов РФ для 2010 и 2017 годов

Строки соответствуют субъектам РФ, столбцы - значениям переменных. Тон последнего изображения стал более светлым, что свидетельствует об общем улучшении ситуации во времени.

Если рассматривать проекцию трехмерного куба данных по переменным (зафиксировав конкретный показатель), в координатах объект - время, то хорошо видны выбросы данных для некоторых объектов.

На рисунке 2 отчетливо видны выбросы в значениях переменной 36 - «Смертность от внешних причин (на 100 000 чел.)» - в Тыве для 2010

года и в Астраханской области для 2010 и 2013 годов (резко черный цвет на светлом фоне). Резкое улучшение ситуации (осветление второго и третьего столбца) для 2011 и 2012 годов заставляет задуматься о корректности данных для этих наблюдений.

Рис. 2. Наличие выбросов показателя 36 для Астраханской области

- 2010 и 2013 годы

На рисунке 3 представлены переменные с типичным (слева) и аномальным поведением (справа). Большой разброс данных на тепловой карте представлен либо очень темным либо очень светлым фоном без различения значений, в то время как типичное представление переменной характеризуется отчетливой картиной с различением оттенка температуры.

Рис. 3. Изменение переменной 21(слева) и переменной 22(справа) за 2010-2017 годы. Переменная 22 требует логарифмической коррекции.

Анализируя полученную при помощи тепловых карт информацию, можно сделать два наблюдения. Во-первых, визуализация убедительно показывает наличие выбросов (шума) в имеющихся статистических данных. Следовательно, дальнейшая работа с этими данными должна учитывать этот факт и для определения интегрального показателя качества системы следует использовать методы, ориентированные на работу с зашумленными данными. Во-вторых, среди данных имеются данные с большим разбросом. На представленных тепловых картах они выражены либо аномально темным (рисунок 4) либо аномально светлыми столбцами. Это переменные 1, 8, 9, 22. Для этих переменных необходима логарифмическая коррекция.

На рисунке 4 представлены переменные 8 и 9 до и после логарифмической коррекции. Преобразование увеличило визуальную информативность переменных.

Рис. 4. Изменение переменных 8 (а) и 9 (Ь) за 2010-2017 годы до (левое изображение) и после (правое изображение) логарифмической коррекции

2. Построение интегрального показателя качества жизни населеия

Рассмотрим построение интегральной оценки системы из т объектов, для которой известны таблицы описаний объектов для ряда на-

блюдений - матрицы размерностью тУ-п аг ={щ/ }пт, г = 1,..., Т.

¿, ]=1

Элемент матрицы ац* - значение ^го показателя ¿-го объекта, вектор

ач

.г _ { „.л

сц- = ^ац j - описание ¿-го объекта в момент г. Для каждого момента г вектор интегральных показателей имеет вид (1)

дг = А ■ wг (1)

Или же, для ¿ - го объекта в момент г

г п г г

^¿= Е wlj■ аъц (2)

]=1

Т

где qt = ^2,..., - вектор интегральных индикаторов

Т

момента г, wt = 1, wt2, ..., wt^ - вектор весов показателей для г.

Численные характеристики системы предварительно приведены на отрезок [0, 1] по принципу: «чем больше, тем лучше». Требуется дать мотивированную оценку каждого наблюдаемого объекта на всем промежутке наблюдений, т.е. определить в динамике интегральную характеристику качества системы. Для этого требуется найти веса показателей wг для каждого момента времени. Обычно считается, что веса показателей должны отражать их важность или значимость для рассматриваемой системы [5, 6], что дает основание для многочисленных дискуссий, когда важные компоненты не значимы и наоборот. Автор считает, что определяемые весовые коэффициенты должны отражать структуру оцениваемой системы [1, 2]. Такая трактовка весовых показателей устраняет одну из главных неопределенностей при конструировании интегрального индикатора [5, 6].

Одним из наиболее простых методов анализа структуры исследуемой системы является метод главных компонент (МГК). Пространство главных компонент оптимально для моделирования внутренней структуры данных. Однако классический метод главных компонент терпит неудачу даже при наличии единичных выбросов.

Изменение данных во времени вызывается как изменением ситуации, так и случайными ошибками. Метод главных компонент на основании различных для разных моментов значений собственных векторов и собственных значений описывает неизменную структуру системы.

И для вычисления интегральной характеристики системы в виде (1) и (2) необходимо получить характеристики этой системы, т.е. оценку ее структуры ее компонентов с помощью МГК. Учитывая неизбежное на-

личие ошибок в данных, структура системы должна определяться на основании нескольких наблюдений. Главные компоненты будут являть сигналом, который нужно выделить по набору зашумлённых данных.

Автором предложена модификация метода главных компонент, которая решает эту проблему [1, 2]. По набору зашумленных входных данных метод определяет эмпирические главные компоненты. Число выбираемых вычислительно значимых эмпирических главных компонент должно максимизировать критерий информативности, учитывающий наличие шума в данных. Полученные весовые коэффициенты, характеризующие структуру системы, будут сигналом, который мы выделили из совокупности зашумленных данных.

3 Использования тепловых карт при оценке изменения качества жизни населения РФ за 2010-2017 годы

Авторская методика вычисления интегральной характеристики системы была применена для оценки качества жизни населения РФ за 20102017 годы. По предложенному алгоритму были рассчитаны комплексные показатели изменения качества жизни населения для вышеупомянутых переменных.

Полученный результат определения весовых коэффициентов свертки (1) можно оценить. В качестве оценки достоверности получаемого результата могут выступать, в частности, знаки полученных весовых коэффициентов. Они должны иметь однозначную трактовку. Как правило, параметры преобразования переменных на отрезок [0, 1] подбираются таким образом, чтобы вектор весов имел только положительные компоненты. Получение отрицательных весовых коэффициентов является главным препятствием для широко использования МГК для построения комплексных индексов.

Аномальные переменные - 1, 8, 9 и 22 - были выявлены при анализе тепловых карт переменных. При отсутствии логарифмической коррекции весовые коэффициенты переменных 1 и 4 (таблица1) отрицательны. Значит, результат вычисления интегральной характеристики системы нельзя назвать достоверным, так как в этом случае качество системы увеличивается при уменьшении значения ВРП на душу населения (переменная 1) и при увеличении разрыва в доходах богатых и бедных (переменная 4). Применение логарифмической коррекции аномальных переменных устраняет это противоречие для переменных первого и второго блока (таблицы 1 и 2). Значения переменных второго блока приведены на 100 тысяч человек, если не указано иначе. Переменные третьего блока не требовали логарифмической корректировки.

Таблица 1

Влияние логарифмической унификации на достоверность интегральной характеристики. Веса переменных Блока 1 «Уровень благосостояния

населения»

№ п/п Переменные Вес

без коррекции после коррекции

1 ВРП на душу населения тыс. руб. (в ценах 2010г.) -0.41 0.73

2 Отношение среднедушевого дохода к прожиточному минимуму 0.89 0.53

3 Доля населения с доходами ниже прожиточного минимума 0.86 0.9

4 Отношение доходов 20% самых богатых и 20% самых бедных -0.3 0.19

5 Обеспеченность легковыми автомобилями на 1 000 чел. 0.61 1.59

6 Доля семей, состоящих на учете на получение жилья 0.74 1.51

7 Площадь жилищного фонда на одного жителя 1.1 0.79

8 Доля ветхого и аварийного жилья 1.09 0.88

9 Плотность автомобильных дорог общего пользования 1.4 0.43

Таблица 2

Влияние логарифмической унификации на достоверность интегральной характеристики. Веса переменных Блока 2 «Качество населения»

№ п/п Переменные Вес

без коррекции после коррекции

10 Ожидаемая продолжительность жизни 1.16 2.11

11 Число умерших детей до 1 года на 1 000 человек. 0.71 1.03

12 Коэффициент естественного прироста 0.34 0.44

13 Число умерших от инфекционных болезней и туберкулеза 0.33 0.97

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14 Число умерших от новообразований 0.23 0.63

15 Число умерших от болезней системы кровообращения 0.27 0.45

16 Число умерших от болезней органов дыхания 1.63 0.37

17 Число умерших от болезней органов пищеварения 1.69 0.99

18 Заболеваемость от травм и др. внешних причин 1.2 1.65

19 Число инвалидов на 1 тысячу человек 0.33 0.65

20 Врожденных аномалий на 1 тысячу человек. 0.33 0.33

21 Доля специалистов с высшим образованием к числу занятых в экономике 1.35 0.51

22 Отношение ВРП к численности занятых в экономике, тыс. руб./чел) 0.42 0.13

23 Количество выпускников высших и средних учебных заведений на 1 тысячу человек 0.15 0.74

На рисунке 5 представлены интегральные показатели качества жизни населения России за 2010 - 2017 годы для некоторых субъектов России. Значение интегрального показателя на первом году наблюдения приведены на отрезок [1, 100], где минимальное значение показателя -один - в 2010 году у Тывы, максимальное значение 100 - у Москвы. Логарифмическая коррекция более наглядным сделала разделение кластеров - столицы и приморские регионы стали в большем отдалении от приморских регионов. Также уменьшилось номинальные значения показателя, что тоже согласуется с интуитивным представлением о ситуации.

р с X йГ

е

ее

Ь

■и

X

К

■и

¡г

■Л

м о К

105 95 85 75 65 55 45 35 25

-—"—

^---"

Л

¿У

• ^

1111111111 1111

О

^ч^

™г: Москва

— г Санкт-

Петербург Калпнпнградска

я область =Мурманская

область Ленинградская

область Псковская

область * Республика

Карелия ~ Новгородская

область

Рис. 5. Интегральные показатели качества жизни населения России за 2010 - 2017 годы для некоторых субъектов России

Заключение

При исследовании состояния качества системы удобен формат тепловых карт. Тепловые карты имеют две основные цели:

- предоставление средства для визуального извлечения информации, содержащейся в многомерных наборах данных и обеспечение визуальной оценки эффективности функционирования системы, которая характеризуется этим набором данных;

- выявление необходимых преобразований данных и выявление особенностей методов дальнейшей работы с данными.

Применение тепловых карт для визуализации набора данных, характеризующих качество жизни населения, обеспечивает эффективную реализацию рассматриваемых целей. В частности, тепловые карты служат основанием для принятия решения о необходимости логарифмической коррекции переменных с нетипичным поведением, которая обеспе-

чивает более достоверный результат вычисления интегрального показателя изменения качества системы. В качестве оценки достоверности вычисляемой интегральной характеристики выступают знаки вычисляемых весовых коэффициентов. Получение отрицательных весовых коэффициентов является главным препятствием для широко использования методов многомерного анализа при построении комплексных индексов. Применение логарифмической коррекции для аномальных переменных устраняет возникающие коллизии с отрицательными значениями весов для переменных, имеющих очевидный характер зависимости с вычисляемым показателем качества системы.

Список литературы

1. Жгун Т.В. Построение интегральной характеристики качества жизни субъектов Российской Федерации с помощью метода главных компонент // Экономические и социальные перемены: факты, тенденции, прогноз. 2017. Т. 10. № 2. С. 214-235. DOI: 10.15838/esc/2017.2.50.12.

2. Жгун Т.В. Алгоритм построения интегрального индикатора качества сложной системы для ряда последовательных наблюдений // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2020. Т. 6, № 1. С. 5-25. DOI: 10.14529/cmse170101.

3. Исакин, М.А. Модификация метода k-средних с неизвестным числом классов // Прикладная эконометрика. 2006. Выпуск № 4. С. 62-70.

4. Романова И.К. Современные методы визуализации многомерных данных: анализ, классификация, реализация, приложения в технических системах / Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2016. № 03. С. 133-167. DOI: 10.7463/0316.0834876.

5. Becker W., Paruolo P., Saisana M., and al. Weights and Importance in Composite Indicators: Mind the Gap. // Ghanem R., Higdon D., Owhadi H. (eds) Handbook of Uncertainty / Quantification Springer International Publishing, 2017. P. 1187-1216.

6. Becker W., Saisana M., Paruolo P., and al. Weights and Importance in Composite Indicators: Closing the Gap // Ecological Indicators, 2017. № 80. Р. 12-22.

7. DeBold T. Battling Infectious Diseases in the 20th Century: The Impact of Vaccines. / DeBold Tynan, Friedman Dov. Wall Street Journal, Published Feb. 11, 2015 URL: http://graphics.wsj.com/infectious-diseases-and-vaccines/

8. Li X., Liang S., Zhang J. (2019) Acceleration of OCT Signal Processing with Lookup Table Method for Logarithmic Transformation School of Electronics and Information Technology, Sun Yat-sen University, Guangzhou, Guangdong 510006, China Appl. Sci, 9(7), 1278-1286, https://doi.org/10.3390/app9071278.

9. Wilkinson L. The History of the Cluster Heat Мaр // Friendly American Statisti-cian.2009. Vol. 63, no. 2. P. 179-184.

i Надоели баннеры? Вы всегда можете отключить рекламу.