Научная статья на тему 'ОЦЕНКА КАЧЕСТВА СТАТИСТИЧЕСКИХ ДАННЫХ В ЗАДАЧЕ ВЫЧИСЛЕНИЯ ИНТЕГРАЛЬНОЙ ХАРАКТЕРИСТИКИ СИСТЕМЫ ПО РЯДУ НАБЛЮДЕНИЙ'

ОЦЕНКА КАЧЕСТВА СТАТИСТИЧЕСКИХ ДАННЫХ В ЗАДАЧЕ ВЫЧИСЛЕНИЯ ИНТЕГРАЛЬНОЙ ХАРАКТЕРИСТИКИ СИСТЕМЫ ПО РЯДУ НАБЛЮДЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
54
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕГРАЛЬНЫЕ ИНДИКАТОРЫ / КАЧЕСТВО ДАННЫХ / ОШИБКИ ДАННЫХ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / МЕТОД КОНЕЧНЫХ РАЗНОСТЕЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жгун Татьяна Валентиновна

Построение интегральной характеристики системы по ряду наблюдений, фиксирующих состояние системы с некоторыми ошибками, можно рассматривать как задачу выделения полезного сигнала на фоне шумов. Сигналом в этом случае являются весовые коэффициенты линейной свертки показателей, которые должны отражать постоянную структуру оцениваемой системы в рассматриваемом периоде. Для ряда наблюдений методы многомерного анализа по-разному определяют структуру главных компонент (главных факторов). Даже небольшое возмущение исходных данных может вызвать значительное изменение весовых коэффициентов при использовании методов многомерного анализа. Причиной этого может являться наличие неустранимых погрешностей используемых данных. Поэтому существенным является вопрос об оценке качества используемых данных в задаче вычисления композитного индикатора качества системы по ряду наблюдений, а именно, оценка наличия в регистрируемых измерениях значительных неустранимых ошибок. В статье рассматривается применение метода конечных разностей для оценки неустранимых ошибок регистрации данных по ряду наблюдений. Для применения этой методики необходимо, чтобы данные допускали приближение полиномами более низких степеней, чем число наблюдений минус один. Справедливость предположения проверена эмпирически на конкретном наборе данных. Рассматриваются 37 переменных, характеризующих качество жизни населения России за 2010-2017 годы. Проанализированы зависимости качества аппроксимации данных от степени полиномиальной регрессии. Результаты численного эксперимента позволяют сделать вывод о правомерности оценки неустранимых погрешностей данных с помощью метода конечных разностей. Применение аппарата конечных разностей для анализа выборки показывает наличие неустранимых ошибок в исследуемой выборке от 0,59% до 28,92 %. Следовательно, получение композитных характеристик объектов на основании таких данных должно обязательно учитывать наличие неустранимой ошибки. В частности, число параметров и число наблюдений, характеризующих систему, должно быть достаточно большим, чтобы компенсировать случайные ошибки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жгун Татьяна Валентиновна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EVALUATION OF STATISTICAL DATA QUALITY IN THE PROBLEM OF CALCULATING THE INTEGRAL CHARACTERISTIC OF A SYSTEM FOR A NUMBER OF OBSERVATIONS

The construction of the composite index of a system can be considered as a problem of separating signal from noise. The signal in this case is the weight coefficients of the linear convolution of indicators. The weights to be determined should reflect the structure of the system being evaluated. However, principal component analysis and factor analysis determine the structure of principal components and principal factors differently for different observations. The reason for this may be the presence of inevitable errors in the used data. A solution of the problem requires a detailed understanding of input data errors’ influence on the calculated model’s parameters. The article discusses the use of the finite difference method for evaluating statistical data quality in the problem of calculating the integral characteristic of a system for a number of observations. For this technique to be applicable, the data must be approximated with polynomials of lower degrees than the number of observations minus one. The assumption is tested empirically on a specific data set. 37 variables characterizing the quality of life of the population of Russia for 2010-2017 are considered. The dependencies of the quality of data approximation on the degree of polynomial regression are analyzed. The results of the numerical experiment make it possible to draw a conclusion about the legitimacy of evaluating data errors using the finite difference method. The use of the finite difference apparatus for analyzing the data shows the presence of fatal errors from 0.59% to 28.92%. Therefore, obtaining the composite characteristics of objects on the basis of such data must necessarily take into account the presence of a fatal error. In particular, the number of parameters characterizing the system should be large enough to compensate for random errors with averaging.

Текст научной работы на тему «ОЦЕНКА КАЧЕСТВА СТАТИСТИЧЕСКИХ ДАННЫХ В ЗАДАЧЕ ВЫЧИСЛЕНИЯ ИНТЕГРАЛЬНОЙ ХАРАКТЕРИСТИКИ СИСТЕМЫ ПО РЯДУ НАБЛЮДЕНИЙ»

УДК 519.25, 330.46

DOI: 10.25559^ШТО.16.202002.295-303

Оценка качества статистических данных в задаче вычисления интегральной характеристики системы по ряду наблюдений

Т. В. Жгун

ФГБОУ ВО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород, Россия

173003, Россия, Новгородская область, г. Великий Новгород, ул. Большая Санкт-Петербургская, д. 41

Tatyana.Zhgun@novsu.ru Аннотация

Построение интегральной характеристики системы по ряду наблюдений, фиксирующих состояние системы с некоторыми ошибками, можно рассматривать как задачу выделения полезного сигнала на фоне шумов. Сигналом в этом случае являются весовые коэффициенты линейной свертки показателей, которые должны отражать постоянную структуру оцениваемой системы в рассматриваемом периоде. Для ряда наблюдений методы многомерного анализа по-разному определяют структуру главных компонент (главных факторов). Даже небольшое возмущение исходных данных может вызвать значительное изменение весовых коэффициентов при использовании методов многомерного анализа. Причиной этого может являться наличие неустранимых погрешностей используемых данных. Поэтому существенным является вопрос об оценке качества используемых данных в задаче вычисления композитного индикатора качества системы по ряду наблюдений, а именно, оценка наличия в регистрируемых измерениях значительных неустранимых ошибок. В статье рассматривается применение метода конечных разностей для оценки неустранимых ошибок регистрации данных по ряду наблюдений. Для применения этой методики необходимо, чтобы данные допускали приближение полиномами более низких степеней, чем число наблюдений минус один. Справедливость предположения проверена эмпирически на конкретном наборе данных. Рассматриваются 37 переменных, характеризующих качество жизни населения России за 2010-2017 годы. Проанализированы зависимости качества аппроксимации данных от степени полиномиальной регрессии. Результаты численного эксперимента позволяют сделать вывод о правомерности оценки неустранимых погрешностей данных с помощью метода конечных разностей. Применение аппарата конечных разностей для анализа выборки показывает наличие неустранимых ошибок в исследуемой выборке от 0,59% до 28,92 %. Следовательно, получение композитных характеристик объектов на основании таких данных должно обязательно учитывать наличие неустранимой ошибки. В частности, число параметров и число наблюдений, характеризующих систему, должно быть достаточно большим, чтобы компенсировать случайные ошибки.

Ключевые слова: интегральные индикаторы, качество данных, ошибки данных, метод главных компонент, метод конечных разностей.

Для цитирования: Жгун, Т. В. Оценка качества статистических данных в задаче вычисления интегральной характеристики системы по ряду наблюдений / Т. В. Жгун. - DOI 10.25559/ SITITO.16.202002.295-303 // Современные информационные технологии и ИТ-образование. -2020. - Т. 16, № 2. - С. 295-303.

I© Жгун Т. В., 2020|

Контент доступен под лицензией Creative Commons Attribution 4.0 License. The content is available under Creative Commons Attribution 4.0 License.

Vol. 16, No. 2. 2020 ISSN 2411-1473 sitito.cs.msu.ru

Modern Information Technologies and IT-Education

Evaluation of Statistical Data Quality in the Problem of Calculating the Integral Characteristic of a System for a Number of Observations

T. V. Zhgun

Yaroslav-the-Wise Novgorod State University, Veliky Novgorod, Russia 41 Bolshaya St. Petersburgskaya Str., Veliky Novgorod 173003, Russia Tatyana.Zhgun@novsu.ru

The construction of the composite index of a system can be considered as a problem of separating signal from noise. The signal in this case is the weight coefficients of the linear convolution of indicators. The weights to be determined should reflect the structure of the system being evaluated. However, principal component analysis and factor analysis determine the structure of principal components and principal factors differently for different observations. The reason for this may be the presence of inevitable errors in the used data. A solution of the problem requires a detailed understanding of input data errors' influence on the calculated model's parameters. The article discusses the use of the finite difference method for evaluating statistical data quality in the problem of calculating the integral characteristic of a system for a number of observations. For this technique to be applicable, the data must be approximated with polynomials of lower degrees than the number of observations minus one. The assumption is tested empirically on a specific data set. 37 variables characterizing the quality of life of the population of Russia for 2010-2017 are considered. The dependencies of the quality of data approximation on the degree of polynomial regression are analyzed. The results of the numerical experiment make it possible to draw a conclusion about the legitimacy of evaluating data errors using the finite difference method. The use of the finite difference apparatus for analyzing the data shows the presence of fatal errors from 0.59% to 28.92%. Therefore, obtaining the composite characteristics of objects on the basis of such data must necessarily take into account the presence of a fatal error. In particular, the number of parameters characterizing the system should be large enough to compensate for random errors with averaging.

Keywords: composite index; data quality; data errors; principal component analysis, method of finite differences.

For citation: Zhgun T.V. Evaluation of Statistical Data Quality in the Problem of Calculating the Integral Characteristic of a System for a Number of Observations. Sovremennye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2020; 16(2):295-303. DOI: https://doi.org/10.25559/SITITO.16.202002.295-303

Abstract

Современные информационные технологии и ИТ-образование

Том 16, № 2. 2020 ISSN 2411-1473 sitito.cs.msu.ru

Введение

Задача определение комплексного показателя сложных систем возникают как при исследовании физических явлений, технических систем, так при решении проблем управления социально-экономическими системами. При описании стохастических динамических систем в задачах гидродинамики, магнитной гидродинамики, астрофизике, физике плазмы, в радиофизике интегральные величины являются основными характеристиками таких систем. Например, все законы сохранения в механике и электродинамике сплошных сред записываются для интегральных величин. Интегральные характеристики описывают динамику системы в целом, позволяя отвлечься от побочных эффектов, связанных со случайностью показателей, искаженных помехами и являются ключом к пониманию структурообразования в стохастических динамических системах [1].

Построение интегрального индикатора вводит отношения порядка на многомерном множестве объектов и позволяет сравнивать качество объектов. Общей целью большинства композитных показателей является ранжирование объектов (стран) и их сравнительный анализ [2-6]. Огромное количество методов, используемых для оценки качества слабо структурированных систем [2] свидетельствует о неудовлетворенности результатами и необходимости дальнейших исследований в этой области1 [4, 7].

Построение композитных индексов без использования априорной информации для получения весовых коэффициентов позволяет получить объективные показатели исследуемой системы. Однако применение формальных методик определения весовых коэффициентов в случае наличие ошибок (искажений) используемых данных будет приводить к искажению и показателей, и весовых коэффициентов свертки показателей, определяющих интегральную характеристику. Следовательно, одной из причин недостаточного качества композитных индексов может являться неудовлетворительное качество используемых данных.

Принципиальным отличием вычисления композитных индексов для слабо структурированных систем является неопределенность качества используемых данных, в отличие от вычисления характеристик, например, технических систем, для которых заранее известна погрешность измерения. Наличие большого количества ошибок в статистических данных при вычислении композитных индексов отмечают авторы [7-9]. Тем не менее, именно статистические данные, содержащие неустранимые погрешности, в настоящее время представляют собой наилучшие оценки имеющихся реальных величин в социальных системах [7].

В статье рассматривается применение метода конечных разностей для оценки качества данных в задаче вычисления композитного индикатора качества системы по ряду наблюдений. Для применения этой методики необходимо, чтобы данные допускали приближение полиномами более низких степеней, чем число наблюдений минус один. Справедливость предположения проверена эмпирически на конкретном наборе данных. Проанализированы зависимости качества аппроксимации данных от степени полиномиальной регрессии. Результаты

численного эксперимента позволяют сделать вывод о правомерности оценки погрешностей данных с помощью метода конечных разностей.

1 Постановка задачи

Рассмотрим построение интегральной оценки системы из m объектов, для которой известны таблицы описаний объектов для ряда наблюдений - матрицы размерностью mxn A' = { a. ' \ п,т, t = 1,..., T. Элемент матрицы a. ' — значение j-го

I! ) i J=i .

показателя z-го объекта в момент t. Для каждого момента t

вектор интегральных показателей имеет вид

q' = A ■ w', (1)

Или >^е, для z-го объекта в момент t

q\=Z w'i a''j (2)

где q' q'j, q'2,..., q'm^ - вектор интегральных индикаторов момента t, w' =[w\, w'2, ..., w'm} - вектор весов показателей для момента t, A' - матрица предварительно обработанных данных для момента t . Численные характеристики системы предварительно подвергнуты унификации - приведению значений переменных на отрезок [0, 1] по принципу «чем больше, тем лучше».

Для построения интегрального индикатора качества системы требуется найти веса показателей w' для каждого момента времени, адекватно отражающие свойства рассматриваемой системы. Т.е. определяемые весовые коэффициенты должны отражать структуру оцениваемой системы. Такая трактовка весовых показателей устраняет одну из главных неопределенностей при конструировании интегрального индикатора. Если определяется композитные индексы качества системы для ряда последовательных наблюдений, то имеем дело с изменением данных. Это изменение данных во времени вызывается как изменением ситуации, так и случайными ошибками регистрации данных [10].

Одним из наиболее простых методов анализа структуры исследуемой системы является метод главных компонент (МГК). Пространство главных компонент оптимально для моделирования внутренней структуры данных. Методика многомерного анализа, прекрасно работающая для оценки технических систем, часто дает недостоверный результат при построении композитных индексов слабоструктурированных систем. В частности, вычисляемые композитные индексы чрезвычайно неустойчивы [11-14]. Причиной этого может быть наличие ошибок данных. Наличие ряда зафиксированных измерений A' = { a j I , t = 1,., Tпозволяет оценить эту ошибку.

Оценка неустранимых ошибок данных

Качество данных — обобщенное понятие, отражающее степень их пригодности к решению определенной задачи [15, 16]. В соответствии со стандартом ISO 9000:2015 основными критериями качества являются полнота, достоверность, точность, согласованность, доступность и своевременность [17]. Аномальные значения и шумы называют в качестве основных проблем, вызывающих снижение качества данных. Эти недо-

1 Sharpe, A. Literature Review of Frameworks for Macro-indicators. Ottawa, Canada: Centre for the Study of Living Standards; 2004. [Электронный ресурс]. URL: https://core.ac.uk/download/pdf/7033316.pdf (дата обращения: 21.06.2020).

Modern Information Technologies and IT-Education

статки не нарушают работу алгоритмов обработки данных, но порождают некорректные результаты шалим. В мировой статистической практике нет общепринятого определения качества данных как результата статистической деятельности. Однако общепринятыми компонентами современного понятия качества статистических являются понятия точности и достоверности данных. В практических терминах не существует единой и полной меры достоверности и точности результатов статистических наблюдений, поэтому используются несколько форм ее выражения. Исходя из практической потребности, степень точности величины обычно характеризуется ее дисперсией, стандартной ошибкой, коэффициентом вариации. Но эти меры точности плохо характеризуют достоверность и наличие возможных ошибок регистрации. Такие ошибки можно оценить с применением аппарата конечных разностей.

Пусть у. — точное (неизвестное) значение измеряемой величины, определяемой для ряда наблюдений i = 1,..., k; y* - измеренное значение, содержащее ошибку, £. = y* - у. — ошибка измерений. Ошибка статистических данных имеет случайный характер. Величина — неизвестна и не может быть вычислена по фиксируемым наблюдениям. Однако максимальную из ошибок можно оценить.

Обозначим максимальную величину ошибки для всех наблюдений £ = max I £ I. Тогда измеренная величина у* лежит в

i

диапазоне у. -£< y* < у. +£. Рассмотрим первые конечные разности приближенных величин Д* = Д (у*)

А*рyhру р(у+1уа+i)- (у у а)р (у+iру)- (а+iра)р-

=д+(е;+1 -£,)

Учитывая, что | е.+1 - е. | < | ем | +1 е. | < 2 -е , модуль приближенной конечной разности | Д*| < |д.| + 2■£ , где Д. = у.+1 - у - первые конечные разности неизвестных точных величин. Далее, вторая конечная разность приближенный значений Д*2 = Д*+1 — Д* оценивается аналогично |Д*2| < |Д2| + 4 ■£ . Для последней вычисленной к-ой приближенной конечной разности справедлива оценка |Д**| < + 2к ■£ (3)

Известно, что для гладких функций величина конечной разности стремится к нулю при увеличении порядка разности. В частности, для полинома степени к

Рк (х) = ак ■ хк + ак-1 ■ хкх +... + а0 выполняются следующие соотношения:

Ак+1(Рк(х)) = 0 и Ак(Рк(х)) = ак ■ ^,

где h — шаг таблицы. Если значения измеряемой функции от измерения к измерению меняются не слишком быстро (функция непрерывна и производные старших порядков ограничены), функцию можно аппроксимировать полиномом невысокой степени и значения точных конечных разностей 0 с увеличением порядка стремятся к нулю. Значит, вычисленные значения приближенных конечных разностей обеспечивают оценку исходной погрешности:

|Д*к| < 2к ■£ (4)

Обозначим £* = I А*к\ / 2к (5)

Т а б л и ц а 1. Примеры вычисления приближенных конечных разностей T a b l e 1. Examples of calculating approximate finite differences

Точное значение функции

x fix) 1 2 3 4 5 6 7

0 1,386 0,025 -0,001 0 0 0 0 0

0,1 1,411 0,024 -0,001 0 0 0 0

0,2 1,435 0,024 -0,001 0 0 0

0,3 1,459 0,023 -0,001 0 0

0,4 1,482 0,022 0 0

0,5 1,504 0,022 0

0,6 1,526 0,022

0,7 1,548

Значения функции округлены до сотых

x f*ix) *! *2 *3 *4 *5 *6 *7

0 1,380 0,03 -0,01 0,01 0 -0,03 0,1 -0,25

0,1 1,410 0,02 0 0,01 -0,03 0,07 -0,15

0,2 1,430 0,02 0,01 -0,02 0,04 -0,08

0,3 1,450 0,03 -0,01 0,02 -0,04

0,4 1,480 0,02 0,01 -0,02

0,5 1,500 0,03 -0,01

0,6 1,530 0,02

0,7 1,550

Единичный выброс

x f*ix) *! *2 *3 *4 *5 *6 *7

0 1,386 0,025 -0,001 1 -4 10 -20 35

0,1 1,411 0,024 0,999 -3 6 -10 15

0,2 1,435 1,024 -2,001 3 -4 5

0,3 2,459 -0,977 0,999 -1 1

0,4 1,482 0,022 0 0

0,5 1,504 0,022 0

0,6 1,526 0,022

0,7 1,548

Современные информационные технологии и ИТ-образование

Том 16, № 2. 2020 ISSN 2411-1473 sitito.cs.msu.ru

Учитывая, что величина £ оценивала погрешности значений функции сверху, |е. | <£ , а согласно неравенству (4), £ > | Д*к| / 2к, то возможны два варианта для оценки £:

|е.| <£* <£ или |е.| <£<£* . Реальное соотношение между значениями |е(|, е, е' можно получить из численного эксперимента. Для этого рассмотрим модельный пример. В таблице 1 приведен результат вычисления конечных разностей высокого порядка для точного задания функции / (х) = 1п(х+4) и в случае внесения погрешностей в ее значения. При отсутствии погрешностей уже третьи конечные разности точно заданной функции обращаются в ноль (выделено в таблице 1). Если в каждое значение функции внесена погрешность порядка £ = 0.01, то конечная разность седьмого порядка для приближенных значений функции Д*7 = 0.25 (выделено в таблице) и оценка погрешности составляет £* = 0.002 при реальной погрешности £ = 0.1. Итак, вычисленная оценка £* оказалась меньше реальной ошибки £, т.е. выполняется следующее неравенство для оценки погрешности £* =|Д**| /2к <£ (6)

Если в одно значение функции внесена погрешность £ = 1 и точное значение функции /(0,3) = 1.459 заменено на приближенное /*(0,3) = 2.459 (выделено в таблице 1), то седьмая конечная разность для приближенных значений функции в этом случае составит Д*7 = 35, а оценка погрешности по формуле (3) составит £* = 35/ 27 = 0.276. Снова вычисленная оценка £* оказалась меньше реальной ошибки £. Значит, вычисленное значение £* является оценкой снизу возможной ошибки и может являться характеристикой исследуемой выборки. Можно сказать, что эта величина является в некотором смысле мерой случайности данных в выборке. Если значения измеряемых величин предварительно приведены на отрезок [0, 100], то вычисляемая по формуле (5) величина £* будет характеризовать относительную неустранимую погрешность выборки. Реальная ошибка может превышать это значение.

Влияние гладкости функции на оценку погрешности

Пусть переменная х^ представлена наблюдениями х у (1) , Хц (2),..., х у (Т), которые реализуют неизвестную зависимость функционирования рассматриваемой системы с некоторыми погрешностями: х ¡.({) = +£^(Т). Функция x¡j (/) на промежутке t е [1, Т] может быть аппроксимирована полиномом степени п хи^) да Рп = ап ■ ^ + ап1 ■ +... + а0. Тогда измеряемая величина представлена своим приближенным значением, содержащим ошибку х ^ (У) да Рп (У) + £ (У). По значениям х ;Д1), ху (2),..., х у (Т) могут быть вычислены приближенные конечные разности до порядка Т-1 включительно (Д'.Г1 = Аг-1(х*.(1))даДт-1(Р„(1) + ^(0) . Если степень аппроксимирующей функции п менее Т-1 п < Т-1, то последняя точная конечная разность обращается в ноль Д^1(Р п(1)) = 0 . Тогда вычисленная приближенная конечная разность (Д*./= Дг171(Рп(1)) + £.(0)еи справедлива оценка согласно (4, 5)

|(д*.)г-^< д^р(1)) + 2т-1 = 2т-1 ,

£ц = тх \ ()|.

Итак, вычисленная оценка погрешности данных для параме-

тра xij на промежутке наблюдения t е [ 1, T] определяется соотношением

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

£* = |(Д*. )Т -1|/2Т, причем £. <£.. где

(7)

£и = max £ j (0| ()

Вычисленное значение е* является оценкой снизу возможной ошибки регистрации j-го параметра для z-го объекта и может являться характеристикой качества исследуемой выборки. Если значения исследуемых величин х у (1) , х^ (2),...,x ¡j(T) предварительно приведены на отрезок [0, 100], то е* будет характеризовать относительную погрешность выборки.

Итак, если функция допускает приближение полиномами более низких степеней, чем число наблюдений минус один, а значение последней приближенной конечной разности отлично от нуля (Д*.)г-1 Ф 0, то это значение приближенной конечной разности определяется искажениями значений переменной, вносимых при регистрации наблюдений, которые могут быть оценены по (7).

Очевидно, что измеряемых данных функциональная зависимость может быть однозначно восстановлена по имеющимся Т значениям интерполяционным полиномом степени Т-1: PT-1 (x) = aT1 ■ xT- + aT-2 ■ xT— +... + a0. При этом значение последней точной конечной разности определяется старшим коэффициентом интерполяционного полинома

ДТда ДТ_\PT_j(x)) = aT_.

Если изменяемая функция допускает приближение полиномами более низких степеней, тогда значение последней точной конечной разности должно быть нулевым Дг-1(_Рг-1(х)) = 0 . Если функция допускает приближение полиномами более низких степеней, а значение последней приближенной конечной разности не обращается в ноль: (Д*)г-1 Ф 0, то это значение определяется искажениями значений переменной, вносимых при регистрации наблюдений. Предположение, что данные допускают приближение полиномами более низких степеней, чем число наблюдений минус один, может быть проверено эмпирически на конкретном наборе данных.

Применение регрессионного анализа для описания экспериментальных данных

Подбор математических моделей, наилучшим образом описывающих экспериментальные данные является задачей регрессионного анализа. В классическом регрессионном анализе [1722] модель представляется в следующем виде У = G(x, в) + £ (8)

где х = (xj,x2,...,xm ) - вектор входных (независимых) переменных; y - случайная выходная (зависимая) переменная; в = (в1,в2,...,вт) - неизвестный вектор коэффициентов модели; £ = (£1,£1,...,£т) - случайная величина (случайное возмущение, ошибка, шум), учитывающая влияние случайных факторов. Предполагается что случайные возмущения распределены нормально с параметрами: M(е) = 0, of = а1 = const. Очевидно, что в силу действия случайных факторов модель (8) не может точно прогнозировать значение выходной переменной при заданных значениях входных переменных. Следовательно, нет оснований говорить об «истинной» модели в полном смысле этого слова. Обычно под «истинным» значением выходной переменной понимают его условное математиче-

Modern Information Technologies and IT-Education

ское ожидание при заданных значениях входных переменных: М[ у\х ] = М[ ^(х, в) + е) |х ] = М[ G(х, в) ] + М[е] =

= G(х, в) (9)

Соотношение (9) представляет собой теоретическую регрессионную модель — уравнение регрессии у относительно х Основной задачей регрессионного анализа является выявление и приближенное математическое описание причинно-следственной зависимости G(х, в) между выходной и входными переменными. С этой целью на основании статистических данных (выборки {хг,уг}, г = 1,...Т) методом наименьших квадратов строится статистический аналог соотношения (9) -эмпирическая регрессионная модель у'= G' (х, Ь) (10)

качество которой, т. е. степень ее соответствия статистическим данным оценивается с помощью выборочного коэффи-циентадетерминациц _ , _ , „

*2 = Х ( - У) / X (у. - У), У=1 Ху (11)

7=1 .=1 П .=1

Коэффициент К2 показывает, какая часть вариации у обусловлена регрессионной моделью. Из соотношения (11) следует, что максимально возможное значение К2 ограничено погрешностью измерений, наличием неучтенных факторов и не зависит от состава входных переменных и структуры модели. Например, если 10% вариации выходной переменной обусловлено погрешностью измерения переменных, то максимально возможное значение К2 не может превышать 0,9 при любой структуре модели. При наличии статистического шума большое значение К2 обеспечивается за счет излишнего усложнения модели, которая вместо существующей закономерности описывает случайные ошибки.

Применение полиномиальной регрессии для описания экспериментальных данных

Чтобы убедиться в справедливости оценки искажениями значений переменной, вносимых при регистрации наблюдений, нужно убедиться, что регистрируемые значения допускают приближение полиномами более низких степеней, чем число наблюдений минус один. Тогда вычисленное значение последней приближенной конечной разности (Д*\)г-1 Ф 0, определит оценку искажений переменных, вносимых при регистрации наблюдений по формуле (7).

Рассмотрим в таблице 3 набор переменных, характеризующий качество жизни населения [18] за 2010-2017 годы. Эти переменные использовались для оценки качества жизни населения России во многих исследованиях, например в [20]. Значе-

ния переменных для корректности сравнения приведены на отрезок [0, 100]. Полученная оценка в этом случае есть относительное значение ошибки в процентах. Всего рассматриваем восемь наблюдений. Нужно проверить, аппроксимируются ли на этом интервале данные наблюдений полиномом степени не более шестой.

Чтобы убедиться в справедливости предположения о возможности аппроксимации рассматриваемых данных полиномом степени не более шестой, достаточно численно оценить качество полиномиальной регрессии для субъектов, обеспечивающих максимальное значение приближенной седьмой конечной разности для каждого блока. Продемонстрируем это для первого блока, где максимальную оценку имеет переменная 6. Для этой переменной проверим, аппроксимируются ли данные наблюдений полиномом степени не более шестой. Вычислительный эксперимент показывает, что качество аппроксимации увеличивается с ростом степени полиномиальной регрессии (Таблица 2): с ростом степени аппроксимирующего полинома количество объектов с относительно невысоким коэффициентом детерминации уменьшается. Для полиномиальной регрессии шестой степени для 83 объектов из 85 качество приближения можно признать хорошим, для двух оставшихся - удовлетворительным. Проанализированные зависимости для остальных переменных подтверждают вывод о правомерности наблюдаемых оценок погрешностей данных, представленных в таблице 3.

Т а б л и ц а 2. Зависимость качества аппроксимации от степени полиномиальной регрессии для переменной 6 T a b l e 2. Dependence of the quality of approximation on the degree of polynomial regression for variable 6

Степень полиномиальной регрессии 1 2 3 4 5 6

Количество субъектов, для которых R2 > 0,7 44 61 72 79 82 83

Вычислим для каждого показателя значения приближенных седьмых конечных разностей для всех объектов согласно (5) . Далее для каждого показателя определим максимальное наблюдаемое значение искажения переменной как максимальное значение полученных величин по всем субъектам:

е* = max е*i . . Вычисленная величина является оценкой на. i I i J I

блюдаемых искажений значений j -ой переменной. Полученные значения для каждого показателя вместе со списком переменных приведены в таблице 2. Минимальная наблюдаемая ошибка наблюдаемых переменных составляет 0,59%, а максимальная 28, 92 %.

T a б л и ц а 3. Наблюдаемая оценка погрешности данных по выборке 2010-2017 гг T a b l e 3. Observed estimate of data error for the 2010-2017 sample

№ п/п Переменные Eps

Блок 1: Уровень благосостояния населения

1 ВРП на душу населения с учетом инфляции, тысяч рублей 1,76

2 Отношение среднедушевых денежных доходов к прожиточному минимуму 3,7

3 Доля населения с доходами ниже прожиточного минимума 2,76

4 Отношение доходов 20% самых богатых и 20% самых бедных 2,45

5 Обеспеченность собственными легковыми автомобилями на 1000 человек 2,5

Современные информационные технологии и ИТ-образование

Том 16, № 2. 2020 ISSN 2411-1473 sitito.cs.msu.ru

№ п/п Переменные Eps

6 Доля семей, состоящих на учете на получение жилья 14,84

7 Общая площадь жилищного фонда на одного жителя 3,71

8 Доля ветхого и аварийного жилья 8,04

9 Плотность автомобильных дорог общего пользования 1,4

Блок2: Качество населения

10 Ожидаемая продолжительность жизни при рождении 4,43

11 Число умерших детей в возрасте до 1 года на 1000 родившихся. 5,78

12 Коэффициент естественного прироста на 1000 человек 1,84

13 Умерших от инфекционных болезней и туберкулеза на 100 тысяч человек 0,78

14 Число умерших от новообразований на 100 тысяч человек 0,59

15 Умерших от болезней системы кровообращения на 100 тысяч человек. 0,68

16 Число умерших от болезней органов дыхания на 100 тысяч человек 1,72

17 Число умерших от болезней органов пищеварения на 100 тысяч человек 1,33

18 Заболеваемость от травм и других внешних причин на 100 тысяч человек 6,38

19 Число инвалидов на 1000 человек 0,93

20 Зарегистрировано врожденных аномалий на 1 000 человек 8,5

21 Доля специалистов с высшим образованием к занятым в экономике 2,4

22 Отношение ВРП к численности занятых в экономике, тыс. руб./чел. 1,69

23 Численность студентов высших и средних учебных заведений на 1000 человек 1,67

Блок 3: Качество социальной сферы 0

24 Уровень безработицы, % 3,64

25 Численность смертей при несчастных случаях на производстве на 1000 работающих 21,86

26 Численность пострадавших при несчастных случаях на производстве на 1000 человек работающих 6,18

27 Коэффициент миграционного прироста на 10 тысяч человек 11,13

28 Число зарегистрированных умышленных убийств на 100 тысяч человек 7,75

29 Число фактов умышленного причинения тяжкого вреда здоровью на 100 тысяч человек 4,45

30 Число зарегистрированных изнасилований на 100 тысяч человек. 2S92.

31 Число разбоев, грабежей, краж на 100 тысяч человек 3,55

32 Зарегистрированных присвоений или растрат на 100 тысяч человек 4,2

33 Состоящих на учете: наркомания и токсикомания на 100 тысяч человек. 4,14

34 Состоящих на учете: алкоголизм в расчете на 100 тысяч человек 1,93

35 Больных туберкулезом в расчете на 100 тысяч человек. 1,79

36 Число больных с диагнозом сифилиса на 100 тысяч человек 10,93

37 Число больных психическими расстройствами на 100 тысяч человек. 1,63

Ожидаемым является низкое качество данных, характеризующих миграционный прирост (11,13%). Но статистика регистрации семей, состоящих на учете для получения жилья, содержит еще больше ошибок (14,84%). Много ошибок при регистрации ветхого и аварийного жилья (8,04%), врожденных аномалий (8,50%), смертей при несчастных случаях на производстве (21,86%), числа изнасилований (28,92%) и заболеваемости сифилисом (10,93%. Можно сказать, что максимальные ошибки регистрации данных демонстрируют наиболее социально весомые индикаторы. Более того, можно предположить, что такими наиболее информативными показателями являются как раз показатели, для которых оценка неустранимых ошибок превышает 5%. Неустранимую ошибку рассматриваемых данных будет в целом характеризовать наибольшая из ошибок - 28,92 %. Еще раз подчеркнем, что вычисленная оценка является оценкой снизу. Определение композитных индексов качества таких систем должно учитывать наличие неустранимых ошибок данных.

Заключение

Построение интегральной характеристики системы требует детального понимания влияния погрешностей используемых данных на вычисляемые характеристики. Даже небольшое возмущение исходных данных может вызвать значительное изменение весовых коэффициентов при использовании методов многомерного анализа. Причиной этого может являться наличие неустранимых погрешностей используемых данных. Оценить наличие погрешностей для ряда наблюдений позволяет метод конечных разностей. Для правомерности применения этой методики необходимо, чтобы данные допускали приближение полиномами более низких степеней, чем число наблюдений минус один. Справедливость предположения проверена эмпирически на конкретном наборе данных из 37 переменных, характеризующих качество жизни населения России за 2010-2017 годы. Анализ выборки показывает наличие неустранимых ошибок от 0,59% до 28,92 %. Следователь-

Modern Information Technologies and IT-Education

но, получение разнообразных композитных характеристик объектов на основании таких данных должно обязательно учитывать наличие неустранимой ошибки данных. В част- [11] ности, число параметров, характеризующих систему, должно быть достаточно большим, чтобы компенсировать случайные ошибки усреднением. 37 параметров, предлагаемых для характеристики качества жизни, вполне достаточны для ком- [12] пенсации ошибок измерения. Характеристика отдельных блоков, в которых 9, 14 и 14 переменных, будет чувствительна к неустранимым ошибкам. Используемая методика вычисления композитного индикатора тоже должна учитывать наличие [13] неустранимых ошибок данных.

References

[14]

[1] Klyatskin V.I. Integral characteristics: a key to understanding structure formation in stochastic dynamic systems. Physics-Uspekhi. 2011; 54(5):441-464. (In Eng.) DOI: https://doi.org/10.3367/UFNe.0181.201105a.0457

[2] Zhgun T.V. Investigation of data quality in the problem of calculating the composite index of a system from a series of observations. Journal of Physics: Conference Se- [15] ries. 2020; 1658:012082. (In Eng.) DOI: https://doi. org/10.1088/1742-6596/1658/1/012082

[3] Bandura R. Composite indicators and rankings: inventory 2011. Tech. rep., United Nations Development Programme [16] - Office of Development Studies; 2011. (In Eng.)

[4] Saltelli A., Mundo G., Nardo M. From Complexity to Multidi-mensionality: The Role of Composite Indicators for Advocacy of EU Reform. Review of Business and Economic Litera- [17] ture. 2006; LI(3):221-235. Available at: https://ideas.repec. org/a/ete/revbec/20060303.html (accessed 21.06.2020).

(In Eng.)

[5] Foa R., Tanner J.C. Methodology of the Indices of Social [18] Development. ISD Working Paper Series. 2012; 04. International Institute of Social Studies of Erasmus University Rotterdam (ISS), The Hague. Available at: http://repub.eur. nl/pub/50510/ISD-WP-2012-4.pdf (accessed 21.06.2020).

(In Eng.) [19]

[6] Mundo G., Nardo M. Noncompensatory/nonlinear composite indicators for ranking countries: a defensible setting. [20] Applied Economics. 2009; 41(12):1513-1523. (In Eng.) DOI: https://doi.org/10.1080/00036840601019364

[7] Auerbach A.J., Gorodnichenko Yu., Murphy D. Macroeco- [21] nomic Frameworks. NBER Working Paper. 2019; 26365. (In Eng.)

[8] Nardo M., Saisana M., Saltelli A., Tarantola S. Tools for [22] Composite Indicators Building. Joint Research Centre, Is-

pra, Italy; 2005. Available at: https://ec.europa.eu/jrc/ en/publication/eur-scientific-and-technical-research-re- [23] ports/tools-composite-indicators-building (accessed 21.06.2020). (In Eng.)

[9] Krishnan V. Development of a Multidimensional Living [24] Conditions Index (LCI). Social Indicators Research. 2015; 120(2):455-481. (In Eng.) DOI: https://doi.org/10.1007/ s11205-014-0591-0

[10] Jacobs R., Goddard M., Smith P. Measuring Performance:

An Examination of Composite Performance Indicators: [25] A report for the Department of Health. York, UK: Centre for Health Economics, University of York; 2004. Available

at: https://www.york.ac.uk/che/pdf/tp29.pdf (accessed 21.06.2020). (In Eng.)

Zhgun T.V. Complex index of a system's quality for a set of observations. Journal of Physics: Conference Series. 2019; 1352(1):012064. (In Eng.) DOI: https://doi. org/10.1088/1742-6596/1352/1/012064 Becker W., Saisana M., Paruolo P., Vandecasteele I. Weights and importance in composite indicators: Closing the gap. Ecological Indicators. 2017; 80:12-22. (In Eng.) DOI: https://doi.org/10.1016/j.ecolind.2017.03.056 Paruolo P., Saisana M., Saltelli A. Ratings and rankings: voodoo or science? Journal of the Royal Statistical Society: Series A (Statistics in Society). 2013; 176(3):609-634. (In Eng.) DOI: https://doi.org/10.1111/j.1467-985X.2012.01059.x Mazziotta M., Pareto A. On The Construction Of Composite Indices By Principal Components Analysis. RIEDS - Riv-ista Italiana di Economia, Demografia e Statistica - Italian Review of Economics, Demography and Statistics. 2016; 70(1):103-109. Available at: http://www.sieds.it/listing/ RePEc/journl/2016LXX_N1_RlEDS_103-109_Mazziotta_Pa-reto.pdf (accessed 21.06.2020). (In Eng.) Zhgun T.V. Method for evaluating the robustness of rankings generated by composite indices. Journal of Physics: Conference Series. 2019; 1352(1):012064. (In Eng.) DOI: https:// doi.org/10.1088/1742-6596/1352/1/012065 Batini C., Scannapieca M. Data Quality Dimensions. In: Data Quality. Data-Centric Systems and Applications. Springer, Berlin, Heidelberg; 2006. p. 19-49. (In Eng.) DOI: https:// doi.org/10.1007/3-540-33173-5_2

Herzog T.N., Scheuren F.J., Winkler W.E. What is Data Quality and Why Should We Care? ln: Data Quality and Record Linkage Techniques. Springer, New York, NY; 2007. p. 7-15. (In Eng.) DOI: https://doi.org/10.1007/0-387-69505-2_2 Wang R.Y., Kon H.B., Madnick S.E. Data quality requirements analysis and modeling. In: Proceedings of IEEE 9th International Conference on Data Engineering. Vienna, Austria; 1993. p. 670-677. (ln Eng.) DOl: https://doi.org/10.1109/ lCDE.1993.344012

Weisberg S. Applied Linear Regression. 4th ed. Hoboken, NJ: Wiley; 2014. (In Eng.)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Seber G.A.F., Lee A.J. Linear Regression Analysis. 2 nd ed. John Wiley & Sons, Inc.; 2003. (In Eng.) DOI: https://doi. org/10.1002/9780471722199

Hoffmann J.P, Shafer K. Linear Regression Analysis. Assumptions and Applications. Washington: NASW Press; 2015. (In Eng.)

Bingham N.H., Fry J.M. Regression: Linear Models in Statistics. London: Springer; 2010. (ln Eng.) DOl: https://doi. org/10.1007/978-1-84882-969-5

Montgomery D.C., Peck E.A., Vining G.G. Introduction to Linear Regression Analysis. Fifth ed. New York: Wiley; 2012. (ln Eng.)

Isakin M.A. Modification of the ^-means method with an unknown number of classes. Applied Econometrics. 2006; (4):62-73. Available at: https://www.elibrary.ru/item.as-p?id=9482376 (accessed 21.06.2020). (In Russ., abstract in Eng.)

Aivazian S., Stepanov V., Kozlova M. Measuring the synthetic categories of quality of life in a region and identification of main trends to improve the social and economic policy

Современные информационные технологии и ИТ-образование

Том 16, № 2. 2020 ISSN 2411-1473 sitito.cs.msu.ru

(Samara region and its constituent territories). Applied Econometrics. 2006; (2):18-84. Available at: https://www. elibraryru/item.asp?id=9482361 (accessed 21.06.2020). (In Russ., abstract in Eng.)

Поступила 21.06.2020; принята к публикации 27.08.2020; опубликована онлайн 30.09.2020. Submitted 21.06.2020; revised 27.08.2020; published online 30.09.2020.

|об авторе:|

Жгун Татьяна Валентиновна, доцент кафедры прикладной математики и информатики, Институт электронных и информационных систем, ФГБОУ ВО «Новгородский государственный университет имени Ярослава Мудрого» (173003, Россия, Новгородская область, г. Великий Новгород, ул. Большая Санкт-Петербургская, д. 41), кандидат физико-математических наук, доцент, ORCID: https://orcid.org/0000-0002-7518-6925, Tatyana.Zhgun@novsu.ru

Автор прочитал и одобрил окончательный вариант рукописи.

^¡¡¡¡^¡¡¡¡¡¡ШШШЯШШШШ

Tatyana V. Zhgun, Associate Professor of the Department of Applied Mathematics and Computer Science, Institute of Electronic and Information Systems, Yaroslav-the-Wise Novgorod State University (41 Bolshaya St. Petersburgskaya Str., Veliky Novgorod 173003, Russia), Ph.D. (Phys.-Math.), Associate Professor, ORCID: https://orcid.org/0000-0002-7518-6925, Tatyana.Zhgun@nov-su.ru

The author has read and approved the final manuscript.

Modern Information Technologies and IT-Education

i Надоели баннеры? Вы всегда можете отключить рекламу.