Научная статья на тему 'ПРИМЕНЕНИЕ МЕТОДА КОНЕЧНЫХ РАЗНОСТЕЙ ДЛЯ ОЦЕНКИ КАЧЕСТВА ДАННЫХ'

ПРИМЕНЕНИЕ МЕТОДА КОНЕЧНЫХ РАЗНОСТЕЙ ДЛЯ ОЦЕНКИ КАЧЕСТВА ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
53
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
количественный математико-статистический анализ / качество данных / ошибки данных / метод конечных разностей / quantitative statistical analysis / data quality / data error / method of finite differences

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жгун Татьяна Валентиновна, Жгун Антонина Александровна

Важнейшей характеристикой качества числовых данных является точность данных. В сложившейся практике степень точности величины обычно характеризуется ее дисперсией, стандартной ошибкой, коэффициентом вариации. Но эти меры плохо характеризуют наличие возможных ошибок регистрации. В предлагаемой работе рассматривается мера численной оценки погрешности регистрации данных для ряда наблюдений с помощью аппарата конечных разностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жгун Татьяна Валентиновна, Жгун Антонина Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF THE FINITE DIFFERENCE METHOD FOR DATA QUALITY ASSESSMENT

The most important characteristic of the quality of numerical data is the accuracy of the data. In the established practice, the degree of accuracy of a value is usually characterized by its variance, standard error, coefficient of variation. But these measures poorly characterize the presence of possible registration errors. In this paper, we consider a measure of numerical estimation of the error of data registration for a number of observations using the finite difference apparatus.

Текст научной работы на тему «ПРИМЕНЕНИЕ МЕТОДА КОНЕЧНЫХ РАЗНОСТЕЙ ДЛЯ ОЦЕНКИ КАЧЕСТВА ДАННЫХ»

УДК 519.24

doi:10.18720/SPBPU/2/id21-155

Жгун Татьяна Валентиновна1,

доцент, канд. физ.-мат. наук, доцент;

Жгун Антонина Александровна 2,

доцент, канд. техн. наук

ПРИМЕНЕНИЕ МЕТОДА КОНЕЧНЫХ РАЗНОСТЕЙ ДЛЯ ОЦЕНКИ КАЧЕСТВА ДАННЫХ

1 2

' Россия, Великий Новгород, ФГБОУ ВО «Новгородский государственный университет имени Ярослава Мудрого», 1 Tatyana.Zhgun@novsu.ru, 2 zhtv@mail.ru

Аннотация. Важнейшей характеристикой качества числовых данных является точность данных. В сложившейся практике степень точности величины обычно характеризуется ее дисперсией, стандартной ошибкой, коэффициентом вариации. Но эти меры плохо характеризуют наличие возможных ошибок регистрации. В предлагаемой работе рассматривается мера численной оценки погрешности регистрации данных для ряда наблюдений с помощью аппарата конечных разностей.

Ключевые слова: количественный математико-статистический анализ, качество данных, ошибки данных, метод конечных разностей.

Tatyana V. Zhgun1,

Associate Professor, Candidate of Physical and Mathematical Sciences;

Antonina A. Zhgun , Associate Professor, Candidate of Technical Sciences

APPLICATION OF THE FINITE DIFFERENCE METHOD FOR DATA QUALITY ASSESSMENT

1, 2

' Novgorod State University a. Yaroslav the Wise, Velikiy Novgorod, Russia, 1 Tatyana.Zhgun@novsu.ru, 2 zhtv@mail.ru

Abstract. The most important characteristic of the quality of numerical data is the accuracy of the data. In the established practice, the degree of accuracy of a value is usually characterized by its variance, standard error, coefficient of variation. But these measures poorly characterize the presence of possible registration errors. In this paper, we consider a measure of numerical estimation of the error of data registration for a number of observations using the finite difference apparatus.

Keywords: quantitative statistical analysis, data quality, data error, method of finite differences.

Введение

Качество данных — обобщенное понятие, отражающее степень пригодности данных к решению конкретной задачи [1, 2]. В соответствии со стандартом ISO 9000:2015 основными критериями качества являются полнота, достоверность, точность, согласованность, доступность и своевременность [3]. Аномальные значения и шумы называют в качестве основных проблем, вызывающих снижение качества данных. Эти недостатки не нарушают работу алгоритмов обработки данных, но порождают некорректные результаты их анализа.

В мировой статистической практике нет общепринятого определения качества данных как результата статистической деятельности. Одной из важнейших характеристик качества данных является точность данных. В сложившейся практике степень точности величины обычно характеризуется ее дисперсией, стандартной ошибкой, коэффициентом вариации. Но эти меры плохо характеризуют наличие возможных ошибок регистрации. В предлагаемой работе рассматривается мера численной оценки погрешности регистрации данных для ряда наблюдений с помощью аппарата конечных разностей.

1. Постановка задачи

Определение качества данных затруднено из-за множества контекстов, в которых используются данные, а также из-за различных точек зрения на эту проблему среди пользователей, производителей и хранителей данных. С точки зрения потребителя качественными данными являются данные, пригодные для использования потребителями данных, которые соответствуют или превосходят ожидания потребителей, которые правильно представляют события или объекты реального мира, к которым эти данные относятся [4-6].

Разногласие мнений относительно того, какие именно параметры определяют качество данных, определяется сложной и неоднородной природой данных и областью их применения [7]. В 2021 году рабочая группа Data Quality of DAMA Netherlands исследовала определения параметров качества данных из разных источников. Результатом является список из 60 параметров качества данных [8].

В упрощенном понимании качество данных — это степень их пригодности к использованию. Стандарт ISO 9000:2015 именно так определяет качество данных по степени их удовлетворения потребностям пользователя. Точность данных является одним из критериев желаемых ожиданий, наряду с полнотой, достоверностью, точностью, доступностью и своевременностью.

В мировой статистической практике нет общепринятого определения качества данных как результата статистической деятельности. Традиционный подход определяет качество статистических данных как их

соответствие требованиям полноты, достоверности и сопоставимости. Однако в последней четверти XX в. в мировой статистике был выработан новый подход к определению качества статистической информации, когда качество определяется соответствием потребностям и ожиданиям пользователей.

Таблица 1

Число легковых автомобилей на 100 человек.

Справочник Регионы России, 2015 год

Субъект СевероКавказского ФО 2007 2008 2009 2010 2011 2012 2013 2014

Республика Дагестан 59.9 65.2 99.3 106.5 121.3 132.5 154.3 164.5

Республика Ингушетия 81.8 110 97 105.5 117.6 115 130 159.5

Кабардино-Балкарская республика 128.9 144.2 152.2 156.4 169.1 187.4 2125.5 217.5

Карачаево-Черкесская республика 147.4 160.6 165.8 173 193.4 198.3 214.4 215.2

Республика Северная Осетия 157.6 172.7 185.3 194.9 206.9 224.1 242.5 258.7

Чеченская республика 63.5 72.1 93.3 100.3 109.9 114.8 127.8 144.2

Таблица 2

Численность населения с денежными доходами ниже прожиточного минимума в % от общей численности населения. Справочник Регионы России. 2020 год.

2010 2011 2012 2013 2014 2015 2016 2017 2018 2019

Архангельская обл. 14,0 14,4 13,2 14,6 14,8 16,5 15,2 14,3 13,5 13,6

в том числе

Ненецкий АО 7,5 7,7 6,5 7,8 8,9 9,4 10,1 10,6 9,7 9,4

Архангельская обл. без АО 13,7 14,0 13,0 14,5 14,5 16,2 14,9 13,9 12,5 12,7

Тюменская обл. 11,9 12,3 11,0 11,8 12,3 14,0 13,8 12,8 12,1 12,0

в том числе

Ханты-Мансийский АО 10,3 10,6 9,8 10,4 11,1 11,9 11,6 9,5 9,0 8,9

Ямало-Ненецкий АО 7,3 7,4 6,4 6,4 6,7 7,5 7,1 6,1 5,8 5,6

Тюменская обл. без АО 10,9 11,6 10,4 11,8 12,0 14,7 15,5 15,4 14,9 14,7

Предоставляя обширные массивы социально-экономической информации, Росстат не приводит объективных оценок ее качества. Согласно «Положению о Росстате» служба обязана предоставлять официальную статистическую информацию без указания критериев качества. Росстат ведет работы по оценке качества первичной информации и повышению качества предоставляемых данных. В 2003 году разработаны «Методологические рекомендации по расчету и анализу рейтинговых оценок качества результатов проведения обследований по формам федерального государственного статистического наблюдения».

Оценка должна определить уровень качества результатов проводимых статистических обследований. Однако конкретные результаты и цифры широкой публике неизвестны, и вопрос о том, каков достигнутый уровень качества статистических данных в настоящий момент остается открытым.

Наличие очевидных ошибок в системах регистрации статистических данных демонстрируют таблицы 1 и 2. Ошибки в таблице 1 являются выбросами (выделено цветом) и могут быть легко обнаружены и устранены. А ошибки в таблице 2 неочевидны. Показатели в Архангельской и Тюменской областях являются взвешенным средним (с весами менее единицы) показателей субъектов этих областей. И для Архангельской области в целом значение взвешенной суммы превосходит значения показателей в частях этой области для всего ряда наблюдения. Для Тюменской области такая ситуация имеет быть до 2014 года.

2. Методы исследования

Во всех случаях «качество данных» представляет собой сравнение фактического состояния конкретного набора данных с желаемым состоянием данных (данных без дефектов). Такие данные без дефектов обычно определяются экспертами по стандартизации, законами и нормативными актами [4]. Предложим подход, который предоставляет возможность оценивать качество набора данных для ряда наблюдений, сравнивая имеющиеся данные (приближенные) с данными без дефектов (точными данными).

Предполагается, что регистрируемые данные не случайны, а являются числовыми характеристиками некоторого процесса, который на интервале наблюдения может быть аппроксимирован полиномами. Справедливость предположения, т. е. качество такой аппроксимации может быть проверено экспериментально для любого набора данных [9].

Определим точность данных как меру совпадения характеристики набора данных с характеристикой желаемого состоянием данных, т. е. с неискаженными характеристиками реального объекта (явления).

Для каждого измеряемого параметра мерой точности зарегистрированных наблюдений назовем максимальную из оценок ошибок

наблюдения для ряда наблюдений. Такие ошибки можно оценить с применением конечных разностей. Пример влияния ошибок данных на вычисление конечных разностей приведен в таблице 3.

Таблица 3

Примеры вычисления конечных разностей

Точное значение функции

X /(X) А1 А2 А3 А4 А5 А6 А7

10 1.726 0.148 -0.004 0.000 0.000 0.000 0.000 0.000

10.1 1.874 0.145 -0.003 0.000 0.000 0.000 0.000

10.2 2.019 0.141 -0.003 0.000 0.000 0.000

10.3 2.160 0.138 -0.003 0.000 0.000

10.4 2.298 0.135 -0.003 0.000

10.5 2.433 0.132 -0.003

10.6 2.565 0.129

10.7 2.694

Значения функции округлены до сотых

X /(X) А1 А2 А3 А4 А5 А6 А7

10 1.720 0.150 0.000 -0.010 0.020 -0.040 0.080 -0.150

10.1 1.870 0.150 -0.010 0.010 -0.020 0.040 -0.070

10.2 2.020 0.140 0.000 -0.010 0.020 -0.030

10.3 2.160 0.140 -0.010 0.010 -0.010

10.4 2.300 0.130 0.000 0.000

10.5 2.430 0.130 0.000

10.6 2.560 0.130

10.7 2.690

Единичный выброс

X /(X) А1 А2 А3 А4 А5 А6 А7

10 1.726 0.148 -0.004 1.000 -4.000 10.000 -20.000 35.000

10.1 1.874 0.145 0.997 -3.000 6.000 -10.000 15.000

10.2 2.019 1.141 -2.003 3.000 -4.000 5.000

10.3 3.160 -0.862 0.997 -1.000 1.000

10.4 2.298 0.135 -0.003 0.000

10.5 2.433 0.132 -0.003

10.6 2.565 0.129

10.7 2.694

При отсутствии погрешностей уже третьи конечные разности (точные конечные разности) обращаются в ноль. Если в каждое значение функции внесена погрешность порядка е = 0.01 (значения функции округлены до сотых), то все приближенные конечные разности отличны от нуля и приближенная конечная разность седьмого порядка составляет А = -0,150, что значительно превосходит уровень внесенных погрешностей.

Еще сильнее на приближенные конечные разности влияют выбросы. Если в одно значение функции внесена погрешность е = 1 и точное зна-

чение функции /(10,3) = 2,16001640418844 заменено на приближенное /*(10,3) = 3,160 01640418844 (выделено в таблице 3) , то приближенная конечная разность седьмого порядка в этом случае значительно увеличивается и составит А = 35.

Пусть У1 — точное (неизвестное) значение измеряемой величины,

I = 1, ..., к; у* — значение, содержащее ошибку, в, = у* - у1 — ошибка

измерений, в = тах в^ — максимальная из ошибок в ряду наблюдений.

Для к-ой приближенной конечной разности справедливо

+ 2к в.

Если наблюдаемые значения измеряемой функции меняются не слишком быстро, то функцию можно аппроксимировать полиномом. Для полиномов невысоких степеней значения точных конечных разностей с увеличением порядка стремятся к нулю (таблица 3). Значит, вычисленные значения приближенных конечных разностей обеспечивают оценку исходной погрешности:

А*к < А

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

А

< 2к-в,

Учитывая, что 1вВ <в , а согласно вышеизложенному в >

А

/ 2к

то возможны два взаимоисключающих варианта для оценки величины е:

в <в <в или в, <в<в

, где

А

/ 2'

к

II *

в, , в, в можно получить из численного эксперимента. Реализация одной из альтернатив в одном эксперименте достаточна для выбора варианта оценки, который будет справедлив для всех случаев. Для единичного выброса (таблица 3) погрешность е = 1, а оценка погрешности составит е* = 35/ 27 = 0,276. Итак, вычисленное значение е* является оценкой снизу возможной ошибки и может являться характеристикой исследуемой выборки.

в

А

/ 2к < в

3. Анализ результатов

Применим предложенную методику для оценки качества к набору статистических данных, характеризующий качество жизни населения за 2010-2017 годы. Всего рассматривалось 37 переменных. Восемь наблюдений позволяют вычислить конечные разности седьмого порядка. Чтобы выполнялись выдвинутые предположения, на периоде наблюдения каждая переменная должна надежно аппроксимироваться полиномом не более чем шестой степени. Все рассматриваемые данные представляются полиномами шестой степени с хорошей надёжностью. Коэффициент де-

терминации для большинства приближений близок единице (единичное наихудшее значение коэффициента детерминации R2 = 0.77). Следовательно, для таких приближений точные конечные разности седьмого порядка обращаются в ноль и представленные оценки погрешностей данных по приближенным конечным разностям седьмого порядка справедливы.

Значения переменных для корректности сравнения приведены на отрезок [0, 100]. Полученная оценка точности в этом случае характеризует относительное значение ошибки в процентах. В таблице 4 приведены оценки точности переменных, характеризующих благосостояние населения.

Таблица 4

Оценка точности переменных, характеризующих благосостояние населения по выборке за 2010 -2017 годы

№ п/п Переменные Eps

1 ВРП на душу населения с учетом инфляции, тысяч рублей 1,8

2 Отношение среднедушевых денежных доходов к прожиточному минимуму 3,7

3 Доля населения с доходами ниже прожиточного минимума 2,8

4 Отношение доходов 20% самых богатых и 20% самых бедных 2,5

5 Обеспеченность собственными легковыми автомобилями на 1000 человек 2,5

6 Доля семей, состоящих на учете на получение жилья 14,8

7 Общая площадь жилищного фонда на одного жителя 3,7

8 Доля ветхого и аварийного жилья 8,0

9 Плотность автомобильных дорог общего пользования 1,4

Максимальную ошибку регистрации в таблице 4 имеют переменные, характеризующие учет нуждающихся в предоставлении жилья — 14,8 % и 8,0 %. Точность остальных переменных удовлетворительная. В целом по рассматриваемым 37 переменным минимальная наблюдаемая ошибка составляет 0,59% (число умерших от новообразований), а максимальная 28,92 % (число зарегистрированных изнасилований), среднее значение ошибки регистрации 5,19 %. Наибольшие значения ошибок у показателей «Число зарегистрированных изнасилований на 100 тысяч человек» — 28,9 %, «Численность смертей при несчастных случаях на производстве на 1000 работающих» — 21,9 %, «Доля семей, состоящих на учете на получение жилья» 14,8 %. Наименьшие ошибки регистрации в учете причин смертности — 0,59 %—1,33 %. Ожидаемым является низкое качество данных, характеризующих миграционный прирост (11,1 %). Но, оказывается, статистика регистрации семей, состоящих на учете на получение жилья, содержит еще больше ошибок (14,8 %). Еще раз напомним, что это оценка погрешности данных снизу.

Заключение

Подходы к решения проблемы качества данных существенно изменились. Ранее общепризнанной являлась точка зрения, что проблема некачественных (грязных) данных должна решаться на уровне источника, например, путем применения средств контроля при регистрации данных. Сегодня преобладает точка зрения, что качество используемых данных должно обеспечиваться системами обработки данных при их использовании.

Подход, который описывается в этой работе, предоставляет возможность оценивать качество слабоструктурированных данных, фиксируемых системами регистрации данных по ряду наблюдений, в частности, статистических данных. Предложена оценка точности данных с использованием аппарата конечных разностей. Методика применена к набору данных, характеризующих качество жизни населения России.

Список литературы

1. Batini C., Scannapieca M. Data quality. Springer-Verlag, Berlin, Germany, 2006. - Pp. 19-31.

2. Herzog Thomas N., Scheuren Fritz J., Winkler William E. What is Data Quality and Why Should We Care? // Data Quality and Record Linkage Techniques. - New York: Springer New York, 2007. - Pp. 7-15.

3. Wang R.Y., Kon H.B., Madnick S.E. Data quality requirements analysis and modeling. // Proceedings of the 9th International Conference of Data Engineering, 1993. Vienna, Austria. - Pp. 670-677.

4. Furber, C. "3. Data Quality" // Data Quality Management with Semantic Technologies. Springer. 2015, pp. 20-55. ISBN 9783658122249. Archived from the original on 31 July 2020. Retrieved 18 April 2020.

5. Redman Thomas C. Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press. (30 December 2013). ISBN 978-1-4221-6364-1.

6. Fadahunsi, Kayode Philip; Akinlua, James Tosin; O'Connor, Siobhan; Wark, Petra A; Gallagher, Joseph; Carroll, Christopher; Majeed, Azeem; O'Donoghue, John "Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth". BMJ Open. March 2019. 9 (3): e024722. doi:10.1136/bmjopen-2018-024722. ISSN 2044-6055. PMC 6429947. PMID 30842114.

7. Bian J., Lyu T., Loiacono A., Viramontes T.M., Lipori G.Y., Guo Y., Wu Y.; Prosperi M., George T.J., Harle C.A., Shenkman E.A. Assessing the practice of data quality evaluation in a national clinical data research network through a systematic scoping review in the era of real-world data // J Am Med Inform Assoc. - 2020 Dec; 1999-2010. Published online 2020 Nov 9. doi: 10.1093/jamia/ocaa245.

8. Data quality. - URL: http://www.dama-nl.org/data_quality/ (date of access: 10.08.2021).

9. Zhgun T.V. Investigation of data quality in the problem of galculating the composite index of a system froma series of observations // Journal of Physics: Conference Series. The conference proceedings 2nd ISPCMMPAM'2020, 2020. - P. 012082.

i Надоели баннеры? Вы всегда можете отключить рекламу.