Научная статья на тему 'ХАРАКТЕРИСТИКИ КАЧЕСТВА ДАННЫХ'

ХАРАКТЕРИСТИКИ КАЧЕСТВА ДАННЫХ Текст научной статьи по специальности «Математика»

CC BY
185
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
качество данных / характеристики качества данных / индикаторы качества данных / оценка качества данных / цифровизация / управление качеством данных / data quality / data quality characteristics / data quality indicators / data quality assessment / digitalization / data quality management

Аннотация научной статьи по математике, автор научной работы — Байшев Анатолий Викторович

В данной статье автор рассматривает существующие подходы к оценке качества данных. Рассматриваемая проблема является одной из весьма актуальных, особенно в условиях цифровизации различных сфер деятельности человека, так как процедура оценки качества данных может способствовать формированию вектора в направлении его улучшения. В свою очередь, улучшение качества данных позволяет оперировать более качественной информацией при принятии тех или иных управленческих решений, что позитивно сказывается на результатах деятельности тех или иных организаций. В работе выделены четыре типа характеристических измерений качества данных: внутреннего, контекстного, репрезентативного качеств и качества доступности. Однако более подробно рассмотрены первые два типа измерений в силу их большей распространенности. Для каждого вида этих измерений указаны применяемые для их оценки показатели (индикаторы, характеристики), на основе которых происходит процесс оценки качества данных. Рассмотренные характеристики могут использоваться в том или ином объеме для оценки качества данных в разных сферах деятельности человека и способствовать достижению целей по их улучшению.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Байшев Анатолий Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA QUALITY CHARACTERISTICS

The article considers existing approaches to assessing data quality. The problem under consideration is one of the most relevant, especially in the context of digitalization of various areas of human activity, since the procedure for assessing data quality can contribute to the formation of a vector in the direction of its improvement. The improvement of the quality of data allows you to operate more efficiently with information when making certain management decisions, which has a positive effect on the performance of certain organizations. The paper identifies four types of characteristic measurements of data quality: internal, contextual, representative qualities and accessibility quality. However, the first two types of measurements are considered in more detail due to their greater prevalence. For each type of these measurements, the indicators (characteristics) used for their evaluation are indicated, on the basis of which the process of assessing data quality takes place. The considered characteristics can be used to some extent to assess the quality of data in various areas of human activity and contribute to the achievement of goals for their improvement.

Текст научной работы на тему «ХАРАКТЕРИСТИКИ КАЧЕСТВА ДАННЫХ»

УДК 004.054

doi 10.24411/2221-0458-2023-01-06-12

ХАРАКТЕРИСТИКИ КАЧЕСТВА ДАННЫХ

Байшев А.В.

Хакасский государственный университет им. Н.Ф. Катанова, г. Абакан

DATA QUALITY CHARACTERISTICS

A.V. Baishev

Khakass State University named after N.F. Katanov, Abakan

В данной статье автор рассматривает существующие подходы к оценке качества данных. Рассматриваемая проблема является одной из весьма актуальных, особенно в условиях цифровизации различных сфер деятельности человека, так как процедура оценки качества данных может способствовать формированию вектора в направлении его улучшения. В свою очередь, улучшение качества данных позволяет оперировать более качественной информацией при принятии тех или иных управленческих решений, что позитивно сказывается на результатах деятельности тех или иных организаций. В работе выделены четыре типа характеристических измерений качества данных: внутреннего, контекстного, репрезентативного качеств и качества доступности. Однако более подробно рассмотрены первые два типа измерений в силу их большей распространенности. Для каждого вида этих измерений указаны применяемые для их оценки показатели (индикаторы, характеристики), на основе которых происходит процесс оценки качества данных. Рассмотренные характеристики могут использоваться в том или ином объеме для оценки качества данных в разных сферах деятельности человека и способствовать достижению целей по их улучшению.

Ключевые слова: качество данных; характеристики качества данных; индикаторы качества данных; оценка качества данных; цифровизация; управление качеством данных

The article considers existing approaches to assessing data quality. The problem under consideration is one of the most relevant, especially in the context of digitalization of various areas of human activity, since the procedure for assessing data quality can contribute to the formation of a vector in the direction of its improvement. The improvement of the quality of data allows you to operate more efficiently with information when making certain management decisions, which has a positive effect on the performance of certain organizations. The paper identifies four types of

characteristic measurements of data quality: internal, contextual, representative qualities and accessibility quality. However, the first two types of measurements are considered in more detail due to their greater prevalence. For each type of these measurements, the indicators (characteristics) used for their evaluation are indicated, on the basis of which the process of assessing data quality takes place. The considered characteristics can be used to some extent to assess the quality of data in various areas of human activity and contribute to the achievement of goals for their improvement.

Keywords: data quality; data quality characteristics; data quality indicators; data quality assessment; digitalization; data quality management

Введение. Качество данных - это термин, значение которого может быть разным в зависимости от того или иного контекста, в котором его применяют [1].

Обеспечение высокого качества тех или иных данных является одной из приоритетных задач в любых областях деятельности человека. Это особенно важно, потому что именно на основании данных извлекается информация, которая в конечном счете используется в том или ином виде для принятия тех или иных управленческих решений. Однако для того, чтобы формировать векторы, в направлении которых нужно действовать для повышения качества данных в той или иной организации или на предприятии, крайне важно понимать то, какими характеристиками его можно оценивать.

На текущий момент в РФ принята серия стандартов ИСО 8000, обобщающих различные понятия и содержащих общие требования в области качества данных для разных сфер [2-6]. Согласно [2], качество данных - это «степень, с которой набор

характеристик, присущих данным, отвечает требованиям». В свою очередь, требования - это «потребность или ожидание, которое установлено, предполагается или является обязательным». Отсюда следует, что качество данных может оцениваться по-разному, то есть дается указание на то, что это понятие многомерно. О том, что качество данных есть многомерное понятие, каждое измерение которого неразрывно связано с набором различных показателей (индикаторов, характеристик), отмечают также и, например, в [7]. На этом фоне актуально проведение исследований направленных на рассмотрение различных показателей, с помощью которых можно производить оценку качества данных на предприятиях, что в перспективе будет содействовать и его последующему улучшению.

Целью работы является рассмотрение существующих характеристик, применяемых для оценки качества данных, которые могут использоваться в том или

ином объеме в различных сферах деятельности человека.

Типы характеристических измерений качества данных. Согласно [7-8], можно выделить следующие четыре типа характеристических измерений качества данных:

1. Внутреннего качества -показатели этого типа сфокусированы на самих значениях данных, без учета их контекста.

2. Контекстного качества, относящееся более к информации, чем к данным, поскольку его показатели относятся к атрибутам, которые зависят от контекста, в котором данные создаются или используются.

3. Репрезентативного качества, в котором оценивают то, как данные воспринимаются пользователями. Это измерение можно охарактеризовать такими показателями как понятность, согласованность, кратность.

4. Измерения качества доступности данных. Эти характеристики позволяют оценивать простоту доступа к данным, а также охватывают различные аспекты, связанные с доступностью и безопасностью данных.

Однако отмечают, что на практике в различных сферах часто находят применение в основном два вида характеристических измерений качества данных - внутреннего и контекстного [9].

Поэтому далее будут рассмотрены только эти два типа измерений и соответствующие им показатели.

Измерения внутреннего качества.

Они включают в себя такие показатели как:

1. Достоверность (точность) - это один из наиболее сложных (но крайне важных) параметров для оценки, поскольку относятся к степени, в которой значения данных согласуются с идентифицированным источником правильной информации. Для оценки точности данных можно использовать различные источники правильной информации, например, подтверждающий набор данных из какой-либо таблицы, всевозможные динамически вычисляемые значения и т.д. Следует отметить, однако, что во многих случаях нет возможности определить источник правильной информации.

2. Происхождение - отражает надежность данных, важным аспектом которой является способность идентификации источника любого нового или обновленного элемента данных. Таким образом, для оценки этого качества необходимо, чтобы каждый элемент данных содержал атрибуты, позволяющие четко определить его источник.

3. Структура данных - отражается структурной согласованностью в представлении аналогичных значений атрибутов как в пределах одного и того же набора данных, так и в различных

связанных с ними таблицами данных. Структурная согласованность характеризует то, насколько аналогичные атрибуты строго типизированы с использованием определенных парадигм представления. Это измерение имеет два аспекта. В первом рассматривается процент времени, в течение которого часто используемые элементы данных с одинаковой или сходной семантикой используют одни и те же базовые синтаксические форматы и структуры. Второй включает в себя обеспечение того, чтобы все используемые структуры типов были должным образом задокументированы в репозитории метаданных.

4. Семантическая согласованность (семантика) - относится к согласованности определений между атрибутами в модели данных, а также атрибутов с одинаковыми именами в различных наборах данных и характеризует степень, в которой сходные объекты данных имеют общие имена и значения. Один из аспектов семантической согласованности включает значения атрибутов с одинаковыми именами в разных наборах данных. Значения этих имен атрибутов должны различаться или атрибутам должны быть присвоены разные имена. Соответствие стандартам данных, определяемым извне, обеспечивает определенный уровень политики для этого измерения. Определение относится к обеспечению того, чтобы все участники

понимали имена и значения, присвоенные элементам данных и, что их сервисные и прикладные компоненты используют элементы данных таким образом, который согласуется с основным определением.

Измерения контекстного качества. Эти измерения включают в себя определение таких показателей как:

1. Полнота - относится к ожиданию того, что определенным атрибутам будут присвоены значения в наборе данных соответствующие установленным в их отношении правил. Правила устанавливаются в зависимости от типа атрибута. Например, обязательные атрибуты полных данных должны содержать значения, а для необязательных допускается их отсутствие, но только для строго определенных обстоятельств.

2. Согласованность данных друг с другом - отражает их целостность и их внутреннюю непротиворечивость. Согласованность важна на разных иерархических уровнях данных как внутри таблиц, так и внутри баз данных и с внешними их источниками.

3. Оценка данных в стоимостном выражении (валюта данных) - это денежная стоимость, присвоенная данным для определения их финансовой значимости для организации. При таком подходе данные рассматривают как цифровой актив. При этом определяется, насколько они ценны для предприятия, в

том числе, какова стоимость их замены в случае утраты, сколько денежных средств можно получить от их продажи, какой вклад в доход организации они вносят. Такой подход к оценке данных помогает предприятиям в определении и совершенствовании подходов к

управлению данными [9]. Например, оценка данных в такой форме может помочь в усовершенствовании процессов их резервного копирования, когда соотносят между собой стоимость приобретения и содержания технических средств обеспечивающих резервирование данных со стоимостью утраты этих данных [10]. При таком подходе вполне может случиться так, что обустройство дорогой и надежной архитектуры не имеет смысла для данных которые есть на предприятии, так как они не обладают высокой ценностью.

4. Своевременность данных - время, прошедшее с момента возникновения события до момента, когда данные, представляющие его оказываются доступны для использования. Считается, что чем меньше времени прошло между возникновением события и его документированием, тем выше качество данных. При этом своевременность характеризуется не только временем доставки данных от источника, но и временем их обработки в базе или в другом приложении [11-12].

Этот показатель указывает на то, что со временем данные о том или ином объекте или процессе могут устаревать. Например, у контрагента, информация о котором хранится в базе данных, может измениться адрес и, если информация об этом событии не будет своевременно изменена на актуальную, то это может привести к проблемам в работе с ним.

5. Разумность данных - показатель определяющий степень, в которой значения данных имеют разумный или понятный тип и размер. Например, обычно числа хранятся в буквенно-цифровом строковом поле, но разумность гарантирует, что если атрибут хранит только числа, то он должен быть только числового типа.

Кроме того, разумность также устанавливает максимальное и минимальное ограничение символов для атрибутов, чтобы в той или иной базе данных не было необычно длинных строк. Мера разумности уменьшает пространство для ошибок, применяя ограничения к типу и размеру данных атрибута.

6. Идентифицируемость данных -относится к уникальному именованию и представлению основных концептуальных объектов, а также к возможности связывать вместе экземпляры данных, содержащие данные сущности, на основе идентифицирующих значений атрибутов.

Заключение. Качество тех или иных данных можно рассматривать с разных

сторон, на основе использования различных показателей. В работе были рассмотрены различные характеристические измерения и связанные с ними показатели качества данных, в том числе приведены описания показателей наиболее часто применяемых измерений внутреннего и контекстного качества данных, которые могут находить применение в процедурах

Библиографический список

1. Fürber С. Data Quality Management with Semantic Technologies / С. Fürber. -Wiesbaden: Springer Gabler Wiesbaden. 2015. - Текст : непосредственный.

2. ГОСТ Р ИСО 8000-2-2019. Качество данных. Часть 2. Словарь. - Введ. 2020.01.05. - Москва: Изд-во стандартов. - 2019. - 12с. - Текст : непосредственный.

3. ГОСТ Р ИСО 8000-110-2011. Качество данных. Часть 110. Основные данные. Обмен данными характеристик. Синтаксис, семантическое кодирование и соответствие спецификации данных. - Введ. 2012.07.01. - Москва: Изд-во стандартов. - 2020. - 20с. - Текст : непосредственный.

4. ГОСТ Р 54911-2012. Качество данных. Часть 120. Основные данные. Обмен данными характеристик. Происхождение. - Введ. 2013.01.01. - Москва: Изд-во стандартов. - 2013. - 22с. - Текст : непосредственный.

5. ГОСТ Р 54525-2011. Качество данных. Часть 130. Основные данные. Обмен данными характеристик. Точность. - Введ. 2012.01.07. -Москва: Изд-во стандартов. - 2019. - 12с. -Текст : непосредственный.

6. ГОСТ Р 54526-2011. Качество данных. Часть 140. Основные данные. Обмен данными

оценки качества данных в разных сферах деятельности человека. В свою очередь осуществление оценки качества данных с помощью тех или иных показателей может помочь формировать векторы, в направлении которых нужно действовать для улучшения качества данных в той или иной организации или на предприятии.

характеристик. Завершенность. - Введ. 2012.01.07. - Москва: Изд-во стандартов. - 2019.

- 16с. - Текст : непосредственный.

7. Data quality in ETL process: A preliminary study/ M. Souibgui [et all]. - Procedia Computer Science. 2019. vol. 159, pp. 676 - 687. - Текст : непосредственный.

8. Wang R.Y. Beyond Accuracy: What Data Quality Means to Data Consumers / R.Y. Wang, D.M. Strong. - Journal of Management Information Systems JMIS. - 1996. - vol. 12.- pp. 5-33. - Текст : непосредственный.

9. Loshin D. Dimensions of Data Quality. The Practitioner's Guide to Data Quality Improvement / D. Loshin. - Burlington: Morgan Kaufmann. - 2011.

- 432p. - Текст : непосредственный.

10. Fan W., Geerts F., Wijsen J. Determining the Currency of Data / W. Fan, F. Geerts, J. Wijsen. -ACM Transactions on Database Systems. - 2012. -vol. 37. - no. 4, pp. 1-46. - Текст : непосредственный.

11. Kirch W. Encyclopedia of Public Health / W. Kirch.

- Springer Dordrecht. - 2008. - 1601 p. - Текст : непосредственный.

12. Sebastian-Coleman L. Measuring Data Quality for Ongoing Improvement / L. Sebastian-Coleman. -Burlington: Morgan Kaufmann - 2013. - 376p. -Текст : непосредственный.

References

1. Fürber C. Data Quality Management with Semantic Technologies. Wiesbaden: Springer Gabler Wiesbaden. 2016. pp. 20-55.

2. GOST R ISO 8000-2-2019. Kachestvo dannyh. Chast

2. Slovar. Vved. 2020.01.05. Moskva: Izd-vo standartov. 2019. 12p. (in Russian)

3. GOST R ISO 8000-110-2011. Kachestvo dannyh. Chast 110. Osnovnye dannye. Obmen dannymi harakteristik. Sintaksis, semanticheskoe kodirovanie i sootvetstvie specifikacii dannyh. Vved. 2012.07.01. Moskva: Izd-vo standartov. 2020. 20p. (in Russian)

4. GOST R 54911-2012. Kachestvo dannyh. Chast 120. Osnovnye dannye. Obmen dannymi harakteristik. Proishozhdenie.Vved. 2013.01.01. Moskva: Izd-vo standartov. 2013. 22p. (in Russian)

5. GOST R 54525-2011. Kachestvo dannyh. Chast 130. Osnovnye dannye. Obmen dannymi harakteristik. Tochnost. Vved. 2012.01.07. Moskva: Izd-vo standartov, 2019. 12p. (in Russian)

6. GOST R 54526-2011. Kachestvo dannyh. Chast 140. Osnovnye dannye. Obmen dannymi

harakteristik. Zavershennost. Vved. 2012.01.07. Moskva: Izd-vo standartov, 2019.16p. (in Russian)

7. Souibgui M., Atigui F., Zammali S., Cherfi S. and Ben Yahi S. Data quality in ETL process: A preliminary study. Procedia Computer Science. 2019. vol. 159, pp. 676 - 687.

8. Wang R.Y., Strong D.M. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems JMIS. 1996.vol. 12. pp. 5-33.

9. Loshin D. Dimensions of Data Quality. The Practitioner's Guide to Data Quality Improvement. Burlington: Morgan Kaufmann. 2011. 432p.

10. Fan W., Geerts F. and Wijsen J. Determining the Currency of Data. ACM Transactions on Database Systems. 2012.vol. 37. no. 4, pp. 1-46.

11. Kirch W. Encyclopedia of Public Health. Springer Dordrecht. 2008. 1601 p.

12. Sebastian-Coleman L. Measuring Data Quality for Ongoing Improvement. Burlington: Morgan Kaufmann. 2013. 376p.

Байшев Анатолий Викторович, аспирант кафедры цифровых технологий и дизайна Хакасского государственного университета им. Н.Ф. Катанова, г. Абакан, e-mail: [email protected]

Bayshev Anatoly Viktorovich, postgraduate at the Department of Digital Technologies and Design, Khakass State University named after N.F. Katanov, Abakan, Russia, e-mail: [email protected]

Статья поступила в редакцию 30.01.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.