Научная статья на тему 'Метрики разнообразия типов данных в физической схеме базы данных MySQL'

Метрики разнообразия типов данных в физической схеме базы данных MySQL Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
214
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗА ДАННЫХ / MYSQL / ФИЗИЧЕСКАЯ СХЕМА / ТИПЫ ДАННЫХ / ОЦЕНКА КАЧЕСТВА QUALITY ASSESSMENT / ИНДЕКС РАЗНООБРАЗИЯ / ИНДЕКС СИМПСОНА / ИНДЕКС ШЕННОНА / ИНДЕКС ПИЕЛУ / ОЦЕНКА СЛОЖНОСТИ / DATABASE / PHYSICAL SCHEMA / TYPES OF DATA / QUALITY ASSESSMENT / DIVERSITY INDEX / SIMPSON INDEX / SHANNON INDEX / PIELOU INDEX / СOMPLEXITY ASSESSMENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рыбанов Александр Александрович

При проектировании баз данных информационных систем одним из важных этапов является правильный выбор типов данных полей в таблицах. Для оценки разнообразия типов данных в физической схеме базы данных используются следующие меры доминирования: индекс разнообразия Симпсона, индекс разнообразия Шеннона, индекс выравненности Симпсона, индекс выравненности Пиелу. Проведено сравнение применимости используемых в экологии индексов разнообразия для оценки распределения типов данных для физических схем баз данных. Сравнительный анализ показателей разнообразия типов данных для физических схем баз данных показал, что значения некоторых индексов подчиняются определенным правилам. Предлагается индексы разнообразия использовать для качественной оценки физических схем баз данных. Рассмотренные в работе индексы также могут быть использованы для построения новых моделей оценки сложности баз данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рыбанов Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIVERSITY METRICS OF DATA TYPES FOR PHYSICAL SCHEMA OF DATA BASE MYSQL

When designing information system databases, one important step is to correctly select the field data types in the tables. The following dominance measures are used to estimate the diversity of data types in the physical database schema: Simpson's diversity index, Shannon diversity index, Simpson's evenness index, Pielou evenness index. Comparison of applicability of the diversity indices used in ecology to assess the distribution of data types for physical schemes of databases is carried out. A comparative analysis of diversity indices of data types for physical database schemes has shown that the values of some indices are subject to certain rules. It is offered to use diversity indices for quality assessment of physical schemes of databases. The indices discussed in the paper can also be used to build new database complexity assessment models.

Текст научной работы на тему «Метрики разнообразия типов данных в физической схеме базы данных MySQL»

УДК 004.654 ББК 32.972.34 Р 93

Рыбанов Александр Александрович

Кандидат технических наук, доцент, заведующий кафедрой информатики и технологии программирования Волжского политехнического института (филиал) Волгоградского государственного технического университета, Волжский, e-mail: [email protected]

Метрики разнообразия типов данных в физической схеме базы данных MySQL

(Рецензирована)

Аннотация. При проектировании баз данных информационных систем одним из важных этапов является правильный выбор типов данных полей в таблицах. Для оценки разнообразия типов данных в физической схеме базы данных используются следующие меры доминирования: индекс разнообразия Симпсона, индекс разнообразия Шеннона, индекс выравненности Симпсона, индекс выравненности Пиелу. Проведено сравнение применимости используемых в экологии индексов разнообразия для оценки распределения типов данных для физических схем баз данных. Сравнительный анализ показателей разнообразия типов данных для физических схем баз данных показал, что значения некоторых индексов подчиняются определенным правилам. Предлагается индексы разнообразия использовать для качественной оценки физических схем баз данных. Рассмотренные в работе индексы также могут быть использованы для построения новых моделей оценки сложности баз данных.

Ключевые слова: база данных, MySQL, физическая схема, типы данных, оценка качества quality assessment, индекс разнообразия, индекс Симпсона, индекс Шеннона, индекс Пиелу, оценка сложности.

Rybanov Aleksandr Aleksandrovich

Candidate of Technical Sciences, Associate Professor, Head of Department of Informatics and Programming Techniques, Volzhsky Polytechnical Institute, Branch of the Volgograd State Technical University, Volzhsky, email: [email protected]

Diversity metrics of data types for physical schema of data base MySQL

Abstract. When designing information system databases, one important step is to correctly select the field data types in the tables. The following dominance measures are used to estimate the diversity of data types in the physical database schema: Simpson's diversity index, Shannon diversity index, Simpson's evenness index, Pielou evenness index. Comparison of applicability of the diversity indices used in ecology to assess the distribution of data types for physical schemes of databases is carried out. A comparative analysis of diversity indices of data types for physical database schemes has shown that the values of some indices are subject to certain rules. It is offered to use diversity indices for quality assessment of physical schemes of databases. The indices discussed in the paper can also be used to build new database complexity assessment models.

Keywords: database, MySQL, physical schema, types of data, quality assessment, diversity index, Simpson index, Shannon index, Pielou index, rnmplexity assessment.

При проектировании баз данных (БД) информационных систем одним из важных этапов является правильный выбор типов данных полей в таблицах БД [1]. Определяемые пользователями типы данных позволяют существенно усилить контроль над данными и повысить их целостность [2]. Контроль качества физической схемы БД невозможен без числовых показателей. При отсутствии количественных измерений трудно принимать какие-либо проектные решения. Существующие модели количественной оценки сложности физических схем реляционных баз данных [3, 4] не учитывают разнообразие используемых в них типов данных, поэтому задача формирования системы количественных критериев для оценки разнообразия типов данных, используемых в физической схеме БД, является актуальной. Рассмотрим применение показателей экологического разнообразия для решения задачи оценки разнообразия типов данных в физической схеме базы данных.

Разнообразие - это понятие, которое имеет отношение к размаху изменчивости или различий между некоторыми множествами или группами объектов. При оценке разнообразия типов данных в физической схеме базы данных принимаются во внимание следующие два фактора:

а) видовое богатство, то есть количество типов данных, входящих в физическую схему БД;

б) выравненность или равномерность распределения обилия типов данных в физической схеме БД.

Для оценки разнообразия типов данных в физической схеме базы данных воспользуемся следующими мерами доминирования, учитывающими выравненность: индекс разнообразия Симпсона, индекс разнообразия Шеннона, индекс выравненности Симпсона, индекс выравненности Пиелу.

Индекс разнообразия Симпсона (d) рассчитывается по формуле:

1

D =

S

.2

Z p2

i=i

где S - количество типов данных в физической схеме БД (видовое богатство); Pi - доля i-го типа данных в суммарной численности полей всех типов.

Чем больше индекс разнообразия Симпсона приближается к видовому богатству s, тем разнообразнее (с точки зрения используемых типов данных) рассматриваемая физическая схема БД.

В таблицах 1-2 приведены данные для расчета индекса разнообразия Симпсона для физических схем учебных MySQL баз данных catalog и northwind (dev.mysql.com).

Таблица 1

Данные для расчета индекса разнообразия Симпсона для БД catalog

№ Тип данных Pi Количество полей

данного типа

1 BLOB 0,025974 2

2 DATE 0,012987 1

3 INT 0,519481 40

4 SMALLINT 0,025974 2

5 TEXT 0,116883 9

6 TINYINT 0,012987 1

7 VARCHAR 0,272727 21

8 YEAR 0,012987 1

S 77

Таблица 2

Данные для расчета индекса разнообразия Симпсона для БД погЛ^пё

№ Тип данных Количество полей

Pi данного типа

1 BLOB 0,022472 2

2 DATE 0,056180 5

3 DECIMAL 0,033708 3

4 DOUBLE 0,011236 1

5 INT 0,033708 3

6 MEDIUMINT 0,044944 4

7 SMALLINT 0,089888 8

8 TEXT 0,044944 4

9 TINYINT 0,078652 7

10 VARCHAR 0,584270 52

s 89

Тип данных считается доминирующим в физической схеме БД, если его количество составляет 50 и более процентов от всего числа рассматриваемых типов, редким - если менее 10%, а уникальным - менее 2% (рис. 1).

Рис. 1. Кривая значимости типов данных физической схемы БД catalog

Индекс разнообразия Шеннона (Н) рассчитывается по формуле:

S

H = pt in pt .

i=i

Чем больше значения индекса Шеннона, тем выше разнообразие типов данных в физической схеме БД.

Индекс выравненности Симпсона (Е) рассчитывается по формуле:

e = d.

s

Чем больше Е приближается к единице, тем равномернее представлены типы данных в физической схеме БД.

Индекс выравненности Пиелу (е) рассчитывается на основе индекса Шеннона:

H

e =-.

ln s

Индекс Пиелу характеризует выравненность типов данных в физической схеме БД. Величина индекса Пиелу изменяется от 0 до 1. Чем более равномерно представлены в физической схеме БД составляющие ее типы данных, тем ближе его значение к единице.

В таблице 3 приведены показатели разнообразия типов данных для различных физических схем БД.

Таблица 3

Показатели разнообразия типов данных для физических схем БД

Наименование физической схемы БД Акроним s D H E e

flight FL 4 1,9692 0,9508 0,4923 0,6858

world WO 5 3,0316 1,3115 0,6063 0,8149

music MU 4 2,1304 0,9911 0,5326 0,7149

employees ЕМ 5 3,2799 1,3478 0,6559 0,8374

university UN 4 2,0864 0,9693 0,5216 0,6992

classicmodels CL 8 2,5652 1,3559 0,3207 0,652

retailer RE 8 2,5728 1,3659 0,3216 0,6568

chinook CH 4 2,3406 0,9907 0,5851 0,7146

contracts CO 6 3,0422 1,3281 0,5070 0,7413

northwind NO 10 2,7342 1,5354 0,2734 0,6668

sakila SA 14 5,4359 1,9983 0,3883 0,7572

catalog CA 8 2,7797 1,3044 0,3475 0,6273

moodle MO 14 3,0758 1,5446 0,2197 0,5853

kadr oop KO 10 2,6165 1,3174 0,2617 0,5722

Сравнительный анализ показателей разнообразия типов данных для физических схем БД (табл. 3) показывает, что значения некоторых индексов подчиняются определенным правилам (рис. 2).

Так, значение индекса выравненности Симпсона для рассмотренных физических схем баз данных различной сложности (рис. 2) находится в интервале от 0,2197 до 0,65597. Значение индекса выравненности Пиелу лежит в интервале от 0,57215 до 0,83742.

Рис. 2. Индексы выравненности Симпсона и Пиелу

Рассмотренные показатели разнообразия типов данных в физических схемах БД дополняют существующие на данный момент метрические характеристики баз данных.

Дополнительные исследования подобного рода закономерностей распределения значений показателей разнообразия типов данных на больших коллекциях баз данных позволят сформировать набор правил для качественной оценки физических схем баз данных.

Примечания:

1. Черняев А.О., Рыбанов А. А. Разработка и исследование алгоритмов автоматизированного проектирования логических схем реляционных баз данных // В мире научных открытий. 2010. № 4-11 (10). С. 128-129.

2. Нидзий А.В., Рыбанов А.А. Исследование метрических характеристик физических схем реляционных баз данных // Научное обозрение. Педагогические науки. 2019. № 3-3. С. 75-77.

3. Модель оценки сложности физической схемы реляционной базы данных / А. А. Рыбанов, О. В. Свиридова, Н.Н. Короткова, Д.Н. Лясин, О.Ф. Абрамова // Инженерный вестник Дона. 2019. № 3 (54). С. 12.

4. Piattini M., Calero C., Genero M. Table oriented metrics for relational Databases // Software Quality Journal. 2001. № 9 (2). P. 79-97.

References:

1. Chernyaev A.O., Rybanov A.A. Development and research of algorithms for automated design of relational databases logical schemas // In the World of Scientific Discoveries. 2010. No. 4-11 (10). P. 128-129.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Nidzy A.V., Rybanov A.A. The study of metric characteristics of the physical schema of relational databases // Scientific Review. Pedagogical Sciences. 2019. No. 3-3. P. 75-77.

3. Model for estimating the complexity of physical schema for relational database / A.A. Rybanov, O.V. Sviridova, N.N. Korotkova, D.N. Lyasin, O.F. Abramova // Don's Engineering Bulletin. 2019. No. 3 (54). P. 12.

4. Piattini M., Calero C., Genero M. Table oriented metrics for relational Databases // Software Quality Journal. 2001. № 9 (2). P. 79-97.

i Надоели баннеры? Вы всегда можете отключить рекламу.