Научная статья на тему 'БИЗНЕС-КОНТЕКСТ И КАЧЕСТВО ДАННЫХ КАК ОСНОВНЫЕ УСЛОВИЯ ДЛЯ ИЗВЛЕЧЕНИЯ ЦЕННОСТИ ИЗ ЦИФРОВОГО АКТИВА'

БИЗНЕС-КОНТЕКСТ И КАЧЕСТВО ДАННЫХ КАК ОСНОВНЫЕ УСЛОВИЯ ДЛЯ ИЗВЛЕЧЕНИЯ ЦЕННОСТИ ИЗ ЦИФРОВОГО АКТИВА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
19
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
качество данных / бизнес-контекст / бизнес-аналитика / описательный анализ данных / разведочный анализ данных

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Черкашина Екатерина Николаевна, Рындина Светлана Валентиновна

Бизнес-аналитика – это процесс получения и обработки данных с их последующим анализом, проводимым с целью выявления тенденций и закономерностей, необходимых для принятия важных бизнесрешений. Для превращения собираемых организацией данных в цифровой актив необходимы определение достаточного бизнес-контекста и обеспечение качества исследуемых данных. Важно гарантировать точность, достоверность, актуальность и полноту анализируемой информации, чтобы получить полезный для бизнеса результат. На примере данных о клиентах магазина в статье проиллюстрированы недостаточно подробный бизнес-контекст и проблема качества данных, как основные затруднения для извлечения ценности из цифрового актива.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «БИЗНЕС-КОНТЕКСТ И КАЧЕСТВО ДАННЫХ КАК ОСНОВНЫЕ УСЛОВИЯ ДЛЯ ИЗВЛЕЧЕНИЯ ЦЕННОСТИ ИЗ ЦИФРОВОГО АКТИВА»

УДК 330.4

БИЗНЕС-КОНТЕКСТ И КАЧЕСТВО ДАННЫХ КАК ОСНОВНЫЕ УСЛОВИЯ ДЛЯ ИЗВЛЕЧЕНИЯ ЦЕННОСТИ ИЗ ЦИФРОВОГО АКТИВА

1 "2 Е. Н. Черкашина , С. В. Рындина

1 2

, Пензенский государственный университет, Пенза, Россия

1katya_cherkashina2106@mail.ru 2svetlanar2004@yandex.ru

Аннотация. Бизнес-аналитика - это процесс получения и обработки данных с их последующим анализом, проводимым с целью выявления тенденций и закономерностей, необходимых для принятия важных бизнес-решений. Для превращения собираемых организацией данных в цифровой актив необходимы определение достаточного бизнес-контекста и обеспечение качества исследуемых данных. Важно гарантировать точность, достоверность, актуальность и полноту анализируемой информации, чтобы получить полезный для бизнеса результат. На примере данных о клиентах магазина в статье проиллюстрированы недостаточно подробный бизнес-контекст и проблема качества данных, как основные затруднения для извлечения ценности из цифрового актива.

Ключевые слова: качество данных, бизнес-контекст, бизнес-аналитика, описательный анализ данных, разведочный анализ данных

Для цитирования: Черкашина Е. Н., Рындина С. В. Бизнес-контекст и качество данных как основные условия для извлечения ценности из цифрового актива // Вестник Пензенского государственного университета. 2023. № 4. С. 91-98.

В наше время бизнес-аналитика играет важную роль для любой компании. Она помогает получить практически ценные сведения для принятия наиболее эффективных и качественных управленческих решений. С помощью средств бизнес-аналитики можно проанализировать любые объемы данных для выявления, например, различных тенденций в изменении метрик и показателей бизнеса, паттернов поведения клиентов, оценки результативности маркетинговых компаний и представить выводы в интуитивно понятных визуальных форматах. Через отчеты и рекомендации бизнес-аналитиков руководство компании получает актуальную и достоверную информацию о происходящем в организации и за ее пределами, что помогает при принятии стратегически важных решений.

Все компании работают с данными, собираемыми во множестве внутренних и внешних источников организации. Они необходимы, чтобы руководство компании имело реальную картину того, что происходит с рынком и бизнесом в целом. Следовательно, любая неточность, нехватка информации или ошибочные данные могут привести к неправильному пониманию ситуации на рынке, что, в свою очередь, приводит к совершению ошибочных действий, принятию неверных решений.

На эффективность конечного результата большое влияние оказывает качество анализируемых данных, т.е. их пригодность к обработке и анализу, характеризующаяся в точности, достоверности, доступности, актуальности, ценности, измеримости и непротиворечивости.

© Черкашина Е. Н., Рындина С. В., 2023

В соответствии со стандартом ИСО 9000-20151 основными критериями качества данных являются:

- точность - соответствие данных необходимым требованиям;

- полнота - достаточный объем информации, необходимый для дальнейшего анализа;

- актуальность - соответствие данных требуемому временному интервалу;

- согласованность - отсутствие противоречия данных друг другу;

- доступность - обеспечение доступа к данным при необходимости.

К основным проблемам, оказывающим негативное влияние на качество исследуемых данных, относятся: наличие пропущенных значений, дубликаты, противоречия, аномальные значения и выбросы, отсутствие полноты данных, нарушение целостности данных, некорректные форматы и представления данных, ошибки ввода данных и нарушения структуры.

Также для принятия ценных для компании решений необходимо понимать контекст бизнеса, т.е. окружающую обстановку, бизнес-процессы, структуры и системы, в которых существует бизнес и которые влияют на его содержание, изменение и развитие. Важно обладать полной информацией об исследуемом явлении, вырабатывать четкие формулировки, чтобы в процессе анализа данных не возникало неоднозначных толкований, ошибочных суждений и заблуждений. Бизнес-контекст помогает сформировать единое пространство понимания бизнес-проблемы и общее видение, при этом оставляя в рассмотрении альтернативные варианты решения, основывающиеся на анализе данных. Без глубокого анализа контекста невозможно грамотно осуществлять стратегическое управление бизнесом, принимать важные решения.

К распространенным ошибкам, не позволяющим извлечь ценность из цифрового актива, относят: неполноту данных (отсутствие какой-либо информации, сведений, показателей, необходимых для дальнейшего анализа), их недостоверность и несоответствие.

Рассмотрим проблему качества анализируемых данных на конкретном примере. Используем информацию о клиентах магазина [1], взятую с Kaggle-платформы, на которой пользователи, не только физические лица, но и организации, могут публиковать различные наборы данных.

Формирование бизнес-контекста начинается с описания структуры данных: какие показатели есть в наборе, какой тип данных у каждого показателя.

В файле [1] представлены данные по следующим показателям:

- Customer ID - идентификатор клиента;

- gender - пол;

- age - возраст;

- annual income ($) - годовой доход;

- spending score (1-100) - оценка, присвоенная магазином, основанная на поведении клиентов и характере расходов;

- profession - профессия клиента;

- work experience - стаж работы в годах;

- family size - размер семьи.

Набор данных состоит из 2000 наблюдений и 8 столбцов с перечисленными выше показателями.

К базовым методам работы с данными относятся описательный анализ данных, разведочный анализ данных и проверка статистических гипотез.

Исследование данных проведем с помощью библиотек на языке программирования Python на платформе Google Colaboratory. Colaboratory, или просто Colab, позволяет писать и выполнять код Python в браузере [2]. Данный облачный ресурс дает возможность использовать для анализа и визуализации данных все возможности популярных библиотек Python.

1 ГОСТ Р ИСО 9000-2015. Системы менеджмента качества. Основные положения и словарь. URL: https://docs.cntd.ru

Загрузим файл на сервер Со1аЬ и считаем его содержимое в переменную типа dataframe (набор данных или таблица данных). Выведем набор данных на просмотр (рис. 1).

Рис. 1. Просмотр набора данных

Для определения типа данных и количества пропусков в данных используем метод .тйэ(), примененный к набору данных (рис. 2).

<class 'pandas,core.frame.DataFrame1> Rangelndex: 2Q00 entrieSj 0 to 1999 Data columns (total S columns):

Column

Non-Null Count Dtype

0 CustomerlD 2000 non- -null int64

1 Gender 2000 non- -null object

2 Age 2000 non- -null int64

3 Annual Income (i) 2000 non -null int64

4 Spending Score (1-100) 2000 non- -null int64

5 Profession 1965 non- -null object

6 Work Experience 2000 non -null int64

7 Family Size 2000 non -null int64

dtypes: int64(6)j object(2) memory usage: 125.1+ KB

Рис. 2. Сводка о типе данных столбцов и количестве значений в них

По данным сводки можно проверить корректность определения типов данных для столбцов и определить столбцы с пропусками в значениях, когда количество значений не совпадает с числом наблюдений в наборе данных. Проблем с определением типа данных в столбцах нет, но обнаружено 35 пропусков в столбце «Profession», в котором хранится информация о профессиях клиентов магазина.

Проведем описательный анализ, позволяющий получить полное представление о данных и понять их свойства и структуру (рис. 3). Описательный анализ включает определение среднего значения, моды, медианы, размаха для числовых данных или количества уникальных данных и частоты встречаемости в наборе для категориальных.

customerlD Gender Age Annual Income ($) spending score (1-100) Profession work Experience Family size

count 2000.000000 2000 2000.000000 2000.000000 2000.000000 1965 2000.000000 2000.000000

unique NaN 2 NaN NaN NaN 9 NaN NaN

top NaN Female NaN NaN NaN Artist NaN NaN

freq NaN 1186 NaN NaN NaN 612 NaN NaN

mean 1000.500000 NaN 48.960000 110731.821500 50.962500 NaN 4.102500 3.768500

std 577.494589 NaN 28.429747 45739.536668 27.934661 NaN 3.922204 1.970749

min 1.000000 NaN 0.000000 0.000000 0.000000 NaN 0.000000 1.000000

25% 500.750000 NaN 25.000000 74572.000000 28.000000 NaN 1.000000 2.000000

50% 1000.500000 NaN 48.000000 110045.000000 50.000000 NaN 3.000000 4.000000

75% 1500.250000 NaN 73.000000 149092.750000 75.000000 NaN 7.000000 5.000000

max 2000.000000 NaN 99.000000 189974.000000 100.000000 NaN 17.000000 9.000000

Рис. 3. Результат описательного анализа для всех переменных набора данных

Описательный анализ позволяет выявить проблемы с диапазоном значений данных столбцов. Так, в столбце «Age» минимальный возраст 0 лет, что не согласуется с реальностью. Стаж имеет очень усеченный контекст интерпретации, так как нет уточнения, характеризует ли он время работы клиентов на должностях, указанных в рассматриваемом наборе данных, или это общий трудовой стаж у каждого клиента. Выявленные при анализе данных затруднения в восстановлении бизнес-контекста и возникшие проблемы с качеством данных достаточно типичны для ситуаций, когда данные собираются без должного контроля над процедурой сбора и без установленных регламентов и требований по качеству. Это ограничивает возможности извлечения ценности из данных.

Далее проведем разведочный анализ данных, основанный на построении визуализаций. Его целью является представление наблюдаемых данных в компактной, простой и понятной форме, позволяющей выявить имеющиеся в них закономерности и связи. Разведочный анализ включает преобразование данных и способы наглядного их представления для выдвижения гипотез при отсутствии представления о связи между переменными или ее недостаточности. Графически данные могут быть интерпретированы в виде «ящиков с усами» для числовых показателей, точечных графиков для числовых показателей и дат, столбчатых диаграмм, отображающих количество наблюдений для конкретного значения категориального показателя, а также различных гистограмм. Визуализация позволяет максимизировать понимание набора данных за счет интуитивно понятных форм их представления, извлечь важные закономерности, выявить аномалии и выбросы, проверить ранее выдвинутые предположения.

На рис. 4 представлена визуализация зависимости оценки расходов клиента от его годового дохода в виде точечного графика. Для построения такой визуализации важно, чтобы оба исследуемых на наличие связи показателя были числовыми.

Рис. 4. Точечная диаграмма

94

Визуально связь между показателями отсутствует: люди с высоким уровнем дохода в год могут иметь низкую оценку расходов в роли клиентов магазина и наоборот.

Для анализа категориальных показателей используем столбчатую диаграмму и наглядно представим, например, соотношение между женщинами и мужчинами среди клиентов магазина (рис. 5).

Пол клиента Рис. 5. Столбчатая диаграмма

Женщины среди клиентов преобладают. Закономерно возникает вопрос: кто больше тратит в среднем мужчины или женщины? Для такого анализа подходит диаграмма «ящик с усами» с группировкой по полу (рис. 6).

Рис. 6. Диаграмма «ящик с усами»

На данной диаграмме видно, что в исследуемом магазине в среднем мужчины и женщины тратят одинаково.

С помощью столбчатой диаграммы проведем визуализацию информации о профессиях клиентов (рис. 7), чтобы определить, каким видом деятельности занимаются большинство посетителей магазина.

Рис. 7. Столбчатая диаграмма (профессии клиентов)

Наглядно видно, что наиболее часто встречающаяся профессия среди клиентов магазина -это деятель искусства. На основе полученной информации можно скорректировать ассортимент товаров, выбирая те, которые поддерживают лояльность и увеличивают продажи среди выявленной наиболее представленной категории покупателей, или напротив, усилить продвижение среди малочисленных категорий покупателей, предлагая нестандартные подходы и решения для вовлечения их в различные активности и коммуникации с учетом их профессиональных интересов.

По гистограмме, группирующей клиентов по размерам годового дохода, можно определить, что подавляющее число клиентов магазина имеют годовой доход примерно от 80 000 до 90 000$ (рис. 8).

Группировка клиентов по размерам годового дохода 160 -1-

140 -

120

100

80 -60 " 40 ■

Рис. 8. Гистограмма

96

Результаты, полученные в ходе разведочного анализа, позволяют определить, кто является частым клиентом магазина (по полу, профессии и возрасту), и на основании этого принять решения, в зависимости от целей проведения анализа, например, об ассортименте предлагаемой продукции, ее количестве, возможных акциях, рекламных кампаниях.

Так в результате разведочного анализа получен типовой портрет клиента: по полу - это женщина, по профессии - деятель искусства, по возрасту - лица 48 лет, а по годовому доходу лидируют клиенты, чей уровень принадлежит диапазону 80 000-90 000$.

Но руководствоваться полученными выводами следует с осторожностью, так как исходный набор данных является проблемным по качеству: содержит ошибки и пропуски.

Проблемы с восстановлением бизнес-контекста более серьезные, чем с качеством данных: нет информации о предлагаемой магазином продукции. Нет столбцов с типом данных «дата/время», и отсутствует понимание того, за какой интервал времени агрегированы данные.

Знание бизнес-контекста по ассортименту даже без детализации того, что из ассортимента приобреталось покупателями, позволяет выдвигать более содержательные гипотезы с большим потенциалом ценности для бизнеса. Например, если анализируемый магазин занимается продажей косметических средств, то нет ничего необычного в том, что его частыми клиентами являются женщины, и рекомендуется расширить ассортимент предлагаемых товаров с целью привлечения более молодых клиенток, так как пока лидирует возрастная группа, близкая к 50 годам. Если магазин реализует пищевую продукцию, то внимание и ресурсы рекомендуется направить на привлечение мужской аудитории. В зависимости от бизнес -контекста рекомендации, принятые решения и разработанные стратегии для извлечения бизнес -ценности будут различны, как и предпринимаемые действия. Возможности содержательной интерпретации полученных результатов анализа напрямую зависят от объема бизнес -контекста, который есть в распоряжении аналитика.

Таким образом, для формулирования конкретных и практически полезных выводов рекомендуется погружаться в бизнес-контекст, который может выходить далеко за рамки собранных данных. Обогащение бизнес-контекста может происходить и постфактум, когда из иных источников могут быть получены необходимые сведения о данных.

Проблемы с качеством данных можно решить далеко не всегда: можно исключить данные с пропусками, можно попробовать заполнить пропуски правдоподобными значениями, можно исключить из рассмотрения проблемные показатели. В рассмотренном наборе проблемы с качеством имеют два показателя: возраст (противоречивые значения) и профессия (пропуски в данных).

Важно оценивать качество данных перед началом любого анализа, в случае необходимости провести действия по его повышению, чтобы предотвратить некорректные результаты. Также важно понимать контекст бизнеса, чтобы в дальнейшем при анализе исключить сомнения и избежать неэффективных выводов. Низкокачественные данные препятствуют принятию эффективных бизнес-решений, проведению точных аналитических исследований, прогнозированию будущих процессов в бизнесе. Поэтому решения в сфере оценки и управления качеством данных так востребованы в работе бизнеса.

Список литературы

1. Набор анализируемых данных «Customers». URL: https://www.kaggle.com

2. Официальный сайт Google Colaboratory. URL: https://colab.research.google.com

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Информация об авторах Черкашина Екатерина Николаевна, студентка, Пензенский государственный университет.

Рындина Светлана Валентиновна, кандидат физико-математических наук, доцент, доцент кафедры «Цифровая экономика», Пензенский государственный университет.

Авторы заявляют об отсутствии конфликта интересов.

i Надоели баннеры? Вы всегда можете отключить рекламу.