№ 6 (81)_¿ЛА ■ ;___июнь, 2021 г.
МАТЕМАТИЧЕСКИЕ И ИНСТРУМЕНТАЛЬНЫЕ МЕТОДЫ ЭКОНОМИКИ
ВО! - 10.32 743/итЬам>.2021.81.6.11778
АНАЛИЗА МАССИВА ДАННЫХ С ПОМОЩЬЮ ИНСТРУМЕНТА ВИЗУАЛИЗАЦИИ
«ЯЩИК С УСАМИ»
Сальникова Кристина Владимировна
канд. экон. наук, доцент,
ФГБОУ ВО «Ижевский государственный технический университет имени М.Т. Калашникова»,
РФ, Удмуртская Республика, г. Ижевск Е-mail: kristina-zhelnova@yandex. гы
THE ANALYSIS OF DATA AMOUNT USING THE VISUALIZATION TOOL "BOX-AND-
WHISKER"
Kristina Salnikova
Candidate of Economic Sciences, Associate Professor, FSBEI HE "Kalashnikov Izhevsk State Technical University ", Russia, the Udmurt Republic, Izhevsk
АННОТАЦИЯ
В статье рассматриваются статистические понятия «перцентиль», «дециль», «квартиль», «выброс». На примере с помощью инструмента «Описательная статистика» программного пакета для эконометрического анализа «Gretl» получены такие аналитические показатели, как среднее, медиана, максимум, минимум, вариация и др., а также построен «ящик с усами» для наглядного представления о разбросе данных в анализируемой выборке. Умение обобщать обработанные показатели, а также интерпретировать их позволяет принимать обоснованные взвешенные решения.
ABSTRACT
The article discusses the statistical concepts of «percentile», «decile», «quartile», «outlier». For example, using the «Descriptive Statistics» tool of the software package for econometric analysis «Gretl», analytical indicators such as mean, median, maximum, minimum, variation, etc. were obtained, and a «box-and-whiskers diagram» was built to visualize the spread of data in the analyzed sample. The ability to summarize the processed indicators, as well as to interpret them, allows you to make informed, informed decisions.
Ключевые слова: перцентиль, дециль, квартиль, выброс, описательная статистика.
Keywords: percentile, decile, quartile, outlier, descriptive statistics.
Для выработки экономических и управленческих решений требуется анализ информации путем разработки и применения статистических методов для измерения взаимосвязей между экономическими переменными, то есть эконометрический подход. При построении эконометрической модели одной из проблем является определение и включение проверенных статистических данных, которые не приведут к искажению результативного показателя.
Целью данной статьи является рассмотрение графического подхода к интерпретации анализа массива данных с помощью «ящика с усами» или коробчатой диаграммы, которая представляет собой график, который используется в описательной статистике для компактного изображения распределения вероятностей. То есть с помощью «ящика с усами» можно получить следующие виды наблюдений: средний показатель, медиану, нижний и верхний квартили, минимальное и максимальное значение
выборки, а также существуют ли выбросы и каковы их значения, которые следовало бы исключать из дальнейшего анализа.
Методология исследования базируется на совокупности теоретических и эмпирических методов исследования: описании, наблюдении, анализе и синтезе исходного материала с итоговым обобщением полученных результатов и вынесением единого суждения.
Для того чтобы понять принцип построения «ящика с усами» (ящичной диаграммы) определимся с основными статистическими понятиями, такими как «перцентиль», «дециль», «квартиль», «выброс».
Перцентиль (или процентиль) показывает соответствующий значению место, которое занимает данное наблюдение в выборке, по сути, некоторый процент.
Библиографическое описание: Сальникова К.В. Анализа массива данных с помощью инструмента визуализации «Ящик с усами» // Universum: экономика и юриспруденция : электрон. научн. журн. 2021. 6(81). URL: https://7universum. com/ru/economy/archive/item/11778
Перцентиль, соответствующий значению Xj, рассчитывается по формуле 1:
„ (Число значений меньших х,-) + 0,5
Percentile = --• 100 (1)
Общее число значений
То есть это процентное значение, показывающее место х в выборке. Если умножаем полученное значение на 100, то получаем квантиль распределения.
Если 10% перцентили - это децили.
Если 25% перцентили - это квартили.
Центральное значение Q2 - это медиана (рисунок 1).
Нижнее значение ^ - 1-ый квартиль (первая четверть упорядоченного по величине ряда).
Верхнее значение Q3 - 3-ий квартиль (конец третьей четверти ряда).
Квартили
Рисунок 1. График квартилей
Пример 1.
Учитель дал 10 ученикам тест, оцениваемый из 20 баллов. Оценки представлены ниже. Найдем перцентиль, соответствующий оценке 12.
18 15 12 6 8 2 3 5 20 10
Представим оценки в возрастающем порядке.
2 3 5 6 8 10 12 15 18 20
6 значений меньше 12, поэтому подставляем в формулу 1:
6 + 0,5
Percentile = ——-- 100 = 65% перцентиль
Таким образом, студент, получивший оценку 12, выполнил тест лучше, чем 65% учеников в классе.
Далее рассмотрим расчет перцентилей. Алгоритм расчета р% — го перцентиля:
Шаг 1: Отсортируйте данные в возрастающем порядке
Шаг 2: Рассчитайте индекс i по формуле 2:
* = (-)■
\1оо/
(2)
где р - интересующий перцентиль, п - число наблюдений.
Шаг 3: (а) Если I оказалось нецелым числом, то округлите его вверх. Так получите позицию значения, соответствующего р% — ому перцентилю. Само значение и будет р% — ым перцентилем.
(б) Если I оказалось целым числом, то р% — ый перцентиль - это среднее значений на I и I + 1 позициях.
Пример 2.
Шаг 1. Отсортируем данные в возрастающем порядке.
2 3 5 6 8 10 12 15 18 20
Шаг 2. Рассчитаем индекс I
I = ( —) • 10 = 8,5 100
где р - перцентиль 85%-ый.
Шаг 3. Поскольку I оказалось нецелым числом, то округлим его вверх. Так, позиция, соответствующая 85%-му перцентилю, соответствует 9 место в ряде. 9-ым наблюдением в отсортированных данных, является оценка 18, которая и является 85%-ым перцентилем.
Пример 3 (расчет квартилей).
= первый квартиль или 25% перцентиль
&
= второй квартиль или 50% перцентиль (медиана) = третий квартиль или 75% перцентиль Рассчитаем эти значения для оценок.
2 3 5 6 8 10 12 15 18 20
Для &
i = i-25-) • 10 = 2,5 100
Получили нецелое число, значит = 5 первый квартиль в выборке. Для С2
50
/ = - ■ 1 Г) =
М00/
10 = 5
Получили целое число, в таком случае, должны взять для определения квартиля среднее значение между 8 и 10, то есть
(8 + 10) & = „ = 9
Для Сз
£ = (ш)
10 = 7,5
Получили нецелое число, значит = 15.
Как определить, что наблюдение выборки является выбросом. Выбросы влияют на определение среднего для того чтобы заранее понимать, средняя оценка которую мы получили - она смещается за счет выбросов или нет.
п
Рассмотрим подход определения выбросов для нетипичных наблюдений. Для того чтобы это сделать, совершите следующие шаги:
1. Отсортируйте данные. Найдите Q1 и Q3 (1-ый и 3 -ий квартиль)
2. Найдите межквартильный размах: =
Qз-Ql
3. Рассчитайте • 1,5
4. Рассчитайте Q1 - 1,5 • ЩЯ и + 1,5 • ЩЯ
5. Проверьте, какие наблюдения вышли за границы:
- 1,5 • ЩЯ; + 1,5 • ЩЩ. Если есть значения, которые выходят за эти границы, то это есть выбросы.
Для визуализации, представим графически, а точнее нарисуем «ящик с усами» (диаграмма размаха) или box plot. К примеру, допустим, известны некоторые заработные платы, для каждого значения которых заранее рассчитаем 1, 3 и 2 квартиль.
Рисуем ящик с усами. Сам ящик - это значение квартального размаха. То есть берем Q2 - медиану и Q1, Q3 отмечаем для наших наблюдений. Сам ящик -тело графика, находится от 1-го до 3-го квартиля. Далее от ящика рисуем усы, которые представляют собой следующее: от 1-го квартиля вычитаем 1,5 меж-квартильных размаха, а к 3 -му квартилю прибавляем 1,5 межквартильных размаха. Это и есть границы усов (рисунок 2).
3000 3200 3400 3600 3800 4000
Рисунок 2. График «ящик с усами» или box plot
Если какие-то наблюдения выходят за границы этих усов ящика, то они называются выбросом (нетипичные наблюдения), представляющие собой значение, которое очень сильно отличается от других. В нашем примере есть такая точка с заработной платой больше 4000 у.е., которая выпадает за границы ящика с усами. Существуют статистические пакеты, которые
Исходные
потенциально можно использовать MS Excel, Gretl, SPSS, STATA, Eviews, R.
Реализуем с помощью программного пакета для эконометрического анализа «Gretl» практический пример анализа цены на фьючерсный контракт на нефть Brent. Исходные данные представлены в таблице.
Таблица 1.
данные
Дата Цена на фьючерсный контракт на нефть Brent Учетная цена на золото (руб./гр.) Курс валюты Доллар США (1 ед.) Индекс РТС (в пунктах)
- У Vl Ъ
30.04.2021 66,67 4243,98 74,3823 1484,18
29.04.2021 67,97 4250,44 74,9390 1510,03
28.04.2021 67,08 4291,88 74,9578 1510,80
27.04.2021 66,60 4278,00 74,7680 1513,75
26.04.2021 65,73 4310,03 75,0893 1520,03
25.04.2021 66,09 4310,03 75,0893 1510,21
24.04.2021 66,09 4310,03 75,0893 1510,21
23.04.2021 66,09 4387,37 76,4217 1510,21
22.04.2021 65,61 4398,86 76,8198 1500,98
21.04.2021 65,07 4314,80 76,0155 1466,60
20.04.2021 66,33 4384,20 76,2491 1452,01
19.04.2021 67,14 4290,88 75,5535 1472,89
18.04.2021 66,73 4290,88 75,5535 1494,42
17.04.2021 66,73 4290,88 75,5535 1494,42
16.04.2021 66,73 4326,28 76,9808 1494,42
15.04.2021 66,86 4241,89 75,6826 1469,04
14.04.2021 66,37 4292,18 77,2535 1486,76
13.04.2021 63,93 4339,97 77,5104 1458,64
12.04.2021 63,38 4336,55 77,1657 1431,61
11.04.2021 63,09 4336,55 77,1657 1420,10
Дата Цена на фьючерсный контракт на нефть Brent Учетная цена на золото (руб./гр.) Курс валюты Доллар США (1 ед.) Индекс РТС (в пунктах)
10.04.2021 63,09 4336,55 77,1657 1420,10
09.04.2021 63,09 4322,38 77,1011 1420,10
08.04.2021 63,42 4340,80 77,7730 1440,32
07.04.2021 63,13 4250,90 76,3802 1430,20
06.04.2021 62,75 4251,11 76,6052 1427,01
05.04.2021 62,29 4221,60 76,0734 1456,95
04.04.2021 64,86 4221,60 76,0734 1466,90
03.04.2021 64,86 4221,60 76,0734 1466,90
02.04.2021 64,86 4181,97 75,8073 1466,90
01.04.2021 64,66 4098,42 75,6373 1456,53
Посмотрим описательную статистику (рисунок 3) на примере переменной «Учетная цена на золото».
gretl: опис, статистика: vl
□
X
0
Описательная с г а. тис гика., наблюдения 1-29
для переменной 1 vl1 (использовано 29 наблюдений)
Среднее 4290,6
Медиана 4292,2
Минимум 4098,4
Максимум 4398,9
Стандартное отклонение 64,209
Вариация 0,014965
Асимметрия -0, 82926
Эксцесс 1,1704
перцентиль 4140,2
95 %-перцентиль 4393,1
Interquartile range 85,880
Пропущенные наблюдения 0
Рисунок 3. Описательная статистика переменной «Учетная цена на золото»
Представим описательную статистику по всем переменным (рисунок 4).
gretl: статистика
I а © ч
□
X
Й
Среднее Медиана 5.D, Hin Мах
VI 4291 4292 64, 21 4095 4399
v2 76,16 76,07 0,8672 74,77 77,77
v3 1472 1467 32,51 1420 1520
Рисунок 4. Описательная статистика по всем переменным
Гистограмма распределения (рисунок 5) для переменной у1 «Учетная цена на золото» имеет
скошенный вид, длинный левый хвост, то есть левостороннюю асимметрию.
4050 4100 4150 4200 4250 4300 4350 4400
VI
Рисунок 5. График распределения переменной «Учетная цена на золото»
Помимо графика для каждого интервала показывается частота попадания в каждый из интервалов. Как видно из рисунка 6, самое большое количество
значений 11 попадает в интервал [4273,7-4323,8], то есть можно сказать, что это модальный интервал, наиболее типичный.
Рисунок 6. Распределение частот для переменной v1 «Учетная цена на золото»
Построим «ящик с усами» или box plot для переменной v1 «Учетная цена на золото» (рисунок 7).
где средняя линия - показывает медиану; + показывает среднее значение; границы ящика - 1-ый и 3-ий квартиль;
усы - 1,5 межквартильных размаха соответственно сверху и снизу; точки выбросов - это точки, которые выходят за границы усов.
Рисунок 7. График «ящик с усами» или box plot с выбросами
«Ящик с усами» (предложил американский математик Джон Тьюки в 1975 г.) - это 5-числовая сводка следующих данных: минимальное значение, первый квартиль (25%), медиану (50%), третий квартиль (75%), максимальное значение. Выбросы - это все значения выборки, которые отстают от 1-го или от 3-го квартиля больше чем на 1,5 межквартильных расстояния.
На рисунке 7 видно, что точек выбросов мало, это означает, что есть учетные цены на золото, которые сильно отличаются от других и это низкая учетная цена.
Попробуем исключить выброс и построить новый график «ящик с усами» (рисунок 8).
Рисунок 8. График «ящик с усами» или box plot без выбросов
№ 6 (81)
Рисунок 8 показывает изменение формы «ящика с усами», показателей описательной статистики (медианы, среднего значения, квартилей). Соответственно включение набора данных без выбросов при построении эконометрической модели покажет другой результативный показатель, более достоверный, нежели с массивом данных дающих значительную погрешность при исчислении результативного показателя.
июнь, 2021 г.
Положительным моментом ящичной диаграммы является то, что она используется при небольших массивах данных и позволяет быстро сравнить их между собой.
Таким образом, прошедшие обучение «сырые» статистические массивы данных представляют собой готовые аналитические результаты, умелое использование которых имеет значимую ценность для принятия соответствующих решений.
Список литературы:
1. Елисеева И.И., Юзбашев М.М. Общая теория статистики: учеб. для вузов. - М.: Финансы и статистика, 1995. Глава 4.
2. Левин Д. М., Стефан Д., Кребиль Т.С, Беренсон М.Л. Статистика для менеджеров с использованием Microsoft Excel, 4-е изд. - М.: Издательский дом «Вильямс», 2004. - 1312 с. Гл. 1 (разделы 1.1, 1.8-1.12), гл. 2 и 3.
3. Bluman A. (2008). Elementary statistics. McGraw-Hill, 2008. Ch. 1-3.
4. Newbold P. (1995) Statistics for Business and Economics. 4th ed. London: Prentice-Hall. С. 29-70.
5. Динамика официального курса заданной валюты / [Электронный ресурс] - Режим доступа. -URL: https://cbr.ru/currency_base/dynamics/ (дата обращения 06.05.2021).
6. Учетные цены на аффинированные драгоценные металлы / [Электронный ресурс] - Режим доступа. -URL: https://cbr.ru/hd_base/metall/metall_base_new/ (дата обращения 06.05.2021).