Научная статья на тему 'АНАЛИЗ ОЦЕНКИ КАЧЕСТВА ВИНА НА ОСНОВЕ ДАННЫХ О ЕГО ХИМИЧЕСКОМ СОСТАВЕ'

АНАЛИЗ ОЦЕНКИ КАЧЕСТВА ВИНА НА ОСНОВЕ ДАННЫХ О ЕГО ХИМИЧЕСКОМ СОСТАВЕ Текст научной статьи по специальности «Прочие технологии»

1193
150
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Машинное обучение / прогнозирование / анализ данных / вино. / Machine learning / forecasting / data analysis / wine

Аннотация научной статьи по прочим технологиям, автор научной работы — Титова Елизавета Михаловна

В работе рассмотрена задача анализа оценки качества вина по данным о его химическом составе.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF WINE QUALITY ASSESSMENT BASED ON DATA ON ITS CHEMICAL COMPOSITION

The paper considers the problem of analyzing the assessment of the quality of wine based on data on its chemical composition.

Текст научной работы на тему «АНАЛИЗ ОЦЕНКИ КАЧЕСТВА ВИНА НА ОСНОВЕ ДАННЫХ О ЕГО ХИМИЧЕСКОМ СОСТАВЕ»

VМеждународная научно-практическая конференция

УДК 004

Титова Елизавета Михаловна Titova Elizaveta Michailovna

Студент Student

Ярославский государственный университет им П.Г. Демидова

P.G. Demidov Yaroslavl State University

АНАЛИЗ ОЦЕНКИ КАЧЕСТВА ВИНА НА ОСНОВЕ ДАННЫХ О ЕГО

ХИМИЧЕСКОМ СОСТАВЕ

ANALYSIS OF WINE QUALITY ASSESSMENT BASED ON DATA ON ITS

CHEMICAL COMPOSITION

Аннотация: В работе рассмотрена задача анализа оценки качества вина по данным о его химическом составе.

Abstract: The paper considers the problem of analyzing the assessment of the quality of wine based on data on its chemical composition.

Ключевые слова: Машинное обучение, прогнозирование, анализ данных, вино.

Key words: Machine learning, forecasting, data analysis, wine.

Введение

Для проверки качества вина проводятся различные химические тесты, выявляющие некоторые параметры вина. Компания-производитель португальских вин, соединила данные о химическом составе вина и вкусовые оценки вин от сомелье. Эти данные мы будем использовать для изучения взаимосвязи состава вина и его оценки, для проведения исследовательского анализа данных.

Постановка задачи

Необходимо провести исследовательский и статистический анализ данных о химических показателях вина и их взаимосвязи с оценкой. В рамках анализа требуется расшифровать химические признаки, провести очистку данных от

«Инновационные аспекты развития науки и техники» выбросов, визуализировать результат, произвести анализ средних и корреляционный анализ, сделать выводы.

Данные

Данные для исследования - это открытый датасет по оценкам красного вина и его химического состава от производителя Vinho verde [1]. В данных 11 химических признаков и оценка. Представленные признаки:

- Fixed acidity (фиксированная кислотность)

- Volatile acidity (летучая кислотность)

- Citric acid (лимонная кислота)

- Residual sugar (остаточный сахар)

- Chlorides (хлориды)

- Free sulfur dioxide (свободный диоксид серы)

- Total sulfur dioxide (суммарный диоксид серы)

- Density (плотность)

- pH

- Sulphates (сульфаты)

- Alcohol (спирт)

- Quality (оценка качества от 0 до 10)

Детализация признаков

Фиксированная кислотность обусловлена наличием нелетучих кислот в вине. Например, винная, лимонная или яблочная кислоты. Данный тип кислот участвует в сбалансированности вкуса вина, привносит свежесть вкусу.

Летучая кислотность обусловлена наличием летучих кислот в вине, например, таких как уксусная кислота.

Остаточный сахар - характеристика, показывающая количество сахара, который не был превращен в спирт в процессе ферментации вина. Участвует в сладости вкуса вина.

Диоксид серы (они же сульфиты) используются в виноделии в качестве безопасного антисептика. Сульфиты не дают вину скисать и потерять свои

VМеждународная научно-практическая конференция вкусовые качества. Присутствуют в вине в свободном виде (газообразном) и связанном виде (соединившись с водой).

Характеристика рН может выступать характеристикой цвета вина. Вина с высоким pH темнее и имеют фиолетовый оттенок цвета. Вина с низким pH светлее и имеют ярко-розовый и ярко-красный оттенок цвета.

Количество спирта характеризует крепость вина.

Изучение данных Первые 10 строк данных представлены на рисунке 1 (рис.1).

fixed! acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol qualify

7.4 О.'О о.оо ".9 0.070 Г.О 34.0 0.9978 3.51 0.56 = .4

0.S! о.оо 2.0 о.овз 25.0 07.0 ■0.9968 3.20 0.6В

7.: 0.76 о.о4 1П 0.092 "5.0 54.1 ■0.9970 3.26 0.05 9.!

11.2 0.;! 0.5с -.9 0.075 17.0 00.0 ■0.9980 3.16 0.52 9.8

7.4 0.т0 о.оо -.9 0.070 11.0 34.0 ■0.9978 3.51 0.» = .4

7.4 O.ei о.оо ".S 0.075 13.0 10.0 0.9978 3.51 0.5s 9.4

7J9 o.eo 0.06 1.0 0.069 "5.0 59.0 0.9964 3.30 0.46 9.4

7.1 o.es о.оо -.2 0.005 "5.0 21.0 0.9940 3.38 0.4Т 10.0

7.? 0.5S 0.Q2 2.0 O.D73 S.0 18.0 ■0.9968 3.2с 0.57 9.5

7.5 O.EO 0.]с G.1 ■".071 17.0 102.0 ■0.9978 3.25 о.во 10.5

Рис.1. Первые 10 строк данных

Всего строк 1599. Данные не имеют пропусков. Все типы данных корректны и являются числовыми (рис.2).

Rangelrdex: 1=95 entries^ 0 t: 15SB

Data columrs (total 12 columrs):

fixed scidity 1599 ПОГ ■ -null floatS4

volatile acidity 1599 ПОГ- -null floatS4

citric acid 1599 ПОГ- -null floatS4

"esidusl iigar 1599 П01- -null floatS4

chlorides 1599 ПОГ- -null floatS4

free ;L.Hur dioxide 1599 ПОГ- -null floatS4

total sulfir dioxide 1599 ПОГ- -null floatS4

density 1599 ПОГ- -null floatS4

pH 1599 ПОГ- -null floatS4

iulp-iates 1599 ПОТ- -null floatS4

alcciol 1599 ПОП- -null floatS4

quality 1599 ПОГ- -null irt£4

dtypes: ■floatG4(ll)J irt64(l)

memory usage: 153-,0 KB

Рис. 2. Типы данных и пропуски в данных

Ниже графически представлены данные описательной статистики признаков. (рис.3) Для каждого признака построен график распределения, а

«Инновационные аспекты развития науки и техники» также ящик с усами. Эти графики позволяют изучить распределение значений и визуально проверить данные на наличие выбросов.

Рис. 3. Графическое представление описательной статистики признаков.

VМеждународная научно-практическая конференция

График типа ящик с усами показывает, что почти у каждого признака есть

выбросы. Однако, после попытки удаления выбросов, полностью удалились вина с оценками 3 и 8. Это произошло из-за несбалансированности выборки. В итоге, было принято решение оставить выбросы, хотя это может негативно сказаться на качестве статистического анализа.

Исследование средних

Для подсчета средних все признаки были сгруппированы по столбцу quality с применением функции mean (среднее). Результаты подсчета средних были визуализированы в виде точечного графика (рис.4). Точечный график представляет собой оценку центральной тенденции для числовой переменной и обеспечивает некоторую индикацию неопределенности вокруг этой оценки с использованием полос ошибок.

При помощи графика отслеживается некоторая тенденция в изменении средних с ростом или падением оценки.

Выводы

С уменьшением количества летучей кислотности средняя оценка увеличивается.

С увеличением количества лимонной кислоты средняя оценка увеличивается. При этом у фиксированной кислоты, в которую входит лимонная такая тенденция не сильно выражена.

С уменьшением количества хлоридов средняя оценка увеличивается.

С уменьшением плотности средняя оценка увеличивается.

С уменьшением числа ph средняя оценка увеличивается.

С увеличением количества сульфатов оценка увеличивается.

С увеличением количества алкоголя средняя оценка увеличивается. Более алкогольные вина имеют более высокие оценки.

Корреляционный анализ

Корреляционный анализ производился по формуле рангов Спирмена, т.к. результирующий показатель quality - это ранговая переменная. Результаты анализа представлены на рисунке ниже (рис.5).

«Инновационные аспекты развития науки и техники»

VМеждународная научно-практическая конференция

Рис. 4. Визуализация средних значений признаков, сгруппированных

по оценке

residual sugar

free sulfur ¡dlioxidle -

total sulfur dioxide -

density -

sulphates -

quality -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

100 -0.2В 0.66 0.22 0.25 -0.13 -0.09 -0.71 С'. 21 -0.07 0.11

-0.28 IOS -0.61 0.03 016 0.02 0.09 -0.33 -0.22 -0.38

0.66 -0.61 юс 0.1В 0.11 -0.08 0.35 -0.55 0.33 С'. 10 0.21

0.22 0.03 С. IB 100 0.21 0.42 4).09 0.0-1 0.12 0.03

0.25 0.16 0.11 0.21 10S 0.00 013 0.41 -0.23 0.02 -0.28 4).19

-0.13 0.02 -0.08 0.07 ООО LOO 0.79 -0.04 С'. 12 0.05 -0.08 -0.06

-0.09 0.05 0.01 0.15 0.13 0.79 100 013 -0.00 -0.26 -0.20

0.61 0.03 0.35 0.42 0.41 -0.04 1 ОС -0.31 0 16 -0.46 -0.13

■ -0.71 0.23 -0.53 -0.09 -0.23 -0.31 100 -0.08 0.1В -0.04

0.21 -0.33 С. 33 0.05 -0.00 0.16 -0.08 ЮС 0.21 0.3В

-0.07 -0.22 0.10 -0.28 -0.08 -0.26 -0.46 0.1В 0.21 ЮС 0.48

0.11 -0.38 0.21 0.03 -0.19 -0.06 -0.20 -0.18 -0.04 о.за 0.4В 103

&

vt С

-s

0.0 0.3

My Colorbar

Рис. 5. Результаты корреляционного анализа

«Инновационные аспекты развития науки и техники» Некоторые признаки имеют достаточно высокий показатель корреляции, т.к. один признак - это часть другого. Например, фиксированная кислотность и количество лимонной кислоты. Лимонная кислота - это нелетучая кислота, которая по-видимому просто вынесена в отдельный столбец. Также уровень ph и фиксированная кислотность имеют высокую корреляцию. Учитывая, что по определению ph - это мера кислот в растворе, высокая корреляция между этими признаками логична. Количество диоксида серы в свободном состоянии и общее количество диоксида серы также коррелируют, т.к. свободное (газообразное) состояние - это часть общего количества диоксида серы в вине. Остаточный сахар, кислотность и алкоголь имеют средний показатель корреляции с плотностью, вероятно из-за того, что концентрация кислот и сахара делает вино более плотным, а концентрация спирта - менее плотным.

Оценка силы связи между переменной оценки вина (quality) и химическим составом вынесена на отдельный график ниже (рис.6).

fixed acidity - 0.11

volatile acidity - -0.38

citric acid residual sugar -

0.03

chlorides - -0.19 free sulfur dioxide - -0.06

-0.04

total sulfur dioxide - -0.20

density - -0.13

PH-

sulplhates

alcohol

quality -|

quality

-100 0.75 0.50 h 0.25 0.00 -0.2Б

Рис. 6. Корреляция химических признаков с оценкой.

VМеждународная научно-практическая конференция

Выводы

Очень слабая положительная корреляция между оценкой наблюдается у признаков fixed acidity и citric acid. С увеличением признака увеличивается оценка.

Очень слабая отрицательная корреляция между оценкой наблюдается у признаков clorides, total sulfur dioxide, density. С уменьшением признака уменьшается оценка.

Слабая положительная корреляция между оценкой наблюдается у признаков sulphates и alchohol. С увеличением признака увеличивается оценка.

Слабая отрицательная корреляция между оценкой наблюдается у признака volatile acidity. С уменьшением признака уменьшается оценка.

Корреляция между оценкой близка нулю у признаков regular sugar, free sulfur dioxide, ph. Признаки независимы от оценки.

При проверке гипотезы о незначимости значения корреляции, несмотря на в целом низкие показатели корреляции, незначимыми оказались лишь 3 признака: residual sugar, free sulfur dioxide, ph.

Библиографический список:

1. P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.

2. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.

i Надоели баннеры? Вы всегда можете отключить рекламу.