Научная статья на тему 'ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНА-ЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИНА ОТ ЕГО ХИ-МИЧЕСКОГО СОСТАВА (ЧАСТЬ 2)'

ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНА-ЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИНА ОТ ЕГО ХИ-МИЧЕСКОГО СОСТАВА (ЧАСТЬ 2) Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
корреляция Пирсона / множественная корреляция / коэффициент корреляции / коэффициент детерминации / оценка качества / Pearson’s correlation / multiple correlation / correlation coefficient / determination coefficient / quality estimation

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Бондаренко В. В., Левенец А. В.

Во второй части статьи приведены результаты исследования, полученные на примере набора данных по красным винам одного из районов Португалии. Выявлен ряд зависимостей между некоторыми рассмотренными параметрами и качеством вина. Показано, что рассмотренные параметры не объясняют всех изменений параметра «Качество», что предполагает необходимость расширения анализируемого набора данных дополнительными пара-метрами. Предлагается дальнейшее направление развития исследования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Бондаренко В. В., Левенец А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Application of Multiple Correlation Analysis to Estimate the Dependence of the Wine Quality on Its Chemical Composition (Part 2)

The second part of the article presents the results of the study obtained by the example of data set on red wines from one of the districts of Portugal. A number of correlations between some of the considered parameters and the quality of wine have been identified. It is shown that the considered parameters do not explain all the changes in the "Quality" parameter, which implies the need to expand the analyzed data set with additional parameters. The further direction of the research development is proposed.

Текст научной работы на тему «ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНА-ЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИНА ОТ ЕГО ХИ-МИЧЕСКОГО СОСТАВА (ЧАСТЬ 2)»

ПРИБОРОСТРОЕНИЕ, МЕТРОЛОГИЯ И ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ И СИСТЕМЫ

УДК 004.6:663.2(469)

В. В. Бондаренко, А. В. Левенец

ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИНА ОТ ЕГО ХИМИЧЕСКОГО СОСТАВА (ЧАСТЬ 2)

Бондаренко В. В. - аспирант каф. «Информационные системы, математика и правовая информатика», Приамурский государственный университет имени Шолом-Алейхема, тел.: 89990102097, e-mail: vecryd@gmail.com;

Левенец А. В. - д-р техн. наук, проф. каф. «Автоматика и системотехника», Тихоокеанский государственный университет, тел.: 89141913339, e-mail: 000621@pnu.edu.ru.

Во второй части статьи приведены результаты исследования, полученные на примере набора данных по красным винам одного из районов Португалии. Выявлен ряд зависимостей между некоторыми рассмотренными параметрами и качеством вина. Показано, что рассмотренные параметры не объясняют всех изменений параметра «Качество», что предполагает необходимость расширения анализируемого набора данных дополнительными параметрами. Предлагается дальнейшее направление развития исследования.

Ключевые слова: корреляция Пирсона, множественная корреляция, коэффициент корреляции, коэффициент детерминации, оценка качества

Введение

Описанные в первой части статьи методы были применены для анализа набора данных о зависимости качества вина от его химических свойств. Данный набор представляет собой выборку данных по красным винам Vinho Verde, произведенным на северо-западе Португалии в регионе Minho за период с мая 2004 по февраль 2007. Данные были собраны португальским исследователем Paulo Cortez и его коллегами при проведении собственного исследования по моделированию вкусовых предпочтений в вине в зависимости от его химических свойств [1]. В последствии набор данных был открыт для свободного доступа и выложен на сайте UCI Machine Learning Repository [2].

В наборе данных представлено 1599 записей по красным винам. Данные по химическим свойствам вин были собраны в лаборатории на этапе прохождения сертификации вина, то есть эти данные отражают информацию по уже

© Бондаренко В. В., Левенец А. В., 2022

ВЕСТНИК ТОГУ. 2022 № 3 (66)

ВЕСТНИК ТОГУ. 2022. № 3 (66)

готовой продукции, проходящей последний обязательный этап сертификации перед выводом на рынок.

Каждая запись в наборе данных состоит из совокупности значений двенадцати следующих параметров:

- фиксированная кислотность (ФК) - концентрация различных кислот, находящихся в естественных условиях в вине (преимущественно винная, яблочная и лимонная кислоты). Фиксированные кислоты играют важную роль в производстве вина - улучшают его вкусовые качества, работают, как консерванты, сохраняют насыщенный цвет напитка.

- летучая кислотность (ЛК) - концентрация уксусной кислоты, которая образуется в вине в процессе брожения и негативно сказывается на его вкусовых качествах, добавляя вкус уксуса.

- концентрация лимонной кислоты (КЛК), которая придает вину приятный, освежающий вкус. Несмотря на ее естественное происхождение, иногда лимонную кислоту добавляют после процесса ферментации.

- остаточный сахар (ОС) - концентрация сахара, оставшегося в напитке после процесса ферментации.

- концентрация различных солей (КС). Избыточное количество солей негативно отражается на вкусе вина, делая его соленым, мыльным.

- свободный диоксид серы (СДС) - концентрация диоксида серы, находящегося в вине в несвязанном состоянии. Свободный диоксид серы обладает антиоксидантными и консервирующими свойствами, что помогает сохранять вкус и аромат вина, а также предотвращать размножение нежелательных микроорганизмов;

- общий диоксид серы (ОДС) - концентрация всего диоксида серы, находящегося как в связанном, так и в несвязанном состоянии;

- плотность (Пл);

- водородный показатель (рН) - уровень кислотности напитка, измеряемый, как величина противоположная по знаку и равная по модулю десятичному логарифму активности водородных ионов.

- концентрация сульфатов КСф), в основном, сульфата калия.

- крепость напитка (КН) - отношение объема чистого этилового спирта к объему всего напитка.

- качество (Кч) - оценка, выставляемая по шкале от 0 (очень плохо) до 10 (отлично). В данном случае оценка производилась трема экспертами в слепых тестах, а в качестве конечной оценки использовалось медианное значение.

Исходные данные в общем случае имеют распределение отличное от гауссова, поэтому они подвергались процедуре нормализации на основе метода логарифмической трансформации. Следует отметить, что кроме дискретного параметра «Качество», остальные параметры являются непрерывными величинами. Для упрощения процедуры вычисления коэффициента корреляции между параметром Кч и остальными непрерывными величинами применялась точечно-бисериальная корреляция, которая является частным случаем корреляции Пирсона [17]. Точечно-бисериальная корреляция сводится к корреляции

ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИНА ОТ ЕГО ХИМИЧЕСКОГО СОСТАВА (ЧАСТЬ 2)

ВЕСТНИК ТОГУ. 2022 № 3 (66)

Пирсона при наличии одной непрерывной величины и одной дихотомической дискретной величины.

Таким образом, параметр «Качество» подвергался искусственной дихото-мизации, в процессе которой исходные значения параметра в диапазоне от 0 до 10 разбивались этот интервал на две равные части, при этом если значение параметра не превышала пяти, то значение дихотомизированого параметра приравнивалось к нулю, а в противном случае - к единице.

Результаты и обсуждение

Вычисленные значения попарных коэффициентов корреляции между рассматриваемыми параметрами приведены в табл. 1. Значение коэффициента множественной корреляции Я равно 0,553.

В настоящее время существуют различные варианты интерпретации значения коэффициента корреляции, причем некоторые из них в различных областях применения являются вполне устоявшимися [3]. Обычно выбор способа интерпретации значения коэффициента корреляции обусловлен контекстом проводимого исследования [4], т.к. обнаружение даже слабой взаимосвязи между рассматриваемыми параметрами может нести существенно важную информацию. Например, значение коэффициента корреляции между параметрами Кч и ЛК равно -0,33 и означает улучшение качества продукта на 33% относительно снижения содержания уксусной кислоты, что можно использовать в рамках комплексной задачи повышения качества вина.

В рамках проведенного расследования использовался следующий вариант интерпретации значений коэффициента корреляции. При попадании значения модуля вычисленного коэффициента корреляции в диапазон 0...0,1 корреляция считалась несущественной, в диапазон 0,1.0,3 - слабой, в диапазон 0,3.0,6 - умеренной, в диапазон 0,6.0,8 - сильной, а в остальных случаях -очень сильной.

Таблица 1

Значения попарных коэффициентов корреляции между переменными

ФК ЛК КЛК ОС КС СДС ОДС Пл рН КСф КН Кч

ФК 1,00 -0,26 0,66 0,21 0,26 -0,17 -0,11 0,67 -0,72 0,19 -0,13 0,08

ЛК -0,26 1,00 -0,57 0,05 0,15 0,02 0,09 0,04 0,23 -0,32 -0,22 -0,33

КЛК 0,66 -0,57 1,00 0,18 0,15 -0,09 0,00 0,36 -0,54 0,33 0,11 0,16

ОС 0,21 0,05 0,18 1,00 0,19 0,08 0,15 0,44 -0,08 0,05 0,09 0,00

КС 0,26 0,15 0,15 0,19 1,00 -0,01 0,08 0,43 -0,27 0,13 -0,34 -0,17

СДС -0,17 0,02 -0,09 0,08 -0,01 1,00 0,78 -0,04 0,09 0,05 -0,08 -0,06

ОДС -0,11 0,09 0,00 0,15 0,08 0,78 1,00 0,10 -0,02 0,03 -0,23 -0,20

Пл 0,67 0,04 0,36 0,44 0,43 -0,04 0,10 1,00 -0,34 0,18 -0,50 -0,16

рН -0,72 0,23 -0,54 -0,08 -0,27 0,09 -0,02 -0,34 1,00 -0,11 0,21 0,00

КСф 0,19 -0,32 0,33 0,05 0,13 0,05 0,03 0,18 -0,11 1,00 0,17 0,31

КН -0,13 -0,22 0,11 0,09 -0,34 -0,08 -0,23 -0,50 0,21 0,17 1,00 0,43

Кч 0,08 -0,33 0,16 0,00 -0,17 -0,06 -0,20 -0,16 0,00 0,31 0,43 1,00

ВЕСТНИК ТОГУ. 2022. № 3 (66)

Значения коэффициентов корреляции, соответствующие несущественной и слабой корреляции, не рассматривались. Таким образом в табл. 1 выделены коэффициенты корреляции со значением более 0,3, определяющие заметную взаимосвязь между параметрами.

Следует учитывать, что наличие взаимосвязи между переменными не несет информации о причинно-следственных связях такой взаимосвязи, поэтому после расчета коэффициентов корреляции требуется дополнительное аналитическое исследование полученных результатов [3-6]. Для оценки статистической значимости полученных коэффициентов корреляции проводилась проверка следующих гипотез. В качестве нулевой гипотезы Но: Я = 0 принималось предположение, что взаимосвязи между качеством вина и его химическим составом отсутствует, при этом альтернативная гипотеза Н1: Я Ф 0 предполагает, что некая взаимосвязь существует. Уровень значимости а, при котором будет отвергаться нулевая гипотеза, был произвольно выбран равным 0,001.

Вычисленные значения статистической значимости (р-значения) попарных коэффициентов корреляции приведены в табл. 2. В силу того, что р-значения могут быть весьма небольшими числами, для упрощения восприятия полученных результатов в таблицу вместо числовых значений вносилось слово «да» в случае, если р-значение меньше принятого уровня значимости, и слово «нет» в противном случае.

Для рассмотренного набора данных значения тестовых статистик коэффициента множественной корреляции принимали следующие значения: коэффициент детерминации - 0,306, скорректированный коэффициент детерминации - 0,301, ^-значение - 62,117, критическое ^-значение - 2,862, а р-значение множественного коэффициента корреляции равно 1,11 • 10-16.

Таблица 2

Оценка статистической значимости попарных коэффициентов корреляции_

ФК |ЛК |КЛК |ОС |КС |СДС |ОДС |Пл |рН |КСф |КН |Кч

ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯ ЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИ МОСТИ КАЧЕСТВА ВИНА ОТ ЕГО ХИМИЧЕ СКОГО СОСТАВА (ЧАСТЬ 2)

Таким образом, выбранные в табл. 1 существенные попарные коэффициенты корреляции, а также коэффициент множественной корреляции являются статистически значимыми, т.к. их значения значительно отличаются от нуля, то есть принимается альтернативная гипотеза. Кроме того, вычисленное значение больше критического, что также подтверждает предположение о статистической значимости коэффициента множественной корреляции и верность принятия альтернативной гипотезы. Следует отметить, что из-за большого размера выборки р-значения приобретают весьма малые значения, что затрудняет адекватный выбор необходимого уровня значимости [7]. Коэффициент множественной корреляции, рассчитанный для полной выборки, показывает наличие взаимосвязи между параметром «Качество» и параметрами, характеризующими химический состав продукта.

Значение коэффициента множественной корреляции Я ~ 0,55 говорит о том, что качество вина улучшается на 55% относительно одновременного повышения значений всех независимых переменных.

Значение скорректированного коэффициента детерминации показывает, что около 30% вариативности параметра «Качество» связывается с рассматриваемыми параметрами, то есть должны существовать и другие факторы, определяющие качество, которые не были учтены в настоящем исследовании.

Анализ полученных данных позволяет сделать следующие выводы. Во-первых, значительное влияние на качество вина оказывает содержание алкоголя. Во-вторых, на качество вина оказывает положительное влияние содержание в нем сульфитов, которые играют роль консервантов, обеспечивая лучшую сохранность продукта. В-третьих, увеличение концентрации солей способствуют уменьшению крепости напитка. В-четвертых, повышение содержания уксусной кислоты негативно сказывается на качестве вина, так как она придает неприятный «уксусный» привкус. В-пятых, несмотря на то, что содержание лимонной кислоты напрямую не коррелирует с качеством вина, повышение содержания лимонной кислоты ассоциировано с повышением содержанием сульфитов и понижением содержания уксусной кислоты, что в итоге ведет к улучшению качества вина.

Полученные данные позволяют сделать и ряд других выводов, однако большинство из них не представляет интереса в силу своей тривиальности. Так, например, при повышении содержания лимонной кислоты понижается водородный показатель рН, что говорит о смещении в более кислую среду.

Выводы

Таким образом, около 70% вариаций параметра «Качество» не связаны с изменением рассмотренных параметров, т.к. в исследуемый набор данных не входят ряд других важных параметров, что можно объяснить желанием сохранить конфиденциальную информацию о нюансах производства. Одним из таких параметров, рассмотрение которого было бы особенно интересным, это сорт винограда, что позволило бы выявить наилучшие сорта для производства вина с желаемыми вкусовыми характеристиками.

ВЕСТНИК ТОГУ. 2022 № 3 (66)

ВЕСТНИК ТОГУ. 2022. № 3 (66)

Тем не менее, были выявлены определенные взаимосвязи между рассмотренными параметрами и качеством вина. В дальнейшем предполагается рассмотреть набор данных с больших количеством переменных, включая сорт винограда, исследовать как красные, так и белые вина, а также провести корреляционный анализ не дихотомизируя переменную «качество».

Библиографические ссылки

1. Modeling wine preferences by data mining from physicochemical properties / Cortez P., CerdeiraA., AlmeidaF., Matos T., Reis J. // Decision Support Systems. 2009. № 4. P. 547-553.

2. Wine Quality Data Set // UCI Machine Learning Repository URL: https://ar-chive.ics.uci.edu/ml/datasets/wine+quality (дата обращения: 31.10.2021).

3. Akoglu H. User's guide to correlation coefficients // Turkish Journal of Emergency Medicine. 2018. № 18. P. 91-93.

4. Schober P., Boer C., Schwarte L. Correlation Coefficients: Appropriate Use and Interpretation // Anesthesia & Analgesia. 2018. № 5. P. 1763-1768.

5. Everything you need to know about interpreting correlations // towards data science. URL: https://towardsdatascience.com/eveything-you-need-to-know-about-interpreting-correlations-2c485841c0b8 (дата обращения: 30.10.2021).

6. Correlation analysis and causal analysis in the era of big data / GejingtingX., Ruiqiong J., Wei W., Libao J., Zhenjun Y. // IOP Conference Series: Materials Science and Engineering. 2019. № 4.

7. Kim J.H. How to Choose the Level of Significance: A Pedagogical Note // Munich Personal RePEc Archive. 2015. № 9.

Title: Application of Multiple Correlation Analysis to Estimate the Dependence of the Wine Quality on Its Chemical Composition (Part 2)

Authors' affiliation:

Bondarenko V.V. - Sholom-Aleichem Priamursky State University, Birobidzhan, Russian Federation

Levenets A.V. - Pacific National University, Khabarovsk, Russian Federation

Abstract: The second part of the article presents the results of the study obtained by the example of data set on red wines from one of the districts of Portugal. A number of correlations between some of the considered parameters and the quality of wine have been identified. It is shown that the considered parameters do not explain all the changes in the "Quality" parameter, which implies the need to expand the analyzed data set with additional parameters. The further direction of the research development is proposed.

Keywords: Pearson's correlation, multiple correlation, correlation coefficient, determination coefficient, quality estimation

i Надоели баннеры? Вы всегда можете отключить рекламу.