ПРИБОРОСТРОЕНИЕ, МЕТРОЛОГИЯ И ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ И СИСТЕМЫ
УДК 004.67:519.237.5
В.В. Бондаренко, А. В. Левенец
ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИННОЙ ПРОДУКЦИИ ОТ ЕЕ ХИМИЧЕСКОГО СОСТАВА (ЧАСТЬ 1)
Бондаренко В. В. - аспирант каф. «Информационные системы, математика и правовая информатика», Приамурский государственный университет имени Шолом-Алейхема, тел.: 89990102097, e-mail: vecryd@gmail.com; Левенец А. В. - д-р техн. наук, проф. каф. «Автоматика и системотехника», Тихоокеанский государственный университет, тел.: 89141913339, e-mail: 000621@pnu.edu.ru.
В статье рассматривается возможность применения методов корреляционного анализа для оценки зависимости качества продукции от параметров технологического процесса на примере выявления зависимости качества винной продукции от его химического состава. В первой части статьи дан обзор основных методов, примененных в ходе исследования, и предлагается для решения задачи оценки качества анализировать результаты как классического корреляционного анализа, так и множественного, что позволит более точно выявить взаимное влияние различных параметров, а также их влияние на целевую функцию - качество продукции.
Ключевые слова: корреляция Пирсона, множественная корреляция, коэффициент корреляции, коэффициент детерминации, оценка качества
Введение
Как правило, любой достаточно сложный технологический процесс предполагает необходимость манипулирования большим количеством параметров, каждый из которых, в конечном счете, оказывает влияние на качество производимой продукции. Так, например, технология производства винной продукции включает в себя значительное количество составляющих, влияющих на итоговое качество продукции.
Изучением вопроса влияния физико-химических характеристик вина на его органолептическую оценку занимались российские исследователи, которые сумели установить взаимосвязь между дегустационной оценкой вин и содержанием в них летучих веществ, влияющих на вкус и аромат [1]. Иссле-
© Бондаренко В. В., Левенец А. В., 2022
ВЕСТНИК ТОГУ. 2022 № 1 (64)
ВЕСТНИК ТОГУ. 2022. № 1 (64)
дования выяснили, что от сорта винограда весьма существенно зависят итоговые вкусовые и ароматические характеристики вина [2, 3]. Благодаря применению статистических методов обработки данных становится возможным подбор подходящих сортов винограда для производства высококачественных вин [4]. Однако определение качества вина является нетривиальной задачей и заметное влияние могут оказывать субъективность чувственных оценок экспертов [5, 6]. Проводя анализ результатов экспертных оценок качества вина, необходимо учитывать множество факторов (изменчивость оцениваемых объектов, субъективность восприятия, разнообразие мнений экспертов), влияющих на надежность экспертизы, в чем могут помочь современные методы статистики для эффективной обработки данных [7, 8].
Можно утверждать, что наибольшее влияние на качество напитка оказывает химический состав вина, однако в связи с большим количеством параметров, которые необходимо принять во внимание, задача определения качества вина аналитическим методом становится практически нерешаемой. Тем не менее, собрав достаточное количество данных и проведя их статистическую обработку, появляется возможность определить какие именно химические компоненты и в какой степени оказывают влияние на качество продукта, что в свою очередь позволит целенаправленно корректировать технологический процесс для достижения желаемых характеристик. Следует при этом отметить, что современные компьютерные технологии позволяют эффективно обрабатывать большие объемы данных, однако сложность решения задачи выявления влияния параметров на целевую функцию (например, качество вина) геометрически увеличивается с увеличением числа параметров и требует значительной вычислительной мощности.
Одним из основных способов статистической обработки данных является классический корреляционный анализ, позволяющий оценить степень взаимосвязанности некоторых двух переменных. Кроме того, известны методы множественного корреляционного анализа, выявляющие связь между большим чем два числом переменных. Можно предположить, что, проведя анализ как попарных коэффициентов корреляции, так и коэффициента множественной корреляции, возможно получить оценку степени влияния технологических параметров как друг на друга, так и на качество продукта.
Основные теоретические положения
Перед проведением расчетов коэффициентов корреляции проводится оценка характеристик исследуемого набора данных. В первую очередь необходимо определить тип распределения, которому подчиняются независимые параметры, так как эта информация позволит выяснить насколько сильно в исследуемых данных представлена линейность.
Несмотря на то, что коэффициент корреляции не делает никаких предположений о лежащем в основе переменных распределении, так как корреляция оценивает степень и направление изменения одной числовой величины в зависимости от другой, статистики, предназначенные для оценки значимости
ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯ ЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИННОЙ ПРОДУКЦИИ ОТ ЕЕ ХИМИЧЕСКОГО СОСТАВА (ЧАСТЬ 1)
корреляции предполагают гауссово или же биномиальное распределение анализируемых величин.
Корректное проведение оценки значимости корреляции возможно также и в том случае, когда анализируемая величина имеет распределение, отличное от гауссова или биномиального, однако при этом увеличивается погрешность расчета тестовой статистики. Другими словами, тестовые статистики чувствительны к распределению анализируемых величин, однако эту ситуацию может исправить увеличение размера выборки. Например, в ряде исследований утверждается, что увеличение размера выборки ведет к уменьшению ошибки при расчете ^-значения даже в том случае, когда тип распределения достаточно заметно отличается от нормального или биномиального [9, 10]. Таким образом, при достаточно большом размере выборки можно в значительной степени нивелировать отличие распределения анализируемой величины от требуемой.
Следует отметить, что известная проблема «уменьшения ^-значения при увеличении размера выборки» не дает возможности при оценке значимости корреляции полагаться только на ^-значение. По этой причине многие исследователи предлагают, помимо ^-значения, использовать также тестовые статистики размера эффекта, которые являются нечувствительными к размеру выборки [11-13].
Существует достаточно много тестовых статистик размера эффекта, однако в рамках множественного корреляционного анализа логичным будет использование коэффициента детерминации, который является квадратом коэффициента множественной корреляции.
В данной работе для оценки распределений переменных строились гистограммы частот, и оценивались основные статистические параметры параметры распределения (среднее, медиана, мода, эксцесс и асимметрия). Для нормализации данных в рамках настоящего исследования применялся известный метод логарифмической трансформации данных [14], так как исследуемые наборы данных представлены положительными числами и в подавляющем случае имеют несимметричное распределение со скосом вправо, что является оптимальным случаем для такого преобразования.
Расчет множественного коэффициента корреляции разбивается на два следующих этапа:
1) расчет попарных коэффициентов корреляции,
2) расчет множественного коэффициента корреляции на основе таблицы попарных коэффициентов корреляции.
Для расчета коэффициента корреляции гху между некоторыми непрерывными величинами х и у часто применяют формулу Пирсона, которая записывается следующим образом:
ВЕСТНИК ТОГУ. 2022 № 1 (64)
ВЕСТНИК ТОГУ. 2022. № 1 (64)
где Х(, у; - значения переменных х и у; х,у - среднее выборки х и у.
Следует отметить, что параметр может быть не непрерывной, а дискретной величиной. Например, параметр «качество продукции» часто оценивают путем присвоения ему определения, взятого из некоторого фиксированного набора («плохо», «средне», «хорошо» и т.п.). Очевидно, что каждому из определений качества можно без потери общности поставить в однозначное соответствие некоторое число.
Для того, чтобы рассчитать коэффициент корреляции между некоторой дискретной величиной и остальными непрерывными величинами было предложено воспользоваться точечно-бисериальной корреляцией, которая является частным случаем классической корреляции Пирсона [15]. Так, корреляция такого типа сводится к корреляции Пирсона при анализе одной непрерывной величины и одной дихотомической дискретной величины.
Таким образом, итоговым результатом становится таблица, состоящая из вычисленных коэффициентов корреляции и которую можно использовать для расчета коэффициента множественной корреляции. В этом случае коэффициент множественной корреляции рассчитывается из коэффициента детерминации Я2, который определяется следующим образом:
"пт
где ||Я|| - определитель корреляционной матрицы, Япт - алгебраическое дополнение элемента гпт, п и т, соответственно, номера строки и столбца матрицы, на пересечении которых находится дискретная величина.
Отсюда коэффициент множественной корреляции можно определить по следующей формуле:
Я =
м
1 -
т
^птл
В том виде, в каком коэффициент детерминации был записан выше, он имеет существенный недостаток, состоящий в том, что значение данного коэффициента будет увеличиваться в случае добавления в модель новых анализируемых величин, даже если они никаким образом не связаны с исследуемой величиной. В силу этого на практике применяют скорректированный коэффициент детерминации, который определяется следующим образом:
Я2 =
1 - (1-Я2)
^ (* - 1)
(Ы-к)
< Я2
ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИННОЙ ПРОДУКЦИИ ОТ ЕЕ ХИМИЧЕСКОГО СОСТАВА (ЧАСТЬ 1)
ВЕСТНИК ТОГУ. 2022 № 1 (64)
где N - размер выборки, к = К - 1, К - количество независимых переменных.
Учитывая, что анализу будут подвергаться количественные данные, для оценки статистической значимости полученных оценок коэффициентов корреляции при проведении исследования применялась статистика «^-значение», которая показывает вероятность обнаружения значения более экстремального чем критическое значение критерия и не вписывающегося в вариацию нормального распределения, то есть сильно отличающегося от оцененной линии регрессии.
В предположении, что закон распределения исследуемых величин (либо после применения предварительной обработки, либо без нее) в достаточной хорошей степени соответствует нормальному распределению, для проведения проверки значимости попарных коэффициентов корреляции наиболее часто используют /-критерий Стьюдента. Так как исходные данные предполагается нормализировать, то применение этого критерия представляется в достаточной мере обоснованным.
Функция распределения Стьюдента позволяет рассчитать площадь под кривой на интервалах (-да, или (/, +да), величина которой является оценкой вероятности возникновения более экстремальных значений, чем /-значение, по левую или правую стороны графика, то есть ^-значением.
Функция распределения Стьюдента F(t), как известно, определяется через регуляризованную неполную бета-функцию 1^) следующим образом:
Г* 1
Р(!)= I /(и) ¿и = 1 - -1т(а, Ь)
■'-со 2
2
Регуляризованная неполная бета-функция определяется, как отношение неполной бета-функции к полной бета-функции:
В свою очередь, неполная бета-функция определяется через следующий интеграл:
Сх
В(х(Ь);а,Ь) = I 1а-1(1-Ь)ъ-1 М .
'о
Полная бета-функция является частным случаем неполной бета-функции при верхнем пределе интегрирования равному единице:
-1
В(а,Ь) = I Са-1(1-00-1 аь.
г,Ъ)= | 1а-1(1-1)ь-1 0
ВЕСТНИК ТОГУ. 2022. № 1 (64)
Параметры регуляризованной неполной бета-функции определяются следующим образом:
V vi
-, a = , b = —
t2 + v 2 2
где V - количество степеней свободы, ^ - экстремальное значение, вычисляемые как
р = Ы-2 ,
rVÑ—2
t =
Л
2
Для оценки значимости множественного коэффициента корреляции, как правило, используется критерий Фишера, статистика которого рассчитывается следующим образом:
= R2/(k-i) т (i-R2)/(N-k).
Для расчета ^-значения множественной корреляции необходимо взять функцию распределения Фишера, которая также выражается через регуляри-зованную неполную бета-функцию:
(d1 d2\
F(x(ty,dí,d2) = I алХ (-í,^) ■
агх+а2у 2 2 '
В определенном выше выражении d1, d2 - степени свободы, которые рассчитываются, как d1 = K, d2 = n - (K + 1).
Критическое значение, с которым будет сравниваться значение критерия Фишера, рассчитывается, как функция обратная функции распределения Фишера (квантильная функция):
IX(t)(a,b) = р ^ I^-í(a,b) = x(t) ■
Критическое значение распределения Фишера находится через кван-тильную функцию со следующими параметрами:
р = j-í (íí ^í) Fcrit h-a (2 ' 2 ) '
ПРИМЕНЕНИЕ МНОЖЕСТВЕННОГО КОРРЕЛЯ ЦИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ЗАВИСИМОСТИ КАЧЕСТВА ВИННОЙ ПРОДУКЦИИ ОТ ЕЕ ХИМИЧЕСКОГО СОСТАВА (ЧАСТЬ 1)
где а - принятый уровень значимости.
При проведении исследования уровень значимости произвольно выбирался равным 0,001. Очевидно, что уточнение этого значения, в частности оценка вероятностей ошибок первого и второго рода, возможно только в ходе расширенных исследований, подразумевающих получение дополнительных наборов данных, что для рассматриваемой области применения потребует дополнительного и, кроме того, весьма значительного времени.
Конечной операцией является проверка условия F > Fcrit. В том случае, если условие выполняется, то нулевая гипотеза отвергается и делается заключение, что соответствующий коэффициент множественной корреляции является статистически значимым, в противном случае полученное значение считается корректным [16].
Библиографические ссылки
1. Якуба Ю.Ф., Темердашев З.А., Халафян А.А. Органолептическая оценка качества виноградных вин с использованием методов статистического моделирования // Аналитика и контроль. 2014. № 4. С. 385-391.
2. The condensed tannin chemistry and astrigency properties of fifteen Vitis davidii Foex grapes and wines / Ju Y.-I., Yang L., Yue X.-f., He R., Deng S.-l, Yang X., Liu X., Fang Y.-l. // Food Chemistry: X. 2021.
3. Yin S., Zhu X., Karimi H.R. Quality Evaluation Based on Multivariate Statistical Methods // Mathematical Problems in Engineering. 2013.
4. Матвеева Н.В., Ерина Н.М. Зависимость физико-химических свойств виноматериалов и органолептической оценки вин из сорта Станичный // Русский виноград. 2019. С. 125-131.
5. Correlating Wine Quality Indicators to Chemical and Sensory Measurements / Hopfer H., Nelson J., Ebeler S.E., Heymann H. // Molecules. 2015. № 5. P. 8453-8483.
6. A study on wine sensory evaluation by the statistical analysis method / Hou G.-L., Ge B., Sun L.-L., Xing K.-X. // Czech Journal of Food Sciences. 2020. № 1. P. 1-10.
7. Компьютерный анализ экспертной оценки органолептического показателя качества вин / Халафян А.А., Темердашев З.А., Гугучкина Т.И., Якуба Ю.Ф. // Аналитика и контроль. 2017. № 2. С. 161-172.
8. Study of consistency of expert evaluations of wine sensory characteristics by positional analysis / Khalafyan A.A., Temerdashev Z.A., Akin'shina V.A., Ya-kuba Yu.F. // Heliyon. 2021. №2.
9. Lin M., Lucas H.C., Shmueli G. Too Big to Fail: Large Samples and the p-Value Problem // Information Systems Research. 2013. P. 1-12.
10. Thiese M.S., Ronna B., Ott U. P value interpretations and considerations // Journal of Thoracic Disease. 2016. № 9. P. 928-931.
ВЕСТНИК ТОГУ. 2022 № 1 (64)
ВЕСТНИК ТОГУ. 2022. № 1 (64)
11. Halsey L.G. The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? // Biology Letters. 2019. № 5.
12. Sullivan G.M., Feinn R. Using Effect Size - or Why the P Value Is Not Enough // Journal of Graduate Medical Education. 2012. № 3. P. 279-282.
13. Karpen S.C. P Value Problems // American Journal of Pharmaceutical Education. 2017. № 9.
14. Mukaka M.M. Statistics Corner: A guide to appropriate use of Correlation coefficient in medical research // Malawi Medical Journal. 2012. № 3. P. 69-71.
15. Point-biserial correlation coefficient // Wikipedia: энциклопедия. URL: https://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient (дата обращения: 31.10.2021).
16. Гмурман В.Е. Теория вероятностей и математическая статистика. М. : Высш. шк., 2002. 479 с.
Title: Application of Multiple Correlation Analysis to Estimate the Dependence of Wine Products Quality on Its Chemical Composition (Part 1)
Authors' affiliation:
Bondarenko V. V. - Sholom-Aleichem Priamursky State University, Birobidzhan, Russian Federation
Levenets A. V. - Pacific National University, Khabarovsk, Russian Federation
Abstract: The authors of the article consider the possibility of applying the methods of correlation analysis to assess the dependence of product quality on the parameters of the technological process on the example of revealing the dependence of the quality of wine products on its chemical composition. The first part of the article gives an overview of the main methods used in the study, and it is proposed to analyze the results of both classical correlation analysis and multiple analysis to solve the problem of quality assessment, which will more accurately identify the mutual influence of various parameters, as well as their impact on the target function - product quality.
Keywords: Pearson's correlation, multiple correlation, correlation coefficient, determination coefficient, quality estimation.