УДК519.237.5
Антонов Владимир Александрович
доктор технических наук, главный научный сотрудник, Институт горного дела УрО РАН, 620219, г. Екатеринбург, ул. Мамина-Сибиряка, 58 e-mail: Antomv@,igduran. ru
Antonov Vladimir A.
doctor of technical sciences, chief researcher,
The Institute of Mining UB RAS, 620219, Yekaterinburg, Mamin-Sibiryak st., 58 e-mail: Antonov@igduran.ru
THE RELIABILITY OF REGRESSION MODELS IN MINING AND TECHNOLOGICAL RESEARCHES
ДОСТОВЕРНОСТЬ РЕГРЕССИОННЫХ МОДЕЛЕЙ В ГОРНОТЕХНОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ*
Аннотация:
Изложены методические приемы в оценках достоверности регрессионной модели горнотехнологических объектов и процессов с учетом однократных и многократных измерений, разделяющихся условно по предложенному критерию. Реализация эффекта многократности измерений, как показано на приведенном примере, позволяет повысить достоверность выявления искомой закономерности.
Ключевые слова: экспериментальные измерения, закономерность, случайные отклонения, модель регрессии, коэффициент детерминации
Abstract:
Methodical techniques in the regression model estimates of the reliability of mining and technological facilities and processes are stated including single and multiple dimensions, that are conditionally separated according to the proposed criterion. The realization of measurements multiple effect as shown in the cited example, can improve the relia-bilityy of detection the desired regularity.
Key words: experimental measurements, regularity, random deviations, regression model, the coefficient of determination
Введение. Экспериментальные исследования в горном деле проводят на основе измерений физических величин, характеризующих состояние горнотехнологических объектов и процессов. Поиск закономерности в изменении некоторой величины Y , зависящей от величин X, где] = 1, 2, 3 ..., проводят путем их совместных измерений с последующим построением по ряду полученных узловых /-точек (Х^, Yi,) уравнения регрессии. Условно представим, что результат каждого измерения величины Yi состоит из компонент значимой для достижения цели исследования (закономерной) и незначимой (случайного отклонения). Здесь принимается, что основной целью исследования является построение модели регрессионной зависимости Y(X), представляющей со случайным допустимым отклонением, т.е. погрешностью, значимую закономерность как основную взаимосвязь исследуемого природного явления, повторяющуюся в независимых экспериментах. Достоверность построенной модели проверяется ее адекватностью, т.е. соответствием отображения закономерной и случайной составляющей. Оценки проводятся по методике, описанной в работах [1, 2]. По случайным отклонениям, объясняемым несовершенством (погрешностью) средств измерений зависимой величины и влиянием неучтенных в модели незначимых факторов эксперимента, оценивается интервал адекватного коэффициента ее детерминации.
Часто случайные отклонения зависимой величины в узловых точках априори неизвестны. Тогда они могут определяться по результатам многократных измерений. По рекомендации межгосударственной стандартизации (РМГ 29-99) многократными считаются повторные измерения зависимой величины одного размера, т.е. с одинаковыми аргументами. Однако во многих экспериментах значения аргументов в узловых точках изменяются с малым или большим сдвигом, что приводит к изменению размера зависимой
* Работа выполнена в рамках конкурсного проекта УрО РАН 12-П-5-1028 «Прогноз технологического развития в горнодобывающих отраслях на основе энергосбережения и модернизации геотехники и технологии горного производства».
величины. В таких условиях разделение узловых точек с однократными и многократными измерениями по признаку их повторяемости остается неопределенным. Отмеченное затруднение в разграничении кратности измерений зависимой величины приводит к невозможности оценить и снизить случайные отклонения и тем самым установить требования к достоверности модели регрессии по упомянутому признаку ее адекватности.
В данной работе рассмотрены методические приемы, направленные на решение поставленной проблемы. По ним условно выделяются и учитываются при построении регрессии экспериментальные узловые точки с многократными измерениями зависимой величины.
Оценка случайных отклонений. Регрессия проводится наиболее достоверно при наличии однородности исходной информации, заданной в узловых точках. Под однородностью понимается равное влияние на регрессию всех узловых точек и одинаковые свойства рассеяния измеренных в них значений зависимой величины. При этом каждая узловая точка оказывает существенное влияние лишь на участок регрессии, расположенный в окрестности ее аргументов. Такую окрестность назовем осевым интервалом влияния узловой точки. Очевидно, что чем больше имеется узловых точек, тем меньше на оси аргумента размер АХ,- обозначенного интервала. Выразим его следующим соотношением:
X -X
АХ. =■
■ а
п -1
где Х'1, Х,п - наименьшее и наибольшее значение --аргумента, соответственно, в первой и последней узловой точке; п - количество узловых точек. При равномерном распределении узловых точек расстояние по оси '-аргумента между соседними точками равно АХ/.
Часто в экспериментах однородность информации не выдерживается, т.е. узловые точки распределены по осям аргументов неравномерно. Расстояние по оси '-аргумента между соседними точками существенно меньше или больше АХ,. По этому признаку введем следующие допущения в различии узловых точек с однократными и многократными измерениями. Если расстояние по оси хотя бы одного '-аргумента между узловой точкой и смежной с ней соседней точкой равно или больше его АХ/, то измерение зависимой величины в узловой точке считаем однократным. Если расстояние по оси каждого '-аргумента между смежными соседними узловыми точками меньше соответствующего АХ, то их количество с таким признаком образует группу узловых точек, в которых измерение зависимой величины принимаем многократным. При этом допускаем, что на малом интервале изменения аргументов групповых точек рельеф соответствующего участка регрессии существенно не изменится.
Положим, что экспериментальные измерения во всех узловых точках проводятся одним средством (прибором, методикой). Отклонения значений зависимой величины, связанные с погрешностью средств измерений и влиянием случайных неучтенных факторов эксперимента, распределены во всех узловых точках одинаково нормально и го-москедастично. Это означает, что случайные отклонения зависимой величины в однократных и многократных измерениях являются частными реализациями некоторой генеральной совокупности и отличаются лишь количеством точек в выборках. Выделим группы узловых точек с многократными измерениями и рассчитаем экспериментальное среднеквадратичное отклонение аэ зависимой величины в точке как взвешенное внутри-групповое (остаточное) по их совокупности. Расчет проводится по формуле:
аэ =
с п \
1 к X с* - ^ )2
г—1
к Щ - 1
X п V—1
V—1
(1)
где Пу -количество узловых точек в у-группе многократных измерений; к - количество групп с многократными измерениями; Уу/ - значение зависимой величины в узловой /-точке, принадлежащей у-группе; Уу - среднее значение зависимой величины в узловых точках у-группы. Полученное значение аэ характеризует рассеяние однократного измерения и, согласно принятым допускам по гомоскедастичности, распространяется на все узловые /-точки.
Отметим два случая. Экспериментальная погрешность аэ соизмерима с погрешностью средств измерений ап ( аэ «СТп). Это означает, что влияние на измерение каких-либо случайных незначимых факторов эксперимента отсутствует. Возможно, что экспериментальная погрешность аэ существенно больше погрешности средств измерений ап ( аэ >>ап). Тогда очевидно, что случайные незначимые факторы эксперимента оказывают влияние на результаты измерений.
Оценим погрешность экспериментальных измерений с учетом их многократности. Узловые точки, содержащиеся в каждой у-группе, усредним. Таким образом, получим q узловых точек с координатами X ¡ус и Уус.
" "V
"у V1 V
2 Х2 "
у _ _£=—_, V = 1=1 .
Л Т*с = чс
7 "уч "V
Известно, что для выборок, извлеченных с возвращением из нормально распределенной генеральной совокупности, распределение средних значений также является нормальным. С учетом этого определим среднеквадратичное отклонение зависимой величины в у-узловой точке усреднением по их совокупности следующим образом:
ас =
11
4=2 о_ 2
(2)
1 п
— Х^ Оэ
2 ¿1 "V
Оценка адекватности регрессии. Достоверность построенных моделей регрессии проверяется по критерию их адекватности случайному среднеквадратичному отклонению зависимой величины, зафиксированной в узловых точках. Для этого рассчитывается интервал допустимых значений адекватного коэффициента детерминации Я2 моделей. В этом интервале они отделяют в зависимой величине с принятой вероятностью Р закономерную компоненту от случайной. Нижнее Я2н и верхнее Я2в значение адекватного коэффициента детерминации определяется по следующим формулам:
„ 2 2 9 / • О , / • О
^ = 1 и Я = 1 , (3)
Ха 1,/Бу Ха 2—,/Бу
где а - среднеквадратичное случайное отклонение зависимой величины в узловых точ-
У=к
ках; - число степеней свободы в расчете экспериментального среднеквад-
ратичного отклонения аэ; Х2а1,/ и Х2а2, / - процентные точки распределения Пирсона на соответствующих уровнях значимости ш и а,2 ( а— = (1 + , а2 =(1 - ); Ву - дисперсия зависимой величины У в узловых точках. В расчетах (3), проводимых по п узловым точкам с однократными измерениями, или по q усредненным узловым точкам многократных измерений, применяются, соответственно, равенства а=аэ, Ву = Вуп или а=ас, Ву = Вyq. В обеих оценках дисперсия закономерной компоненты зависимой величины одинакова. Выразим данное положение следующим равенством:
Б - о2 = Б - О2 .
у" э уд С
Преобразуем его в соотношение
°уЧ = °уп (4)
Б а2
У" 1__
БУЧ
После усреднения многократных измерений дисперсия значений зависимой величины, заданных в узловых точках, уменьшается, т. е. Б < Б . С учетом этого, а также
2 2
при условиях аэ < Буп и ас < Буч, из (4) получим неравенство
2 2
ас аэ - <-
Буч бу" ,
означающее, что при учете эффекта многократности измерений зависимой величины в формулах (3) значения адекватного коэффициента детерминации Я2н и Я2в увеличиваются.
После построения и оптимизации регрессионной модели она подвергается испытаниям на достоверность. Адекватной признается модель, коэффициент детерминации которой Я2 удовлетворяет неравенству Я2н <Я2 < Я2в. Если этому неравенству удовлетворяет несколько моделей, то выбирается как наиболее достоверная та из них, коэффициент детерминации которой ближе к середине интервала адекватности. Возможно, что коэффициент детерминации модели окажется меньше нижнего значения интервала адекватности (Я2 < Я2н). Это означает, что отображение искомой закономерности зависимой величины в модели недостаточное и ее следует дополнить с учетом влияния на закономерность ранее упущенных факторов. Если коэффициент детерминации оказался больше верхнего значения интервала адекватности (Я2 > Я2в), то модель содержит избыточную детальную структуру, которая отображает лишь частную реализацию случайных отклонений зависимой величины в данном эксперименте. В повторном эксперименте случайные отклонения зависимой величины в узловых точках перераспределятся с другой реализацией, и, соответственно, изменится избыточная модель уравнения регрессии. Это мешает выявлению искомой закономерности. Следовательно, модель следует упростить, исключив функцию отображения частной реализации случайных факторов.
Результат моделирования регрессионной закономерности представляют ее уравнением Ур(Х]), ограниченным доверительными интервалами. При наличии лишь однократных измерений в узловых точках по значениям в них зависимой величины и уравнению рассчитывается среднеквадратичное отклонение регрессии аэр:
Е ъ - V2
аэр =
'2
1 Р'
1=1_
" - т-1
где т - количество коэффициентов в ее уравнении. Результат регрессии с доверительной вероятностью 0,68 представляют в виде Ур(Х]) ± аэр. При учете эффекта многократности измерений и соответствующем усреднении узловых точек рассчитывается уменьшенное ее среднеквадратичное отклонение ^р:
ч
- \ 2
аср =
Е ъ - ър)2
Ч - т-1
Регрессия с учетом погрешности представляется также с доверительной вероятностью 0,68 соотношением Ур(Х]) ± аср.
Пример построения регрессии. В исследованиях запыленности воздуха в горной выработке проведена серия измерений поглощенной энергии электромагнитного излучения Е, прошедшего через пробу воздушно-пылевой смеси с разным размером частиц ё. Результаты совместных измерений величин Е и ё в виде узловых точек показаны на рис. 1. Полагая, что поглощение электромагнитной энергии зависит от размера пылевых частиц, установим по данным экспериментальных измерений математический вид модели соответствующей регрессионной закономерности Е(ё).
Погрешность измерения поглощенной энергии электромагнитного излучения, в связи с косвенным методом ее оценки, априори неизвестна. Однако на конечный результат измерений оказывают влияние случайные экспериментальные факторы, связанные с отклонениями состава воздушно-пылевой смеси и колебаниями ее плотности. Определим погрешность по данным эксперимента, принимая во внимание, что координаты узловых точек на оси аргумента ё распределены неравномерно. Рассчитаем осевой интервал влияния узловой точки АХ = 9,43-10-7 м.
500
400
300
200
100
Е, мкДж
/♦ ♦ I ♦
♦
♦
\ ♦/' ♦
ч» ч
0 АХ
50
100
150
200
250
300
± 10-7
м
350
400
Рис. 1 - Распределение экспериментальных узловых точек с однократными и многократными (в пунктирном овале) измерениями величины Е
0
0
С учетом его значения на рис. 1 пунктирными овалами выделены группы узловых точек с многократными измерениями. Далее по формуле (1) рассчитано экспериментальное среднеквадратичное отклонение аэ=33,25 мкДж в единичном измерении величины Е в каждой узловой точке. Данное отклонение аэ обозначено на рис. 2 в виде их вертикальных ограничений.
С учетом отклонения аэ оценен по формуле (3) с вероятностью Р=0,95 допустимый интервал адекватного коэффициента детерминации Я2 искомой регрессии в размере от 0,6321 до 0,8521. Соответствующая ее модель построена в виде нелинейного функционально-факторного уравнения, выражающего правостороннее асимметричное распределение. После оптимизации модели методами наименьших квадратов (МНК) и приближений параболической вершины (МППВ) получено ее выражение в следующем конкретном виде:
Е1 = 0,22498(й -1,015135"^ ) 2,0797011+ 243,82. (5)
400 -
300 -
200
100 -
Е, мкДж
Я2=0,8141
± 10"'
м
50
100
150
200
250
300
350
400
Рис. 2 - Случайные среднеквадратичные отклонения Оэ величины Е в узловых точках и график ее регрессии Е1
График регрессии показан на рис. 2. Коэффициент ее детерминации Я2=0,8141 и среднеквадратичное отклонение от узловых точек Оэр=31,95 мкДж соответствует заданному условию адекватности и погрешности аэ измерений энергии Е. Это означает, что модель Е1, отсекая или дополняя с вероятностью 0,95 случайные отклонения в значениях энергии Е, заданных в узловых точках с однократным измерением, выявляет в них, а также в интервалах интерполяции, закономерную составляющую (5) поглощенной энергии электромагнитного излучения с коэффициентом детерминации 0,8141. Доверительный интервал модели с вероятностью 0,68 выражается соотношением Е1(^± 31,95 мкДж.
Повысим достоверность регрессионной модели, используя эффект многократности измерений в узловых точках. После групповых усреднений их координат количество точек уменьшилось. Среднеквадратичное отклонение измеряемой энергии в точке, рассчитанное по формуле (2), составляет значение Ос=24,64 мкДж. Расположение узловых точек после усреднения и интервалы их вертикальных отклонений Ос показаны на рис. 3. По формулам (3) оценен с вероятностью Р=0,95 допустимый интервал адекватного коэффициента детерминации Я2 регрессии в размере от 0,7527 до 0,9318. Ее модель так же, как в предыдущем случае, представлена нелинейным функционально"факторным уравнением с правосторонней асимметрией. После оптимизации модели методами МНК и МППВ получено аналогичное уравнение
Е2 = 0,111491^-1,014545"^ ) 2,271147+ 243,148 (6)
с коэффициентом детерминации Я2=0,9253, соответствующим условию его адекватности.
График регрессии показан на рис. 3. Ее среднеквадратичное отклонение от узловых точек снижено и составляет Оср=21,89 мкДж, что также соответствует упомянутому значению ос. Коэффициенты уравнения (6) мало отличаются от коэффициентов уравнения (5). Уравнения (5) и (6) построены по результатам одного эксперимента, выражают закономерность одного и того же явления. Их графики на рис. 2 и 3 практически одинаковы. Уменьшение головного коэффициента в функциональном слагаемом уравнения (6) компенсируется повышением показателя степени 2,271 вместо 2,0797 так, что их результирующее действие существенно не отличается.
0
0
500 п
400 -
300 -
200 -
100 -
Е, мкДж
Я2=0,9253
1-*
I
10-7
м
0
50
100
150
200
250
300
350
400
Рис. 3 - Случайные среднеквадратичные отклонения Ос величины Е в узловых точках, усредненных по многократным измерениям,
и график ее регрессии Е2
Заключение. Предложенные приемы выделения и учета многократных экспериментальных измерений, как показано на практическом примере, дают возможность оценить адекватность и повысить достоверность регрессионных моделей, отображающих геологические и технологические закономерности в изменении зависимой величины. Практическое применение данной методики приведет к повышению эффективности регрессионного анализа в интерпретации количественных результатов экспериментальных исследований в горном деле и других областях научного знания.
0
Литература
1. Антонов В. А. Отображение горно-технологических закономерностей функционально факторными уравнениями нелинейной регрессии. / В. А. Антонов, М. В. Яковлев // Горный информационно-аналитический бюллетень. - Проблемы недропользования. -2011. - С. 571 - 588.
2. Антонов В. А. О достоверности функционально-факторных уравнений регрессии с самоопределяющимися параметрами / В. А. Антонов // Глубинное строение, геодинамика, тепловое поле Земли, интерпретация геофизических полей: шестые научные чтения памяти Ю. П. Булашевича, 12 - 17 сентября: материалы конф. / УрО РАН, Ин-т геофизики. - Екатеринбург: Ин-т геофизики УрО РАН, 2011. - С. 17 - 20.