Научная статья на тему 'Эффективный метод ранжирования независимых переменных и отбрасывания несущественных параметров при многофактторном статистическом анализе'

Эффективный метод ранжирования независимых переменных и отбрасывания несущественных параметров при многофактторном статистическом анализе Текст научной статьи по специальности «Математика»

CC BY
58
8
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Поляков Б.Н.

Приводятся обоснования и предлагаются надёжные критерии ранжирования независимых переменных и отбрасывания несущественных параметров при многофакторном статистическом анализе, эффективность которых иллюстрируется конкретным примером и подтверждается более чем 30-летней практикой успешного проведения статистических исследований в машиностроении, металлургии и медицине.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Поляков Б.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The reliable criteria of ranging of independent variables and rejection of insignificant parameters at the multifactorial statistical analysis substantiations are resulted and are offered, which efficiency is illustrated by a concrete example and proves to be true more than 30-years practice of successful carrying out of statistical researches in mechanical engineering, metallurgy and medicine.

Текст научной работы на тему «Эффективный метод ранжирования независимых переменных и отбрасывания несущественных параметров при многофактторном статистическом анализе»

УДК 519.23

ЭФФЕКТИВНЫЙ МЕТОД РАНЖИРОВАНИЯ НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ И ОТБРАСЫВАНИЯ НЕСУЩЕСТВЕННЫХ ПАРАМЕТРОВ ПРИ МНОГОФАКТТОРНОМ СТАТИСТИЧЕСКОМ

АНАЛИЗЕ1 © Поляков Б.Н.

e-mail: bpoliakov@botmail. com

Abstract. The reliable criteria of ranging of independent variables and rejection of insignificant parameters at the multifactorial statistical analysis substantiations are resulted and are offered, which efficiency is illustrated by a concrete example and proves to be true more than 30-years practice of successful carrying out of statistical researches in mechanical engineering, metallurgy and medicine.

Введение

В работе [1] отмечалось, что для нахождения криволинейного уравнения множественной регрессии методом Брандона, независимые переменные необходимо ранжировать, т.е. располагать последние в порядке уменьшения силы их влияния на зависимую переменную. Ранжировать независимые переменные можно на основе линейного регрессионного анализа, как первого этапа многофакторного анализа, несколькими способами: по коэффициенту полной корреляции du, по коэффициенту частной корреляции Гц или по стандартизованному коэффициенту регрессии /?¿.

Коэффициент полной корреляции du характеризует тесноту связи между зависимой переменной х\ и независимой Х{ вне зависимости от того, чем обусловлена эта связь, действительным влиянием х,. либо влиянием других независимых переменных, корреляционно связанных с х, и, вследствие этого, искажающих силу влияния рассматриваемой независимой переменной на зависимую. Особенно это отмечается в том случае, когда независимые переменные сильно коррелируют между собой.

Стандартизованный коэффициент регрессии /?¿ является количественной характеристикой силы влияния независимой переменной, выраженной в единицах ередне-квадратического отклонения зависимой переменной при устранении другой линейной связи с остальными независимыми переменными. Но в анализе связи двух переменных обычно принято пользоваться не абсолютными оценками, а относительными, т.е. более общими характеристиками.

Коэффициент частной корреляции Гц является относительной характеристикой силы влияния независимой переменной на зависимую при постоянстве других, участвующих в анализе, т.е. выражает влияние, очищенное от действия других независимых факторов. Из определения коэффициента частной корреляции ясно, что последний является наилучшей оценкой силы связи между независимой и зависимыми переменными на основе линейного приближения к эмпирическим данным, И поэтому принято в последовательном многофакторном анализе [1] независимые переменные располагать по мере убывания \гц\-

1Разработан совместно с канд.техн.наук Ю.Д. Макаровым и инж,- математиком Ф.М.Карлинской

1, критерии ранжирования независимых переменных и отбрасывания несущественных параметров

Рассмотрим теперь вопрос отбрасывания несущественных параметров. Обычно исследователь стремится зафиксировать как можно больше независимых переменных, которые, по его мнению, каким-то образом влияют на изучаемое явление. При этом многие «независимые» факторы могут быть на самом деле тесно взаимосвязаны друг с другом. Большое количество независимых переменных иногда искажает физический смысл определяемого уравнения, к тому же коэффициенты регрессии, вычисленные для сильно коррелированных переменных, малонадежны и будут иметь широкие доверительные интервалы, поэтому часть независимых переменных на основе какого-либо критерия необходимо исключить из рассмотрения. Таким образом, возникает вопрос о критерии отбрасывания несущественных параметров,

О существенности влияния независимой переменной на зависимую переменную можно судить уже по величине доверительного интервала коэффициента регрессии. Если доверительный интервал проходит через нуль, то вопрос о существенности влияния соответствующей независимой переменной ставится под сомнение. Поэтому выполнение неравенства (1) будет являться естественным критерием существенности независимого фактора

где щ - коэффициент регрессии, - его ереднеквадратичеекое отклонение, ¿а -квантиль нормированного нормального распределения, соответствующий вероятности (1 — а). Данный критерий (неравенство (1)) будем называть первым, на что указывает римская цифра I у индекса в обозначении критерия ¿а/. Но очень часто, по многим причинам: неправильно выбраны независимые параметры, недостаточны величина выборки и точность экспериментальных данных, и вследствие этого, небольшая точность результатов анализов и т.д., - почти для всех коэффициентов регрессии несправедливо неравенство (1) или доверительные интервалы этих коэффициентов проходят через нуль, И одновременное отбрасывание несущественных независимых переменных по критерию I может резко уменьшить коэффициент множественной корреляции, увеличить стандартную ошибку оценки и вообще привести к неправильному объяснению изучаемого процесса.

Число же всевозможных вариантов отбрасывания независимых переменных на основе критерия I растет по закону С^ + + ... + С+ С¡Ц где к - количество независимых переменных, которые нужно было бы отбросить по критерию I.

В, Визорке и др. [2] предложили метод одновременного отбрасывания нескольких независимых переменных на основе собственного опыта, полученного при обработке большого количества экспериментальных данных. Суть этого метода в следующем.

Рассмотрим величину /,• = г/(/>'„ . эквивалентной формулой которой будет являться следующая:

(1)

(ЗгЛ/Т^Щ -

tj = —; уп — т.

где fti - стандартизованный коэффициент регрессии, /7 - коэффициент множественной корреляции, Щ - коэффициент множественной корреляции г - той независимой переменной с остальными независимыми переменными, п - количество значений зависимой переменной, m - число рассматриваемых параметров, включая зависимый. Если х, коррелирует только с одной независимой переменной, и если последняя является несущественной по критерию I, то после ее отбрасывания t{ возрастает в 1/y/l — Щ раз, что не учитывает рассмотренный выше критерий.

Поэтому необходимо относиться очень осторожно к независимым переменным, которые тесно взаимосвязаны с другими независимыми переменными, и в первую очередь, рекомедуетея отбросить те независимые переменные, несущественные по критерию I , коррелирующие слабо с другими, так как данный критерий не учитывает взаимной корреляции между независимыми переменными. Но независимая переменная может коррелировать с несколькими независимыми переменными и ^ может возрасти [2] приблизительно в 1 + раз после отбрасывания

несущественных параметров и

tin = \tu\ , > ta, (2)

V1 - Щ

Экспериментальная проверка показала, что критерий II отбрасывания нескольких независимых параметров очень слаб, что будет проиллюстрировано в приведённом ниже примере. Для практического применения этого критерия можно его усилить, В алгоритме многофакторного статистического анализа [1] заложен следующий критерий:

1

tail = \tu\ > ta, (3)

Критерий отбрасывания II отличается от критерия III сомножителем

1 + Ris/2

в числителе правой части выражения (2),

На Рис, 1, и Рис, 2, показаны зависимости 1 + 1^\/2/\/1 — Щ и I/\/{1 — Щ) от Щ. Из рассмотрения этих графиков и неравенств (2) и (3) можно сделать вывод о том, что в первую очередь будут отброшены те независимые переменные, для которых мало значение /1'(. т.е. слабо связанные с другими независимыми переменными.

После работы критерия II могут остаться ещё несколько независимых переменных существенных по критерию III, но не существенных по критерию I. В этом случае предлагается на втором этапе исследования несущественные переменные отбрасывать по следующему критерию:

tiiv = \tn\ > ta, (4)

A

Рис. 1. Зависимость , 1 , от /2,-

Рис. 2. Зависимость от 1Ъ

у/Т^Щ

Сопоставляя критерии отбрасывания независимых переменных II и IV, можно заметить, что они имеют одинаковую структуру. Поэтому график функции

1 — Ris/2/y/l — Щ полностью совпадает с графиком функции 1 + \гц\\/2/-^/1 — г^. Из Рис, 2 и неравенства (4) следует, что в первую очередь будут отбрасываться те несущественные независимые переменные, которые слабо влияют на зависимую переменную, Практическое применение критерия IV дало положительный результат. Критерий IV сильнее критерия III, поэтому он применяется уже на втором этапе отбрасывания независимых переменных,

2, Пример

Действия приведенных выше критериев проиллюстрированы примером. Опытные данные для примера взяты из источника [3], в котором обобщены технологические режимы прокатки на блюмингах ряда отечественных металлургических заводов и дополнены данными по схемам и режимам обжатий, применяющимися на блюминге 1300 меткомбината «Криворожеталь»,

Пример. На основе опытных данных определяется регрессионная зависимость количества пропусков (N) от среднего обжатия в пропуске за цикл прокатки (Дср, мм), площади поперечного сечения слитка (FCJ1, мм2), площади поперечного сечения конечной заготовки (Fnp, мм2), числа кантовок (К), массы слитка (QCJI, т), числа пропусков до первой кантовки (tiki), числа пропусков между первой и второй кантовкой (пк2), числа пропусков между второй и третьей кантовкой (пкз), числа пропусков между третьей и четвертой кантовкой (пка)-

Таблица 1. Первое приближение

Параметр щ а™ (2) Гц tu tili tun tuv Vi - щ

N 13,81 13,99 13,63 - 7,522 - - - -

А/?,,,, мм -0,094 -0,077 -0,110 -0,857 -10,95 19,08 12,033 -47,04 0,910

К 0,278 0,770 -0,214 0,166 1,108 6,547 2,843 1,388 0,389

Qcn-, т 0,235 0,517 0,047 0,241 1,630 11,47 4,916 2,253 0,332

FCJ1, мм2 0,88-•ю-5 0,13-•Ю-4 0,45- •ю-5 0,521 3,999 25,36 10,946 8,134 0,365

Fop, мм2 ^0,3- •ю-4 —0,19-•Ю-4 —0,40-•Ю-4 -0,640 -5,462 17,61 8,463 -13,54 0,645

Пк 1 0,082 0,231 -0,068 0,161 1,068 2,825 1,462 1,329 0,731

ПК2 0,086 0,325 0,154 0,106 0,700 1,735 0,929 0,810 0,753

Пкъ 0,216 0,434 -0,001 0,285 1,949 6,534 3,110 2,836 0,627

пк 4 0,291 0,604 -0,023 0,267 1,818 8,873 3,936 2,600 0,462

5=0,604 Д=0,9- 14

Первое приближение запишется следующим образом (см, также таблицу):

N = 13, 81 - 0, 094Д/гср - 0, 3 • 10 '/•;,,, + 0, 88 • 10 7-;,, + 0, 216п^3+ +0, 291п^4 + о, 235QM + 0, 27Ш + 0, 082n^i + 0, 086п^2-

Таблица 2. Второе приближение

N 14,66 14,84 14,48 - 7,985 - - - -

Ahcp, мм -0,094 -0,077 -0,110 -0,855 -11,05 19,19 12,13 47,03 0,911

К 0,231 0,704 -0,243 -0,141 0,954 5,454 2,376 1,155 0,402

Qcn-, т 0,206 0,478 -0,065 0,217 1,493 10,14 4,355 1,999 0,343

FCJ1, мм2 0, 94- •ю-5 0,135- •ю-4 0,53- •ю-5 0,556 4,498 27,30 11,83 9,665 0,380

Fop, мм2 ^0,31-•Ю-4 —0,21-•ю-4 —0,41- •ю-4 -0,667 -5,981 17,84 8,773 15,59 0,682

Пкз 0,202 0,386 0,016 0,303 2,132 5,618 2,913 3,195 0,732

пк 4 0,249 0,551 -0,053 0,234 1,617 7,622 3,397 2,215 0,476

5=0,615 Д=0,942

Таблица 3. Третье приближение

N 15,38 15,56 15,20 - 8,377

A/iCp, мм -0,95 - 0,079 - 0,112 -0,861 -11,64

Qc.Л; Т 0,229 0,496 -0,037 0,241 1,684

FCJ1, мм2 0,93- •ю-5 0,134- •ю-5 0, 52- •ю-5 0,547 4,429

Fop, мм2 -0, 32- —0,23-•10"5 —0,42-•10"5 -0,698 -6,969

Пкз 0,249 0,407 0,091 0,414 3,089

пк 4 0,367 0,547 0,188 0,509 3,998

5=0,621 Д=0,941

Доверительные интервалы коэффициентов регрессии следующих параметров проходят через нуль: К, QCJ1, пкъ пк2, пкз, ПК4- По критерию II отбрасывается только пк2 по критерию III должно отбрасываться пк\ и пк2 а по критерию IV -пкъ ПК2, К. Так как в программе многофакторного анализа сначала работает критерий III, то второе приближение, после отбрасывания пк\ и пк2 будет следующим:

N = 14, 66 - 0, 094Д/гср — 0, 31 • 10 '/•;,,, + 0, 94 • 10 7-;,, + 0, 202п^3+ +0, 249п^4 + о, 206QM + 0, 231 К. При этом коэффициент множественной регрессии уменьшается с 0, 944 до 0, 942, а остаточное среднеквадратическое отклонение увеличивается с 0, 604 до 0, 615,

Во втором приближении доверительные интервалы коэффициентов К QCJ1, пка регрессии параметров проходят через нуль, но критерии II и III дают отрицательный ответ на отбрасывание этих независимых параметров. По критерию IV можно отбросить независимый параметр К. Тогда в третьем приближении уравнение регрессии запишется следующим образом:

N = 15, 38 - 0, 095Д/гср - 0, 32 • 10 '/•;,,, + 0, 93 • 10 7-;,, + 0, ЖпК4+

+0, 249п^з + о, 229QM.

Хотя после третьего приближения доверительный интервал у независимого параметра QCJI проходит через нуль, но ни один из выше рассмотренных критериев (II, III, IV) не отбрасывает его, так как tu, равный 1,684, достаточно близок к /,, = 1.90 н влияние на зависимую переменную N значительно (ги = 0, 241),

После третьего приближения коэффициент множественной корреляции равен 0,941, а остаточное среднеквадратическое отклонение равно 0,621,

Отбрасывание независимых параметров пкъ пК2 согласуется с физическим процессом прокатки на блюминге, потому что среднее обжатие до первого ящичного калибра (где прокатка идет со стесненным уширением) определяется только размерами слитка и его положением при начальном обжатии, а в дальнейшем - размерами поперечного сечения конечного раската, последовательностью расположения и шириной калибров, которые в какой-то степени характеризуются параметрами пк\ и пк2■ Отсюда очевидно, что и количество кантовок мало влияет на среднее обжатие за цикл прокатки.

Заключение

Таким образом, предлагаемые критерии ранжирования независимых переменных и отбрасывания несущественных параметров, проверенные на многочисленных примерах из более чем 30-летней практики успешного проведения статистических исследований в машиностроении, металлургии и медицине [4, 5], которые подтверждают их надёжность и эффективность для проведения разнообразных многофакторных статистических исследований,

список литературы

1. Реноме Статистические методы в алгоритмах и примерах (из практики прокатного производства). Учебное пособие ". ISBN 978-5-98947-081-5„СПб.: "Реноме", декабрь 2007, - 182с.

2. Von Н. Knüppel , Stumpf А., Wiezorke В. Mathematische Statistik in Eisenhüttenwerken, Archive fürdas Eisenhüttenwesen, №8, 1958. Перевод № 1492. НИИТЯЖМАШ Уралмашзавода, 1968.

3. Логоватовский A.A. Нормирование процессов на блюминге. М.: Металлургия, 1966. 220с.

4. Коцарь С.Л., Поляков Б.Н., Макаров Ю.Д., Чичигин В.А. Статистический анализ и математическое моделирование блюминга М: Металлургия, 1974. 280с.

5. Поляков Б.П. Повышение качества технологий, несущей способности конструкций, долговечности оборудования и эффективности автоматических систем прокатных станов. - СПб.: Реноме , 2006, - 528с.

Статья поступила в редакцию 25.10.2008

i Надоели баннеры? Вы всегда можете отключить рекламу.