Статистический анализ влияния факторов на величины рисков
Дедков В.К.
Аннотация. При исследовании безопасности сложных систем, возникает задача оценивания степени влияния различных факторов на величину риска аварии (катастрофы). В статье рассматривается вопрос об оценке степени влияния изменчивости отдельных факторов, на характеристики безопасности системы. Рассмотрены сферы применения компонентного, факторного и дисперсионного анализов.
Ключевые слова: Безопасность, риск, компонентный анализ, факторный анализ, дисперсионный анализ, однофакторный, двухфакторный и многофакторный дисперсионный анализ.
Общей методологической установкой новой концепции безопасности является признание невозможности гарантированного обеспечения безопасности высокотехнологичных комплексов (ВТК) на основе сформировавшейся в последние годы системы обеспечения безопасности.
Для количественного оценивания степени опасности процесса, связанного с функционированием некоторого технического комплекса, вводится понятие риска. Риск - это характеристика возможности реализации конкретной опасности и ее последствий. Риск измеряется в тех же единицах, что и величина ущерба, возникающего вследствие поломки, отказа, аварии или катастрофы.
Если имеется возможность выразить категории затрат, связанных с создание ВТК, и ущербом, возникающим в результате аварии или катастрофы, в единой мере, то можно применить концепцию «польза- вред» для оптимизации (минимизации) функции потерь и соответствующего риска.
Как правило, наступление неблагоприятного события (аварии) сложной системы (ВТК) может быть вызвано различными причинами, влияющими на показатели выходного эффекта в!, 02, 03,... 0п данной системы. Отсюда следует, что показатель риска ВТК является векторной величиной R<n> = <rj, r2,..., rn>, компоненты которой суть показатели риска, связанного с возникновением неблагоприятного события, вызванного потерей работоспособности ВТК по одному из показателей выходного эффекта.
Поскольку количество причин (их называют - факторами) оказывающих влияние на развитие неблагоприятных событий может быть велико, а сами физические величины случайны как по своему значению, так и по времени появления критических их значений, то анализ условий, приводящих к авариям (т.е. анализ рисков), как правило, связан с большими трудностями.
Факторами обычно называют внешние условия, влияющие на эксперимент. К ним, например, относят температуру и атмосферное давление, силу тяготения, тип оборудования и т. п. Интерес представляют факторы, оказы-
вающие значительное действие и поддающиеся количественной проверке. В условиях эксперимента факторы могут варьировать, благодаря чему можно исследовать влияние контролируемого фактора на результат эксперимента. В этом случае говорят, что фактор варьирует на разных уровнях или имеет несколько уровней. В зависимости от количества факторов, включенных в анализ, различают классификацию по одному признаку - однофакторный анализ, по двум признакам - двухфакторный анализ и многостороннюю классификацию - перекрестную классификацию, изучением которой занимается многофакторный анализ.
Факторный и компонентный анализ относятся к тем разделам математической статистики, в которых исследуется внутренняя структура корреляционных матриц.
С помощью методов факторного и компонентного анализа решается ряд проблем статистической оценки размерности наблюдаемого набора случайных величин. При этом в качестве исходной информации используется корреляционная матрица (или ее оценка). Целью анализа является замена исходного набора оптимальным набором меньшей размерности, причем понятия оптимальности в факторном анализе и компонентном анализе различны, и именно это различие делает самостоятельным оба эти метода.
Основная задача компонентного анализа - выбор удобной в некотором смысле системы координат для задания и исследования множества случайных величин с целью выявления переменных, являющихся линейными комбинациями исходных, с наибольшей дисперсией.
Главное предположение факторного анализа заключается в том, что множество исследуемых (наблюдаемых) переменных можно описать меньшим числом некоторых гипотетических переменных (простых факторов) и множеством независимых остатков, что эквивалентно поиску источника возникновения корреляционных связей в наблюдаемом множестве случайных величин.
Таким образом, основное различие между факторным и компонентным анализом состоит в том, что если последний ориентирован на анализ дисперсий набора случайных величии и выявление линейных комбинаций с наибольшей дисперсией, то факторный анализ занимается выявлением причин возникновения корреляций в исследуемом множестве случайных величин.
Дисперсионный анализ
Дисперсионный анализ - это статистический метод анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, выбор наиболее важных факторов и оценка их влияния. Суть анализа заключается в разложении общей вариации случайной величины на незави-
симые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия.
Для проведения дисперсионного анализа необходимо соблюдать следующие условия: результаты наблюдений должны быть независимыми случайными величинами, имеющими нормальное распределение и одинаковую дисперсию. Только в этом случае можно оценить значимость полученных оценок дисперсий и математических ожиданий и построить доверительные интервалы.
Задача дисперсионного анализа - исследовать влияние тех или иных факторов на средние значения наблюдаемых случайных величин.
Приведем примеры задач такого рода. Пусть проводится мероприятие, цель которого, по замыслу конструктора - улучшение некоторой характеристики сложной системы, существенно влияющей на показатели надежности и безопасности ВТК. Например, меняются некоторые условия технологии изготовления и сборки аппаратуры (меняется процентное содержание какой-либо добавки в металл, используемый для изготовления ответственных узлов и элементов аппаратуры, изменяется температурный режим некоторого процесса и пр.). Пусть под характеристикой аппаратуры понимается время ее безотказной работы, которое является случайной величиной. В результате испытаний аппаратуры до проведения мероприятий, о которых шла речь, была получена случайная выборка времен безотказной работы хьх2,...,хп. Аналогичная выборка была подучена и после проведения мероприятий: ду2,...,ут. Далее перед конструктором стоит задача определить, приводят ли
предложенные мероприятия к улучшению характеристик надежности аппаратуры или нет. Для этого необходимо оценить среднее значение времен безотказной работы по первой и второй выборкам и оценить, значимо ли в некотором смысле расхождение между ними.
Приведем пример другой аналогичной задачи, в которой требуется установить, принадлежат ли две случайные выборки к одной и той же генеральной совокупности, т.е. проверить гипотезу о статистической однородности некоторой выборки, полученной объединением двух подвыборок. Такая задача возникает при выявлении систематических ошибок в измерительных приборах, а также при сравнении одного образца технического объекта с другим, принятым за эталон.
Итак, дисперсионный анализ заключается в выделении и оценке степени влияния отдельных факторов, вызывающих изменчивость некоторых случайных величин, на величину риска. С этой целью производится разложение дисперсии каждой из подвыборок некоторой выборки на составляющие, каждая из которых порождается одним из факторов.
Схема дисперсионного анализа зависит от того, влияние скольких факторов исследуется в данной задаче. В связи с этим в математической стати-
стике рассматриваются однофакторный, двухфакторный и в общем случае многофакторный дисперсионный анализ.
Ниже рассмотрена простейшая схема однофакторного дисперсионного анализа.
Пусть Г - случайная величина, характеризующая некоторый количественный признак, а q - фактор, имеющий т постоянных уровней, влияние которого на количественный признак Г исследуется.. В частности, при исследовании безопасности технического объекта фактором q может быть вариант конструкции объекта, а признаком - величина риска Г. Будем предполагать, что число наблюдений на каждом уровне одинаково и равно п. Будем также предполагать, что величина Г имеет нормальное распределение и при всех уровнях фактора q сохраняет дисперсию постоянной.
Итак, пусть наблюдалось пт значений Гу признака Г, где і - номер испытания, i=1(1)n; j - номер уровня фактора q, j=1(1)m . Сведем результаты наблюдений в табл.1. Введем следующие понятия:
- общая сумма квадратов отклонений наблюдаемых значений от общего среднего значения:
n m , :2
4бщ=ZZ(% -r), С1)
j і
1 n m
где r =— УУrij - оценка общей средней, или средняя арифметическая всей
nm ■ i J J i
совокупности наблюдений.
- факторная сумма квадратов отклонения групповых средних значений от общего среднего
, n
4=mZ (ri*- r )2, (2)
і
причем Гі* как видно из приведенного выше равенства представляет собой
1 m
среднюю арифметическую т наблюдений і-го уровня, т.е. Гі* = — У rij. Звез-
m j=1
дочка в индексе при г означает, что наблюдения фиксированы на і-м уровне. Величина 4 характеризует, как видно из равенства (2), рассеяние между группами наблюдений;
- остаточная сумма квадратов отклонений наблюдаемых значений в каждой группе от своего группового среднего
m n . .
Socm = ZZ (rij - ri* ). (3)
j і
Величина характеризует рассеивание признака внутри групп.
Таблица 1.
Уровни Номер испытания
фактора qj
1 2 i п Групповое среднее
1 r11 r12 hn 1 n r1* = “ X r1n ni=1
2 r21 r22 r2n 1 n r2* = “ X r2n ni=1
j
т rm1 rm2 rmn 1 n Л rm* = X rmn ni=1
Для введенных величин справедливо следующее соотношение
S,
2
общ = Sф + Sост ,
2
(4)
что доказывается простой подстановкой в равенство (4) выражений для S^, S<2 и S^ из формул (1), (2) и (3) и формулы для ri* из табл. 1.
Величина S,2 характеризует воздействие фактора q. Действительно,
пусть этот фактор оказывает существенное влияние на г, т.е. на величину риска. Тогда группы наблюдений величины r при одном значении фактора и при другом будут отличаться между собой. Значит, будут различаться и их групповые средние значения ri*, i=1(1), причем они будут тем сильнее рассеяны вокруг общего среднего значения r, чем сильнее влияние фактора q (определяющего отличие одной конструкции объекта от другой). Этот факт и отражается формулой (2).
Величина S^ct отражает влияние случайных причин на величину риска г, ибо она представляет собой сумму квадратов отклонений внутри каждой из групп от своего среднего значения. Причины этих отклонений, очевидно, не связаны с фактором q, а потому отклонения этого типа характеризуют влияние случайных факторов.
На основании формулы (4) можно заключить, что S^ отражает влияние как исследуемого фактора, так и случайных причин.
Суммы квадратов S^, Sф и S^, деленные на величины (mn-1) (т-1) и
т(п-1), дают несмещенные оценки для дисперсии а2 случайной величины Г:
_2
аобщ
S,
2
общ
_2
аф
mn -1
SL •
n -1 ’
(5)
(6)
( IV (7)
m(n -1)
Первая из этих оценок называется общей оценкой дисперсии, вторая -оценкой дисперсии по факторам, третья - оценкой остаточной дисперсии.
а
S2
_ wост
ост
При выполнении дисперсионного анализа целесообразно пользоваться табл. 2. Таблица такого типа полезна не только при ручном счете, но и при вычислениях на компьютере, так как она позволяет рационально распределить память и характеризует последовательность вычислений, что необходимо при программировании.
Т а б л и ц а 2
Вариации Сумма квадратов Число степеней свободы Оценка дисперсии
общая n m , ■2 ^бщ = ZZ(% -r ) j і тп-1 S 2 s2 = °общ °общ = , mn — 1
По факторам (между группами) 4=mZ (ri*- f )2 j п-1 v і II «s'Sh b
Остаточная (внутри групповая) Sост = Z Z Yij — ri* ) j і т(п-1) і S2 s2 = °ост °ост ( л\ m(n — 1)
Далее для проверки значимости расхождения 4 и 4ст , необходимо
воспользоваться статистикой Фишера, т.е. F - критерием. Выберем в качестве нулевой гипотезу о равенстве групповых средних rt*. В этом случае факторная и остаточная дисперсии являются несмещенными оценками неизвестной дисперсии s2. Поэтому при истинности нулевой гипотезы сравнение 5ф и
4ст, по критерию F приведет к тому, что ее нужно будет принять.
Если нулевая гипотеза ложная, то с возрастанием расхождения между групповыми средними rj* будет увеличиваться и факторная дисперсия 4, а
вместе с этим и отношение F = 4/4ст . В результате F окажется больше FKp,
при котором нулевая гипотеза отвергается.
Из сказанного следует, что для проверки нулевой гипотезы о равенстве групповых средних нормальных выборок с одинаковыми дисперсиями s2 достаточно проверить по F -критерию нулевую гипотезу о равенстве факторной и остаточной дисперсий. Эта проверка и есть заключительный этап однофакторного дисперсионного анализа.
Литература
1. Иванова В.М., Калинина В.Н., Нешумнова Л.А., Решетникова И.О. Математическая статистика. М.: Высшая школа, 1981. - 371 с.
2. Налимов В.В. Теория эксперимента. М.: Наука. 1971. - 208 с.