Научная статья на тему 'Статистическое моделирование процедуры обнаружения разладки по среднему значению в гауссовской последовательности независимых случайных величин'

Статистическое моделирование процедуры обнаружения разладки по среднему значению в гауссовской последовательности независимых случайных величин Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
105
26
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Микка К. В.

Page's algorithm is used for detecting shift-mean in gauss sequences of independent random variables. In this article we propose procedure of finding optimum (in describable sense) critical value of detecting mean-shift. Statistic modelling process of detecting the change point is generated for understanding applicability proposed procedure.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Микка К. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Статистическое моделирование процедуры обнаружения разладки по среднему значению в гауссовской последовательности независимых случайных величин»

УДК 519.272

СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕДУРЫ ОБНАРУЖЕНИЯ РАЗЛАДКИ ПО СРЕДНЕМУ ЗНАЧЕНИЮ В ГАУССОВСКОЙ ПОСЛЕДОВАТЕЛЬНОСТИ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН

О 2004 г. К.В. Микка

Page’s algorithm is used for detecting shift-mean in gauss sequences of independent random variables. In this article we propose procedure of finding optimum (in describable sense) critical value of detecting mean-shift. Statistic modelling process of detecting the change point is generated for understanding applicability proposed procedure.

Введение

Анализ временных радов представляет собой одну из наиболее интенсивно развивающихся областей математической статистики. Наиболее популярным является направление по обнаружению моментов «разладки» в различных последовательностях данных [1,2]. Во многих практических задачах бывает необходимо обнаруживать момент изменения свойств наблюдаемого случайного процесса. Такая потребность возникает, например, при автоматизации обработки научных наблюдений.

В данной работе исследуется задача нахождения порогов, при которых происходит обнаружение изменения среднего значения наблюдаемого процесса. Пусть наблюдается последовательность независимых гауссовских случайных величин Х\,Х2,..., которая в момент t0 скачком меняет свои свойства, однозначно определяемые параметрами и = EXt и I) = DXt. Последнее означает, что до момента to - 1 включительно ц = fix, а, начиная с I,fi =fi2. Наблюдая последовательность, необходимо обнаружить момент разладки t0.

Для решения подобной задачи требуется гарантированное обнаружение разладки, в то время как ложные тревоги не будут слишком частыми при самых неблагоприятных вариациях характеристик фона, а время запаздывания не будет слишком большим. Поэтому в таких задачах целесообразно вводить весовые функции или применять критерии оптимальности, которые бы учитывали важность тех или иных ситуаций. Будем использовать следующие критерии оптимальности:

- минимально допустимый уровень частоты обнаружения момента t0, т.е. пороги, имеющие частоту обнаружения разладки меньше задаваемой, не относятся к числу оптимальных порогов (обозначим minier);

- максимально приемлемый уровень ложных тревог, т.е. пороги, доля ложных тревог которых превышает установленный уровень, отбрасываются из числа оптимальных порогов (шах сШ)\

- максимальное среднее время запаздывания обнаружения момента разладки, т.е. среднее время запаздывания при исследуемом пороге должно быть не больше допустимого (max z7,):

- минимально возможная доля обнаружения момента разладки без запаздывания. Если порог h имеет долю обнаружения момента t0 без запаздывания, меньшую минимальной, то он не берется в реестр оптимальных (min dbz).

Другими словами, процедура обнаружения разладки характеризуется набором (max Fr, min dit, тах zcp, min dbz).

Таким образом, в работе рассматривается задача поиска оптимального, по введенным критериям, порога обнаружения момента разладки в гауссовской случайной последовательности.

Описание алгоритма кумулятивных сумм обнаружения разладки по среднему

значению

Для обнаружения разладки по среднему значению в гауссовской случайной последовательности применим алгоритм кумулятивных сумм (АКС) [3, 4], который представляет собой многократно применяемый последовательный анализ А. Вальда [5], а конкретно, - последовательный критерий отношения вероятностей (ПКОВ) для двух простых гипотез Н\ (нет разладки): ц=ц\ и Н2 (есть разладка): fi=fi2.

Идея данного алгоритма состоит в анализе поведения кумулятивной суммы

S, = +ln(p(xt/fi2)/p(xt/Ml)), (1)

где р(х) - плотность случайных величин Xt. Кумулятивная сумма в ПКОВ сравнивается на каждом шаге с двумя порогами: -е и h; s, h>0. Если на шаге t сумма

S, > /?. то принимается гипотеза 112. если S, < -к - //,. а если

—е< h < Sh то выполняется t + 1 наблюдение. Однако прямо применить ПКОВ к задаче о разладке нельзя, так как в ней нарушено предположение о принадлежности всей выборки к гипотезе П\ или Н2. Поэтому Е.С. Пейдж [6] впервые предложил возобновлять ПКОВ на шаге t из нуля, после того как на шаге t - 1 принята гипотеза Н\. И так до тех пор, пока не появится разладка. После того как / >/,,. математическое ожидание логарифма отношения правдоподобия в (1) будет положительное, и кумулятивная сумма начнет расти. Порог s в таком ПКОВ Е.С. Пейдж предложил установить равным нулю. Оптимальность данного выбора была установлена А.Н. Ширяевым [1], а позднее Г. Лорденом [7]. Таким образом, для кумулятивной суммы в нуле установлен отражающий экран и АКС имеет простую рекуррентную запись:

gt = (gf-i + Agt )+, Agt = ln(p(xt ¡ц2 )/p(xt hix)), (2)

где (xt )+ = max(0, x), g0 = 0.

В нашем случае наблюдается последовательность гауссовских случайных величин и под разладкой понимается изменение и от Н| до и2. Тогда формула (2) для решающей функции выглядит следующим образом:

ët = 8t-1 +

(н і + -"г)')

t Г ’

(3)

где I = 1. Л : xt- значение случайной гауссовской последовательности. Правило подачи сигнала о разладке имеет вид ta = inf(Y>1 :gt> h).

Исходя из природы задачи, можно предположить, что каждому порогу соответствует свой набор (/'г, dit, zc/l, dbz), в котором: 1) частота обнаружения Fr = — ; 2)

доля обнаружения без запаздывания dbz = J = l ; где / - число последовательно-

стей, в которых при данном уровне к разладка обнаруживалась; М- общее число исследуемых последовательностей; !у - число ложных тревог в /-й последовательности X при (4 < /о); = 4 - /0 - время запаздывания обнаружения момента разлад-

ки в /-й последовательностиXпри (/,,<и,)'. Ьг/-/-я последовательность, в которой обнаружение момента и, произошло без запаздывания, т.е. (4 = /0).

Можно предположить, что у одних к будет слишком маленькая частота обнаружения момента разладки, при других к слишком большая вероятность получения сигнала ложной тревоги; третьи обнаруживают разладку с большим запаздыванием и так далее. Следовательно, возникает необходимость фильтрации значений порога обнаружения разладки по установленным критериям оптимальности.

Будем считать, что только пороги /г, удовлетворяющие сразу всем четырем критериям, относятся к классу оптимальных порогов к . Кроме того, по формуле, аналогичной частоте обнаружения разладки, определяется оценка вероятности обнаружения оптимального порога: р(к*) = 1°р‘ ■ гДе го^- число операций, в которых

обнаружилось оптимальное значение порога; п - общее число операций.

Резюмируя, можно сделать вывод, что данный алгоритм, а также критерии оптимальности должны, по-нашему мнению, достаточно точно определять оптимальные значения порога обнаружения разладки и тем самым оптимальную в этом смысле процедуру.

Используя алгоритм АКС и критерии оптимальности, а также зная параметры наблюдаемой последовательности и разладки, вполне возможно получить некоторую статистику оптимальных к для любого момента /о- Приведем ее для моментов /о = 10 и /о = 20. Для этого сначала необходимо оценить минимальную длину N последовательности X, при которой должным образом определяется величина к в тот

м

доля ложных тревог

п

Статистическое моделирование процесса разладки гауссовской случайной последовательности

или иной момент разладки. Эмпирический анализ результатов моделирования с параметрами /и2- ^=1,2, шаг A(m2-//i)=1, D = 1,2, шаг AD=\, М= 100, min h = 0, Ah = 0,5, п = 50, (maxier, min dit, max z,_v. min dbz) = (0,8; 0,2; 3; 0,1) позволяет сделать некоторые выводы. Основные наблюдения: с ростом длины последовательности после момента разладки увеличиваются вероятность обнаружения h (точнее ее оценка) и величина max h (максимальное значение порога, при котором определяется разладка); с увеличением величины разладки происходит рост среднего max h , а значение среднего min h стремится к нулю; минимальная длина последовательности, при которой частота обнаружения оптимальных порогов h равна единице, уменьшается; момент t0 обнаруживается лучше и как следствие повышается частота обнаружения разладки, доля ложных тревог уменьшается, среднее время запаздывания уменьшается, доля обнаружений без запаздывания растет; с ростом дисперсии уменьшается разница между значениями max h и min h , так как значения min h увеличиваются из-за роста ложных тревог, а значения max h наоборот уменьшаются; в силу формулы (3) величина max h падает; хуже обнаруживается разладка; необходимая для обнаружения разладки длина последовательности растет; с увеличением числа наблюдений до момента t0 растет вероятность появления ложной тревоги, что в свою очередь сказывается на значениях h ; с ростом значения порога h уменьшается частота обнаружения разладки, число ложных тревог падает, величина запаздывания растет, число обнаружений без запаздывания стремится к нулю; в некоторых случаях с ростом значений h из-за снижения частоты обнаружения разладки возможны колебания среднего времени запаздывания, доли ложных тревог и доли обнаружения без запаздывания.

В табл. 1 приведены минимальные допустимые длины последовательностей, с которыми более чем в 95 % реализаций происходит обнаружение h (max Fr, min dit, max zcp, min dbz) = (0,8; 0,2; 3 ; 0,1) для моментов iu = 10 и tu = 20.

Следовательно, зная min Л для каждого из описанных выше случаев, можно получить таблицу из значений h с соответствующими им характеристиками. Например, для момента разладки t0 = 10 таблица будет выглядеть следующим образом (табл. 2).

Таблица 1

Минимальные допустимые длины последовательностей (в числителе для ?р = 10, в знаменателе для 4 = 20)

Параметр Минимальная длина (min Af)

ß2~ßl = 1,-D= 1 14/24

=2 ,D= 1 11/21

fi2-fii=3,D= 1 10/20

= l,D = 2 -/-

ß2~ßi =2,D = 2 12/22

ßi-ßi =3,D = 2 11/21

Таблица 2

Значения h и их характеристики для t0 = 10

ß2~ß 1=1 N= 14 D= 1 ß2-ßi = 2 JV=11 D = 1 ßi-ß\=^ JV=10 D= 1 ß2~ßl = 1 JV=16 D = 2 ß2-ßi=2 N= 12 D = 2 ß2~ßl = 3 JV=11 D = 2

min h 1,02 0,50 0,50 - 0,83 0,50

max h 1,46 1,91 1,76 - 1,58 2,27

Fr при min h 0,93 0,95 0,90 - 0,93 0,96

Fr при max h 0,85 0,83 0,82 - 0,84 0,83

dlt при min h 0,16 0,14 0,05 - 0,16 0,12

dlt при max h 0,10 0,04 0,02 - 0,08 0,03

zcp при min h 1,25 0,20 0,00 - 0,52 0,16

zcp при max h 1,66 0,39 0,00 - 0,79 0,39

dbz при min h 0,34 0,80 1,00 - 0,60 0,84

dbz при max h 0,20 0,61 1,00 - 0,41 0,61

Кол-во h 1,88 3,82 3,52 - 2,50 4,54

Естественно, в табл. 2 приведены средние значения. Они варьируют в силу фактора случайности, но вариация незначительна. Кроме того, значения могут быть уточнены за счет уменьшения шага изменения порога Ah. Таким образом, используя АКС, зная необходимые параметры как последовательности, так и разладки, можно оценить оптимальный порог обнаружения разладки h для любого момента to случайной гауссовской последовательности.

Литература

1. Ширяев А.Н. Статистический последовательный анализ. М., 1969.

2. Никифоров Н.В. Последовательное обнаружение изменения свойств временных рядов. М., 1983.

3. ХаринЮ.С., СтепановаМД Практикум на ЭВМ по мат. статистике. Минск, 1987.

4. Hinkley D. V. //Biometrika. 1971. Vol. 58. № 3. P. 509-523.

5. Вальд А. Последовательный анализ. М., 1960.

6. PageE.S. //Technometrics. 1963. Vol. 5. № 3. P. 307-315.

7. borden G. II Arm. Matfa. Statist. 1971. Vol. 42. № 6. P. 1897-1908.

Марийский государственный университет, г. Йошкар-Ола 29 марта 2004 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.