Использование группировки для увеличения мощности непараметрического критерия, основанного на превышающих наблюдениях

Райфельд М.А.

Известия вузов России. Радиоэлектроника. 2006. Вып. 2======================================

УДК 621.391.2

М. А. Райфельд

Новосибирский государственный технический университет

Использование группировки для увеличения мощности непараметрического критерия, основанного на превышающих наблюдениях

Исследован подход к решению задачи обнаружения сигнала на фоне помехи, отличающейся дисперсией, в условиях непараметрической априорной неопределенности, направленный на увеличение мощности непараметрического критерия, основанного на превышающих наблюдениях. Предлагаемый подход базируется на предварительной группировке наблюдений с помощью пороговой процедуры.

Непараметрический критерий, ранговый алгоритм, статистика, вероятность ложной тревоги, мощность правила, различение гипотез, плотность вероятности

Во многих задачах вторичной обработки в радиолокации, связи, навигации актуальной является задача обнаружения сигналов, отличающихся дисперсией от помех, на фоне которых они наблюдаются. Классические байесовские методы различения гипотез неприменимы в условиях априорной неопределенности относительно вида и параметров распределения отсчетов сигнала и помехи. В подобных случаях обычно используются непараметрические тесты (например, знаковые или ранговые), основанные на статистиках, инвариантных к виду распределения помехи, и позволяющие благодаря свойству инвариантности стабилизировать вероятность ложной тревоги а на заданном уровне в обнаружителе Неймана-Пирсона (в случае независимых наблюдений) [1]. Некоторые из таких статистик обладают чувствительностью к наличию в выборке отсчетов полезного сигнала, отличающихся дисперсией от отсчетов помехи. Мощность непараметрического критерия зависит от вида распределения наблюдений.

Рассмотрим более подробно вопрос об использовании непараметрического критерия, основанного на превышающих наблюдениях, в задаче различения помехи и сигнала на основе контраста их дисперсий. Если плотности вероятности помехи и сигнала принадлежат к одному типу и отличаются параметром (дисперсией), то функции распределения наблюдений могут быть описаны с помощью уравнения

(*/ Ц) = ^ (х), (1)

где (х), Т7! (х) - функции распределения наблюдений помехи и сигнала соответственно, ц - параметр контраста дисперсий (параметр масштаба). Если ц > 1, то (1) означает, что дисперсия сигнала в ц2 раз больше дисперсии помехи. При 0 < ц < 1 дисперсия помехи в (1/ ц )2 раз больше дисперсии сигнала. Без ограничения общности будем далее полагать, что ц > 1.

При контрасте дисперсий наблюдений помехи и сигнала достаточно часто используют следующие двухвыборочные ранговые алгоритмы [2]:

28

тест, основанный на квадратах рангов: 51 = ^I Я,- '-

/=1

т + п + 1

критерий Ансари-Брэдли: 82= ^

/=г

т + п + 1 2

Я-

2

т + п + 1

(рис. 1, кривые 3);

2

Здесь т, п - объемы рабочей и опорной выборок соответственно; Я, - ранг /-го отсчета рабочей выборки, найденный для объединенной выборки, состоящей из (т + п) отсчетов. Приведенные критерии при гауссовском распределении наблюдений существенно проигрывают классическому алгоритму, использующему для обнаружения контраста дис-

т

персий статистику суммы квадратов наблюдений 5 = ^ (х,) (рис. 1, кривые 4).

/=1

В статье рассматривается подход к различению сигнала и помехи, отличающихся дисперсиями, основанный на критериях превышающих наблюдений [3]. Двухвыборочный критерий, основанный на превышениях, строится на основе одной из приведенных ниже статистик:

т

т=Х

/ =1

либо

п

т

= УV,- , у ] /=1 ]=1

Т2 = У V + У л,

(2)

(3)

vmln < у] < х

шах>

-

(рис. 1, кривые 1). В формулах (2), (3)

Г0, Уш1п < X < Уmax, х

V ■ = ^ Т| ■ = ^

11 Iх/ < уш1п )

и(х/ >

ушах ); I1, (у] < хш1п ) ^ (у] > хшах )

- индикаторы превышений (х^ - /-й отсчет рабочей выборки X = {х^, х2, ... стоящей из т элементов; У] -]-й отсчет опорной выборки У = {у^, У2, ...,уп}, состоящей из п элементов; хш1п, хшах, уш1п, ушах - минимальный и максимальный элементы рабочей и опорной выборок соответственно). Предполагается, что в выражении (2) т > 1 и Т получен при п > 2 в связи с необходимостью находить минимальный и максимальный

элементы опорной выборки. В выражении в ,

р а = 10

(3) т > 2 и п > 2. В случае, если рабочая и к-'**..-''..-'''

опорная выборки состоят из наблюдений, 0 8 характеризующихся одной и той же плот-

10

,-3

ностью вероятности (гипотеза Н°), распределения статистик Т и Т2 (Р (Т.| Н°) и Р (Т21 Н°) соответственно) не зависят от вида распределения наблюдений и опреде-

0.6 0.4

0.2 Ь

0 1

10-4 .Г/ у

// /// У/ о

/

10

-3

,-4

■1 -2 ■3 ■4

1.6

2.2

Рис. 1

2.8

2

ляются только параметрами алгоритма (размерами выборок). Так, распределение статистики 7 определяется выражением

г^ / \ ^ / \~im-7 г ^ / ч ^ / \Т)7

х

Р (7] Н 0 ) = п (п -1) СТт | | [^ ( 2 ) - (5 )]т-7] {1 -[^0 ( 2 ) - (5 )]}71

п-, ст1 п(п-1)

х[(2 ) - (5)]п 2 Р0 (5) Р0 ( 2 ) ё5ё2 = ~т

ст+п (7! + 2)

где Сь = —-тЬ-1—)— биномиальный коэффициент. а!( Ь - а)!

Порог Сц , обеспечивающий заданную вероятность ложной тревоги а, определяется в результате решения уравнения

т

а= X Р (7х| Н 0 ) . (4)

71 =СГ1

Правило принятия решения ф (71) формулируется следующим образом:

Г1, 71 > СТ ;

97 > = {0, 7, < сТ1. (5)

а вероятность правильного обнаружения (мощность правила в) рассчитывается по формуле

т

в= X Р7Н1). (6)

7 =Ст1

Для определения распределения статистики 72 введем две вспомогательные статистики I и ]. Статистику I определим как количество к элементов из рабочей выборки, меньших Ут1п: г = к. В том случае, если некоторое количество элементов к' из опорной выборки меньше хт|п, будем считать г = -к'. Статистику ] определим как количество I элементов из рабочей выборки, больших утах : ] = I. Аналогично, если некоторое количество элементов Г из опорной выборки больше хтах, то ] = -Г. Присвоение статистикам I и у указанных знаков связано с учетом их значений в выражении для статистики 72. Можно отметить, что 72 = г + ].

Рассмотрим совокупность следующих простейших несовместных событий, связанных с вычислением статистики 72 :

• (г > 0) & (] > 0). Событие, заключающееся в том, что имеются I наблюдений из рабочей выборки, меньших утт, и у наблюдений, больших утах. Обозначим вероятность такого события как Р1 (г, ]).

• (г < 0) & (] < 0) . Событие, заключающееся в том, что имеются г наблюдений из опорной выборки, меньших хтт, и ] наблюдений, больших хтах. Этому событию сопоставим вероятность Р2 ( -г, - ] ).

—00 —00

======================================Известия вузов России. Радиоэлектроника. 2006. Вып. 2

• (г < 0) & (] > 0) & (] < т). Событие, заключающееся в том, что имеются I наблюдений из опорной выборки, меньших хтт, и несколько (но не все т) наблюдений у из рабочей выборки, больших утах . Вероятность такого события Р3 (-г, у).

• (г > 0) & (г < т) & (у < 0). Событие, заключающееся в том, что имеются несколько (но не все) наблюдений I из рабочей выборки, меньших >'тт, и у наблюдений из опорной выборки, больших хтах. Вероятность такого события обозначим Р4 (г, - у).

• (г = т). Событие, заключающееся в том, что все наблюдения из рабочей выборки меньше у|пт (следовательно, все элементы опорной выборки больше хтах и у = -п). Вероятность этого события Р5 (т, -п) .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• (у = т). Событие, заключающееся в том, что все наблюдения из рабочей выборки больше утах (следовательно, все элементы опорной выборки меньше х^п и г = -п). Вероятность такого события Р6 ( -п, т ).

Распределение статистики У? при гипотезе Н0 определяется в результате интегрирования двухмерного распределения Р^ (г, у'|Н0), являющегося композицией шести функций р - Р6, описанных выше и определенных на неперекрывающихся областях:

. да г

Р (г, у\Н 0 ) = п (п -1) .| . |(т-. | | [1 - Р (г)] [р О)]' х г! ]!(т-г- ] 1| J J

у ' -да -да

ст-2

х[р (г) - Р (5)]т+п-г-]-2 Р0 (5)Р0 (г)dsdz = Ст+п- -] -2 ,

Ст+п

причем здесь г, у е [1, т -1] и г + у < т .

По аналогии, вероятность Р? (-г, - ]jHo) может быть определена как

сп-2

п I • -1,7 \ ст+п-г- у-2 . . г1 ^

р2 Н-АН0) =-^—;l, у е ип-1] и г+у < п,

Ст+п

а вероятность Р3 как

да да иг

Р3 (у, -г|Н0) = тп(т - 1)(п -1)С]тСп | | | | [1 -р (и)]] х

—да —да —да —да

х[Р0 (и) - Р (V)]п+^'—2 [Р (5)]г [Р0 (г) -Р (5)]п+т—-—2 х

Сп—г - сп—г

хР0 (и ) р0 (V ) Р0 ( 5) р0 ( г ) dudvd5dг =

Сп+т

при г е [1,п -1]; у е [1,т -1].

По аналогии,

Ст-} _ ст-}

п I ■ I и \ т+п-г -]-1 т +п-г -] -2 . Г1 Л • П Л

р4 (_i, Ано)=-—~т-—; 1 е [1, т -1]; зе [1, п -1] •

сп+т

Вероятность Р5 (т, -п|Но ) определяется соотношением

да

Р5 (т, -п\Нд) = т | [^ (г)]П [1 -^ (г)]т-1Рд (г)йг = 1/ С^т ,

—оо ,п

Р6 (-п, т\Н о ) = 1/С

Результирующее распределение Р2 (г, з'|Но) имеет вид:

Р5 (и АН о), г = -п;3 = т;

, Р6 (и АНо), г=т;3 = -п•

Распределение Р Но) получается в результате интегрирования (суммирования)

п

функции (7) по одной из переменных: Р(721Но) = ^ Р^ (г, Т2 -/|Но) •

Р (г, 3|Но ) =

(7)

1=—п

Порог обнаружения С^ и вероятность правильного обнаружения в правила рассчитываются по формулам (4)-(6). Зависимости мощности критерия, основанного на статистике Т2, от контраста дисперсий приведены на рис. 1 (кривые 1) для нескольких значений а

при п = т = 32. Видно, что этот непараметрический критерий имеет мощность, сопоставимую с мощностями упомянутых критериев Ансари-Брэдли (см. рис. 1, кривые 3) и квадратов рангов (см. рис. 1, кривые 2). При этом в вычислительном плане статистика критерия, основанного на превышающих наблюдениях, оказывается существенно более эффективной, чем статистики ранговых критериев, из-за отсутствия процедуры ранжирования.

Доказано [2], что критерии, использующие статистики 7] и 72, являются локально

наиболее мощными в случае равномерного распределения наблюдений. Исследования показали, что статистики этого типа оказываются более эффективными для плотностей, описываемых функциями с ограниченными областями определения.

Далее предложен способ увеличения мощности критериев превышающих наблюдений, основанный на предварительной параметрической группировке исходных отсчетов по уровням с помощью пороговой процедуры 0(2;и), где 2 = {г^, Г2, ..., Г1} - выборка

отсчетов; и = {и^, «2, •••, ик} - набор порогов. Например, с помощью пороговой процедуры 0 (2; и) со скалярным порогом и исходную выборку 2 можно разбить на две груп-

пы: Ху и . При этом группа состоит из элементов 2, превышающих порог и, а - из элементов, меньших этого порога.

В результате такой процедуры формируются группы наблюдений, описываемые различными плотностями, с ограниченными областями определения (рис. 2). Исходная плотность распределения представляется комбинацией плотностей групп: Р (г) = уР (г, и) +

Р 1 1

г,и К \ Р2 ( г, и )

ш

0 и

Рис. 2

+ (1 -у)Р2 (г,и) , где у= | Р(г)ёг .

Если для обнаружения сигнала используется двухвыборочный непараметрический алгоритм, то группировке с использованием процедуры 0 (2;и) подвергаются наблюдения как рабочей, так и опорной выборок. В результате использования процедур 0 (X ;и) и 0 (Уи) к наблюдениям рабочей X и опорной У выборок формируются группы Х1Х2 и Уу соответственно. Непараметрический тест применяется к этим группам. Результирующая статистика формируется из статистик, рассчитанных для каждой пары соответствующих групп в результате, например суммирования последних. При нулевой гипотезе соответствующие группы опорной и рабочей выборок состоят из наблюдений, характеризующихся одной и той же плотностью вероятности, поэтому статистики критерия, рассчитанные для каждой из групп наблюдений, обладают непараметрическим свойством. В то же время результирующая статистика указанным свойством не обладает.

Далее для критериев масштабных различий предлагается использовать процедуру группировки с набором порогов вида и = {-и,и}. С помощью пороговой процедуры

(х <-и) или (х > и), а из наблюдений опорной выборки - группы у и У2 с аналогичными условиями. С учетом указанного способа группировки при нулевой гипотезе вероятность попадания отсчета х в группу Х1 (отсчета у в группу у) определяется соотношением

р = ¿0 (и ) - ¿0 (-и ). (8)

Обозначим статистику критерия, основанного на превышающих наблюдениях, примененного к группе ХУ1, через 721 и примененного к группе Х2У2, через Т22. Плотность вероятности совместного распределения этих статистик при нулевой гипотезе определяется выражением

п т

- \п-1

Р(Т21,Т21\Но) = XI с1пр1 (1 -р)п-/Р(721;к,/Но)

го,

/=0 к=0

^к к /•, лт-к

*сктрк (1 - р)т-кР(Т22;т - к,п -/\Н0 ),

(9)

33

г

эо

где к, / - количество отсчетов из рабочей и опорной выборок, попавших в группы X и 7 соответственно1; Р (Т>ь к, ) - распределение статистики Т21 при числе отсчетов в рабочей и опорной выборках к и / соответственно; Р (Т22;т - к, п - /Н0) - распределение статистики Т22 при числе отсчетов в рабочей и опорной выборках (т - к) и (п - /) соот-

ветственно.

Выражение (9) можно привести к виду

п т

Р (Т21, Тм| Но ) = XI сПсктрк+/ (1 - р )т+п-к-/Р (Т21; к,/Но )Р (Т22; т - к, п -/Но ). (10) / =0 к=0

При вычислении статистики Т2 предполагается, что любая группа содержит по крайней мере два элемента (это необходимо для вычисления максимального и минимального отсчетов выборки). Поскольку в группе может оказаться меньше элементов либо не оказаться элементов вообще, то необходимо доопределить статистику Т2, например следующим образом:

к, (/ = 0) & (к > 0); -/, (к = 0) & (/ > 0); 0, к = / = 0; к, (/ = 1) & (к > 1); -/, (к = 1) & (/ > 1); 0, к = / = 1.

Если результирующей статистикой является сумма Т^ = Т21 + Т22, то ее распределе-

т

ние определяется выражением Р (Т1Н0 ) = I Р (?21, Т^ - Т211Н0 ).

Т21 =-п

Из (10) следует, что вероятность ложной тревоги правила, использующего статистику Ту, является функцией вероятности р (8) и, следовательно, зависит (опосредованно

через р) от вида распределения наблюдений ^0 (х) и порога и . Можно, однако, указать

такое значение р, которое приведет к наи-

Т> =

в 0.8 0.6 0.4

0.2 у

0

большей вероятности ложной тревоги а (т. е. наименее благоприятному распреде-

лению

Ту

при нулевой гипотезе

1.4

2.6

Рис. 3

Р (Те| Н0)). Исследование функции а (р)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

*

показывает, что значение а = а , при данном распределении ^0 (х) соответствующее наименее удачному выбору порога

1 Отсюда следует, что т - к, п - / - количество отсчетов в группах Х2 и 72 соответственно. 34

группировки и, имеет место при р = 0.5. Таким образом, наименее благоприятное распределение при нулевой гипотезе определяется выражением

т

Р* (Тх|Н0) = Е Р* (Т21,Т2 -721Н0),

T21 =-n

n m

Z Z CnCm,r(T21,k,l\Hо)P(T22;m-k,n-l|H„)

где P* (T21, T22I Ho) = -—-

Выбирая порог обнаружения Сt по наименее благоприятному распределению при

нулевой гипотезе P* Ho), можно гарантировать, что при любых распределениях наблюдений Fo (х) и любом выборе порога группировки u вероятность ложной тревоги не

превысит а*. Задаваясь конкретным видом распределения наблюдений (например, гаус-совским), можно выбрать порог группировки u таким образом, чтобы мощность правила максимизировалась. В том случае, если вид распределения наблюдений будет отличаться от ожидаемого, возможно уменьшение мощности правила.

Для демонстрации эффективности предлагаемого подхода на рис. 3 приведена зависимость мощности правила, использующего статистику Ts, от величины контраста дисперсий сигнала и помехи в (ц) при гауссовском распределении наблюдений (кривые 1).

Для сравнения на том же графике приведены аналогичные зависимости для критерия, использующего статистику T2 (кривые 2). Из рис. 3 видно, что правило, использующее группировку наблюдений, обеспечивает большую мощность.

Библиографический список

1. Теория обнаружения сигналов / Под ред. П. А. Бакута. М.: Радио и связь, 1984. 440 с.

2. Гаек Я., Шидак З. Теория ранговых критериев М.: Наука, 1971. 375 с.

3. Райфельд М. А. Непараметрический алгоритм различения стохастических сигнала и помехи, отличающихся дисперсиями // Изв. вузов. Радиоэлектроника. 1991. № 1. С. 15-21.

M. A. Rajfeld

Novosibirsk state technical university

Using of grouping for increase strength of non parametrical test based on exceeding samples

Approach used for increase strength of two-sample non parametrical test of scale distinctions is researched. This approach is based on a prior grouping of initial samples by the threshold procedure.

Nonparametric criterion, rank algorithm, statistics, probability of alpha error, power, test of hypothesis, probability density

Статья поступила в редакцию 13 июня 2005 г.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Райфельд М.А.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Райфельд М.А.

Using of grouping for increase strength of non parametrical test based on exceeding samples

Текст научной работы на тему «Использование группировки для увеличения мощности непараметрического критерия, основанного на превышающих наблюдениях»